DASC7606 - Remi‘s blog

主题 9 篇博文

DASC7606

Class 4 - Convolutional Neural Networks cont.

来自 beautifulremi 发表在 DASC7606 发表于 02 Oct 2025

1.ImageNet挑战赛与深度学习的革命 1.1. K-最近邻（K-Nearest Neighbors, K-NN）算法 1.1.1. CIFAR-10 数据集 CIFAR-10数据集 * 它包含60000张非常小的彩色图片（32×32 像素）。 * 这些图片共分为10个类别，例如飞机、汽车、鸟、猫等。这个数据集在机器学习领域非常经典，可以把它想象成是图像分类任务的“新手村”。我们的目标就是训练一个模型，让它能够正确识别出任意一张CIFAR-10图片属于哪个类别。 K-NN的思想非常直观，可以概括为“近朱者赤，近墨者黑”。要判断一个新样本（测试图片）属于哪个类别，我们不进行复杂的“学习”，而是直接在所有已知样本（训练图片）中找到和它最相似的K个邻居，然后采取“少数服从多数”的原则，看这K个邻居中哪个类别的数量最多，就把新样本归为那一类。要实现这个算法，有两个关键问题需要解决： 1. 如何衡量两张图片之间的“…

Class2.1 Bootstarp相关

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. Bootstrap 1.1. 标准陈述 * 假设你有一个原始样本 $\mathbf{x}=(x_1,x_2,...,x_n)$ 。 * “有放回地 (with replacement)” 随机抽样n次，就构成了一个自助样本 (bootstrap sample) $\mathbf{x}^=(x_1^,x_2^,...,x_n^)$ * 我们这样做的原因是一次自助抽样得到的结果偶然性太大，没有代表性，我们的目标是重复这个过程，生成大量（B次）的自助样本，例如 $\mathbf{x}^{*1},\mathbf{x}^{*2},...,\mathbf{x}^{*B}$ * 在有了这些样本后，我们就可以考虑从样本到分布。我们首先从原始样本计算出一个我们关心的统计量 $\mathbf{x}…

Class 4 - MCMC

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 马尔可夫链 1.1. 马尔可夫性质 & 转移矩阵马尔可夫链是一个随机过程 ${x_i}$ ，它满足以下条件： $$P(x_i|x_0,\ldots,x_{i-1})=p(x_i|x_{i-1})$$ 我们可以通俗地理解为，系统在未来时刻 $i$ 的状态只取决于它当前时刻 $i−1$ 的状态，而与它过去的所有状态 $(x_0,\ldots,x_{i-2})$ 都无关。我们定义随机过程 ${x_i}$ 所有可能取值的集合为状态空间。状态空间可以是有限的，也可以是无限的。对于状态有限的离散马尔可夫链，我们可以用一个矩阵 $P$ 来描述状态之间转移的规则。矩阵中的每一个元素 $p_…

Class 3 - Lindley’s Paradox, Bayes Factor and Hierarchical Model

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

似然原则（Likelihood Principle）贝叶斯方法遵循似然原则：我们所知道的关于数据/样本的一切信息都包含在似然函数中。似然函数，即 $L(\theta|\mathrm{data})$ 也就是在给定我们观测到的数据的情况下，关于未知参数 $θ$ 的函数。这个函数描述了：在不同的 $θ$ 取值下，我们观测到当前这组“数据”的可能性有多大。似然原则的意思是，一旦你收集到了数据，这组数据能告诉你关于参数 $θ$ 的所有信息，都已经被压缩进了这个似然函数 $L(θ∣data)$ 中了。除了这个函数本身，其他任何关于实验设计或采样过程的额外信息（比如你为什么停止收集数据）对于推断 $θ$ 都是无关紧要的。似然原则的推论：如果两种不同采样计划/分布下的似然函数，就我们关心的参数 $θ$ 而言是成比例的，那么基于这两种采样分布对 $θ$ 的统计推断应该是相同的。假设有两个不同的实验（比如实验A和实验B）…

Class 2.2

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 基本知识 1.1. 贝叶斯定理 * 先验分布 (Prior): * 符号表示为: $θ∼π$。 * 这代表了在观测到任何数据之前，我们对未知参数 $θ$ 的信念。这个信念是用一个概率分布 $π(θ)$ 来量化的。 * 比如，在估计硬币正面朝上的概率 $θ$ 时，我们的先验可以是一个在[0, 1]区间上的均匀分布，表示我们认为所有概率值都是同等可能的。 * 似然函数 (Likelihood): * 符号表示为: $:{X_1,...,X_n}|\theta\sim P_\theta$ 。 * 这描述了数据生成的机制。它告诉我们，如果参数 $θ$ 的真实值是某个特定值，那么我们观测到当前这组数据 ${X_1,...,X_n}$ 的可能性有多大。 * 似然函数…

Class 2 - Resampling Methods

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 引言 1.1. 统计推断的核心挑战：估计总体参数的性质（如方差、置信区间）在现实世界中，我们几乎永远无法得到“总体”的全部数据。比如，你想知道你开发的App所有用户的平均使用时长，你不可能拿到每一个用户的数据。你只能随机抽取一部分用户（比如1000个）作为样本 (sample)。我们相信，我们拿到的这个样本并不是完全随机、毫无规律的，而是从一个更大的、遵循某种概率分布的总体 (population) 中抽取出来的。这个未知的总体分布就是 $F$。我们手里的样本数据，可以看作是这个神秘规律的具体体现。我们想通过分析手头有限的样本，来推断总体的某个特征，这个特征就被称为参数 (parameter) $θ$。我们无法直接得到 $θ$ ，但我们可以根据样本计算一个估计量 (estimate)，记作 $\widehat{\theta}$。这个 $\widehat{\theta}$ 是我们对真实值 $θ$ 的最佳猜测。我们通过一次抽样得到了一个估计值 $\widehat{…

Class 3 - Convolutional Neural Networks

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. Computer Vision 1.1. 应用 * 图像识别与视频搜索 (Image recognition and video search) * 这是最基础也最广泛的应用。 * 想想手机相册，你可以直接搜索“狗”、“沙滩”或者某个朋友的名字，系统就能自动找出所有相关的照片。这背后就是图像识别技术在起作用。对于视频，像YouTube这样的平台会利用CV技术自动为视频打上标签、审查内容，甚至在视频中进行广告植入。 * 安防 (Security) * 人脸识别、虹膜识别、指纹识别和入侵检测。 * 这些技术统称为生物识别技术。每天用Face ID解锁手机，或者在火车站“刷脸”进站，都是计算机视觉在安防领域的应用。更进一步，在智慧城市监控系统中，CV技术可以实时分析成千上万个摄像头的画面，实现对异常事件（如人群骚乱、交通事故、非法入侵）的自动检测和报警，极大地提升了公共安全效率。 * 医疗影像处理 (Medical image processing) * 这是一个非常重要的前沿领域。…

Class 2 - Neural Networks

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. NN Basics 1.1. The Perceptron 1.1.1. 单输出感知机感知机是神经网络的基本构建模块，一个感知机的工作流程可以分三步来看： * 输入与权重 (Inputs & Weights)：感知机接收多个输入信号 $x_1,x_2,\ldots,x_N$ 。每一个输入信号都伴随着一个权重 (weight) $w_1,w_2,\ldots,w_N$ 。这个权重代表了对应输入信号的重要性。权重越大，说明该输入对最终结果的影响也越大。此外，还有一个特殊的输入“1”，它的权重是 $b$，我们称之为偏置 (bias) 。 * 加权求和 (Summation)：感知机的第一步工作是把所有的输入信号乘以它们各自的权重，然后全部加起来，得到一个总的聚合信号 $s$…