Class 4 - Convolutional Neural Networks cont.

1.ImageNet挑战赛与深度学习的革命 1.1. K-最近邻(K-Nearest Neighbors, K-NN)算法 1.1.1. CIFAR-10 数据集 CIFAR-10数据集 * 它包含60000张非常小的彩色图片(32×32 像素)。 * 这些图片共分为10个类别,例如飞机、汽车、鸟、猫等。 这个数据集在机器学习领域非常经典,可以把它想象成是图像分类任务的“新手村”。我们的目标就是训练一个模型,让它能够正确识别出任意一张CIFAR-10图片属于哪个类别。 K-NN的思想非常直观,可以概括为“近朱者赤,近墨者黑”。要判断一个新样本(测试图片)属于哪个类别,我们不进行复杂的“学习”,而是直接在所有已知样本(训练图片)中找到和它最相似的K个邻居,然后采取“少数服从多数”的原则,看这K个邻居中哪个类别的数量最多,就把新样本归为那一类。 要实现这个算法,有两个关键问题需要解决: 1. 如何衡量两张图片之间的“…

Class2.1 Bootstarp相关

1. Bootstrap 1.1. 标准陈述 * 假设你有一个原始样本 $\mathbf{x}=(x_1,x_2,...,x_n)$ 。 * “有放回地 (with replacement)” 随机抽样n次,就构成了一个自助样本 (bootstrap sample) $\mathbf{x}^=(x_1^,x_2^,...,x_n^)$ * 我们这样做的原因是一次自助抽样得到的结果偶然性太大,没有代表性,我们的目标是重复这个过程,生成大量(B次) 的自助样本,例如 $\mathbf{x}^{*1},\mathbf{x}^{*2},...,\mathbf{x}^{*B}$ * 在有了这些样本后,我们就可以考虑从样本到分布。我们首先从原始样本计算出一个我们关心的统计量 $\mathbf{x}…

Class 4 - MCMC

1. 马尔可夫链 1.1. 马尔可夫性质 & 转移矩阵 马尔可夫链是一个随机过程 ${x_i}$ ,它满足以下条件: $$P(x_i|x_0,\ldots,x_{i-1})=p(x_i|x_{i-1})$$ 我们可以通俗地理解为,系统在未来时刻 $i$ 的状态只取决于它当前时刻 $i−1$ 的状态,而与它过去的所有状态 $(x_0,\ldots,x_{i-2})$ 都无关 。 我们定义随机过程 ${x_i}$ 所有可能取值的集合为状态空间。状态空间可以是有限的,也可以是无限的。对于状态有限的离散马尔可夫链,我们可以用一个矩阵 $P$ 来描述状态之间转移的规则 。 矩阵中的每一个元素 $p_…

Class 3 - Lindley’s Paradox, Bayes Factor and Hierarchical Model

似然原则(Likelihood Principle) 贝叶斯方法遵循似然原则:我们所知道的关于数据/样本的一切信息都包含在似然函数中。 似然函数,即 $L(\theta|\mathrm{data})$ 也就是在给定我们观测到的数据的情况下,关于未知参数 $θ$ 的函数。这个函数描述了:在不同的 $θ$ 取值下,我们观测到当前这组“数据”的可能性有多大。 似然原则的意思是,一旦你收集到了数据,这组数据能告诉你关于参数 $θ$ 的所有信息,都已经被压缩进了这个似然函数 $L(θ∣data)$ 中了。除了这个函数本身,其他任何关于实验设计或采样过程的额外信息(比如你为什么停止收集数据)对于推断 $θ$ 都是无关紧要的。 似然原则的推论:如果两种不同采样计划/分布下的似然函数,就我们关心的参数 $θ$ 而言是成比例的,那么基于这两种采样分布对 $θ$ 的统计推断应该是相同的。 假设有两个不同的实验(比如实验A和实验B)…

Class 2.2

1. 基本知识 1.1. 贝叶斯定理 * 先验分布 (Prior): * 符号表示为: $θ∼π$。 * 这代表了在观测到任何数据之前,我们对未知参数 $θ$ 的信念。这个信念是用一个概率分布 $π(θ)$ 来量化的。 * 比如,在估计硬币正面朝上的概率 $θ$ 时,我们的先验可以是一个在[0, 1]区间上的均匀分布,表示我们认为所有概率值都是同等可能的。 * 似然函数 (Likelihood): * 符号表示为: $:{X_1,...,X_n}|\theta\sim P_\theta$ 。 * 这描述了数据生成的机制。它告诉我们,如果参数 $θ$ 的真实值是某个特定值,那么我们观测到当前这组数据 ${X_1,...,X_n}$ 的可能性有多大。 * 似然函数…

Class 2 - Resampling Methods

1. 引言 1.1. 统计推断的核心挑战:估计总体参数的性质(如方差、置信区间) 在现实世界中,我们几乎永远无法得到“总体”的全部数据。比如,你想知道你开发的App所有用户的平均使用时长,你不可能拿到每一个用户的数据。你只能随机抽取一部分用户(比如1000个)作为样本 (sample)。 我们相信,我们拿到的这个样本并不是完全随机、毫无规律的,而是从一个更大的、遵循某种概率分布的总体 (population) 中抽取出来的。这个未知的总体分布就是 $F$。我们手里的样本数据,可以看作是这个神秘规律的具体体现。 我们想通过分析手头有限的样本,来推断总体的某个特征,这个特征就被称为参数 (parameter) $θ$。我们无法直接得到 $θ$ ,但我们可以根据样本计算一个估计量 (estimate),记作 $\widehat{\theta}$。这个 $\widehat{\theta}$ 是我们对真实值 $θ$ 的最佳猜测。 我们通过一次抽样得到了一个估计值 $\widehat{…

Class 3 - Convolutional Neural Networks

1. Computer Vision 1.1. 应用 * 图像识别与视频搜索 (Image recognition and video search) * 这是最基础也最广泛的应用。 * 想想手机相册,你可以直接搜索“狗”、“沙滩”或者某个朋友的名字,系统就能自动找出所有相关的照片。这背后就是图像识别技术在起作用。对于视频,像YouTube这样的平台会利用CV技术自动为视频打上标签、审查内容,甚至在视频中进行广告植入。 * 安防 (Security) * 人脸识别、虹膜识别、指纹识别和入侵检测。 * 这些技术统称为生物识别技术。每天用Face ID解锁手机,或者在火车站“刷脸”进站,都是计算机视觉在安防领域的应用。更进一步,在智慧城市监控系统中,CV技术可以实时分析成千上万个摄像头的画面,实现对异常事件(如人群骚乱、交通事故、非法入侵)的自动检测和报警,极大地提升了公共安全效率。 * 医疗影像处理 (Medical image processing) * 这是一个非常重要的前沿领域。…

Class 2 - Neural Networks

1. NN Basics 1.1. The Perceptron 1.1.1. 单输出感知机 感知机是神经网络的基本构建模块,一个感知机的工作流程可以分三步来看: * 输入与权重 (Inputs & Weights):感知机接收多个输入信号 $x_1,x_2,\ldots,x_N$  。每一个输入信号都伴随着一个权重 (weight) $w_1,w_2,\ldots,w_N$  。这个权重代表了对应输入信号的重要性。权重越大,说明该输入对最终结果的影响也越大。此外,还有一个特殊的输入“1”,它的权重是 $b$,我们称之为偏置 (bias) 。 * 加权求和 (Summation):感知机的第一步工作是把所有的输入信号乘以它们各自的权重,然后全部加起来,得到一个总的聚合信号 $s$…