Class 4 - Convolutional Neural Networks cont.

1.ImageNet挑战赛与深度学习的革命 1.1. K-最近邻(K-Nearest Neighbors, K-NN)算法 1.1.1. CIFAR-10 数据集 CIFAR-10数据集 * 它包含60000张非常小的彩色图片(32×32 像素)。 * 这些图片共分为10个类别,例如飞机、汽车、鸟、猫等。 这个数据集在机器学习领域非常经典,可以把它想象成是图像分类任务的“新手村”。我们的目标就是训练一个模型,让它能够正确识别出任意一张CIFAR-10图片属于哪个类别。 K-NN的思想非常直观,可以概括为“近朱者赤,近墨者黑”。要判断一个新样本(测试图片)属于哪个类别,我们不进行复杂的“学习”,而是直接在所有已知样本(训练图片)中找到和它最相似的K个邻居,然后采取“少数服从多数”的原则,看这K个邻居中哪个类别的数量最多,就把新样本归为那一类。 要实现这个算法,有两个关键问题需要解决: 1. 如何衡量两张图片之间的“…

Class 5 - Unconstrained Case

1. 最优性条件 (Optimality Condition) 1.1. 优化问题 任何一个优化问题,无论是在机器学习、金融、还是工程领域,我们都可以用三个核心组件来描述它: * 目标函数 (Objective Function) $f:\mathbb{R}^n\mapsto\mathbb{R}$  这是我们希望最小化(或最大化)的那个函数。在机器学习中,这通常是损失函数 (Loss Function),比如衡量模型预测值与真实值差距的均方误差。 * 优化变量 (Optimization Variable) $x\in\mathbb{R}^n$ 这是我们可以调整和控制的变量,以期改变目标函数的值。在机器学习中,$x$ 通常是模型的参数或权重 (weights)。我们训练模型的过程,就是在寻找一组最优的权重 $x$ 来让损失函数 $f(x)…

Class 5 - Probability and Statistics in AI

1.概率论基础 (Probability Basics) 1.1. 基本概念 在做任何随机试验之前,我们首先要明确所有可能出现的结果。把这些所有可能的结果收集到一个集合里,这个集合就是样本空间,我们用大写的希腊字母 $Ω$ (Omega) 来表示。 光有所有可能性的列表还不够,我们还需要知道每一种可能性发生的概率有多大。一个概率空间,或者叫概率模型,就是在样本空间的基础上,为每一个样本点 $ω$ 都赋予一个概率值 $P(ω)$。 这个概率值的分配必须遵守两条基本法则: * 非负性与归一性:任何一个基本结果的概率 P(ω) 必须在0和1之间,即 $0≤P(ω)≤1$。 * 完备性:所有样本点(基本结果)的概率加起来必须等于1,这代表着试验发生时,必然有且只有一个结果会出现。用公式表示就是: $$\sum_{\omega\in\Omega}P(\omega)=1$…

Class2.1 Bootstarp相关

1. Bootstrap 1.1. 标准陈述 * 假设你有一个原始样本 $\mathbf{x}=(x_1,x_2,...,x_n)$ 。 * “有放回地 (with replacement)” 随机抽样n次,就构成了一个自助样本 (bootstrap sample) $\mathbf{x}^=(x_1^,x_2^,...,x_n^)$ * 我们这样做的原因是一次自助抽样得到的结果偶然性太大,没有代表性,我们的目标是重复这个过程,生成大量(B次) 的自助样本,例如 $\mathbf{x}^{*1},\mathbf{x}^{*2},...,\mathbf{x}^{*B}$ * 在有了这些样本后,我们就可以考虑从样本到分布。我们首先从原始样本计算出一个我们关心的统计量 $\mathbf{x}…

Class 4 - MCMC

1. 马尔可夫链 1.1. 马尔可夫性质 & 转移矩阵 马尔可夫链是一个随机过程 ${x_i}$ ,它满足以下条件: $$P(x_i|x_0,\ldots,x_{i-1})=p(x_i|x_{i-1})$$ 我们可以通俗地理解为,系统在未来时刻 $i$ 的状态只取决于它当前时刻 $i−1$ 的状态,而与它过去的所有状态 $(x_0,\ldots,x_{i-2})$ 都无关 。 我们定义随机过程 ${x_i}$ 所有可能取值的集合为状态空间。状态空间可以是有限的,也可以是无限的。对于状态有限的离散马尔可夫链,我们可以用一个矩阵 $P$ 来描述状态之间转移的规则 。 矩阵中的每一个元素 $p_…

Class 3 - Lindley’s Paradox, Bayes Factor and Hierarchical Model

似然原则(Likelihood Principle) 贝叶斯方法遵循似然原则:我们所知道的关于数据/样本的一切信息都包含在似然函数中。 似然函数,即 $L(\theta|\mathrm{data})$ 也就是在给定我们观测到的数据的情况下,关于未知参数 $θ$ 的函数。这个函数描述了:在不同的 $θ$ 取值下,我们观测到当前这组“数据”的可能性有多大。 似然原则的意思是,一旦你收集到了数据,这组数据能告诉你关于参数 $θ$ 的所有信息,都已经被压缩进了这个似然函数 $L(θ∣data)$ 中了。除了这个函数本身,其他任何关于实验设计或采样过程的额外信息(比如你为什么停止收集数据)对于推断 $θ$ 都是无关紧要的。 似然原则的推论:如果两种不同采样计划/分布下的似然函数,就我们关心的参数 $θ$ 而言是成比例的,那么基于这两种采样分布对 $θ$ 的统计推断应该是相同的。 假设有两个不同的实验(比如实验A和实验B)…

Class 2.2

1. 基本知识 1.1. 贝叶斯定理 * 先验分布 (Prior): * 符号表示为: $θ∼π$。 * 这代表了在观测到任何数据之前,我们对未知参数 $θ$ 的信念。这个信念是用一个概率分布 $π(θ)$ 来量化的。 * 比如,在估计硬币正面朝上的概率 $θ$ 时,我们的先验可以是一个在[0, 1]区间上的均匀分布,表示我们认为所有概率值都是同等可能的。 * 似然函数 (Likelihood): * 符号表示为: $:{X_1,...,X_n}|\theta\sim P_\theta$ 。 * 这描述了数据生成的机制。它告诉我们,如果参数 $θ$ 的真实值是某个特定值,那么我们观测到当前这组数据 ${X_1,...,X_n}$ 的可能性有多大。 * 似然函数…

Class 2 - Resampling Methods

1. 引言 1.1. 统计推断的核心挑战:估计总体参数的性质(如方差、置信区间) 在现实世界中,我们几乎永远无法得到“总体”的全部数据。比如,你想知道你开发的App所有用户的平均使用时长,你不可能拿到每一个用户的数据。你只能随机抽取一部分用户(比如1000个)作为样本 (sample)。 我们相信,我们拿到的这个样本并不是完全随机、毫无规律的,而是从一个更大的、遵循某种概率分布的总体 (population) 中抽取出来的。这个未知的总体分布就是 $F$。我们手里的样本数据,可以看作是这个神秘规律的具体体现。 我们想通过分析手头有限的样本,来推断总体的某个特征,这个特征就被称为参数 (parameter) $θ$。我们无法直接得到 $θ$ ,但我们可以根据样本计算一个估计量 (estimate),记作 $\widehat{\theta}$。这个 $\widehat{\theta}$ 是我们对真实值 $θ$ 的最佳猜测。 我们通过一次抽样得到了一个估计值 $\widehat{…