Class 5 - Probability and Statistics in AI

1.概率论基础 (Probability Basics) 1.1. 基本概念 在做任何随机试验之前,我们首先要明确所有可能出现的结果。把这些所有可能的结果收集到一个集合里,这个集合就是样本空间,我们用大写的希腊字母 $Ω$ (Omega) 来表示。 光有所有可能性的列表还不够,我们还需要知道每一种可能性发生的概率有多大。一个概率空间,或者叫概率模型,就是在样本空间的基础上,为每一个样本点 $ω$ 都赋予一个概率值 $P(ω)$。 这个概率值的分配必须遵守两条基本法则: * 非负性与归一性:任何一个基本结果的概率 P(ω) 必须在0和1之间,即 $0≤P(ω)≤1$。 * 完备性:所有样本点(基本结果)的概率加起来必须等于1,这代表着试验发生时,必然有且只有一个结果会出现。用公式表示就是: $$\sum_{\omega\in\Omega}P(\omega)=1$…

Class 4 - Multiple Integrals

1. 多重积分的引入与定义 $\int_a^bf(x)dx$ 是计算函数 $f(x)$ 的曲线在 x 轴上 [a, b] 这段线段上方所围成的面积。 现在,我们把这个概念升级到二维空间。例如, $\iint_{Q}f$ 就是计算一个函数曲面 $z=f(x,y)$ 在 xy 平面上的一个矩形区域 $Q=[a,b]\times[c,d]$ 方所围成的体积。 再进一步,$\iiint_Qf$ 是在一个三维的长方体区域 $Q$ 内对一个函数 $f(x,y,z)$ 进行积分。这个在物理世界中很难直观地想象成“四维体积”…

Class 3

1. 引言 想象在三维空间中有一个光滑的曲面 S,比如一个完美的球面或者一个平缓的山坡。我们在这个曲面上选取一个点 a。这个点所在的区域必须是“光滑”的,不能有任何“褶皱 (fold)”、“尖点 (cusp)”或者“自我相交 (self-crossing)”的地方。比如,一个圆锥体的顶点就不是光滑的。 * 我们怎么定义在 a 点的切平面呢?PPT给出的方法是: * 想象有一张无限大的、平坦的纸(我们称之为平面 $Π$),一开始它在曲面 S 的外部。 * 现在,我们慢慢地把这张纸向曲面 S 移动,直到它刚刚好在 a 点附近“接触”到曲面。 * 关键在于,这个接触是“相切”的,意味着平面只在 a 这一个点上碰到了曲面,而没有“切入”…

Class 2

2.1 全微分 (The Total Derivative) 高维导数概念 对于一个定义域为 $\mathcal{D}$ 的实数函数 $f:\mathcal{D}\to\mathbb{R}$ ,它在定义域的一个内点 (interior point) $a$ 可微 (differentiable),指的是下面这个极限存在 : $$\lim_{h\to0}\frac{f(a+h)-f(a)}{h}$$ 这个极限值就是我们熟知的导数,记为 $f^{\prime}(a)$ 这里的 $h$ 是一个实数(标量),代表着在输入上的微小变化量 。$f$ 被称为标量场 (scalar field),因为它的输出是一个标量(单个实数)…

Class 1

实向量空间 集合 $\mathbb{R}^n$ 是一个向量空间。这里的 $\mathbb{R}$ 代表所有实数的集合,而上标 $n$ 代表维度。$\mathbb{R}^n$ 中的元素是像 $(a1 ,a2 ,…,an )$ 这样的有序元组。这里的每一个 $a_i $ 都是一个实数。 * 我们看待这些元素有两种视角: * 点 (Points) - 几何视角:当我们把 $(a1 ,a2 ,…,an )$ 看作是 $n$ 维空间中的一个位置或坐标时,我们把它称作一个“点”。为了强调它的几何属性,我们通常用大写字母来表示,比如 $A,B,C$。你可以想象在地图上标记一个位置,那就是一个点。 * 向量 (Vectors) -…