Class 1 - AI Perspectives

1. 人工智能的历史与宏观视角 1.1. History of AI 1. 人工智能 (Artificial Intelligence, AI) - 始于 1950 年代 * PPT内容解读: * 在1952年,Arthur Samuel开发的跳棋程序是世界上最早的能够自主学习的程序之一,它可以通过与自己对弈来提升棋艺。这代表了早期AI的核心目标:在特定任务上(如下棋、逻辑推理)模拟甚至超越人类的智能。 * AI的诞生: “人工智能”这一术语正式诞生于1956年的达特茅斯会议。当时,一批顶尖科学家共同探讨了用机器模拟人类智能的可能性,为AI学科奠定了基础。 * 早期AI(符号主义AI):这个时期的主流方法是符号主义AI(也被称为“老式AI”或GOFAI)。它的核心思想是,智能行为可以通过对符号进行逻辑操作来模拟。这本质上是一种基于规则 (Rule-Based) 的方法,需要人类将知识和逻辑规则明确地编写成程序。 * AI寒冬 (AI Winter):虽然早期AI非常激动人心,但也因为技术瓶颈和过度承诺,导致在70年代末和80年代末出现了两次“…

Class 4 - Objective Function, Validation and Regularization

1. Loss Runction and Risk 1.1. 三种类型的问题 对于一个已经训练好的监督学习模型 $h(\cdot)$ ,以及一组给定的数据 $(x_i,y_i),i=1,...,n$ ,我们该如何评估这个模型的性能? * 模型 $h(\cdot)$:我们给它一个输入,它会给我们一个预测输出。 * 数据 $(x_i,y_i)$:这是我们拥有的“标准答案”数据集,其中: * $x_i\in\mathcal{R}^d$ 代表第 $i$ 个样本的输入特征 。它是一个 $d$ 维的向量,也就是说,每个样本都由 $d$ 个数值特征来描述。…

Class 3 - Variational Inference, VI

1. Variational Inference 1.1. 基本思想 首先,贝叶斯定理(Bayes' Theorem)的SOP如下: $$p(\theta|y)=\frac{p(y|\theta)p(\theta)}{\int p(y|\theta)p(\theta)d\theta}=\frac{p(y|\theta)p(\theta)}{p(y)}$$ $p(y)=\int p(y|\theta)p(\theta)d\theta$ 这个分母被称为“证据” (Evidence)…

Class 1

统计推断 (Statistical Inference) 基本定义 * 统计推断的核心是从已有的数值数据(样本)出发,对那些我们无法直接观测到的量(总体)做出结论。- 这个过程通常包含两个主要步骤: 1. 选择统计模型: 首先,针对产生数据的过程,选择一个合适的统计模型。 2. 从模型推断: 然后,基于这个模型进行演绎,得出结论或“命题”。 统计推断得出的结论有多种形式,常见的包括: * 点估计 (Point estimate): 用样本统计量(如样本均值$\overline{X}$)来估计未知的总体参数(如总体均值 $μ$) 。 * 区间估计 (Interval estimate): 例如置信区间,即给出一个参数可能存在的范围。 * 假设检验的结论: 对关于总体的某个假设(如 $H_0 :μ≤μ0$ )做出拒绝或不能拒绝的判断 。 * 聚类或分类结果: 将数据点进行分组(…

Class 4 - Multiple Integrals

1. 多重积分的引入与定义 $\int_a^bf(x)dx$ 是计算函数 $f(x)$ 的曲线在 x 轴上 [a, b] 这段线段上方所围成的面积。 现在,我们把这个概念升级到二维空间。例如, $\iint_{Q}f$ 就是计算一个函数曲面 $z=f(x,y)$ 在 xy 平面上的一个矩形区域 $Q=[a,b]\times[c,d]$ 方所围成的体积。 再进一步,$\iiint_Qf$ 是在一个三维的长方体区域 $Q$ 内对一个函数 $f(x,y,z)$ 进行积分。这个在物理世界中很难直观地想象成“四维体积”…

Class 3

1. 引言 想象在三维空间中有一个光滑的曲面 S,比如一个完美的球面或者一个平缓的山坡。我们在这个曲面上选取一个点 a。这个点所在的区域必须是“光滑”的,不能有任何“褶皱 (fold)”、“尖点 (cusp)”或者“自我相交 (self-crossing)”的地方。比如,一个圆锥体的顶点就不是光滑的。 * 我们怎么定义在 a 点的切平面呢?PPT给出的方法是: * 想象有一张无限大的、平坦的纸(我们称之为平面 $Π$),一开始它在曲面 S 的外部。 * 现在,我们慢慢地把这张纸向曲面 S 移动,直到它刚刚好在 a 点附近“接触”到曲面。 * 关键在于,这个接触是“相切”的,意味着平面只在 a 这一个点上碰到了曲面,而没有“切入”…

Class 2

2.1 全微分 (The Total Derivative) 高维导数概念 对于一个定义域为 $\mathcal{D}$ 的实数函数 $f:\mathcal{D}\to\mathbb{R}$ ,它在定义域的一个内点 (interior point) $a$ 可微 (differentiable),指的是下面这个极限存在 : $$\lim_{h\to0}\frac{f(a+h)-f(a)}{h}$$ 这个极限值就是我们熟知的导数,记为 $f^{\prime}(a)$ 这里的 $h$ 是一个实数(标量),代表着在输入上的微小变化量 。$f$ 被称为标量场 (scalar field),因为它的输出是一个标量(单个实数)…

Class 1

实向量空间 集合 $\mathbb{R}^n$ 是一个向量空间。这里的 $\mathbb{R}$ 代表所有实数的集合,而上标 $n$ 代表维度。$\mathbb{R}^n$ 中的元素是像 $(a1 ,a2 ,…,an )$ 这样的有序元组。这里的每一个 $a_i $ 都是一个实数。 * 我们看待这些元素有两种视角: * 点 (Points) - 几何视角:当我们把 $(a1 ,a2 ,…,an )$ 看作是 $n$ 维空间中的一个位置或坐标时,我们把它称作一个“点”。为了强调它的几何属性,我们通常用大写字母来表示,比如 $A,B,C$。你可以想象在地图上标记一个位置,那就是一个点。 * 向量 (Vectors) -…