Class 1

基础理论与核心思想 统计学的两大派系 “概率”是什么意思?两派答案不同——这会影响你怎么做推断、怎么解释区间和结论。想象一下,我们的目标是估计香港大学所有男生的平均身高。这个真实的平均身高,我们用 θ 表示。 频率派 (Frequentist) 频率派学者会这样想: * 参数 θ 是唯一的、固定的:香港大学所有男生的平均身高是一个确定的数字(比如175.3cm),它就在那里,不会改变。它是“众神”视角下的真相,只是我们凡人不知道而已。 * 数据是随机的:我不可能测量每个人的身高,所以我随机抽取了100个男生作为样本。这个样本的平均身高(比如174.8cm)只是对真实值 θ 的一次估计。如果我重新抽100个人,会得到另一个略有不同的样本均值。所以,我的抽样过程是随机的。 * “95%置信区间”的真正含义: * 基于我这100人的样本,我算出了一个“95%置信区间”,比如说…

Class 3 - Convolutional Neural Networks

1. Computer Vision 1.1. 应用 * 图像识别与视频搜索 (Image recognition and video search) * 这是最基础也最广泛的应用。 * 想想手机相册,你可以直接搜索“狗”、“沙滩”或者某个朋友的名字,系统就能自动找出所有相关的照片。这背后就是图像识别技术在起作用。对于视频,像YouTube这样的平台会利用CV技术自动为视频打上标签、审查内容,甚至在视频中进行广告植入。 * 安防 (Security) * 人脸识别、虹膜识别、指纹识别和入侵检测。 * 这些技术统称为生物识别技术。每天用Face ID解锁手机,或者在火车站“刷脸”进站,都是计算机视觉在安防领域的应用。更进一步,在智慧城市监控系统中,CV技术可以实时分析成千上万个摄像头的画面,实现对异常事件(如人群骚乱、交通事故、非法入侵)的自动检测和报警,极大地提升了公共安全效率。 * 医疗影像处理 (Medical image processing) * 这是一个非常重要的前沿领域。…

Class 2 - Neural Networks

1. NN Basics 1.1. The Perceptron 1.1.1. 单输出感知机 感知机是神经网络的基本构建模块,一个感知机的工作流程可以分三步来看: * 输入与权重 (Inputs & Weights):感知机接收多个输入信号 $x_1,x_2,\ldots,x_N$  。每一个输入信号都伴随着一个权重 (weight) $w_1,w_2,\ldots,w_N$  。这个权重代表了对应输入信号的重要性。权重越大,说明该输入对最终结果的影响也越大。此外,还有一个特殊的输入“1”,它的权重是 $b$,我们称之为偏置 (bias) 。 * 加权求和 (Summation):感知机的第一步工作是把所有的输入信号乘以它们各自的权重,然后全部加起来,得到一个总的聚合信号 $s$…

Class 1 - AI Perspectives

1. 人工智能的历史与宏观视角 1.1. History of AI 1. 人工智能 (Artificial Intelligence, AI) - 始于 1950 年代 * PPT内容解读: * 在1952年,Arthur Samuel开发的跳棋程序是世界上最早的能够自主学习的程序之一,它可以通过与自己对弈来提升棋艺。这代表了早期AI的核心目标:在特定任务上(如下棋、逻辑推理)模拟甚至超越人类的智能。 * AI的诞生: “人工智能”这一术语正式诞生于1956年的达特茅斯会议。当时,一批顶尖科学家共同探讨了用机器模拟人类智能的可能性,为AI学科奠定了基础。 * 早期AI(符号主义AI):这个时期的主流方法是符号主义AI(也被称为“老式AI”或GOFAI)。它的核心思想是,智能行为可以通过对符号进行逻辑操作来模拟。这本质上是一种基于规则 (Rule-Based) 的方法,需要人类将知识和逻辑规则明确地编写成程序。 * AI寒冬 (AI Winter):虽然早期AI非常激动人心,但也因为技术瓶颈和过度承诺,导致在70年代末和80年代末出现了两次“…

Class 4 - Objective Function, Validation and Regularization

1. Loss Runction and Risk 1.1. 三种类型的问题 对于一个已经训练好的监督学习模型 $h(\cdot)$ ,以及一组给定的数据 $(x_i,y_i),i=1,...,n$ ,我们该如何评估这个模型的性能? * 模型 $h(\cdot)$:我们给它一个输入,它会给我们一个预测输出。 * 数据 $(x_i,y_i)$:这是我们拥有的“标准答案”数据集,其中: * $x_i\in\mathcal{R}^d$ 代表第 $i$ 个样本的输入特征 。它是一个 $d$ 维的向量,也就是说,每个样本都由 $d$ 个数值特征来描述。…

Class 3 - Variational Inference, VI

1. Variational Inference 1.1. 基本思想 首先,贝叶斯定理(Bayes' Theorem)的SOP如下: $$p(\theta|y)=\frac{p(y|\theta)p(\theta)}{\int p(y|\theta)p(\theta)d\theta}=\frac{p(y|\theta)p(\theta)}{p(y)}$$ $p(y)=\int p(y|\theta)p(\theta)d\theta$ 这个分母被称为“证据” (Evidence)…

Class 1

统计推断 (Statistical Inference) 基本定义 * 统计推断的核心是从已有的数值数据(样本)出发,对那些我们无法直接观测到的量(总体)做出结论。- 这个过程通常包含两个主要步骤: 1. 选择统计模型: 首先,针对产生数据的过程,选择一个合适的统计模型。 2. 从模型推断: 然后,基于这个模型进行演绎,得出结论或“命题”。 统计推断得出的结论有多种形式,常见的包括: * 点估计 (Point estimate): 用样本统计量(如样本均值$\overline{X}$)来估计未知的总体参数(如总体均值 $μ$) 。 * 区间估计 (Interval estimate): 例如置信区间,即给出一个参数可能存在的范围。 * 假设检验的结论: 对关于总体的某个假设(如 $H_0 :μ≤μ0$ )做出拒绝或不能拒绝的判断 。 * 聚类或分类结果: 将数据点进行分组(…

Class 4 - Multiple Integrals

1. 多重积分的引入与定义 $\int_a^bf(x)dx$ 是计算函数 $f(x)$ 的曲线在 x 轴上 [a, b] 这段线段上方所围成的面积。 现在,我们把这个概念升级到二维空间。例如, $\iint_{Q}f$ 就是计算一个函数曲面 $z=f(x,y)$ 在 xy 平面上的一个矩形区域 $Q=[a,b]\times[c,d]$ 方所围成的体积。 再进一步,$\iiint_Qf$ 是在一个三维的长方体区域 $Q$ 内对一个函数 $f(x,y,z)$ 进行积分。这个在物理世界中很难直观地想象成“四维体积”…