HKU - Remi‘s blog

主题 22 篇博文

HKU

Class 4 - Convolutional Neural Networks cont.

来自 beautifulremi 发表在 DASC7606 发表于 02 Oct 2025

1.ImageNet挑战赛与深度学习的革命 1.1. K-最近邻（K-Nearest Neighbors, K-NN）算法 1.1.1. CIFAR-10 数据集 CIFAR-10数据集 * 它包含60000张非常小的彩色图片（32×32 像素）。 * 这些图片共分为10个类别，例如飞机、汽车、鸟、猫等。这个数据集在机器学习领域非常经典，可以把它想象成是图像分类任务的“新手村”。我们的目标就是训练一个模型，让它能够正确识别出任意一张CIFAR-10图片属于哪个类别。 K-NN的思想非常直观，可以概括为“近朱者赤，近墨者黑”。要判断一个新样本（测试图片）属于哪个类别，我们不进行复杂的“学习”，而是直接在所有已知样本（训练图片）中找到和它最相似的K个邻居，然后采取“少数服从多数”的原则，看这K个邻居中哪个类别的数量最多，就把新样本归为那一类。要实现这个算法，有两个关键问题需要解决： 1. 如何衡量两张图片之间的“…

Class 5 - Unconstrained Case

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 最优性条件 (Optimality Condition) 1.1. 优化问题任何一个优化问题，无论是在机器学习、金融、还是工程领域，我们都可以用三个核心组件来描述它： * 目标函数 (Objective Function) $f:\mathbb{R}^n\mapsto\mathbb{R}$ 这是我们希望最小化（或最大化）的那个函数。在机器学习中，这通常是损失函数 (Loss Function)，比如衡量模型预测值与真实值差距的均方误差。 * 优化变量 (Optimization Variable) $x\in\mathbb{R}^n$ 这是我们可以调整和控制的变量，以期改变目标函数的值。在机器学习中，$x$ 通常是模型的参数或权重 (weights)。我们训练模型的过程，就是在寻找一组最优的权重 $x$ 来让损失函数 $f(x)…

Class 5 - Probability and Statistics in AI

来自 beautifulremi 发表在 ARIN7001 发表于 30 Sep 2025

1.概率论基础 (Probability Basics) 1.1. 基本概念在做任何随机试验之前，我们首先要明确所有可能出现的结果。把这些所有可能的结果收集到一个集合里，这个集合就是样本空间，我们用大写的希腊字母 $Ω$ (Omega) 来表示。光有所有可能性的列表还不够，我们还需要知道每一种可能性发生的概率有多大。一个概率空间，或者叫概率模型，就是在样本空间的基础上，为每一个样本点 $ω$ 都赋予一个概率值 $P(ω)$。这个概率值的分配必须遵守两条基本法则： * 非负性与归一性：任何一个基本结果的概率 P(ω) 必须在0和1之间，即 $0≤P(ω)≤1$。 * 完备性：所有样本点（基本结果）的概率加起来必须等于1，这代表着试验发生时，必然有且只有一个结果会出现。用公式表示就是： $$\sum_{\omega\in\Omega}P(\omega)=1$…

Class2.1 Bootstarp相关

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. Bootstrap 1.1. 标准陈述 * 假设你有一个原始样本 $\mathbf{x}=(x_1,x_2,...,x_n)$ 。 * “有放回地 (with replacement)” 随机抽样n次，就构成了一个自助样本 (bootstrap sample) $\mathbf{x}^=(x_1^,x_2^,...,x_n^)$ * 我们这样做的原因是一次自助抽样得到的结果偶然性太大，没有代表性，我们的目标是重复这个过程，生成大量（B次）的自助样本，例如 $\mathbf{x}^{*1},\mathbf{x}^{*2},...,\mathbf{x}^{*B}$ * 在有了这些样本后，我们就可以考虑从样本到分布。我们首先从原始样本计算出一个我们关心的统计量 $\mathbf{x}…

Class 4 - MCMC

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 马尔可夫链 1.1. 马尔可夫性质 & 转移矩阵马尔可夫链是一个随机过程 ${x_i}$ ，它满足以下条件： $$P(x_i|x_0,\ldots,x_{i-1})=p(x_i|x_{i-1})$$ 我们可以通俗地理解为，系统在未来时刻 $i$ 的状态只取决于它当前时刻 $i−1$ 的状态，而与它过去的所有状态 $(x_0,\ldots,x_{i-2})$ 都无关。我们定义随机过程 ${x_i}$ 所有可能取值的集合为状态空间。状态空间可以是有限的，也可以是无限的。对于状态有限的离散马尔可夫链，我们可以用一个矩阵 $P$ 来描述状态之间转移的规则。矩阵中的每一个元素 $p_…

Class 3 - Lindley’s Paradox, Bayes Factor and Hierarchical Model

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

似然原则（Likelihood Principle）贝叶斯方法遵循似然原则：我们所知道的关于数据/样本的一切信息都包含在似然函数中。似然函数，即 $L(\theta|\mathrm{data})$ 也就是在给定我们观测到的数据的情况下，关于未知参数 $θ$ 的函数。这个函数描述了：在不同的 $θ$ 取值下，我们观测到当前这组“数据”的可能性有多大。似然原则的意思是，一旦你收集到了数据，这组数据能告诉你关于参数 $θ$ 的所有信息，都已经被压缩进了这个似然函数 $L(θ∣data)$ 中了。除了这个函数本身，其他任何关于实验设计或采样过程的额外信息（比如你为什么停止收集数据）对于推断 $θ$ 都是无关紧要的。似然原则的推论：如果两种不同采样计划/分布下的似然函数，就我们关心的参数 $θ$ 而言是成比例的，那么基于这两种采样分布对 $θ$ 的统计推断应该是相同的。假设有两个不同的实验（比如实验A和实验B）…

Class 2.2

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 基本知识 1.1. 贝叶斯定理 * 先验分布 (Prior): * 符号表示为: $θ∼π$。 * 这代表了在观测到任何数据之前，我们对未知参数 $θ$ 的信念。这个信念是用一个概率分布 $π(θ)$ 来量化的。 * 比如，在估计硬币正面朝上的概率 $θ$ 时，我们的先验可以是一个在[0, 1]区间上的均匀分布，表示我们认为所有概率值都是同等可能的。 * 似然函数 (Likelihood): * 符号表示为: $:{X_1,...,X_n}|\theta\sim P_\theta$ 。 * 这描述了数据生成的机制。它告诉我们，如果参数 $θ$ 的真实值是某个特定值，那么我们观测到当前这组数据 ${X_1,...,X_n}$ 的可能性有多大。 * 似然函数…

Class 2 - Resampling Methods

来自 beautifulremi 发表在 HKU 发表于 30 Sep 2025

1. 引言 1.1. 统计推断的核心挑战：估计总体参数的性质（如方差、置信区间）在现实世界中，我们几乎永远无法得到“总体”的全部数据。比如，你想知道你开发的App所有用户的平均使用时长，你不可能拿到每一个用户的数据。你只能随机抽取一部分用户（比如1000个）作为样本 (sample)。我们相信，我们拿到的这个样本并不是完全随机、毫无规律的，而是从一个更大的、遵循某种概率分布的总体 (population) 中抽取出来的。这个未知的总体分布就是 $F$。我们手里的样本数据，可以看作是这个神秘规律的具体体现。我们想通过分析手头有限的样本，来推断总体的某个特征，这个特征就被称为参数 (parameter) $θ$。我们无法直接得到 $θ$ ，但我们可以根据样本计算一个估计量 (estimate)，记作 $\widehat{\theta}$。这个 $\widehat{\theta}$ 是我们对真实值 $θ$ 的最佳猜测。我们通过一次抽样得到了一个估计值 $\widehat{…