统计推断 (Statistical Inference)
基本定义
- 统计推断的核心是从已有的数值数据(样本)出发,对那些我们无法直接观测到的量(总体)做出结论。- 这个过程通常包含两个主要步骤:
- 选择统计模型: 首先,针对产生数据的过程,选择一个合适的统计模型。
- 从模型推断: 然后,基于这个模型进行演绎,得出结论或“命题”。
统计推断得出的结论有多种形式,常见的包括:
- 点估计 (Point estimate): 用样本统计量(如样本均值$\overline{X}$)来估计未知的总体参数(如总体均值 $μ$) 。
- 区间估计 (Interval estimate): 例如置信区间,即给出一个参数可能存在的范围。
- 假设检验的结论: 对关于总体的某个假设(如 $H_0:μ≤μ0$)做出拒绝或不能拒绝的判断 。
- 聚类或分类结果: 将数据点进行分组(聚类)或打上标签(分类)。
- 分类 (Classification): 属于监督学习。我们使用带有标签的数据(例如,一堆邮件,已经标注好了哪些是垃圾邮件,哪些不是)来训练一个模型,然后用这个模型去预测新邮件的类别。逻辑回归 (Logistic Regression)、支持向量机 (SVM) 等都是基于统计原理的分类模型。
- 聚类 (Clustering): 属于无监督学习。我们只有数据本身,没有标签。目标是让算法自动发现数据中的内在结构,将相似的数据点分到一组。例如,根据用户的购买行为,将用户自动分为“高价值客户”、“潜力客户”、“流失风险客户”等群体。K-Means算法就是一个经典的聚类方法。
![[Pasted image 20250904190803.png]]
概率论基础 (Probability)
基本概念
- 样本空间 (The sample space):
- 定义:一个随机试验所有可能结果组成的集合。
- 例子:抛两次硬币($H$ 代表正面,$T$ 代表反面),样本空间 $Ω$ 就是所有可能结果的集合:${HH,HT,TH,TT}$。
- 事件 (An event):
- 定义:样本空间的任何一个子集,通常用 $E$ 表示。
- 例子:事件 $E$ = “至少有一次是正面”。这个事件对应的子集就是 ${TH,HT,HH}$。
- 特别说明:空集 $∅$ 也是一个事件。
- 并集 (Union, 符号为 $∪$):
- 定义:多个集合中所有元素的集合 。
- 属性:一个交集的元素数量不会超过任何一个参与运算的单个集合的元素数量。
- 交集 (Intersection, 符号为 $∩$):
- 定义:两个集合所共有的元素的集合 。
- 属性:一个交集的元素数量不会超过 。
- 概率(Probability)
- 概率 (Probability) 是衡量一个事件 (event) 发生可能性 (likelihood) 的一种度量 。柯尔莫哥洛夫公理 (Kolmogorov's Axioms)
- 公理一:非负性 (Non-negativity)。任何事件的概率都大于等于0。
- 公理二:规范性 (Normalization)。整个样本空间的概率为1,即 $P(Ω)$=1。
- 公理三:可加性 (Additivity)。对于一系列两两互斥的事件,它们并集的概率等于它们各自概率的和。
基本计算
容斥公式 (Inclusion-exclusion formula):
- 该公式用于计算非互斥(non-exclusive)事件并集的概率 :$P(E_1∪E_2)=P(E_1)+P(E_2)−P(E_1∩E_2)$
- 条件概率 (Conditional probability):
- 有时我们需要处理的概率问题,是基于“我们预先知道某些情况”这个条件的 。
- 定义:事件 $B$ 已经发生的条件下,事件 $A$ 发生的概率,记为 $P(A|B)=\frac{P(A\cap B)}{P(B)}$。
- 简单的变形结论概率乘法法则 (Multiplication Rule):$$P(A\cap B)=P(A|B)P(B)$$ 贝叶斯定理 (Bayes' Theorem):$$P(A|B)P(B)=P(B|A)P(A)\Longrightarrow P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
- 概率链式法则(Multiplication Rule)
- 对于 $n$ 个事件 $B_1,...,B_n$,其联合概率的计算公式为:$$P(\cap_{i=1}^nB_n)=P(B_1)P(B_2|B_1)P(B_3|B_1\cap B_2)\cdots P(B_n|\cap_{i=1}^{n-1}B_{n-1})$$
- 该法则一个典型的应用是在统计语言模型中计算一个句子的“概率” 。一个句子S 由一串单词 ${w_1,...,w_m}$ 组成,其整句的概率可以通过链式法则分解为一连串条件概率的乘积 :$$P(S)=P(w_1)P(w_2|w_1)\cdots P(w_m|w_1,...,w_{m-1})$$ 语言模型公式 $P(w_m∣w_1,...,w_{m−1})$ 在理论上是完美的,但在实际中几乎无法使用。原因在于数据稀疏:
- 条件过于苛刻:当句子很长时(比如$m$=10),条件部分 $P(w_10∣w_1,...,w_9)$ 的前缀 “$w_1,...,w_9$” 几乎是独一无二的。在一个有限的训练语料库中,我们几乎不可能找到与这个前缀完全相同的句子来统计下一个词 $w_{10}$ 出现的频率。
- 无法计算:由于绝大多数长前缀在语料库中出现的次数都是0,我们将无法为大多数的条件概率赋予一个合理的非零值。
马尔可夫假设 (Markov Assumption) 与 N-gram 模型:
为了让语言模型在计算上变得可行,科学家们引入了一个关键的简化假设——马尔可夫假设。该假设认为,一个词出现的概率不依赖于前面所有的词,而只依赖于它前面固定数量(N-1)个词。 基于这个假设,诞生了经典的 N-gram 模型:
- Bigram 模型 (N=2): 假设一个词只跟它前一个词有关。 $P(w_i∣w_1,...,w_{i−1})≈P(w_i∣w_{i−1})$
- Trigram 模型 (N=3): 假设一个词只跟它前两个词有关。 $P(w_i∣w_1,...,w_{i−1})≈P(w_i∣w_{i−2},w_{i−1})$
通过这种简化,计算 $P(Intelligence∣in, Artificial)$ 这样的概率就变得可行了。同时,在实际的使用中,起始符和终止符也作为一个token进行处理。
- 起始符 $< s >$: 它提供了一个“锚点”,让我们能够计算句子第一个词的概率。例如,在Bigram模型中,它让我们能够计算 $P(Statistic∣< s >)$,这个概率代表了“一个句子以‘Statistic’开头的可能性有多大”。
- 结束符 $</ s >$: 它让模型能够学习到句子在何处结束是合理的。将 $</ s >$ 作为一个“词”来处理,使得整个概率空间完整(所有可能句子的概率之和为1)。在文本生成任务中,模型需要知道什么时候该终止, $</ s >$ 的概率就提供了这个停止信号。
- 全概率公式(Law of Total Probability)
- 有一组事件 $B_1,...,B_n$,它们共同构成了一个划分 (partition)。一个划分意味着这组事件是互斥的(任两个事件的交集为空)并且是穷尽的(它们的并集构成了整个样本空间)。
- 对于任何事件$A$,其概率可以通过以下两种等价的方式计算:$$P(A)=\sum_{i=1}^nP(A\cap B_i)=\sum_{i=1}^nP(B_i)P(A|B_i)$$ 全概率公式最重要的作用之一,是作为贝叶斯定理的分母。
- 贝叶斯定理:
- $$P(Bk∣A)=P(A)P(A∣Bk)P(Bk)$$
- 在绝大多数实际问题中,分母 $P(A)$ (即证据A发生的总概率)通常不是直接已知的,需要我们去计算。
独立事件
- 两个事件的独立性 (Independence of Two Events)
- 如果事件B的发生不影响事件A发生的概率,那么事件A和B就是独立的 。
- 独立性可以用条件概率来表示为 $P(A∣B)=P(A)$ 。
- 等价条件: 两个独立事件的联合概率等于它们各自概率的乘积,即 $P(A∩B)=P(A)P(B)$ 。
- 多个事件的两两独立 (Pairwise Independence)
- 对于一组有限的事件,如果从中任意抽取两个不同的事件,它们都是相互独立的,那么这组事件就是两两独立的 。
- 对于任意 $i\neq j$,都满足 $P(A_i∩A_j)=P(A_i)P(A_j)$ 。
- 相互独立的定义 (Mutually Independent):
- 这是将独立性的概念扩展到多于两个事件的情形 。
- 一组事件被称为是相互独立的,当且仅当从这组事件中选出的任何组合(任意子集),其交集的概率都等于其各自概率的乘积 。
- 相互独立的属性:
- 对于一组相互独立的事件,其中任何一个事件都与其他所有事件的交集相独立 。
- 相互独立必定意味着两两独立(即任意两个事件都是独立的) 。然而,反之则不成立 。
贝叶斯法则 (Bayes' Rule)
基本定义
- 贝叶斯法则的基本形式
- 它描述了如何计算两个事件A和B的条件概率 P(A∣B)(即在B发生的条件下A发生的概率)。
- 其公式为:$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$,其中要求 $P(B)\neq 0$。
- 贝叶斯法则的扩展形式
- 当存在一组事件 ${{A1,...,Am}}$ 构成对样本空间的划分(即它们互斥且穷尽)时,该法则可以被}扩展。
- 扩展后的公式用于计算划分中某个具体事件 $A_i$ 在 $B$ 发生的条件下的概率:
后验概率
贝叶斯法则的精髓在于它提供了一个用新证据更新已有信念的数学方法。公式的每个组成部分都有其专门的名称和含义: $$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
- $P(A∣B)$:后验概率 (Posterior)。在观察到证据B之后,我们对假说A的更新后的信念。
- $P(A)$:先验概率 (Prior)。在没有任何证据之前,我们对假说A的初始信念。
- $P(B∣A)$:似然 (Likelihood)。如果假说A为真,我们观察到证据B的概率有多大。
- $P(B)$:边际似然 (Marginal Likelihood) 或 证据 (Evidence)。无论假说A是否为真,观察到证据B的总概率。
- 我们可以将一次贝叶斯推断过程看作一个完整的故事:
- 初始信念 (先验): 我们首先对某个假说A有一个初始的判断,这就是先验概率 P(A)。例如,我们可能根据常识认为“一份邮件是垃圾邮件”的概率是10%。
- 观察证据 (证据): 接着,我们观察到了一个新的证据B。例如,我们发现这封邮件里包含了“免费”这个词。
- 连接证据与假说 (似然): 我们需要评估这个证据在多大程度上支持我们的假说。这就是似然 P(B∣A) 的作用,它回答了“如果这封邮件真的是垃圾邮件,它包含‘免费’这个词的概率有多大?”这个问题。
- 更新信念 (后验): 最后,我们结合“初始信念”和“新证据的支持程度”,通过贝叶斯法则,计算出我们的后验概率 P(A∣B)。这个后验概率是我们对“这封含有‘免费’的邮件是垃圾邮件”的最终、更新后的判断。 这个“先验 -> 证据 -> 似然 -> 后验”的流程,就是贝叶斯学习和推理的核心循环。
- “似然”与“概率”的辨析 幻灯片中提到 $P(B∣A)$ 可以被“解释为似然”,这是一个非常精妙且重要的区分。
- 当我们将假说A(例如,一枚硬币正面向上的概率p=0.5)视为固定,而将证据B(例如,抛10次硬币的结果)视为变量时,P(B∣A) 是一个概率。
- 当我们将已观测到的证据B(例如,10次抛掷出现了7次正面)视为固定,而将假说A(硬币的真实面朝上概率p)视为变量时,同一个数学表达式 $P(B∣A)$ 被称为似然函数 $L(A∣B)$。 此时我们不再问“这个结果的概率是多少”,而是问“哪个假说A最有可能产生我们观测到的这个结果B?”。在统计学中,寻找让似然函数最大的参数值的过程,被称为最大似然估计 (Maximum Likelihood Estimation, MLE),是参数估计最核心的方法之一。
- 先验概率的角色与选择 先验概率 $P(A)$ 是贝叶斯统计区别于频率派统计的关键特征之一。它允许我们将领域知识、专家意见或历史数据融入到模型中。
- 信息性先验 (Informative Prior): 如果我们有很强的理由相信某个参数在特定范围内,我们可以设置一个集中的先验分布。
- 无信息先验 (Uninformative Prior): 如果我们对参数一无所知,可能会选择一个“平坦”的先验,让数据自身发挥最大的作用。 先验的选择带有一定的主观性,尤其是在数据量较少时,不同的先验可能会对后验结果产生显著影响。这也是贝叶斯方法在历史上引发一些争议的原因之一。
- 贝叶斯法则的精髓 综合所有术语,贝叶斯法则的精髓可以总结为一句话: 后验概率 $∝$ 似然 × 先验概率
- 这个关系式优美地展示了我们的最终信念(后验)是如何由数据给我们的证据(似然)和我们的初始立场(先验)共同塑造的。
随机变量与分布 (Random Variables and Distributions)
随机变量
- 随机变量是一个函数,它的作用是将样本空间中的每一个基本结果(元素)映射到一个实数。
- 举例说明:
- 以抛两次硬币为例,样本空间为 $Ω={HH,HT,TH,TT}$。
- 我们可以定义一个随机变量 $X$ 来表示“正面出现的次数”,这个变量的取值范围是 ${0,1,2}$。
- 具体的映射关系是:结果为 ${TT}$ 时,$X=0$;结果为 ${TH,HT}$ 时,$X=1$;结果为 ${HH}$ 时,$X=2$。
- 分类与记法:
- 随机变量主要分为三种类型:离散型 (discrete)、连续型 (continuous) 和 混合型 (mixed)。
- 当我们观测到一个随机变量的具体值时,称该变量被“实现”了。通常用大写字母(如 $X$, $Y$)表示随机变量本身,用小写字母(如 $x$, $y$)表示它的实现值。
离散型随机变量(Discrete random variables)
- 定义: 如果一个随机变量 X 的所有可能取值是可数的(包括有限个或可数无限个),则称其为离散型随机变量。
- 例子: 抛硬币或骰子的结果、单位时间内的事件发生次数、数字/图像分类的结果等都属于离散型随机变量。
- 概率质量函数 (Probability Mass Function, PMF):
- 这是用来描述离散型随机变量概率分布的函数,其定义为 $P_X(x)=P(X=x)$。它给出了随机变量X取到某个具体值x的概率。
- 例如,对于一次公平的硬币抛掷,其PMF在 $X=正面$ 时取值为0.5,在 $X=反面$ 时也取值为0.5。
- 累积分布函数(CDF)
- 定义: 累积分布函数(Cumulative Distribution Function, CDF)是描述随机变量行为的另一种方式,尤其适用于取值有顺序关系的变量(如计数变量)。
- 公式: 对于离散型随机变量X,其cdf定义为 $F_X(x)=P(X≤x)$,即随机变量 $X$ 的取值小于或等于 $x$ 的概率总和。计算方法是对所有小于等于 $x$ 的可能取值的PMF进行求和。
- 注意: CDF的计算包含了端点x本身的概率,即 $P(X=x)$。
概率质量函数(PMF)与累积分布函数(CDF)的性质
- 一个有效的PMF必须满足两条性质:
- 非负性: 对于所有可能的x,都有 $P_X(x)≥0$。
- 归一性: 所有可能取值的概率之和必须等于1,即 $∑_xP_X(x)=1$。
- CDF具有普适的性质 (对离散和连续变量都成立):
- 有界性: $0≤FX(x)≤1$。
- 单调性: $F_X(x)$ 是一个单调不减函数。
- 极限: 当 $x$ 趋向负无穷时,$F_X(x)$ 趋向0;当x趋向正无穷时,$F_X(x)$ 趋向1。 对于离散型随机变量,其CDF是一个阶梯函数,它只在 $X$ 的可能取值点上发生“跳跃”,而每次跳跃的高度恰好是该点的PMF值。
连续型随机变量 (Continuous random variable)
- 定义: 一个随机变量X是连续型的,如果存在一个非负函数 fX(x),使得X落在任意区间 [a,b] 内的概率,可以通过对该函数在该区间上进行积分来计算。
- 其数学公式为:$$P(a\leq X\leq b)=\int_a^bf_X(x)dx$$
- 概率密度函数 (Probability Density Function, PDF):
- 上述定义中的函数$f_X(x)$ 被称为X的概率密度函数 。PDF在某一点的值 $f_X(x)$ 不是一个概率值 。对于连续型随机变量,它取到任何一个精确值的概率都为0,即$P(X=x)=0$ 。$f_X(x)$ 的值可以被理解为概率的“密度”或“集中程度”。在一个极小的区间 Δx 内,$X$ 落在这个区间 $[x,x+Δx]$ 的概率可以近似为 $f(x)⋅Δx$ 。
和离散型变量一样,连续型变量也有累积分布函数(CDF),并且其定义是完全相同的:$F_X(x)=P(X≤x)$。
它的计算方式是通过对PDF从负无穷到$x$ 进行积分,即: $$F_X(x)=\int_{-\infty}^xf_X(t)dt$$ 从几何上看,CDF在点x的值就是pdf曲线在x左侧下方的总面积。
- PDF与CDF的关系: 根据微积分基本定理,PDF是CDF的导数:$$f_X(x)=\frac{d}{dx}F_X(x)$$这个关系非常重要,它允许我们通过CDF来求得PDF。除了用PDF积分来计算随机变量落在区间 $(a,b]$ 的概率外,一种更常见、通常也更简便的方法是直接使用CDF: $$P(a<X\leq b)=F_X(b)-F_X(a)$$
| 概念 | 离散型随机变量 | 连续型随机变量 |
|---|---|---|
| 单点概率 | $P(X=x)=P_X(x)$ (pmf值) | $P(X=x)=0$ |
| 区间概率 | $P(a\leq X\leq b)=\sum_{x=a}^bP_X(x)$ | $P(a\leq X\leq b)=\int_a^bf_X(x)dx$ |
| 总概率 | $\sum_{\text{所有x}}P_X(x)=1$=1 | $\int_{-\infty}^\infty f_X(x)dx=1$=1 |
| CDF定义 | $F_X(x)=\sum_{i\leq x}P_X(i)$ | $F_X(x)=\int_{-\infty}^xf_X(t)dt$ |
| 函数关系 | pmf是CDF的“跳跃高度” | pdf是CDF的“斜率”(导数) |
核(Kernel)
首先,PDF其在整个实数轴上的积分必须等于1,即总概率为1。而一个PDF通常由两部分构成:一部分是不依赖于随机变量具体取值x的常数,另一部分是与x相关的函数表达式。以正态分布 $N(μ,σ^2)$ 为例:
其PDF可以写作 $f_X(x)=C\cdot h(x)$ 的形式。常数部分 $C=\frac{1}{\sqrt{2\pi}\sigma}$ 确保了pdf的积分恰好为1。核心模式部分 $h(x)=e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 决定了正态分布经典的“钟形”曲线形状 。
将pdf分解为“常数”和“核心模式”两部分,是贝叶斯统计和现代计算统计中威力最强大的技巧之一。
- 核 (Kernel) 与归一化常数 (Normalizing Constant)
- 幻灯片中与变量x相关的核心部分 $h(x)$,在统计学中有一个专门的术语,叫做核 (Kernel)。分布的核决定了其函数的形状。
- 常数部分 $C$,被称为归一化常数 (Normalizing Constant)。它的唯一作用就是作为一个“缩放因子”,保证整个pdf曲线下方的总面积恰好为1。只要我们知道了核的函数形式,归一化常数的值实际上就已经被唯一确定了。
- 这个分解思想让我们能够使用“正比于($∝$)”符号来简化表达。我们可以将正态分布的pdf记为:$$f_X(x)\propto e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ 这表示“$f_X(x)$ 的函数形式正比于其核”。在很多分析中,我们只需要关注决定分布形状的核,而可以暂时忽略复杂的归一化常数,这会大大简化数学推导。
这个技巧在贝叶斯推断中无处不在。我们知道贝叶斯定理的核心是: 后验 (Posterior) ∝ 似然 (Likelihood) × 先验 (Prior)
在处理连续型变量时,似然和先验都是概率分布。当我们将它们的PDF相乘时,我们常常只需要将它们的核相乘即可。
- 识别后验分布: 很多时候,我们将似然的核与先验的核相乘后,会发现得到的结果恰好是另一个我们熟知的概率分布的核。这样,我们就能立即判断出后验分布属于哪个分布家族,而无需计算那个通常非常复杂的积分分母(即归一化常数)。这种利用核来识别后验分布的方法,是共轭先验 (Conjugate Priors) 理论的核心。
Example
![[Pasted image 20250904214539.png]] ![[Pasted image 20250904214549.png]] ![[Pasted image 20250904214600.png]]
联合分布 (Joint distribution)
- 联合概率 (Joint Probability)
- 定义:两个或多个事件同时发生的概率被称为联合概率 ,记为$P(A\mathrm{~and~}B)$。
- 计算:计算联合概率使用链式法则(或称概率乘法法则) :$P(A\mathrm{~and~}B)=P(A∣B)P(B)=P(B∣A)P(A)$ 。
- 联合分布 (Joint Distribution)
- 定义:这个概念将联合概率从“事件”推广到了“随机变量”,用于描述两个或多个随机变量的概率行为 。
- 联合累积分布函数 (Joint CDF):其定义为 $F_{X,Y}(x,y)=P(X≤x,Y≤y)$,即X取值不大于x且Y取值不大于y的概率 。
- 该函数也满足类似链式法则的分解形式 。
- 联合离散型随机变量 (Jointly Discrete Random Variables)
- 定义: 如果存在一个联合概率质量函数 (joint pmf) $P_{X,Y}(x,y)=P(X=x,Y=y)$,则称随机变量X和Y是联合离散的。
- 与CDF的关系: 联合累积分布函数(CDF)可以通过对联合PDF进行双重求和得到。
- 联合连续型随机变量 (Jointly Continuous Random Variables)
- 定义: 如果存在一个联合概率密度函数 (joint pdf) $f_{X,Y}(x,y)$,则称随机变量X和Y是联合连续的。
- 与CDF的关系: 联合CDF可以通过对联合pdf进行二重积分得到。
- 属性: 联合pdf必须是非负的,即 $f_{X,Y}(x,y)≥0$。
联合PMF (离散) 与 联合PDF (连续)
- 联合概率质量函数 (Joint PMF):对于两个离散型随机变量X和Y,其联合PMF定义为它们同时取到某个特定值的概率: $P_{X,Y}(x,y)=P(X=x,Y=y)$ 所有可能的(x,y)组合的概率之和必须为1。
- 联合概率密度函数 (Joint PDF):对于两个连续型随机变量X和Y,其联合PDF是一个非负函数 $f_{X,Y}(x,y)$,它在整个x-y平面上的积分(即曲面下的体积)必须为1。某个区域的概率等于PDF在该区域上的二重积分。
联合分布包含了关于多个变量的所有信息。通过它,我们可以得到我们可能感兴趣的任何其他分布:
- 边际分布 (Marginal Distribution):如果我们只关心其中一个变量(比如X)的分布,而不管另一个变量(Y)的取值,我们可以通过“积分掉”或“求和掉”另一个变量来得到X的边际分布。
- 连续: $f_X(x)=\int_{-\infty}^\infty f_{X,Y}(x,y)dy$ (对y积分)
- 离散: $P_X(x)=\sum_yP_{X,Y}(x,y)$ (对y求和)
- 这正是“边际概率”这个概念在随机变量上的体现。
- 条件分布 (Conditional Distribution):如果我们想知道在X取了某个特定值x的条件下,Y的概率分布是怎样的,我们可以计算条件分布。
- 公式: $f_{Y|X}(y|x)=\frac{f_{X,Y}(x,y)}{f_X(x)}$ 其本质是用联合分布(分子)除以作为条件的边际分布(分母),这与事件的条件概率公式 $P(B∣A)=P(A∩B)/P(A)$ 在形式上是完全一致的。
随机变量的独立性 两个随机变量X和Y相互独立的定义是,它们的联合分布可以被分解为它们各自边际分布的乘积。
- 连续: $f_{X,Y}(x,y)=f_X(x)f_Y(y)$
- 离散: $:f_{X,Y}(x,y)=f_X(x)f_Y(y)$
这个性质在建模中极为重要,因为它极大地简化了多维问题的复杂性。当我们说一组数据是“独立同分布(i.i.d.)”时,其中的“独立”就是指它们的联合分布可以写成边际分布连乘的形式。
独立性还有另外一个形式:X和Y是独立的,当且仅当Y的条件分布等于Y的边际分布,即:$$f_{Y|X}(y|x)=f_Y(y)$$
- 从CDF反求PMF/PDF
从CDF求PDF (连续): 在单变量中,PDF是CDF的导数。在双变量中,这个关系扩展为混合偏导数: $$f_{X,Y}(x,y)=\frac{\partial^2}{\partial x\partial y}F_{X,Y}(x,y)$$
- 联合分布的核心地位
联合分布(无论是用PMF还是PDF表示)是描述多个随机变量相互关系的主宰者或信息中心。一旦我们知道了联合分布,我们就可以推导出关于这些变量的所有其他信息:
- 联合分布 $f_{X,Y}(x,y)$
- 派生出 -> 边际分布 (Marginal Distribution): 通过积分/求和消掉一个变量,例如 $f_X(x)=\int f_{X,Y}(x,y)dy$。
- 派生出 -> 条件分布 (Conditional Distribution): 通过用联合分布除以边际分布得到,例如 $f_{Y|X}(y|x)=f_{X,Y}(x,y)/f_X(x)$。
- 用于 -> 独立性检验 (Independence Check): 检验是否满足 $f_{X,Y}(x,y)=f_X(x)f_Y(y)$。
- 用于 -> 计算期望 (Calculate Expectations): 计算与多个变量相关的函数的期望值,例如 $E[XY]=\iint xy\cdot f_{X,Y}(x,y)dxdy$。
- 链式法则 (The Chain Rule)条件分布经过简单的变形,得到随机变量的链式法则:$$f_{X,Y}(x,y)=f_{Y|X}(y|x)f_X(x)$$ 这个法则的告诉我们,任何一个复杂的多维联合分布,都可以被分解为一个边际分布和一系列条件分布的乘积。
- 这个思想是概率图模型 (Probabilistic Graphical Models) 和 贝叶斯网络 (Bayesian Networks) 等现代AI技术的核心。例如,对于一个包含多个变量的复杂系统,我们可以将其联合概率分解为: $$P(X1,X2,X3,X4)=P(X1)×P(X2∣X1)×P(X3∣X1,X2)×P(X4∣X1,X2,X3)$$ 然后,通过引入变量间的条件独立性假设,来简化上述条件分布,从而用一个结构清晰、计算高效的模型来描述整个复杂系统。
- 独立同分布(i.i.d.)假设 在几乎所有的基础统计推断和机器学习建模中,我们都会遇到独立同分布 (independent and identically distributed, i.i.d.) 这个假设。“独立性”假设之所以如此关键,是因为它允许我们将整个数据集的联合概率(即似然函数)分解为每个数据点概率的连乘积:$$P(x_1,x_2,\ldots,x_n)=P(x_1)\times P(x_2)\times\cdots\times P(x_n)$$
- 独立 (Independent): 当我们从一个总体中抽样得到一组数据 $(x_1,x_2,…,x_n)$ 时,“独立”假设意味着获取到 $x_1$ 的值并不会影响我们获取到 x_2 的值的概率。
- 同分布 (Identically Distributed): 意味着所有样本都来自于同一个概率分布。
- 适用于随机变量的贝叶斯法则: $$f_{X|Y=y}(x)=\frac{f_{Y|X=x}(y)f_X(x)}{f_Y(y)}$$