1. Bootstrap

1.1. 标准陈述

假设你有一个原始样本 $\mathbf{x}=(x_1,x_2,...,x_n)$ 。
“有放回地 (with replacement)” 随机抽样n次，就构成了一个自助样本 (bootstrap sample) $\mathbf{x}^=(x_1^,x_2^,...,x_n^)$
我们这样做的原因是一次自助抽样得到的结果偶然性太大，没有代表性，我们的目标是重复这个过程，生成大量（B次） 的自助样本，例如 $\mathbf{x}^{*1},\mathbf{x}^{*2},...,\mathbf{x}^{*B}$
在有了这些样本后，我们就可以考虑从样本到分布。我们首先从原始样本计算出一个我们关心的统计量 $\mathbf{x}$ （比如均值、中位数等），记作 $\hat{\theta}(\mathbf{x})$ 。这是我们对真实总体参数的“最佳单次估计”。
接着，对于每一个自助样本 $\mathbf{x}^{*b}$ ，我们都用完全相同的方法计算出对应的统计量 $\hat{\theta}(\mathbf{x}^{*b})$ 这样，经过B次操作，我们就从一个孤零零的原始估计值 $\hat{\theta}(\mathbf{x})$ 得到了一整个由B个自助估计值组成的集合： ${\hat{\theta}(\mathbf{x}^{*1}),\hat{\theta}(\mathbf{x}^{*2}),...,\hat{\theta}(\mathbf{x}^{*B})}$
我们相信，这B个自助估计值的分布，可以很好地模拟如果我们能够从真实总体中反复抽样所得到的估计值的分布（即抽样分布, sampling distribution）。通过分析这个模拟出来的分布，我们就可以反过来推断我们原始估计值 $\hat{\theta}(\mathbf{x})$ 的性质，比如它的不确定性有多大（方差）、它可能落在什么范围内（置信区间）等等。

1.1.1. 一个直观的类比：摸豆子

场景: 一个不透明的巨大口袋里装满了无数颗豆子，有红豆有绿豆，你想估计里面红豆的比例（这就是总体参数 $θ$）。
一次抽样: 你伸手进去抓了一大把（比如n=100颗），数了数，发现有30颗红豆。你的原始估计 $\hat{\theta}(\mathbf{x})$ = 30%。但你心里没底，这次抽样是不是运气好/差了？
Bootstrap操作: 你不能再从大口袋里摸了（成本高/不允许）。于是你把这100颗豆子放进一个小口袋里。
1. 从这个小口袋里随机摸一颗，记录下颜色，然后把它放回去。
2. 重复这个动作100次，你就得到了一个自助样本。这个样本里可能有32颗红豆和68颗绿豆。你就得到了第一个自助估计 $\hat{\theta}(\mathbf{x}^{*1})$ =32%。
3. 你把上面的过程重复5000次，就得到了5000个比例值（比如28%, 31%, 29%, 35%...）。
分析结果: 现在你手上有了5000个比例值。你可以画出它们的直方图，看看这个分布的形状、中心和离散程度。你发现95%的比例值都落在[21%, 39%]之间。于是，你就有信心说：真实口袋里红豆比例的95%置信区间大约是[21%, 39%]。

1.2. 标准误 (Standard Error)

我们已经通过Bootstrap流程，生成了B个自助估计值：${\hat{\theta}(\mathbf{x}^{*1}),\hat{\theta}(\mathbf{x}^{*2}),...,\hat{\theta}(\mathbf{x}^{*B})}$ 。这个集合的离散程度，就反映了我们原始估计值 $\hat{\theta}(\mathbf{x})$ 的稳定性。如果这个集合里的数值非常分散，说明我们的原始估计值偶然性很大，很不稳定；反之，如果它们都非常集中，说明我们的估计很稳定。

标准误 (SE) 正是衡量这种离散程度（即统计量的抽样分布的标准差）的标准方法。

Efron建议的计算方法如下，这个公式本质上就是计算我们得到的B个自助估计值的样本标准差 (sample standard deviation)。

首先，计算所有B个自助估计值的平均值，记作 $\hat{\theta}^{}(\mathbf{x})$： $$\hat{\theta}^{}(\mathbf{x})=\frac{\sum_{b=1}^B\hat{\theta}^{*b}(\mathbf{x})}{B}$$ 这个值是自助抽样分布的中心。
然后，计算每个自助估计值与这个平均值的离差平方和： $$\sum_{b=1}^B[\hat{\theta}^{*b}(\mathbf{x})-\hat{\theta}^{**}(\mathbf{x})]^2$$ 这衡量了总的波动性。
将这个总和除以 $B−1$（而不是B），这是计算样本标准差时的无偏估计修正。
最后，将结果开平方根，得到最终的标准误估计值： $$\hat{SE}[\hat{\theta}(\mathbf{x})]=\left{\frac{1}{B-1}\sum_{b=1}^B[\hat{\theta}^{*b}(\mathbf{x})-\hat{\theta}^{**}(\mathbf{x})]^2\right}^{\frac{1}{2}}$$ 所以，Bootstrap的标准误计算，在操作上就是把B个自助估计值当作一个普通的样本数据，然后用计算样本标准差的标准公式来处理它。这个结果就是对我们原始估计值 $\hat{\theta}(\mathbf{x})$ 标准误的一个很好的近似。

1.2.1. 一个简单的计算实例

假设我们只做了 B=5 次自助抽样（实际应用中B会大得多），得到的5个关于“平均用户在线时长”的自助估计值（单位：分钟）是： {35, 42, 38, 35, 40}

计算均值 $\hat{\theta}^{**}(\mathbf{x})$: $(35+42+38+35+40)/5=190/5=38\text{ 分钟}$。
计算离差平方和: $\begin{aligned}&(35-38)^2+(42-38)^2+(38-38)^2+(35-38)^2+(40-38)^2\&=(-3)^2+(4)^2+(0)^2+(-3)^2+(2)^2\&=9+16+0+9+4=38\end{aligned}$
除以 B-1: $38/(5-1)=38/4=9.5$
开平方根: $\sqrt{9.5}\approx3.08$

结论: 我们通过Bootstrap估计出，我们原始样本计算出的平均用户在线时长的标准误大约是 3.08分钟。

计算出标准误是非常有用的，它至少有两个直接的应用：

构建正态置信区间 (Normal-based Confidence Interval)：
- 在中心极限定理的启发下，如果自助抽样分布近似于正态分布，我们可以用“估计值 ± 2 * 标准误”来快速构建一个约95%的置信区间。
- 在上面的例子中，假设原始估计值是39分钟，那么置信区间大约是 39±2×3.08，即 [32.84, 45.16]。
- 注意: 这种方法不如我们主章节的百分位法 (Percentile Method) 稳健，因为它额外要求分布的对称性。但在分布对称的情况下，两者结果会很接近。
进行假设检验:
- 在假设检验中，我们经常需要计算检验统计量，比如 t-统计量，其基本形式是：$t = \frac{估计值 - 假设值}{标准误}$。
- 有了Bootstrap估计出的标准误，我们就可以在没有传统公式的情况下，为各种复杂的估计量构建检验统计量。

1.3. 求均值

原始数据集被记为 $\mathbf{y}=(y_1,...,y_n)$ 。通过对原始数据进行有放回抽样得到的第b个自助样本，被记为 $\mathbf{y}^b=(y_1^b,...,y_n^b)$ 。
对于每一个自助样本 $\mathbf{y}^b$ ，我们都可以计算它的均值，记作 $m_b$。
其计算公式就是标准的算术平均值：$$m_b=\frac{1}{n}\sum_{i=1}^ny_i^b$$
这个 $m_b$ 就是我们之前提到的 $\hat{\theta}^{*b}$ 在统计量为“均值”时的具体形式。我们重复自助抽样过程B次，就会得到B个不同的均值 ${m_1,m_2,...,m_B}$ 由这B个均值构成的分布，是对一个我们无法直接观测到的、理论上的抽样分布 (sampling distribution) 的近似。

2. Efron's Bootstrap

2.1. 数学表达

我们通过分析自助样本中原始数据点的出现次数，将自助样本的均值重新表达为一个关于原始数据的加权平均。

因为每次抽样后都会将数据点“放回”，所以在大小为n的自助样本中：

某个原始数据点可能一次都未被抽中（出现0次）。
也可能运气极好，n次抽中的都是它（出现n次）。
大多数情况是介于0和n次之间。

为了数学化地描述上述现象，我们引入一个符号 $h_i^b$ ，其表示在第b个自助样本中，原始数据点 $y_i$ 出现了多少次这些计数值 $h_i^b$ 必须满足两个条件：

$h_i^b\in{0,1,...,n}$：出现次数只能是0到n之间的整数。
$\sum_{i=1}^nh_i^b=n$：所有原始数据点的出现次数加起来，必须等于自助样本的总大小 $n$ 。

那么，通常我们计算自助样本的均值，是把自助样本里的 $n$ 个数加起来再除以 $n$ 。但我们也可以换个思路：直接在原始数据上进行计算。如果原始数据点 y_1 出现了 $h_1^b$ 次，y_2 出现了 $h_2^b$ 次……那么总和就是 $h_1^by_1+h_2^by_2+...+h_n^by_n$ 因此，均值可以表示为： $$m_b=\frac{1}{n}\sum_{i=1}^nh_i^by_i$$ 我们可以进一步定义一个权重 $w_i^b=h_i^b/n$ 。这个权重代表了原始数据点 $y_{i}$ 在第b个自助样本中所占的比例。于是，均值的计算公式就变成了非常简洁的加权求和形式：$$m_b=\sum_{i=1}^nw_i^by_i$$ 将Bootstrap的均值计算理解为对原始数据的加权求和，是理解更高级统计思想的一座关键桥梁。在我们现在讨论的 Efron Bootstrap中，权重 $w_i^b$ 是由“有放回抽样”这个物理过程被动产生的，它只能取 ${0,1/n,2/n,...,n/n}$ 这些离散值。

而贝叶斯Bootstrap则完全抛弃了“抽样”这个过程。它直接将权重向量 $(w_1,...,w_n)$ 视为一组未知的连续参数，并使用贝叶斯定理来推断这些权重的后验分布（通常是狄利克雷分布）。

2.2. Bootstrap Failure

我们假设有一组数据，来自一个均匀分布 (Uniform Distribution)$U[0,\theta]$ ，数据点在0到某个未知的上限 $θ$ 之间是等概率出现的。我们的目标是，根据手上的样本 $X_1,...,X_n$ ，来估计这个未知的上限 $θ$。

我们使用的估计方法是最大似然估计 (MLE)。对于均匀分布 $U[0,θ]$ 来说，使其观测样本出现概率最大的那个 $θ$ 值，就是样本中观测到的最大值。所以，这里的MLE就是样本最大值，记作 $X_{(n)}$

我们的估计量是 $X_{(n)}$ 现在我们尝试用Bootstrap来评估这个估计量的稳定性（比如构建置信区间）。Bootstrap的操作是从原始样本中有放回地抽样n次。

现在的问题是：在任何一次自助抽样中，原始样本的那个最大值 $X_{(n)}$ 有多大的概率会被包含进来？

这个问题可以反过来想：$X_{(n)}$ 不被包含的概率是多少？

每次抽样时，不抽到 $X_{(n)}$ 的概率是 $(n-1)/n=1-1/n$。
因为 $n$ 次抽样是独立的，所以连续 $n$ 次都不抽到 $X_{(n)}$ 的概率是 $(1-1/n)^n$。

因此，$X_{(n)}$ 至少被包含一次的概率就是： $1-(1-1/n)^n$ 。当 $n$ 很大时，这个概率值约等于 $1-e^{-1}\approx1-0.37=0.63$ 这意味着，在大约63%的自助样本中，最大值将恰好就是**原始样本的最大值。

由于约63%的自助样本中都包含了原始最大值 $X_{(n)}$，并且自助样本中不可能出现比 $X_{(n)}$ 更大的值，所以这些自助样本的最大值也将是 $X_{(n)}$。

这导致我们通过Bootstrap模拟出来的最大值分布，在 $X_{(n)}$ 这个点上有一个巨大的概率尖峰 (约63%的概率质量都集中在这一点上）。而在 $(X_{(n)},\theta]$ 这个区间，自助分布的概率为0，但真实的最大值分布显然不为0。

事实上，我们可以通过数学推导得知，对于从 $U[0,θ]$ 中抽取的样本，其最大值 $X_{(n)}$ 的抽样分布，经过一个简单的变换后（即 $n(X_{(n)}-\theta)$），会服从一个指数分布 (exponential distribution)。而我们用Bootstrap模拟出的分布，其上限被死死地“钉”在了 $X_{(n)}$ 上，并且形态也完全不同（有一个不正常的尖峰）。

Bootstrap的目的是“模拟真实的抽样分布”，而在这个例子中，它模拟出的分布与真实的分布形态完全不同。因此，我们说Bootstrap在这里失败了。用这个错误的分布去构建置信区间，必然会得到错误的结果。

Bootstrap的适用性前提: Bootstrap能够成功的核心前提是，样本的经验分布 $F_n$ 是对真实总体分布 $F$ 的一个良好近似。通过对 $F_n$ 进行重采样，可以很好地模拟对 $F$ 进行采样的过程。
失败的根源: 在这个 $U[0,θ]$ 的例子中，估计量 $\hat{\theta}=X_{(n)}$ 的性质极度依赖于样本的边界。而任何由样本构建的经验分布 $F_n$，其边界（最大值）都不可能超越样本本身。Bootstrap无法模拟出“从真实总体中可能抽到比当前样本最大值更大的值”这一情况，这是其根本的局限性。
引申: 这个失败的例子告诉我们，当统计量的性质严重依赖于样本的极值（最大值、最小值）或者分布的尾部时，使用标准的Bootstrap要非常小心。

改进方法：m out of n Bootstrap

标准Bootstrap失败的核心: 当自助样本大小 n 与原始样本大小 n 相同时，自助样本的多样性不够，导致其极值（最大值）严重受到原始样本极值的限制。

"m out of n"的思路: 通过选择一个更小的自助样本量 m（比如 $m=\sqrt{n}$ 或 $m=n^{0.8}$ ），我们人为地增加了自助样本之间的变异性。

当m远小于n时，任何一个特定的原始数据点（包括最大值 $X_{(n)}$）在单次自助抽样中被选中的概率都会降低。

这会使得模拟出的统计量分布更加平滑，减轻了在 $X_{(n)}$ 处的病态尖峰问题，从而可能更好地近似真实的抽样分布。这种方法虽然可能解决问题，但也引入了一个新的难题如何选择最优的m？

m的选择对最终结果影响很大，而最优m的确定本身就是一个复杂的统计问题。因此，它虽然是一种理论上的解决方案，但在实践中并不像标准Bootstrap那样直接和方便。

3. Bayesian Bootstrap

3.1. 数学定义

Efron Bootstrap：权重 $w_{i}$ 是通过“有放回抽样”这个物理过程产生的。一个数据点被抽中k次，它的权重就是 $k/n$。所以权重只能从离散集合 ${0,1/n,...,n/n}$ 中取值。

Bayesian Bootstrap：贝叶斯学派不关心“抽样”这个过程。它直接将权重向量 $w$ 视为一组未知的、连续的参数，并推断其后验分布。

一个典型的贝叶斯推断流程：后验 ∝ 似然 × 先验。

先验 (Prior)：在看到数据之前，我们对权重 $w$ 有什么看法？我们可以选择一个无信息先验 (non-informative prior)，其形式为 $\prod_{i=1}^nw_i^{-1}$。这个先验表达了在看到数据前，我们对权重的各种可能组合没有特别的偏好。

似然 (Likelihood)：给定一组权重 $w$，我们的数据出现的可能性有多大？这对应于数据点来自一个以 $w$ 为概率的离散分布的可能性。

后验 (Posterior)：将上述的无信息先验和多项式似然结合，通过贝叶斯定理的数学推导，得到的结果是：权重向量 $w$ 的后验分布是一个参数全为1的狄利克雷分布 (Dirichlet distribution)，记作 $Dirichlet(1, ..., 1)$。

我们已经知道了权重的后验分布是 $Dirichlet(1, ..., 1)$，但这个分布很复杂，我们很难直接用它来解析地计算出我们关心的统计量 $T(F)$ 的分布。

因此，我们采用蒙特卡洛模拟 (Monte Carlo method) 的方法。操作如下：

从我们推导出的后验分布 $Dirichlet(1, ..., 1)$ 中随机抽取一个权重向量 $\mathbf{w}^{(b)}=(w_1^{(b)},...,w_n^{(b)})$ 。注意，这里的权重是连续的，比如可以是 $(0.13, 0.25, 0.08, ...)$。
使用这个权重向量，计算一次我们关心的统计量。例如，如果是均值，就计算加权平均 $\sum w_i^{(b)}Z_i$ 。这个结果就是 $T(F_n^{(b)})$
重复步骤1和2非常多次（比如B次），得到B个统计量的估计值。这个集合就近似出了我们想要的统计量的后验分布。

为什么是狄利克雷分布 Dirichlet(1, ..., 1)？

狄利克雷分布是多维的Beta分布，它本身就是对概率向量的分布。
一个向量 $(w_1,...,w_n)$ 如果服从狄利克雷分布，那么它必须满足 $w_i≥0$ 且 $∑w_i=1$，这正好是权重的定义。
当参数全部为1，即Dirichlet(1, ..., 1)时，它代表在所有满足条件的权重向量构成的空间（一个称为“单纯形”的几何体）上是完全均匀的。这意味着，抽取到的权重向量落在任何一个小子区域的概率都是相等的，这诠释了“无信息”。

我们通过贝叶斯Bootstrap的蒙特卡洛模拟，得到了B个统计量的估计值 $T(F_n^{(b)})$ ，如果我们将这B个值取平均，得到的结果就是对该统计量后验均值的一个蒙特卡洛估计。

这个操作（对多次自助采样的结果取平均）在形式上与频率派的Bagging（Bootstrap Aggregating）非常相似，因此可以被看作是Bagging的贝叶斯模拟 (Bayesian analog of bagging) 。

3.2. 贝叶斯Bootstrap的概率模型基础

设定似然函数 (Likelihood)：

我们先定义了一个数据生成模型。它假设我们观察到的数据 $x_i$ 是从一个离散的分类分布中抽取的。这个分布有K个可能的值，记为 $d_1,d_2,...,d_K$ 。

向量 $\lambda=(\lambda_1,...,\lambda_K)$ 代表了取到每个值的概率，即： $$Pr(x_i=d_k|\lambda)=\lambda_k,\quad\text{其中}\sum\lambda_k=1$$ 且，所有的观测值 $x_1,...,x_n$ 在给定 $λ$ 的条件下是独立同分布 (i.i.d.) 的。这部分合起来，就定义了我们模型的似然函数。在贝叶斯Bootstrap的语境下，这K个可能的值 $d_k$ 就是我们原始样本中的n个数据点（即K=n），而概率向量 $λ$ 就对应于我们之前讨论的权重向量 $w$。

设定先验分布 (Prior)

贝叶斯Bootstrap的操作流程，在数学上等价于为上述模型的参数 λ（即权重向量）选择了一个特定的先验分布。这个先验分布的形式为： $$Pr(\lambda)=\prod_{k=1}^K\lambda_k^{-1},\quad\text{如果}\sum\lambda_k=1,\text{否则为}0$$ 需要注意的是，这是一个不当先验 (improper distribution)

在这里，我们引入这个先验分布完全是为了塑造我们后验分布为我们想要的分布 Dirichlet(1, 1, ..., 1)

我们的目标是得到一个“无信息”的后验，即认为所有权重组合都同等可能。这个理想的后验就是 Dirichlet(1, 1, ..., 1)。
为了通过贝叶斯定理得到这个理想的后验，我们需要一个特定的先验。
经过数学推导，人们发现这个特定的先验恰好是$Pr(\lambda)\propto\prod\lambda_k^{-1}$。
虽然这个先验本身是“不当的”，但这没关系，因为它只是一个中间工具，最终的后验是完全“适当的”和非常有用的。

在贝叶斯Bootstrap的实际应用中，K就等于样本大小n，而这K个离散值 $d_k$ 就是我们原始的n个数据点 $y_i$。因此，这里的概率向量 λ 和我们之前讨论的权重向量 $w$ 是同一个东西。这里只是用一个更通用的概率模型语言（分类分布）来重新描述它。

3.3. 与Efron's Bootstrap的联系

在Efron Bootstrap中，我们通过物理重采样，得到的次数向量 $(h_1,...,h_n)$ 服从一个多项分布 $\text{Multinomial}(n,(1/n,...,1/n))$ 。对应的权重向量 $\mathbf{w}=(h_1/n,...,h_n/n)$ 只能取离散值。
在Bayesian Bootstrap中，我们不进行物理重采样。我们直接将权重向量 $w$ 视为未知参数，为其设定一个先验（如 $Pr(\mathbf{w})\propto\prod w_i^{-1}$ ），再结合一个多项式似然。通过贝叶斯定理，我们最终推导出 $w$ 的后验分布是连续的 $\mathrm{Dirichlet}(1,...,1)$ 多项分布和狄利克雷分布在贝叶斯统计中是一对共轭先验 (conjugate prior)。
在本例中:
- 似然函数是多项分布。
- 狄利克雷分布是多项分布的共轭先验。
- 我们选择的无信息先验 $Pr(\mathbf{w})\propto\prod w_i^{-1}$ 恰好是狄利克雷分布的一个特例（当所有参数都为0时，即$Dirichlet(0,...,0)$，虽然它是不当的）。
- 因此，当我们将这个“类狄利克雷”的先验与多项式似然结合时，得到的后验分布必然也是一个狄利克雷分布。经过数学推导，其参数恰好更新为(1, ..., 1)。

所以，贝叶斯Bootstrap的最终产出是一个关于权重的后验概率分布。它不再是像Efron Bootstrap那样生成一系列离散的权重（或计数值），而是给出了一个描述所有可能权重组合的连续概率“热力图”。而这张“热力图”的具体形式，就是一个参数全为1的狄利克雷分布，它表示在没有任何额外信息的情况下，所有可能的权重组合都是同等可能的。

2.4. 狄利克雷分布

1. 狄利克雷分布的“定义域”

它是一个定义在 “K维概率单纯形 (K-dimensional probability simplex)” 上的分布。
概率单纯形是一个满足特定条件的向量集合。一个 $K$ 维向量 $π=(π_1,...,π_K)$ 如果位于这个单纯形 $ΔK$ 上，必须满足两个条件：
1. $\pi_k\geq0\text{ for all k}$：向量中的每个元素都必须是非负的。
2. $\sum_k\pi_k=1$：所有元素加起来必须等于1。
公式表达为：$$\Delta_K={(\pi_1,...,\pi_K):\pi_k\geq0,\sum_k\pi_k=1}$$ 这个集合就是所有可能的K维概率向量的集合。比如，一个三维的概率向量 (K=3) 可以是(0.2, 0.5, 0.3)，它就位于三维单纯形上。在几何上，三维单纯形是一个二维的等边三角形。

2. 狄利克雷分布的定义和密度函数

如果我们说一个概率向量 $π$ 服从参数为 $α=(α_1,...,α_K)$ 的狄利克雷分布，我们会记作： $$(\pi_1,...,\pi_K)\sim\mathrm{Dirichlet}(\alpha_1,...,\alpha_K)$$
它的概率密度函数 (PDF) p(π) 的形式为： $$p(\pi_1,...,\pi_K)=\frac{\Gamma(\sum_k\alpha_k)}{\prod_k\Gamma(\alpha_k)}\prod_{k=1}^K\pi_k^{\alpha_k-1}$$ 我们来分解一下这个公式：
$\pi_k^{\alpha_k-1}$:这是函数的核心部分，它决定了分布的形状。参数 $α_k$ 控制了对应概率 $π_k$ 的“倾向性”。
$\Gamma(\cdot)$: 这是伽玛函数 (Gamma function)，（对于正整数$n$, $Γ(n)=(n−1)!$）
$\frac{\Gamma(\sum_k\alpha_k)}{\prod_k\Gamma(\alpha_k)}$: 这部分是一个归一化常数，它的作用是确保整个概率密度函数在单纯形上的积分为1。

理解狄利克雷分布最形象的方式，是把它看作一个“生产概率向量的工厂”。

场景: 想象一个有K个面的骰子。一次投掷，得到各个面的概率可以用一个K维向量 π 表示。
狄利克雷分布: 它不是描述单次投掷的结果，而是描述这个骰子本身的不确定性。狄利克雷分布的一次抽样，就是从无数可能性中抽取一个特定的骰子（即一个特定的概率向量 π）。

一个具体的例子：石头剪刀布机器

你的对手是一个出招不完全随机的石头剪刀布机器 (K=3)。它出招的概率向量是 $π=(π_{石头},π_{剪刀},π_{布})$。
在你和它交手之前，你对它的策略一无所知。狄利克雷分布就可以用来描述你对它策略 $π$ 的信念分布。
之后，你每观察到一次它的出招，就可以用贝叶斯定理来更新这个狄利克雷分布，让你的信念越来越接近它真实的策略。

2.1. 参数 αk 的意义

参数 $α=(α_1,...,α_K)$ 通常被称为集中度参数 (concentration parameters)，它们共同控制着分布的两个核心特征：

期望（均值）: 抽样得到的概率向量 $π$ 的期望值由 $α_k$ 的相对大小决定。 $$E[\pi_k]=\frac{\alpha_k}{\sum_j\alpha_j}$$ 例如，对于Dirichlet(2, 6, 2)，我们期望抽到的概率向量大概在 (0.2, 0.6, 0.2) 附近。
方差（集中度）: 所有 $α_k$ 的总和 $\alpha_0=\sum_k\alpha_k$ 控制了分布的集中程度。
- $α_0$ 越大，分布越集中。抽到的概率向量 $π$ 会紧密地聚集在期望值周围。这代表我们对骰子的性质“非常有信心”。
- $α_0$ 越小，分布越分散。抽到的概率向量 $π$ 可能会散布在单纯形的各个角落。这代表我们对骰子的性质“非常不确定”。

3. 回到贝叶斯Bootstrap

在贝叶斯Bootstrap中，我们遇到的情况是Dirichlet(1, 1, ..., 1)。
这里的K等于样本大小n。
所有参数 $α_k$ 都等于1。

因此这意味着这个分布的：期望： $E[\pi_k]=1/n$ 。我们期望每个数据点的权重都是均等的。形状: 当所有 $\alpha_k=1$ ，狄利克雷分布在整个单纯形上是完全均匀的。这意味着，在没有任何数据信息之前（或者说在无信息先验下），任何一种可能的权重组合都是同等可能的。这完美地体现了“无偏”或“无信息”的贝叶斯思想。

2.5. 贝叶斯自助样本生成步骤

生成随机间隔

首先，从0到1的均匀分布 (uniform random numbers) 中随机抽取 $n$ 个数。
将这n个数从小到大排序，并记为 $a_1,a_2,...,a_n$。
为了方便，我们再额外定义两个点：$a_0=0$ 和 $a_{n+1}=1$
直观理解: 这一步相当于在一条长度为 1 的绳子上随机撒 $n$ 个点，然后用剪刀在这些点处剪开，再加上绳子的起点和终点，我们就得到了一系列随机长度的短绳。

根据随机间隔进行抽样

我们利用第一步生成的间隔来创建一组随机概率。这些概率就是那些短绳的长度：$p_1=a_1-a_0,\quad p_2=a_2-a_1,\quad...,\quad p_n=a_n-a_{n-1}$（以及最后一个间隔）。这些概率的总和必然为1。
然后，我们根据这组新生成的概率，从原始数据 $x_1,x_2,...,x_n$ 中进行有放回的抽样，重复 $n$ 次，得到最终的贝叶斯自助样本 $\mathbf{x}^{*b}$。
一个等价的实现方式：独立地生成n次0到1的均匀随机数 $u$，如果 $a_{i-1}<u\leq a_i$，就选择原始数据点 $x_i$。这本质上就是根据我们上面计算出的概率 $p_i$ 进行抽样。

核心数学原理: 将n个独立的标准均匀分布的随机变量进行排序，得到的n+1个间隔的长度，恰好服从一个Dirichlet(1, 1, ..., 1)分布

2.6. 狄利克雷过程 (Dirichlet Process, DP)

2.6.1. 定义概率测度

概率测度 (probability measure)：可以简单地把它理解为熟悉的概率分布。它是一个函数，输入是某个空间 $X$ 的一个子集，输出是[0, 1]之间的一个概率值。例如，对于标准正态分布，输入区间(-∞, 0]，输出就是0.5。

2.6.2. 定义狄利克雷过程

我们知道狄利克雷分布是“概率向量”的分布（比如一个K面骰子的各面概率），而狄利克雷过程是“概率分布本身”的分布。如果我们说 $G∼DP$，意思就是 $G$ 不是一个普通的随机变量或随机向量，而是一个随机的概率测度 (random probability measure)。$DP$ 的一次抽样，不是得到一个数值或一个向量，而是得到一个完整的概率分布 $G$。

2.6.3. DP的关键性质

$DP$ 采用了一种构造性定义，它要求，对于我们关心的空间 $\mathrm{X}$ 的任何一种有限划分（即将 $X$ 分割成 $K$ 个互不相交的子集 $A_1,...,A_K$，且它们的并集为全空间 $X$ ），都必须满足一个性质：

将随机测度 $G$ 应用于这 $K$ 个子集上，得到的概率向量 ($G(A_1),...,G(A_K)$) 必须服从一个狄利克雷分布。表达为：

$$\text{如果 }A_1\dot{\cup}...\dot{\cup}A_K=\mathbb{X}\text{,那么}\left(G(A_1),...,G(A_K)\right)\sim\mathrm{Dirichlet}(\alpha_1,...,\alpha_K)\mathrm{~。}$$

2.6.4. 一个直观的类比

狄利克雷分布: 想象一台机器，每次按按钮，它会吐出一个K面的骰子（即一个K维的概率向量）。这台机器就是狄利克雷分布。
狄利克雷过程: 现在想象一台更神奇的机器，每次按按钮，它会吐出一个拥有无限个面的骰子，每个面对应实数轴上的一个点。这个骰子就代表了一个完整的、连续的概率分布。这台更神奇的机器，就是狄利克雷过程。

那么，我们如何描述这颗“无限面骰子”的性质呢？DP的定义告诉我们：

我们不用关心无限个面的具体概率。你只需要把这无限个面任意地划分成有限的几组（比如，所有负数的面为A组，[0,1]之间的面为B组，大于1的面为C组）。那么，这颗骰子落在A、B、C三组的总概率 ($P(A),P(B),P(C)$) 这个三维向量，必然服从一个三维的狄利克雷分布。

这个性质对于任何一种有限划分都必须成立，这就是DP的精妙之处。

2.6.5. DP的应用：贝叶斯无参数密度估计

DP最经典的应用之一，就是在我们对数据的分布一无所知时，用作分布的先验。这个过程被称为狄利克雷过程混合模型 (Dirichlet Process Mixture Model)。

场景: 你有一堆数据点，你想拟合它们的概率密度曲线，但你不知道应该用单峰的高斯分布，还是双峰的混合高斯，或是其他什么奇形怪状的分布。
DP的解决方案:
1. 我们将数据的未知分布 $G$ 建模为 $G∼DP$。
2. $DP$ 的一个重要特性是，从它当中抽样出的分布 $G$ 几乎必然是离散的。这意味着 $G$ 是由一系列“原子”（即一些点）和对应的“权重”（即概率）组成的。
3. 这启发我们用 $DP$ 来做一个无限混合模型。我们可以认为每个数据点都来自一个混合成分（比如一个高斯分布），而这些混合成分的数量和它们的权重，都由一个$DP$ 先验来控制。
4. 通过贝叶斯推断，我们可以从数据中自动地学习出“到底需要多少个混合成分才是最合适的”。如果数据很简单，模型可能会自动选择只使用少数几个成分；如果数据很复杂，有多个峰，模型会自动地增加成分的数量来拟合它。

这正是“无参数”的含义所在：模型的复杂度（这里指混合成分的数量）不是预先固定的，而是可以根据数据的需要自动增长。

狄利克雷过程将有限维的狄利克雷分布推广到了无限维的函数空间，为“给未知的概率分布本身赋予一个先验”提供了可能。这使得我们能够构建出复杂度可变的灵活模型，让数据自己“发声”，决定最适合它的模型结构。

2.6.6. DP的参数与性质

一个狄利克雷过程完全由以下两个参数定义：

基础分布 (Base distribution) $H$: 这本身是一个普通的、完整的概率分布（比如一个标准正态分布）。$H$ 就像是这个 $DP$ 的均值 (mean)。
强度/集中度参数 (Strength parameter) $α$: 这是一个正的标量。$α$ 就像是 $DP$ 的方差的倒数 (inverse-variance)。

我们将一个服从以上参数的DP记为： $$G\sim\operatorname{DP}(\alpha,H)$$ 对于空间 $\mathrm{X}$ 的任意一个有限划分 $(A_1,...,A_K)$ ，由随机测度 $G$ 生成的概率向量 $(G(A_1),...,G(A_K))$ 服从一个具体的狄利克雷分布。这个狄利克雷分布的参数，正是由 $DP$ 的两个参数 $α$ 和 $H$ 决定的： $$(G(A_1),...,G(A_K))\sim\mathrm{Dirichlet}(\alpha H(A_1),...,\alpha H(A_K))$$ 基础分布 $H$ 告诉我们，在划分的各个区域上，“期望”的概率质量是多少（即 $H(A_k)$）；而强度参数 $α$ 则像一个放大器，将这些期望的概率质量统一放大 $α$ 倍，作为最终狄利克雷分布的参数。

对于空间中任意一个可测子集 $A$，随机变量 $G(A)$ 的期望和方差：

期望 (Expectation): $\mathbb{E}[G(A)]=H(A)$

这说明了 $H$ 是均值。从 $DP$ 中抽取一个随机分布 $G$ ，我们期望它在 $A$ 区域上分配的概率质量，正好就是基础分布 $H$ 在 $A$ 区域上的概率质量。

方差 (Variance): $\mathbb{V}[G(A)]=\frac{H(A)(1-H(A))}{\alpha+1}$

$α$ 出现在分母上，因此：

$α$ 越大，方差越小，说明从 $DP$ 中抽出的随机分布 $G$ 在 $A$ 区域上的取值 $G(A)$ 会紧密地围绕着其均值 $H(A)$。
$α$ 越小，方差越大，说明 $G(A)$ 的取值会更加分散和不确定。这精确地诠释了 $α$ 是“方差倒数”或“集中度”参数的含义。

与Beta分布的联系

狄利克雷分布是Beta分布的多维推广。
狄利克雷过程的一个性质是，对于任意可测集 $A$，随机变量 $F(A)$ 本身服从一个Beta分布：$F(A)∼Beta(αH(A),α(1−H(A)))$
Beta分布的期望和方差公式是已知的：
- $E=\frac{a}{a+b}$
- $V=\frac{ab}{(a+b)^2(a+b+1)}$
将 $a=αH(A)$ 和 $b=α(1−H(A))$ 代入，就可以直接推导出之前的期望和方差公式。这揭示了 $DP$ 在最根本的层面，是由无数个相互关联的 $Beta$ 分布构成的。

2.6.7. 中餐厅过程 (Chinese Restaurant Process)

一个非常著名的、与DP等价的生成过程叫做“中餐厅过程”，它能帮助我们更形象地理解 $α$ 和 $H$ 的作用。

场景: 想象一家有无限张桌子的中餐厅。

$H$ (基础分布): 代表餐厅的菜单。菜单上有各种菜品（比如宫保鸡丁、麻婆豆腐等），以及每道菜的受欢迎程度（概率分布）。
$α$ (强度参数): 代表顾客的创新/从众倾向。
过程:
1. 第一位顾客到来，他没有选择，只能新开一张桌子，并从菜单 $H$ 中点一道菜。
2. 第二位顾客到来，他有两个选择：
  - 以正比于 $α$ 的概率，新开一张桌子，并从菜单 $H$ 中点一道全新的菜。
  - 以正比于第 1 桌人数（即1）的概率，坐到第 1 桌去，并点和他们一样的菜。
3. 第 $n$ 位顾客到来，他有两个选择：
  - 以正比于 $α$ 的概率，新开一张桌子，从菜单 $H$ 中点菜。
  - 以正比于已占用的桌子上的人数的概率，加入其中一张已有的桌子，并点和那桌一样的菜。
与DP的联系: 当顾客数量趋于无穷时，这家餐厅里各个“菜品”（即数据点的值）的比例分布，就服从一个 $DP(α,H)$。

$α$ 和 $H$ 的作用:

$H$: 决定了当新开一张桌子时，会从什么样的菜品中进行选择。如果H是正态分布，那么新出现的菜品值就倾向于落在正态分布的中心区域。
$α$:
- $α$ 很大: 顾客非常“创新”，喜欢新开桌子。结果是餐厅里桌子很多，每桌人很少，菜品种类繁多，其分布会非常接近于原始菜单H。
- $α$ 很小: 顾客非常“从众”，喜欢加入已有的热门大桌。结果是餐厅里桌子很少，但有几张是“超级大桌”，菜品种类很集中。
- 如果 $α→0$: 这是我们在讨论贝叶斯Bootstrap时遇到的极限情况。此时方差达到最大。这代表我们对任何一个特定的基础分布 $H$ 都完全没有信心，我们让信念完全由数据来驱动。

这个类比告诉我们，从 $DP$ 中抽样出的分布 $G$ ，几乎必然是离散的（对应于餐厅里有限种被点过的菜品），即使基础分布 $H$ 是连续的。而 $α$ 的大小，决定了这个离散分布是更“平滑”地近似于H，还是更“粗糙”地聚类成少数几个大块。

2.6.8. 离散构造性

$DP$ 是一个分布之上的分布 (a distribution over distributions)。我们将一个服从DP的随机分布G记为： $$G\sim\mathrm{DP}(\alpha,G_0)$$

这里的 $G_0$ 是基础分布 (base distribution)，$α$ 是一个正的缩放/集中度参数 (scaling parameter)。
$G$ 是一个随机的概率测度，它与基础分布 $G_0$ 共享相同的支撑集 (support)。这意味着，$G$ 只会在 $G_0$ 概率不为零的地方分配概率。

我们假设 $G_0$ 是一个连续分布。对于任何连续分布，从其中抽取两个独立的样本，它们的值完全相等的概率精确为零。比如，从标准正态分布中抽出两个数，它们恰好都等于0.12345...的概率是0。

结论：尽管基础分布 $G_0$ 是连续的，但从 $DP(α,G_0)$ 中随机抽样出的任何一个具体的分布 $G$，几乎必然是一个离散分布。

“离散”意味着，这个分布 $G$ 是由一系列（可数无穷个）点质量 (point masses) 构成的。也就是说，$G$ 的全部概率质量都集中在一些孤立的点上，这些点之间是“空的”。

因为 $G$ 是离散的，所以从 $G$ 中抽取两个独立的样本，它们的值完全相等（即发生“碰撞”，colliding）的概率是非零的。

这种从连续到离散的转变，有一个非常著名的构造方法叫“掰棍子”，可以帮助我们直观地理解这个过程。

假设要构造一个随机分布G。

确定权重 (掰棍子):
- 有一根长度为1的棍子。
- 掰下第一段: 先从一个 $Beta(1, α)$ 分布中抽取一个比例 $β_1$ ，掰下长度为 $π_1 = β_1$ 的一段。
- 掰下第二段: 在剩下的长度为 $1−π_1$ 的棍子上，再从 $Beta(1, α)$ 中抽取一个比例 $β_2$，掰下长度为 $π_2=(1−π_1)β_2$ 的一段。
- 掰下第三段: 在又剩下的棍子上，再抽取比例 $β_3$，掰下长度为 $π_3=(1−π_1)(1−π_2)β_3$ 的一段...
- 无限重复: 这个过程可以无限进行下去，会得到一系列的权重（棍子段的长度）${π_1,π_2,π_3,...}$，它们的总和为1。
确定位置 (从 $G_0$ 中抽样):
- 对于你掰下的每一段棍子（每一个权重 $π_k$），都独立地从基础分布 $G_0$ 中抽取一个值 $Z_k$ 作为这个权重的位置。
组合成 $G$:
- 最终，得到的随机分布 $G$ 就是这些位置和权重的组合：$G=\sum_{k=1}^\infty\pi_k\delta_{Z_k}$ 。
- 这个 $G$ 显然是一个离散分布，因为它所有的概率质量都集中在 ${Z_1,Z_2,Z_3,...}$ 这些点上。

现在我们可以更深刻地理解 $α$ 的作用了。它直接影响了 $Beta(1, α)$ 分布，从而影响了我们每次“掰棍子”的比例。

$α$ 很小 (比如 $α$ =0.1):
- $Beta(1, 0.1)$ 分布的期望值很大。这意味着你每次掰棍子时，都倾向于“掰下一大段”。
- 结果是，前几段棍子很快就占据了总长度的绝大部分。这会导致生成的分布 $G$ 由少数几个权重很大的点主导，呈现出非常明显的聚类特性。
$α$ 很大 (比如 $α$ =100):
- $Beta(1, 100)$ 分布的期望值很小。这意味着你每次掰棍子时，都倾向于“只掰下一小段”。
- 结果是，你需要掰很多很多次，才能凑够接近1的总长度。这会导致生成的分布 $G$ 由大量权重很小的点构成，看起来更“平滑”，更接近于连续的基础分布 $G_0$。

2.6.9. DP的数学定义

首先定义一个必要的工具（划分）。

一个集合 $B_1,...,B_N$ 如果是 $\mathbb{X}$ 的一个划分，必须满足两个条件：

$B_i\cap B_j=\emptyset,\forall i\neq j：这些子集之间互不相交。
$\cup_{i=1}^NB_i=\mathbb{X}$ ：这些子集的并集必须正好是整个空间 $\mathbb{X}$。

存在性定理：

给定一个大于0的集中度参数 $α$ 和一个在空间 $\mathbb{X}$ 上的基础概率分布 $H$。
我们可以证明，存在一个唯一的“分布之上的分布”，我们称之为狄利克雷过程，记作 $DP(\alpha,H)$ 。

核心性质:

这个唯一的分布 $DP(α,H)$ 必须满足以下性质：
如果我们从这个DP中抽取一个随机的概率测度 $F$ (即 $F\sim DP(\alpha,H)$)，并且对空间 X 进行任意的有限划分 $B_1,...,B_N$。
那么，由 $F$ 赋予这个划分的概率向量 $(F(B_1),...,F(B_N))$，必然服从一个由 $α$ 和 $H$ 决定的具体的狄利克雷分布。
这个狄利克雷分布的参数为： $$(\alpha H(B_1),...,\alpha H(B_N))$$
于是，完整的关系式为： $$(F(B_1),...,F(B_N))\sim\mathrm{Dir}(\alpha H(B_1),...,\alpha H(B_N))$$ $H(B_i)$ : 这是基础分布 $H$ 在划分区域 $B_i$ 上的概率。可以把它看作是我们对随机分布 $F$ 在该区域上概率的期望或“先验猜测”。

$α$: 这是集中度参数。它像一个“信心放大器”。

$\alpha H(B_{i})$ 这个整体，就是最终狄利克雷分布的参数。
我们知道，狄利克雷分布的参数之和（即 $\sum_i\alpha H(B_i)=\alpha\sum_iH(B_i)=\alpha\times1=\alpha$ ）决定了其集中程度。
因此，$α$ 越大，意味着狄利克雷分布越集中，我们抽样得到的随机概率向量 $(F(B_1),...,F(B_N))$ 会越紧密地围绕其期望值 $(H(B_1),...,H(B_N))$。这表示我们对先验猜测 $H$ 更有信心。
反之，$α$ 越小，我们得到的概率向量会越分散，表示我们对先验猜测 $H$ 信心不足。

这个定理是一个存在性定理，它只负责证明“有这样一种东西存在”，但它并没有告诉我们如何去“制造”或者“采样”一个这样的随机测度 $F$。

而我们之前讨论过的“掰棍子”构造法 (Stick-Breaking Construction) 或“中餐厅过程” (Chinese Restaurant Process) 等，就是具体的构造性方法。这些方法提供了一套算法流程，可以让我们在计算机上实际地生成一个服从DP的随机样本。可以证明，由这些构造法生成的随机测度，恰好就满足这个存在性定理所要求的核心性质。

2.6.10. DP的共轭性

假设我们从一个随机分布 $F$ 中抽取了一个数据点 $x$，并且我们恰好知道这个 $x$ 落在了我们预先设定的某个划分区域 $B_k$ 中。

在这个条件下，我们对 $F$ 赋予各个划分区域的概率向量 $(F(B_1),...,F(B_N))$ 的信念会如何更新呢？后验分布为：

$$P(F(B_1),...,F(B_N)|x\in B_k)=\mathrm{Dir}(\alpha H(B_1),...,\alpha H(B_k)+1,...,\alpha H(B_N))$$

我们知道先验是 $\mathrm{Dir}(\alpha H(B_1),...,\alpha H(B_N))$ 。当我们观测到一个数据点落在区域 $B_k$ 后，这个狄利克雷分布的参数发生了变化：只有第k个参数，即对应 $B_k$ 的那个参数，增加了1。这体现了贝叶斯学习的“增量更新”思想：数据落在哪里，就在哪里增加我们的信念权重。

现在，将上述思想推广到我们观测到一整个数据集 $S=(x_1,...,x_n)$ 的情况。如果我们对未知分布 $F$ 的先验是一个狄利-克雷过程 $DP(α,H)$，并且我们从 $F$ 中观测到了一组数据 $S$，那么 $F$ 的后验分布 同样是一个狄利克雷过程。后验的狄利克雷过程的具体形式为： $$P(F|S,\alpha,H)=DP\left(\alpha+n,\frac{1}{n+\alpha}\left(\alpha H+\sum_{i=1}^n\delta_{x_i}\right)\right)$$ 让我们把这个核心的后验公式拆解开来，理解它的每一部分：

新的集中度参数: $\alpha_{new}=\alpha+n$ ，这代表我们的信心强度增加了。原始的信心强度是 $α$，每观测到一个新的数据点，我们的信心就增加1。总的信心强度是先验信心和数据点数量的总和。

新的基础分布: $H_{new}=\frac{1}{n+\alpha}\left(\alpha H+\sum_{i=1}^n\delta_{x_i}\right)$ 新的基础分布是一个加权平均。

$αH$: 代表了来自先验的信念。它的权重是先验的集中度 $α$。
$\sum_{i=1}^n\delta_{x_i}$:这是由观测数据构成的经验分布 (empirical distribution)。它把所有的概率质量都集中在观测到的 $n$ 个数据点上。它的权重是数据的数量 $n$。
$\frac{1}{n+\alpha}$:这是归一化因子，确保新的基础分布总概率为1。

我们的后验信念，是先验猜测和数据证据之间的一场“拔河”。

如果先验信心 $α$ 很大而数据量 $n$ 很小，那么后验分布将主要由先验 $H$ 主导。
如果数据量 $n$ 很大而先验信心 $α$ 很小，那么后验分布将主要由数据的经验分布主导，几乎“忘记”了先验。

这个后验更新规则在“中餐厅过程”的类比中也有非常直观的对应：

当一个新顾客（一个新数据点 $x_{n+1}$）到来时，他决定坐在哪张桌子（即决定这个数据点属于哪个聚类）的概率，正比于这个后验预测分布。
这个分布可以被分解为两部分：
1. 坐到一张旧桌子：概率正比于桌上已有的人数（对应于后验公式中的经验分布 $\sum\delta_{x_i}$ 部分）。
2. 新开一张桌子：概率正比于集中度参数 $α$（对应于后验公式中的先验 $H$ 部分），新桌子的菜品从菜单 $H$ 中抽取。

$DP$ 的共轭性有一个非常重要的结论：即使我们的先验信念包含一个连续的基础分布，在数据量趋于无穷时，我们的后验信念也会收敛到一个离散的分布上。

我们从后验 $DP$ 公式 $P(F|S,\alpha,H)=DP(\alpha+n,\frac{1}{n+\alpha}(\alpha H+\sum\delta_{x_i}))$ 出发，可以直接写出后验分布的期望。

对于任意一个可测集 $A$，后验分布 $F$ 赋予它的期望概率是： $$\mathbb{E}(F(A)|S,\alpha,H)=\frac{1}{n+\alpha}\left(\alpha H(A)+\sum_{i=1}^n\delta_{x_i}(A)\right)$$ 后验信念是先验信念（由 $αH(A)$ 代表）和数据证据（由 $\sum\delta_{x_i}(A)$ 代表，即落在集合A中的数据点个数）的加权平均。

当数据量趋于无穷时的极限时，在后验期望的加权平均公式中，权重来自于 $α$ 和 $n$。当 $n→∞$ 时，$n$ 的影响力将无限地超过有限的 $α$ 的影响力。

于是，公式中与先验相关的项 $αH(A)$ 就可以忽略不计了，整个期望会收敛到由数据驱动的部分。这个极限情况下的后验期望形式： $$\mathbb{E}(F(A)|S,\alpha,H)=\sum_{i=1}^\infty\pi_i\delta_{x_i}(A)$$ 在极限情况下，我们期望的后验分布是一个纯粹的离散分布。它所有的概率质量都集中在观测到的数据点 $x_i$ 上。分配给每个观测点 $x_i$ 的概率 $π_i$ 是该数据点在无穷数据序列中的极限经验频率，即 $\pi_i=\lim_{n\to\infty}C_i/n$ 其中 $C_i$ 是 $x_i$ 出现的次数。

Class2.1 Bootstarp相关

beautifulremi