Class 3 - Lindley’s Paradox, Bayes Factor and Hierarchical Model

似然原则(Likelihood Principle)

贝叶斯方法遵循似然原则:我们所知道的关于数据/样本的一切信息都包含在似然函数中。

似然函数,即 $L(\theta|\mathrm{data})$ 也就是在给定我们观测到的数据的情况下,关于未知参数 $θ$ 的函数。这个函数描述了:在不同的 $θ$ 取值下,我们观测到当前这组“数据”的可能性有多大。

似然原则的意思是,一旦你收集到了数据,这组数据能告诉你关于参数 $θ$ 的所有信息,都已经被压缩进了这个似然函数 $L(θ∣data)$ 中了。除了这个函数本身,其他任何关于实验设计或采样过程的额外信息(比如你为什么停止收集数据)对于推断 $θ$ 都是无关紧要的。

似然原则的推论:如果两种不同采样计划/分布下的似然函数,就我们关心的参数 $θ$ 而言是成比例的,那么基于这两种采样分布对 $θ$ 的统计推断应该是相同的。

假设有两个不同的实验(比如实验A和实验B),它们得到了两组数据 $data_A$​ 和 $data_B​$。它们产生了两个似然函数:$L_A​(θ∣data_A​)$ 和 $L_B​(θ∣data_B​)$。

如果 $L_A​∝L_B​$,意思是 $L_A​=C×L_B​$,其中 $C$ 是一个常数,这个常数不依赖于 $θ$。在这种情况下,似然原则认为这两个实验提供了关于 $θ$ 的完全相同的证据。因此,你对 $θ$ 的所有推断(比如估计值、置信区间等)都应该是一模一样的。

这个原则在贝叶斯统计中是天然成立的,因为下式: $$P(\theta|\mathrm{data})\propto P(\mathrm{data}|\theta)\times P(\theta)$$ 因为我们的先验都是一样的,似然也一样,所以后验也一样。这就引出了贝叶斯统计与频率派统计最根本的分歧点。 $$频率派统计违反了似然原则$$

Uncertainty Sampling Plan

问题的设定

  • 实验数据: 我们观测到一次实验,结果是抛了12次硬币,出现9次正面和3次反面。
  • 参数: 我们关心的是硬币出现正面的概率,即 $θ$。
  • 假设检验: 我们想检验硬币是否是公平的($θ=0.5$),还是偏向于正面($θ>0.5$)。
    • 原假设 $H_0​:θ=0.5$
    • 备择假设 $H_1​:θ>0.5$
  • 关键问题:这里“没有关于采样计划的进一步信息”。也就是说,我们不知道实验者为什么在12次时停止了。
  • 两种可能性: 基于这个不确定性,至少有两种可能的似然函数。

可能性一:二项分布(Binomial Distribution)

  • 采样计划假设: 实验者事先决定只抛固定的 $n=12$ 次。
  • 模型: 那么,观测到的正面次数 $Y$ 服从二项分布,$Y∼Bin(n,θ)$。
  • 似然函数: 基于观测到的 $n=12$ 和 $y=9$,似然函数为: $$L_1(\theta|y)=\binom{n}{y}\theta^y(1-\theta)^{n-y}=\binom{12}{9}\theta^9(1-\theta)^3$$
  • 频率派p值: 在$H_0$​($θ=0.5$)下,p值是观测到“至少9次正面”的概率: $$p_1\mathrm{-value}=\Pr(y\geq9|H_0)=\sum_{y=9}^{12}\binom{12}{y}0.5^{12}\approx0.073$$

可能性二:负二项分布(Negative Binomial Distribution)

  • 采样计划假设: 实验者事先决定一直抛,直到观测到 $r=3$ 次反面为止。
  • 模型: 那么,在观测到3次反面前出现的正面次数 $Y$ 服从负二项分布,$Y∼Neg-Bin(r,θ$)。
  • 似然函数: 基于观测到的 $y=9$ 和 $r=3$,似然函数为: $$L_2(\theta|y)=\binom{y+r-1}{y}\theta^y(1-\theta)^r=\binom{11}{9}\theta^9(1-\theta)^3$$
  • 频率派p值: 在$H_0$​($θ=0.5$)下,p值是(在观测到3次反面前)观测到“至少9次正面”的概率: $$p_2\mathrm{-value}=\Pr(y\geq9|H_0)=\sum_{y=9}^\infty\binom{y+2}{y}0.5^{3+y}\approx0.033$$ 这最终导向了一个核心的统计学冲突:

频率派的冲突:

  • 如果我们设定显著性水平 $α=0.05$。
  • 二项分布(可能性一)下,$p_1​≈0.073>0.05$,我们接受(或无法拒绝)原假设 $H_0$​。结论:硬币是公平的。
  • 负二项分布(可能性二)下,$p_2​≈0.033<0.05$,我们拒绝原假设 $H_0$​。结论:硬币偏向正面。
  • 频率派的推断是矛盾的,它取决于你选择的采样分布。

双边检验 (Two-sided Test)

我们在贝叶斯方法下设定一个双边检验:

  • 数据: 和之前一样,我们有 $n=12$ 次抛掷,观测到 $y=9$ 次正面。
  • 参数: $θ$ 仍然是硬币出现正面的概率。
  • 假设: 这次我们进行一次双边检验:
    • $H_0​:θ=0.5$ (原假设:硬币是公平的)
    • $H_1:\theta\neq0.5$ (备择假设:硬币不公平)
  • 贝叶斯设置: 在贝叶斯假设检验中,我们必须为假设本身分配先验概率。我们在此做了一个最简单的假设:$H_0$ ​和 $H_1​$ 初始时是同样可信的。
    • $P(H_0​)=0.5$
    • $P(H_1​)=0.5$

边际似然 (Marginal Likelihoods)

为了比较这两个假设,我们需要计算在每个假设下,观测到 $y=9$ 这组数据的概率 $P(y∣H)$ 是多少。这个值被称为“边际似然”或“证据”。

$H_0​$ (原假设) 下的证据:

  • $H_0​$ 是一个“简单假设”,因为它精确地指定了 $θ=0.5$。
  • 因此,其概率就是二项分布在 $θ=0.5$ 时的概率: $$P(y|H_0)=P(y|\theta=0.5)=\binom{n}{y}(0.5)^n$$
  • 这是一个固定的数值。

$H_1$​ (备择假设) 下的证据:

  • $H_1​$ 是一个“复合假设”,它只说 $\theta\neq0.5$,但没说是多少。
  • 为了计算 $P(y∣H_1​)$,我们必须定义一个先验分布 $P(θ∣H_1​)$,来描述“如果硬币不公平,我们认为 $θ$ 可能是多少”。
  • 我们假设 $θ$ 在 $H_1​$ 下服从一个 $Beta(α,β)$ 分布。
  • $P(y∣H_1​)$ 是 $P(y∣θ)$ 在这个Beta先验下的“加权平均”,即对所有可能的 $θ$ 进行积分: $$P(y|H_1)=\int_0^1P(y|\theta)\times P(\theta|H_1)d\theta$$ 这个积分(即Beta-二项分布)的结果: $$P(y|H_1)=\binom{n}{y}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\frac{\Gamma(\alpha+y)\Gamma(\beta+n-y)}{\Gamma(\alpha+\beta+n)}$$

计算后验概率:贝叶斯定理

有了 $P(y∣H_0​)$ 和 $P(y∣H_1​)$,我们就可以使用贝叶斯定理来计算在看到数据 $y=9$ 之后,我们对 $H_0$​ 的信念有多强,即“后验概率” $P(H_0​∣y)$: $$P(H_0|y)=\frac{P(y|H_0)P(H_0)}{P(y|H_0)P(H_0)+P(y|H_1)P(H_1)}$$ 关键点在于,这个后验概率 $P(H_0​∣y)$ 极其依赖于我们在 $H_1$​ 下选择的 Beta(α,β) 先验。

  1. 如果我们选择均匀先验 (Uniform Prior):
  • 如果我们假设 $α=β=1$,这对应于 $Beta(1,1)$ 分布,即 θ 在 $[0, 1]$ 上均匀分布。
  • 计算结果为:$P(H_0​∣y)=0.411$。
  • 解读: 在这种先验下,$H_0$​ 的后验概率小于0.5,数据($y=9$)使得我们更倾向于 $H_1​$(硬币不公平)。
  1. 如果我们选择U型先验 (U-shaped Prior):
  • 如果我们假设 $α=β=0.1$,这对应于 $Beta(0.1,0.1)$ 分布,这是一个U型,表示我们先验地认为 $θ$ 很有可能接近0或1。
  • 计算结果为:$P(H_0​∣y)=0.741$。
  • 解读: 在这种先验下,结论完全反转了,$H_0$​(硬币公平)的后验概率变得非常高。

如果我们选择不同的 $α=β=x$ ,结果图像如下:

![[Pasted image 20250917172819.png]]

这是在展示贝叶斯假设检验中一个深刻(且常被误解)的特性,这与林德利悖论(Lindley's Paradox)紧密相关。

  • “证据” $P(y∣H_1​)$ 是一个平均值: $P(y∣H_1​)$ 是 $P(y∣θ)$ 在整个先验 $P(θ∣H_1​)$ 上的加权平均。
  • 宽泛先验的惩罚:
    • 当我们使用 $α=β=0.1$ 这种非常宽泛(diffuse)的U型先验时,我们等于是在说 $H_1$​ 包含了许多极端的 $θ$ 值(例如 $θ=0.01$ 或 $θ=0.99$)。
    • 但这些极端值能产生 $y=9,n=12$ (样本均值0.75)这种数据的能力极差。
    • 由于这个先验分布把太多的“信念”浪费在了这些不可能产生观测数据的地方,导致它在“平均”之后,$P(y∣H_1​)$ 的$整体值变得非常小$。
  • 贝叶斯奥卡姆剃刀 (Occam's Razor):
    • 相比之下,$P(y∣H_0​)$ 是一个固定的、精确的(尽管也小)的值。
    • 结果是,这个“宽泛且不聚焦”的 $H_1$​ 作为一个整体,对数据的解释力_反而不如_那个“简单且精确”的 $H_0​$。
    • 这就是贝叶斯推断内置的“奥卡姆剃刀”:一个更简单的、更精确的假设($H_0$​),会比一个“什么都可能发生”的复杂假设($H_1​$)更受青睐,除非 $H_1$​ 能提供一个非常好的解释。

接下来看右图的曲线,我们开始解释这条曲线的行为:

问题的关键:$P(y∣H_1​)$

我们要分析 $P(H_0​∣y)$ 的行为,回顾贝叶斯公式: $$P(H_0|y)=\frac{P(y|H_0)P(H_0)}{P(y|H_0)P(H_0)+P(y|H_1)P(H_1)}$$ 在我们的例子中,$P(H_0)$ 和 $P(H_1)$ 被固定为0.5。$P(y∣H_0​)$ 也是一个固定值(因为 $H_0$​ 精确地指定了 $θ=0.5$)。因此,唯一在变化的是 $P(y∣H_1​)$。

关系: $P(H_0​∣y)$ 和 $P(y∣H_1​)$ 是此消彼长的关系。当 $P(y∣H_1​)$(备择假设的证据)最大时,$P(H_0​∣y)$(原假设的后验概率)就最小。$P(y∣H_1​)$ 是似然函数和先验分布的结合(具体来说,是两者的乘积在 $θ$ 上的积分)。这个值在“先验分布与似然函数最‘相称’(commensurate)”时达到最大。

  • “相称”(Commensurate) 在这里的意思是“对齐”或“一致”。
  • 似然函数: 我们的数据是 $y=9,n=12$。似然函数 $L(\theta)\propto\theta^9(1-\theta)^3$ 在 $\theta=9/12=0.75$ 处达到峰值。这意味着数据本身最支持 $θ=0.75$。
  • “最相称”的先验: 就是指 $P(θ∣H_1​)$ 这个先验分布,能将其大部分的概率密度分配在似然函数 $L(θ)$ 也_很大_的区域(即 $θ=0.75$ 附近)。

两种不“相称”的极端情况:

  1. 高度无信息先验 (Highly noninformative),例如 $α=β=0.1$
    • 上面说过这是一个U型分布。
    • 它把大部分概率密度放在了 $θ$ 接近0或1的地方。
    • 但在 $θ$ 接近0或1的地方,我们的似然函数 $L(\theta)\propto\theta^9(1-\theta)^3$ 几乎为0。
    • 结论: 先验与似然函数“完美错开”,因此 $P(y∣H_1​)$ 非常小。所以 $P(H_0​∣y)$ 就变得很大。
  2. 信息性先验(但中心在0.5),例如 $α=β=10$
    • 这是一个在 $θ=0.5$ 处高度集中的钟形分布
    • 似然函数在 $θ=0.75$ 处达到峰值。
    • 结论: 先验(峰值0.5)与似然(峰值0.75)也“错开”了。因此 $P(y∣H_1​)$ 也很小。所以 $P(H_0​∣y)$ 也会变大。
  3. 当 Beta 先验从“无信息”($α=β=0.1$)变化到“(错误的)信息性”($α=β=10$)时,它必然会经过一个“甜蜜点”(sweet spot)。
  • 在这个点(图1右侧曲线的最低点,大约在 $α=β≈2$ 附近),先验分布与数据似然函数达到了最“相称”的状态。
  • 在这个点,$P(y∣H_1​)$ 达到了最大值,因此 $P(H_0​∣y)$ 也就达到了它的最小值。

$P(H_0​∣y)$ 曲线的行为。这个行为是由 $H_1​$ 下的先验 $P(θ∣H_1​)$ 与数据似然函数 $L(θ)$ 之间的“对齐程度”决定的。当先验与似然“错位”时(无论是U型先验还是集中在0.5的先验),$H_1​$ 的证据 $P(y∣H_1​)$ 都会很弱,从而导致 $H_0$​ 的后验概率 $P(H_0​∣y)$ 上升。

单边检验(One-sided Hypothesis Test)

假设: 我们现在检验:

  • $H_0​:θ=0.5$ (原假设:硬币公平)
  • $H_1​:θ>0.5$ (备择假设:硬币偏向正面)
  • $H_1$​ 的先验分布:
    • 这是一个关键变化。因为 $H_1$​ 只包含 $θ>0.5$ 的情况,所以 H1​ 下的先验分布 $P(θ∣H_1​)$ 必须只在 $(0.5, 1)$ 区间上有定义(即支撑为 $(0.5, 1)$)。
    • 我们这里选择与之前相同的对称 $Beta(α,β)$ 先验($α=β$),但将其截断(truncated)在 $(0.5, 1)$ 区间上。
    • “截断”意味着我们取 $Beta(α,β)$ 密度函数在 $(0.5, 1)$ 上的部分,然后将其“重新归一化”(即乘以一个常数),使其在该区间上的积分为1。由于 $Beta(α,β)$ 是对称的,$(0.5, 1)$ 区间正好占了总概率的一半(0.5),所以归一化常数就是 1/0.5=2。
  • 根据这个新的截断先验, $H_1$​ 的边际似然(证据)现在是一个从0.5到1的积分: $$P(y|H_1)=\int_{0.5}^1\binom{n}{y}\theta^y(1-\theta)^{n-y}\times\left[2\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}\right]d\theta$$ 我们这里依然选择两个先验:
  1. $θ∼Unif(0.5,1)$ 先验
  • 这是 $α=β=1$ 的特例(即 $Beta(1,1)$ 截断在 (0.5, 1))。其先验密度函数就是 $P(θ∣H_1​)=2$。
  • 边际似然为: $P(y|H_1)=\int_{0.5}^1\binom{n}{y}\theta^y(1-\theta)^{n-y}\times2d\theta$
  • 这个积分没有简单的解析形式,需要数值计算。
  • 结果: $P(H_0​∣y)=0.268$。
  • 这个结果($P(H_1​∣y)=1−0.268=0.732$)强烈支持 $H_1$​。这非常符合直觉:我们的数据($y=9,n=12$,样本均值0.75)本身就支持 $θ>0.5$,而 $H_1$​ 的先验 $Unif(0.5,1)$ 也完全处于 $θ>0.5$ 的区域,两者高度“相称”。
  1. $θ∼Beta(0.1,0.1)$ 先验(截断)
  • 结果: $P(H_0​∣y)=0.596$。
  • Beta(0.1,0.1) 本身是U型(在0和1处最高)。当我们截取 (0.5, 1) 这一半时,我们得到的是一个急剧递增的函数。
  • 这个先验意味着:如果我们相信 $H_1​$($θ>0.5$),我们还特别相信 $θ$ 非常接近1。
  • 但我们的数据(样本均值0.75)与“$θ$ 接近1”的信念并不相符。
  • 这种先验与似然的“错位”(不相称),导致 $P(y∣H_1​)$ 的积分值很小,从而使得 $P(H_0​∣y)$ 的值变得很大(0.596),甚至超过了 $P(H_1​∣y)$。

论是单边检验还是双边检验,备择假设 $H_1$​ 下的先验分布选择都至关重要。一个与数据似然“不相称”的先验(无论是因为过于宽泛、U型,还是集中在了错误的位置)都会降低 $H_1​$ 的证据(边际似然 $P(y∣H_1​)$),从而(可能反直觉地)增加对原假设 $H_0$​ 的支持。

林德利悖论(Lindley's Paradox)

这个悖论指的是在假设检验中,贝叶斯方法和频率派方法可能会(在特定先验分布下)产生截然相反的结论。

  • 我们来看一个关于香港出生率的真实(或基于真实的)大样本数据。
    • 数据: 观测到 28,298 名男婴和 27,801 名女婴。
    • 总样本量: n=28298+27801=56,099。
    • 观测比例: 观测到的男性出生比例为 $y=28298/56099≈0.504。$
  • 我们要检验什么?
    • 我们关心的是真实、潜在的男性出生比例 θ。
    • 我们要检验这个比例是否精确地等于0.5:
      • $H_0:\theta=0.5$ (原假设:男女出生比例严格相等)
      • $H_1:\theta\neq0.5$ (备择假设:比例不相等)

男性出生的数量(28,298)严格来说服从二项分布,其均值为 $nθ$,方差为 $nθ(1−θ)$,其中 n=56,099。当 n 如此巨大时(n=56,099),直接用二项分布进行计算在计算上非常困难,由于样本量 $n$ 极大,并且观测比例 $y≈0.504$ 并不接近 $0$ 或 $1$ 的边界,根据中心极限定理(De Moivre-LaPlace a theorem),我们可以使用正态分布来近似这个二项分布。

我们将观测到的比例 $Y$ 建模为服从正态分布: $$Y\sim N(\theta,\sigma^2)$$ 其中,均值是 $θ$,方差是 $σ^2=θ(1−θ)/n$。当我们分别用两种方法去分析这个数据时:

频率派

  • 频率派会计算一个 $p$ 值。
  • 在$H_0$​下,$θ=0.5$,标准差 $σ$ 会极其微小$(\sigma=\sqrt{0.5\times0.5/56099}\approx0.0021)$
  • 观测值 $y=0.504$ 与 $H_0$​ 的均值 0.5 相差了 0.004。
  • 这个差异(0.004)大约是标准差(0.0021)的近2倍。
  • 因此,$p$ 值会非常小($p≈0.05$ 或更小),频率派会拒绝 $H_0​$,并声称:“有强有力的证据表明,男性出生比例不等于0.5。”

贝叶斯

  • 贝叶斯会计算 H0​ 的后验概率 $P(H_0​∣y)$。
  • 正如我们之前的例子所见,当 $H_1​$ $(\theta\neq0.5)$的先验分布非常“宽泛”(例如,$θ∼Unif(0,1)$)时,贝叶斯的“奥卡姆剃刀”效应会启动。
  • 在大样本 $n$ 下,这个效应会被放大:一个“宽泛”的 $H_1​$(它必须把信念分散在从0到1的所有可能性上)在“预测”数据($y≈0.504$)方面的能力,远远不如“精确”的 $H_0$​(它把所有信念都压在 $θ=0.5$ 上)。
  • 结果是,贝叶斯分析会得出 $P(H0​∣y)$ 非常高(例如 >0.9)的结论。贝叶斯会强烈支持 $H_0$​,并声称:“证据强烈表明,简单的 $H_0$​ 模型是更好的解释。”

频率派:p-value

p 值的定义是:假设原假设 $H_0$​ 为真(即 $θ=0.5$),观测到“与当前数据($y=0.504$)一样极端或更极端”的数据的概率。

  • 在 $H_0$​($θ=0.5$)下,我们使用 $N(0.5,σ^2)$ 分布。
  • 我们的观测值 $y=0.504$ 在 0.5 的“右侧”(上尾)。“更极端”就意味着 $≥0.504$。
  • 因此,我们计算 $Y$ 在 $H_0​$ 分布下大于 0.504 的概率: $$\Pr(Y\geq y|H_0)=\int_{0.504}^\infty\frac{1}{\sqrt{2\pi}\sigma}\exp\left{-\frac{(x-0.5)^2}{2\sigma^2}\right}dx\approx0.018$$ 这背后是一个Z检验(Z-test)。
  • 在 $H_0$​ 下,均值 $μ_0​=0.5$。
  • 标准差 $\sigma=\sqrt{\frac{\theta(1-\theta)}{n}}=\sqrt{\frac{0.5\times0.5}{56099}}\approx0.00211$
  • $Z值=\frac{\text{观测值}-\text{均值}}{\text{标准差}}=\frac{0.504-0.5}{0.00211}=\frac{0.004}{0.00211}\approx1.896$
  • (更精确地,使用 y=0.504447 来计算,Z≈2.098)。
  • $Pr(Z≥2.098)$ 在标准正态分布表上查得,确实约等于 0.018。
  • 这意味着:尽管观测比例 0.504 看起来非常接近 0.5,但由于样本量 $n$ 极其巨大,导致标准差 $σ$ 极其微小。这个微小的差异(0.0044)实际上是 $H_0$​ 均值的 2.1 个标准差 之外。
  • 因为我们的检验是双边的 $(H_1:\theta\neq0.5)$。
  • 这意味着我们不仅要考虑右侧的极端值,还要考虑左侧(即 $≤0.496$)的极端值。
  • 由于正态分布是对称的,我们只需将单尾概率乘以2。
  • 最终 p-value = 2×0.018=0.036
  • 我们使用一个“典型”的显著性水平(Significance Level) $α$=5%(即 0.05)。
  • 我们比较 p值和 α:$0.036<0.05$
  • 由于p值小于 $α$,我们拒绝原假设 $H_0$​

频率派的结论是明确的。数据($y≈0.504$)提供了足够的证据,让我们在5%的显著性水平上拒绝“男女出生比例严格相等”这一假设。换句话说,频率派认为这个 0.004 的微小差异是“统计显著”的。

贝叶斯:先验

  • 核心区别: 与频率派不同,贝叶斯方法必须在分析开始前明确指定先验分布(Prior Distribution)
  • 先验 1(对假设的先验):
    • 我们必须说明在看到数据之前,我们认为 $H_0​$ 和 $H_1$​ 哪个更可能。
    • 假设我们“没有任何偏好”,因此赋予它们相等的先验概率:$P(H_0​)=P(H_1​)=0.5$

先验 2(对参数的先验):

  • 在 $H_0$​ 下: $H_0$​ 是一个简单假设,它精确地指出 $θ=0.5$。我们称之为一个在0.5处的“点质量”(point mass)。
  • 在 $H_1$​ 下: $H_1​$ 是复合假设 $(\theta\neq0.5)$。我们必须指定,如果 $H_1$​ 为真,我们认为 $θ$ 会如何分布。我们做一个“公平”的假设,即 $θ$ 在 $[0, 1]$ 区间上服从均匀分布(Uniform distribution)
  • 目标: 我们要计算的是 $H_0$​ 的后验概率,即 $P(H_0​∣y)$。这代表在观测到数据 $y$ 之后,我们对 $H_0$​ 的信念强度。
  • 贝叶斯定理: $$P(H_0|y)=\frac{P(y|H_0)P(H_0)}{P(y|H_0)P(H_0)+P(y|H_1)P(H_1)}$$ 代入分量:
  • $P(H_0​)$ 和 $P(H_1​)$ 都是0.5,可以相互抵消。
  • $P(y∣H_0​)$ 是 $H_0$​($θ=0.5$)下的似然,使用正态近似,其正比于 $\exp\left{-\frac{(y-0.5)^2}{2\sigma^2}\right}$
  • $P(y∣H_1​)$ 是 $H_1$​($θ∼Unif(0,1)$)下的边际似然。我们需要将似然函数 $P(y∣θ)$ 在 $H_1​$ 的先验(即$[0, 1]$)上积分:$P(y|H_1)=\int_0^1P(y|\theta)P(\theta|H_1)d\theta=\int_0^1\exp\left{-\frac{(y-\theta)^2}{2\sigma^2}\right}d\theta$ 抵消常数后的计算公式: $$P(H_0|y)=\frac{\exp\left{-\frac{(y-0.5)^2}{2\sigma^2}\right}}{\exp\left{-\frac{(y-0.5)^2}{2\sigma^2}\right}+\int_0^1\exp\left{-\frac{(y-\theta)^2}{2\sigma^2}\right}d\theta}$$
  • 计算结果: ≈0.954。
  • 贝叶斯结论: 看到数据后,我们对 $H_0$​ 的信念从50%飙升到了95.4%。这强烈支持 $H_0$​(原假设)

这就是林德利悖论:

  • 频率派: $p=0.036<0.05⟹$ 明确拒绝 $H_0$​
  • 贝叶斯: $P(H0​∣y)≈0.954⟹$ 强烈支持 $H_0$​
  • 两种方法对同一组数据得出了截然相反的结论。

当先验分布是 $H_0$​ 处的一个尖锐峰值(point mass)和 $H_1$​ 处一个没有特征(平坦)的分布的混合时:

  • 贝叶斯奥卡姆剃刀(Occam's Razor):
    • 这是理解这个悖论的关键。$P(y∣H_0​)$ 和 $P(y∣H_1​)$ 是两个模型对数据的“解释力”或“证据”。
    • $H_0$​ 的解释力: $P(y∣H_0​)$ 是一个精确的模型($θ=0.5$)对数据($y=0.5044$)的似然。正如我们之前计算的,数据点 $y=0.5044$ 距离 $θ=0.5$ 大约2.1个标准差。这是一个“小概率事件”,所以 P($y∣H_0$​) 是一个很小的数。
    • $H_1​$ 的解释力: $P(y∣H_1​)$ 是 $H_1​$($θ∼Unif(0,1)$)对数据的平均解释力。
    • 关键点: 由于样本量 $n$ 极大,似然函数 $P(y∣θ)$ 变得极其尖锐(标准差 $σ≈0.0021$)。这个似然函数只在 $y=0.5044$ 附近一个极小的区域内有值,在 $[0, 1]$ 区间上的几乎所有其他地方都约等于0。
    • $P(y∣H_1​)$ 是这个“尖刺”在整个 $[0, 1]$ 区间上的平均高度。这个平均值(因为分母是1)必然会比 $P(y∣H_0​)$(一个“尖刺”附近的点)还要小数万倍。
  • 打个比方:
    • $H_0$​ 是一个神枪手,他声称“我能射中0.5”。他实际射中了0.5044(一个很近的脱靶)。
    • $H_1​$ 是一个新手,他声称“我能在 $[0, 1]$ 区间内随便射中一个点”。
    • 当我们在0.5044处发现子弹时,神枪手的“近距离脱靶”($P(y∣H_0​)$ 很小)仍然比新手的“在 $[0, 1]$ 区间上随机命中0.5044这个精确点”($P(y∣H_1​)$ 几乎为0)是好得多的解释。
  • 结论: 在大样本下,数据变得非常精确。贝叶斯方法会极大地“惩罚”那些“宽泛、不精确”的备择假设(如 $H_1$​),转而支持那个(哪怕不完美)的“简单、精确”的原假设($H_0$​)。

可信区间(Credible Interval)

频率派的置信区间 (Confidence Interval):

  • 哲学: 在频率派范式中,真实的参数 $θ$ 是一个固定不变的未知常数。而我们的数据是随机的,因此根据数据计算出来的“置信区间”是随机的。
  • 95%的含义: “95%置信区间”的解释是:如果我们重复进行这个实验无数次,我们会得到无数个不同的置信区间。在这些区间中,有95%的区间会包含那个固定的真实参数 $θ$。
  • 这是一个很绕口的解释。它并不意味着“我们这个特定的区间有95%的概率包含真值”。在频率派看来,我们算出的这个区间 $[a, b]$ 要么(100%)包含了真值,要么(0%)没包含,我们只是不知道是哪种情况。
  • 贝叶斯的可信区间 (Credible Interval):
    • 哲学: 贝叶斯的方法相反。我们已经观测到了数据,所以数据是固定的。因此,我们根据数据计算出的“可信区间”也是固定的。而参数 $θ$ 被我们视为一个随机变量,因为它代表了我们的不确定性。
    • 95%的含义: 贝叶斯的解释非常直观:“95%可信区间”意味着,“这个(固定的)区间包含(随机的)参数 $θ$ 的概率是95%”

频率派的区间是随机的,参数是固定的;贝叶斯的区间是固定的,参数是随机的。贝叶斯的解释更符合大众的直观理解。

可信区间的数学定义

这部分内容告诉我们如何从后验分布中_计算_出可信区间。

  • 起点: 贝叶斯分析的最终结果是参数 $θ$ 的后验分布,记为 $f(\theta|y)$, $Θ$ 是 $θ$ 所有可能取值的空间(支撑集)。

可信集 (Credible Set):

  • 一个“可信集” A 是 $Θ$ 的任何一个子集。
  • $θ$ 落在这个集合 A 中的后验概率,就是后验密度函数 $f(θ∣y)$ 在该集合上的积分: $$\Pr(\theta\in\mathcal{A}|\mathbf{y})=\int_{\mathcal{A}}f(\theta|y)d\theta$$ 任何积分为 $1−α$(例如95%)的集合 $A$ 都是一个 100($1−α$)% 的可信集。

等尾区间 (Equal-tailed Interval)

  • 满足积分为95%的集合 A 有无数个。最常用的一种是“等尾区间”,它从后验分布的两侧各切掉 $α/2$(例如2.5%)的概率。
    • 设 $F(θ∣y)$ 是后验累积分布函数(CDF),$F^{−1}(α∣y)$ 是其反函数(即分位数函数)。
    • 一个 100(1−α)% 的可信区间可以由 $α/2$ 分位数和 $1−α/2$ 分位数构成: $$[F^{-1}(\alpha/2|\mathbf{y}),F^{-1}(1-\alpha/2|\mathbf{y})]$$

最高后验密度区间(Highest Posterior Density (HPD) Interval)

等尾区间的构造很简单,如果后验分布是不对称的

  • 就像图所示,这是一个向右偏斜(skewed right)的分布。如果使用“等尾区间”,我们会在左侧切掉很短的一段(例如$[0, 2]$),在右侧切掉很长的一段(例如$[13, 20]$)。
  • 这样得到的区间(例如$[2, 13]$)会存在一个问题:区间内部靠近2的点的“可信度”(后验密度)可能低于区间外部靠近13的点的“可信度”。

![[Pasted image 20250917192727.png]]

HPD 区间就是为了解决这个问题,它被认为是一个“更有意义”的区间估计。HPD 区间寻找的是包含 $100(1−α)%$ 概率的、长度最短的区间。这个区间是通过在后验密度 $f(θ∣y)$ 上“水平切割”来实现的。

  • HPD 区间 $A(π_α​)$ 被定义为所有 $θ$ 的集合,其后验密度 $f(θ∣y)$ 大于或等于某个阈值 $π_α$​: $$\mathcal{A}(\pi_\alpha)={\theta:f(\theta|\mathbf{y})\geq\pi_\alpha}$$
  • 这个阈值 $π_α$​ 被选为能使这个集合 $A(π_α​)$ 的总概率恰好等于 $1−α$(例如95%)的那个最大的常数: $$\int_{\mathcal{A}(\pi_\alpha)}f(\theta|y)d\theta=1-\alpha$$ HPD 区间的优越性与特例
1. **最短性:** HPD 区间是所有 $100(1−α)\%$ 可信区间中**长度最短**的。

2. **“可信度”:** HPD 区间内的任意一点 $θ$ 的后验密度,都高于区间外的任意一点 $θ$ 的后验密度。这使得它成为“最可信的”一组 $θ$ 值。
  • 特例:
    • 在一种特殊情况下,HPD 区间和“等尾区间”是一致的。
    • 这种情况就是:当后验分布 $f(θ∣y)$ 是对称的且单峰的(例如,正态分布或t分布)时。
    • 在这种情况下,两种方法会给出完全相同的结果。因此,HPD 区间主要在处理非对称分布时才显得尤为重要。

边际似然(Marginal Likelihood)

似然函数" (Likelihood) 的陷阱:

  • 如果我们有两个模型,一个简单(参数少),一个复杂(参数多),那么复杂模型几乎总是能更好地拟合我们已有的数据。
  • 这是因为更多的参数给了模型更大的灵活性,所以它的似然函数值(或$log L$)会更高。

过拟合 (Overfitting):

  • 但这种“更好的拟合”是有代价的。这会导致模型过拟合,即模型学到了数据中的噪声,而不是潜在的规律。
  • 过拟合的模型在预测新数据时表现会非常糟糕。

与“似然函数”不同,“边际似然”这个指标自带一个对模型复杂度的“自然惩罚”

边际似然是模型 $M$ 产生观测数据 $D$ 的总概率,记为 $P(D∣M)$。它通过将似然函数 $L(D∣θ,M)$(即 $P(D∣θ,M)$)在所有可能的参数 $θ$ 上进行加权平均(积分)而得到,权重就是 $θ$ 的先验分布 $f(θ∣M)$: $$P(D|M)=\int L(D|\theta,M)f(\theta|M)d\theta$$ 边际似然会惩罚复杂度,这是一个贝叶斯奥卡姆剃刀的体现。

  • 一个更复杂的模型(参数更多),其参数空间更大。为了覆盖这个大空间,它的先验分布 $f(θ∣M)$ 必须“铺得更开、更薄” 。
  • 而数据 $D$ 的似然函数 $L(D∣θ,M)$ 通常只在参数空间中的一个很小区域内才比较高(即“好的模型”区域)。
  • 当你用这个“铺得很薄”的先验去平均(积分)似然函数时,由于先验在“好的模型”区域分配的概率质量(prior mass)很低,导致其总的平均值(即 $P(D∣M)$)反而会下降。

相比之下,一个简单的模型,其先验分布 $f(θ∣M)$ 集中在较小的空间。如果数据 $D$ 恰好支持这个小空间,那么似然函数 $L$ 和先验 $f$ 会“强强联合”,得到一个很高的 $P(D∣M)$。

因此,边际似然 $P(D∣M)$ 会自动偏好那个“用最少的复杂度来充分解释数据”的简单模型。

边际似然的另一种视角:拟合 - 惩罚

我们从贝叶斯定理(针对参数 $θ$)出发: $$P(\theta|D,M)=\frac{P(D|\theta,M)P(\theta|M)}{P(D|M)}$$ 我们把它重新排列,解出 $P(D∣M)$: $$P(D|M)=\frac{P(D|\theta,M)P(\theta|M)}{P(\theta|D,M)}$$ 对两边取对数: $$\log P(D|M)=\log P(D|\theta,M)-{\log P(\theta|D,M)-\log P(\theta|M)}$$

  • $log P(D|M)$:模型得分(我们想要最大化的)。
  • $log P(D|θ, M)$:模型拟合度(即log-likelihood,$logL$)。复杂模型会使这一项变高。
  • ${log P(θ|D, M) - log P(θ|M)}$:惩罚项
  • 这个惩罚项是“后验”与“先验”的对数差,它衡量了数据 $D$ 在多大程度上_改变_了我们对 $θ$ 的看法(即信息增益)。一个过于复杂的模型(先验很宽泛)会被数据“塑造”得非常剧烈(后验很集中),导致这个惩罚项变得很大,从而拉低了总得分。

与 AIC / BIC 的联系

这种“拟合度 - 惩罚”的思想,与统计学中另两个著名的模型选择准则AIC和BIC的精神是相似的。

  • AIC (Akaike Information Criterion):$AIC=−2logL+2ν$
  • BIC (Bayesian Information Criterion):$BIC=−2logL+νlogn$
  • 共同点:
    • $−2logL$ 代表拟合度(越小越好)。
    • $2ν$ (AIC) 和 $νlogn$ (BIC) 都是对模型复杂度($ν$ = 参数数量)的显式惩罚。
  • 目标: AIC或BIC的值越小,模型拟合越好。
    • BIC和边际似然的直接联系: BIC 实际上是 $−2logP(D∣M)$ 在大样本 $n$ 下的一个(拉普拉斯)近似。
    • 因此,最小化BIC 在数学上(近似地)等价于 最大化边际似然 $P(D∣M)$。这深刻地统一了贝叶斯模型选择(Marginal Likelihood)和信息准则(BIC)这两种方法。
    • AIC vs BIC: BIC的惩罚项 $νlogn$ 随样本量 $n$ 增长,因此它对复杂模型的惩罚比AIC($2ν$)更重,倾向于选择更简单的模型。

贝叶斯因子(Bayes Factor, BF)

  • 目标: 我们有观测数据 $D$,以及两个(或多个)相互竞争的候选模型,$M_0​$ 和 $M_1​$。
  • 模型组件:
    1. 参数: 每个模型 $M_k$​ ($k=0, 1$) 都有自己的参数 $θ_k$​。
    2. 似然函数: 每个模型都有自己的似然函数 $L(D∣θ_k​,M_k​)$。
    3. 参数先验: 每个模型都需要一个参数的先验分布 $f(θ_k​∣M_k​)$。
    4. 模型先验: 我们还需要指定模型本身的先验概率,$P(M_0​)$ 和 $P(M_1​)$,这代表我们在看到数据前,认为 $M_0$​ 或 $M_1​$ 是“正确模型”的信念。

边际似然 (Marginal Likelihood):

  • 模型 $M_k$​ 的“证据”是其边际似然 $P(D∣M_k​)$。
  • 它是通过将似然函数 $L$ 在参数先验 $f$ 上积分(或“平均”)得到的: $$P(D|M_k)=\int L(D|\theta_k,M_k)f(\theta_k|M_k)d\theta_k$$ $P(D∣M_k​)$ 是一个单一的数值,代表了模型 $M_k$​(作为一个整体,包括其先验)对数据 $D$ 的预测能力。

模型后验概率 (Posterior Model Probability):

  • 我们可以使用贝叶斯定理,在模型层面上计算:在看到数据 $D$ 之后,模型 $M_k$​ 是“正确模型”的概率 $P(M_k​∣D)$: $$P(M_k|D)=\frac{P(D|M_k)P(M_k)}{P(D|M_0)P(M_0)+P(D|M_1)P(M_1)}$$

定义

我们使用“几率”(Odds)的形式来更直观地引出贝叶斯因子。

  • 先验几率 (Prior Odds):
    • 在看到数据之前,我们对 $M_1$​ 相对于 $M_0​$ 的信念,用几率表示为 $P(M_1​)/P(M_0​)$。
  • 后验几率 (Posterior Odds):
    • 在看到数据之后,我们更新后的信念,用几率表示为 $P(M_1​∣D)/P(M_0​∣D)$。
  • 从先验到后验的更新:
    • 将公中的后验概率公式代入后验几率,可以得到这个关键关系: $$\frac{P(M_1|D)}{P(M_0|D)}=\frac{P(M_1)}{P(M_0)}\times\frac{P(D|M_1)}{P(D|M_0)}$$ 这个公式的含义是:后验几率 = 先验几率 × 贝叶斯因子

贝叶斯因子的定义:

  • 贝叶斯因子 (BF) 就是数据 D 为 $M_1$​ 相对于 $M_0​$ 提供的“证据权重”。
  • 它是“后验几率”与“先验几率”的比值: $$BF_{1,0}=\frac{P(M_1|D)/P(M_0|D)}{P(M_1)/P(M_0)}$$
  • 最终,它简化为两个模型边际似然的比值: $$BF_{1,0}=\frac{P(D|M_1)}{P(D|M_0)}$$ 如何解释 $BF_{1,0}$​ 的值?
  • $BF_{1,0}$:意味着数据 $D$ 提供了 10:1 的证据支持 $M_1​$(相对于 $M_0​$)。
  • $BF_{1,0}$:意味着数据对两个模型提供了相同的支持(没有提供区分的证据)。
  • $BF_{1,0}$:意味着数据提供了 1:0.1(即 10:1)的证据反对 $M_1$​(即支持 $M_0$​)。

与p值的区别:

  • p值只能拒绝 $H_0$​,但它永远不能“接受” $H_0$​ 或量化支持 $H_0$​ 的证据。
  • 贝叶斯因子是对称的。$BF_{1,0}​<1$ 就是对 $M_0​$ 的支持。它能量化支持任一模型的证据强度。

与林德利悖论的联系:

  • 在之前的林德利悖论例子中,$M_0$​ 是 $H0​:θ=0.5$,$M_1​$ 是 $H_1:\theta\neq0.5$(先验为 $Unif(0,1)$)。
  • 贝叶斯因子就是 $BF_{1,0}=\frac{P(y|H_1)}{P(y|H_0)}$​。
  • 我们在之前算出 $P(H_0​∣y)≈0.954$,这意味着 $P(H_1​∣y)≈0.046$。
  • 假设 $P(M_0​)=P(M_1​)=0.5$(先验几率为1),那么$BF_{1,0}=\frac{\text{后验几率}}{\text{先验几率}}=\frac{0.046/0.954}{1}\approx0.048$。
  • $BF_{1,0}​≈0.048$ 是一个非常小的值,它提供了超过 20:1 的证据反对$M_1​$(即强烈支持 $M_0​$)。
  • 这再次确认了贝叶斯方法的结论:在大样本下,简单(精确)的 $H_0$​ 完胜了复杂(宽泛)的 $H_1​$。

例子

问题的设定:一个临床试验的例子

  • 数据: 假设我们观察了 $n=16$ 名接受治疗的患者,其中 $y=13$ 人有反应。
  • 参数: $θ$ 是该疗法的真实“反应率”。
  • 假设: 我们感兴趣的是检验这个反应率是否低于0.6:
    • $H_0​:θ<0.6$ (原假设:反应率低于60%)
    • $H_1​:θ≥0.6$ (备择假设:反应率大于等于60%)

方法一:“单一先验”法

这种方法设置一个覆盖所有可能性($[0, 1]$)的“全局”先验,然后从这个先验和后验中“分割”出 $H_0$​ 和 $H_1​$ 的概率。

  • 步骤1:设置全局先验
    • 假设在看数据前,我们对 $θ$ 一无所知,所以我们假设 $θ$ 服从 $[0, 1]$ 上的均匀分布,即 $θ∼Beta(1,1)$。
  • 步骤2:计算“先验几率”
    • 在这个先验下, $H_0$​ 和 $H_1$​ 的先验概率被自动确定了:
    • $P(H_0)=P(\theta<0.6)=\int_0^{0.6}1d\theta=0.6$
    • $P(H_1)=P(\theta\geq0.6)=\int_{0.6}^11d\theta=0.4$
    • 因此,先验几率(Prior Odds)为 $P(H_1)/P(H_0)=0.4/0.6$。
  • 步骤3:计算后验分布
    • 似然函数 $y∼Bin(n,θ)$(二项分布)。
    • 先验分布 $θ∼Beta(1,1)$。
    • 根据贝叶斯定理(Beta-二项共轭),后验分布为 $\theta|y\sim\mathrm{Beta}(y+1,n-y+1)=\mathrm{Beta}(13+1,16-13+1)=\mathrm{Beta}(14,4)$。
  • 步骤4:计算“后验几率”
    • 我们从这个后验分布中计算 $H_0$​ 和 $H_1$​ 的后验概率:
    • $P(H_0​∣y)=P(θ<0.6∣y)≈0.046$
    • $P(H_1​∣y)=P(θ≥0.6∣y)≈0.954$
    • 因此,后验几率(Posterior Odds)为 $0.954/0.046$。
  • 步骤5:计算贝叶斯因子
  • 贝叶斯因子 $BF_{1,0}$​ 被定义为 后验几率 / 先验几率。 $$BF_{1,0}=\frac{P(H_1|y)/P(H_0|y)}{P(H_1)/P(H_0)}=\frac{0.954/0.046}{0.4/0.6}\approx31.1$$ 结论是 $BF_{1,0}​=31.1$,这意味着数据提供了约 31:1 的强证据支持 $H_1$​(反对 $H_0​$)。

方法二:“双模型”法

这种方法将 $H_0$​ 和 $H_1​$ 视为两个独立的模型,并使用 $BF_{1,0}=\frac{P(y|H_1)}{P(y|H_0)}$​ 的定义。

步骤1:设置模型先验

  • 我们直接为 $H_0$​ 和 $H_1$​ 赋先验概率。在这里假设它们等可能:P$(H_0​)=P(H_1​)=0.5$。

步骤2:设置“局部”参数先验

  • 我们为每个模型内部的 $θ$ 定义一个先验,该先验必须只在模型所定义的域内:
  • 在 $H_0$​ 下: $θ$ 必须 $< 0.6$。我们假设 $p(θ∣H_0​)$ 在 $[0, 0.6)$ 上均匀分布,所以其密度为 $1/0.6$。
  • 在 $H_1​$ 下: $θ$ 必须 $≥ 0.6$。我们假设 $p(θ∣H_1​)$ 在 $[0.6, 1]$ 上均匀分布,所以其密度为 $1/0.4$。

步骤3:计算贝叶斯因子(边际似然之比)

  • 我们使用贝叶斯因子的定义:$BF_{1,0}=\frac{P(y|H_1)}{P(y|H_0)}$​。
  • $P(y∣H_k​)$ 是 $H_k​$ 的边际似然,即 $\int p(y|\theta,H_k)p(\theta|H_k)d\theta$。
  • $BF_{1,0}=\frac{\int_{0.6}^1p(y|\theta,H_1)p(\theta|H_1)d\theta}{\int_0^{0.6}p(y|\theta,H_0)p(\theta|H_0)d\theta}$

步骤4:代入计算

  • 似然函数 $p(y∣θ)$ 正比于 $\theta^y(1-\theta)^{n-y}$ 即 $\theta^{13}(1-\theta)^3$ ($\binom{16}{13}$ 在分子分母中被约掉了)。 $$BF_{1,0}=\frac{\int_{0.6}^1\theta^{13}(1-\theta)^3\times(1/0.4)d\theta}{\int_0^{0.6}\theta^{13}(1-\theta)^3\times(1/0.6)d\theta}=\frac{(\int_{0.6}^1\theta^{13}(1-\theta)^3d\theta)/0.4}{(\int_0^{0.6}\theta^{13}(1-\theta)^3d\theta)/0.6}$$ 这个计算的结果同样是 31.1

因此,两种方式导向了相同的结果。这里只要先验使用的一样,结果必然是一样的,贝叶斯体系是自洽的。

与其他量的关系

  1. 核心公式:后验几率

在贝叶斯假设检验中,我们有两个假设 $H_0$​ 和 $H_1​$,并且我们为它们分配了先验概率$P(H_0​)$ 和 $P(H_1​)$。

几率 (Odds):

  • 先验几率 (Prior Odds): 在我们看到数据之前,我们对 $H_1$​ 相对于 $H_0$​ 的信念是 $\frac{P(H_1)}{P(H_0)}$。
  • 后验几率 (Posterior Odds): 在我们看到数据 $D$ 之后,我们更新后的信念是 $\frac{P(H_1|D)}{P(H_0|D)}$​。

所以有上节的公式: $$\frac{P(H_1|D)}{P(H_0|D)}=\frac{P(H_1)}{P(H_0)}\times\frac{P(D|H_1)}{P(D|H_0)}$$ 我们已经知道 $\frac{P(D|H_1)}{P(D|H_0)}$​ 就是贝叶斯因子 $BF_{1,0}​$。因此,公式可以写成: $$\frac{P(H_1|D)}{P(H_0|D)}=\frac{P(H_1)}{P(H_0)}\times BF_{1,0}$$ 这个公式可以被简单地记为: 后验几率 = 先验几率 × 贝叶斯因子

贝叶斯因子 $BF_{1,0}​$ 是一个乘数,它代表了数据 $D$ 所包含的“证据的权重或强度”(weight or strength of evidence),用于将我们的“先验几率”更新为“后验几率”。

  1. 似然比的关系:

当 $H_0​$ 和 $H_1$​ 都是简单假设时。

单假设是指假设_完全_指定了参数值,例如:

  • $H_0​:θ=θ_0​$
  • $H_1​:θ=θ_1​$

在这种情况下,没有需要积分(平均)的参数。

  • 边际似然 $P(D∣H_0​)$ 就等于似然函数在 $θ_0$​ 处的值 $L(D∣θ_0​)$。
  • 边际似然 $P(D∣H_1​)$ 就等于似然函数在 $θ_1$​ 处的值 $L(D∣θ_1​)$。

因此,贝叶斯因子 $BF_{1,0}=\frac{P(D|H_1)}{P(D|H_0)}$ 就退化为了我们熟悉的似然比。

这连接了贝叶斯因子和频率派的Neyman-Pearson引理(它证明了似然比检验是检验简单假设时“最强大的”检验)。这表明,在最简单的情况下,两种统计范式都依赖于似然比。贝叶斯因子的真正威力(和复杂性)体现在它能够通过积分(边际似然)来处理“复合假设”(如 $H_1:\theta\neq0.5$)。

解释标准

我们已经学会了如何计算 $BF_{1,0}​$,它代表数据 $D$ 支持 $H_1$​ 相对于 $H_0$​ 的证据强度。但 $BF_{1,0}​=31.1$ 究竟是“强”还是“弱”,我们给出了一个(由 Jeffreys、Kass 和 Raftery 等人推广的)“经验法则”量表。

我们使用贝叶斯因子的以10为底的对数($log10​(BF_{1,0}​)$)作为标准。

不直接用 BF1,0​ 本身的原因:

  1. 对称性: 对数尺度是对称的。例如,$BF_{1,0}​=100$(100:1 支持 $H_1$​)的 $log10$​ 值是 2。而 $BF_{1,0}​=0.01$(1:100 支持 H1​,即 100:1 支持 $H_0$​)的 $log10$​ 值是 -2。+2 和 -2 代表了等同的证据强度,只是方向相反。
  2. 可加性: 在对数尺度上,证据的累积变成了加法,这在数学上更易于处理。

Jeffreys 量表

  • $0<log10​(BF_{1,0}​)≤1/2$ (或 0.5):
    • 证据“不值一提”。
    • 这对应 $BF_{1,0}$​ 值在 $10^0=1$ 到 $10^{0.5} ≈3.16$ 之间。
  • $1/2<log10​(BF_{1,0}​)≤1$:
    • 证据是“显著的”。
    • 这对应 $BF_{1,0}$​ 值在 3.16 到 $10^1=10$ 之间。
  • $1<log10​(BF_{1,0}​)≤2$:
    • 证据是“强有力的”。
    • 这对应 $BF_{1,0}​$ 值在 10 到 $10^2=100$ 之间。
  • $log10​(BF_{1,0}​)>2$:
    • 证据是“决定性的”。
    • 这对应 $BF_{1,0}$​ 值大于 100。

如果是相反数,也对应对另一方的支持程度。

贝叶斯模型平均(Bayesian Model Averaging, BMA)

  • 在前面的内容中,我们讨论了如何使用贝叶斯因子(Bayes Factor)来比较两个模型($M_0$​ 和 $M_1$​)。
  • 但在现实中,我们常常面临多个(K个)候选模型。例如,在线性回归中,如果我们有10个备选的预测变量,那么我们就有 $2^{10}=1024$ 个可能的模型(每个变量都可选择“放入”或“不放入”模型)。
  • 模型不确定性(Model Uncertainty): 面对这么多模型,我们通常会遇到一个问题:我们应该只选择一个“最佳”模型,还是应该承认我们并不确定哪一个才是“真正”的模型?
  • BMA 的作用: BMA 提供了一个在贝叶斯框架下正式处理这种模型不确定性的方法。它的核心思想不是“选择”一个最好的,而是“平均”所有可能的模型。

BMA 搭建了基础的设置:

  • K个候选模型:
    • 假设我们有 $K$ 个候选模型,$M_1​,…,M_K​$,用来拟合观测数据 $D$。
  • 模型先验概率 (Model Priors):
    • 我们需要为每个模型 $M_k$​($k=1,…,K$)分配一个先验概率 $P(M_k​)$。
    • $P(M_k​)$ 代表在看到数据之前,我们认为 $M_k$​ 是“真实模型”的信念强度。
  • 参数先验 (Parameter Priors):
    • 每个模型 $M_k​$ 都有其自己的一组参数 $θ_k​$。
    • 我们也必须为每个模型内部的参数 $θ_k​$ 指定一个先验分布 $f(θ_k​∣M_k​)$。

一种常见的模型先验

  • 如果我们先验地对所有 $K$ 个模型没有任何偏好,那么最简单、最常见的做法是给它们分配相等的先验概率。
  • 这被称为离散均匀先验分布(discrete uniform prior distribution): $$P(M_k)=1/K,\quad\mathrm{for~}k=1,\ldots,K$$

计算模型权重(模型后验概率)

BMA的核心思想: 我们有 $K$ 个候选模型,BMA 的目标是(根据数据 $D$)为每个模型 $M_k$​ 计算一个“权重”,然后用这个权重来“平均”所有模型的估计结果。

贝叶斯权重: 这个“权重”就是模型的后验概率 $P(M_k​∣D)$,即在看到数据 $D$ 之后,我们相信模型 $M_k​$ 是真实模型的概率。

计算方法: 我们使用贝叶斯定理,在“模型”的层面上进行计算: $$P(M_k|D)=\frac{P(D|M_k)P(M_k)}{\sum_{j=1}^KP(D|M_j)P(M_j)}$$

  • $P(D∣M_k​)$ 是模型 $M_k$​ 的边际似然(即证据)。
  • $P(M_k​)$ 是模型 $M_k$​ 的先验概率
  • 分母是所有模型证据的加权总和,用于归一化。

将权重与贝叶斯因子(BF)联系起来

在实践中,计算 $P(D∣M_k​)$ 可能会很困难,而且其绝对数值可能非常小。计算相对的贝叶斯因子 $BF_{k,1}​$ 通常更容易。

用 BF 表达权重:

  • 我们可以选择一个“参考模型”(例如 $M_1$​),然后计算所有模型相对于 $M_1$​ 的贝叶斯因子: $$BF_{k,1}=\frac{P(D|M_k)}{P(D|M_1)}$$ 我们可以将步骤一中的 $P(M_k​∣D)$ 公式用 $BF_{k,1}​$ 来重写: $$P(M_k|D)=\frac{BF_{k,1}P(M_k)}{\sum_{j=1}^KBF_{j,1}P(M_j)}$$
  • 如果我们先验地认为所有模型都是等可能的,即 $P(M_k​)$ 对所有 $k$ 都相同($P(M_k​)=1/K$)。
  • 那么 $P(M_k​)$ 和 $P(M_j​)$ 项就可以从公式中约去,得到: $$P(M_k|D)=\frac{BF_{k,1}}{\sum_{j=1}^KBF_{j,1}}$$
  • BMA 的目标: BMA 提供了一种“连贯的机制”来(在做推断时)纳入模型不确定性
  • 也就是说,我们不是简单地选出 $P(M_k​∣D)$ 最高的那个“最佳模型”并丢弃其他模型(这被称为“贝叶斯模型选择”)。相反,我们承认多个模型都可能是对的(只是概率不同),并将它们全部用于最终的推断。

BMA 估计量:

  • 如何估计一个我们关心的参数 $θ$。
  • BMA 估计量 $\overline{\theta}$ 是 $K$ 个模型各自估计值 $\hat{\theta}k$​ 的加权平均,权重就是它们的后验概率 $P(M_k​∣D)$: $$\overline{\theta}=\sum{k=1}^K\hat{\theta}_kP(M_k|D)$$
  • $\hat{\theta}_k$:$\hat{\theta}_k$ 是在假定模型 $M_k$​ 为真的情况下,$θ$ 的后验均值
  • 它是 $θ_k$​ 在其自身后验分布 $P(θ_k​∣D,M_k​)$ 下的期望值: $$\hat{\theta}_k=\int\theta_k\frac{L(D|\theta_k,M_k)f(\theta_k|M_k)}{\int L(D|\theta_k,M_k)f(\theta_k|M_k)d\theta_k}d\theta_k$$
  • BMA 通过将每个模型的“后验均值估计” $\hat{\theta}_k$ 乘以其“模型后验概率” $P(M_k​∣D)$ 来进行加权平均。
  • 这个过程会自动“倾向于”那些拟合得最好的(即 $P(M_k​∣D)$ 最高的)模型。
  • 如 Madigan、Raftery 和 Hoeting 等人的研究所示,BMA(通过纳入模型不确定性)几乎总是比“只选择一个最佳模型”能提供更准确、更稳健的预测。

贝叶斯分层模型(Bayesian Hierarchical Model, BHM)

BHM 是一个包含“多层级结构”的模型。

它通常用于:

  1. 建模相关数据 (Dependent Data): 当我们的数据点不是完全独立时(例如,来自同一个病人的多次测量数据)。
  2. 在不同子组间“借用信息”或“借力”: 例如,在估计不同县城的癌症发病率时,数据稀少的小县城可以从数据充足的大县城“借用”信息,以获得更稳定的估计。
  3. 汇总独立研究 (Pool Separate Studies): 即元分析(Meta-analysis)。

线性随机效应模型 (LREM)

用于分析此类数据的标准模型是线性随机效应模型(LREM)。

模型公式:

对于第 $i$ 个病人($i=1,…,n$)在第 $k$ 次测量时($k=1,…,K$),其观测值为 $y_{ik}$​: $$y_{ik}=\beta^\top\mathbf{z}{ik}+\mathbf{b}i^\top\mathbf{x}{ik}+\epsilon{ik}$$

模型组件:

  • $β$ (Fixed Effects): 这是 p 维的固定效应。它们是群体层面的参数,对所有受试者都是共同的(例如,药物的平均疗效)。
  • $b_i$​ (Random Effects): 这是 q 维的随机效应。它们是_个体层面_的参数,每个受试者 $i$ 都有自己的一套 $b_i​$。它代表了第 $i$ 个人相对于群体平均 $β$ 的个体差异。
  • $ϵ_{ik}​$ (Error): 这是第 $i$ 个人在第 $k$ 次测量时的随机误差项。
  • 这个模型解释“相关性”的原因来同一个病人 $i$ 的所有测量值($y_{i1}​,y_{i2}​,…$)都共享同一个随机效应 $b_i​$,这就是导致“患者内相关性”的原因。

模型的分布假设:

  • 随机效应 $b_i$​ 来自一个均值为 0、协方差矩阵为 $G$ 的正态分布:$b_i​∼N_q​(0,G)$。
  • 误差项 $ϵ_{ik}$​ 来自一个均值为0、方差为 $σ^2$ 的正态分布:$ϵ_{ik}​∼N(0,σ^2)$。

LREM的完整贝叶斯分层表述

这个模型写成一个完整的贝叶斯分层结构需要为模型中的所有未知量(包括 $G$ 和 $σ^2$)都指定先验分布。

层级 1:数据(似然函数)

  • 这只是对模型的重新表述,明确了条件关系: $$y_{ik}|\mathbf{b}i,\sigma^2\sim N(\beta^\top\mathbf{z}{ik}+\mathbf{b}i^\top\mathbf{x}{ik},\sigma^2)$$ 层级 2:个体参数的先验
  • 这是随机效应 $b_i​$ 的分布: $$\mathbf{b}_i|\mathbf{G}\sim N_q(0,\mathbf{G})$$

层级 3:超先验 (Hyperpriors)

  • 在贝叶斯模型中,层级2中的参数($G$ 和 $σ^2$)本身也是未知的,因此它们也需要有先验。对先验参数设置的先验,称为“超先验”。
  • 协方差矩阵 $G$ 的先验被设置为逆-Wishart分布(Inverse-Wishart): $$\mathbf{G}\sim\text{Inv-Wishart}((\eta\Omega)^{-1},\eta)$$
  • 误差方差 $σ^2$ 的先验被设置为逆-Gamma分布(Inverse-Gamma, IG): $$\sigma^2\sim IG(\xi,\xi)$$ 我们这里省略了固定效应 $β$ 的先验,但通常会给它一个(例如)均值为0、方差很大的正态分布,以表示“无信息”

BHM如何“借力”?

这个分层结构完美地诠释了“借用信息”的思想:

  1. 个体 $b_i$​ 的估计同时由两方面决定:一是它自己的数据(来自层级1);二是它必须服从的群体分布(来自层级2)。
  2. 而这个群体分布(由 $G$ 决定)又是通过所有其他个体的数据来共同估计的(来自层级3)。
  3. 结果: BHM会自动产生一种“收缩”(Shrinkage)效应。如果某个病人 $i$ 的数据很少(例如 $K$ 很小)或很嘈杂,那么对他 $b_i​$ 的估计就会被强烈地“拉向”群体的平均值(0)。这就是在从其他数据更丰富的病人那里“借力”,以得到一个更稳健、更合理的估计。

应用实例

问题的设定:多臂试验

  • 场景: 我们正在进行一个“多臂随机试验”,例如,同时测试5种不同的疗法。
  • 数据: 我们的目标是估计这5种疗法的各自的“反应率”,即 $θ_1​,…,θ_5​$。对于第 $k$ 组(臂),我们有 $n_k$​ 个病人,其中观测到 $y_k$​ 个“响应者”。
  • 在这种情况下,我们希望“在不同子组之间借用信息”,因为:

假设第5组(Arm 5)的样本量很小(例如 $n_5​=3,y_5​=2$)。其朴素估计值 $\hat{\theta}_{5}=2/3$ 是非常不可靠的。如果其他4个组的样本量都很大,并且它们的反应率都稳定在 20%-30% 左右,那么我们有理由相信第5组的 2/3只是由于小样本导致的随机误差,其“真实”值可能更接近20%-30%。BHM 提供了一个数学框架,让这个“借用”过程可以自动且有原则地发生。

实现这一目标的BHM结构:

层级 1:数据(似然)

  • 每一个臂 $k$ 的数据 $y_k$​ 都被假定来自其各自的二项分布,参数为 $n_k$​ 和 $θ_k​$。 $$y_k|\theta_k\sim\mathrm{Bin}(n_k,\theta_k)$$

层级 2:分层先验(实现“借用”的关键)

  • 这是模型的核心。我们不假设 $θ_1​,…,θ_5​$ 是完全独立的。
  • 相反,我们假设它们是“相关的”,因为它们都是“疗法反应率”。我们假设它们都是从同一个(但未知的)“群体分布”中抽取的样本。
  • 我们选择 $Beta(α,β)$ 作为这个群体分布: $$\theta_k|\alpha,\beta\sim\mathrm{Beta}(\alpha,\beta)$$

层级 3:超先验 (Hyperprior)

  • 在层级2中,群体分布的参数 $α$ 和 $β$ 本身是未知的。因此,我们也必须为它们指定先验,这被称为超先验
  • 我们为两者都指定了Gamma分布: $$\alpha\sim\mathrm{Ga}(\xi,\xi)$$ $$\beta\sim\mathrm{Ga}(\xi,\xi)$$ 超参数 $ξ$ 可以取一个很小的值(如 $ξ=0.001$),以使这些超先验成为“无信息先验”。

模型的数学形式(联合后验分布)

上述所有层级组合在一起的完整联合后验分布如下:

设 $\mathbf{y}=(y_1,\ldots,y_5)$。根据贝叶斯定理(后验 ∝ 似然 × 先验),我们得到所有未知参数(5个 $θ_k$​,以及 $α$ 和 $β$)的联合后验: $$f(\theta_1,\ldots,\theta_5,\alpha,\beta|\mathbf{y})\propto\left{\prod_{k=1}^5L(\theta_k|y_k)f(\theta_k|\alpha,\beta)\right}f(\alpha)f(\beta)$$

  • 二项似然函数: $L(\theta_k|y_k)=\binom{n_k}{y_k}\theta_k^{y_k}(1-\theta_k)^{n_k-y_k}$
  • Beta先验密度: $f(\theta_k|\alpha,\beta)$
  • Gamma先验分布: $f(α)$ 和 $f(β)$

这个7维的联合后验分布极其复杂,无法直接计算。在实践中,我们使用 MCMC(特别是Gibbs抽样)来从这个分布中抽取样本。Gibbs抽样需要知道每个参数的“全条件分布”,即给定所有其他参数时该参数的分布。

由于 Beta 分布是 Binomial 似然的共轭先验,$θ_k​$ 的全条件分布具有一个非常简洁的闭合形式: $$\theta_k|\alpha,\beta,\mathbf{y}\sim\mathrm{Beta}(\alpha+y_k,\beta+n_k-y_k)$$

  • $θ_k$​ 的后验估计是一个 Beta 分布,其参数(可以理解为“伪成功次数”和“伪失败次数”)由两部分相加而成:
    1. 来自个体的数据: $y_k$​(它自己的成功次数)和 $n_k​−y_k​$(它自己的失败次数)。
    2. 来自群体的信息: $α$ 和 $β$(由所有其他组的数据估计出来的“群体平均成功/失败次数”)。
  • 结果: 对于样本量 $n_k$​ 很大的组,其后验将主要由它自己的数据($y_k$​ 和 $n_k​−y_k$​)决定。但对于样本量 $n_k$​ 很小的组(如我们假设的 $n_5​=3$),其后验将受到“群体参数” $α$ 和 $β$ 的强烈影响,其估计值会自动向群体均值“收缩”(Shrinkage)。

$α$ 和 $β$ 的全条件分布没有闭合形式(因为它们的先验不是共轭的),因此在Gibbs抽样循环中,我们需要使用其他算法(如Metropolis-Hastings)来对它们进行抽样。

对比

我们可以通过移除某个层来看出来BHM的优点:

极端情况一:完全独立(No Pooling / No Borrowing)

  • 假设: 如果我们移除分层模型中的第3层(超先验),即我们不把 $α$ 和 $β$ 当作要求解的未知参数,而是将它们固定为常数(例如,我们强行指定 $α=1,β=1$)。
  • 模型会变成: $$y_k|\theta_k\sim\mathrm{Bin}(n_k,\theta_k)$$ $$\theta_k|\alpha,\beta\sim\mathrm{Beta}(\alpha,\beta)$$
  • 结论: 在这种情况下,对 $θ_1$​ 的估计只依赖于 $y_1$​ 和 $n_1$​;对 $θ_2$​ 的估计只依赖于 $y_2$​ 和 $n_2$​。这5个臂(arms)之间的数据是完全独立的,彼此之间没有任何信息的借用(borrowing of information)

这种方法的问题在于: 对于样本量很小的组(例如 $n_k​=3$),其估计 $\hat{\theta}_k$​ 将完全基于这3个样本,因此非常不稳定且不可靠。它完全浪费了其他组的信息。

极端情况二:完全合并(Complete Pooling)

  • 我们假设所有组的反应率 $θ_k$​ 完全相等,即 $θ_1​=⋯=θ_5​=θ$。
  • 模型会变成:
    • 我们将5组的数据“本质上合并在一起”,完全不考虑它们之间潜在的异质性。 $$y|\theta\sim\mathrm{Bin}(n,\theta)$$ $$\theta|\alpha,\beta\sim\mathrm{Beta}(\alpha,\beta)$$ 其中 $y=\sum_{k=1}^5y_k$ (总响应人数),$n=\sum_{k=1}^5n_k$ (总患者数)。

这种方法的问题在于: 它显然也是错的。它强行认为一种无效疗法(Arm 1)和一种特效药(Arm 2)具有完全相同的反应率 $θ$。这种模型虽然稳定(因为它使用了所有数据),但它完全忽略了组间的真实差异。

  • BHM既不假设所有 $θ_k$​ 都独立(情况一),也不假设它们都相等(情况二)。
  • BHM假设它们是相关的,它们都来自一个共同的、未知的群体分布 $Beta(α,β)$。

最关键的是,这个模型通过从数据中学习 $α$ 和 $β$,来“自适应地调整信息借用的程度”。

  • 如果5个组的数据非常相似(例如反应率都在20%-30%之间): 模型将学习到一个“窄”的 $Beta(α,β)$ 分布(方差很小)。这会导致强烈的“收缩”效应,使所有 $θ_k​$ 的估计都向共同均值靠拢。此时,BHM的结果接近“完全合并”(情况二)。
  • 如果5个组的数据差异巨大(例如10%, 20%, 50%, 80%...): 模型将学习到一个“宽”的 $Beta(α,β)$ 分布(方差很大)。这等于模型从数据中认识到“各组确实非常不同”。高方差会减弱“收缩”效应,允许每个 θk​ 的估计更接近其各自的数据。此时,BHM的结果接近"完全独立”。

贝叶斯决策理论(Bayesian Decision Theory)

既然我们已经通过贝叶斯推断(计算后验分布)更新了我们的信念,那么我们现在应该做什么,这部分属于贝叶斯决策理论。

决策理论的目标

  • 量化权衡: 贝叶斯决策理论提供了一个统计学基础,用于量化在“不同决策”与其“相关的回报/成本”之间进行权衡。
  • 两个视角: 这个问题可以用两种相反但等价的方式来看待:
    1. 最大化“效用”(Utility)。
    2. 最小化“损失”(Loss)。

框架一:最大化期望效用 (Utility)

  • 定义:
    • 设 $r$ 为我们收到的回报
    • 设 $\mathcal{U}(r)$ 为对应的效用函数。效用不一定等于金钱。对于一个赌徒来说,赢得200万的“效用”未必是赢得100万的两倍,效用函数描述的是我们对回报的主观满意度。
  • 决策准则:
    • 由于决策的结果通常是不确定的(由概率分布 $P$ 描述),我们不能只看原始效用,而应该看期望效用(expected utility):$E_P{\mathcal{U}(r)}$。
    • 一个“理性”的决策者总是选择能最大化其期望效用的行动。
    • 如果行动 $P_2$​ 带来的期望效用高于 $P_1$​,我们就偏好 $P_2$​: $$E_{P_1}{\mathcal{U}(r)}<E_{P_2}{\mathcal{U}(r)}$$

框架二:最小化期望损失 (Loss)

  • 定义:
    • 损失函数 是效用函数的反面(例如,Loss = -Utility),它与决策的成本相关联。
    • 这是统计学中最常用的框架。
  • 关键要素:
    • 损失函数 $L(θ,a)$ 依赖于两个变量:
      1. $θ$:自然状态。这就是我们一直在估计的那个未知的真实参数(例如药物的真实疗效)。
      2. $a$:我们采取的行动。例如(行动 $a$):批准该药物上市。
    • $L(θ,a)$ 的含义是:如果我们采取了行动 $a$,而真实世界状态是 $θ$,我们将招致的“损失”或“惩罚”。

与贝叶斯推断相结合

真实状态 $θ$ 是未知的,我们如何选择 $a$ 来最小化 $\mathcal{L}(\theta,a)$ ,一般情况下我们就使用我们使用我们在贝叶斯分析中得到的后验分布 $f(\theta|D)$ 。

后验期望损失 (Posterior Expected Loss):

  • 对于任何一个我们可以采取的行动 $a$,我们可以计算其“期望损失”,这个期望是基于我们的后验信念 $f(θ∣D)$ 来计算的: $$E[\mathcal{L}(\theta,a)|D]=\int_\Theta\mathcal{L}(\theta,a)f(\theta|D)d\theta$$ 如果我们采取行动 $a$,我们预期的平均损失是多少(综合考虑了数据 $D$告诉我们的所有可能的 $θ$ 值)。

贝叶斯行动 (Bayes Action):

  • 最优的贝叶斯决策,被称为“贝叶斯行动”,就是那个能够最小化后验期望损失的行动 $a^∗$。
  • 决策理论是贝叶斯“点估计”的基础。
  • 如果我们选择一个平方误差损失函数(squared-error loss):$\mathcal{L}(\theta,a)=(\theta-a)^2$。这里的“行动 $a$”就是我们对 $θ$ 的“点估计值”。
  • 那么,贝叶斯行动就是那个能最小化 $\int(\theta-a)^2f(\theta|D)d\theta$ 的 $a$。在数学上,这个值被证明恰好是后验均值 $E[\theta|D]$。
  • (同理,如果我们使用绝对误差损失函数 $\mathcal{L}(\theta,a)=|\theta-a|$,那么贝叶斯行动就是后验中位数)。
  • 因此,决策理论为我们“为什么应该使用后验均值或中位数作为最佳估计”提供了坚实的理论基础。

损失函数(Loss Functions)

1. 平方误差损失 (Squared-Error Loss)

  • 定义: 这是最常用的一种损失函数,它与统计学中的“最小二乘法”(least-squares estimation)相呼应。
  • 公式: $$\mathcal{L}(\theta,a)=(\theta-a)^2$$ 对应的贝叶斯行动:
  • 如果我们使用平方误差损失,我们的目标是选择一个估计值 $a$ 来最小化后验期望损失,即 $E[(\theta-a)^2|D]=\int(\theta-a)^2f(\theta|D)d\theta$。
  • 在数学上,能使这个值最小化的 $a$ 被证明恰好是后验分布的均值
  • 这就是为什么“后验均值”是贝叶斯统计中最常用的点估计量,它是基于平方误差损失下的最优决策。

2.线性损失 / 绝对误差损失 (Linear Loss / Absolute-Error Loss)

  • 定义(线性损失): 这是一种更广义的损失函数,它允许“高估”和“低估”的代价不同。
  • 公式: $$\mathcal{L}(\theta,a)=\begin{cases}c_0(\theta-a),&\mathrm{if~}\theta-a\geq0,\c_1(a-\theta),&\mathrm{if~}\theta-a<0,&\end{cases}$$
  • 解释:
    • 第一行($θ−a≥0$,即 $θ≥a$):真实值高于估计值(低估了),我们付出 $c_0$​ 的代价。
    • 第二行($θ−a<0$,$即 θ<a$):真实值低于估计值(高估了),我们付出 $c_1​$ 的代价。

这在商业决策中非常有用。例如,$θ$ 是市场对某产品的真实需求, $a$ 是你的生产量。

  • 低估($c_0$​)的代价是缺货和失去客户。
  • 高估($c_1​$)的代价是库存积压和仓储费。
  • 在这种情况下,这两种代价 $c_0$​ 和 $c_1​$ 几乎肯定是不相等的。

如果这两种代价相同,例如 $c_0​=c_1​=1$,那么这个函数就退化为绝对误差损失: $$\mathcal{L}(\theta,a)=|\theta-a|$$ 如果我们使用绝对误差损失,最优的贝叶斯行动(最小化 $E[|\theta-a||D]$ 的 $a$)被证明是后验分布的中位数(Posterior Median)

3. 零一损失 (Zero-One Loss)

  • 定义: 这种损失函数不用于数值估计,而是用于分类假设检验问题。
  • 公式: 假设我们有多个可能的行动 $a_j$​,对应多个参数空间区域 $Θ_j$​ $$\mathcal{L}(\theta,a_j)=\begin{cases}0,&\mathrm{if~}\theta\in\Theta_j,\1,&\mathrm{if~}\theta\in\Theta_k(k\neq j).&\end{cases}$$
  • 如果我们采取了行动 $a_j​$(例如,“选择假设 $j$”),而真实的 $θ$ 确实在 $Θ_j$​ 区域内,那么我们就赌对了,损失为 0。
  • 如果我们采取了行动 $a_j$​,但真实的 $θ$ 实际上在任何其他区域 $Θ_k​$ 中,那么我们就赌错了,我们付出固定的代价 1。

对应的贝叶斯行动:

  • 我们要选择那个能最小化后验期望损失的 $a_j​$。
  • 采取行动 $a_j​$ 的期望损失是: $$E[\mathcal{L}(a_j)|D]=(0\times P(\theta\in\Theta_j|D))+(1\times P(\theta\notin\Theta_j|D))$$ $$=P(\theta\notin\Theta_j|D)$$ $$=1-P(\theta\in\Theta_j|D)$$
  • 为了最小化这个期望损失($1−P$),我们必须最大化 $P(θ∈Θ_j​∣D)$
  • 结论: 在0-1损失函数下,最优的贝叶斯决策是:计算所有假设(或类别)的后验概率,然后选择那个后验概率最高的。 这为贝叶斯假设检验和模型选择(选择 $P(M_k​∣D)$ 最高的模型)提供了理论依据。

后验贝叶斯行动(Posterior Bayes Action)

  1. 步骤一:贝叶斯推断(我们知道什么?)
  • 贝叶斯分析的基础:我们从一个似然函数 $L(θ∣y)$(数据告诉我们的)和一个先验分布 $f(θ)$(我们原有的信念)开始。
  • 我们将这两者结合,得到后验分布(Posterior Distribution) $f(θ∣y)$
  • 公式: $$f(\theta|\mathbf{y})\propto L(\theta|\mathbf{y})f(\theta)$$

这个后验分布 $f(θ∣y)$ 是我们“决策”的基石。它代表了在看到数据 $y$ 之后,我们关于真实状态 $θ$ 的所有知识和不确定性。

  1. 步骤二:计算期望损失(我们关心什么?)
  • 之前,我们定义了损失函数 $L(θ,a)$,它代表“如果真实状态是 $θ$,而我们采取了行动 $a$,我们会损失多少”。
  • 由于我们不知 $θ$ 的确切值(我们只知道它的后验分布 $f(θ∣y)$),我们无法计算我们将遭受的确切损失。
  • 因此,我们转而计算后验期望损失(Posterior Expected Loss)。 $$E{\mathcal{L}(\theta,a)|\mathbf{y}}=\int_\Theta\mathcal{L}(\theta,a)f(\theta|\mathbf{y})d\theta$$ 这个积分的含义是:对于一个特定的、我们可能采取的行动 $a$,我们预期的平均损失是多少?这个平均值是根据我们对 $θ$ 的后验信念 $f(θ∣y)$ 来加权的。

决策(我们该做什么?)

  • 后验贝叶斯行动(Posterior Bayes Action):
    • 决策理论的准则(即“理性人”准则)就是最小化我们的预期损失。
    • 因此,最优的后验贝叶斯行动被定义为:那个能够使后验期望损失最小化的行动 $a$。

因此,最优的“行动 $a$”完全取决于我们选择了哪种损失函数 $L$

  • 示例 1:如果我们使用“平方误差损失” $L(θ,a)=(θ−a)^2$
    • 那么“贝叶斯行动”就是那个能最小化 $E[(\theta-a)^2|\mathbf{y}]$ 的 $a$。
    • 在数学上,这个 $a$ 被证明是后验均值
    • 结论: 后验均值是在平方误差损失下的最优决策。
  • 示例 2:如果我们使用“绝对误差损失” $L(θ,a)=∣θ−a∣$
    • 那么“贝叶斯行动”就是那个能最小化 $E[|\theta-a||\mathbf{y}]$ 的 $a$。
    • 在数学上,这个 $a$ 被证明是后验中位数 (Posterior Median)
    • 结论: 后验中位数是在绝对误差损失下的最优决策。
  • 示例 3:如果我们使用“0-1损失” (用于假设检验)
    • $L(θ,a_j​)=0$ (如果我们选的假设 $a_j​$ 是对的),$L=1$ (如果我们选错了)。
    • 那么最小化期望损失(即最小化我们犯错的后验概率 $P(wrong∣y)$),等同于最大化我们选对的后验概率 $P(θ∈Θ_j​∣y)$。
    • 结论: 在0-1损失下的最优决策是:选择那个具有最高后验概率的假设(或模型)