贝叶斯定理

27 阅读 0 评论 0 点赞

贝叶斯定理

1.知识前驱

1. 全概率公式

它允许我们计算一个事件发生的总概率，这个事件可以通过几个互斥的途径发生。

事件 $B$ 发生的总概率是 $B$ 在每个互斥情况下发生的概率之和。每个“情况” $A_i$ 都被视为一个可能的路径，通过这个路径 $B$ 可以发生。

定义

全概率公式可以表述为：如果事件 $A_1, A_2, \ldots, A_n$ 构成了样本空间的一个划分，即它们互斥且完全穷尽（即它们不能同时发生，且它们的并集是整个样本空间），那么任何事件 $B$ 的概率可以表示为：

$P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + \cdots + P(B|A_n)P(A_n)$

这里：

$P(B|A_i)$ 是在事件 $A_i$ 发生的条件下事件 $B$ 发生的条件概率。
$P(A_i)$ 是事件 $A_i$ 发生的概率。

2. 二项分布（Binomial Distribution）

二项分布是一种离散概率分布，它描述了在固定次数的独立伯努利试验中成功的次数，其中每次试验成功的概率相同。

参数：

$n$ ：试验次数，必须是一个正整数。
$p$ ：每次试验成功的概率，取值范围在0到1之间。

概率质量函数（PMF）：
$\binom{n}{k} p^k (1-p)^{n-k}$
其中， $X$ 是表示成功次数的随机变量， $k$ 是成功的次数， $\binom{n}{k}$ 是组合数，表示从 $n$ 次试验中选择 $k$ 次成功的方式数。

特点：

二项分布是离散的。
它用于模拟有固定次数试验和只有两种可能结果（成功或失败）的场景。
当 $n$ 很大且 $p$ 很小的时候，二项分布可以用泊松分布来近似。

3. 正态分布（Normal Distribution）

正态分布，也称为高斯分布，是一种连续概率分布。

参数：

$\mu$ ：分布的均值（期望值），决定了分布的中心位置。
$\sigma^2$ ：分布的方差，决定了分布的离散程度；标准差 $\sigma$ 是方差的平方根。

概率密度函数（PDF）：
$\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$
其中， $x$ 是随机变量的取值。

特点：

正态分布是连续的。
它的形状是对称的，均值 $\mu$ 决定了分布的中心，标准差 $\sigma$ 决定了分布的宽度。
正态分布在其均值附近的值最为集中，随着距离均值的增加，概率密度逐渐减小。
根据中心极限定理，许多独立随机变量的和（或平均值）在样本量足够大时近似正态分布，无论这些变量本身是什么分布。

二项分布适用于离散型随机变量

正态分布适用于连续型随机变量

2. 贝叶斯定理

贝叶斯定理是贝叶斯统计学的核心，它描述了如何根据新的证据更新对假设的概率估计。贝叶斯定理的公式是：

$\frac{P(E|H) \cdot P(H)}{P(E)}$

其中：

$P (H ∣ E)$ 是在证据 $E$ 发生的条件下假设 $H$ 为真的后验概率。
$P (E ∣ H)$ 是在假设 $H$ 为真的条件下证据 $E$ 发生的可能性，也称为似然性。
$P (H)$ 是在考虑任何证据之前假设 $H$ 为真的先验概率。
$P (E)$ 是证据 $E$ 发生的总概率，可以通过全概率公式计算。

推导贝叶斯定理

贝叶斯定理可以从条件概率的定义出发进行推导。根据条件概率的定义，我们有：

$\cap E) = P(H) \cdot P(E|H)$

这里， $\cap E)$ 表示假设 $H$ 和证据 $E$ 同时发生的概率。

同样地，我们也可以从 $E$ 的角度来表达这个联合概率：

$\cap E) = P(E) \cdot P(H|E)$

现在，我们可以将两个表达式设置为相等，因为它们表示的是同一个联合概率：

$\cdot P(E|H) = P(E) \cdot P(H|E)$

接下来，我们解出 $P (H ∣ E)$ ，即在证据 $E$ 发生的情况下假设 $H$ 为真的概率：

$\frac{P(H) \cdot P(E|H)}{P(E)}$

这就是贝叶斯定理的基本形式。它表明后验概率 $P (H ∣ E)$ 与先验概率 $P (H)$ 和似然性 $P (E ∣ H)$ 的乘积成正比，并且与证据 $E$ 发生的总概率 $P (E)$ 成反比。

3. 先验分布

先验分布是在考虑任何数据之前对参数的初始概率分布。它反映了我们对参数的先验信念或知识。先验分布可以是主观的，也可以基于以往的研究或数据。

4. 似然函数

似然函数是给定参数下观察到数据的概率。它是贝叶斯定理中的关键组成部分，用于量化模型参数与观测数据之间的匹配程度。

似然函数是统计模型中的一个重要概念，它衡量了在给定一组参数的情况下，观测到特定数据样本的概率。数学上，如果我们有一个参数向量 $\theta$ 和一个数据样本 $D$ ，似然函数 $L(\theta | D)$ 定义为：

$L(\theta | D) = P(D | \theta)$

这里：

$L(\theta | D)$ 是似然函数。
$\theta$ 是模型参数。
$D$ 是观测到的数据。
$\theta)$ 是给定参数 $\theta$ 下数据 $D$ 的概率。

似然函数的作用

参数估计：
- 似然函数用于估计模型参数。在最大似然估计（MLE）中，我们找到使似然函数最大化的参数值。
模型比较：
- 在模型选择中，似然函数用于比较不同模型对数据的拟合程度。例如，通过比较两个模型的似然比来决定哪个模型更好。
量化不确定性：
- 似然函数帮助量化在给定参数下观测数据的不确定性。

似然函数与概率密度函数（PDF）

对于连续型随机变量，似然函数通常与概率密度函数（PDF）相关。如果我们的数据 $D$ 由多个独立同分布（i.i.d.）的观测组成，似然函数可以表示为：

$L(\theta | D) = \prod_{i=1}^{n} f(x_i | \theta)$

其中：

$f(x_i | \theta)$ 是单个观测 $x_i$ 的概率密度函数。
$n$ 是观测的数量。

似然函数与对数似然函数

由于似然函数的乘积形式可能导致数值计算问题（特别是当观测数量很大时），通常使用对数似然函数，它将乘积转换为求和：

$\ell(\theta | D) = \log L(\theta | D) = \sum_{i=1}^{n} \log f(x_i | \theta)$

对数似然函数更容易处理，并且在数学上更稳定

5. 后验分布

后验分布是在考虑了数据（证据）之后对参数的更新概率分布。它是通过贝叶斯定理结合先验分布和似然函数得到的。

在贝叶斯统计中，后验分布 $P(\theta | D)$ 是通过贝叶斯定理结合先验分布 $P(\theta)$ 和似然函数 $\theta)$ 得到的：

$P(\theta | D) = \frac{P(D | \theta) \cdot P(\theta)}{P(D)}$

这里：

$\theta)$ 是似然函数。
$P(\theta)$ 是先验分布。
$P (D)$ 是证据或边际似然，它是归一化常数，确保后验分布的积分为1。

似然函数的形式

似然函数的形式取决于数据的性质和模型的假设。例如：

对于正态分布数据，似然函数是正态分布的概率密度函数。
对于二项分布数据，似然函数是二项分布的概率质量函数。

正态分布数据的似然函数

对于正态分布数据，如果我们有一个样本 $\{x_1, x_2, \ldots, x_n\}$ ，其中每个 $x_i$ 是独立同分布（i.i.d.）的正态随机变量，其均值为 $\mu$ ，方差为 $\sigma^2$ ，那么似然函数 $L(\mu, \sigma^2 | D)$ 是各个数据点概率密度函数（PDF）的乘积：

$L(\mu, \sigma^2 | D) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)$

这个乘积可以简化为：

$L(\mu, \sigma^2 | D) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2\right)$

在实际应用中，我们通常使用对数似然函数来避免数值计算中的下溢问题，并且对数变换将乘积转换为求和，更容易处理：

$\ell(\mu, \sigma^2 | D) = \log L(\mu, \sigma^2 | D) = -\frac{n}{2} \log(2\pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2$

二项分布数据的似然函数

对于二项分布数据，如果我们有 $n$ 次独立的伯努利试验，每次试验成功的概率为 $\theta$ ，并且我们观测到 $k$ 次成功，那么似然函数 $L(\theta | D)$ 是二项分布的概率质量函数（PMF）：

$L(\theta | D) = \binom{n}{k} \theta^k (1-\theta)^{n-k}$

这里：

$\binom{n}{k}$ 是二项式系数，表示从 $n$ 次试验中选择 $k$ 次成功的方式数。
$\theta^k$ 是 $k$ 次成功的概率。
$(1-\theta)^{n-k}$ 是 $n - k$ 次失败的概率。

二项分布的对数似然函数是：

$\ell(\theta | D) = \log L(\theta | D) = \log \binom{n}{k} + k \log \theta + (n-k) \log (1-\theta)$

在贝叶斯框架中，我们可以使用这些似然函数与先验分布结合，通过贝叶斯定理更新后验分布。对于正态分布数据，后验分布将取决于 $\mu$ 和 $\sigma^2$ 的先验分布；对于二项分布数据，后验分布将取决于 $\theta$ 的先验分布。这些后验分布允许我们对参数进行推断，并量化参数的不确定性。

6. 边缘似然（模型选择）

边缘似然是给定模型下数据的总概率。它可以通过对所有可能的参数值进行积分来计算。边缘似然在模型选择中非常重要，因为它允许我们比较不同模型对数据的拟合程度。

它表示在给定模型下观测到数据的总概率。边缘似然的计算涉及对所有可能的参数值进行积分（对于连续参数）或求和（对于离散参数），这通常由模型的先验分布加权。

边缘似然的计算

对于连续参数，边缘似然 $P (D)$ 由下式给出：

$\int P(D | \theta) P(\theta) \, d\theta$

其中：

$\theta)$ 是似然函数，表示在给定参数 $\theta$ 下观测到数据 $D$ 的概率。
$P(\theta)$ 是参数 $\theta$ 的先验分布。
积分是对所有可能的 $\theta$ 值进行的。

对于离散参数，边缘似然是：

$\sum P(D | \theta) P(\theta)$

其中求和是对所有可能的 $\theta$ 值进行的。

边缘似然在模型选择中的作用

边缘似然用于比较不同的模型对同一数据集的拟合程度。在模型选择中，我们通常比较两个或多个模型的边缘似然值。模型的边缘似然值越高，表示该模型对数据的拟合越好。

比较模型

比较两个模型 $M_1$ 和 $M_2$ 的边缘似然时，我们计算模型的相对证据，即贝叶斯因子：

$\text{贝叶斯因子} = \frac{P(D | M_1)}{P(D | M_2)}$

如果贝叶斯因子大于1，它表明模型 $M_1$ 比模型 $M_2$ 更可能；如果小于1，则表明模型 $M_2$ 更可能。

7. 共轭先验

共轭先验是指先验分布和后验分布属于同一家族的分布。这意味着后验分布的形式与先验分布相同，只是参数不同。例如，对于二项分布的似然函数，共轭先验是贝塔分布。

8. 贝叶斯推断的步骤

定义模型：选择一个概率模型来描述数据的生成过程。
指定先验：为模型参数选择一个先验分布。
计算似然：根据模型计算给定参数下数据的似然性。
更新后验：使用贝叶斯定理结合先验和似然来更新后验分布。
做出决策：基于后验分布进行预测或决策。

9. 贝叶斯推断的挑战

计算复杂性：后验分布可能难以直接计算，特别是当模型复杂或数据量大时。
先验选择：先验的选择可能会影响后验分布，特别是在数据较少时。

10. 贝叶斯推断的工具

马尔可夫链蒙特卡洛（MCMC）

一种通过模拟随机样本来近似后验分布的方法。

马尔可夫链蒙特卡洛（Markov Chain Monte Carlo，简称MCMC）方法是一类强大的算法，它们用于从复杂的概率分布中生成随机样本，尤其是当这些分布难以直接抽样时。它们可以用来近似后验分布，即使这些分布的解析形式未知或难以计算。

即：一种通过模拟随机样本来近似后验分布的方法。

MCMC的工作原理

MCMC方法通过构建一个马尔可夫链来工作，这个马尔可夫链是一个随机过程，其下一个状态的概率分布仅依赖于当前状态。通过设计这个链，使其在长期运行后，其状态的分布收敛到我们想要抽样的目标分布（例如后验分布）。

MCMC的关键步骤

初始化：
- 选择一个初始状态 $x_0$ 。
迭代过程：
- 从当前状态 $x_t$ 开始，提出一个新状态 $x^{'}$ ，这个提议可以通过各种方法生成，例如随机游走或更复杂的方法。
- 计算接受概率 $\alpha$ ，这是新状态被接受的概率，由下式给出：
  $\alpha = \min\left(1, \frac{P(x')Q(x|x')}{P(x)Q(x'|x)}\right)$
  其中 $P$ 是目标分布， $Q$ 是提议分布。
接受或拒绝：
- 生成一个均匀随机数 $u$ 在区间 ([0, 1])。
- 如果 $\leq \alpha$ ，则接受新状态 $x^{'}$ ，即设置 $x_{t+1} = x'$ 。
- 如果 $\alpha$ ，则拒绝新状态，保持当前状态不变，即设置 $x_{t+1} = x_t$ 。
重复：
- 重复步骤2和3多次，以生成足够多的样本。
收敛和混合：
- 随着时间的推移，马尔可夫链的状态将收敛到目标分布，前提是链是不可约的和非周期的，并且满足详细的平衡条件。

变分推断

一种通过优化一个简单分布来近似后验分布的方法。

11.焦糖板栗（例子）

假设我们有一个装满球的袋子，其中30%是红球，70%是蓝球。我们随机抽取一个球，发现它是红色的。我们想计算这个袋子最初是装红球的袋子的概率，假设我们有两种类型的袋子：一种装有30%的红球和70%的蓝球，另一种装有80%的红球和20%的蓝球。

让我们定义：

$A_1$ ：袋子是第一种类型（30%红球，70%蓝球）。
$A_2$ ：袋子是第二种类型（80%红球，20%蓝球）。
$B$ ：我们抽取了一个红球。

我们需要找到 $P(A_1|B)$ 和 $P(A_2|B)$ 。

使用贝叶斯定理：

$P(A_1|B) = \frac{P(B|A_1) \cdot P(A_1)}{P(B)}$
$P(A_2|B) = \frac{P(B|A_2) \cdot P(A_2)}{P(B)}$

其中：

$P(A_1) = P(A_2) = 0.5$ （因为我们假设两种袋子的可能性相等）。
$P(B|A_1) = 0.3$ （第一种袋子中抽到红球的概率）。
$P(B|A_2) = 0.8$ （第二种袋子中抽到红球的概率）。

为了找到 $P (B)$ ，我们使用全概率公式：

$P(B|A_1) \cdot P(A_1) + P(B|A_2) \cdot P(A_2)$
$\cdot 0.5 + 0.8 \cdot 0.5 = 0.55$

现在我们可以计算后验概率：

$P(A_1|B) = \frac{0.3 \cdot 0.5}{0.55} = \frac{0.15}{0.55} \approx 0.2727$
$P(A_2|B) = \frac{0.8 \cdot 0.5}{0.55} = \frac{0.4}{0.55} \approx 0.7273$

所以，如果我们抽取了一个红球，这个袋子是第二种类型（80%红球，20%蓝球）的概率大约是72.73%。

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 贝叶斯定理

点赞(0) 打赏

本文分类：文章资讯
本文标签：贝叶斯定理
浏览次数：27 次浏览
本文链接：https://freeymw.com/article/36324.html

上一篇 > 【DM系列】DM 集成 JDBC 开发指南
下一篇 > 分布式——一致性模型与共识算法

评论列表共有 0 条评论

暂无评论

贝叶斯定理