条件概率和贝叶斯定理简洁解释

条件概率和贝叶斯定理的简明解释

条件概率和贝叶斯定理是统计学中的基本概念,即使是普通人也听说过。贝叶斯定理还引发了统计学的一个独立分支,即贝叶斯推断。

在数据科学中,我们主要在一个频率学界工作,所以在我看来,我们没有完全意识到贝叶斯原则。

在我下一篇文章中,我希望介绍一些贝叶斯统计学的主题,以进一步加深自己的理解,并以易懂的方式传达。

在本文中,我们将介绍贝叶斯统计学中的两个核心思想:条件概率和贝叶斯定理。

边缘概率

第一步是定义边缘概率。实际上,尽管它在现实中是一个非常简单的概念,但通常被过分复杂化。

当大多数人说/指的是概率时,他们指的是边缘概率。它只是特定事件发生的概率。例如,抛硬币得到正面的边缘概率P(H)只是简单的0.5:

方程由作者生成的LaTeX。

从一副牌中抽到方块牌的边缘概率P(D)是0.25:

方程由作者生成的LaTeX。

就是这么简单!

联合概率

让我们再进一步,两个硬币都是正面的概率是多少?这被称为联合概率,因为它将两个事件连接在一起。

要解决这个问题,我们只需列出抛掷两个硬币时可能的结果:{H, H}, {H, T}, {T, H}, {T, T}。因此,抛掷两个硬币都是正面的概率是0.25:

方程由作者生成的LaTeX。

其中∩是交集符号,实际上表示“和”。因此,上述方程式在询问正面和正面都为真的概率。

在这种情况下,联合概率等于两个边缘概率的乘积,因为两个事件(硬币抛掷)是独立的(一个硬币抛掷的效果不会影响另一个硬币抛掷的结果)。

另一个重要的特性是联合概率是可交换的,这意味着:

方程由作者生成的LaTeX。

当我们推导贝叶斯定理时,这将会有用!

条件概率

当我们根据某些条件/事件确定概率时,这被称为条件概率。一个例子会更好地解释:

从一副牌中选取3个钻石花色卡牌的概率是多少,假设我们已经选择了一张红牌?

好吧,选取3个钻石花色卡牌的概率,P(3D),是:

作者用LaTeX生成的方程。

而选择一张红牌的概率,P(R),是:

作者用LaTeX生成的方程。

因此,给定我们已经有一张红牌的情况下,选择3个钻石花色卡牌的概率,P(3D | R),则为:

作者用LaTeX生成的方程。

另一种思考这个问题的方式是:在所有红牌中,选取3个钻石花色卡牌的机会是多少?我们基本上是从数据的一个子集中选择3个钻石。

两个事件AB的官方数学定义是:

作者用LaTeX生成的方程。

因此,在我们的例子中,我们有P(A) = P(3D)P(B) = P(R)。将这些概率代入上述方程,我们得到了上面的1/26作为概率。

贝叶斯定理

重新排列条件概率方程,我们得到:

作者用LaTeX生成的方程。

然后再次代入条件公式(请记住,联合分布是交换的):

作者用LaTeX生成的方程。

然后再次重新排列:

作者用LaTeX生成的方程。

这就是贝叶斯定理

该定理可以分解如下:

  • P(A)称为先验概率,即在观察到数据之前我们对该事件的概率的信念。这是该事件的边际概率。
  • P(B)是观察数据/事件本身的概率。这是该事件的边际概率。有时也称为归一化常数。
  • P(B| A)是给定我们的“信念”的概率,被称为似然。
  • P(A | B)是在观察到我们的数据之后,我们“信念”的概率,被称为后验概率。

现在可能看起来有些随意,但我们将通过一个例子来更具体地解释这个理论。

全概率公式

The final formula we will discuss is the 全概率公式:

LaTeX 方程由作者生成。

这个求和可以从两个不同的角度来理解:

  • 所有重叠区域A覆盖B
  • BA的加权平均。

这里有一个很好的 Stat Exchange 的讨论链接,可以很好地解释这个公式的直觉!

例子

现在我们通过一个例子来演示贝叶斯定理的应用!

假设我有两副牌:一副是普通的牌组,D_1,另一副是只有红色牌(方块和红心)的牌组,D_2

我随机选择一副牌并抽出红心 3 (3D)。这个红心 3 是来自普通牌组 (D_1) 的概率是多少?

让我们先声明选择牌组 1D_1 或者牌组 2D_2 的先验概率 P(D_1)P(D_2)。这个概率是 50-50,因为是随机的:

LaTeX 方程由作者生成。

现在我们计算似然概率:

LaTeX 方程由作者生成。

第二副牌只有红色牌,因此只有 26 张牌,其中包括红心 3。

然后,我们使用全概率公式计算观察到红心 3 的概率:

LaTeX 方程由作者生成。

将这些结合起来,使用贝叶斯定理:

LaTeX 方程由作者生成。

这就是从牌组 1 抽出红心 3 的概率!

直观上,这个概率是有道理的,因为我们从第二副牌组中选择红心 3 的概率是第一副牌组的两倍。

结论

在本文中,我们通过以下步骤理解了条件概率和贝叶斯定理的概念:

  • 边际概率是事件发生的概率
  • 联合概率是两个事件发生的概率
  • 条件概率是在另一个事件发生的情况下一个事件发生的概率
  • 贝叶斯定理是条件概率公式的另一种版本,其中我们有一些先验信息来计算事件的条件概率。

文章最初发布于此处。经许可重新发布。