贝叶斯统计与频率派统计在数据科学中的应用

你的统计对齐是贝叶斯还是频率主义?

在我们深入了解贝叶斯统计和频率统计之间的差异之前,让我们先了解它们的定义。

什么是贝叶斯方法?

在使用统计推断时,您正在使用数据对总体参数进行判断。

贝叶斯推断考虑了先前知识,参数被视为随机变量。这意味着事件发生的概率存在。例如,如果我们抛一枚硬币,贝叶斯推断将说明没有正确或错误的答案,硬币掷到正面或反面的概率取决于他们的观点。

贝叶斯观点基于贝叶斯定理,这是一个考虑先前知识的事件概率公式。该公式如下,其中:

  • P(A):A发生的概率
  • P(B):B发生的概率
  • P(A|B):在事件B发生的情况下A发生的概率
  • P(B|A):在事件A发生的情况下B发生的概率
  • Pr(A|B):后验概率,给定数据参数的概率。

具有贝叶斯思维方式的人使用概率来衡量事件发生的可能性。这是他们的信仰。假设的概率是使用先前的意见和知识计算并被视为真实的,因为新数据随时可用。这称为先验概率,在项目开始之前得出结论。

然后将此先验概率转换为后验概率,即项目开始后的信仰。

先验+似然=后验

什么是频率学派方法?

频率学派推断是不同的。它假设事件是基于频率的,并且参数不是随机变量-这意味着没有概率。使用与上述相同的例子,如果您抛一枚硬币,频率学派推断将说明有一个基于频率的正确答案。如果您抛硬币一半的时间会掷到反面,则掷到反面的概率为50%。

有一个停止准则。停止规则确定了样本空间,因此对它的了解对于频率学派推断至关重要。例如,对于硬币掷出,频率学派方法可能会重复测试2000次,或者直到掷出300个反面。研究人员通常不会重复测试这么多次。

具有频率学派思维方式的人将概率视为频率的相同方式。他们的概率取决于如果无限重复,某些事件发生的可能性。

从频率学派的角度来看,您用来估计总体的参数被认为是固定的。有一个真正的参数,您将对其进行估计,并且不将其建模为概率分布。当新数据可用时,您将使用它来执行统计测试并对数据进行概率计算。

频率统计中最流行的计算是p值,这是一种用于验证您的假设的统计测量。它描述了如果零假设(没有统计关系)是正确的,那么您发现特定观察结果的可能性有多大。

下图中阴影部分显示了p值,即通过偶然性观察到的结果的概率。

它如何适用于数据科学?

统计学是数据科学的重要组成部分,如果您是数据科学家或与数据工作的人,您将遇到贝叶斯定理、p值和其他统计测试。了解统计分析和现有工具对您作为数据科学家或数据工作者有益,因为您可能需要它们。

在团队内部,当您讨论项目和下一步时,您将开始看到谁有贝叶斯思维方式,谁有频率学派思维方式。数据科学家将使用概率预测来结合残差方差和估计的不确定性。这是特定的贝叶斯框架。但是,这并不排除一些专家想要使用频率学派方法。

根据您采取的方法,您选择的统计方法也会有所不同。数据科学的许多基础都建立在贝叶斯统计学上,有些人甚至认为频率学派方法是贝叶斯理论的一个子集。

然而,当涉及到数据科学时,您的重点在于手头的问题。许多数据科学家根据他们试图解决的问题选择他们的模型。贝叶斯方法的优势在于在数据科学世界中,具有关于问题的特定知识总是有利的。

贝叶斯方法被认为更快、可解释、以用户为中心,并且具有更直观的分析方法。

我将在下面进一步探讨这些内容以及两者之间的差异。

更快的学习

贝叶斯方法从一个初步的信仰开始,通过收集证据来支持您的陈述,从而实现更快的学习。

频率学派方法基于从数据中获取的事实来表达他们的观点。尽管他们已经查看了数据,但尚未进行任何分析以确保这是证据。没有计算概率来支持假设。

可解释性

贝叶斯方法有各种灵活的模型,使它们能够应用于复杂的统计问题。这使得贝叶斯方法更易于解释。

频率学派方法不够灵活,通常会失败。

以用户为中心

两种方法有不同的方法。贝叶斯方法允许在项目对话中包含不同的研究和问题。它关注可能的影响尺寸。

而频率学派方法则限制这种可能性,因为它关注不确定的重要性。

贝叶斯与频率学派摘要

属性: 贝叶斯: 频率学派:
是什么? 参数周围的概率分布 参数已固定且为单个点
问题是什么? 在给定数据的情况下,假设成立的概率是多少? 假设是否成立?
需要什么? 先验知识/信息和任何数据集。 一个停止准则
输出什么? 关于假设的支持或反对概率。 点估计(p值)
主要优势 有证据支持并可应用新信息 简单易用,不需要先验知识
主要劣势 需要高级统计学 高度依赖样本量,并且只给出是或否的输出
何时使用?

在具有先验知识的情况下限制您的数据

使用更多的计算能力

在大量数据的情况下

结论

我希望这篇博客能让您更好地了解贝叶斯方法和频率学派方法之间的差异。两者之间来回争论很多,甚至是否存在一个没有另一个。我的建议是坚持让您感到舒适的方式以及通过个人逻辑解决问题的方式。

如果您想深入研究并应用自己的技能和知识,我建议:初学者的统计学速成课程:使用Python的频率学派和贝叶斯统计学的理论和应用。 Nisha Arya是一位数据科学家、自由职业技术作家和小猪AI社区经理。她特别关注提供数据科学职业建议或教程以及数据科学的理论知识。她还希望探索人工智能在延长人类寿命方面的不同方式。一个热心的学习者,寻求扩大她的技术知识和写作技巧,同时帮助指导他人。