理解A/B测试:通过深入问题来更好地理解

理解A/B测试:深入问题以更好理解

通过挑战性问题揭示A/B测试的反直觉方面,提升您的理解并避免错误

Photo by ALAN DE LA CRUZ on Unsplash

本文重点讨论实验背景下的常见统计错误。它以五个问题和许多人认为反直觉的答案的形式呈现。它适用于那些对A/B测试已经有所了解但希望扩展他们的理解的人。这可以帮助您在日常工作中避免常见错误或在面试中取得好成绩。

问题1:您进行了一个A/B测试(α = 0.05,β = 0.2),得到了一个统计显著的结果。在这种情况下,它是一个真阳性的可能性有多大?

假设您只测量工作假设。那么,100%的成功A/B测试将是真阳性。当您的假设都不起作用时,100%的成功A/B测试将是假阳性。

这两个极端是为了说明,没有额外的步骤——对假设分布的假设,是无法回答这个问题的。

让我们再试一次,假设我们测试的假设中有10%是有效的。那么,从A/B测试中观察到统计显著的结果意味着它是一个真阳性的可能性为64%(根据贝叶斯定理,(1–0.2)*0.1 / ((1–0.2)*0.1 + 0.05*(1–0.1)))。

Image by author

问题2:假设零假设成立。在这种情况下,更高或更低的p值更可能出现?

许多人认为是前者。这似乎很直观:当没有效果时,结果更可能远离统计显著性,因此p值更高。

然而,答案既不是前者也不是后者。当零假设成立时,p值是均匀分布的。

混淆之处在于人们常常用z分数、样本均值或样本均值之差来形象化这些概念。所有这些都是正态分布的。那么,p值的均匀性可能很难理解。

让我们通过一个模拟来说明这一点。假设处理组和对照组都是从同一正态分布(μ = 0,σ = 1)中抽取的,这意味着零假设成立。然后,我们将比较它们的均值,计算p值,并重复多次这个过程。为简单起见,让我们只看处理组均值较大的情况。然后,让我们看看从0.9到0.8和从0.2到0.1的p值的情况。

当我们将这些p值区间映射到我们模拟的分布上时,情况变得更明确。虽然靠近零点的分布峰值更高,但这里的区间宽度更窄。相反,当我们远离零点时,峰值缩小但区间的宽度增加。这是因为p值是以这样的方式计算的,使得相等长度的区间包含相同的曲线下面积。

Image by author

问题3:由于某些技术或业务限制,您使用了比通常样本量小的A/B测试。结果几乎具有统计显著性。然而,效果大小很大,大于您通常在类似A/B测试中看到的效果大小。更大的效果大小应该增强您对结果的信心吗?

事实上并不是这样。为了被分类为显著,效果必须与零相差两倍标准误差(当α = 0.05时)。随着样本量的减小,标准误差通常会上升。这意味着在较小样本中观察到的统计显著效果往往更大。

下面的模拟演示了以下内容:当两组(N=1000)都从相同的正态分布(μ = 0,σ = 1)中抽样时,这些是显著A/B测试的绝对效应大小。

作者提供的图片

问题4:让我们在之前问题的基础上进一步深入理解是否有可能检测到比2个标准误差更小的真实效应?

是的,尽管这里的语义有些模糊 真实效应大小可能显著小于2个标准误差。即使如此,您仍然预计会有一定比例的A/B测试表现出统计显著性。

然而,在这些条件下,您检测到的效应大小总是夸大的。想象一下真实效应为0.4,但您检测到的效应为0.5,p值为0.05。您会认为这是真正的阳性吗?如果真实效应大小仅为0.1,但您再次检测到0.5的效应呢?如果真实效应仅为0.01,这仍然是真正的阳性吗?

让我们将这种情况可视化。控制组(N=100)从正态分布(μ = 0,σ = 2)中抽样,而处理组(N=100)从相同分布中抽样,但μ的值从0.1到1不等。无论真实效应大小如何,成功的A/B测试都会产生至少0.5的估计效应大小。当真实效应小于此值时,得到的估计值明显夸大。

作者提供的图片

这就是为什么一些统计学家避免将结果分为“真阳性”或“假阳性”等二元类别。相反,他们以更连续的方式对待它们 [1]。

问题5:您进行了一次产生显著结果的A/B测试,p值为0.04。然而,您的老板仍然不信服,并要求进行第二次测试。这次后续测试没有产生显著结果,p值为0.25。这是否意味着最初的效应并不真实,而最初的结果是假阳性?

将p值解释为二元的词典决策规则始终存在风险。让我们想一想p值实际上是什么。它是一个惊喜的衡量标准。它是随机的,是连续的。而且它只是一个证据的一部分。

想象一下第一个实验(p=0.04)是在1000个用户上运行的。第二个实验(p=0.25)是在10000个用户上运行的。除了质量上的明显差异之外,正如我们在问题3和4中讨论的那样,第二个A/B测试可能具有一个更小的估计效应大小,可能不再具有实际意义。

让我们反过来看这种情况:第一个实验(p=0.04)是在10000个用户上运行的,而第二个实验(p=0.25)是在1000个用户上运行的。在这种情况下,我们更有信心认为效应是“存在的”。

现在,假设两个A/B测试是相同的。在这种情况下,您观察到了两个相当相似的、有些令人惊讶的结果,它们都不太符合零假设。它们在0.05的两侧并不是非常重要。重要的是,在零假设为真时连续观察到两个小的p值是不太可能的。

我们可以考虑的另一个问题是这种差异本身是否具有统计显著性。以二元方式对p值进行分类会扭曲我们的直觉,使我们相信在截断点的不同侧上的p值之间存在巨大甚至本体论的差异。然而,p值是一个相当连续的函数,可能两个A/B测试,尽管p值不同,提供非常相似的反对零假设的证据 [2]。

另一种看待这个问题的方法是综合证据。假设零假设在两个测试中都成立,则根据Fisher的方法,组合p值为0.05。有其他方法可以组合p值,但总体逻辑相同:在大多数情况下,尖锐的零假设不是一个现实的假设。因此,足够多的“令人惊讶”的结果,即使它们中没有一个在个体上具有统计显著性,也足以拒绝零假设。

使用费舍尔方法融合两个p值的图像。图像来自维基百科,作者为Chen-Pan Liao

结论

我们通常使用的零假设检验框架来分析A/B测试,并不是特别直观。在没有经常的思维练习的情况下,我们往往会回归到一种“直观”的理解,这可能会引导错误的判断。我们也可能会形成一些常规的做法来减轻认知负担。不幸的是,这些常规的做法往往变得有些固化,过于注重形式程序而忽视推论的实际目标。

参考文献

  1. McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2019). Abandon statistical significance. The American Statistician , 73 (sup1), 235–245.
  2. Gelman, A., & Stern, H. (2006). The difference between “significant” and “not significant” is not itself statistically significant. The American Statistician , 60 (4), 328–331.