为什么理解数据生成过程比数据本身更重要

为什么理解数据生成过程比数据本身更重要的原因

照片由Ryoji Iwata在Unsplash上拍摄

《为什么的书》第5&6章,与我一起阅读系列

在婴儿早期阶段,我们的大脑已经开始学习将相关性与因果关联起来,并试图解释我们周围发生的一切。如果我们后面的车辆在很长一段时间内都跟着我们转弯,我们就会认为它在跟踪我们,这是一种因果关系的假设。然而,当我们从电影情绪中醒来时,我们会认为我们只是正好去了同一个目的地,这是一个混淆因素。共同的原因导致了这两辆车的运动之间的关联。这个真实而易于理解的例子证明了人脑的工作方式。

那么,有哪些我们无法想象一个合理的解释的相关性呢?例如,在整个人口中不相关的两种疾病在住院人群中相关。如果你回忆起我上一篇文章中讨论的不同因果关系结构,它指出条件化碰撞因子(住院)会产生一个解释扩散效应,使得两个不相关的变量表面上相关。换句话说,住院人群不是普遍人口的准确代表,从这个样本中得出的任何观察都不能推广。

碰撞因素偏差,基于“The Book of Why”第6章的图片

碰撞引起的相关性对人类大脑来说并不直观,从而产生了这些所谓的悖论。在本文中,我将探讨更多有趣的悖论,这些悖论在我们的大脑中产生了光学幻觉,就像魔术一样,但可以用因果图来解释。理解是什么导致了这些悖论是有意义和有教育意义的。这是“与我一起阅读”系列的第4篇文章,基于Judea Pearl的《为什么的书》的第5和第6章。这应该是一篇有趣的阅读,因为Pearl在这两个章节中提供了许多例子!你可以在这里找到之前的文章: