双机器学习简化:第二部分-目标和CATE

Double machine learning simplification Part 2 - objectives and CATE

学习如何利用DML估计个体级别的治疗效应以实现数据驱动的定位

本文是关于简化和民主化双重机器学习的系列文章中的第2篇。在第1篇中,我们介绍了双重机器学习的基础知识以及两个基本因果推断应用。现在,在第2部分中,我们将扩展这些知识,将我们的因果推断问题转化为一个预测任务,即预测个体级别的治疗效应,以帮助决策和数据驱动的定位。

如我们在本系列的第1部分中了解到的,双重机器学习是一种高度灵活的部分线性因果推断方法,用于估计治疗的平均效应(ATE)。具体而言,它可以用于建模观测数据中高度非线性的混淆关系和/或减少实验设置中关键结果的变异性。估计ATE在理解特定治疗的平均影响方面特别有用,这对未来的决策非常有用。然而,推断这种治疗效应假设效应的程度是均匀的;也就是说,无论我们将治疗用于哪个人群,我们都预计效应与ATE相似。如果我们在未来的推广中受到个体数量的限制,因此希望了解哪些亚群体中治疗效果最好,以实现高效的推广,那么我们将面临估计治疗效应异质性的问题。

上述问题涉及估计治疗效应的异质性。也就是说,我们的治疗效应如何影响人群的不同子集?幸运的是,DML提供了一个强大的框架来实现这一点。具体而言,我们可以利用DML来估计条件平均治疗效应(CATE)。首先,让我们重新审视一下ATE的定义:

(1) Average Treatment Effect

现在,对于CATE,我们估计在一组协变量X的值条件下的ATE: