用Python进行的基于量化匹配的概率机器学习示例
Python量化匹配概率机器学习示例
一个鲜为人知的将分位数回归预测转化为概率分布的技术。

- 分位数回归
- 分位数匹配
- Python示例:预测糖尿病进展
- 结论
当我们训练回归模型时,我们得到的是点预测。然而,在实际应用中,我们通常对每个预测的不确定性感兴趣。为了实现这一点,我们假设我们要预测的值是一个随机变量,目标是估计其分布。
有许多方法可以从预测中估计不确定性,例如方差估计、贝叶斯方法、符合预测等。分位数回归是其中一种众所周知的方法。
分位数回归
分位数回归是指对你感兴趣的每个分位数估计一个模型。这可以通过使用一个称为分位数损失的非对称损失函数来实现。分位数回归简单、易于理解,并且在高性能库(如LightGBM)中已经可用。然而,分位数回归存在一些问题:
- 不能保证分位数的顺序是正确的。例如,你对50%分位数的预测可能大于你对60%分位数的预测,这是荒谬的。
- 为了获得整个分布的估计,你需要训练许多模型。例如,如果你需要每个百分点分位数的估计,你需要训练99个模型。
下面是分位数匹配的帮助方法。
分位数匹配
分位数匹配的目标是在给定分位数估计样本的情况下拟合一个分布函数。我们可以将其框架化为一个回归问题,因此曲线不必完全适应分位数。相反,它应该是“尽可能接近”,同时保持作为分布函数的属性。
具体而言,我们对估计的逆累积分布函数感兴趣:给定一个…