伪先知：一个自制的时间序列回归模型

‘伪先知：一个自制的时间序列回归模型’

在这篇后续文章中，我将继续通过结合流行的 Prophet package¹ 和“以简单甚至线性模型获胜”的演讲²的思想来构建时间序列的弗兰肯斯坦模型。

在回顾我们将要做的事情之后，我们将触及回归模型——它是什么，为什么它特殊。

然后，我们将使用时间序列交叉验证进行超参数调整，得到一个“最佳”模型参数化。

最后，我们将使用 SHAP 对模型进行验证，然后利用模型形式进行专门的调查和手动调整。

要涵盖这么多内容，让我们开始吧。

另外：我们在之前的一篇文章中介绍了基本数据准备和特征工程，所以现在直接跳转到建模。可以了解一下之前发生了什么：

towardsdatascience.com

让我们回顾一下我们在做什么。

最终目标很简单：在指定的时间范围内生成最准确的未来事件预测。

我们从一个只包含日期变量和感兴趣数量的时间序列开始。从此，我们衍生出了其他的特征，以帮助我们准确地建模未来的结果；这些特征在很大程度上“受到”Prophet的方法的启发。

这就是我们现在所处的位置：准备好将我们工程化的数据输入到一个轻量级模型中，训练它去预测未来。稍后我们将深入研究模型的内部工作原理。

让我们在继续之前再次回顾一下数据的样子。

我们使用来自英国的真实世界数据——在这种情况下，使用的是 STATS19 道路交通事故数据集，其中…