数据科学中的无限预测可能性

美容时尚界的无限预测可能性

通过实际示例探索数据科学中可用的众多预测方法

当我刚开始学习数据科学时,我的初始任务是预测。同时,我刚刚完成了我的经济计量学硕士学位。我对预测的第一印象是相当乏味和单调的,因为我通过时间序列计量经济学的棱镜来看待一切,这涉及绘制偏自相关图和自相关图以手动确定定义ARIMA模型的AR和MA的正确参数。然而,现在我意识到,这是对统计预测现实的一种不完整的观点,因为我在许多方面都是一个新手。

在进行了几个成功的预测项目之后,我了解到预测领域与传统回归问题有很大的不同,并且可以通过各种方式进行处理来进行建模。这为开始一个项目时扩展了建模的可能性。

让我们通过Favorita杂货销售预测竞赛的多种预测选项来详细探讨这个问题:https://www.kaggle.com/c/favorita-grocery-sales-forecasting/overview。这涉及到提前16天预测各种商店-产品组合的销售情况。

数据集概述

我不会进行深入分析,因为我们只会使用培训数据的一个子集。数据按照标准结构进行组织,包括商店ID、商品ID、单位销售额、日期和促销标志。

Source : Image by Author

一对多

我在实际的企业预测与理论预测之间经历的第一个范式转变是:

  • 我们没有时间通过独立的统计模型为每个时间序列确定最佳参数。
  • 零售时间序列受到各种外部因素的影响,例如促销活动、本地事件、国家事件和价格。然而,大多数统计模型并不考虑这些因素。
  • 有许多时间序列需要考虑,单独处理每个序列既几乎不可能,也…