数据科学中的无限预测可能性
美容时尚界的无限预测可能性
通过实际示例探索数据科学中可用的众多预测方法
当我刚开始学习数据科学时,我的初始任务是预测。同时,我刚刚完成了我的经济计量学硕士学位。我对预测的第一印象是相当乏味和单调的,因为我通过时间序列计量经济学的棱镜来看待一切,这涉及绘制偏自相关图和自相关图以手动确定定义ARIMA模型的AR和MA的正确参数。然而,现在我意识到,这是对统计预测现实的一种不完整的观点,因为我在许多方面都是一个新手。
在进行了几个成功的预测项目之后,我了解到预测领域与传统回归问题有很大的不同,并且可以通过各种方式进行处理来进行建模。这为开始一个项目时扩展了建模的可能性。
让我们通过Favorita杂货销售预测竞赛的多种预测选项来详细探讨这个问题:https://www.kaggle.com/c/favorita-grocery-sales-forecasting/overview。这涉及到提前16天预测各种商店-产品组合的销售情况。
数据集概述
我不会进行深入分析,因为我们只会使用培训数据的一个子集。数据按照标准结构进行组织,包括商店ID、商品ID、单位销售额、日期和促销标志。
- 这篇AI论文探讨了大型语言模型中的行为错位:GPT-4在模拟股票交易中的欺骗策略
- 这篇AI文献介绍了EdgeSAM:推进边缘设备上高速高效的图像分割机器学习
- GPT-4.5:真实还是虚构?这是我们所知道的
一对多
我在实际的企业预测与理论预测之间经历的第一个范式转变是:
- 我们没有时间通过独立的统计模型为每个时间序列确定最佳参数。
- 零售时间序列受到各种外部因素的影响,例如促销活动、本地事件、国家事件和价格。然而,大多数统计模型并不考虑这些因素。
- 有许多时间序列需要考虑,单独处理每个序列既几乎不可能,也…