提高模型准确性:我在Spotify的机器学习论文期间学到的技巧(+代码片段)

提高模型准确性:Spotify机器学习论文期间学到的技巧(+代码片段)

技术数据科学家的工具栈:改善棘手的机器学习模型

本文是我在 Spotify 进行机器学习论文写作期间所学到的内容之一。还请务必查看第二篇文章,介绍了我如何在这项研究中实现了特征重要性。

2021年,我花了8个月的时间在 Spotify 完成了一个用于衡量用户满意度的预测模型,作为我的论文的一部分。

作者提供的图片

我的目标是了解用户对音乐体验的满意程度。为此,我构建了一个 LightGBM 分类器,其输出是一个二元响应:y = 1 → 用户似乎满意 y = 0 → 不太满意

预测人类的满意度是一项挑战,因为人类从定义上来说就是不满意的。即使是一台机器也很难解读人类心灵的奥秘。因此,我的模型自然也像人一样困惑不解。

从人类预测者到算命先生

我的准确率大约为0.5,这是分类器可能得到的最差结果。这意味着算法有50%的几率预测是或否,就像人类的随机猜测一样。

所以,我花了2个月的时间尝试和组合不同的技术来改善模型的预测能力。最终,我成功地将我的 ROC 分数从0.5提高到了0.73,这是一个巨大的成功!

在本文中,我将与您分享我用于显著提高模型准确性的技术。当您处理那些不合作的模型时,这篇文章可能会派上用场。

由于这项研究的机密性,我无法分享敏感信息,但我会尽力避免让它听起来令人困惑。

#0. 数据准备

在介绍我使用的方法之前,我只是想确保您首先掌握基础知识。其中一些方法依赖于对变量进行编码和准备数据,以便它们能够正常工作。我包含的一些代码片段也引用了…