在一个机器学习项目中别犯我犯过的同样错误!
避免在机器学习项目中犯我曾经犯过的错误!
认识到机器学习项目中的关键组成部分
通常我们往往完全不考虑这一点。
我通过实习经历学到了这个教训。
我的旅程始于我在大学时开始学习机器学习的基础知识,我经常做很多项目,以深入了解事物的工作原理。
这有助于我比其他人更快地入门,因为它增强了我的知识,使我能够将这些概念应用于现实应用中。
但在没有意识到的情况下,我陷入了一个无意识的恶性陷阱循环中,在每个项目中都重复了同样的错误。我过于着重于以下方面:
- 使用哪种机器学习模型?
- 使用优化策略提高性能。
- 投入时间进行EDA分析。
- 在数据清洗中使用各种技术。
这个列表会一直延伸到本文的最后。我同意这些在构建高性能模型方面是必不可少的。
但是,从更广泛的角度来看,以上步骤在每个机器学习项目中通常是相同的。那么,你认为每个项目中哪些变化被认为是重要的呢?
数据改变一切!!!
当数据发生变化时,清洗数据的策略也会改变,用于发现洞察的可视化图表也会不同,选择哪种模型也会发生变化,等等。
数据视角
我们假设花更多时间在模型开发上可以将性能从低提升到高。但事实并非如此,数据的质量非常重要,是模型准确性方面的决定性因素。
为了获得广泛的理解,让我们来看看这些场景