在一个机器学习项目中别犯我犯过的同样错误!

避免在机器学习项目中犯我曾经犯过的错误!

认识到机器学习项目中的关键组成部分

Photo by Pierre Bamin on Unsplash

通常我们往往完全不考虑这一点。

我通过实习经历学到了这个教训。

我的旅程始于我在大学时开始学习机器学习的基础知识,我经常做很多项目,以深入了解事物的工作原理。

这有助于我比其他人更快地入门,因为它增强了我的知识,使我能够将这些概念应用于现实应用中。

但在没有意识到的情况下,我陷入了一个无意识的恶性陷阱循环中,在每个项目中都重复了同样的错误。我过于着重于以下方面:

  1. 使用哪种机器学习模型?
  2. 使用优化策略提高性能。
  3. 投入时间进行EDA分析。
  4. 在数据清洗中使用各种技术。

这个列表会一直延伸到本文的最后。我同意这些在构建高性能模型方面是必不可少的。

但是,从更广泛的角度来看,以上步骤在每个机器学习项目中通常是相同的。那么,你认为每个项目中哪些变化被认为是重要的呢?

数据改变一切!!!

Photo by Markus Spiske on Unsplash

当数据发生变化时,清洗数据的策略也会改变,用于发现洞察的可视化图表也会不同,选择哪种模型也会发生变化,等等。

数据视角

我们假设花更多时间在模型开发上可以将性能从低提升到高。但事实并非如此,数据的质量非常重要,是模型准确性方面的决定性因素。

为了获得广泛的理解,让我们来看看这些场景

场景A