您是否会使用ANOVA进行特征选择?
您是否熟悉使用ANOVA进行特征选择?
通过一个有趣的数据集了解ANOVA的A-Z。
当我们开发一个机器学习模型时,我们经常忽视最关键的一步 —— 特征选择。选择与目标变量相关的正确特征可以防止模型达到潜在性能。
特征选择以两种方式影响整个流程:
- 移除无用和冗余特征
- 在最坏情况下不改变准确性的情况下,有很高的概率提高性能。
选择正确的技术可以帮助您更快地收敛到正确的特征集。有时候,您必须通过反复尝试各种方法来找到正确的方法。
过滤方法依赖于统计公式对特征进行排序,而包装方法使用模型选择适当的特征。在本文中,我们将重点介绍ANOVA —— 一种用于选择与目标变量高度相关的特征的过滤方法
我希望你从这篇文章中获益良多,在接下来的几分钟内,我们将讨论以下主题:
- 明确了解什么是ANOVA。
- 如何在数据集上应用ANOVA
- 强大的可视化
ANOVA
方差分析(ANOVA)是一种统计方法,帮助我们了解分类特征对目标变量的影响。它是T检验的延伸,而T检验仅适用于测试两个组,而ANOVA适用于一个特征中存在多个组。

ANOVA假设(第一步):
假设就像是根据有限证据的初步结论,以便我们有一个进一步调查的起点。通常会陈述两个假设陈述: