“喜欢主成分分析吗?新论文报道它可以产生“幻象振荡”伪影”

揭开主成分分析的神秘面纱:最新研究揭示“幻象振荡”伪影现象

主成分分析(PCA)是一种广泛使用的统计方法,用于简化复杂的数据集,但已发现它会产生“虚幻振荡”——即数据中出现一些模式,尽管在原始数据集中并不存在这些模式。接下来继续阅读,了解更多关于此的内容,如果您习惯于在带有所讨论特征的数据集上应用PCA,则此对您尤其重要。同时,这也是一个机会,了解PCA的其他局限性和缺点。

Figure composed by the author from his own PCA tool (here).

引言

主成分分析(PCA)是一种降维技术,它将描述一组对象的输入变量投影为这些变量的线性组合,以尽可能多地解释方差。PCA被广泛用于简化复杂的数据集。

要了解PCA的工作原理,请查看以下内容:

主成分分析终极指南

一份将低阶代码进行分解的教程,您可以编辑并在浏览器中运行,以一次永久理解PCA…

towardsdatascience.com

不过,毫无疑问,这种技术也有其缺陷。您可能已经或者至少在无意中了解到主成分(它们是原始数据特征的线性组合,但这些组合很难解释)的低可解释性,以及信息损失和维度降低之间的固有权衡(这必然会在各种维度降低方法中产生影响,程度高低不一)。此外,PCA当然假设输入变量之间存在线性关系,并且对异常值(根本)不具有鲁棒性。从实际角度来看,另外,PCA只能应用于连续变量,无法计算包含缺失数据的情况。

现在,刚刚揭示一个并不那么明显的新局限。

就在本周,发表在PNAS上的一篇论文报告了PCA会产生“虚幻振荡”,也就是说,由于PCA的计算方式,处理过的数据中会出现一些在原始数据集中不存在的模式。这项工作的…