“喜欢主成分分析吗?新论文报道它可以产生“幻象振荡”伪影”
揭开主成分分析的神秘面纱:最新研究揭示“幻象振荡”伪影现象
主成分分析(PCA)是一种广泛使用的统计方法,用于简化复杂的数据集,但已发现它会产生“虚幻振荡”——即数据中出现一些模式,尽管在原始数据集中并不存在这些模式。接下来继续阅读,了解更多关于此的内容,如果您习惯于在带有所讨论特征的数据集上应用PCA,则此对您尤其重要。同时,这也是一个机会,了解PCA的其他局限性和缺点。
引言
主成分分析(PCA)是一种降维技术,它将描述一组对象的输入变量投影为这些变量的线性组合,以尽可能多地解释方差。PCA被广泛用于简化复杂的数据集。
要了解PCA的工作原理,请查看以下内容:
- How to adjust EasyOCR to achieve better OCR performance in Chinese.
- 谷歌被指控以《双子座公告视频》误导消费者
- AMD + 🤗:AMD GPU 的大规模语言模型即插即用加速
主成分分析终极指南
一份将低阶代码进行分解的教程,您可以编辑并在浏览器中运行,以一次永久理解PCA…
towardsdatascience.com
不过,毫无疑问,这种技术也有其缺陷。您可能已经或者至少在无意中了解到主成分(它们是原始数据特征的线性组合,但这些组合很难解释)的低可解释性,以及信息损失和维度降低之间的固有权衡(这必然会在各种维度降低方法中产生影响,程度高低不一)。此外,PCA当然假设输入变量之间存在线性关系,并且对异常值(根本)不具有鲁棒性。从实际角度来看,另外,PCA只能应用于连续变量,无法计算包含缺失数据的情况。
现在,刚刚揭示一个并不那么明显的新局限。
就在本周,发表在PNAS上的一篇论文报告了PCA会产生“虚幻振荡”,也就是说,由于PCA的计算方式,处理过的数据中会出现一些在原始数据集中不存在的模式。这项工作的…