多伦多大学的研究人员揭示了大型材料数据集中令人惊讶的冗余性,并展示了信息丰富数据在提高机器学习性能方面的力量

多伦多大学研究团队揭示了大型材料数据集中令人惊讶的冗余性,展示信息丰富数据提升机器学习性能的威力

随着人工智能的出现,我们生活的各个领域都能感受到它的应用。人工智能正在应用于各个行业。但是人工智能需要用到数据来进行训练。人工智能的有效性在很大程度上依赖于数据的可用性。

传统上,训练人工智能模型的准确性与数据的大量可用性相关。在这个领域中解决这个挑战涉及到对广泛潜在搜索空间的导航。例如,The Open Catalyst Project使用了与潜在催化剂材料相关的超过2亿个数据点。

需要分析和模型开发这些数据集所需的计算资源是一个大问题。Open Catalyst数据集用了16000个GPU天来进行分析和模型开发。这样的训练预算只有一些研究人员可用,通常会限制模型开发到较小的数据集或者已有数据的部分。因此,模型开发经常受限于较小的数据集或可用数据的一部分。

一项由多伦多大学工程研究人员进行的研究,发表在《自然通信》上,表明深度学习模型需要大量的训练数据的观念可能并不总是正确的。

研究人员表示,我们需要找到一种方法来识别可以用于训练模型的较小数据集。Dr. Kangming Li,Hattrick-Simpers的博士后研究员,使用了一个预测学生最终成绩的模型作为例子,并强调该模型在加拿大学生的数据集上表现最好,但可能无法预测其他国家学生的成绩。

一种可能的解决方案是在庞大的数据集中找到子集来解决提出的问题。这些子集应该包含原始数据集中的多样性和信息,但在处理过程中更容易处理。

Li开发了一种方法,从已经公开的材料数据集中找到高质量的信息子集,例如JARVIS,The Materials Project和Open Quantum Materials。目标是更深入地了解数据集属性如何影响它们训练的模型。

为了创建他的计算机程序,他使用了原始数据集和一个数据点减少了95%的较小子集。在预测数据集领域内材料属性时,使用5%的数据训练的模型与使用整个数据集训练的模型表现相当。根据这个说法,机器学习训练可以安全地排除高达95%的数据对于分布预测的准确性几乎没有影响。过度呈现的材料是多余数据的主要主题。

根据Li的说法,该研究的结论提供了一种判定数据集冗余程度的方法。如果增加更多数据不会提高模型性能,那么它是冗余的,并且不会为模型提供任何新的学习信息。

这项研究支持了人工智能领域各个领域的专家日益增长的知识:在质量较高的情况下,相对较小的数据集上训练的模型可以表现出色。

总之,强调的是信息丰富度的重要性,而不仅仅是数据量。应优先考虑信息的质量,而不是收集大量的数据。