斯坦福大学的研究人员发布了名为PLATO的新型人工智能方法,用于解决高维度、低样本机器学习中的过拟合问题,采用知识图增强正则化技术

「斯坦福大学发布PLATO:新一代AI方法解决高维度、低样本机器学习中的过拟合问题,知识图增强正则化技术引领潮流」

“`html

知识图谱(KG)是一种以节点和边作为信息存储的基于图的数据库。另一方面,多层感知机(MLP)是一种用于机器学习的神经网络类型。MLP由多个层次排列的相互连接的节点组成。每个节点从前一层获取输入,并将输出发送到下一层。

斯坦福大学的研究人员推出了一种名为PLATO的新的机器学习模型,它利用KG提供辅助领域信息。PLATO通过引入归纳偏差来规范MLP,确保KG中的相似节点在MLP的第一层具有等效的权重向量。该方法解决了机器学习模型在与样本相比具有许多维度的表格数据集中需要帮助的挑战。

PLATO解决了具有高维特征和有限样本的表格数据集的未经开发的情况,与针对具有更多特征而非特征的设置的现有表格深度学习方法形成对比。与NODE和表格转换器等其他深度表格模型以及PCA和LASSO等传统方法不同,PLATO引入了KG进行正则化。与图形正则化方法不同,PLATO在KG中结合了特征节点和非特征节点。它通过图形作为先验,为MLP模型推断权重,在不同的表格数据集上进行预测。

机器学习模型在数据丰富的环境中通常表现出色,但对于特征数量远远超过样本数量的表格数据集需要帮助。这种差异在科学数据集中特别普遍,限制了模型的性能。现有的表格深度学习方法主要关注的是具有更多示例而非特征的场景,而传统的统计方法主导了具有更多特征而非样本的低数据环境。PLATO利用辅助KG对MLP的第一层推断权重向量,并将每个输入特征与KG节点相关联。该方法使用多轮消息传递来改进特征嵌入。在消融研究中,PLATO在KG中展示了对浅层节点嵌入方法(TransE,DistMult,ComplEx)的一致性性能。

PLATO是一种适用于具有高维特征和有限样本的表格数据的方法,在六个数据集上对13个尖端基线进行了长达10.19%的超越。性能评估包括对每个模型的500个配置进行随机搜索,并报告预测值和实际值之间的皮尔逊相关系数的平均值和标准差。结果证实了PLATO的有效性,在具有挑战性的低数据环境中,利用辅助KG实现了稳健的性能。与各种基线的比较分析突显了PLATO的优越性,验证了其在提高表格数据集预测方面的功效。

总之,该研究可以概括如下:

  • PLATO是用于表格数据的深度学习框架。
  • 每个输入特征类似于辅助KG中的一个节点。
  • PLATO调整了MLP,在具有高维特征和有限样本的表格数据上实现了稳健的性能。
  • 该框架根据KG节点的相似性推断权重向量,捕捉相似输入特征应该共享相似的权重向量的归纳偏置。
  • 在六个数据集上,PLATO优于13个基线最多达10.19%。
  • 辅助KG的使用显示了在低数据环境中提高性能的效果。

“`