对于在受限数据上训练您的语言模型感到风险吗?那就来认识一下SILO:一种在推理过程中管理风险与性能权衡的新语言模型
了解SILO:一种管理风险与性能权衡的新语言模型,适用于受限数据训练
由于经常在受版权保护的内容上进行训练,大规模语言模型(LMs)引发了法律关注。法律风险与模型性能之间的固有权衡是这个问题的核心。仅使用许可证授权或公开可用的数据进行训练对准确性有严重负面影响。由于常见的LM语料库涵盖了更广泛的问题,这种约束源于许可数据的稀缺性以及其与版权过期的书籍、政府记录和许可代码等来源的紧密联系。
华盛顿大学、加州大学伯克利分校和艾伦人工智能研究所的一项新研究表明,将训练数据分为参数化和非参数化子集可以改善风险-性能权衡。团队在低风险数据上训练LM参数,并将其馈入只在推理过程中使用的非参数化组件(数据存储)。可以从非参数化数据存储中检索高风险数据,以增强训练阶段之外的模型预测。模型开发者可以完全从数据存储中删除他们的数据,甚至到个别示例的级别,并且数据存储可以随时轻松更新。该方法还通过将模型预测归因到句子级别来归属数据贡献者。由于这些更新的特性,模型现在可以与各种数据使用限制更准确地对齐。相反,参数化模型使得一旦训练完成就无法摆脱高风险数据,而且很难在大规模上归属数据。
他们开发了一种名为SILO的新型非参数化语言模型来实现他们的建议。OPEN LICENSE CORPUS(OLC)是SILO参数化组件的一种新型预训练语料库,它在各种领域中丰富多样。它的分布严重倾向于代码和政府文本,使其与其他预训练语料库不同。因此,他们现在面临着试图将在非常狭窄领域中训练的模型推广化的极端领域泛化问题。他们使用OLC的不同子集训练了三个13亿参数的LM,并构建了一个可以合并高风险数据的测试时间数据存储,然后检索并在推理中使用其内容。检索上下文方法(RIC-LM)会检索文本块并将其以上下文的方式馈入参数化LM,而最近邻方法(kNN-LM)则使用非参数化的下一个标记预测功能。
语言建模中的困惑度在包括领域内和OLC特定数据在内的14个领域中进行评估。在这里,研究人员将SILO与Pythia进行了评估,后者是一个与SILO共享一些特点但主要用于高风险数据的参数化LM。他们首先通过证明仅参数化的SILO在OLC覆盖的领域上表现出竞争力,但在领域之外表现差劲,来确认极度泛化领域的困难。然而,通过添加推理时间数据存储,这个问题得到了解决。虽然kNN-LM和RIC-LM都大幅提高了领域外的性能,但研究结果表明kNN-LM具有更好的泛化能力,使SILO在所有领域上与Pythia基准的差距平均缩小了90%。分析显示,kNN-LM中的非参数化下一个标记预测对领域转移具有抵抗力,并且kNN-LM极大地受益于增加数据存储。
总的来说,这项工作表明扩大数据存储的大小并进一步改进非参数化模型可能会在SILO尚未达到Pythia性能水平的少数领域中消除剩余差距。