MIT研究人员提出了“简单伪标签编辑(SimPLE)”算法,以提高自训练中伪标签质量
麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种新颖的方法来解决自然语言理解中大型语言模型(LLMs)所面临的挑战。虽然LLMs在生成语言、艺术和代码方面表现出令人印象深刻的能力,但它们的计算要求和数据隐私问题一直是弊端。麻省理工团队认为不应忽视较小的模型,并设计了一种逻辑感知模型,在某些语言理解任务中超越了大型对应物,而无需人类生成的注释。
研究人员将这些较小模型的成功归因于“文本蕴含”的概念。文本蕴含是指两个句子之间的关系,其中如果一个句子是真的(前提),那么另一个句子很可能也是真的(假设)。通过使用这个概念训练一个“蕴含模型”,团队创建了提示,允许模型在不同任务中确定某些信息是否被给定的句子或短语所蕴含,而无需额外的训练(零样本适应)。
自然语言理解涉及建立文本片段之间的关系的各种应用。麻省理工团队意识到,许多这些任务可以重新构建为蕴含任务,在其中自然语言的逻辑推理起着核心作用。例如,情感分类涉及根据另一个文本推断一个陈述中表达的情感。研究人员开发了具有3.5亿个参数的自我训练的蕴含模型,优于具有137亿到1750亿个参数的受监督模型,并展示了其可扩展、可信和成本效益的语言建模解决方案的潜力。
为了进一步提高模型性能,研究人员采用了一种自我训练技术,其中模型利用其预测进行学习,无需人类监督或额外的注释数据。这种方法显着提高了情感分析、问答和新闻分类任务的性能,超越了谷歌的LaMDA和FLAN等其他模型的零样本能力和GPT模型。然而,自我训练的挑战在于可能产生不正确或噪声标签,从而损害性能。为了克服这一点,团队开发了SimPLE(简单的伪标签编辑)算法,审查和修改在初始学习轮中生成的伪标签。这种方法改善了语言理解,并增强了模型对对抗性数据的鲁棒性。
虽然研究展示了自我训练和蕴含模型的有效性,但它也突出了一些限制。多类分类任务没有像二元自然语言理解任务那样从自我训练中受益,强调了将蕴含模型应用于多项选择任务的困难性。
这项研究的发现为大型语言模型提供了一种高效而有效的训练方法。通过将自然语言理解任务制定为上下文蕴含问题,并将伪标签和自我训练与未标记的文本数据结合起来,可以开发出比基准理解任务上更好的更紧凑的语言模型。麻省理工团队的工作为LLMs的不断发展做出了贡献,为语言处理和理解提供了更可持续和隐私保护的人工智能技术。