遇见Embroid:一种AI方法,可以将LLM与来自多个较小模型的嵌入信息相互拼接,从而实现在没有监督的情况下自动纠正LLM预测
Embroid an AI method that automatically corrects LLM predictions without supervision by combining LLM with embedded information from multiple smaller models.
假设您编写了一种语言模型(LM)来对药物和医疗史进行基本数据分析。为了训练您的机器学习模型,您需要带有各种病人历史数据的标记数据。构建一个大型的标记数据集非常困难。这将需要与领域专家进行手动标记,这是成本高昂的。您如何处理这些模型?
斯坦福大学、Anthropic和威斯康星大学麦迪逊分校的研究人员通过设计语言模型来在上下文中学习注释任务,并替代规模化的手动标记。LM的上下文能力使模型能够记住描述中的任务。他们试图修改提示的预测而不是提示本身,因为语言模型对提示语言的即使微小变化也很敏感,可能会产生错误的预测。
研究人员的方法基于准确的预测也应该是一致的直觉。在某些特征表示下,相似样本将接收到相同的提示预测。他们提出了一种称为“Embroid”的方法,该方法使用不同的嵌入函数计算数据集的多个表示,并利用LM预测之间的一致性来识别错误的预测。使用这些邻域,Embroid然后为每个样本创建额外的预测。然后,这些额外的预测与简单的变量图模型结合,以确定最终的校正预测。
- 使用ONNX框架提升模型的互操作性和效率
- 汤森路透(Thomson Reuters)在不到6周的时间内开发了Open Arena,一个企业级大型语言模型平台的游乐场
- 使用Amazon SageMaker在空中图像上训练自监督视觉变压器
一个微不足道的问题是,随着数据集大小的变化,Embroid的性能改善将如何变化。研究人员表示,Embroid依赖于不同嵌入空间中的最近邻,因此他们可能预计在注释数据集较小时性能较差。研究人员还比较了嵌入域特异性和嵌入空间质量改变时性能的变化。他们发现,在这两种情况下,它的表现都优于通常的语言模型。
研究人员表示,Embroid还使用了弱监督下开发的统计技术。在弱监督中,它的目标是通过结合多种噪声的预测来为无标签数据生成概率标签。他们说它使用嵌入来构建额外的合成预测,这些预测将与原始预测结合。
研究人员将Embroid与其他六种LM进行了多达95个不同任务的比较。对于每个LM,他们选择了三种上下文演示的组合,为每个提示生成了预测,并将Embroid独立应用于每个提示的预测。他们发现,这将GPT-JT每个任务的性能从原始提示平均提高了7.3个点,并将GPT-3.5每个任务的性能提高了4.9个点。