LLMs需要所有这些层次才能实现上下文学习吗?

LLMs需要这些层次吗?

亚马逊科学最近发布的一篇论文阐明了关于LLs的一个最重要问题。

使用Midjourney创建

我最近开始了一个以人工智能为重点的教育性新闻通讯,目前已有超过160,000订阅者。TheSequence是一个无废话(即没有炒作,没有新闻等)面向机器学习的通讯,阅读时间只需5分钟。其目标是让您及时了解机器学习项目、研究论文和概念。请通过下方订阅来试试:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据发展的最佳信息来源…

thesequence.substack.com

近来,大型语言模型(LLMs)引起了相当大的关注,尤其是随着ChatGPT的出现。这些模型通常在大规模数据集上进行预训练,新的变体则采用强化学习来遵循指令并整合人类反馈。LLMs展示的一个有趣能力是上下文学习,即模型可以通过使用少量甚至零个相关示例和新输入来获取任务。在扩展这种学习范式的基础上,研究表明,当预训练数据量保持不变时,较大的LLMs在各种任务中表现优于较小的对应物,展示了它们的多功能性。

围绕LLMs一直存在一个有趣的问题,即它们是否需要所有这些构建块来实现上下文学习。亚马逊科学最近的一篇论文探讨了模型规模在上下文学习和架构可解释性方面的重要性。该研究所探讨的主要问题是LLMs的所有组件是否真正对有效的上下文学习不可或缺。

实验

为了进行实验,亚马逊科学依赖于OPT-66B模型,这是去年由Meta开源发布的一个660亿参数的LLM副本,仅包含解码器部分。研究结果表明,模型的大部分…