一项新的AI研究提出了一种以提示为中心的方法来分析大型语言模型(LLMs)的能力
A new AI study proposes a prompt-centered approach to analyze the capabilities of large language models (LLMs).
近年来,大型语言模型(LLMs)的使用急剧增长,彻底改变了自然语言处理(NLP)领域,尤其是促使LLMs生成开放式文本。开放式文本生成的应用非常广泛,涵盖了问答、故事生成、代码生成、人类辅助创造力和开放式对话等多个领域。
随着这些模型的不断崛起,人们越来越担心这些系统的不可预测性,并因此需要更好地了解它们的能力和局限性。
乔治亚理工学院、上海交通大学、谷歌和斯坦福大学的研究人员创建了一个用于分析开放文本生成的提示分类法。他们对288个提示进行了实验,并评估了3000多个输出,分析了缓解策略和未来的研究方向。
为了分析语言模型在开放文本生成方面的能力和局限性,研究人员基于用户在提示中自然设置的约束,创建了一个个体约束的分类法。他们设计了一组简单和自然的基础提示,用作每个约束的基础提示,并通过主题和提示模板等维度进行变化,以减轻提示的差异。
提示中的约束可以分为两类:风格约束,用于限制输出的风格,例如以华丽的风格写作;结构约束,用于限制输出的结构,例如限制词数。
研究人员创建了288个提示,并使用GPT-3、OPT、BLOOM和GLM生成输出。他们每个提示生成十个输出进行评估。例如,风格约束“情绪”的基础提示是“写一段关于爱的文字,让读者感到[愤怒,恐惧,快乐,悲伤]”。
风格约束
研究人员发现,GPT-3在某些具有挑战性的风格约束(如喜剧、讽刺、讽刺和文学小说)方面存在困难,并且对风格和主题的配对敏感。当提示过于具有挑战性时,GPT-3会将风格与主题混淆,并且在创意写作中不独特的词汇方面存在困难。
然而,模型的表现与注释员所感知到的提示难度并没有相关性,这表明导致提示难度的因素在人类和LLMs之间是不同的。这凸显了在LLMs中找到哪些提示对其具有挑战性和不具挑战性的重要性。
结构约束
虽然GPT-3通常理解写作中的结构约束,但它在数值约束(如所需的词数或句子数)方面存在困难,经常产生接近但不完全相同的输出。当提示为描述性的结构约束(如“长”)时,该模型在生成可变长度的文本方面显示出较高的变异性。
此外,GPT-3无法正确格式化学术论文,可能是由于其训练数据中对此类文档缺乏清晰的标签。
作者们使用他们的方法分析了另外三个LLMs,OPT-176B9、BLOOM-176B10和GLM-130B11,使用相同的提示和额外的数值结构约束提示。他们发现这些模型的表现比GPT-3更差,超过一半的生成输出是退化的。
评论
该论文提出了一种分析语言模型在结构和风格约束下生成开放式文本能力的方法。结果显示了与已知模型挑战相一致的失败,并在结构和风格约束方面展示了新的失败模式。
作者还提供了一些缓解方法,这些方法在两个领域中都能提高性能。论文还承认了一些限制,包括分类法未涵盖所有风格和结构约束的方面,并且不能代表所有开放文本生成。
作者还注意到了一些伦理考虑,例如风格滥用和注释员伤害的潜在风险,并提出了保护注释员的指导方针。总的来说,该论文提出的方法和研究结果有助于理解语言模型的能力和局限性。