一个新的AI研究介绍了AttrPrompt:一种用于零样本学习新范式的LLM作为训练数据生成器

大型语言模型(LLMs)在许多不同的自然语言处理(NLP)应用中表现出色。最近的研究中,LLMs已被提出作为特定任务训练数据生成器,以减少对特定任务数据和注释的需求,特别是对于文本分类。尽管这些努力已经证明了LLMs作为数据生成器的有用性,但它们主要集中在改进训练步骤,当生成的数据用于训练特定任务模型时,上游数据创建过程则没有改变。查询LLMs的普遍方法使用单个类条件提示,这可能会减少提供的数据的多样性,并保持LLMs固有的系统偏差。

由乔治亚理工学院、华盛顿大学、UIUC和Google研究所进行的一项新研究分析了来自不同领域的四个具有大基数的难题分类任务。它将LLM锚定到ChatGPT,因为它能够编写高质量、类似人类的语言。团队主要使用数据属性来评估创建的训练集中的偏见和多样性水平。具体而言,数据属性包括几个属性维度和各种属性值,每个属性值代表属性本身的可能实现。

研究人员使用训练好的属性分类器分析了SimPrompt生成的数据集中的属性偏见。他们研究了不同属性如何影响模型的最终结果。为了生成带属性的数据,他们使用ChatGPT并对具有特定特征值的问题添加约束。研究人员发现,使用随机特征生成的数据集上训练的模型明显优于使用具有固定属性的数据集上训练的模型,突显了生成数据集中属性变化的重要性。

团队建议使用具有多样属性提示的生成数据以减少属性偏见并增加生成数据的属性多样性。使用LLM,首先进行交互式半自动化过程来确定给定分类任务的适当属性维度和值。然后,将LLM数据查询的标准类条件提示替换为由随机组合属性生成的更复杂的查询。他们创造了“AttrPrompt”这个术语来描述这些各种可归因的触发器。

研究人员通过比较在两种情况下训练的模型的结果来经验性地评估创建的数据集:1)仅在生成的数据集上进行训练;2)在包括真实训练集和生成集的合并数据集上进行训练。使用AttrPrompt创建的数据集在两种情况下的性能都比使用SimPrompt创建的数据集要好得多。他们的结果进一步显示,AttrPrompt在数据/预算效率和对各种模型大小和LLM作为训练数据生成器策略的灵活性方面优于SimPrompt。

AttrPrompt的显著之处在于,它在仅需要SimPrompt查询成本的5%的情况下提供了与SimPrompt相同的性能。最后,他们首次展示了将LLM作为训练数据生成器范式扩展到更困难的多标签分类问题时,AttrPrompt在所有评估标准上击败了SimPrompt。