这篇AI论文探讨了大型语言模型(LLMs)在文本标注任务中的潜力,重点关注ChatGPT
这篇AI论文探讨了大型语言模型在文本标注任务中的潜力,重点关注ChatGPT
高质量的标记数据对于许多自然语言处理应用非常重要,特别是用于训练分类器或评估无监督模型的效果。例如,学者们经常希望将文本分类到不同的主题或概念类别中,过滤嘈杂的社交媒体数据以获得相关性,或者评估他们的情绪或立场。标记数据对于提供训练集或对比结果至关重要,无论是使用有监督、半监督还是无监督的方法来完成这些任务。这些数据可以用于高级任务,如语义分析、仇恨言论等,有时还可以用于更专门的目标,如政党意识形态。
研究人员通常需要进行原始标注,以验证标签是否与他们的概念类别相对应。直到最近,只有两种基本方法。例如,研究人员可以雇用和培训研究助理作为编码人员。其次,他们可以依靠在亚马逊 Mechanical Turk(MTurk)等网站上工作的自由职业者。这两种方法经常结合使用,众包工人增加了标记数据量,而训练有素的标注员则产生了一个小的黄金标准数据集。每种策略都有其自身的优点和缺点。培训标注员通常会产生高质量的数据,尽管他们的服务是昂贵的。
然而,人们对 MTurk 数据质量下降的担忧一直存在。其他平台,如 CrowdFlower 和 FigureEight,在被面向企业的组织 Appen 收购后,不再是学术研究的可行选择。众包员工的价格更便宜、更灵活,但在难以完成的任务和英语以外的语言上,质量可能更好。苏黎世大学的研究人员研究了大型语言模型(LLMs)在文本标注任务中的潜力,特别关注于 ChatGPT,该模型于 2022 年 11 月公开发布。研究表明,与 MTurk 标注相比,ChatGPT 的零样本分类效果更好(即无需额外训练),而成本仅为 MTurk 标注的一小部分。
- 网络犯罪分子使用WormGPT破坏电子邮件安全
- “认识 FreedomGPT:一种基于 Alpaca 构建的开源 AI 技术,经过编程以识别和优先考虑道德因素,不经过任何审查过滤”
- 将对话式人工智能产品部署到生产环境中,与Jason Flaks一起
LLMs 在各种任务中表现出色,包括对立法思想进行分类、意识形态衡量、解决认知心理学问题以及模拟调查研究的人类样本。尽管一些研究显示,ChatGPT 能够执行他们指定的文本标注任务,但据他们所知,尚未进行全面评估。他们使用了之前研究中收集的 2,382 条推文作为分析的样本。对于该项目,这些推文由训练有素的标注员(研究助理)对五个不同的任务进行了标注:相关性、立场、主题以及两种类型的框架识别。他们将这些任务分发给 MTurk 的众包工人和 ChatGPT 的零样本分类,并使用他们创建的相同代码书来训练研究助理。然后,他们将 ChatGPT 的性能与两个基准进行了比较:与众包工人相比的准确性,以及与众包工人和训练有素的标注员相比的标注者间一致性。他们发现,ChatGPT 的零样本准确性在四个任务上优于 MTurk。ChatGPT 在所有与标注者间一致性相关的功能上都优于 MTurk 和训练有素的标注员。
此外,ChatGPT 的成本远远低于 MTurk:在 ChatGPT 上进行的五个分类任务的成本约为 68 美元(25,264 个标注),而在 MTurk 上进行相同任务的成本为 657 美元(12,632 个标注)。因此,ChatGPT 的成本仅为 0.003 美元,即三分之一美分,比 MTurk 便宜约二十倍,同时提供更优质的质量。以此成本可以进行整个样本的标注或构建大规模的有监督学习训练集。
他们测试了 100,000 个标注,发现成本约为 300 美元。这些发现展示了 ChatGPT 和其他 LLMs 如何改变研究人员进行数据标注的方式,并颠覆了 MTurk 等平台的一些商业模式。然而,还需要进一步研究来全面了解 ChatGPT 和其他 LLMs 在更广泛的环境中的表现。