评估人工智能的语言掌握能力:深入研究ChatGPT在不同语言中的形态学技能
评估人工智能在语言掌握能力方面的表现:深入研究ChatGPT在不同语言中的形态学技能
研究人员对ChatGPT在英语、德语、泰米尔语和土耳其语四种语言中的形态学能力进行了严格的检查。与专门的系统相比,ChatGPT在英语方面表现不佳。分析突显出ChatGPT在形态学技能上存在的限制,挑战了其人类语言熟练程度的说法。
对大型语言模型(LLMs)的最新调查主要集中在语法和语义上,忽视了形态学。现有的LLM文献通常需要更多关注语言现象的全面范围。虽然过去的研究已经探讨了英语的过去时态,但需要对LLMs的形态学能力进行全面分析。该方法利用Wug测试评估ChatGPT在四种语言中的形态学技能。研究结果挑战了ChatGPT具有类似人类语言能力的说法,表明与专门系统相比,其存在一定的局限性。
虽然最新的大型语言模型,如GPT-4、LLaMA和PaLM,在语言能力方面表现出了希望,但在评估其形态学能力方面存在显著差距-即能够系统地生成单词的技能。以前的研究主要集中在语法和语义上,忽视了形态学。该方法通过使用Wug测试在四种语言中系统分析ChatGPT的形态学技能,并将其性能与专门系统进行比较,来解决这个缺陷。
所提出的方法通过Wug测试评估ChatGPT的形态学能力,使用准确性作为度量标准,将其输出与监督基线和人工注释进行比较。为了确保ChatGPT没有先前的暴露,创建了一系列唯一的Nonce词汇数据集。使用了三种提示风格:零样本、单样本和少样本,并为每种样式进行了多次运行。这次评估考虑了讲话者之间的形态变异,并涵盖了英语、德语、泰米尔语和土耳其语四种语言,同时将结果与专门的系统进行性能评估。
研究发现,对于ChatGPT来说,需要更多具有形态学能力的专门系统,尤其是在英语方面。不同语言的性能有所不同,德语达到接近人类水平的表现。k值(考虑的排名前几个响应的数量)的选择对结果产生了影响,随着k的增加,基线和ChatGPT之间的差距扩大。ChatGPT倾向于生成不合理的词性变化,这可能受到对真实单词的偏向。研究结果强调了对大型语言模型的形态学能力进行更多研究的必要性,并警告不要仓促声称具有类似人类语言技能。
这项研究对四种指定语言中的ChatGPT的形态学能力进行了严格分析,揭示了其在特别是英语方面的表现不佳。它强调了对大型语言模型的形态学能力进行进一步研究的必要性,并警告不要过早声称具有类似人类语言技能。ChatGPT在不同语言之间的性能有所不同,其中德语达到了人类水平的表现。研究还注意到了ChatGPT的现实世界偏见,强调了在语言模型评估中考虑形态学的重要性,因为形态学在人类语言中起着基本作用。
该研究采用了单一模型(gpt-3.5-turbo-0613),局限性在于不适用于其他GPT-3版本或GPT-4及其后续版本。关注一小组语言会对结果在不同的语言和数据集中的普遍适用性提出疑问。由于无法控制的变量,比较语言是具有挑战性的。目前对泰米尔语的评注者和低一致性可能会影响可靠性。ChatGPT在不同语言之间的性能差异表明了潜在的普适性限制。