在人工智能时代重新思考学术诚信:ChatGPT与32门课程中的大学生的比较分析

Rethinking Academic Integrity in the Era of Artificial Intelligence A Comparative Analysis of ChatGPT and University Students in 32 Courses

使用机器学习算法生成新内容的人工智能(AI),以构建先前创建的文本、音频或视觉信息,被称为生成式AI。由于该领域的最新突破和前所未有的易用性,许多人现在将这个领域视为“社会和行业必须准备好的游戏改变者”。例如,Stable Diffusion和DALL-E因其能够在各种流派中创作作品的能力而在艺术界引起了广泛关注。另一种生成式AI技术Amper Music以前被用于制作整张专辑,并在任何流派中生成音乐歌曲。

这个领域中最新的工具是ChatGPT,它可以以几种语言产生类似于人类回应的文本回复,对各种线索以对话方式进行有机扩展。由于它在创意写作、营销、客户服务和新闻报道等多种开箱即用的应用中几乎具有无限的价值,这个工具被誉为“非凡的热门”和“生产力的革命”。ChatGPT在首次亮相后仅五天内吸引了一百万用户,并在仅两个月内迅速增长到超过一亿的月度用户,该工具的能力引起了广泛关注。

尽管具有惊人的能力,生成式AI也存在伦理问题。关于谁拥有可在线获取并用于训练生成式AI模型的大量数据的讨论一直在持续。此外,随着这些工具的发展,人类和算法创作之间的区分变得更加困难。ChatGPT能够生成作文和作业解答,引发了教育界对高中和大学学生学术诚信违规的辩论。例如,纽约市、洛杉矶和巴尔的摩的教育区在美国禁止使用该工具。

同样,澳大利亚的大学表示他们希望恢复“纸笔”考试,以阻止学生使用技术来写作。由于许多教师担心抄袭,包括乔治华盛顿大学、拉特格斯大学和阿巴拉契亚州大学在内的学术界决定完全淘汰在家完成的开卷作业。一些会议和出版物也禁止使用ChatGPT生成学术写作,这并不令人意外,因为ChatGPT生成的摘要已被证明与人类生成的材料相同。

然而,一些人为提高写作生产力辩护甚至倡导使用ChatGPT。在教育领域,先前的研究已经研究了大型语言模型在医疗保健、计算机与数据科学、法律、商业、新闻和媒体以及语言习得等各个领域的有效性和实用性。尽管这些研究在将ChatGPT的表现与学生在标准化测试中的表现进行比较时得出了不同的结果,但那些专门比较该模型与先前大型语言模型表现的研究都发现,问答任务的表现显著提高。

先前的研究人员在评估ChatGPT在美国医学执照考试中的表现时发现,ChatGPT在该考试的三个阶段中的每个阶段都能达到或接近及格水平,而无需额外的专门培训。同样,其他人在美国工程基础考试中测试了ChatGPT模型,以评估其在工程背景下的表现。他们在研究中展示了模型的表现如何随着考试的多个部分而波动,如在专业实践与伦理方面得分较高,而在水文学方面得分较低。

尽管存在这些情况,但在现有文献中仍需要进行系统调查,以对比ChatGPT在同一所大学不同学术领域的学生与学生之间的表现。此外,需要明确学生和教师在全球范围内对使用这种技术的立场。最后,ChatGPT生成的作业解答是否可被检测也不确定。在这里,纽约大学阿布扎比分校的研究人员将ChatGPT的表现与来自八个不同领域的32门大学课程的学生进行比较,以分析其作为一种检测抄袭工具的潜力。他们还研究了一种可用于避免专门设计用于检测ChatGPT生成文本的算法的混淆方法的可行性。

他们对来自巴西、印度、日本、英国和美国五个不同国家的参与者(N=1601)进行了调查,以更好地了解学生和教育工作者对ChatGPT的有用性以及其使用所引发的伦理和规范问题的看法。他们还对作者所在大学的151名本科生和60名教授进行了更深入的调查,以研究不同领域对ChatGPT的看法的差异。他们发现,在32门课程中,ChatGPT在其中9门课程中的表现与学生表现一样好,甚至更好。他们还发现,目前的检测算法经常错误地将ChatGPT的回复识别为AI生成的而不是人类生成的。

更糟糕的是,混淆攻击使这些算法变得无用,ChatGPT回应的准确率下降了95%。最后,学生之间似乎达成了一致,他们将利用ChatGPT进行学术工作,而教师们认为这样做将被视为抄袭行为。鉴于这两者之间的固有紧张关系,教育机构必须制定可接受的学术诚信规定,特别是针对生成式人工智能ChatGPT。在生成式人工智能时代,他们的研究结果提供了当代的见解,这可能会在教育改革的政策讨论中发挥指导作用。