本文测试了ChatGPT的幽默感:超过90%的ChatGPT生成的笑话都是同样的25个笑话

幽默可以提高人类的表现和动机,对于建立关系至关重要。它是影响心情和引导注意力的有效工具。因此,计算幽默具有极大的潜力,可以显著改善人与计算机的交互(HCI)。不幸的是,尽管计算幽默是一个历史悠久的研究领域,但计算机却远未达到“有趣”的水平。这个问题甚至被认为是AI-complete。然而,不断改进和最近的机器学习(ML)发现为自然语言处理(NLP)创造了广泛的新应用和新机遇。

基于Transformer的大型语言模型(LLMs)越来越能够反映和捕捉隐含的知识,包括道德、幽默和刻板印象。幽默经常是下意识的,受微小细节的驱动。因此,鉴于LLMs的这些新特性,对于人工幽默的未来发展有理由乐观。OpenAI的ChatGPT最近因其开创性能力而受到广泛关注。用户可以通过公共聊天API与模型进行类似对话的交流。该系统可以回答各种问题,同时考虑上下文对话。如图1所示,它甚至可以讲笑话。ChatGPT的使用非常有趣,可以在人类层面上进行交流。

图1:一个人类用户和聊天机器人之间对话的绝佳例子。这个笑话是ChatGPT提出问题后的真实回答。

然而,用户在与ChatGPT交互时可能会立即看到模型的缺点。尽管它几乎没有英语错误地生成文本,但ChatGPT偶尔会出现语法和内容相关的错误。他们发现,在之前的调查中,ChatGPT很可能会经常重复相同的笑话。所提供的笑话也非常准确和微妙。这些发现支持该模型并不是创造所生成的笑话。相反,它们是从训练数据中复制的,甚至是硬编码到列表中的。他们进行了几项结构化的提示实验,以了解系统的行为并推断ChatGPT输出的生成过程,因为该系统的内部工作方式并未披露。

来自德国航空航天中心(DLR)、达姆斯塔特理工大学和赫森人工智能中心的研究人员特别想通过系统提示性调查了解ChatGPT能够多好地捕捉人类幽默。笑话创作、解释和检测这三个实验条件被组合为主要贡献。人工智能词汇经常使用与人类特征的比较,例如神经网络或人工智能本身的短语。此外,在讨论旨在尽可能模拟人类行为的对话代理时,它们使用与人相关的词语。例如,ChatGPT“理解”或“解释”。虽然他们认为这些比较准确地捕捉了系统的行为和内部工作方式,但它们可能是误导性的。他们想澄清,讨论的AI模型并不在人类水平上,最多只是人类思维的模拟。本研究并不试图回答AI是否能够有意识地思考或理解的哲学问题。