MIT CSAIL研究人员讨论生成式人工智能的前沿

专家聚集在一起,探究人工智能生成的代码、语言和图像,以及其能力、限制和未来影响

Photo: John Werner

生成人工智能的出现引发了对意识、创造力和创作权的深入哲学探讨。随着我们见证该领域的新进展,越来越明显的是,这些合成代理具有惊人的创造、迭代和挑战我们传统智能观念的能力。但是,对于一个 AI 系统来说,成为“生成式”的真正意义是什么,人与机器之间的创意表达界限被模糊了?

对于那些觉得“生成式人工智能”——一种类似于它所接受的训练的新数据或内容的 AI 类型——像是一夜之间突然出现的人来说,尽管这些新能力确实让许多人感到惊讶,但其基础技术已经在酝酿了一段时间。

但是理解真正的能力可能像这些模型产生的一些生成内容一样模糊不清。为此,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员围绕生成式 AI 的能力和局限性以及其在语言、图像和代码方面对社会和行业的潜在影响进行了讨论。

有各种各样的生成式 AI 模型,每种模型都有其独特的方法和技术。这些包括生成对抗网络 (GANs)、变分自编码器 (VAEs) 和扩散模型,它们在艺术、音乐和医学等各个行业和领域都展示出了出色的能力。随之而来的是一系列的伦理和社会难题,如产生虚假新闻、Deepfakes 和错误信息的潜力。研究人员说,考虑这些问题对继续研究生成式 AI 的能力和局限性以及确保道德使用和责任至关重要。

在开场致辞中,为了展示这些模型的视觉能力,麻省理工学院电气工程和计算机科学 (EECS) 教授、CSAIL 主任丹尼拉·鲁斯 (Daniela Rus) 拿出了她的学生最近送给她的一份特别礼物:一张 AI 风格的拼贴画,上面有鲁斯的微笑照片,呈现出镜子般的反射谱系。然而,没有任何委托艺术家的踪影。

要感谢的是机器。

生成模型通过下载互联网上的许多照片,并尝试使输出图像看起来像样本训练数据来学习制作图像。训练神经网络生成器有许多方法,扩散模型只是其中一种流行的方法。这些模型由麻省理工学院 EECS 副教授、CSAIL 主要研究员菲利普·伊索拉 (Phillip Isola) 解释,将随机噪声映射到图像上。使用扩散过程,模型将结构化对象(如图像)转换为随机噪声,通过训练神经网络一步一步地去除噪声,直到得到无噪声的图像,该过程被反转。如果您曾经尝试过使用 DALL-E 2,其中输入了一句话和随机噪声,而噪声凝聚成图像,那么您就使用了扩散模型。

“对我来说,生成数据最令人振奋的方面不是它能够创建逼真的图像,而是它提供了前所未有的控制水平。它为我们提供了新的旋钮和调节器,带来了令人兴奋的可能性。语言已经成为图像生成的一种特别强大的接口,允许我们输入一个描述,例如‘梵高风格’,然后模型会生成一个与该描述匹配的图像,”伊索拉说。“然而,语言并不是全面的;有些事情很难仅通过文字传达。例如,在肖像画的背景中精确地传达一座山的位置可能是有挑战性的。在这种情况下,可以使用类似于素描的替代技术,为模型提供更具体的输入,以实现所需的输出。”

然后,伊索拉使用了一张鸟的图像来展示控制计算机创建图像不同方面的不同因素就像“掷骰子”一样。通过改变这些因素,如鸟的颜色或形状,计算机可以生成许多不同变化的图像。

如果您还没有使用过图像生成器,那么您可能已经使用了类似的文本模型。麻省理工学院 EECS 助理教授、CSAIL 主要研究员雅各布·安德里亚斯 (Jacob Andreas) 将观众从图像带入生成的单词世界,承认了能够写诗、进行对话并针对特定文档进行生成的模型的印象深刻性。

这些模型似乎如何表达看起来像是欲望和信念的东西?安德里亚斯解释说,它们利用词嵌入的力量,其中具有相似含义的单词被分配数值 (向量) 并放置在具有许多不同维度的空间中。当这些值被绘制时,具有相似含义的单词会在这个空间中靠近彼此。这些值的接近程度显示了这些单词在含义上的相关性。(例如,“罗密欧”通常接近“朱丽叶”,等等)。特别是,变压器模型使用一种被称为“注意机制”的东西,它有选择性地聚焦于输入序列的特定部分,允许不同元素之间进行多轮动态交互。这个迭代过程可以被比喻为不同点之间的一系列“摆动”或波动,从而导致预测序列中的下一个单词。

“想象一下,当你在文本编辑器中时,右上角有一个神奇的按钮,按下它就能将你的句子转换成漂亮而准确的英语。当然,我们已经有语法和拼写检查了一段时间了,但现在我们可以探索许多其他方式将这些神奇的功能融入我们的应用程序中,”Andreas说道。“例如,我们可以缩短冗长的段落,就像我们在图像编辑器中缩小图像一样,让单词按我们想要的出现。我们甚至可以进一步推动边界,帮助用户在开发论点时找到来源和引用。然而,我们必须记住,即使是今天最好的模型也远不能以可靠或可信赖的方式完成这项工作,还有大量的工作需要做才能使这些来源可靠和公正。尽管如此,我们仍有巨大的可能性空间可以探索和创造这项技术。”

另一项大型语言模型的壮举,有时会感到相当“元”,也得到了探讨:编写代码的模型——有点像小魔杖,除了不是咒语,而是创造出代码行,实现(某些)软件开发人员的梦想。麻省理工学院电气工程与计算机科学系(EECS)教授、CSAIL项目负责人Armando Solar-Lezama回顾了一些2014年的历史,解释了当时在使用“长短期记忆(LSTM)”的技术方面取得的重大进展,这是一种用于语言翻译的技术,可以用于纠正具有明确定义任务的可预测文本的编程作业。两年后,每个人最喜欢的基本人类需求进入了场景:关注,由2017年谷歌论文引入的机制“Attention is All You Need”。不久之后,前CSAILer之一Rishabh Singh是一个团队的一员,该团队使用关注方式以自动化方式构建了相对简单任务的整个程序。不久之后,变压器出现,导致出现了大量关于使用文本到文本映射来生成代码的研究。

“代码可以运行、测试和分析漏洞,使其非常强大。然而,代码也非常脆弱,小错误可能会对其功能或安全性产生重大影响,”Solar-Lezema说。“另一个挑战是商业软件的规模和复杂性,即使是最大的模型也很难处理。此外,不同公司使用的编码样式和库的多样性意味着在处理代码时准确性的门槛可能非常高。”

在随后的问答讨论中,Rus首先提出了一个关于内容的问题:如何通过将领域特定的知识和约束纳入模型中来使生成AI的输出更强大?“处理复杂视觉数据(如3D模型、视频和光场)的模型仍然严重依赖于领域知识才能有效运行,”Isola说。“这些模型将投影和光学方程式纳入它们的目标函数和优化程序中。然而,随着数据的不断增加,可能会有一些领域知识可以被数据本身所取代,这将为学习提供足够的约束条件。虽然我们无法预测未来,但目前,领域知识仍然是处理结构化数据的重要方面。”

小组还讨论了评估生成内容的有效性的重要性。已经构建了许多基准来显示模型能够在某些要求高级语言能力的测试或任务中实现人类级别的准确性。然而,仔细检查后,简单地改写这些例子就可能导致模型完全失败。识别故障模式变得同样重要,甚至更重要,比训练模型本身还要重要。

承认对话的舞台——学术界——Solar-Lezama谈到了在与工业的深厚口袋发展大型语言模型方面取得的进展。他说,学术界的模型“需要非常大的计算机”来创造不太依赖于工业支持的所需技术。

除了技术能力、限制和它们的演变,Rus还提出了关于在AI生成的世界中生活的道德风险,与深伪造、错误信息和偏见有关。Isola提到了新的技术解决方案,重点是数字水印,这可以帮助用户微妙地判断图像或文本是否由机器生成。“要注意的问题之一是,这不是仅凭技术解决的问题。我们可以为解决方案提供空间,并提高人们对这些模型能力的认识,但是广大公众了解这些模型实际上能做什么非常重要,”Solar-Lezama说。“最终,这必须是一个更广泛的谈话。这不应该局限于技术人员,因为这是一个超越技术本身的重大社会问题。”

讨论了关于聊天机器人、机器人和许多反乌托邦流行文化背景下的一个偏爱典故:拟人化的诱惑。为什么许多人自然倾向于将类人的特点投射到非人实体上?Andreas解释了围绕这些大型语言模型及其看似超人类的能力的对立观点。

“有些人认为像ChatGPT这样的模型已经达到了人类水平的智能,甚至可能是有意识的,”Andreas说,“但实际上,这些模型仍然缺乏真正的类人能力,不能仅理解微妙之处,有时表现出极为显眼、奇怪、非人类的方式。另一方面,有人认为这些模型只是浅层的模式识别工具,无法学习语言的真正含义。但这种观点也低估了它们从文本中所能获得的理解水平。虽然我们应该谨慎地评估它们的能力,但也不应忽视低估它们影响的潜在危害。最终,我们应该以谦卑的态度来对待这些模型,并认识到仍有许多需要了解的地方,包括它们能做什么和不能做什么。”