多模态人工智能连接数字点

多模态人工智能:连接数字世界的纽带

多模态人工智能结合各种数据类型(如图像、文本、语音和数字数据)与多个智能处理算法以实现更高的性能。 ¶ 信用:Enterra Solutions

人工智能(AI)的进步在过去几年里以惊人的速度到来。计算机视觉已经变得清晰,机器人已经前进,生成式AI已经完全进入社会的主流。

然而,尽管取得了进展,一个令人不安的事实显而易见:大多数现今的AI框架仍然相对独立。在大多数情况下,它们像是AI自动化的孤岛,缺乏关键的功能,因为它们无法共享数据并与其他AI组件协同运作。

工程师、研究人员和其他人士正在注意到这一点。他们正在积极探索构建先进的多模态系统。通过连接独立的AI组件和数据流,可以构建更接近于人类的智能系统。

“目标是利用各种系统和数据源实现更高级的功能,”卡内基梅隆大学计算机科学学院院长Martial Hebert说道。

麻省理工学院(MIT)电气工程与计算机科学系助理教授Yoon Kim补充道:“人类已经是多模态的。我们构建具有视觉、听觉、理解语言和处理其他感官任务能力的身体化AI模型对于开发更复杂的技术至关重要。”

智能AI的实现

多模态人工智能的吸引之处在于能够利用互补但独立的数据通道,结合和解读它们,并发现在其他情况下可能被忽视的信号和模式。遗留数据库、大型语言模型(LLMs)、物联网传感器、软件应用程序和各种设备都可以作为多模态人工智能的燃料。

例如,一个结合了多模态人工智能的服务机器人可以以更类似于人类的方式处理图像、声音、触觉和其他感觉,并相应作出回应。医疗诊断应用程序可以结合图像、临床文本和其他数据,以获得更准确的结果。多模态人工智能还使人们(如医生、律师、科学家、商业分析师等)能够通过应用程序更直观地交流和与数据互动

多模态人工智能正在快速发展。Open AI的ChatGPT-4最近具备了看、听和说的能力。这个广泛使用的生成式AI系统可以直接上传图像并回复用户。视力问题或其他残疾人可以使用一个名为Be My Eyes的iOS和Android应用程序更好地导航自己的周围环境。

与此同时,微软正在将其Copilot框架整合到公司的一系列工具和应用程序中,包括商业智能和数据分析。Copilot被设计用于即时创建演示文稿、提供主题快速摘要、协调安排和其他行政任务,并使用生成式AI、语音或文本生成和共享文本、音频、图像和视频等内容。

云中规模庞大的数据资源推动着多模态人工智能的发展,微软健康未来部门总经理Hoifung Poon表示。他说:“人类的大量数字化知识和数据可以轻松地收集和用于为各种应用培训大规模的多模态模型(LMMs)。”其中的共同点是文本,“它捕捉到了人类知识的大部分,并有可能作为各种模态之间的‘连接语言’。”

深度学习架构Transformer已经推动了多模态领域的发展。在文本、语音、图像和分子等各种模态上,它在数学上优秀地发现模式和关系。与此同时,它与图形处理器(GPU)的协同工作使得计算规模可扩展,使得Transformer超越了卷积神经网络和循环神经网络(CNN和RNN)。当今,大型基于Transformer的模型可以理解内容、进行推理和对话。

“从实际角度来说,这意味着多模态人工智能系统更加擅长处理不同形式的输出,如文本、图像和音频,” Kim说道。他预测,多模态系统在未来几年将取得数量级的进步,包括具备回答任意和较为抽象问题的能力,生成复杂的图像和演示文稿,并支持机器的先进感知和控制系统,如机器人。

难以编码的进展

尽管该领域取得了巨大进展,但要实现高度先进的多模态系统还需要进一步的发展。目前,其中一个障碍可能是低质量或训练不良的数据集,导致模糊、有偏见,甚至是完全错误的结果。例如,可能会导致系统误解语调或语气。在最糟糕的情况下,可能会导致错误的医学诊断或自动驾驶汽车误解关键数据。

将分离的AI系统链接并统一起来需要对软件进行根本性的改变。“设计允许模型以一致的方式与多种模态进行交互的框架非常重要,” Kim说道。这包括使在不同模态上进行训练的模型和数据相互关联,使它们可以“组合”成为多模态模型。这些模型必须能够生成可执行的软件代码片段,以影响真实世界。

因此,研究人员现在正在探索开发复杂的编排框架,例如微软的AutoGen,以应对这一挑战。例如,AutoGen的设计目的是管理模态间的沟通和交互,包括跨虚拟软件代理和机器人、自动驾驶汽车等物理组件的行动。

然而,即使有编排工具,专家们表示,先进的多模态系统可能需要人工进行数据的监督、重新标记以及直接监督离散过程。实际上,一些人怀疑在可预见的未来,全面实现多模态AI自动化是否可行。“如果无法正确控制多种数据源和数据流,问题可能会产生严重后果,”Hebert警告道。

相互冲突的数据或目标可能会完全破坏多模态AI,Poon说。他正在积极研究用于生成式AI的自验证方法。例如,他说:“教导口头语言模型(LLMs)避免潜在有害行为可能导致所谓的‘补偿税’,从而降低整体性能。”此外,合并来自不同数据源的数据可能导致“批次效应”或混淆因素,扭曲研究结果并破坏实验结果。

尽管如此,Hebert和其他人认为,实现一个广泛且高度同步的多模态AI框架是困难的,但却是可能的。“在单一AI渠道内,数据的准确性和可用性并不是一个大问题,”他解释道。“但在实时情况下,如果触摸、语音、文本和视觉必须和谐地工作,协调多个渠道和数据流就会变得非常困难。”

Samuel Greengard是一位位于美国俄勒冈州西林的作者和记者。