人工智能脉搏 #2：Meta的人类化人工智能和小型语言模型

AI脉冲

Meta的两个新模型学习更像人类，那么小型语言模型实际上学到了什么？

本期内容包括：

来自Meta的ImageBind，一个从六种模态学习的模型；
第一步：朝着Yann LeCun关于人类化AI的梦想迈出的一步；
微软的Orca是否将成为小型语言模型的趋势？

AI脉冲也可以免费订阅Substack的新闻通讯。

ImageBind从六种模态学习

简介

📢 Meta发布了ImageBind，一个能够同时从六种模态学习的模型。📝 论文：https://arxiv.org/abs/2305.05665💻 代码：https://github.com/facebookresearch/ImageBind👀 演示：https://imagebind.metademolab.com/demo

新闻

Meta的研究实验室将多模态性的意义提升到了一个新的水平。在推出SAM和DINOv2之后，他们宣布了他们的最新发明：ImageBind，一个跨六种模态进行综合学习的模型：文本、图像、音频/视频、3D深度、热量（通过红外辐射）和惯性测量单元（IMU）。这是为了赋予模型像人类一样从不同来源吸收信息的能力。

ImageBind的一个关键特点是它将所有模态的信息映射到一个单一的嵌入空间中。因此，可以在不同模态之间进行相似性搜索，进行多模态检索，并使用算术组合模态。您可以在提供的演示应用程序中亲自体验ImageBind。无论是根据文本提示产生图像和声音，还是通过音频给图像增添生气（例如将狗的吠声与海滩照片融合，生成一张狗在海滩上悠闲的图像），多模态的可能性是无限的！

深入探究

ImageBind的核心观察是图像具有一定的绑定特性。这意味着图像往往与其他数据模态同时出现，作为将这些其他模态对齐的桥梁。

人工智能脉搏 #2：Meta的人类化人工智能和小型语言模型