Google研究在I/O 2023上的展示

由Google研究与技术社区的高级副总裁James Manyika和Google DeepMind和Google研究的首席科学家Jeff Dean发布

2022年5月10日是Google研究社区的一天,我们在Google I/O舞台上宣布了多个月甚至多年的基础和应用研究成果。在舞台上快速的宣布中,很难传达底层技术和独特创新的实质性努力,因此,今天我们很高兴揭示一些今年I/O大会上一些引人注目的宣布背后的研究努力。

PaLM 2

我们的下一代大型语言模型(LLM),PaLM 2,基于计算优化扩展、缩放指令微调和改进的数据集混合。通过为不同目的微调和指令调整模型,我们已经能够将最先进的功能集成到25多个Google产品和功能中,其中已经帮助用户获取信息、提供帮助和带来乐趣。例如:

  • Bard是一个早期的实验,让您与生成的AI合作,帮助提高生产力、加速想法和激发好奇心。它建立在深度学习效率的进步和利用人类反馈的强化学习的基础上,以提供更相关的响应并增加模型遵循指令的能力。Bard现在在180个国家提供服务,用户可以用英语、日语和韩语与其交互,由于PaLM 2提供的多语言功能,支持40种语言的服务即将推出。
  • 通过搜索生成体验,我们正在让搜索更轻松,让您更快地了解一个主题,发现新的观点和见解,更轻松地完成任务。作为这个实验的一部分,您将看到一份AI支持的主题快照,其中包含深入挖掘的链接。
  • MakerSuite是一个易于使用的PaLM API原型环境,由PaLM 2提供动力。事实上,早期的MakerSuite原型机在内部用户参与的情况下加速了我们的PaLM 2模型的开发。MakerSuite源于针对提示工具的研究,或者是专门设计用于定制和控制LLM的工具。这一研究领域包括PromptMaker(MakerSuite的前身)和AI Chains和PromptChainer(展示LLM链接实用性的最早研究之一)。
  • Tailwind项目还利用了MakerSuite的早期研究原型,开发了帮助作家和研究人员探索思想并改善散文的功能;其以AI为先的笔记本原型使用PaLM 2,以让用户在其定义的文档基础上向模型提问。
  • Med-PaLM 2是我们基于PaLM 2构建的最先进的医疗LLM。Med-PaLM 2在美国医疗许可考试样式的问题上取得了86.5%的成绩,展示了其在健康领域的激动人心的潜力。我们现在正在探索多模态能力,以综合像X光片这样的输入。
  • Codey是PaLM 2在源代码上进行微调的版本,作为开发人员助手运行。它支持广泛的Code AI功能,包括代码完成、代码解释、错误修复、源代码迁移、错误说明等。Codey通过我们的可信测试者计划通过IDE(Colab、Android Studio、Duet AI for Cloud、Firebase)和3P-facing API提供。

也许对于开发人员来说,更令人兴奋的是,我们已经开放了PaLM APIs和MakerSuite,为社区提供使用这项开创性技术进行创新的机会。

PaLM 2具有先进的编码功能,使其能够在多种不同的语言中查找代码错误并提供建议。

Imagen

我们的Imagen图像生成和编辑模型系列建立在大型Transformer模型和扩散模型的语言模型的进步基础上。这个模型系列正在被整合到多个谷歌产品中,包括:

  • Google Slides中的图像生成和Android的生成AI壁纸都由我们的文本到图像生成功能驱动。
  • Google Cloud’s Vertex AI使图像生成、图像编辑、图像升级和微调变得更容易,以帮助企业客户满足其业务需求。
  • I/O Flip是一个数字化的经典牌游戏,以完全由人工智能生成的Google开发者吉祥物卡片为特色。这个游戏展示了一种称为DreamBooth的微调技术,用于适应预训练的图像生成模型。只需要少量的图像作为微调的输入,它就可以让用户在几分钟内生成个性化的图像。使用DreamBooth,用户可以在不出现在参考图像中的各种场景、姿势、视角和照明条件下综合一个主题。

Phenaki

Phenaki是谷歌基于Transformer的文本到视频生成模型,受到I/O预展的关注。Phenaki是一个模型,可以通过利用两个主要组件:将视频压缩为离散嵌入的编码器-解码器模型和将文本嵌入转换为视频令牌的变压器模型,从文本提示序列合成逼真的视频。

ARCore和场景语义API

在I/O上,AR团队宣布了ARCore的新功能之一是场景语义API,它可以识别室外场景中的像素级语义。这有助于用户基于周围环境中的特征创建自定义AR体验。这个API由室外语义分割模型支持,利用我们最近在DeepLab架构和自我中心室外场景理解数据集方面的研究成果。最新的ARCore版本还包括一个改进的单眼深度模型,提供更高的室外场景准确性。

场景语义 API 使用基于 DeepLab 的语义分割模型,在户外场景中提供准确的像素级标签。

Chirp

Chirp 是 Google 最先进的通用语音模型家族,经过 1200 万小时的语音训练,可为 100 多种语言提供自动语音识别 (ASR)。该模型可对资源匮乏的语言进行 ASR,例如阿姆哈拉语、宿务语和阿萨姆语,同时也支持英语和普通话等广泛使用的语言。Chirp 利用未标记的多语言数据集进行自监督学习,再通过有限的标记数据进行微调,以覆盖如此广泛的语言种类。现在,Chirp 已经可以在 Google Cloud Speech-to-Text API 中使用,用户可以通过简单的界面对模型进行推理。您可以在此处开始使用 Chirp。

MusicLM

在 I/O 大会上,我们推出了 MusicLM,这是一款文本到音乐模型,可从文本提示中生成 20 秒的音乐。您可以在 AI Test Kitchen 上自行尝试,或在 I/O 预演中看到电子音乐家和作曲家 Dan Deacon 在表演中使用 MusicLM。

MusicLM 由 AudioLM 和 MuLAN 提供动力,可以制作音乐(从文本、哼唱、图像或视频)和歌唱的音乐伴奏。AudioLM 可以生成高质量的音频,具有长期的一致性。它将音频映射到一系列离散标记,并将音频生成视为语言建模任务。为了有效地合成更长的输出,它采用了我们开发的一种新方法,称为 SoundStorm。

通用翻译配音

我们的配音工作利用数十种机器学习技术,翻译视频内容的全部表达范围,使视频内容能够接触到全球观众。这些技术已被用于翻译各种产品和内容类型的视频,包括教育内容、广告宣传和创作者内容等,未来还会有更多。我们使用深度学习技术实现语音保留和唇形匹配,从而实现高质量的视频翻译。我们构建这个产品,包括人工审核以确保质量,安全检查以帮助防止滥用,并仅向授权合作伙伴提供访问权限。

AI 服务全球社会公益

我们正在应用我们的 AI 技术解决一些全球最大的挑战,比如减缓气候变化、应对全球变暖、改善人类健康和福祉。例如:

  • 交通工程师使用我们的 Green Light 推荐来减少交叉口的停车和行车,改善从班加罗尔到里约热内卢和汉堡等城市的交通流量。Green Light 模型分析每个路口的交通模式,制定更有效的交通信号灯建议,例如更好地同步相邻路灯的时间,或者调整给定街道和方向的“绿灯时间”。
  • 我们还将全球洪水中心的全球覆盖范围扩大至 80 个国家,作为我们预测河流洪水并在灾难来临前向受影响的人们发出警报的努力的一部分。我们的洪水预测工作依赖于卫星观测、天气预报和原位测量所提供的水文模型。

技术促进包容性和公正的 ML 应用

随着我们在 AI 技术上持续投资,我们正在强调负责任的 AI 开发,并致力于使我们的模型和工具有用并产生影响,同时确保公平、安全和与我们的 AI 原则相一致。其中一些努力在 I/O 上得到了突出展示,包括:

  • 发布 Monk Skin Tone Examples (MST-E) 数据集,以帮助从业人员更深入地了解 MST 比例尺并训练人类标注者进行更一致、包容和有意义的肤色标注。您可以在我们的网站上了解更多有关此项及其他发展的信息。这是我们去年推出的开源版 Monk Skin Tone (MST) 比例尺的进展,旨在使开发人员能够构建更具包容性和更好地代表其多样化用户的产品。
  • 一个新的 Kaggle 竞赛(开放至 8 月 10 日),在该竞赛中,机器学习社区的任务是创建一个可以快速准确地识别美式手语(ASL)拼写的模型——其中每个单词的每个字母都是使用单只手迅速拼出来的,而不是使用整个单词的特定手势——并将其翻译成书面文本。了解更多有关手语拼写 Kaggle 竞赛的信息,该竞赛特别邀请到了聋人音乐家和饶舌歌手 Sean Forbes 演唱的歌曲。我们还在 I/O 上展示了去年竞赛的获胜算法,该算法支持由乔治亚理工学院和罗切斯特理工学院(RIT)创建的 ASL 学习应用程序 PopSign,该应用程序面向聋哑或听力有障碍的儿童家长。

共同构建 AI 未来

成为许多才华横溢的个人社区的一部分,这些人正在引领开发最先进的技术、负责任的 AI 方法和令人兴奋的用户体验。我们正处在 AI 的一个令人难以置信和变革性的时期。请继续关注谷歌研究社区正在大胆探索这些技术的前沿,并负责任地利用它们造福全世界人民生活的更多更新。我们希望您对 AI 技术的未来与我们一样兴奋,并邀请您通过我们在此处突出显示的参考、网站和工具与我们的团队互动。