从技术角度介绍谷歌最强大的多模型模型“金牛座”

技术解析谷歌顶尖多模型“金牛座”的强大之处

2023年12月6日,Google发布了其最大且最强大的多模态模型Gemini。

Gemini通过多模态预训练实现对各种输入的理解和推理。它是第一个在多模态基准上超越人类专家,并在代码理解、生成等方面表现出色的模型。

Google的技术报告[1]共有62页,其中大部分内容都是关于模型评估、参考文献和贡献者名单。报告中没有详细讨论太多技术细节。

本文基于技术报告中的重要部分,对这款优秀的多模态模型进行了简要介绍。

模型系列

Gemini包括三个不同规模的模型,目前尚未开源:

  • Ultra:最强大的模型,在各种高度复杂任务中提供最先进的性能,包括推理和多模态任务。
  • Pro:针对成本和延迟进行优化的性能优化模型,在各种任务中都能显著提升性能。
  • Nano:专为设备上运行设计的最高效模型。Nano有两个版本,Nano-1具有18亿参数,Nano-2具有32.5亿参数,分别针对低内存和高内存设备。Nano是通过提炼更大的Gemini模型,然后将其量化为4位来构建的。为什么要构建一个Nano模型,而不直接使用基于云端的Ultra模型呢?我认为这可能是为了保护用户隐私,使得智能手机等设备不必将用户数据发送到云端。此外,它还将推理成本从云端转移到设备上,节省了通信成本。

模型结构

技术报告中没有具体说明模型结构的细节,只在大约半页中简要描述了。总结如下:

  • 基于Transformer解码器的结构[2]。
  • 支持文本输入与各种音频和视觉输入相互交错,如图1所示,例如自然图像、图表、屏幕截图、PDF和视频。
  • 模型可以同时输出图像和文本。