从技术角度介绍谷歌最强大的多模型模型“金牛座”
技术解析谷歌顶尖多模型“金牛座”的强大之处
2023年12月6日,Google发布了其最大且最强大的多模态模型Gemini。
Gemini通过多模态预训练实现对各种输入的理解和推理。它是第一个在多模态基准上超越人类专家,并在代码理解、生成等方面表现出色的模型。
Google的技术报告[1]共有62页,其中大部分内容都是关于模型评估、参考文献和贡献者名单。报告中没有详细讨论太多技术细节。
本文基于技术报告中的重要部分,对这款优秀的多模态模型进行了简要介绍。
模型系列
Gemini包括三个不同规模的模型,目前尚未开源:
- Ultra:最强大的模型,在各种高度复杂任务中提供最先进的性能,包括推理和多模态任务。
- Pro:针对成本和延迟进行优化的性能优化模型,在各种任务中都能显著提升性能。
- Nano:专为设备上运行设计的最高效模型。Nano有两个版本,Nano-1具有18亿参数,Nano-2具有32.5亿参数,分别针对低内存和高内存设备。Nano是通过提炼更大的Gemini模型,然后将其量化为4位来构建的。为什么要构建一个Nano模型,而不直接使用基于云端的Ultra模型呢?我认为这可能是为了保护用户隐私,使得智能手机等设备不必将用户数据发送到云端。此外,它还将推理成本从云端转移到设备上,节省了通信成本。
模型结构
技术报告中没有具体说明模型结构的细节,只在大约半页中简要描述了。总结如下:
- 基于Transformer解码器的结构[2]。
- 支持文本输入与各种音频和视觉输入相互交错,如图1所示,例如自然图像、图表、屏幕截图、PDF和视频。
- 模型可以同时输出图像和文本。