Learn more about Multimodal Learning

通过代码生成实现模块化视觉问答

由加州大学伯克利分校的博士生Sanjay Subramanian和Google Research感知团队的研究科学家Arsha Nagrani发布视觉问答（VQA）...

Pic2Word：将图片映射到词语，实现零样本组合图像检索

由谷歌研究的学生研究员Kuniaki Saito和研究科学家Kihyuk Sohn发布，云AI团队的谷歌研究团队图像检索在搜索引擎中起着至关重...

使用前缀条件统一图像说明和图像分类数据集

作者：齐藤邦明（学生研究员，云端AI团队）和孙起赫（研究科学家，感知团队）最近，通过在大规模图像字幕数据集上对视觉语言...

检索增强的视觉语言预训练

作者：胡子牛（Ziniu Hu），学生研究员，法提阿利（Alireza Fathi），研究科学家，Google研究，感知团队大型模型（例如T5，G...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics