“会见PUG:Meta AI的一项新的AI研究,使用虚幻引擎生成逼真的、语义可控的数据集,用于强大的模型评估”
Meta AI's new AI research uses the Unreal Engine to generate realistic and semantically controllable datasets for powerful model evaluation.
学习可在任务间转移和应用的数据表示是机器学习中一个宏大的目标。为了实现这一目标并监测进展,大量可控的、真实的数据用于评估和训练至关重要。这尤其适用于深度神经网络模型的鲁棒性和公平性,这两者对于在实际环境中使用的模型都是必不可少的,除了它们的纯粹准确性。然而,由于隐私、偏见和版权侵权等问题,很难获取此类信息。大多数公开可用的图像数据库很难编辑,只能进行粗糙的图像增强,缺乏细粒度的元数据。
与之相关的丰富的因素标签集可以通过使用精确控制生成场景的合成图像数据轻松检索。可以通过这种方式评估经过训练的深度神经网络的全部能力,包括其鲁棒性。尽管具有潜力,但由于缺乏现实感和通常的有限范围,许多现有的合成图像数据集对于通用图像表示学习研究来说可能不够好。
为了解决这个问题,来自Meta AI(FAIR)、Mila-Quebec AI Institute和Université de Montréal的研究人员提供了一套新的合成逼真的虚幻图形(PUG)数据集,这些数据集是为表示学习研究社区而创建的,比目前公共领域中可用的图像更加逼真。虚幻引擎[EpicGames]用于创建环境,被誉为其逼真度,并且在视频游戏和娱乐行业中被广泛使用。他们还介绍了TorchMultiverse Python包,除了提供预渲染的静态图像数据集外,还提供了一个简单的Python接口,可以从任何给定的PUG环境中轻松控制数据集的生成。使用这些方法,他们添加了四个额外的数据集,并展示了它们在各个研究领域的适用性:
- Salesforce研究人员介绍了XGen-Image-1:一种文本到图像的潜在扩散模型,经过训练以重新使用多个预训练组件
- 2023年8月最佳10款可在任何地方使用的Spotify流媒体VPN
- 2023年8月最佳的10个苹果电视VPN
- 动物,用于研究基础模型研究和OOD泛化中的符号空间。
- ImageNet中全面的因素变化集,包括姿势、背景、大小、纹理和光照,作为ImageNet的额外鲁棒性测试集。
- SPAR用于测试语言视觉模型。他们使用它来展示人工数据如何规避现有基准的问题。
- 他们还介绍了PUG: AR4T,这是一个用于微调视觉语言模型的基准,并展示了它如何与PUG: SPAR相互补充。
PUG数据集共同为人工图像数据的控制和逼真度设定了新的标准。