像一个注释者一样深入思考:数据集标注指南的生成

Generating dataset annotation guidelines thinking deeply like an annotator

我们都对最近在AI模型方面的进步感到惊讶。我们看到生成模型如何革新,从一个时髦的图像生成算法到AI生成的内容与真实内容几乎无法区分的程度。

所有这些进步都得益于两个主要因素。先进的神经网络结构,也许更重要的是大规模数据集的可用性。

以稳定扩散为例。扩散模型已经存在一段时间了,但我们以前从未见过它们取得这样的结果。稳定扩散之所以如此强大,是因为它是在非常大规模的数据集上进行训练的。当我们说大规模时,真的是非常大。我们在这里谈论的是超过50亿个数据样本。

准备这样的数据集显然是一项非常苛刻的任务。它需要仔细收集代表性的数据点,并进行监督标记。对于稳定扩散,这可能在某种程度上可以自动化。但是人的因素始终存在。标记过程在监督学习中起着至关重要的作用,特别是在计算机视觉领域,因为它可能会决定整个过程的成败。

在计算机视觉领域,大规模数据集是众多任务和进展的基础。然而,这些数据集的评估和利用往往依赖于标注指令(LIs)的质量和可用性,这些指令定义了类别成员资格并为标注者提供指导。不幸的是,公开可访问的标注指令很少发布,导致计算机视觉研究的透明度和可重现性不足。

这种缺乏透明度具有重要的影响。这个疏忽有着重要的影响,包括在模型评估中的挑战,在注释中解决偏见以及理解指令策略所施加的限制。

我们手头上有一项新的研究,旨在填补这一空白。是时候见识一下标注指令生成(LIG)任务了。

LIG旨在为没有公开可用指令的数据集生成信息丰富、易于理解的标注指令(LIs)。通过利用大规模视觉和语言模型,并提出代理数据集策划者(PDC)框架,该研究旨在生成高质量的标注指令,从而增强计算机视觉社区的透明度和实用性。

LIG概述。来源:https://arxiv.org/pdf/2306.14035.pdf

LIG旨在生成一组指令,这些指令不仅定义了类别成员资格,还提供了类别边界、同义词、属性和边界情况的详细描述。这些指令包括文本描述和视觉示例,提供了全面和信息丰富的数据集标注指令集。

为了解决生成LIs的挑战,提出了利用CLIP、ALIGN和Florence等大规模视觉和语言模型的框架。这些模型提供了强大的文本和图像表示,能够在各种任务中实现强大的性能。代理数据集策划者(PDC)算法框架作为一种计算效率高的LIG解决方案被引入。它利用预训练的VLMs快速遍历数据集,并检索代表每个类别的最佳文本-图像对。通过多模态融合将文本和图像表示压缩为单个查询,PDC框架展示了生成高质量和信息丰富的标注指令的能力,而无需进行大量手动策划。

虽然提出的框架显示出潜力,但也存在一些限制。例如,目前的重点是生成文本和图像对,对于更表达力的多模态指令没有提出方案。与人工生成的指令相比,生成的文本指令可能不够细腻,但是语言和视觉模型的进展有望解决这一限制。此外,该框架目前不包括负面示例,但未来的版本可能会将其纳入以提供更全面的指令集。