这项AI研究介绍了LISA:大型语言指导分割助手,它继承了多模式大型语言模型(LLM)的语言生成能力
This AI research introduces LISA a large-scale language-guided segmentation assistant that inherits the language generation capabilities of the multimodal large language model (LLM).
想象一下,你想喝咖啡,然后你指示一个机器人来制作。你的指示包括“制作一杯咖啡”,但不包括“去厨房,找到咖啡机,然后打开它”之类的逐步指示。目前存在的系统包含依赖人类指令来识别任何目标对象的模型。它们缺乏推理和主动理解用户意图的能力。为了解决这个问题,微软研究院、香港大学和SmartMore的研究人员提出了一个称为推理分割的新任务。这种自我推理能力对于开发下一代智能感知系统至关重要。
推理分割涉及将输出设计为复杂和隐式查询文本的分割蒙版。他们还创建了一个基准,包括一千多个图像-指令对,用于评估推理和世界知识。他们构建了一个类似于Google助手和Siri的助手,称为语言指导分割助手(LISA)。它继承了多模式大型语言模型的语言生成能力,同时具备生成分割任务的能力。
LISA可以处理复杂的推理、世界知识、解释性答案和多轮对话。研究人员说,他们的模型在训练无推理数据集时可以展示出强大的零-shot能力。仅仅通过用只有239个推理分割图像-指令对进行微调,就可以提高性能。
推理分割任务与以前的参考分割不同,参考分割要求模型具备推理能力或访问世界知识。只有完全理解查询,模型才能很好地执行任务。研究人员表示,他们的方法解锁了新的推理分割,相比于复杂和标准的推理,这种方法更有效。
研究人员使用的训练数据集不包含任何推理分割样本。它只包含在查询测试中明确指示目标对象的情况。即使没有复杂的推理训练数据集,他们发现LISA在ReasonSeg(基准)上展示出了令人印象深刻的零-shot能力。
研究人员发现,LISA在复杂推理任务中的性能提升超过了20%的gIoU。其中gIoU是所有图像交并比(IoU)的平均值。他们还发现,LISA-13B在长查询场景中的表现优于7B。这意味着更强大的多模式LLM可能会导致更好的性能结果。研究人员还表明,他们的模型在普通参考分割任务中表现出色。
他们的未来工作将更加强调自我推理能力的重要性,这对于构建真正智能的感知系统至关重要。建立一个基准对于评估并鼓励社区开发新技术至关重要。
查看论文和Github。此研究的所有功劳归功于该项目的研究人员。还别忘了加入我们的28k+ ML SubReddit、40k+ Facebook社区、Discord频道和电子邮件通讯,在那里我们分享最新的AI研究新闻、酷炫的AI项目等等。
本文首发于MarkTechPost。