宾夕法尼亚大学的研究人员开发了一个用于评估基于视觉的AI功能有效性的机器学习框架,通过在OpenAI的ChatGPT-Vision上进行一系列测试

宾夕法尼亚大学研发基于视觉的AI功能有效性评估机器学习框架,在OpenAI的ChatGPT-Vision上进行了一系列测试

GPT-Vision模型引起了广泛关注。人们对它理解和生成与文本和图像相关的内容的能力感到兴奋。然而,也存在一个挑战-我们不知道GPT-Vision在何种方面表现出色,以及其不足之处。这种缺乏了解可能会存在风险,特别是如果模型在错误可能带来严重后果的关键领域中被使用。

传统上,研究人员通过收集大量数据并使用自动指标进行测量来评估像 GPT-Vision 这样的 AI 模型。然而,研究者引入了一种替代方法-基于示例的分析。与分析大量数据不同,重点转向一些特定示例。这种方法被认为在科学上严谨,并在其他领域证明有效。

为了解决理解 GPT-Vision 的能力的挑战,宾夕法尼亚大学的研究人员提出了一种启发自社会科学和人机交互的正式 AI 方法。 这种基于机器学习的方法提供了一个结构化的框架,用于评估模型的性能,强调对其真实世界功能的深刻理解。

建议的评估方法包括五个阶段:数据收集、数据审查、主题探索、主题发展和主题应用。借鉴了社会科学中的基于理论和主题分析的技术,这种方法旨在通过相对较小的样本量提供深入的见解。

为了说明这种评估过程的有效性,研究人员将其应用于一项具体任务-为科学图像生成替代文本。替代文本对于向视觉障碍者传达图像内容至关重要。分析显示,虽然 GPT-Vision 显示出令人印象深刻的能力,但它往往过度依赖文本信息,对提示词敏感,并在理解空间关系方面存在困难。

总之,研究人员强调,这种基于示例的定性分析不仅可以识别 GPT-Vision 的局限性,还展示了一种思考新型 AI 模型的理性方法。目标是避免这些模型在错误可能带来严重后果的情况下被滥用。

本文发表在大学 of Pennsylvania 研究人员开发了一个评估视觉 AI 功能有效性的机器学习框架,通过对 OpenAI 的 ChatGPT-Vision 进行一系列测试 上。