研究人员教导AI撰写更好的图表标题

一个新的数据集可以帮助科学家开发自动系统,为在线图表生成更丰富、更具描述性的标题

A new tool helps scientists develop machine-learning models that generate richer, more detailed captions for charts, and vary the level of complexity of a caption based on the needs of users. This could help provide captions for un-captioned online charts and improve accessibility for people with visual disabilities.

图表标题对于解释复杂趋势和模式非常重要,可以提高读者理解和保留所呈现数据的能力。对于视觉障碍的人来说,标题中的信息通常是他们理解图表的唯一途径。

但是,编写有效的详细标题是一项费时费力的工作。虽然自动标题技术可以减轻这一负担,但往往难以描述提供额外上下文的认知特征。

为了帮助人们编写高质量的图表标题,麻省理工学院的研究人员开发了一个改进自动标题系统的数据集。利用这个工具,研究人员可以教机器学习模型根据用户的需求,通过变化标题的复杂程度和内容类型来提供图表标题。

麻省理工学院的研究人员发现,使用他们的数据集训练的自动标题机器学习模型生成的标题始终精确、语义丰富,并描述了数据趋势和复杂模式。定量和定性分析表明,与其他自动标题系统相比,他们的模型更有效地为图表添加标题。

该团队的目标是提供名为VisText的数据集,作为研究人员在解决图表自动标题这一棘手问题时可以使用的工具。这些自动系统可以帮助为未加标题的在线图表提供标题,并提高视觉障碍人士的可访问性,麻省理工学院电气工程和计算机科学研究生和计算机科学与人工智能实验室(CSAIL)可视化组成员、共同作者安吉·波格斯特说。

“我们试图将许多人类价值观融入到我们的数据集中,这样当我们和其他研究人员构建自动图表标题系统时,我们不会得到人们不希望或不需要的模型,”她说。

波格斯特与共同作者、研究生本尼·J·唐和高级作者、麻省理工学院计算机科学副教授、CSAIL可视化组负责人阿文德·萨蒂亚纳拉扬一起撰写了这篇论文。该研究将在计算语言学年会上进行展示。

以人为中心的分析

研究人员受到可视化组先前研究的启发,该研究探索了什么样的图表标题是好的。在该研究中,研究人员发现,视力正常的用户和视力低下或盲人用户对标题中的语义内容复杂性有不同的偏好。

该小组希望将这种以人为中心的分析引入到自动标题研究中。为此,他们开发了VisText,一个包含图表和相关标题的数据集,可用于训练机器学习模型生成准确、语义丰富、可自定义的标题。

开发有效的自动标题系统并不容易。现有的机器学习方法通常试图像处理图像一样为图表添加标题,但人和模型对待自然图像和阅读图表的方式不同。其他技术则完全跳过了视觉内容,只使用图表的底层数据表格来添加标题。然而,这样的数据表格在图表发布后通常不可用。

鉴于使用图像和数据表格存在的缺陷,VisText还将图表表示为场景图。场景图可以从图表图像中提取出来,包含了所有图表数据,但还包括额外的图像上下文。

“场景图就像是两全其美的选择——它包含几乎所有图像中存在的信息,同时比从图像中提取数据表格更容易。因为它也是文本,我们可以利用现代大型语言模型在标题中进行创新,”唐解释道。

他们编制了一个包含12,000多个图表的数据集,每个图表都以数据表格、图像和场景图的形式表示,以及相关的标题。每个图表都有两个独立的标题:一个低级标题,描述了图表的构造(如坐标轴范围),和一个高级标题,描述了数据的统计信息、关系和复杂趋势。

研究人员使用自动化系统生成了低级标题,并从人工工作者那里获得了高级标题。

“我们的标题受到两个关键先前研究的启发:有关视觉媒体可访问描述的现有指南和我们小组的一个概念模型,用于对语义内容进行分类。这样可以确保我们的标题包含了对视觉障碍读者重要的低级图表元素,如坐标轴、刻度和单位,同时保留了标题编写的人类变异性,”唐说。

图表翻译

一旦他们收集到图表图像和标题,研究人员使用VisText训练了五个自动标题的机器学习模型。他们想要查看每种表示方式(图像、数据表格和场景图)以及表示方式的组合对标题质量的影响。

“你可以把图表标题模型想象成语言翻译模型。但是我们要做的不是将德语文本翻译成英语,而是将这种‘图表语言’翻译成英语,”波格斯特说。

他们的研究结果显示,使用场景图训练的模型的表现与使用数据表训练的模型相当或更好。由于从现有的图表中提取场景图更容易,研究人员认为它们可能是一种更有用的表示形式。

他们还分别使用低级和高级标题训练了模型。这种称为语义前缀调整的技术使他们能够教会模型改变标题内容的复杂性。

此外,他们对最佳表现方法产生的标题进行了定性检查,并将其分类为六种常见错误。例如,如果模型说趋势下降而实际上是上升,就会发生方向错误。

这种细致入微、鲁棒性的定性评估对于理解模型的错误方式非常重要。例如,使用定量方法,方向错误可能会受到与重复错误相同的惩罚,即模型重复相同的词语或短语。但是,方向错误可能会给用户带来比重复错误更多的误导性。定性分析帮助他们理解这些细微之处,Boggust说。

这些错误也揭示了当前模型的局限性,并引发了研究人员在开发自动字幕系统时必须考虑的伦理问题。

已经证明,生成式机器学习模型(例如ChatGPT所使用的模型)可能会产生幻觉或给出错误信息,这可能会引导人们产生误解。尽管使用这些模型为现有图表添加字幕具有明显的好处,但如果字幕错误,可能会导致误传信息。

“也许这意味着我们不应该通过人工智能对所有看到的事物进行字幕。相反,也许我们可以将这些自动字幕系统提供给人们作为创作工具进行编辑。在研究过程中,重要的是始终考虑这些伦理问题,而不仅仅是在我们部署模型时才考虑,”她说。

Boggust、Tang及其同事希望继续优化模型,以减少一些常见错误。他们还希望扩展VisText数据集,包括更多的图表,以及更复杂的图表,例如堆叠条形图或多条线图。他们还希望了解这些自动字幕模型实际上学到了关于图表数据的什么信息。

该研究部分得到了Google研究学者奖、美国国家科学基金会、MLA@CSAIL计划和美国空军研究实验室的支持。