我们能把文本转化为科学矢量图吗?这篇人工智能论文介绍了AutomaTikZ并解释了TikZ的力量
文本转换成科学矢量图:揭秘AutomaTikZ,探秘TikZ的无限魅力


最近,文本到图像生成的发展使得从简单的自然语言描述中创建详细的图形成为可能。使用稳定扩散(Stable Diffusion)和DALL-E等模型的结果经常类似于由人类创建的实际图像或艺术作品。这些模型并不能生成最佳的光栅图像,常常以低分辨率生成。科学图形对科学研究至关重要,因为它们帮助研究人员解释复杂概念或传达重要发现。光栅图形在这些方面需要改进,因为它们需要高度的几何精度和可以在小字体中阅读的文本。因此,许多学术会议鼓励将数据分割为几何形状的矢量图形,以进行文本搜索,并且通常具有较小的文件大小。
自动矢量图形创建领域也在扩展,尽管现有的方法也存在一些缺点。它们主要产生可伸缩矢量图形(SVG)格式的低级路径组件,要么无法保留精确的几何关系,要么产生复杂程度较低的输出,如单个图标或字体字母。来自比勒费尔德大学、汉堡大学和曼海姆大学和比勒费尔德大学的研究人员调查了使用视觉语言来解决这些限制的可能性,该语言抽象了较低级别的矢量图形格式,并提供了可以编译到这些格式的高级结构。
语言模型表明,可以学会使用这些语言并使用它们执行简单的任务。但仍然有待确定它们在多大程度上能够生成科学图形。他们在这项工作中集中研究图形语言TikZ,因为它具有表达能力并注重科学,只需几个指令就可以生成复杂的图形。他们想知道是否语言模型能够根据图片标题自动创建科学图形,类似于文本到图像的生成,并捕捉TikZ的微妙之处。这不仅可以提高生产力和促进包容性(帮助那些对编程类语言不太熟悉的学者,如社会科学家),还可以通过生成定制的TikZ示例来改进教学。TEX Stack Exchange就是一个使用示例,其中TikZ是常见讨论的主题之一,约有10%的问题得到了解答。
他们的主要贡献有:
(i) 作为他们的AutomaTikZ项目的一部分,他们开发了DaTikZ,它拥有超过120,000个配对的TikZ图形和标题,是第一个大规模的TikZ数据集。
(ii) 对DaTikZ上的大语言模型(LLM)LLaMA进行调整,并将其性能与通用型LLM,特别是GPT-4和Claude 2进行对比。自动化和人工评估发现,由调整后的LLaMA生成的科学图形更接近于人类创建的图形。
(iii) 他们继续开发CLiMA,它是LLaMA的扩展,包括多模态CLIP嵌入。通过这个改进,CLiMA现在可以更轻松地理解输入的标题,从而增强文本与图像的对齐。此外,它还可以使用照片作为额外的输入,从而进一步提高速度。
(iv) 他们还表明所有模型都提供原创的结果,并且几乎没有记忆问题。而LLaMA和CLiMA经常提供退化的解决方案,通过过度复制输入标题到输出图片来最大化文本与图像的相似性,而GPT-4和Claude 2则经常产生更简单的输出结果。




