使用Nougat模型进行研究论文的生成型人工智能

使用Nougat模型研究生成型人工智能

利用数据做酷炫的事情!

Photo by Dan Dimmock on Unsplash

介绍

最近大型语言模型(LLM)如GPT-4在生成连贯文本方面展示出令人印象深刻的能力。然而,对于人工智能来说,准确解析和理解研究论文仍然是一项极具挑战性的任务。研究论文包含复杂的格式、数学方程、表格、图形和领域特定的语言。信息密度非常高,重要的语义信息被编码在格式中。

在本文中,我将演示一个名为Nougat的新模型如何帮助准确解析研究论文。然后将其与LLM流水线相结合,提取和总结论文中的所有表格。

这里的潜力是巨大的。有很多在研究论文和书籍中被正确解析的数据/信息。准确的解析使得它们可以在包括LLM重新训练在内的许多不同应用中使用。

Nougat模型

Nougat是由Meta AI的研究人员开发的一种视觉转换器模型,可以将文档页面的图像转换为结构化文本[1]。它以文档页面的光栅化图像作为输入,并输出轻量级标记语言的文本。

Nougat的关键优势在于它仅依赖文档图像,不需要任何OCR文本。这使得它能够正确地恢复数学方程等语义结构。它是在arXiv和PubMed的数百万篇学术论文上进行训练的,以学习研究论文格式和语言的模式。

下面的图[1]显示了如何在PDF中编写的数学方程以Latex形式重现并正确渲染。

Source: Fig5 from Nougat Paper — https://arxiv.org/pdf/2308.13418.pdf

Nougat使用了视觉转换器编码器-解码器架构。编码器使用Swin Transformer将文档图像编码为潜在嵌入。Swin Transformer使用移动窗口以分层方式处理图像。解码器使用编码器上的自注意力逐个生成输出文本标记…