Meta AI发布了Nougat:一种可将科学文档进行光学字符识别(OCR)并转化为标记语言的视觉转换模型

Meta AI发布了Nougat:一种OCR和转换模型

随着人工智能领域的不断发展,其子领域,包括自然语言处理、自然语言生成、计算机视觉等,由于其广泛的应用案例而迅速获得了很大的关注度。光学字符识别(OCR)是计算机视觉的一个成熟且广泛研究的领域。它有许多用途,比如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR的一个受到学术研究广泛关注的领域之一。

便携式文档格式(PDF)是科学知识中最常用的格式之一,通常保存在书籍中或发表在学术期刊中。作为互联网上使用第二多的数据格式,占据了2.4%的信息,PDF经常用于文档传递。尽管广泛使用,但从PDF文件中提取信息可能很困难,尤其是处理科研论文等高度专业化材料时。特别是当这些论文被转换为PDF格式时,数学表达式的语义信息经常会丢失。

为了解决这些挑战,Meta AI的研究人员团队提出了一个名为“Nougat”的解决方案,它代表“学术文档的神经光学理解”。Nougat是一个视觉Transformer模型,用于对科学文本进行光学字符识别(OCR)。其目标是将这些文件转换为标记语言,以便更容易访问和机器读取。

为了展示这种方法的有效性,该团队还制作了一份新的学术论文数据集。这种方法在数字化时代为提高科学知识的可访问性提供了一个可行的答案。它填补了人们易于阅读的书面材料和计算机可以处理和分析的文本之间的差距。研究人员、教育工作者和对科学文献感兴趣的任何人都可以使用Nougat更有效地访问和处理科学论文。Nougat基本上是一个基于Transformer的模型,旨在将文档页面的图像,特别是来自PDF的图像,转换为格式化的标记文本。

该团队总结了他们的主要贡献如下:

  1. 发布预训练模型:该团队创建了一个可以将PDF转换为简单标记语言的预训练模型。这个预训练模型已在GitHub上公开,研究社区和任何人都可以访问它以及相关代码。
  1. 数据集创建流程:研究中描述了一种构建将PDF文档与其相关源代码配对的数据集的方法。这种数据集开发方法对于测试和改进Nougat模型以及未来的文档分析研究和应用可能很有用。
  1. 仅依赖页面图像:Nougat的一个显著特点是它只依赖于页面图像进行操作。这使得它成为从各种来源提取内容的灵活工具,即使原始文档不可用于数字文本格式。它可以处理扫描的论文和书籍。