加速文档智能化
Accelerate document intelligence.
企业中充斥着大量包含知识的文件,这些知识无法通过数字化工作流程访问。这些文件可以是信函、发票、表格、报告或收据等各种形式。借助于文本、视觉和多模态人工智能的进步,现在有可能解锁这些信息。本文将向您展示如何利用开源模型免费构建自定义解决方案!
文档人工智能(Document AI)涵盖了许多数据科学任务,包括图像分类、图像转文本、文档问答、表格问答和视觉问答。本文首先介绍了文档人工智能中的应用案例分类及相关的最佳开源模型。然后,文章重点讨论了许可证、数据准备和建模过程。在本文中,您会找到指向网络演示、文档和模型的链接。
应用案例
构建文档人工智能解决方案至少有六种常见的应用案例。这些应用案例在文档输入和输出的类型上有所不同。在解决企业文档人工智能问题时,通常需要综合多种方法。
使用DiT进行文档布局分析。
文档布局分析通常使用mAP(平均准确率)指标,该指标经常用于评估目标检测模型。布局分析的一个重要基准是PubLayNet数据集。LayoutLMv3是目前最先进的模型,在撰写本文时,其整体mAP得分为0.951(来源)。
下一步
您是否看到了文档人工智能的可能性?每天,我们与企业合作,利用最先进的视觉和语言模型来解锁有价值的数据。本文中包含了各种演示的链接,您可以以此作为起点。文章的最后一部分提供了一些资源,以便您开始编写自己的模型,例如视觉问答。当您准备好开始构建解决方案时,Hugging Face公共平台是一个很好的起点。它托管了大量的文档人工智能模型。
如果您希望加快文档人工智能的进展,Hugging Face可以提供帮助。通过我们的企业加速计划,我们与企业合作,为其提供关于人工智能应用案例的指导。对于文档人工智能来说,这可能涉及帮助构建一个预训练模型,在微调任务上提高准确性,或者提供关于解决第一个文档人工智能应用案例的总体指导。
我们还可以提供计算资源的捆绑,以便在规模上使用我们的训练(AutoTrain)或推理(Spaces或Inference Endpoints)产品。
资源
可以在以下位置找到许多文档人工智能模型的笔记本和教程:
- Niels的Transformers教程
- Philipp的使用Hugging Face Transformers进行文档人工智能