用定制镜头构建良好的 IDP 解决方案-可持续性(第六部分)

定制镜头:打造优质的个人发展计划解决方案-可持续性探讨(第六部分)

智能文件处理(IDP)项目通常将光学字符识别(OCR)和自然语言处理(NLP)结合起来,自动读取和理解文件。各行各业的客户在AWS上运行IDP工作负载,通过自动化KYC表单、税务文件、发票、保险索赔、交付报告、库存报告等用例,提供业务价值。在AWS上使用IDP工作流程可以帮助您从文档中提取业务洞察,减少手动工作量,更快、更准确地处理文档。

在云中构建一个适合生产的IDP解决方案需要在成本、可用性、处理速度和可持续性之间权衡。本文提供了使用Amazon TextractAmazon ComprehendIDP Well-Architected Custom Lens提高IDP工作流程可持续性的指导和最佳实践。

AWS Well-Architected Framework帮助您了解在AWS上构建工作负载时所做决策的益处和风险。AWS Well-Architected Custom Lenses通过提供更多行业、领域或工作流程特定的内容,补充了Well-Architected Framework的工具。通过使用Well-Architected Framework和IDP Well-Architected Custom Lens,您将了解在云中设计和运行可靠、安全、高效、具有成本效益和可持续性的工作负载的操作和架构最佳实践。

IDP Well-Architected Custom Lens提供了关于如何解决字段中常见的IDP工作流程挑战的指导。通过在Well-Architected Tool中回答一系列问题,您将能够识别潜在风险,并通过执行改进计划来解决这些风险。

本文重点介绍IDP自定义镜头中的可持续性支柱。可持续性支柱着重于通过以下设计原则来设计和实施解决方案,以最小化工作负载对环境的影响和减少浪费:理解您的影响、最大化资源利用和使用托管服务,预测变化并准备改进。这些原则将帮助您保持专注,深入关注以下重点领域:以可持续性为理念实现业务结果,有效管理数据及其生命周期,并准备和推动持续改进。

设计原则

可持续性支柱通过以下设计原则来设计和实施解决方案:

  • 了解您的影响 – 评估您的IDP工作负载的可持续性影响,并对其未来影响进行建模。包括所有影响来源,包括客户对您产品的使用影响。这还包括IDP的影响,该影响使数字化成为可能,使贵公司或客户能够完成无纸化流程。为您的IDP工作负载建立关键绩效指标(KPI),以评估提高生产力和效率、同时减少环境影响的方法。
  • 最大化资源利用和使用托管服务 – 最小化闲置资源、处理和存储,以减少运行IDP工作负载所需的总能量。AWS采用规模化操作,因此在广泛的客户群体之间共享服务有助于最大化资源利用率,最大限度提高能源效率,并减少支持IDP工作负载所需的基础设施量。通过使用AWS托管服务,您可以最大程度地减少IDP工作负载对计算、网络和存储的影响。
  • 预测变化并准备改进 – 预测变化,支持合作伙伴和供应商所做的上游改进,以帮助您减少IDP工作负载的影响。持续监控和评估新的、更高效的硬件和软件产品。设计灵活性以降低引入变化的障碍,允许快速采用新的高效率技术。

关注领域

可持续性支柱的设计原则和最佳实践基于我们的客户和IDP技术专家社区收集的见解。您可以将它们作为指导,支持您的设计决策,并使您的IDP解决方案与您的业务和可持续性要求相一致。

IDP云解决方案的可持续性关注领域包括:以可持续性为导向实现业务结果,有效管理数据及其生命周期,并准备并推动持续改进。

以可持续性为导向实现业务结果

为了确定最适合您业务需求和可持续性目标的地区,我们建议采取以下步骤:

  • 评估和筛选潜在地区 – 根据您的业务需求(包括合规性、成本和延迟等),筛选出适用于您工作负载的潜在地区。新服务和功能逐步部署到各个地区。请参考AWS可用地区的服务清单,查看哪些地区拥有您运行IDP工作负载所需的服务和功能。
  • 选择100%可再生能源驱动的地区 – 在您的筛选列表中,选择靠近亚马逊可再生能源项目的地区,并选择在2022年消耗的电力来自100%可再生能源的地区。根据温室气体(GHG)协议,跟踪电力生产的排放有两种方法:基于市场和基于位置。公司可以根据可持续性政策选择其中一种方法,以便逐年跟踪和比较其排放量。亚马逊使用基于市场的模型报告我们的排放量。为了减少碳足迹,请选择2022年消耗的电力来自100%可再生能源的地区。

有效管理数据及其生命周期

数据在整个IDP解决方案中起着关键作用。从初始数据摄入开始,数据将通过各个处理阶段,最终返回给终端用户。了解数据管理选择将如何影响整个IDP解决方案及其可持续性非常重要。高效存储和访问数据,以及减少闲置存储资源,可以实现更高效和可持续的架构。在考虑不同的存储机制时,需要权衡资源效率、访问延迟和可靠性之间的权衡。这意味着您需要相应地选择管理模式。在本节中,我们讨论了一些数据管理的最佳实践。

仅创建和摄入相关数据

为了优化可持续性的存储占用空间,评估哪些数据需要满足您的业务目标,并在IDP工作流程中仅创建和摄入相关数据。

仅存储相关数据

在设计IDP工作流程时,考虑每个步骤中需要存储哪些中间数据输出。在大多数IDP工作流程中,不需要存储每个中间步骤中使用或创建的数据,因为它们可以很容易地被重现。为了提高可持续性,请仅存储不易重现的数据。如果需要存储中间结果,请考虑它们是否符合生命周期规则,以便比具有更严格保留要求的数据更快地对其进行存档和删除。

保留跨开发和暂存等计算环境的数据。实施强制执行数据生命周期管理流程的机制,包括存档和删除,并持续识别未使用的数据并进行删除。

为了优化数据摄入和存储,考虑满足用例的最佳数据分辨率。Amazon Textract要求至少150 DPI。如果您的文档不是支持的Amazon Textract格式(PDF、TIFF、JPEG和PNG),并且您需要进行转换,请进行实验以找到最佳分辨率以获得最佳结果,而不是选择最高分辨率。

使用正确的技术来存储数据

对于IDP工作流程,大部分数据很可能是文档。 Amazon Simple Storage Service(Amazon S3)是一种用于存储和检索数据的对象存储,适用于IDP工作流程。使用不同的Amazon S3存储层是优化存储可持续性的关键组成部分

在考虑不同的存储机制时,要记住您在资源效率、访问延迟和可靠性之间进行权衡。这意味着您需要相应地选择管理模式。通过将不太易失的数据存储在专为高效长期存储而设计的技术上,您可以优化存储占用。用于存档数据或存储变化缓慢的数据,可以使用Amazon S3 Glacier和Amazon S3 Glacier深度存档。根据数据分类和工作流程的不同,您可以选择将数据存储在单个可用区内以减少电力和服务器容量的Amazon S3 One Zone-IA中。

根据可持续性目标主动管理数据生命周期

管理数据生命周期意味着优化存储占用。对于IDP工作流程,请首先确定数据保留要求。根据您的保留要求,创建Amazon S3生命周期配置,根据预定义的规则自动将对象转移到不同的存储类别。对于没有保留要求和未知或变化的访问模式的数据,可以使用Amazon S3智能分层来监视访问模式并自动在层之间移动对象。

使用正确的工具持续优化存储占用

随着时间推移,您的IDP工作流程中的数据使用和访问模式可能会发生变化。诸如Amazon S3存储镜像之类的工具可以提供存储使用情况和活动趋势的可见性,并针对改进提出建议。您可以使用这些信息进一步降低存储数据的环境影响。

启用数据和计算的近距离接触

随着您的IDP工作流程面向更多客户,通过网络传输的数据量将增加。同样,数据的大小越大,数据包要传输的距离越远,传输所需的资源就越多。

减少通过网络传输的数据量,优化数据包的传输路径将带来更高效的数据传输。将数据存储在数据处理附近有助于优化网络层的可持续性。确保用于存储数据的区域与您部署IDP工作流程的区域相同。这种方法有助于最大限度地减少将数据传输到计算环境的时间和成本。

做好准备并推动持续改进

改进IDP工作流程的可持续性是一个持续的过程,需要灵活的架构和自动化来支持更小、更频繁的改进。当您的架构是松耦合的,并且使用无服务器和托管服务时,您可以轻松启用新功能,改进可持续性并获得性能效益。在本节中,我们分享一些最佳实践。

通过自动化安全而持续地改进

使用自动化部署所有更改可以减少人为错误的可能性,并使您能够在进行生产更改之前进行测试,以确保您的计划完备。使用持续集成和持续交付(CI/CD)流水线自动化软件交付流程,以测试和部署潜在的改进,减少工作量,并减少由手动流程引起的错误。使用基础架构即代码(IaC)定义更改:所有配置都应以声明方式定义,并存储在像AWS CodeCommit这样的源代码控制系统中,就像应用程序代码一样。基础设施供应、编排和部署也应支持IaC。

使用无服务器服务进行工作流编排

IDP工作流通常具有高峰期和不活动期(例如在营业时间之外),并且主要由事件驱动(例如当上传新文档时)。这使它们非常适合无服务器解决方案。AWS无服务器服务可以帮助您快速、可持续地构建可扩展的IDP工作流解决方案。诸如AWS LambdaAWS Step FunctionsAmazon EventBridge等服务有助于按事件驱动和最小化空闲资源的方式编排工作流程,以改善可持续性。

使用事件驱动架构

使用AWS无服务器服务来实现事件驱动的方法,可以帮助您构建可扩展、容错的IDP工作流,并将空闲资源降至最低。你可以配置Amazon S3,在上传新文档时启动新的工作流程。Amazon S3可以触发EventBridge或调用Lambda函数启动Amazon Textract检测作业。您可以使用Amazon Simple Notification Service(Amazon SNS)主题来进行事件扩散或发送作业完成消息。您还可以使用Amazon Simple Queue Service(Amazon SQS)实现可靠和持久的微服务之间的通信,例如调用Lambda函数读取Amazon Textract的输出,然后调用自定义的Amazon Comprehend分类器对文档进行分类。

使用像Amazon Textract和Amazon Comprehend这样的托管服务

你可以使用自托管的自定义模型或Amazon Textract和Amazon Comprehend等托管服务来进行IDP。通过使用托管服务而不是自定义模型,您可以减少开发、训练和重新训练自定义模型所需的工作量。托管服务使用共享资源,减少了构建和维护IDP解决方案所需的能量,提高了可持续性。

查看AWS博客文章以了解功能更新

有许多博客文章和资源可帮助您掌握AWS的最新公告,并了解可能改进您的IDP工作负载的新功能。AWS re:Post是一个社区驱动的问答服务,旨在帮助AWS客户消除技术障碍,加速创新和提高运营水平。AWS re:Post拥有超过40个主题,其中包括一个专门用于AWS Well-Architected的社区。AWS还有针对特定服务的博客文章,帮助您了解Amazon Textract和Amazon Comprehend的最新信息。

结论

在本文中,我们分享了优化IDP工作流的设计原则、关注领域和最佳实践。要了解更多关于云中可持续性的知识,请参阅以下系列文章:优化您的AWS基础设施的可持续性,第一部分:计算第二部分:存储第三部分:网络

要了解有关IDP Well-Architected Custom Lens的更多信息,请在本系列的以下文章中探索:

可靠性](https://aws.amazon.com/blogs/machine-learning/build-well-architected-idp-solutions-with-a-custom-lens-part-3-reliability/) – 使用自定义视角构建良好架构的IDP解决方案 – 第4部分:性能效率使用自定义视角构建良好架构的IDP解决方案 – 第5部分:成本优化 – 使用自定义视角构建良好架构的IDP解决方案 – 第6部分:可持续性

AWS 致力于将 IDP Well-Architected Lens 作为一个活跃的工具。随着 IDP 解决方案和相关 AWS AI 服务的不断发展,以及新的 AWS 服务的推出,我们将相应地更新 IDP Well-Architected Lens。

要开始在 AWS 上使用 IDP,请参考 AWS 上智能文档处理的指导 来设计和构建您的 IDP 应用程序。如需深入了解从数据摄取、分类、提取、丰富、验证和验证,到消费的端到端解决方案,请参考 AWS AI 服务的智能文档处理:第一部分第二部分。此外,使用 Amazon Textract、Amazon Bedrock 和 LangChain 的智能文档处理 介绍了如何使用大型语言模型(LLM)扩展新的或现有的 IDP 架构。您将学习如何将 Amazon Textract 与 LangChain 集成为文档加载器,使用 Amazon Bedrock 从文档中提取数据,以及在各个 IDP 阶段内使用生成式 AI 功能。

如果您需要额外的专家指导,请联系您的 AWS 账户团队,以获取 IDP 专家解决方案架构师的支持。