“通过Amazon SageMaker Canvas生成AI,赋予您的企业用户从公司文档中提取洞察力的能力”
通过Amazon SageMaker Canvas,让您的企业用户从公司文档中获得洞察力的AI能力
企业追求利用机器学习(ML)的潜力来解决复杂问题并提高结果。直到最近,建立和部署ML模型需要深层次的技术和编码能力,包括调整ML模型和维护运营流程。自从2021年推出以来,Amazon SageMaker Canvas使商业分析师能够构建、部署和使用各种ML模型-包括表格、计算机视觉和自然语言处理-无需编写一行代码。这加速了企业应用ML到时间序列预测、客户流失预测、情感分析、工业缺陷检测等用例的能力。
正如在2023年10月5日宣布的那样,SageMaker Canvas将其对模型的支持扩展到基础模型(FMs)-用于生成和总结内容的大型语言模型。随着2023年10月12日的发布,SageMaker Canvas让用户提问并获得根据企业数据有根据的回答。这确保结果是特定于上下文的,打开了更多使用无代码ML解决业务问题的用例。例如,业务团队现在可以制定与组织特定词汇和原则一致的回答,并可以更快地查询长篇文档以获得特定和与文档内容相关的回答。所有这些内容都以私密和安全的方式进行,确保所有敏感数据在适当的管理和保护下进行访问。
要开始使用,云管理员配置和填充Amazon Kendra索引作为SageMaker Canvas的企业数据来源。Canvas用户选择其文档所在的索引,并可以进行构思、研究和探索,知道输出始终有他们的真实数据支持。SageMaker Canvas使用来自Amazon Bedrock和Amazon SageMaker JumpStart的最先进的FMs。可以同时启动与多个FMs的对话,比较输出结果,真正使生成式AI对每个人都可访问。
在本文中,我们将回顾最近发布的功能,讨论架构,并提供一步一步的指南,以启用SageMaker Canvas从知识库中查询文档,如下图所示。
解决方案概述
基础模型可能产生幻觉-即通用、含糊、无关或事实不正确的回答。检索增强生成(RAG)是一种经常使用的减少幻觉的方法。RAG架构用于从FM之外检索数据,然后用于执行上下文学习以回答用户的查询。这确保FM可以使用来自可信知识库的数据,并将该知识用于回答用户的问题,降低幻觉的风险。
使用RAG,用于增强用户提示的FM之外的数据可以来自多个不同的数据源,例如文档存储库、数据库或API。第一步是将您的文档和任何用户查询转换为兼容的格式,以执行相关语义搜索。为了使格式兼容,将文档集合或知识库和用户提交的查询转换为使用嵌入模型的数值表示。
通过此版本,RAG功能以无代码和无缝的方式提供。企业可以通过Amazon Kendra作为基础知识管理系统来丰富Canvas中的聊天体验。下图说明了解决方案架构。
将SageMaker Canvas与Amazon Kendra连接需要进行一次设置。我们在设置Canvas进行文档查询中详细描述了设置过程。如果您还没有设置SageMaker域,请参考Onboard to Amazon SageMaker Domain。
作为域配置的一部分,云管理员可以选择一个或多个业务分析师可以在SageMaker Canvas上与FM进行交互时查询的Kendra索引。
在Kendra索引加载和配置完成后,业务分析师使用SageMaker Canvas与它们一起启动新的聊天,并选择“查询文档”切换。然后,SageMaker Canvas将管理Amazon Kendra和所选FM之间的基础通信,执行以下操作:
- 使用来自用户的问题查询Kendra索引。
- 从Kendra索引中检索摘要(和来源)。
- 使用摘要和原始查询构建提示,以便基础模型可以从检索到的文档中生成答案。
- 向用户提供生成的答案,以及用于构建响应的页面/文档的引用。
设置Canvas进行文档查询
在本部分中,我们将指导您完成设置Canvas以通过Kendra索引查询文档的步骤。您应具备以下先决条件:
- SageMaker域设置 – Onboard to Amazon SageMaker Domain
- 创建一个Kendra索引(或多个)
- 设置Kendra Amazon S3连接器 – 参考Amazon S3连接器 – 并将PDF文件和其他文档上传到与Kendra索引相关联的Amazon S3存储桶
- 设置IAM,使Canvas具有适当的权限,包括调用Amazon Bedrock和/或SageMaker终端节点所需的权限 – 参考设置Canvas聊天文档
现在,您可以更新Domain,以便可以访问所需的索引。在SageMaker控制台上,选择指定域下的Domain Settings选项卡下的Edit。在Canvas Settings步骤中启用“启用使用Amazon Kendra查询文档”切换按钮。一旦激活,选择要在Canvas中使用的一个或多个Kendra索引。
这就是配置Canvas查询文档功能所需的全部步骤。用户现在可以通过Canvas中的聊天进入会话,并开始使用通过Kendra索引附加到域的知识库。知识库的维护者可以继续更新源数据,并通过Kendra的同步功能,聊天用户将自动以流畅的方式使用最新的信息。
在聊天中使用查询文档功能
作为SageMaker Canvas用户,可以从聊天内访问“查询文档”功能。要启动聊天会话,请点击SageMaker Canvas中“生成、提取和摘要内容”标签页下的“按钮进行搜索”。
在此处,您可以打开和关闭屏幕顶部的“查询文档”切换按钮。查看提示信息以了解有关此功能的更多信息。
当启用查询文档时,您可以从云管理员启用的Kendra索引列表中进行选择。
您可以在开始新聊天时选择索引。然后,您可以在UX中提问,所选索引中的知识将自动被提取。请注意,在对特定索引开始对话后,无法切换到另一个索引。
对于提出的问题,聊天将显示由FM生成的答案,以及为生成答案做出贡献的源文件。单击任何源文件时,Canvas会打开文件的预览,并突出显示FM使用的摘录部分。
结论
会话式AI具有巨大的潜力,通过提供类似人类的助手,实现自然而直观的互动,例如:
- 在主题上进行研究或搜索和浏览组织的知识库
- 总结大量内容以快速获取见解
- 搜索实体、情感、PII和其他有用的数据,并增加非结构化内容的业务价值
- 为文件和业务通信生成草稿
- 从不同的内部来源(事件、聊天记录、维基百科)创建知识文章
聊天界面、知识检索和FM的创新整合使企业能够利用其领域知识和真实数据,为用户提供准确、相关的答案。
通过将SageMaker Canvas连接到Amazon Kendra的知识库,组织可以将专有数据保留在自己的环境中,同时仍然从FM的最新自然语言能力中受益。通过SageMaker Canvas的查询文档功能的推出,我们使任何企业都可以使用LLMs和其企业知识作为真实数据源,从而实现安全聊天体验。所有这些功能都以无代码格式提供,使企业能够避免处理重复和非专业化的任务。
要了解有关SageMaker Canvas以及如何帮助所有人更容易开始进行机器学习的更多信息,请查看SageMaker Canvas公告。通过阅读构建、共享和部署文章,了解有关SageMaker Canvas如何促进数据科学家和业务分析师之间的合作。最后,要了解如何创建您自己的检索增强生成工作流程,请参考SageMaker JumpStart RAG。
参考资料
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.