利用Protopia AI实现企业LLM加速的基础数据保护

借助Protopia AI实现企业LLM加速的基础数据保护

这篇文章是与Balaji Chandrasekaran,Jennifer Cwagenberg,Andrew Sansom和Protopia AI的Eiman Ebrahimi合作撰写的。

新而强大的大型语言模型(LLMs)正在迅速改变业务,提高企业各种用例的效率和效力。速度至关重要,采用LLM技术可以决定一个企业的竞争优势。AWS非常适合为企业提供部署大规模LLMs所需的工具,以支持关键决策。

在推广AI技术时,企业对于数据的暴露和机密信息的所有权真正关心。这些对于隐私和数据保护的担忧可能会减缓或限制组织中LLMs的使用。企业需要一种负责任且更安全的方式将敏感信息发送给模型,而不需要承担常常昂贵的本地DevOps开销。

本文介绍了如何通过部署Protopia AI的Stained Glass Transform来解决在使用LLMs时保留数据所有权和保护数据隐私的挑战。Protopia AI与AWS合作,提供数据保护和所有权的关键组件,以确保安全高效地推广生成式AI。本文概述了解决方案,并演示了如何在AWS上使用它来解决如Retrieval Augmented Generation(RAG)等热门企业用例,以及像Llama 2这样的最先进的LLMs。

Stained Glass Transform概览

组织希望保留对其敏感企业数据的完全所有权和控制权。这是负责任的人工智能的支柱,也是LLM供应商承诺基本安全和法律保证之上的新兴数据保护和隐私要求。

尽管企业业务部门希望利用LLMs执行各种任务,但他们也担心商业机密、知识产权和其他专有信息是否会通过发送给这些模型的数据泄漏。同时,企业的安全、合规、数据管理和信息部门担心将明文客户信息或其他受管制数据外传或泄漏给非企业部门。AWS和Protopia AI合作提供了解决这一普遍企业客户需求的关键组件。

Protopia AI的Stained Glass Transform (SGT)通过将未受保护的企业数据转换为随机重新表示的形式(称为RmoRed数据),解决了这些挑战,如下图所示。该表示是原始数据的随机嵌入,保留了目标LLM运行所需的信息,同时不暴露敏感提示或查询、上下文或调优数据。这种重新表示是一种无法逆转的单向转换,确保企业数据的综合隐私,并保护免泄漏明文敏感信息给LLMs。SGT的适用范围不仅限于语言模型,还可以为可视和结构化数据生成随机化再表示。Stained Glass Transform名称源于视觉数据的随机重新表示的视觉外观,可以类似于透过彩色玻璃观察数据,正如这个美国海军用例所示。

SGT适用于Llama 2等最先进的LLMs。下图显示了将SGT应用于Llama 2模型以进行指令跟随,并对指令和上下文添加一层保护的示例。图的左侧显示了一个财务文件作为上下文的示例,指令要求模型对文件进行摘要。左下方显示了当Llama 2在原始提示上操作时生成的响应。使用SGT时,与此提示相关联的嵌入在客户端端进行转换,变为随机嵌入,如本文后面更详细地描述。右下角显示了Llama 2仍然可以生成正确的响应,如果发送的是RmoRed数据(转换后的嵌入),而不是未受保护的嵌入。右上角显示,如果RmoRed数据泄漏,重构原始提示将导致不可理解的文本。

要为像Llama 2这样的给定模型创建SGT,Protopia AI提供了一个轻量级的库,称为Stained Glass SDK,它是PyTorch的扩展。如下图所示,在创建SGT后,可以以多种方式将其集成到部署管道中。从SDK创建的转换可以在本地部署,在混合设置中部署,或完全在云中部署。这是可能的,因为SGT被设计为一种轻量级进程,需要非常少的计算资源,并且对推断关键路径的影响很小。另一个关键的评估是使用重新表示数据来保留模型准确性。我们观察到,在使用重新表示数据时,不同数据类型和模型变化之间的准确性在可接受的容限范围内保持不变。

这些部署和保持准确性的选项使得企业组织内的所有利益相关方都可以自信地采用SGT。为了进一步保护LLM的输出,Protopia AI可以将查询输出编码为仅企业数据所有者可用的表示。

解决方案概述

前一部分介绍了如何在各种架构中使用Stained Glass Transform。下图详细介绍了创建、部署和使用LLM的SGT所涉及的步骤:

  • 创建SGT – 培训基线LLM基础模型的团队(专有LLM提供者、云服务提供商或创建自己的LLM的企业ML团队)运行Protopia AI的Stained Glass SDK软件,而不改变他们现有的训练和部署LLM的做法。完成基础模型训练后,SDK作为优化过程运行在语言模型上,计算SGT。这个优化过程通过对PyTorch的扩展来实现。SDK包装基础模型,并在数学上发现该LLM的唯一Stained Glass Transform。有关底层数学的更多细节可以在附带的白皮书中找到。需要注意的是,因为训练LLM的团队也在运行Stained Glass SDK,所以在完成此步骤时不需要暴露或发送模型权重。
  • SGT发布和部署 – 从前面的优化步骤中输出的SGT作为馈送训练LLM的数据管道的一部分部署。如前一部分所述,SGT位于企业客户端侧。
  • SGT使用 – SGT在企业创建的提示上运行,并生成受保护的提示,然后发送到部署的LLM。这使得企业可以保留对其敏感查询和上下文的所有权。使用Protopia AI Stained Glass,不受保护的敏感数据不会离开企业的站点或信任区域。

你可以使用Stained Glass SDK以多种方式创建SGT。例如,你可以在自管理的机器学习(ML)环境中使用Stained Glass SDK,配合使用Amazon Elastic Kubernetes Service(Amazon EKS)进行训练和推理,或直接在Amazon Elastic Compute Cloud(Amazon EC2)中使用。另一个选择是在Amazon SageMaker中运行,为给定训练模型创建SGT。在推断期间,从客户端变换输入与选择的部署实现无关。

下图示例了在自我管理的ML环境中在Amazon EKS上训练Stained Glass Transform的可能实现。

在这个工作流中,使用Stained Glass SDK创建一个容器,并将其部署到Amazon Elastic Container Registry(Amazon ECR)。然后将此容器部署到Amazon EKS上,以训练一个保存到Amazon Simple Storage Service(Amazon S3)的SGT。如果您使用的是Amazon EC2,您可以直接在您的实例上训练一个转换作为您的ML设置的一部分。Stained Glass SDK可以在各种实例类型上运行,包括基于您的基准LLM要求的Amazon P5、P4或G5实例系列。在将LLM部署用于推理后,客户端应用程序使用创建的SGT进行轻量级操作,在将提示和上下文发送给LLM之前对其进行转换。通过这样做,只有经过转换的数据暴露给LLM,原始输入的所有权保留在客户端。

下图演示了如何在SageMaker上训练转换并进行推理。

创建SGT的过程与Amazon EKS设置类似,通过从Amazon S3获取训练数据,在容器上训练SGT,并将其保存到Amazon S3。您可以在现有的SageMaker设置中使用Stained Glass SDK,包括Amazon SageMaker StudioSageMaker笔记本SageMaker训练作业。LLM作为SageMaker端点进行托管,并可被客户端应用程序访问。与Amazon EKS设置一样,客户端应用程序的推理也是相同的,只是提供模型的方式不同。

用随机重构保护LLM提示和微调数据

本节介绍了许多使用随机重构保护LLM提示的用例,这些示例阐述了企业生成式AI工作的重要影响:打开了新的AI用例,加快了上市速度,同时妥善保护企业数据,并保留了用于LLM提示的敏感数据的所有权。

RAG用例

LLM的一个常见企业用例是检索增强生成(RAG)。下图显示了一个示例,其中使用Stained Glass保护了提示和源信息。图的左侧显示了未受保护的提示和源信息。在RAG的企业实施中,源可以包括企业的商业机密、知识产权或财务信息等敏感信息。右侧显示了通过SGT创建的RmoRed提示的最佳可能文本重构。

我们可以观察到,即使在最佳可能的重构中,信息完全模糊化。然而,与和没有转换的情况下,模型的响应是相同的,指向原始源文档,从而在执行这个常见的企业用例时保持了问题和源文档的准确性。

广泛适用于LLM和语言

Stained Glass SDK的亮点之一是它对模型进展高度韧性,并可以适应最先进的模型,如Llama 2。下图显示了在之前针对日语文本进行了微调的Llama 2 LLM上创建的SGT。这个例子进一步说明了SGT可以为任何语言创建和应用,并且即使是针对微调模型的输入也可以进行转换。SGT的通用适用性是由于Stained Glass SDK具有模型和数据的鲁棒基础。

保护微调数据和提示

Stained Glass Transform不仅限于在推理时保护数据,它还可以保护用于微调基础模型的数据。创建用于微调数据集的转换的过程与本文前面所述的解决方案架构部分相同。为了对基础模型进行微调时创建转换,不会访问微调数据。在为基础模型创建和训练了SGT之后,微调数据集会被转换为随机重表示,然后用于微调基础模型。该过程在附带白皮书中有更详细的说明。

在以下示例中,一个企业客户需要对现有的网络日志异常检测模型进行微调。他们使用Stained Glass将敏感的微调数据集转换为随机嵌入,然后用于微调他们的基础模型。他们发现,在转换表示进行微调的检测模型的准确性几乎与在未经保护的微调数据集上微调基础模型的假设场景相同。下表显示了来自微调数据集的两个明文数据记录的示例以及来自微调数据集的相同数据记录的文本重构。

Stained Glass Transform在LLMs中的工作原理

当应用于计算机视觉时,SGT在输入像素特征上操作,在LLMs中,它在嵌入级别操作。为了突出Stained Glass Transform的工作原理,可以将提示嵌入视为矩阵,如下图左侧所示。在每个条目中,有一个确定性值。该值可以映射到原始数据,暴露出未受保护的提示。Stained Glass Transform将这个确定值的矩阵转换为元素为可能性云的矩阵。

通过从由SGT定义的概率分布中采样噪声并将采样的噪声添加到确定性嵌入中,转换后的提示被渲染,使原始提示值发生不可逆的随机化。模型仍然在数学层面上理解随机化的重表示提示,并能够准确执行任务。

结论

本文讨论了Protopia AI的Stained Glass Transform如何将原始数据的所有权和保护与ML操作过程分离,使企业能够在LLM提示和微调数据中保留所有权并保持敏感信息的隐私。通过使用这种先进的LLM使用数据保护,企业可以加快基础模型和LLM的采用速度,减少敏感信息的暴露风险。通过安全地释放真实企业数据中的价值,组织能够更高效、更快地实现LLM的承诺的效率和业务成果。要了解更多关于该技术的信息,请阅读附带白皮书,并联系Protopia AI以获取对企业数据的访问和尝试。

关于 Protopia AI

Protopia AI 是一家总部位于德克萨斯州奥斯汀的领先数据保护和隐私保护人工智能/机器学习技术公司,专注于使人工智能算法和软件平台能够在不需要访问明文信息的情况下运作。在过去的两年中,Protopia AI 已经成功地在美国海军、领先的金融服务机构和全球技术供应商等多种机器学习应用和数据类型中展示了其旗舰产品 Stained Glass Transform 的优秀性能。

Protopia AI 与企业、生成式人工智能和 LLM 供应商以及云服务提供商 (CSP) 合作,以实现在使用人工智能/机器学习解决方案时保持企业数据所有权和保密性。Protopia AI 与 AWS 合作,为企业采用生成式人工智能提供了数据保护和所有权的关键组成部分,并且是 2023 年首届 AWS 生成式人工智能加速器 中被选中的 21 家初创企业之一。