企业知识图谱在LLMs中的作用
企业知识图谱在LLM课程中的重要作用' (Qiye zhishitu pu zai LLM kecheng zhong de zhongyao zuoyong)
介绍
大型语言模型(LLMs)和生成式人工智能是人工智能和自然语言处理领域的变革性突破。它们能够理解和生成人类语言,并能够产生文本、图像、音频和合成数据等内容,使其在各种应用中具有高度的多功能性。生成式人工智能在现实应用中具有极大的重要性,通过自动化和增强内容创建、个性化用户体验、简化工作流程和促进创造力,生成式人工智能可以显著提升应用价值。在本篇文章中,我们将重点介绍企业如何通过有效使用企业知识图谱来与开放式LLMs集成。
学习目标
- 在与LLMs/生成式人工智能系统交互时,了解基于Grounding和Prompt构建的知识。
- 了解Grounding的企业相关性,以及与开放式生成式人工智能系统集成的商业价值,举例说明。
- 在各个方面分析两个主要的Grounding竞争解决方案:知识图谱和向量存储,了解何时使用哪种方案。
- 研究一个个性化推荐客户场景中的企业Grounding和Prompt构建的示例设计,利用知识图谱、学习数据建模和Java图模型。
本文发表为“数据科学博文马拉松”的一部分。
什么是大型语言模型?
大型语言模型是利用深度学习技术在大量文本/非结构化数据上进行训练的先进人工智能模型。这些模型能够与人类语言交互,生成类似人类的文本、图像和音频,执行各种自然语言处理任务。
相比之下,语言模型的定义是基于对文本语料库进行分析,为词序列赋予概率。语言模型可以是简单的n-gram模型,也可以是更复杂的神经网络模型。然而,“大型语言模型”这个术语通常指的是使用深度学习技术,并拥有庞大参数量的模型,其参数数量可以从数百万到数十亿不等。这些模型可以捕捉语言中的复杂模式,并产生与人类写作的文本常常无法区分的文本。
什么是Prompt?
对于任何LLM或类似的聊天机器人人工智能系统来说,Prompt是您提供的文本输入或消息,用于开始对话或与人工智能的交互。LLMs具有多功能性,经过大量的大数据训练,并可用于各种任务;因此,Prompt的上下文、范围、质量和清晰度对您从LLM系统中获得的响应产生重要影响。
什么是Grounding/RAG?
在自然语言LLM处理的语境中,Grounding(也称为检索增强生成,RAG)是指将Prompt丰富化,提供上下文、附加元数据和范围,以改进和检索更贴合和准确的响应。这种连接有助于人工智能系统理解并解释数据,使其与所需的范围和上下文相一致。LLM的研究表明,其响应质量取决于Prompt的质量。
Grounding在人工智能中是一个基本概念,它弥合了原始数据和人工智能处理和解释数据的能力之间的差距,使得其一致性地与人类理解和范围上下文相一致。它提高了人工智能系统的质量和可靠性,使其能够提供准确和有用的信息或响应。
LLMs的缺点有哪些?
大型语言模型(LLMs)如GPT-3在各种应用中引起了很大的关注和使用,但它们也存在一些缺点。LLM的一些主要缺点包括:
1. 偏见和公平性:LLMs往往会因为训练数据的偏见而受到偏见。这可能导致生成具有偏见或歧视性的内容,从而强化有害的刻板印象并延续现有的偏见。
2. 产生幻觉:LLMs实际上并不真正理解它们生成的内容;它们是基于训练数据中的模式生成文本。这意味着它们可能会生成事实不正确或毫无意义的信息,使其不适用于医学诊断或法律咨询等关键应用场景。
3. 计算资源:训练和运行LLMs需要大量的计算资源,包括像GPU和TPU这样的专用硬件。这使得它们的开发和维护成本很高。
4. 数据隐私与安全:LLMs能够生成令人信服的伪造内容,包括文本、图片和音频。这增加了数据隐私和安全的风险,因为它们可以被利用来创建欺诈性内容或冒充个人。
5. 伦理关切:在深度伪造或自动化内容生成等各种应用中使用LLMs引发了有关其潜在滥用和对社会影响的伦理问题。
6. 监管挑战:LLM技术的快速发展已超过了监管框架,这使得建立适当的指导方针和规定以应对与LLMs相关的潜在风险和挑战变得具有挑战性。
值得注意的是,许多这些缺点并不是LLMs固有的特点,而是反映了它们的开发、部署和使用方式。正在进行努力来减轻这些缺点,并使LLMs对社会更负责任和有益的方面发展。在这里,地基和掩饰可以发挥作用,并对企业有巨大优势。
地基的企业关联性
企业努力将大型语言模型(LLMs)引入其关键任务应用中。他们了解LLMs在各个领域都可能带来的潜在价值。建立LLMs、预训练和微调对他们来说非常昂贵且麻烦。相反,他们可以使用行业中提供的带有企业用例的地基和掩饰的开放AI系统。
因此,对于企业而言,地基是一个主要考虑因素,对他们来说在提高回应质量以及克服妄想、数据安全和合规方面更加相关和有益,因为它可以从市场上可用的开放LLMs中提供惊人的商业价值,并解决他们今天面临的众多自动化挑战。
企业的益处
为企业实施地基与LLMs具有以下几个益处:
1. 增强的可信度:通过确保LLMs生成的信息和内容基于经过验证的数据来源,企业可以提高其沟通、报告和内容的可信度。这有助于与客户、客户和利益相关者建立信任。
2. 改进的决策:在企业应用中,特别是涉及数据分析和决策支持的应用中,使用具有数据地基的LLMs可以提供更可靠的洞察力。这可以导致更明智的决策,这对于战略规划和业务增长至关重要。
3. 合规性:许多行业都受到数据准确性和合规性的法规要求的约束。使用LLMs进行数据地基可以帮助满足这些合规性标准,降低法律或监管问题的风险。
4. 优质内容生成:LLMs通常用于内容创建,例如市场营销、客户支持和产品描述。数据地基可以确保生成的内容具有事实准确性,降低传播虚假或误导信息或妄想的风险。
5. 减少错误信息:在虚假新闻和错误信息泛滥的时代,数据地基可以帮助企业通过确保其生成或分享的内容基于经过验证的数据来源来应对虚假信息的传播。
6. 客户满意度:为客户提供准确可靠的信息可以提高他们对企业产品或服务的满意度和信任。
7. 风险减轻:数据地基可以帮助减少基于不准确或不完整信息做出的决策的风险,这可能会导致财务或声誉损失。
示例:客户产品推荐场景
让我们看看数据地基如何帮助企业应用案例使用openAI chatGPT
基本提示
在推荐给客户的产品上添加优惠券的简短电子邮件
ChatGPT生成的响应非常通用,没有上下文,也比较原始。这需要手动更新/映射正确的企业客户数据,这是昂贵的。让我们看看如何通过数据接地技术自动化处理这个问题。
假设企业已经拥有企业客户数据和能够为客户生成优惠券和推荐的智能推荐系统;通过使用正确的元数据丰富以上提示,我们完全可以对其进行接地,从而生成的电子邮件文本与我们期望的完全相同,并且可以自动发送给客户,无需手动干预。
假设我们的接地引擎将从客户数据中获取正确的丰富元数据并更新以下提示。让我们看看接地后ChatGPT的响应会是怎样的。
接地的提示
为Taylor客户添加以下优惠券和产品,向他表示来自Aatagona团队的假日问候,Atagona.com冬季男士夹克- [https://atagona.com/men/winter/jackets/123.html] - 20% off牛仔帽男士- [https://atagona.com/men/winter/beanies/1234.html] - 15% off
通过接地的提示生成的响应正是企业希望通知客户的方式。将丰富的客户数据嵌入到来自Gen AI的邮件响应中是一个值得扩展和维持企业的自动化过程。
软件系统的企业LLM接地解决方案
在企业系统中有多种方式可以对数据进行接地,可以结合使用这些技术来实现针对特定使用案例的有效数据接地和提示生成。对于实现检索增强生成(接地)的潜在解决方案,主要有以下两种:
- 应用数据|知识图谱
- 向量嵌入和语义搜索
使用这些解决方案取决于具体的使用案例和您希望应用的接地方式。例如,提供响应的向量存储可能不准确和模糊,而知识图谱将返回精确、准确且以人类可读格式存储的结果。
另外,可以在上述解决方案之上结合以下一些策略:
- 链接到外部API、搜索引擎
- 数据遮蔽和合规性遵循系统
- 与内部数据存储、系统集成
- 实时统一来自多个来源的数据
在本博客中,让我们来看一个关于如何使用企业应用程序数据图设计的示例。
企业知识图谱
知识图谱可以表示各种实体和它们之间的关系的语义信息。在企业世界中,它们存储有关客户、产品等的知识。企业客户图谱将是一个有效地接地数据和生成丰富提示的强大工具。知识图谱可以进行基于图的搜索,允许用户通过链接的概念和实体探索信息,从而可以获得更精确和多样化的搜索结果。
与向量数据库的比较
选择接地解决方案将根据具体的使用案例而定。然而,相比于向量,图具有多个优势,例如:
高级设计
让我们在一个非常高的层次上看一下企业使用知识图谱和开放LLM进行接地的系统可能是什么样子的。
基础层是企业客户数据和元数据存储在各种数据库、数据仓库和数据湖中。可以有一个服务来构建这些数据的知识图谱,并将其存储在图形数据库中。在分布式云原生的世界中,可以有许多企业服务|微服务与这些数据存储进行交互。在这些服务之上可以有各种应用程序,利用底层的基础设施。
应用程序可以有许多用例,将AI嵌入到其场景或智能自动化的客户流程中,这需要与内部和外部AI系统进行互动。对于生成式AI场景,让我们以一个简单的工作流为例,在该工作流中,企业希望在假日季节通过电子邮件向客户提供一些个性化推荐产品的折扣。他们可以通过充分利用AI来实现这一目标,并实现自动化。
工作流程
- 想要发送电子邮件的工作流程可以通过发送一个带有客户上下文数据的基础提示来借助开放的Gen-AI系统。
- 工作流应用程序将向其后端服务发送请求,以获取使用GenAI系统来提供电子邮件文本。
- 后端服务将将服务路由到一个提示生成器服务,该服务又将其路由到一个接地引擎。
- 接地引擎从其服务之一中获取所有客户元数据,并检索客户数据知识图。
- 接地引擎遍历图中的节点和相关关系,提取所需的最终信息,并将其发送回提示生成器。
- 提示生成器将接地数据与预先存在的用例模板相结合,并将接地提示发送到企业选择与之集成的开放AI系统(例如OpenAI/Cohere)。
- 开放的GenAI系统以更相关和上下文化的方式向企业返回响应,通过电子邮件发送给客户。
让我们将其拆分为两个部分,详细了解:
1. 生成客户知识图
下面的设计适用于上面的示例,建模可以根据需求以不同的方式进行。
数据建模:假设我们有各种以图形节点模型化的表格,并将表格之间的关联作为节点之间的关系。对于上面的示例,我们需要
- 一个包含客户数据的表格,
- 一个包含产品数据的表格,
- 一个包含用于个性化推荐的客户兴趣(点击)数据的表格
- 一个包含产品折扣数据的表格
将这些数据与多个数据源进行摄取并定期更新以有效地与客户联系,这是企业的责任。
让我们看看这些表格可以如何进行建模,并将它们转换为客户图。
2. 图形建模
从上面的图形可视化工具中,我们可以看到如何根据他们的点击参与数据,将客户节点与各种产品相关联,进而与折扣节点相关联。接地服务很容易查询这些客户图形,通过关系遍历这些节点,获取与相应客户有关的符合条件的折扣信息。
对于上述情况,以下是样本图形节点和关系JAVA POJO的示例
public class KnowledgeGraphNode implements Serializable { private final GraphNodeType graphNodeType; private final GraphNode nodeMetadata;}public interface GraphNode {}public class CustomerGraphNode implements GraphNode { private final String name; private final String customerId; private final String phone; private final String emailId;}public class ClicksGraphNode implements GraphNode { private final String customerId; private final int clicksCount;}public class ProductGraphNode implements GraphNode { private final String productId; private final String name; private final String category; private final String description; private final int price;}public class ProductDiscountNode implements GraphNode { private final String discountCouponId; private final int clicksCount; private final String category; private final int discountPercent; private final DateTime startDate; private final DateTime endDate;}
public class KnowledgeGraphRelationship implements Serializable { private final RelationshipCardinality cardinality;}public enum RelationshipCardinality { ONE_TO_ONE, ONE_TO_MANY}
在这种情况下,样本原始图形可能如下所示
通过从客户节点“Taylor Williams”遍历图形,我们可以解决问题并获取正确的产品推荐和符合条件的折扣。
3. 行业中受欢迎的图形存储
市场上有许多适合企业架构的图形存储可供选择。Neo4j、TigerGraph、Amazon Neptune和OrientDB被广泛采用作为图形数据库。
我们引入了图形数据湖的新范式,它可以在表格数据(湖、仓库和湖屋中的结构化数据)上进行图形查询。这是通过下面列出的新解决方案实现的,无需在图形数据存储中注水或持久化数据,利用零ETL。
- PuppyGraph(图形数据湖)
- Timbr.ai
合规性和伦理考虑
数据保护:企业必须负责存储和使用符合GDPR和其他PII合规要求的客户数据。处理和重新使用数据之前,存储的数据需要进行管理和清洗,以获取洞察力或应用人工智能。
幻觉与协调:企业还可以添加协调服务,以识别数据中的错误信息,追溯查询的路径并对其进行更正,这有助于提高LLM的准确性。使用知识图形时,由于存储的数据是透明的并且可读性强,这应该相对容易实现。
限制性保留政策:为了遵守数据保护要求并防止在与开放的LLM系统互动时滥用客户数据,零保留政策非常重要,这样企业与之互动的外部系统就不会出于任何进一步的分析或业务目的保留请求的提示数据。
结论
总之,大型语言模型(LLMs)代表了人工智能和自然语言处理方面的重大进步。它们可以改变各个行业和应用程序,从自然语言理解和生成到辅助复杂任务。然而,LLMs的成功和负责任的使用需要在各个关键领域建立坚实的基础。
主要要点
- 企业在使用LLMs处理各种情况时可以受益良多。
- 知识图形和向量存储是流行的基础解决方案,选择哪个方案取决于解决方案的目的。
- 知识图形可以提供比向量存储更准确可靠的信息,为企业用例提供了优势,无需添加额外的安全和合规层面。
- 将传统的实体关系数据建模转化为具有节点和边缘的知识图形。
- 与现有的大数据存储企业整合企业知识图形与各种数据源。
- 知识图形非常适合进行分析查询。图形数据湖实现了在企业数据存储中将表格数据查询为图形的功能。
常见问题
本文中显示的媒体不归Analytics Vidhya所有,仅由作者自行决定使用。