LLMs与知识图谱

LLMs and Knowledge Graphs

什么是LLMs?

大型语言模型(LLMs)是能够理解和生成人类语言的人工智能工具。它们是具有数十亿参数的强大神经网络,经过大量文本数据的训练。这些模型的广泛训练使它们对人类语言的结构和含义有深入的理解。

LLMs可以执行各种语言任务,如翻译、情感分析、聊天机器人对话等。LLMs可以理解复杂的文本信息,识别实体及其关系,并生成保持连贯性和语法正确性的文本。

什么是知识图谱?

知识图谱是表示和连接不同实体的数据和信息的数据库。它由表示任何对象、人物或地点的节点以及定义节点之间关系的边组成。这使得机器能够理解实体之间的关系,共享属性,并在我们周围的世界中建立不同事物之间的联系。

知识图谱可以用于各种应用,如YouTube上的推荐视频、保险欺诈检测、零售产品推荐和预测建模。

来源:https://arxiv.org/pdf/2306.08302.pdf | 知识图谱示例。

LLMs和知识图谱

LLMs的一个主要局限性是它们是“黑盒子”,即很难理解它们是如何得出结论的。此外,它们经常难以理解和检索事实信息,这可能导致错误和不准确,也被称为幻觉。

这就是知识图谱可以帮助LLMs的地方,它们为LLMs提供外部知识进行推理。然而,知识图谱的构建很困难,并且是不断发展的。因此,将LLMs和知识图谱结合使用,以充分发挥它们的优势是一个好主意。

可以使用三种方法将LLMs与知识图谱(KGs)结合使用:

  1. 增强型知识图谱LLMs:在训练期间将KGs集成到LLMs中,以提高理解能力。
  2. LLM增强型知识图谱:LLMs可以提高各种KG任务,如嵌入式、完成和问答。
  3. 协同作用的LLMs + KGs:LLMs和KGs共同工作,通过数据和知识驱动的双向推理来增强彼此。

增强型知识图谱LLMs

LLMs以其从大量文本数据中学习的能力在各种语言任务中表现出色。然而,它们因生成不正确的信息(幻觉)和缺乏可解释性而受到批评。研究人员提出使用知识图谱(KGs)增强LLMs以解决这些问题。

知识图谱存储结构化知识,可以用于提高LLMs的理解能力。一些方法在LLM预训练期间集成KGs,帮助获取知识,而其他方法在推理过程中使用KGs,以增强领域特定知识的访问。KGs还用于解释LLMs的推理和事实,以提高透明度。

来源:https://arxiv.org/pdf/2306.08302.pdf

增强型知识图谱 LLM

知识图谱(KG)存储了对于现实世界应用至关重要的结构化信息。然而,当前的KG方法面临着不完整数据和KG构建中的文本处理等挑战。研究人员正在探索如何利用LLMs的多功能性来解决与KG相关的任务。

一种常见的方法是将LLMs用作KG的文本处理器。LLMs分析KG中的文本数据并增强KG的表示。一些研究还利用LLMs处理原始文本数据,提取关系和实体以构建KG。最近的努力旨在创建使LLMs能够理解结构化KG的提示。这使得LLMs可以直接应用于KG完成和推理等任务。

来源:https://arxiv.org/pdf/2306.08302.pdf
来源:https://arxiv.org/pdf/2306.08302.pdf

增强型 LLMs + KGs

由于LLMs和KGs的互补性,研究人员对将它们结合起来越来越感兴趣。为了探索这种整合,提出了一个统一的框架,称为“增强型 LLMs + KGs”,由四个层次组成:数据、增强模型、技术和应用。

LLMs处理文本数据,KGs处理结构化数据,而通过多模态LLMs和KGs,该框架可以扩展到其他数据类型,如视频和音频。这些层次共同合作,增强能力并提高各种应用程序(如搜索引擎、推荐系统和AI助手)的性能。

来源:https://arxiv.org/pdf/2306.08302.pdf

LLMs和知识图谱的一些应用

多跳问题回答

通常,当我们使用LLMs从文档中检索信息时,我们将其分成块,然后将其转换为向量嵌入。使用这种方法,我们可能无法找到跨多个文档的信息。这就是所谓的多跳问题回答的问题。

可以通过使用知识图谱来解决此问题。我们可以通过分别处理每个文档并在知识图谱中连接它们来构建信息的结构化表示。这使得更容易在连接的文档之间移动和探索,从而能够回答需要多个步骤的复杂问题。

来源:https://neo4j.com/developer-blog/knowledge-graphs-llms-multi-hop-question-answering/

在上面的例子中,如果我们希望LLM回答问题“OpenAI的任何前员工是否开始了自己的公司?”,LLM可能会返回一些重复的信息或者忽略其他相关信息。从文本中提取实体和关系来构建知识图,可以使LLM轻松回答跨多个文档的问题。

将文本数据与知识图结合

使用知识图与LLM结合的另一个优势是,通过使用前者,我们可以同时存储结构化和非结构化数据,并通过关系将它们连接起来。这使得信息检索变得更容易。

来源:https://neo4j.com/developer-blog/knowledge-graphs-llms-multi-hop-question-answering/

在上面的例子中,使用知识图来存储了以下内容:

  • 结构化数据:OpenAI的前员工及其创办的公司。
  • 非结构化数据:提及OpenAI及其员工的新闻文章。

通过这种设置,我们可以回答诸如“Prosper Robotics创始人的最新新闻是什么?”这样的问题,从Prosper Robotics节点开始,转到它的创始人,然后检索有关他们的最近文章。

这种适应性使其适用于各种LLM应用,因为它可以处理各种数据类型和实体之间的关系。图形结构提供了知识的清晰可视化表示,使开发人员和用户更容易理解和处理。

结论

研究人员越来越多地探索LLM和KG之间的协同作用,主要有三种方法:增强型KG-LLM,LLM增强型KG和协同LLM+KG。这些方法旨在利用两种技术的优势来解决各种与语言和知识相关的任务。

LLM和KG的整合为多跳问题回答、结合文本和结构化数据以及增强透明度和可解释性等应用提供了有前景的可能性。随着技术的进步,LLM和KG之间的这种协作有潜力推动搜索引擎、推荐系统和人工智能助手等领域的创新,最终使用户和开发人员受益。