图表、分析和生成AI:图表通讯的一年
图表、分析与AI生成:图表通讯一年盘点
一个专注于知识图谱、图数据库、图分析和图人工智能的通讯是否需要一个生成的人工智能前导语呢?通常情况下是不需要的。然而,生成的人工智能对本期包含的项目的影响是不可忽视的。这有一个简单的解释。
自从ChatGPT发布以来,生成的人工智能就在主流中扩展。尽管在技术性能和准确性以及商业可靠性方面记录相对不稳定,但是不可否认的是,生成的人工智能已经引起了全球高管的关注。
自ChatGPT首次亮相以来,在收益电话中提到“生成的人工智能”的次数激增,从2022年第四季度的28次上升到2023年第三季度的2081次,增长了74倍。由于大部分企业在他们的人工智能之旅中处于早期阶段,高管们感到在生成的人工智能热潮中应有所行动。
这意味着生成的人工智能有着巨大的关注度。Forrester预计,2023年产生生成的人工智能的用户数量将根据年增长36%,仅在美国就有超过1亿人将在明年使用生成的人工智能。因此,供应商正寻求相应地定位他们的产品。
正确发挥作用,这可以不只是一个营销策略。图和生成的人工智能之间存在相互补充的方式,可以实现带有知识丰富的生成的人工智能的负责任企业决策。
RAG代表检索增强生成。这是一种技术,可以使ChatGPT等大型语言模型根据特定的背景知识来上下文化其处理。这为专有数据提供了一个对话界面,使LLM适用于需要此功能的业务场景。
RAG是近一年来对矢量数据库兴趣激增的主要原因。就像所有的机器学习模型一样,LLM使用矢量进行工作。因此,为RAG存储信息并将其提供给LLM的矢量数据库似乎是一个合理的选择。然而,这并不是唯一的选择。事实上,就像Damien Benveniste等人所主张的,在RAG方面,图数据库可能是更好的选择。
使用图,可以提取文本中不同实体之间的关系,并将其用于构建文本中包含的信息的知识库。LLM擅长提取这种三元组信息:[实体A] -> [关系] -> [实体B]
信息解析后,可以存储在图数据库中。存储的信息是知识库,而不是原始文本。对于信息检索,LLM需要提出与问题相关的实体查询,以检索相关的实体和关系。与矢量数据库相比,检索到的信息更加简洁明了。
RAG是对微调LLM的一种替代方法,似乎要求没有那么高,而且可以立即应用。而且,数据管理供应商可以在公司中实现整合LLM的繁重工作,这是一种双赢的局面:高管们可以勾选他们的生成人工智能方框,供应商则可以扩大他们的提供范围,并抓住潮流并保持客户满意。
这就是为什么我们看到图数据库供应商将矢量能力纳入其产品中的原因。Neo4j在2023年8月开始在其产品中加入了矢量能力。这个想法是将两者的优点结合起来,作为Neo4j的新任首席产品官Sudhir Hasbe在2023年7月宣布的路线图的一部分。
Neo4j 和亚马逊 Neptune 似乎一直走在相似的轨迹上。这两个供应商在最近几个月推出的另一项新功能是新的分析引擎,利用并行性提高图分析处理的速度,满足以前未被充分满足的场景。
正如Hasbe分享的,对于 Neo4j 的新分析引擎来说,典型的例子是遍历大部分图数据的分析查询。并行运行时专门设计用于处理这些分析查询。
新的 Neptune Analytics 引擎针对三种用例进行了优化。首先是短暂的分析。这些工作流程是指客户只需快速启动一个图形,运行一些分析,然后关闭它。
其次是低延迟的分析查询。这涉及使用特征表进行实时预测的已建立的机器学习管道。第三个用例是构建 GenAI 应用程序。在 Neptune 分析中存储嵌入时能够执行向量相似性搜索意味着更容易将自然语言问题转化为图查询。
为了为他们的新分析引擎提供动力,两个团队似乎都借鉴了高性能计算(HPC)的技术。Neo4j 的实施直接受到研究论文 “Morsel-Driven Parallelism: A NUMA-Aware Query Evaluation Framework for the Many-Core Age” 的启发。
虽然我们没有关于亚马逊 Neptune 实施的具体指示,但亚马逊 Neptune 总经理 Brad Bebee 承认存在某些相似之处。两个团队都面向广泛的图形客户和图形用例。
两个团队都有成员熟悉来自大规模图形处理的文献和技术。并行处理和内存优化技术是高性能计算社区中被充分理解的事物。
尽管 Neo4j 和亚马逊在图数据库领域已经建立了良好的地位,但在这个领域以外还有很多行动。大多数供应商正致力于在生成式人工智能领域定位自己,或者将会话接口添加到他们的产品中。
但这并不意味着生成式人工智能是这个领域的全部内容 – 还有其他用例。新的图数据库市场参与者 Aerospike Graph 旨在处理大规模的复杂问题。
Aerospike 最初是一个键值存储。随后,其初始产品扩展包括文档模型(JSON)以及通过 Starburst 的 SQL 接口。图形则是下一个步骤,据报道是基于客户需求。
为 Aerospike Graph 构建了一个团队,其中包括 Apache TinkerPop 创始人 Marko Rodriguez 和项目的关键贡献者。他们帮助 Aerospike 创建了一个与核心引擎进行交互的图层,以一种在共享无关架构中水平扩展的方式。
巧合的是,仅仅在 Aerospike Graph 正式发布几天后,另一个与之具有相似配置的数据库供应商宣布退出图数据库市场。
2019年,Redis 推出了自己的图数据库,声称出于类似的原因:他们想要提供性能和可扩展性。2023年,他们放弃了 RedisGraph,原因是:
“许多分析师报告预测图数据库将呈指数增长。然而,根据我们的经验,公司通常需要帮助开发基于图数据库的软件。这需要很多新的技术技能,如图数据建模、查询组合和查询优化。与任何技术一样,图数据库也有其限制和缺点。
这种学习曲线是陡峭的。概念验证可能比预计时间长得多,成功率相对于其他数据库模型来说可能很低。对于客户和他们的开发团队来说,这通常意味着沮丧。对于像 Redis 这样的数据库供应商来说,这意味着总的售前(以及售后)投资与其他数据库模型相比非常高。”
范围和构建知识图谱
构建知识图谱被认为是一个巨大而可怕的项目,正如Mike Dillinger 指出的。但这种看法主要来自认为知识图谱必须庞大的软件工程师。
技术组织中饱受工程经理们的思想(或期望)支配,他们认为工程师们可以做任何事情。而产品经理们对知识图谱也了解甚少,无法用能让经理和工程师们理解和接受的方式来构建知识图谱。
结果导致组织无法实施关键但不熟悉的技术,例如知识图谱。与广为人称的假设相反,迪林格(Dillinger)补充道,创建和维护知识图谱并不是一个本质上的手动过程,即使质量管理需要专家审查。他分享了一些辅助知识图谱创建的最新研究成果。
在过去几个月中,辅助知识图谱的创建受到了 renewed attention,这要归功于生成式人工智能趋势的推动。这是有充分理由的。正如Rahul Nayak演示的那样,LLM可以帮助将任何文本转化为概念图。
引起了很多关注的一个努力是 MechGPT,这是一个专门用于构建知识图谱的语言模型。MechGPT首先将文本分解为小块,然后将每个块馈送给通用型LLM,以生成概括关键概念的问答对。
- 额外附加 1:Yejin Choi与Bill Gates的对话,由Jesús Barrasa总结。LLM(神奇而不透明/次符号)与知识图谱(显式/符号)的结合是前进的道路。
- 额外附加 2:Peter Lawrence的文章,使用本体提供的LLM来从非结构化文件中提取知识图谱。
“本体”是什么?对于熟悉知识图谱的人来说,这似乎是一个微不足道的问题,但正如Kurt Cagle所展示的那样,事实并非如此。Cagle将本体定义为一组集合在一个命名图内部建立数据形状的架构。其他人可能有不同的定义。
Holger Knublauch写道,在知识图谱领域,本体是一个定义类和属性的领域模型。类是图中的实体(实例)的类型,属性是它们之间的属性和关系。本体定义了图的结构,并允许工具更好地理解它们。
无论如何,似乎对于使用SHACL(SHApes Constraint Language)进行本体建模的理念出现了趋同。在SHACL引入之前,知识图谱验证大多是手动的,或者依赖于OWL(Web Ontology Language)限制。然而,OWL限制往往令人费解。
Knublauch在他的SHACL教程之后,继续写了关于合格基数约束的第二部分,以及关于基于SPARQL的约束的第三部分。Radostin Nanov也撰写了一个关于SHACL的三部分指南。Ivo Velitchkov和Veronika Heimsbakk维护着关于SHACL的维基百科。
- 奖励曲目1:本体标准景观。本报告呈现了一系列与ICT领域和垂直领域高度相关的本体,考虑了它们的成熟度、重要性和适应性,用于表示语义Web中的链接数据。本体也可以为可解释的AI做出贡献。
- 奖励曲目2和3:任意SPARQL和SPARQL Wiki。
DeepMind一直是图形AI的先驱之一。在过去的几个月里,DeepMind在几个具有高影响力的用例中分享了更多关于他们使用图形AI的细节。
在一篇发表在Science上的论文中,DeepMind介绍了GraphCast,这是一种最先进的AI模型,能够以前所未有的准确性进行VoAGI范围的天气预报。GraphCast比行业黄金标准的天气模拟系统更准确且速度更快地预测未来10天的天气条件。
GraphCast是一种基于机器学习和图神经网络(GNNs)的天气预报系统,对处理空间结构化数据特别有用。DeepMind已经开源了GraphCast的模型代码,使得全球的科学家和预报员可以在日常生活中造福数十亿人。
DeepMind GNoME是一个基于GNN的系统,发现了220万个新的晶体结构,其中包括约38万个稳定结构。新颖的功能材料可以在从清洁能源到信息处理的技术应用中实现基本突破。在大规模训练的图神经网络的帮助下,材料发现的效率提高了一个数量级。
- 奖励曲目:组合优化与图神经网络的推理。这是对这一新兴领域最近的关键进展的概念性回顾,面向优化和机器学习研究人员,作者是DeepMind的Petar Veličković等人。
基于图的数据在企业和行业垂直中无处不在,并且在机器学习用例中越来越需要。尽管图技术已经可用,但与关系数据库相比,使用得还不如广泛。尽管如此,由于AI应用的好处,知识图实践的兴趣最近有所增长,因为可以利用图和语言模型的优势。
一个常见的担忧是,图形数据以较低级别表示,这往往会使查询变得更加复杂和昂贵。除了可视化之外,目前很少有机制可以从不同层次的细节上理解知识图。也就是说,我们如何以更抽象、整体的角度处理图形数据?
虽然我们可以对图形数据运行查询来计算聚合度量,但我们没有编程手段“缩小”以考虑大型图形,就像使用在线地图时缩小一样。这使得企业应用程序(定义上必须处理大规模系统的固有多尺度性质)在利用AI应用方面处于明显劣势。
Paco Nathan展示了有关图形层次缩略抽象的相关方法的调查,并指出了未来的研究方向。
图形和大型语言模型研究
最后是关于将图形与大型语言模型结合的各个方面的研究集合。Paco Nathan还在这里列出了一些将图形机器学习与语言模型结合的研究工作。
IEEE的研究人员提出了将大型语言模型和知识图统一的路线图。他们的路线图包括三个一般框架:增强知识图的大型语言模型,增强大型语言模型的知识图,以及协同作用的大型语言模型+知识图。参见前面的YotG问题。
同样地,香港科技大学(广州)、香港中文大学和清华大学的研究人员提出了图与大型语言模型相逢的调查。他们提出了一个分类法,将现有的方法根据语言模型在图相关任务中的角色(即增强器、预测器和对齐组件)分为三个类别。
瑞士苏黎世联邦理工学院、Cledar和华沙理工大学的研究人员引入了思维之图(GoT):这是一个推动大型语言模型(LLMs)提示能力的框架,超越了诸如思维链或思维树(ToT)等范式所提供的能力。Tony Seale总结了这种方法。
Michael Galkin等人介绍了ULTRA,一种单一的预训练推理模型用于知识图谱推理。ULTRA可以推广到任意实体和关系词汇的新知识图谱,这是任何知识图谱推理问题的默认解决方案。Monash和Griffith的研究人员提出了图上推理(RoG)的方法,将LLMs与知识图谱结合起来,实现忠实和可解释的推理。
来自业内包括学术界、数据库公司和行业分析公司(如Gartner)的专家数量不断增加,他们认为知识图谱是改善LLM响应准确性的手段。为了评估这一观点,data.world的研究人员提出了一个新的基准,检验知识图谱对企业LLM响应准确性的积极影响。
该基准通过将LLM生成的答案与通过存储在SQL数据库中的知识图谱支持的答案进行比较。研究结果表明,在每个测试类别中,知识图谱支持的响应的准确性有了显著改善。
A*Net是一个可扩展、归纳和可解释的基于路径的知识图谱图神经网络。它可以通过为ChatGPT提供知识图谱推理工具,使其在事实上更加准确。它是开源的,并与ChatGPT整合在一起。
Google Research提出了像图一样说话:将图编码为大型语言模型的一部分。这是对将图结构化数据编码为LLMs可消费的文本的全面研究。
Jure Leskovac等人提出了一种直接在分布在多个表中的数据上进行学习的端到端深度学习方法,称为关系深度学习。核心思想是将关系表视为异构图,每个表中的每一行都有一个节点,由主外键关系指定边缘。