认识PyGraft:一款开源的基于Python的人工智能工具,可以生成高度定制化的、与领域无关的模式和知识图谱

PyGraft是一款开源的Python人工智能工具,可生成高度定制化的领域无关模式和知识图谱

一种越来越受欢迎的表示数据的图结构的方法是使用知识图谱(KGs)。KG是一组三元组(s,p,o),其中s(主体)和o(对象)是两个图节点,而p是描述它们之间存在的连接类型的谓词。KG通常由模式(如本体论)支持,该模式概述了研究领域中的关键思想和关系,以及规定这些思想和关系如何相互作用的约束条件。许多使用KG的活动有一小部分KG已成为衡量模型性能的公认标准。

然而,仅使用这些特定的主流KG来判断新提出的模型是否可以推广存在一定问题。例如,已经显示主流数据集共享统计特性,特别是节点分类中的同质性。因此,一组具有可比统计特性的数据集用于评估新模型。因此,它们对性能提升的贡献只有在常见基准数据集之外时才是一致的。

类似地,已经证明现有的多个链接预测数据集存在数据偏差,并包含预测模型可以包含的大量推理模式,从而导致过于乐观的评估性能。因此,需要更多样化的数据集。为了在不同数据环境中测试新模型,给研究人员提供创建虚构但逼真的不同规模和属性的数据集机制十分关键。在某些应用领域中,无法公开访问KG比依赖于少数KG更糟糕。

在教育、执法或医学等领域进行研究非常具有挑战性。数据隐私问题可能使得实际知识收集和共享变得不可能。因此,在这些领域很难获得面向领域的KG。另一方面,工程师、从业者和研究人员通常对感兴趣问题的特征有具体的概念。在这种情况下,创建一个模拟真实KG特征的合成KG将是有益的。尽管这两个组成部分经常被独立处理,但上述问题促使多次尝试构建模式和KG的合成生成器。

可以通过基于随机的生成器生成领域中性的KG。尽管这些方法在快速生成大型图形方面非常有效,但数据生成的核心思想需要考虑底层结构。生成的KG可能不完全模拟所选应用领域中实际KG的特征。另一方面,基于模式的生成器可以创建模仿现实世界数据的KG。然而,据他们所知,大多数努力集中于使用已经存在的模式创建合成KG。合成模式和它所支持的KG的更具挑战性的挑战已经被考虑,但尚未取得完全成功。

他们希望在他们的研究中解决这个问题。来自洛林大学和法国雷阿尔大学的研究人员特别介绍了PyGraft,一种基于Python的工具,用于创建高度定制的、领域中性的模式和KG。以下是他们工作的贡献:据他们所知,PyGraft是唯一一个专门设计用于在新的流程中生成模式和KG的生成器,同时可以根据各种用户指定的标准进行高度调整。值得注意的是,创建的资源是领域中性的,因此无论应用领域如何,它们都适用于基准测试。所生成的模式和KG使用了扩展的RDFS和OWL元素,使用DL推理器来确保它们的逻辑一致性。这使得可以进行精细的资源描述并严格遵守常见的语义Web标准。他们公开发布了带有文档和附带示例的代码,以便于使用。