“嵌入式相似性搜索:数据分析领域的革命性变革”

一场革命性变革:嵌入式相似性搜索在数据分析领域的引领

自从OpenAI迅速崛起至创新的前沿,包括AWS、Google、IBM、Microsoft、Databricks、Meta或Oracle等许多科技巨头都将自己的生成式AI方法融入到其研发项目中。

这就是为什么 Oracle 在其年度CloudWorld会议上宣布将生成式AI能力添加到其云数据分析服务中的原因。

“生成式AI。可能是最重要的技术吗?很有可能。” — Larry Ellison,Oracle首席技术官和联合创始人。

Oracle已将生成式AI功能添加到其云 数据分析 服务中。其目标是吸收各种格式的文档,存储它们,并根据其含义进行检索。为了实现这一目标,Oracle采用了一种将文档整合为嵌入式向量的方法。

“矢量相似性搜索使用机器学习将文本、图像或音频的相似性转化为矢量空间,使搜索更快、更精确、更可扩展。” — Martin Heller — 博士,物理学 — 布朗大学

嵌入

在文本分析的上下文中,“嵌入式相似性搜索”用于找到与给定查询或输入文本的含义最相似的文本文档或段落。

嵌入将文本中的单词表示为向量。在NLP和LLMs领域中,这些先进的技术使系统能够更有效地使用(有些人可能会说“理解”)文本内容。

矢量数据库不会跟踪单词,而是使用编码文本含义的数值向量进行操作。同样,用户查询也被转换为数值向量。这就是数据库可以搜索相关文章或段落的原理,无论它们是否包含相同的术语。

在自然语言处理领域,将文本转化为数值向量并进行相似性搜索的过程起着关键作用。以下是向量表示和相关文档检索背后的基本概念和技术概述。

  1. 向量表示:文本文档必须使用词嵌入等技术转换为数值向量。每个单词或文档在高维空间中表示为向量。在某种程度上,词嵌入是一种形式的词表示,有助于弥合人类对语言理解与机器对语言理解之间的差距。
  2. 查询向量:输入的查询文本也使用相同的整合技术转换为向量。这个查询向量表示查询的含义或内容。矢量数据库经过优化,可以在大规模数据集中进行高速相似性搜索。它们通过利用独特的数据索引和查询技术有效地处理矢量数据,并显著减少搜索空间,从而加快检索过程。矢量数据库能够有效地管理复杂的数据结构。
  3. 相似性搜索:系统然后搜索其他文本文档,这些文本文档本身表示为向量,以找到与查询向量最相似的文本。在大型语言模型(LLMs)和生成式AI的背景下,矢量相似性搜索的作用是识别大型复杂数据集中相似的项目或数据点,特别是在处理高维空间时非常重要。传统的搜索方法可能会遇到困难,但通过将文本和数据转化为数值向量并利用专门的算法,矢量相似性搜索简化了查找相关信息的过程。
  4. 检索相关文档:与查询向量最接近的文档或段落被视为最相关的文档,并作为搜索结果返回。这种方法使文本分析系统能够找到不包含与查询完全相同的单词,但具有相似语义含义的文档或段落。这是信息检索和自然语言理解的有力工具。

为什么这个重要性超越了性能方面?

值得记住的是,使用生成式AI技术必须伴随着持续的监控和对负责任使用和道德思考的承诺。为了避免潜在的问题和错误,这些技术必须谨慎使用。

数据质量

训练数据的质量对嵌入和相似性搜索的有效性有着重要影响。嘈杂或有偏见的数据可能导致不准确的结果。在分享信息之前,确保信息质量尤为重要,特别是在健康、金融或安全等领域。

隐私

在使用LLMs时,避免泄露敏感的个人或公司信息,因为这可能会危及个人或公司的隐私。三次泄露事件曾发生在三星公司内,其中员工共享了机密信息。首先,有人将源代码复制到ChatGPT中以解决问题。然后,有人分享了代码优化的细节。最后,另一个人将一个会议报告转换为ChatGPT创建演示文稿。

可扩展性

将这些技术扩展到处理非常大的数据集和所需的计算资源可能会成为一个真正的限制。无论是考虑成本还是碳足迹。

语义理解

尽管嵌入捕捉到了一定程度的语义含义,但它并不总能完全捕捉到人类语言的上下文或细微差别。

隐私和伦理

在人工智能中使用嵌入和相似性搜索的伦理考虑,如对隐私的关注和搜索结果中的潜在偏见。

“通过观察它们的大小和颜色,可以区分鸡蛋和牛蛋;牛蛋通常比鸡蛋大。” – ChatGPT

限制不正确信息(又名幻觉)的传播

生成式人工智能可能产生错误或误导性信息。在分享信息之前,检查信息的真实性是至关重要的。事实上,所谓的“幻觉”现象涉及到LLM的整个不准确性范围。这可能涉及到提供荒诞的参考或引用,对“牛蛋”等古怪主题进行自信的论述,完全虚构的事实或历史人物,不恰当地混合概念或信息等等。

我不建议盲目接受无监督生成的信息,特别是在健康、金融、安全或决策领域等重要上下文中使用。

尽管Yann Lecun认为在不完全重设计底层模型的情况下无法解决这个问题,但一种混合技术和方法的组合可以减少这些问题的影响,并使它们在许多用例中可接受。但这将是另一篇独立文章的主题。

结论

嵌入是文本分析中的一种技术,将单词转换为数字向量,使其能够对具有相似含义的文档进行高效的相似性搜索。该方法在LLMs和生成式人工智能中起着重要作用,使它们能够在高维数据集中找到相关的数据点,提高信息检索和自然语言理解能力。

Oracle已经在其云数据分析服务中实施了这种创新方法,以改进文档搜索。

现在,找到相关数据比分辨鸡蛋和牛蛋更容易了 😉