RAG的未被揭示的一面:解析其在领域特定搜索中的挑战

RAG背后的秘密:剖析其在特定领域搜索中的挑战

使用混合搜索、层次排名和教师嵌入技术来解决与我们的RAG设置相关的领域特定文档的相似性问题。

生成式AI增强搜索技术(使用MidJourney生成的图像)

Carsales 是一家领先的汽车平台,服务于澳大利亚、智利、韩国和美国的汽车和生活方式市场。我们的目标是重新定义汽车购买和销售体验,建立无与伦比的标准。为此,我们至关重要的功能之一是一个综合的搜索工具,能够扫描成千上万篇与汽车相关的编辑文章。当前,我们已经集成了Google搜索——专门针对我们的编辑内容并通过iframe呈现的结果,虽然结果还不错,但主要依赖于词汇(关键字)关联,有时会错过搜索查询背后的真正意义或语义/含义。

使用现有的Google搜索结果

例如,“2020年丰田卡罗拉的气囊数量是多少?”的搜索结果将包含包括“丰田卡罗拉”和“气囊”等词汇的任何文章。然而,这些文章大多讨论的是气囊召回问题,而不是实际的气囊数量。从业务角度来说,我们迫切需要不仅在技术上改进这个工具,还要重新设计界面,使其更好地融入我们的网站,超越了仅在iframe中显示的谷歌搜索结果。

2023年7月,我们举办了一年两次的全球黑客马拉松之一。这个活动通常吸引来自各个部门的参与,团队组建,想法展示,在紧张的3天时间内,他们将这些想法转变为工作原型。随着大型语言模型(LLMs)的日益重要,我们确定了一个理想的项目来参加这次黑客马拉松:使用LLM改进我们的搜索工具。更重要的是,我们赢得了这次黑客马拉松!归功于我们非常出色的团队,他们在这方面付出了非常努力!

在本文中,我们将首先概述我们项目的基本概念。之后,我们将介绍我们的初步RAG方法。接下来,我们将重点介绍挑战…