认识Verba:一个开源工具,用于构建您自己的RAG检索增强生成流水线并利用LLM进行基于内部的输出

认识Verba:一个开源工具,用于构建您自己的RAG检索增强生成流水线并利用LLM进行基于内部的输出 The condensed version is 了解Verba:一个开源工具,用于构建RAG检索增强生成流水线并利用LLM进行内部输出

Verba是一个开源项目,旨在为RAG应用提供简化、用户友好的界面。用户可以迅速深入数据,并开始进行相关的对话。

Verba不仅仅是一个关于数据查询和操作的工具,更像是一个伴侣。通过Weaviate和大型语言模型(LLM),Verba让文件比对、数字集合比较和对数据分析变得更加容易。Verba利用Weaviate先进的生成式搜索引擎,当进行搜索时,会自动从文档中提取所需的背景信息。它利用LLM的处理能力提供详尽、上下文感知的解决方案。Verba的简单布局使得检索所有这些信息变得容易。Verba的简单数据导入功能支持多种文件格式,如.txt、.md等。在将数据输入Weaviate之前,该技术会自动对数据进行分块和向量化处理,以更适合搜索和检索。

在使用Verba时,可以将Weaviate中的创建模块和混合搜索选项充分利用。这些复杂的搜索方法会扫描论文,寻找重要的上下文信息,然后由大型语言模型提供深入的回答。

为了提高未来搜索的速度,Verba将生成的结果和查询都嵌入到Weaviate的语义缓存中。在回答问题之前,Verba将在语义缓存中查找是否已经有类似的问题被回答过。

无论采用哪种部署方法,都需要一个OpenAI API密钥来启用数据输入和查询功能。将API密钥添加到系统环境变量中,或在克隆项目时创建一个.env文件。

Verba允许以不同的方式连接到Weaviate实例,具体取决于特定的用例。如果VERBA_URL和VERBA_API_KEY环境变量不存在,Verba将使用Weaviate Embedded。通过这种本地部署,可以最简单地启动Weaviate数据库用于原型设计和测试。

Verba提供了简单的指导说明,以便进一步处理数据。请注意,在继续之前,根据OpenAI访问密钥的配置,导入数据会产生费用。只有Verba会使用OpenAI模型。请注意,API密钥将收取使用这些模型的费用。数据嵌入和答案生成是主要的费用驱动因素。

您可以尝试访问https://verba.weaviate.io/。

Verba主要由三个部分组成:

  • 用户可以将他们的Weaviate数据库托管在Weaviate Cloud Service(WCS)或他们自己的服务器上。
  • 这个FastAPI端点在大型语言模型提供商和Weaviate数据存储之间进行中介。
  • React前端(通过FastAPI提供静态交付)为数据探索和操作提供了一个动态用户界面。开发。