打通可靠代数通过验证链-在速成工程中跳跃一下
打通可靠代数验证链-在速成工程中跨越一步
关键要点
- 思路链 (CoVe) 提示工程方法旨在减少 LM 产生似是而非的虚构信息的问题,解决了生成似乎合理但是事实不正确的信息的难题
- 通过四个步骤,CoVe 使 LM 能够起草、验证和完善回答,促进了一种自我验证机制,提高了准确性,即结构化自我验证
- CoVe 在包括基于列表的问题和长篇文本生成等诸多任务中展现出改善性能,显示了其减少虚构信息和增强 AI 生成文本正确性的潜力
我们研究了语言模型在回答问题时进行思考来纠正错误的能力。
介绍
在人工智能 (AI) 领域中,对于准确性和可靠性的不懈追求催生出了提示工程领域的突破性技术。这些技术在引导生成模型提供精确和有意义的响应方面发挥了关键作用。最近出现的 Chain-of-Verification (CoVe) 方法在这一追求中标志着一个重要的里程碑。这种创新技术旨在解决大型语言模型 (LLM) 中一个臭名昭著的问题——产生似是而非的虚构信息,俗称幻觉。通过使模型能够思考其回答并经历自我验证的过程,CoVe 为提高生成文本的可信度树立了一个有前景的先例。
拥有根据大量文档处理和生成文本能力的 LLM 生态系统,在各种任务中展现出了卓越的造诣。然而,一个令人担忧的问题仍然存在——容易在关于较为不知名或罕见的主题上生成幻觉信息。链式验证方法在这些挑战中显露出一线希望,并提供了一种结构化方法来最小化幻觉,提高生成的回答的准确性。
理解 Chain-of-Verification
CoVe 提出了一个四步机制来减少 LLM 中的幻觉:
- 起草初始回答
- 计划验证问题以核查起草
- 独立回答这些问题以避免偏见
- 根据答案生成最终验证的回答
这种系统化的方法不仅解决了幻觉问题,还包含了一种自我验证的过程,提升了生成文本的正确性。该方法的有效性在各种任务中得到了验证,包括基于列表的问题、闭卷问答和长篇文本生成,显示出幻觉减少和性能提升的趋势。
应用 Chain-of-Verification
采用 CoVe 方法意味着将其四步流程融入到 LLM 工作流程中。例如,在生成一个历史事件列表的任务中,应用 CoVe 的 LLM 首先起草一个回答,然后计划验证问题对每个事件进行核实,独立回答这些问题,最后根据接收到的验证生成一个验证过的列表。
CoVe 的严格验证过程确保了生成回答的更高准确性和可靠性。这种对验证的纪律性方法不仅丰富了信息的质量,还在 AI 生成过程中培养了一种负责任的文化,标志着朝着更可靠的 AI 生成文本目标迈出了重要一步。
示例 1
- 问题:列举 20 世纪的重要发明。
- 初始草稿:互联网、量子力学、DNA 结构发现
- 验证问题:互联网是在 20 世纪发明的吗?量子力学是在 20 世纪发展起来的吗?DNA 结构是在 20 世纪发现的吗?
- 最终验证回答:互联网、青霉素发现、DNA 结构发现
示例 2
- 问题:提供一个非洲国家名单。
- 初始草稿:尼日利亚、埃塞俄比亚、埃及、南非、苏丹
- 验证问题:尼日利亚在非洲吗?埃塞俄比亚在非洲吗?埃及在非洲吗?南非在非洲吗?苏丹在非洲吗?
- 最终验证回答:尼日利亚、埃塞俄比亚、埃及、南非、苏丹
采用CoVe需要将其四步骤流程整合到LLMs的工作流程中。例如,当被要求生成一系列历史事件列表时,采用CoVe的LLM首先会起草一个回答,并计划验证问题以核实每个事件,然后独立回答这些问题,最后根据收到的验证生成一个经验证的列表。
该方法需要在问题和示例的上下文中提供示例,或者可以通过对CoVe示例进行微调来对每个问题采用这种方式进行处理,如果需要的话。
结论
验证链方法的出现证明了在快速工程方面取得的可靠和准确的AI生成文本的进展。通过直面幻觉问题,CoVe提供了一个提升LLM生成信息质量的强大解决方案。该方法的结构化方法,结合其自我验证机制,代表了朝着促进更可靠和真实的AI生成过程迈出的重大一步。
CoVe的实施呼唤从业者和研究人员继续探索和改进提示工程技术。拥抱这种创新方法将在释放大语言模型的全部潜力方面发挥重要作用,承诺未来AI生成文本的可靠性不仅仅是一个愿望,而是现实。
****[Matthew Mayo](https://www.kdnuggets.com/wp-content/uploads/./profile-pic.jpg)**** (@mattmayo13)