你的LLM流程是否达到你的目标?

LLM流程达目标?

探索在您的LLM流程中评估什么最重要以及如何衡量它。

AI照片来自Piret Ilver在Unsplash上

有效实施LLM流程所需的关键要素之一是评估流程的有效性。也就是说,您需要评估最终输出,即不仅仅是LLM本身或提示,还包括LLM、提示以及温度、最小和最大标记等设置之间的交互产生的产品。

考虑一下访问GPT API的样板代码(自动生成):

import osimport openaiopenai.api_key = os.getenv("OPENAI_API_KEY")response = openai.ChatCompletion.create(  model="gpt-3.5-turbo",  messages=[],  temperature=1,  max_tokens=256,  top_p=1,  frequency_penalty=0,  presence_penalty=0)

在创建“response”的函数中有七个参数,每个参数都会改变最终的输出。能够选择这些输出的最佳组合取决于能够评估和区分由这些参数的不同值产生的输出。

这与LLM评估的问题有所不同,LLM评估最常见于论文或LLM制造商的网站上。尽管您可能正在使用一个能够通过法律考试或类似测试的LLM,但这并不意味着您创建的流程和您选择的设置将一定以您所需的方式概括一系列法律文件。

当您为外部用户构建流程时,情况就特别复杂了,因此无法即时调整提示。例如,假设您想使用LLM API嵌入LLM解决方案,并使用基本提示骨架生成特定项目的描述,例如目录中的物品。有两个层次需要考虑适用性:

首先,您生成的答案是否符合目的?

其次,您能否依赖于未来迭代中继续适用的答案?

从某种意义上说,第一个问题可以通过独立查看一个或多个答案来评估。如果您认为它们合适,那么您就可以通过。然而,要评估长期可靠性…