加利福尼亚大学伯克利分校的研究人员希望革新目标导向对话

加州大学伯克利分校的研究人员探索目标导向对话的创新方式

在一篇新的论文中,加州大学伯克利分校的研究人员希望通过利用强化学习来革新LLM模型的目标导向对话。我们在过去的一年中看到LLM在自然语言任务中已经证明了自己的实力,从文本摘要到代码生成。

但是,这些模型在目标导向对话中仍然存在困难。这一直是一个持续的挑战,特别是在个性化和简洁回答至关重要的场景下,比如充当熟练的旅行代理。

传统模型通常使用有监督的微调或单步RL进行训练。这可能导致它们在多次交互中无法实现最佳的对话结果。此外,在这些对话中处理不确定性也是一个重要的障碍。

在这篇论文中,团队展示了一种新的方法,将优化的零样本算法和想象引擎结合起来,生成多样且与任务相关的问题,对于有效地训练下游代理至关重要。

想象引擎无法独立生成有效的代理,它与LLM合作生成潜在的情境。为了进一步提高代理实现所需结果的效果,研究人员使用多步RL确定最优策略。

有趣的是,团队对模型的训练与常规的在线策略样本有所不同,利用离线基于值的RL从合成数据中学习策略,降低了计算成本。

为了验证他们的方法,研究人员在基于真实世界问题的两个目标导向对话中,对GPT代理和IE+RL进行了比较研究,利用人类评估员进行评估。

在IE中使用GPT-3.5型号进行合成数据生成,并将紧凑型的GPT-2型号作为下游代理,展示了他们方法的实用性,减小了计算开销。

到目前为止,实验结果毫无疑问地证明了所提出的代理相对于GPT模型在所有指标上的优越性,确保了对话结果的自然性。IE+RL代理通过生成智能制作的易答问题和相关的后续问题超过了其对应物。

在模拟场景中,虽然两个代理都表现出色,但定性评估更青睐IE+RL代理,强调其在实际应用中的效果。如果能够证明可扩展性,这种方法可能为零样本对话代理的未来增强提供前景,为与AI系统更复杂的交互铺平道路。