这篇AI研究提出了FireAct:一种新颖的人工智能方法,利用来自多个任务和代理方法的轨迹来微调语言模型

火动行为:一种新颖的AI方法,利用多任务和代理方法的轨迹微调语言模型

微调语言模型通常被忽视,用于创建语言代理,特别关注通过使用Google搜索API来增强它们在问答任务中的能力。System2 Research、剑桥大学、莫纳什大学和普林斯顿大学的研究人员表明,微调主干语言模型始终可以提升这些代理的性能。他们的研究介绍了一种名为“FireAct”的微调方法,该方法结合了来自多个任务和提示方法的轨迹,强调了多样化微调数据对优化语言代理的重要性。

他们的研究深入探讨了语言代理和预训练语言模型的微调之间的交叉点。尽管之前的研究已经分别探讨过语言代理和微调,但这项研究填补了这一差距。FireAct是一种用于语言代理的微调方法,系统地研究了微调语言模型对这些代理的优势和后果。他们的调查包括对扩展效果、稳健性、泛化能力、效率和成本影响的考察,为这一新兴领域提供了有价值的见解。

他们的方法通过引入一种系统化的微调语言模型(LMs)方法来解决提高语言代理效果的需求。现有的语言代理依赖基本LMs和有限的提示技术,导致性能和稳健性受限。实验结果表明,微调LMs可以显著提升代理性能,减少推理时间,提高稳健性,为实际应用提供了一个有希望的途径。

他们的研究探讨了微调LMs用于语言代理,特别是在使用Google搜索API进行问答(QA)方面。实验着重于LMs、数据规模和微调方法,并使用HotpotQA EM等指标评估性能。他们的方法证明了微调在性能改善、效率、稳健性和泛化能力方面相对于传统提示方法的优势。

对语言代理进行LMs微调可以显著提升性能,使用Llama2-7B和来自GPT-4的500个代理轨迹,HotpotQA性能提升77%。CoT方法可以提高答案质量。混合代理方法可以一致地提升性能,与基准范围相一致。微调可以增加准确答案,提高答案质量,EM和F1分数有所反映。然而,F1分数在四个时期之后开始平稳,并且进一步微调会带来递减回报。

使用CoT方法进一步提高了答案质量。FireAct方法通过使用不同任务轨迹和提示进行微调进一步提升了代理性能。仅依靠现成LMs的语言代理面临一些限制,如固定的任务解决轨迹集、工具过度使用和偏离恢复挑战。未来可以通过校准与元推理研究来改进代理设计,解决工具使用和反思挑战。

FireAct提出的研究问题提示将精细调整LMs用于语言代理扩展到不同任务、基础设置和领域。调查应包括API工具使用、网络探索和实际应用。探索各种微调数据源和技术对提升代理性能至关重要。需要评估校准和元推理对代理设计的影响,以及它们管理工具使用和轨迹偏差能力。最后,需要进行全面研究来评估可扩展性、稳健性、效率和成本影响。