来自微软研究院和清华大学的研究人员提出了“思维骨架(SoT):一种新的人工智能方法,加速LLMs的生成”

微软研究院和清华大学专家揭示“思维骨架(SoT):一种加速LLMs生成的全新人工智能方法”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-23-at-4.05.36-PM-1024×573.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-23-at-4.05.36-PM-150×150.png”/><p>大型语言模型(LLMs),如GPT-4和LLaMA,无疑改变了技术领域的格局。然而,处理速度缓慢是一个不断出现的挑战,限制了它们的广泛应用。尽管这些模型具有非凡的能力,但从LLMs获取响应所需的时间限制了其效果,特别是在对延迟敏感的应用(如聊天机器人、副驾驶和工业控制器)中。鉴于需要解决这个根本问题的解决方案,微软研究和清华大学的研究人员提出了一种名为“思维骨架(SoT)”的创新方法。</p><p>传统上,提高LLMs速度的努力涉及对模型、系统或硬件进行复杂修改。然而,研究团队采用了SoT这种不同的方法。与传统方法不同,SoT不对LLMs进行大量的改动,而是将其视为黑匣子。焦点从改变模型的内部工作方式转移到优化其输出内容的组织上。提出的解决方案引导LLMs遵循一个独特的两阶段过程。在第一阶段,指导LLM得到答案的骨架。随后,在第二阶段,LLM负责在骨架内并行扩展多个要点。这种方法引入了一种新的方式来提高LLM的响应速度,而无需对模型结构进行复杂调整。</p><p>SoT的方法将内容生成过程分解为两个明显的阶段。首先,促使LLM构建答案的骨架。这一初始步骤与人类在解决问题时通常的高层结构概述方式相吻合。第二阶段利用这个骨架进行并行扩展,使LLM能够同时解决多个要点。值得注意的是,这种方法适用于开源模型(如LLaMA)和基于API的模型(如GPT-4),展示了其多功能性。</p><figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/54-Y8RMINluusQEm0QGzd4BW-Duw-tqhxCzZXg7NdJTH6dAHAU7MTqaUXYfm3ZXlZHlT352sLDJqZA_Xvg61kPY6u-halUwJKKVfCcUPADsFx9MDB5_aPKfV2g3pKnDQhJP3SaLO0jvYvXnLyri1IhA”/></figure><p>为了评估SoT的效果,研究团队对最近发布的12个模型进行了广泛的测试,涵盖开源和基于API的两大类别。通过使用Vicuna-80数据集进行测试,团队观察到显著的加速效果,该数据集包含来自编码、数学、写作和角色扮演等各个领域的问题。SoT在8个12个模型上实现了1.13倍至2.39倍的加速效果。关键是,这些加速效果是在不牺牲答案质量的情况下实现的。团队使用FastChat和LLMZoo的指标评估了SoT的答案质量,展示了其在不同问题类别下保持或提高响应质量的能力。</p><figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/fO9hh_p1JjKF_6OsbyWoBOLMTWIBBdeM379Adb4meU-MQIaUgscykEQOTgWHX0doPLEF1Qb1Yji0G9Lc2OcPR06ISEpYJzqXYboHNKLOVs6zvKETf5GLGscrjxWyVGweoU49eTV9Xl4Mvh5Z6O6TkOU”/></figure><p>总而言之,SoT是解决LLMs速度缓慢的一个有前景的解决方案。该研究团队创新的方法将LLMs视为黑匣子,并专注于数据级效率优化,为加速内容生成提供了新的视角。通过引导LLMs构建答案的骨架,然后执行并行扩展,SoT引入了一种有效提高响应时间的方法。评估结果不仅显示出显著的加速效果,还能够保持或提高答案质量,解决了效率和有效性这两个挑战。这项工作为未来在人工智能的动态思维过程中探索开辟了新的道路,鼓励向更高效、更多功能的语言模型转变。</p>