稳定AI团队推出FreeWilly1和FreeWilly2:全新的开放获取大型语言模型(LLMs)
Stable AI team launches FreeWilly1 and FreeWilly2 new open-access large language models (LLMs).
FreeWilly1及其继任者FreeWilly2是由Stability AI的CarperAI团队开发的功能强大的新开源大型语言模型(LLM)。这两个模型在使用许多不同指标进行推理竞赛时表现出色。采用行业标准的Alpaca格式进行的监督微调(SFT)被用于微调基于原始LLaMA 65B基础模型构建的FreeWilly1模型。FreeWilly2使用LLaMA 2 70B基础模型,以达到与GPT-3.5相当的性能。
FreeWilly模型的训练受到了微软开创性方法的影响,该方法在文章“Orca: Progressive Learning from Complex Explanation Traces of GPT-4”中进行了描述。团队使用高质量的指导语言模型生成了我们的数据集副本,其中包含60万个数据点(约为原始Orca工作中使用的数据集大小的10%)。
采用这种方法,研究人员使用较简单的LLM模型生成了50万个案例,并使用较复杂的LLM模型生成了额外的10万个案例。他们对这些数据集进行了彻底筛选,删除了来自评估基准的案例,以确保有效的比较。尽管只使用了原始Orca论文中样本大小的十分之一进行训练,但FreeWilly模型在多个基准测试中表现出色,验证了他们对合成生成数据集的方法。
- 麻省理工学院、哈佛大学和东北大学的“在一堆干草中寻找神经元”倡议采用了稀疏探测的方法
- “LLM能够在您的iPhone上运行吗?认识MLC-LLM:这是一个开放框架,可以直接将语言模型(LLMs)带入一类带有GPU加速的平台”
- 一种新的人工智能理论框架,用于分析和限制机器学习模型中的信息泄漏
研究人员使用EleutherAI的lm-eval-harness进行了这些模型的评估,并添加了AGIEval。研究结果显示,无论是在解决法律和数学等专业领域的困难问题,还是进行复杂推理和识别语言细微差别方面,两个FreeWilly模型都是一流的。
团队认为这两个模型提高了我们理解口语的能力,并开辟了以前不可能的可能性。他们希望看到这些模型在人工智能领域的创新应用。