小型语言模型能够提供高性能吗?认识一下StableLM:一种开源的语言模型,能够通过适当的训练生成文本和代码,提供高性能
Stability AI是一家人工智能领域的初创公司,以其稳定扩散图像生成AI技术而闻名。今天,它推出了一个名为StableLM的新的免费开源语言模型。该模型在Alpha阶段提供了三个不同的参数大小:30亿、70亿、150亿和650亿。根据CC BY-SA-4.0许可规则,开发人员可以审查、利用和修改StableLM基本模型用于个人和商业项目。
创新性的稳定扩散图像模型提供了一个更开放、可扩展和透明的替代方案,以取代专有的人工智能技术。得益于Stability AI的努力,该模型于2022年向公众发布。Stability AI发布了StableLM一系列模型,进一步推动其使命,使基本的人工智能能力民主化。StableLM模型将为文本和代码生成能力提供动力。它们展示了如何训练小型高效的模型以实现良好性能。
团队之前与非营利研究中心EleutherAI的开源工作奠定了StableLM发布的基础。使用Pile开源数据集训练了几个流行的语言模型,如GPT-J、GPT-NeoX和Pythia套件。Cerebras-GPT和Dolly-2只是许多扩展了这些早期模型的新开源语言模型的例子之一。
用于教授StableLM的实验数据集基于Pile,但规模是其三倍,达到了1.5万亿个标记。尽管只有30-70亿个参数(GPT-3有1750亿个),由于数据集的丰富性,StableLM在对话和编码任务上取得了出乎意料的出色表现。有关数据集的信息将在稍后公开。
他们发布了一系列针对课堂设置进行优化的研究模型。这些经过精细调整的模型首先使用了最近发布的五个开源对话代理数据集的数据:Alpaca、GPT4All、Dolly、ShareGPT和HH。根据斯坦福的Alpaca许可,这些经过微调的模型可用于学术研究,遵循非商业性的CC BY-NC-SA 4.0许可。
StableLM展示了团队通过以下能力开发开放、易接近和有益的人工智能技术的愿景:
- 透明性:研究人员可以“看看内部情况”以确认性能、建立可解释性方法、确定危险并在创建保障方面提供帮助。企业和政府机构可以修改(或“调整”)这些开源模型以适应自己的需求,而无需披露私人信息或放弃对人工智能能力的控制。
- 可访问性:团队为普通人构建了边缘模型,使他们可以在自己的设备上使用这些模型。开发人员可以使用这些模型创建与更广泛的公共可用硬件兼容的应用程序,而不是依赖于少数企业的独占服务。这种方式将人工智能的经济效益分散在大量用户和创作者之间。提出的模型是开放和细粒度的,使研究人员和学者能够超越封闭模型的局限,实现可解释性和安全性。
- 支持性:这些模型旨在帮助客户,而不是取代他们。团队专注于改善人工智能在现实世界环境中执行特定任务的能力,而不是追求超人类智能。他们建立的资源能够使普通人和企业利用人工智能的潜力,促进创新,提高产出和扩大经济的视野。
团队强调用户收到的回复质量可能会有所不同,并可能包含不愉快的语言或观点,这与任何缺乏微调和强化学习的预训练大型语言模型相同。规模、增加的数据、社区反馈和优化都是应该导致显着改进的因素。