语言领域中突破性和开源的对话人工智能模型列表
突破性和开源的对话AI模型列表
对话式人工智能是指使用大量数据和自然语言处理等技术模拟人类交互、识别语音和文本的虚拟代理或聊天机器人等技术。近年来,对话式人工智能的发展取得了巨大的进步,特别是ChatGPT的推出。以下是一些其他正在革新对话式人工智能的开源大型语言模型(LLMs)。
LLaMA
- 发布日期:2023年2月24日
LLaMa是由Meta AI开发的基础LLM,旨在比其他模型更具多功能性和可靠性。LLaMa的发布旨在使研究社区民主化,并促进负责任的人工智能实践。
LLaMa有多种规模可供选择,参数数量从70亿到650亿不等。对于工业研究实验室、学术研究人员等,将根据具体情况授权其访问该模型。
- 来自哥伦比亚大学和DeepMind的研究人员介绍了GPAT:一种基于Transformer的模型架构,通过推断每个部位的形状与目标形状相对应,准确预测部位姿态
- 指标可能会欺骗人,但眼睛不会:这种AI方法提出了一种用于视频帧插值的感知质量指标
- 大规模生物分子动力学的深度学习:哈佛大学研究在各种系统上扩展了一个大型、预训练的 Allegro 模型
OpenAssistiant
- 发布日期:2023年3月8日
OpenAssistant是由LAION-AI开发的项目,旨在为每个人提供一个出色的基于聊天的大型语言模型。通过对大量文本和代码进行广泛训练,它获得了执行各种任务的能力,包括回答查询、生成文本、翻译语言和产生创意内容。
尽管OpenAssistant仍处于开发阶段,但它已经具备了一些技能,比如与Google搜索等外部系统进行交互以收集信息。此外,它是一个开源倡议,任何人都可以为其进展做出贡献。
Dolly
- 发布日期:2023年3月8日
Dolly是由Databricks开发的一种遵循指令的LLM,它在Databricks机器学习平台上进行了商业使用许可的训练。Dolly由Pythia 12B模型驱动,经过了约15,000个指令/响应记录的广泛训练。尽管不是最前沿的,但Dolly在遵循指令方面的表现令人印象深刻。
Alpaca
- 发布日期:2023年3月13日
Alpaca是由斯坦福大学开发的小型遵循指令模型,它基于Meta的LLaMa(70亿参数)模型。它旨在在众多遵循指令任务上表现出色的同时,易于复制且成本低廉。
尽管它与OpenAI的text-davinci-003模型相似,但它的生产成本要便宜得多(低于600美元)。该模型是开源的,并在包含52,000个遵循指令演示的数据集上进行了训练。
Vicuna
- 发布日期:2023年4月
Vicuna是由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的团队开发的聊天机器人,它通过在用户共享的对话和来自ShareGPT的收集的对话上对LLaMa模型进行微调训练。
Vicuna基于Transformer架构,是一个自回归语言模型,具有自然而引人入胜的对话能力。它拥有130亿个参数,比Alpaca产生更详细、结构化更好的答案,质量与ChatGPT相当。
Koala
- 发布日期:2023年4月3日
伯克利人工智能研究实验室(BAIR)开发了基于LLaMa 13B模型的对话模型Koala,它旨在比其他LLMs更安全、更易于解释。Koala在免费可用的互动数据上进行了微调,重点关注与高性能闭源模型的互动数据。
Koala对于研究语言模型的安全性和偏见以及理解对话语言模型的内部工作机制非常有用。此外,Koala是ChatGPT的开源替代品,包括EasyLM,这是一个用于训练和微调LLM的框架。
Pythia
- 发布日期:2023年4月
Eleuther AI创建了一组名为Pythia的自回归语言模型,旨在支持科学研究。Pythia由16个不同的模型组成,参数范围从7,000万到120亿。所有模型都使用相同的数据和架构进行训练,可以进行比较并探索它们随着规模的扩大而如何演化。
OpenChatKit
- 发布日期:2023年4月5日
Together开发了OpenChatKit,这是一个开源的聊天机器人开发框架,旨在简化和优化构建对话型人工智能应用程序的过程。该聊天机器人专为对话和指令设计,并在摘要生成、表格生成、分类和对话等方面表现出色。
使用OpenChatKit,开发人员可以访问一个强大的开源基础,创建专门和通用的聊天机器人,用于各种应用。该框架基于GPT-4架构,并提供三种不同的模型大小-3B、6B和12B参数,以适应不同的计算资源和应用需求。
RedPajama
- 发布日期:2023年4月13日
RedPajama是Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research和MILA Québec AI Institute团队共同创建的项目。他们的目标是开发顶尖的开源模型,首先是复现包含超过1.2万亿标记的LLaMA训练数据集。
该项目旨在创建一个完全开放、可复制和尖端的语言模型,包含三个基本要素:预训练数据、基础模型和指令调整数据和模型。目前可以通过Hugging Face访问该数据集,并且用户可以选择使用GitHub上提供的Apache 2.0脚本复制结果。
StableLM
- 发布日期:2023年4月19日
StableLM是由Stability AI开发的开源语言模型。该模型在一个实验数据集上进行了三倍于The Pile数据集的训练,尽管尺寸较小,但在对话和编码任务中表现出色。该模型提供3B和7B参数,较大模型即将推出。
StableLM可以生成文本和代码,适用于各种下游应用。Stability AI还通过指导提供一系列经过精调的研究模型,利用了五个最新的开源数据集的组合,专门设计用于对话代理。这些经过精调的模型仅供研究使用,并在非商业CC BY-NC-SA 4.0许可下提供。