8个值得关注的热门和新的大型语言模型

8 hot and new large-scale language models to pay attention to.

最近在新闻中经常听到大型语言模型(LLMs)的讨论。如果你不知道,LLMs是一种基于大量文本数据训练的人工智能,它们能够生成与人类写作的文本几乎无法区分的文本,比如ChatGPT。正因为如此,LLMs有着广泛的应用潜力,包括自然语言处理、机器翻译和文本生成等领域。

在这里,我们将介绍一些值得关注的较新和热门的LLMs。

RWKV

RWKV希望将高性能的Transformer和RNN的高效性能结合起来,希望能够兼具两者的优点。希望RWKV能够以较低的计算成本实现最先进的性能。如果成功,这可能会导致未来更高效的自然语言处理模型。

Palm 2

PaLM 2是一个新的语言模型,比其前身PaLM更多语种、更高效,并具有更好的推理能力。它是一个基于Transformer的模型,使用类似于UL2的目标混合进行训练。PaLM 2在不同模型大小的下游任务上显示出显著改进的质量,同时相对于PaLM还具有更快和更高效的推理能力。PaLM 2还展示了强大的推理能力和在一系列负责任的AI评估中的稳定性能。

Pythia

Pythia是一套由16个LLMs组成的套件,这些模型都是使用相同的公共数据进行训练,可以用来研究LLMs的发展和演变。它还被用于研究记忆、术语频率对少数短期表现的影响以及减少性别偏见。这些模型的大小从70M到12B参数不等。Pythia是公开可用的,并包括下载和重建训练数据加载器的工具。

GPT – 4

GPT-4是一个大规模的多模态模型,可以接受图像和文本输入,并生成文本输出。它在各种专业和学术基准测试中展现出与人类水平的性能,包括通过模拟的律师考试。它是一个基于Transformer的模型,预训练用于预测文档中的下一个标记。后训练对齐过程提高了模型在事实性和遵循期望行为方面的性能。GPT-4是这个列表中较为知名的LLMs之一,并且已经展示出了令人难以置信的功能,得益于创造性的提示工程师。

Kosmos

Kosmos-1是一个多模态的大型语言模型,可以感知一般的模态,学习上下文并遵循指令。它是基于包括文本和图像在内的大规模多模态语料库进行训练的。Kosmos-1在包括语言理解、生成和感知语言任务在内的广泛任务中表现出色。它还可以从跨模态转移中受益,使其能够从语言到多模态以及从多模态到语言的知识转移。

LLaMA

Meta的LLaMA是指用大规模标注的海量文本从头开始训练的大型语言模型,参数范围从7B到65B不等。LLaMA是使用公开可用的数据集进行训练的。LLaMA表明,仅使用公开可用的数据集也可以训练出最先进的语言模型,并且LLaMA-13B在大多数基准测试上优于GPT-3(175B)。LLaMA-65B与最佳模型Chinchilla70B和PaLM-540B竞争。目前,这些模型只向研究社区逐案发布。

Vicuna

Vicuna-13B是一个开源的聊天机器人,它通过对用户共享的对话进行LLaMA的微调训练,这些对话是从ShareGPT收集的。受Meta LLaMA和Stanford Alpaca项目的启发,Vicuna-13B支持一个增强的数据集和易于使用的可扩展基础设施。这个LLM的目标是消除阻碍领域内开放源代码创新的障碍。

Dolly

Dolly 2.0是一个12B参数的语言模型,是少数可以用于商业目的的LLMs之一。Dolly 2.0是在一个包含15,000个人生成的指令跟随对的数据集上进行训练的。该数据集由Databricks员工创建,包含了各种任务,如开放式问答、封闭式问答、从维基百科中提取信息、总结维基百科中的信息、头脑风暴、分类和创意写作。

结论

很棒对吧?嗯,关于大型语言模型还有很多要学习的,但你不必为了它而费心去搜集网络上的信息。ODSC会为你提供帮助,他们将于7月20日举办免费的虚拟会议——生成式人工智能峰会,届时将有领先的专家们带来最新的生成式人工智能进展。立即获取你的通行证,亲眼目睹大型语言模型、生成式人工智能以及它们在各行各业中的影响。