2023年,开放的法学硕士
2023年,展望开放的法学硕士
2023年,大型语言模型(LLM)的公众兴趣急剧增长,现在大多数人对它们的了解和能力有一定概念时,公众对开源与闭源的辩论也已经触及到广大观众。在Hugging Face,我们对开放模型非常感兴趣,因为它们可以使研究可复制,使社区能够参与到AI模型的开发中,方便模型偏见和局限的审查,通过支持检查点复用降低我们领域的总碳排放量(在许多其他好处中)。
因此,让我们回顾这一年在开放LLM方面所取得的成就!
为了让本文长度合理,我们将不讨论代码模型。
预训练大型语言模型的步骤
首先,如何获得一个大型语言模型?(如果您已经了解,请随意浏览本部分!)
模型的架构(其代码)描述了其特定的实现和数学结构:它是所有参数的列表,以及它们如何与输入进行交互。目前,大多数高性能LLM都是“仅解码器”Transformer架构的变体(更多细节请参见原始transformers论文)。训练数据集包含该模型训练(即参数学习)时使用的所有示例和文档,因此包含了特定的模式学习。大多数情况下,这些文档包含文本,可以是自然语言(例如法语,英语,中文),编程语言(例如Python,C)或任何以文本形式表达的结构化数据(例如标记或latex中的表格,方程式等)。分词器定义了如何将训练数据集中的文本转换为数字(因为模型是一个数学函数,因此需要数字作为输入)。分词化是通过将文本转换为称为标记的子单元(可以是单词、子词或字符,具体取决于分词方法)来完成的。分词器的词汇量表示它所知道的不同标记的数量,通常在32k到200k之间。数据集的大小通常以包含在这些单个“原子”单位的序列中的标记数表示,如今的范围从几千亿到数万亿的标记!训练超参数然后定义了模型的训练方式。在每个新示例上,参数应该如何改变以适应?模型应该更新得有多快?
一旦选择了这些参数,您只需要:1)大量的计算资源来训练模型;2)有能力(和善良)的人来运行和监控训练过程。训练本身将包括在硬件上实例化架构(创建用于训练的矩阵)和使用上述超参数在训练数据集上运行训练算法。其结果是一组模型权重。这些是模型在学习后的参数,也是人们讨论访问开放预训练模型时的主要内容。这些权重随后可以用于推理,即用于对新输入进行预测,例如生成文本。
在预训练后,预训练LLM也可以根据特定任务进行专门化或调整,特别是当权重被公开发布时。它们随后用作用例和应用的起点,通过一个称为“微调”的过程进行优化,该过程在不同的数据集上对模型进行了额外的训练步骤,以使其对特定应用进行优化。尽管这一步骤在计算资源方面的成本很高,但与从头开始训练模型相比,无论从财务还是环境的角度来看,它通常都要便宜得多。这是高质量开源预训练模型非常有趣的原因之一,因为即使从业者只有有限的计算预算,他们也可以自由地使用和借鉴社区中的模型。
2022 – 从追求规模到追求数据
2023年之前,社区中有哪些开源模型可用?
直到2022年初,机器学习的趋势是模型越大(即参数越多),性能就越好。特别是,似乎超过特定大小阈值的模型在能力上有了突破,这两个概念被称为新兴能力
和扩展法则
。2022年发布的开源预训练模型家族基本上遵循了这个范例。
-
BLOOM(BigScience全球开放科学与开放获取的多语言大语言模型)BLOOM是BigScience发布的一系列模型,它是一个包含来自60个国家和250个机构的1000名研究人员的合作项目,由Hugging Face与法国的GENCI和IDRIS等机构合作协调。这些模型采用了仅解码的Transformer架构,并进行了一些小的修改(后嵌入归一化[^1]和使用ALiBi位置嵌入[^2])。这个家族中最大的模型是一个拥有1760亿参数的模型,训练数据包括46种人类语言和13种编程语言的3500亿个标记。其中大部分训练数据都已经公开,并且其来源、筛选和处理的详细信息已经发表。它是迄今为止最大的开源跨语言模型。
-
OPT(开放预训练转换器)OPT模型家族由Meta发布。这些模型采用了仅解码的Transformer架构,按照GPT-3论文中的技巧进行(特定的权重初始化、预归一化),并对注意机制进行了一些改变(交替使用密集和局部带状注意层)。这个家族中最大的模型是一个拥有1750亿参数的模型,训练数据来自主要的公开来源(书籍、Reddit上的社交数据、新闻、维基百科和其他各种互联网来源)共计1800亿个标记。这个模型家族与GPT-3模型的性能相当,在编码优化方面做了一些处理,使其计算开销较低。
-
GLM-130B(通用语言模型)GLM-130B是由清华大学和知扑.AI发布的。它采用了全Transformer架构,并进行了一些改变(使用了DeepNorm的后层归一化、旋转嵌入)。这个拥有1300亿参数的模型在英语和中文互联网数据(The Pile、Wudao语料库和其他中文语料库)方面进行了4000亿个标记的训练。它的性能也与GPT-3模型相当。
-
较小或更专业的开源LLM一些更小的开源模型也被发布,主要用于研究目的:Meta发布了Galactica系列,拥有最多1200亿参数,预训练于1060亿个科学文献标记,而EleutherAI发布了完全开源(包括架构、权重和数据)的GPT-NeoX-20B模型,它采用了Decoder Transformer架构,在5000亿个标记上进行了训练(使用RoPE和一些注意力和初始化的改变),以提供完整的科学调查工具。
这些庞大的模型令人兴奋,但运行成本也非常昂贵!在执行推理(计算模型的预测)时,需要将模型加载到内存中,而一个拥有1000亿参数的模型通常需要220GB的内存来加载(我们将在下文中解释这个过程),这非常庞大,对于大多数机构和从业人员来说并不可行!
然而,2022年3月,DeepMind发表了一篇新的论文,研究了在给定计算预算下,标记与模型参数之间的最佳比例是多少。换句话说,如果您只有X金额的预算用于模型训练,那么模型和数据的尺寸应该如何设置?作者发现,总体而言,在用于LLM的平均计算预算上,模型应该更小,但使用更多的数据进行训练。他们自己的模型Chinchilla(不开源)是一个700亿参数的模型(比以上的模型小三分之一),但是训练了1.4T个标记的数据(比手头更大的模型使用的数据多3到4倍)。它在性能方面与它更大的同类模型(既开源又闭源)相当或更好。
这种范式转变,虽然在封闭实验室中可能已经是众所周知的,但却在开放科学界引起了轰动。
2023年,开放发布的一年
小型大型语言模型的崛起
🌊 2023年出现了一波解码器风格的变压器模型,每个月都会发布新的预训练模型,很快就会变成每周甚至每天发布:Meta于2月发布LLaMA,Eleuther AI于4月发布Pythia,MosaicML于5月发布MPT,Salesforce和TIIUAE于6月发布X-GEN和Falcon,Meta于7月发布Llama 2,阿里巴巴和Mistral.AI于9月发布Qwen和Mistral,01-ai于11月发布Yi,Deci于12月发布DeciLM、Phi-2和SOLAR。所有这些发布都a)包括模型权重(以不同的开放许可证发布),b)对于规模较小的模型(3B至70B参数之间)性能良好,因此立即被社区采纳。几乎所有这些模型都使用了解码器变压器架构,包括各种调整(ALiBi或RoPE、RMS预归一化、SwiGLU),以及对注意力函数的一些更改(Flash-Attention、GQA、滑动窗口)和不同的代码实现,以优化训练或推理速度。这些调整可能会在一定程度上影响性能和训练速度;然而,由于所有体系结构都已公开发布并附带权重,剩下的核心差异是训练数据和模型的许可证。
🦙,🔮这个系列的第一个模型家族是由Meta AI发布的LLaMA系列模型。研究人员明确的目标是在给定的计算预算下训练一组不同规模的模型,以实现最佳性能。这是研究团队第一次明确决定不仅考虑训练预算,而且还要考虑推理成本(对于给定的性能目标,使用模型运行推理需要多少成本)。在这个角度上,他们决定在更多的数据上训练更小的模型,并进行更多的步骤,从而在更小的模型尺寸上达到更高的性能(权衡是训练计算效率)。Llama 1系列中最大的模型是一个65B参数模型,训练了1.4T个令牌,而较小的模型(分别是6B和13B参数)是在1T个令牌上训练的。13B的小型LLaMA模型在大多数基准测试中都优于GPT-3,而最大的LLaMA模型在发布时达到了最先进的水平。尽管如此,这些权重却以非商业许可证发布,限制了社区的采用。Eleuther AI发布的Pythia模型是由非盈利开源实验室发布的,它们是不同规模的LLM套件,以完全公开的数据进行训练,旨在帮助研究人员理解LLM训练的不同步骤。
📂,🦅 几个月后,MosaicML发布的MPT模型在性能上接近,但授权允许商业使用,并公开了它们的训练细节。第一个MPT模型是7B模型,在6月推出,其后是30B版本,两者都是在1T个英文和代码令牌上训练的(使用了来自C4、CommonCrawl、The Stack、S2ORC的数据)。MPT模型很快后面是TIIUAE发布的7B和30B models,它们是在1到1.5T个英文和代码令牌上训练的(使用了来自RefinedWeb、Project Gutemberg、Reddit、StackOverflow、Github、arXiv、Wikipedia等来源的数据),当年稍晚还发布了一个庞大的180B模型。Falcon系列的模型、数据和训练过程在技术报告和后来的研究论文中有详细介绍。
之前的模型公开了他们的数据,但是随后的发布几乎没有提供关于训练模型所使用的信息,也无法复现他们的努力 – 但是,他们通过发布权重提供了社区的起点。
✖️,🦙🦙 初夏时,Salesforce发布了X-Gen 模型,这是使用了15亿个”自然语言和代码”令牌进行训练的7B参数模型,分几个步骤进行,遵循数据调度系统(不是所有数据都同时引入模型)。 X-Gen稍显黯淡,被Meta旗下的新的LLaMA-2家族给盖过,其是一系列使用了从公开可获得的来源中获得的2T令牌进行训练的7到70B模型,配备了宽松的社区许可证以及从人类偏好(RLHF)进行的广泛微调过程,被称为对齐过程。
🍃,🔟,☀️ 几个月后,初创公司Mistral发布了他们的第一个模型,名为Mistral-7B,据说其是从”开放网络”中提取的未公开数量的令牌进行训练的。2023年末的模型发布非常繁忙,Mistral还发布了第二个更大的模型(Mixtral 8x7B),Deci.AI发布了第一个令人印象深刻的模型,名为DeciLM,以及一个来自upstage的更大规模的模型融合,SOLAR也使用未公开的数据来源进行了训练。所有这些模型都在排行榜和公开基准测试中稳步提升。
🇨🇳 与此同时,2023年底的一个显著事件是中国表现出色并公开发布的许多模型。其中包括两个双语中英文系列模型:阿里巴巴的Qwen,参数为7到70B,使用了24亿令牌进行训练,以及来自01-AI的Yi,参数为6到34B,使用了30亿令牌进行训练。这些模型的性能在公开排行榜(如Open LLM leaderboard)和一些最困难的基准测试,如Skill-Mix上都领先于先前的模型。2023年末的另一个强有力竞争者是来自DeepSeek AI的DeepSeek编码模型,其从头开始使用了20亿令牌进行训练,并含有87%的代码和13%的中英文自然语言构成(主要是代码模型)。
无所不在的对话模型
与2022年相比,2023年发布的几乎所有预训练模型都配备了预训练版本和对话微调版本,采用了现有的几种方法之一。虽然在2022年及之前,人们已经开发了将模型适应聊天设置的方法,但是这些技术在2023年真正得到了广泛应用,强调了这些聊天模型在公众中的日益普及以及通过与其聊天进行人工评估的增长趋势(”vibe-check” 评估)。我们在这里详细介绍了适应预训练模型用于聊天的最知名方法,但是还存在许多变体!
💬 基于聊天的微调 是一种监督微调的变体,其中注释数据是聊天数据(类似于社交媒体上的多轮对话数据),您可以使用这些数据对模型进行微调。您可以使用与训练模型相同的技术:对于解码器变换器,将模型教授逐个预测下一个单词(称为自回归方法)。🗣️ 指令微调 (IFT) 也采用相同的方法,但是使用指令数据集,其中包含一系列查询类的提示及其答案(如果需要,还可以包含其他可选输入)。这些数据集教给模型如何按照指示进行操作,可以是人工生成的或者是由大型语言模型生成的。使用大规模模型输出的合成数据集(由模型生成的数据集,例如通过 GPT-4 从指导或用户与该模型之间的交互中生成的数据生成)是实现指令和对话微调的一种方法之一。这通常被称为 蒸馏
,因为它涉及将高性能模型的知识传授给训练或微调较小的模型。
这两种方法都相对容易实现:您只需要找到或生成相关的数据集,然后使用与训练时相同的技术对模型进行微调。去年发布了大量指令数据集,这提高了对话式设置中的模型性能。如果想了解更多关于本主题的信息,您可以阅读这篇介绍博客的文章。然而,尽管模型的性能有所提高,但仍然无法完全满足人类的期望。
🏅 根据人类反馈进行强化学习 (RLHF)是一种特定方法,旨在使模型的预测与人类最喜欢的内容相一致(根据特定标准而定)。这是一种微调的新技术(在年初时),从给定的提示生成几个可能的答案;人们对这些答案进行排名;这些排名被用于训练所谓的优先模型(其学习如何给出反映人类对答案偏好的分数);然后使用优先模型来通过强化学习对语言模型进行微调。详细信息请参见此 博客文章,原始的 RLHF 论文或关于 RLHF的 Anthropic 论文。这是一种成本较高的方法(注释/排名+训练新模型+微调都很昂贵),主要用于对模型进行安全性目标的对齐。开发了一种成本较低的此方法的变体,它使用高质量的语言模型来对模型的输出进行排名,而不是人类:强化学习与 AI 反馈。
👍 直接优化偏好(DPO)是 RLHF 的另一种变体,但不需要训练和使用单独的优先模型 – 该方法需要相同的人类或 AI 排名数据集,但使用该数据集通过查看模型的原始策略(预测方式)与最佳策略之间的差异来直接更新模型(最佳答案)。换句话说,对齐模型也是优先模型,这使得优化过程变得简单而实现的最终效果似乎是相等的。
因此,回到(主要)私人公司发布的小型开放权重模型的浪潮,其中许多模型都发布了微调的对应版本:MPT-7B 还提供了指令和对话版本,Falcon 和 XGen 模型的指令微调版本于年底发布,Llama-2、Qwen 和 Yi 发布了对话版本,DeciLM 发布了指令版本。Llama-2 的发布尤其引人注目,因为它在预训练模型和微调模型中都非常注重安全性。
社区如何?
虽然通常会在发布新模型时直接提供聊天模型和调整模型,但社区和研究人员并不认为它们是理所当然的,在这些基础模型提供的肥沃土壤上,一支广泛而健康的模型调整者社区得以蓬勃发展。通常会创建新数据集,并在这些数据集上调整模型,以展示新发布数据的良好性能和质量。
2023年初,已经发布了一些用于指导/聊天调整的数据集。例如,OpenAI的WebGPT数据集、Anthropic的HH-RLHF数据集和OpenAI的Summarize等,在这方面都是先驱。指导数据集的例子包括BigScience的公共提示池,Google的FLAN 1和2,AllenAI的自然指令,研究人员所属的不同机构共同创建的自我指导框架Self Instruct,一种可生成自动指令的框架,以及一些专家创建的指导基准数据集,如SuperNatural instructions和Unnatural instructions(由Tel Aviv University和Meta自动生成的指令数据集)等。
❄️ 2022/2023 冬季:今年一月,来自中国各个机构的研究人员发布了Human ChatGPT Instruction corpus(HC3),其中包含对各种问题的人类与模型回答的对比。三月充满了各种发布活动:斯坦福大学发布了Alpaca 模型,这是第一个指导型 LLaMA 模型(7B),并附带了一个相关的数据集,其中包含使用 LLM 生成的 52K 条指令。非盈利开源实验室 LAION 发布了Open Instruction Generalist(OIG)数据集,该数据集包含 4300 万条指令,既包括使用数据增强技术创建的指令,也包括从其他现有数据源收集的指令。同一个月,加州大学伯克利分校的 LMSYS 机构发布了Vicuna,这也是一个基于对话数据(用户与 ChatGPT 之间的对话)进行 LLaMA 微调的模型(13B),该数据由用户自己在ShareGPT上公开分享。此外,还发布了Guanaco数据集,它是 Alpaca 数据集的扩展(增加了其他语言的50万条数据),以及相关的 LLaMA-7B 微调模型。
🌱 春季:四月,伯克利人工智能研究实验室(BAIR)发布了Koala,一个以聊天为重点调整的 LLaMA 模型,使用了几个先前的数据集(Alpaca、HH-RLHF、WebGPT、ShareGPT),同时 DataBricks 也发布了一个庞大的人类工作量数据集 Dolly,其中包含了 1.5 万个手工生成的指令以及相关的模型(Pythia)微调数据集。五月,清华大学发布了包含指令的数据集UltraChat,其中包含 150 万次对话。随后发布了 UltraLLaMA,也是在该数据集上进行的微调。微软随后发布了GPT4-LLM数据集/框架,用于使用 GPT4 生成指令,六月,微软研究团队分享了一种新方法,称为Orca,使用更大模型的推理过程(解释其逐步推理)构建指令数据集,这一方法很快被社区(特别是 Alignementlab.ai)复制,他们创建了几百万个条目的Open Orca数据集,然后用于微调多个模型(Llama、Mistral 等)。五月和六月,Camel-AI 在不同主题上发布了许多指令或聊天的数据集(每个领域有超过 2 万个示例,包括物理学、生物学、化学等),这些数据集是使用 GPT4 获取的。六月,Airoboros框架发布了,该框架使用模型生成的数据进行模型微调(遵循自我指导方法),同时还发布了一些指令数据集。
🌻夏天:在八月份,中国非营利组织OpenBMB发布了高性能聊天模型UltraLM(基于LLaMA),并在九月份发布了相关的偏好数据集UltraFeedback,该数据集是GPT4(带有标注)进行输入对比的反馈数据集。整个夏天,《NousResearch》这个集体根据许多公开和私人指令数据集发布了几个优化版本(尤其是Hermes和Capybara系列)。九月份,来自清华大学的一个学生团队发布了OpenChat,这是一个使用新的RL微调策略的LLaMA微调版本。
🍂秋天:在十月,Hugging Face发布了基于DPO和AIF在UltraChat和UltraFeedback上进行优化的[Zephyr]模型,社区成员发布了OpenHermes2,这是一个基于900K条来自网络或使用Axolotl生成的条目在Mistral-7B上进行优化的模型。Lmsys发布了具有25个LLM的实际用户对话数据集LMSYS-Chat-1M。在十一月,OpenBuddy发布了多轮对话的Zephyr优化模型OpenBuddy-Zephyr。在同样的十一月,NVIDIA发布了提供了多个标准下的问题提示、模型答案及其评分的alignment fine-tuning数据集HelpSteer,同时微软研究院发布了基于新的合成推理数据集进行优化的Orca-2模型,这是一个LLama 2模型。在十二月,Berkeley发布了针对Open-Chat进行RLAIF优化的Starling模型及其相关数据集, Nectar,其中包含20万个对比数据。
正如我们所看到的,今年的发展依赖于通过使用高质量的预训练LLMs创建新数据集,以及社区发布的所有开源模型,使得领域蓬勃发展!如果你现在在模型名称中看到其中一个名字,你就能大概知道它的来源 🤗
还有一些更专业的数据集(例如MetaMath或MathInstruct数学问题微调数据集,Evol-Instruct数学和代码指令,CodeAlpaca和CodeCapybara代码指令)也发布了,但我们不会在这里详细介绍它们,尽管它们也被用于提高特定任务上的模型性能。你还可以参考awesome instructions dataset以获取其他相关数据集的合集。
民主化的获取方式
合并:极致定制
在典型的开源方式中,社区的一个里程碑是模型和数据集的合并。随着每次合并/提交,追踪使用的数据和模型的历史变得更加困难,因为高性能模型是相似模型的微调版本的微调版本的结果(请参见Mistral的“子模型树”)。在这个摘要中,我们还没有时间详细讨论这一令人惊叹的技术,所以让我们在最后几句话中花点时间谈谈它。
但是什么是合并模型呢?
模型合并是一种将不同模型的权重融合到一个单一模型中的方法,以(理想情况下)将每个模型的优势结合到一个统一的模型中。存在一些技术来实现这一点,这些技术已经在社区论坛中得到扩展并经常发表,这是一个由从业者、研究人员和爱好者组成的社区,在全球范围内进行完全分散化的研究。最简单的已发表方法之一是对共享相同架构的一组模型的参数进行平均(示例1,示例2),但也存在更复杂的参数组合,例如确定每个模型在给定任务中最具影响力的参数(加权平均),或者在合并时考虑模型之间的参数干扰并选择保留哪些参数(联系合并)。
这些技术使任何人都能轻松生成模型的组合,并且由于大多数模型现在都是相同架构的变体,因此变得尤为容易。这就是为什么在开放LLM排行榜上提交的一些模型名称为llama2-zephyr-orca-ultra
的原因。这个特殊的例子很可能是llama2
和zephyr
模型在orca和ultra数据集上进行微调的合并。通常,在Hugging Face hub上的各个模型卡中可以找到更多详细信息。
PEFT:指尖上的个性化
有时,您可能希望进行更受控制的个性化,而没有足够的内存来加载整个模型以进行微调。您知道在微调时不需要使用整个模型吗?
您可以使用所谓的参数高效微调(PEFT)。这种技术首先冻结您感兴趣的预训练模型的参数,然后在其之上添加一些新的参数,称为适配器。然后,您只需要微调(轻量级的)适配器权重,这些权重比原始模型要小得多。然后,您只需要共享您的小适配器权重(和基础模型)!您可以在这里找到一系列有趣的PEFT方法。
量化:模型无处不在
我们已经看到,性能良好的模型现在有各种形状和大小…但即使如此,这并不意味着它们对所有人都是可访问的!一个具有30B参数的模型可能需要超过66G的内存来加载(甚至不使用),而并非每个社区成员都有必要的硬件来做到这一点。
这就是量化的作用!量化是一种特殊的技术,通过改变模型参数的精度来减小模型的大小。
这是什么意思呢?
在计算机中,数字以给定的精度存储(如float32
、float16
、int8
等)。精度既表示数字类型(是浮点数还是整数),也表示数字存储在内存中的大小:例如float32
以32位存储浮点数。有关更详细的解释,请参见此链接。因此,精度越高,数字占用的物理内存越多,因为它将存储在更多位上。
因此,如果减少精度,就可以减少存储每个模型参数所需的内存,从而减小模型的大小!这也意味着您减少了…计算的实际精度,这可能会降低模型的性能。不过,我们发现在更大的模型上,这种性能降低实际上非常有限。
回到我们上面的例子,我们的30B参数模型在float16
中需要不到66G的内存,在8bit
中只需要一半,所以是33G内存,在4bit
中甚至只需要一半,大约16G内存,使其更加易于访问。
有很多方法可以从一种精度转换到另一种精度,存在许多不同的“转换”方案,每种方案都有各自的优点和缺点。流行的方法包括bitsandbytes,GPTQ和AWQ。一些用户,如TheBloke,甚至正在转换流行模型,使其可供社区使用。所有这些方法都是最新的,还在不断发展,我们希望随着时间的推移能取得更多进展。
下一步是什么?
年底还没有到!这些最后的几个月天小时已经带来了一些惊喜:是否会有一种新的架构最终超过简单高效的Transformer?
新发布的模型包括
- 专家混合:
- Mixtral,该模型由8个子模型(变压器解码器)组成,对于每个输入,路由器选择2个最佳的子模型并对它们的输出求和。
- 多个状态空间模型(通过潜在空间将输入映射到输出的模型,可以根据任务表示为RNN或CNN):
- Mamba,带有额外选择机制的状态空间模型
- Striped Hyena,带有快速卷积内核的状态空间模型
现在还为时过早,无法确定这些新方法是否会取代Transformer,但状态空间模型非常有前景!
要点
- 今年见证了各种参与者(大公司、初创公司、研究实验室)发布了大量开源模型,使社区以前所未有的速度进行实验和探索。
- 模型发布的公开程度有起伏,今年早期的发布都非常开放(数据集混合、权重、架构),而后期的发布则完全不提供有关其训练数据的信息,因此难以复现。
- 开放模型来自很多新的地方,包括中国,有几个新参与者在LLM领域定位自己为强有力的竞争者。
- 个性化可能性达到了历史最高水平,出现了新的微调策略(RLHF、adapters、merging),这只是个开始。
- 通过量化减小模型大小和升级使LLM模型对更多人来说更加可访问!
- 还出现了新的架构-它们会最终取代Transformer吗?
就是这样!我希望您享受今年的回顾,学到了一些东西,并且像我一样对AI进展现在多么依赖开源和社区努力感到热情!🤗
[^1]: 嵌入式规范化是一种使学习更加稳定的技巧。[^2]: ALiBi位置嵌入在模型中连接距离过远的令牌时会引入一种惩罚(普通位置嵌入仅存储有关令牌在序列中顺序和位置的信息)。