模特合并是什么意思?
什么是模特合并?理解它的真正含义


模型合并是将多个不同模型(每个模型设计用于执行不同任务或解决不同问题)合并为一个统一的模型的过程,而无需进行额外的训练。根据具体的技术和目标,合并模型也可以称为集成学习、模型融合或模型堆叠。该技术旨在创建一个更多才多艺、综合性更强的机器学习模型,能够同时处理各种任务。
在LLMs的背景下,模型合并可以涉及将具有不同初始化、体系结构或在不同任务上训练的LLMs进行合并。主要目标是利用每个单独模型的优势,创建一个多任务LLM,可以解决更广泛的任务范围。通过允许组合模型从每个组成模型的知识和能力中受益,这种方法可以显著提高性能和效率。
为什么要合并机器学习模型?
合并机器学习模型具有多个优势,例如通过对多样化模型之间进行平均或投票来减少预测的变异性和偏差。利用来自各种数据源和模型的复杂模式和特征可以提高预测精度和适应性。此外,通过减少对单个数据集或算法的依赖,模型合并可以改善预测的多样性和可靠性。
- 麻省理工学院和香港中文大学的研究人员提出了LongLoRA(长期低秩适应):一种用于长上下文大语言模型(LLMs)的高效微调AI方法
- 稳定AI的稳定音频是如何工作的?
- 数据科学家提高10倍生产力的五个工具
模型合并可以带来更好的性能、改善效率和更广泛的适用性,使其成为利用不同AI模型的优势而无需进行大量额外训练的有价值的策略。
合并LLMs的策略
一种常见的方法是通过对其权重或参数进行平均来合并模型。这可以产生一个融合模型,从每个原始模型中获益于嵌入的知识和专长。模型合并也可以涉及每个模型的特征的整合。当模型已经学习了对整体性能有价值的任务特定特征时,这是特别有用的。
一些模型合并技术允许合并模型直到指定的层,创建一个多头模型。当不同的模型专注于任务的不同方面时,这种方法可以提供帮助。
关于模型合并的一些最新研究论文
将精调模型融合以实现更好的预训练
在这项研究中,作者们认识到预训练模型广泛用作自然语言处理任务的起点,但其创建成本较高。他们提出了一种新颖的方法,将多个现有的精调模型融合成一个模型,使用它们的权重的平均值。这种融合模型始终优于预训练模型,并且通常优于在另一个任务上对基本模型进行精调的相互训练。融合过程对目标任务的依赖较小,即使存在权重衰减,仍然能够提供一种更具成本效益和资源高效的改进NLP模型初始化的方法。
解决合并模型时的干扰问题
迁移学习,即进一步对预训练模型进行下游任务的精调,提供了更好的性能、更快的收敛速度和更高的样本效率。然而,任务特定的精调模型通常不能有效地合作。为了解决这个问题,出现了模型合并方法,但它们经常忽视不同模型之间参数的干扰,导致性能下降。为此,作者提出了TIES-MERGING,通过重置参数、解决符号冲突和仅合并兼容参数来解决干扰问题。TIES-MERGING在各种设置中优于现有方法,强调了解决模型合并中干扰问题对于提高性能和多功能性的重要性。
ZipIt!合并不同任务的模型而无需训练
这项研究解决了将具有不同初始化的不同模型(每个模型都为单独的任务进行了训练)合并为一个多任务模型的挑战,而无需额外的训练。虽然之前的模型合并方法适用于在同一任务上训练的模型,但在合并为不同任务进行训练的模型时,它们的效果不佳。作者引入了一种名为“ZipIt”的通用合并方法,用于任意具有相同体系结构的模型,以克服这个限制。ZipIt包含两个关键策略:首先,它允许在每个模型内合并特征,以考虑非共享特征;其次,它支持部分合并,直到指定的层,创建一个多头模型。这些创新使得性能较之以前方法有了显著的20-60%的提升,实现了在训练不同任务的模型之间有效合并的目的。




