一项新的人工智能研究引入了多任务提示调整(MPT)来进行迁移学习
A new AI study introduces Multi-Task Prompt Tuning (MPT) for transfer learning.
预训练语言模型(PLMs)通过微调在许多下游NLP任务上取得了显著的改进。虽然当前的PLMs可能包含数亿个参数,但传统的完全任务特定微调(FT)范式在扩展到许多任务上是具有挑战性的。需要学习的参数数量比全面微调所需的参数数量少,这导致了对模型调整的“参数高效”方法的研究激增。
对于使用PLMs进行参数高效迁移学习,最近出现了一种潜在选择,即提示调整(PT)。PT的工作方式是在训练之前将可调节的连续提示向量附加到输入中。PLM设置被锁定在原位,PT仅学习每个任务的有限数量的提示向量。然而,尽管它们的性能显著,但即使在瞬时调整和完全微调之间仍存在显著差距。该方法对初始化非常敏感,比通常的微调过程需要更长的训练时间。
最近的研究提出通过重用其他作业的提示向量来解决这些问题。这些策略首先在各种源任务上训练软提示。然后,他们使用这些预训练提示作为目标任务上微调提示的起点,使用(可能是学习的)相似度度量。
来自俄亥俄州立大学、MIT-IBM沃森人工智能实验室和麻省理工学院的研究人员进一步发展了这一研究方向,引入了多任务提示调整(MPT),该方法利用多任务数据学习一个单一的提示,可以有效地传递给目标活动。
尽管学习共享提示空间的想法很简单,但在实践中,它可能非常难以掌握。这是因为它需要掌握各种源任务之间的相似性,并同时减少它们之间的干扰。研究人员发现,与仅仅在所有任务之间共享提示矩阵不同,将每个源任务的软提示分解为共享矩阵和低秩任务特定矩阵的乘积更加成功。分解通过从一致的提示调整中获得的软提示中提取信息来进行教学。他们对常见的提示矩阵执行低秩乘法修改以在作业之间切换。
对23个NLP数据集进行的全面测试表明,所建议的方法优于最先进的提示传递技术。与最有竞争力的多任务提示传递基线相比,MPT与T5-Base在SuperGLUE基准测试中实现了16.3%的提升,同时调整了比例最小的任务特定提示参数。某些性能指标表明,尽管每个作业只使用了0.035%的可配置参数,MPT的性能超过了完全微调。研究团队还发现,在目标任务中每个任务有4-32个标签时,MPT对于少样本学习非常成功。