ID vs. 多模态推荐系统:迁移学习的视角

服饰与美容:迁移学习的视角下,身份认证对多模态推荐系统的影响

1. 可迁移推荐系统的发展

推荐系统的核心目标是通过建模用户的历史行为来预测最可能的下一次交互。当用户的互动历史有限时,这个目标尤为具有挑战性,这也是一直以来推荐系统发展的难题,被称为冷启动问题。在冷启动场景下,比如在新建的推荐平台上,新用户的互动序列有限,模型训练的早期阶段往往受到样本数据不足的困扰。基于有限的训练数据进行建模必然会导致用户推荐效果不理想,阻碍平台的增长。迁移学习是解决这个问题的一个方法,学术界和工业界都非常关注将预训练知识引入到后续场景中,从而显著减轻冷启动问题,帮助建模用户互动。

因此,对可迁移推荐系统的研究几乎贯穿了推荐系统领域的每一个阶段。从基于物品ID和用户ID的矩阵分解时代开始,可迁移推荐系统必须实现基于ID的推荐系统在源场景和后续场景之间的数据重叠进行迁移学习。近年来,多模态理解技术快速发展,研究人员逐渐将重点转向使用纯模态信息建模用户序列,在源场景和后续场景之间没有数据重叠的情况下实现可迁移推荐。当前,使用大型语言模型(LLM)的“一刀切”推荐系统受到了广泛关注。探索可迁移推荐系统,甚至是推荐系统基础模型,已经成为推荐系统领域的下一个前沿。

2. 基于ID的可迁移推荐系统

第一个阶段是矩阵分解时代,在这个阶段,使用ID嵌入模型来建模协同过滤算法中的物品是推荐系统领域的主流范式,一直主导着整个推荐社区近15年的发展。经典架构包括双塔架构、点击率模型、会话和序列推荐以及图网络等。它们都使用ID嵌入来建模物品,现有的最先进(SOTA)推荐系统在很大程度上依赖于基于ID特征的建模。

在这个阶段,可迁移推荐系统自然而然地依赖于ID,并且在源场景和后续场景之间存在数据重叠的要求。这意味着不同数据集之间需要共享用户或物品。例如,在拥有多个业务场景的大公司中,通过现有业务生成的流量来推动新业务是必要的。这个阶段的早期工作包括PeterRec [1](SIGIR 2020)、Conure [2](SIGIR 2021)和CLUE [3](ICDM 2021)。

PeterRec是推荐系统领域中首篇明确提出基于自监督预训练(自回归和遮蔽语言模型)的用户表示的普适性的论文。它清楚地证明了这些预训练的普适表示可以用于跨域推荐和用户画像预测,显著提高了性能。通过用户画像预测对用户表示的普适性进行评估已经得到了后续相关论文的广泛采用。此外,PeterRec还发布了一个大规模的跨域推荐系统数据集。

Conure是推荐系统领域中第一个用户通用表示的终身学习模型。它引入了一个模型,可以连续学习和同时服务于多个不同的下游任务。作者提出的“一人一世界”概念在当前推荐系统研究中产生了启发,特别是一对所有模型的研究。

CLUE认为,PeterRec和Conure算法都是在学习用户表示时使用自回归或遮蔽机制,这些机制是基于物品的预测。然而,最优的用户表示应该明确地对完整的用户序列进行建模和训练。因此,通过结合对比学习,可以获得更好的结果。

在这个阶段,还有一些并发或未来的工作,包括阿里巴巴的Star模型(一模型服务所有:面向多领域CTR预测的星形拓扑适应式推荐器)和ShopperBERT模型(电子商务中用于推荐系统的一对所有用户表示)。

3. 基于模态信息的可迁移推荐系统

前面提到的研究依赖于(用户或物品)ID的共享,实现了不同领域之间的可迁移推荐系统。这种方法非常适合于单个公司内的业务转移。然而,在现实中,不同的推荐系统之间共享用户和物品ID信息是具有挑战性的,这导致了与跨平台推荐相关的研究存在重大局限性。

对比而言,近年来自然语言处理(NLP)和计算机视觉(CV)等其他深度学习社区出现了一些有影响力的通用大型模型,也被称为基础模型。例如BERT、GPT、Vision Transformer等等。与主要用于推荐系统领域的ID特征不同,NLP和CV任务基于多模态文本和图像像素特征,可以更好地在不同任务之间实现模型的重用和迁移。这个阶段的主流方向是用模态内容取代ID特征,以便在不同系统和平台之间方便迁移。这个阶段的代表性工作包括TransRec [4]、MoRec [5](SIGIR 2023)、AdapterRec [6](WSDM 2024)和NineRec [7]。

TransRec是第一个探索混合模态传输学习的推荐系统模型。它也是第一个考虑图像像素信息传输的模型。TransRec采用端到端的训练方法,而不是直接提取离线多模态物品表示。与基于ID的顺序推荐模型相比,经过微调的TransRec能够有效地改善推荐结果。TransRec证明了使用混合模态信息对大规模数据进行预训练可以有效地学习用户和物品之间的关系,并将这种知识转移到下游任务中,实现了通用的推荐能力。该论文还研究了规模效应,并计划发布多个多模态数据集。

MoRec对于使用先进的模态编码器来表示物品(MoRec)是否可以取代经典的物品ID嵌入范式(DRec)提供了一个系统的答案。该论文对MoRec和IDRec进行了公平的比较,如果MoRec在冷启动和热门场景下都能胜过IDRec,那么它将在推荐系统领域革新经典范式。这一观点源自于MoRec完全基于物品的模态信息来建模用户。这种内容信息本身具有可迁移性,并且通过实验证明了MoRec有潜力实现通用的大型模型。

结论1

对于顺序推荐架构SASRec,在典型场景(既有热门物品又有不太知名的物品)中,MoRec在基于文本的推荐中明显优于IDRec,但在基于图像的推荐中与IDRec表现相当。在冷启动场景中,MoRec明显优于IDRec,在推荐热门物品时,MoRec和IDRec表现相当。

结论2

MoRec在推荐系统和NLP、CV以及多模态社区之间建立了联系,从整体上受益于NLP和CV领域的最新发展。

结论3

行业中流行的两阶段离线特征提取推荐方法导致MoRec的性能显著下降,特别是在视觉推荐中,这在实践中不容忽视。尽管近年来在多模态领域的预训练模型取得了革命性的成功,但它们的表示尚未普遍和可泛化,至少对于推荐系统而言是如此。这项工作激发了灵感,并在近期引导了各种相关的研究工作。

AdapterRec首次系统地讨论了基于模态信息的有效传输方法。该论文评估了基于适配器的模型修补程序。与之前需要对下游传输进行微调所有参数的方法不同,AdapterRec在传输过程中将适配器网络插入并微调模型网络。该论文对大规模文本和图像模态数据进行了广泛的验证实验。

结果表明,基于文本和图像模式的adapterRec都能取得良好的传输效果。在文本场景中,adapterRec可以在较低的计算成本下实现与微调所有参数类似的传输结果。AdapterRec证实了基于适配器技术的高效传输方法是构建面向推荐系统的通用大型模型的重要组成部分。

NineRec在推荐系统领域引入了迄今为止最大且最多样化的多模态迁移学习数据集。在公平比较MoRec和IDRec原则的指导下,该论文系统评估了MoRec的迁移能力,并提供了详细的指导和评估平台。NineRec提供了一个大规模的预训练数据集(包括200万用户、14.4万物品和2400万用户-物品交互)和九个下游场景数据集(包括来自同一平台的五个不同场景和来自不同平台的四个场景)。

该论文进行了大规模实验,评估了各种经典推荐架构(SASRec、BERT4Rec、NextItNet、GRU4Rec)和物品编码器(BERT、Roberta、OPT、ResNet、Swin Transformer)的迁移性能,还验证了端到端和两阶段方法对跨域推荐的影响。实验结果表明,端到端训练技术可以充分发挥模态信息的潜力,即使使用经典框架如SASRec也能超越最近的类似可迁移推荐模型。该论文还证实了基于纯模态信息的零-shot传输能力。

NineRec为基于模型的推荐系统迁移学习和大型推荐模型的开发提供了新的平台和标杆。在NineRec之后(仅涉及文本和图像方式),该团队还共同发布了目前规模最大的短视频推荐数据集MicroLens [10]。该数据集包含原始短视频,比其他相关数据集规模大数千倍,拥有3000万用户和10亿次点击行为,非常适合用于训练大型推荐模型。NineRec和MicroLens的计算和数据集收集成本均超过了100万元人民币。

4. 基于大型语言模型(LLMs)的可迁移推荐系统

人工智能领域目前正在经历大型模型时代,各个领域都提出了许多通用的大型模型,显著推动了人工智能社区的发展。然而,在推荐系统领域中,大型模型技术的应用仍处于早期阶段。许多问题尚未得到令人满意的回答,例如使用大型语言模型来理解推荐任务是否能够显著超越现有的ID范式,以及更大规模参数模型是否能够带来通用推荐表示。回答这些问题是推动推荐系统社区进入大型模型时代的关键,也引起了许多研究小组的越来越多的关注。

GPT4Rec [8]是目前阶段的代表作之一。GPT4Rec广泛评估了一种1750亿项目编码器的能力。还有其他各种后续工作,例如基于提示、思维链、ChatGPT等等。此外,谷歌的LLM用于评级预测的并行工作[9]也属于同类工作。与GPT4Rec类似,它们都使用迁移模型评估性能极限,一个专注于前n个项目推荐,另一个专注于评级预测。

GPT4Rec是首个探索使用数千亿规模语言模型作为项目编码器的研究。论文提出并解决了一些关键问题:

  1. 随着项目编码器参数数量的增加,基于文本的协同过滤(TCF)推荐算法的性能如何演变?即使在数千亿参数规模下,是否存在性能上限?
  2. 如1750亿参数的GPT-3那样的超大规模参数语言模型是否能够生成通用的项目表示?
  3. 是否能通过公正比较,让配备1750亿参数LLMs的推荐系统算法优于基于项目ID的经典算法?
  4. 基于文本的协同过滤(TCF)与LLMs在实现推荐系统通用大型模型的路径上有多远?

实验结果揭示了以下几点:

  1. 1750亿参数的LLMs可能尚未达到其性能上限。观察结果显示,当从130亿参数过渡到1750亿参数的LLMs时,TCF模型的性能并不收敛。这表明,在未来,使用更多参数的LLMs作为文本编码器有潜力带来更高的推荐准确性。
  2. 即使是由非常大的语言模型(如GPT-3)学习的项目表示,也可能并不一定形成通用表示。仍然需要通过对相关的推荐系统数据集进行微调才能达到最先进的性能,至少对于基于文本的推荐任务来说如此。
  3. 即使拥有1750亿参数和经过微调的660亿语言模型,当使用DSSM作为推荐主干时,TCF仍然远远落后于IDRec。然而,对于顺序推荐模型,LLMs即使使用冻结表示,也可以与IDRec粗略竞争。
  4. 与随机项目抽样相比,拥有1750亿参数的LLMs的TCF模型在推荐中的表现要好得多,改进范围在6到40倍之间,但与在推荐数据集上重新训练的TCF模型相比仍存在显著差距。
  5. 论文还发现,在典型的推荐系统场景中,ChatGPT的表现明显低于TCF,这表明在某些实际的推荐场景中可能需要更精细的提示才能使用ChatGPT。

5. 结论

在当前的推荐系统社区中,关于基于模态的大型模型的研究仍处于早期阶段。许多关键的挑战和限制可以总结如下:

  1. 传统的基于ID的推荐算法在处理用户和项目信息以不同形式且超出传统标识符的模态场景时面临着挑战。
  2. 现有文献中基于模态内容的跨领域推荐系统研究常常缺乏泛化性,很难将研究成果应用于不同的推荐任务和领域。
  3. 与端到端的联合训练不同,预提取的特征可能存在颗粒度不匹配等问题,通常只能生成次优的推荐。
  4. 该社区缺乏大规模、可公开获取的包含模态内容的数据集,用于研究迁移学习,以及用于评估模型性能的基准数据集和排行榜。
  5. 现有的推荐系统大型模型研究往往具有相对较小的模型参数和训练数据(与NLP和CV领域相比),且开源的大型预训练模型参数也极为稀缺。

参考文献

[1] 从连续行为中高效传递参数用于用户建模和推荐(SIGIR2020)

[2] 一人一模型,一世界:学习连续用户表示而不遗忘(SIGIR2021)

[3] 通过对比预训练学习可迁移的用户表示(ICDM2021)

[4] TransRec:从混合模态反馈学习可迁移的推荐(Arxiv2022/06)

[5] 推荐系统下一个去哪里?基于ID或模态的推荐模型的再探讨(SIGIR2023)

[6] 基于适配器的迁移学习在推荐系统中的探索:实证研究与实用见解(WSDM2024)

[7] NineRec:适用于模态推荐系统的一套迁移学习数据集(Arxiv2023/09)

[8] 利用大型语言模型探索基于文本的协作过滤的上限:发现和见解(Arxiv2023/05)

[9] 语言模型是否理解用户偏好?在用户评分预测上评估语言模型(Arxiv2023/05)

[10] 大规模的内容驱动微视频推荐数据集(Arxiv2023/09)