突破双塔模型的限制

颠覆双塔模型的局限

两塔模型架构背后的假设破解及如何超越

(图像由作者使用生成式人工智能创建)

两塔模型是现代推荐系统中最常用的架构设计选择之一 — 关键思想是有一个学习相关性的塔和一个学习观察偏差(例如位置偏差)的第二个浅层塔。

在本文中,我们将仔细探讨两塔模型背后的两个假设,具体来说:

  • 分解假设,即我们可以简单地将两个塔计算出的概率相乘(或者将它们的logits相加),以及
  • 位置独立假设,即决定位置偏差的唯一变量是物品本身的位置,而不是它所呈现的上下文。

我们将看到这两个假设的破解点,以及如何通过新的算法(如MixEM模型、点积模型和XPA)超越这些限制。

让我们从一个非常简短的回顾开始。

两塔模型在推荐系统中的崛起

深入探究用于修正排序模型的最新技术

towardsdatascience.com

两塔模型:迄今为止的故事

在推荐系统中,评级模型的主要学习目标是相关性:我们希望模型根据上下文预测出最佳的内容。在这里,上下文简单地指我们从用户之前的参与或搜索历史等方面学到的所有信息,具体取决于应用程序。

然而,排名模型通常会表现出一定的观察偏差,即用户根据呈现方式的不同更多或更少地参与某个印象。最突出的观察偏差是位置偏差 — 用户倾向于更多地参与首个展示的物品。

两塔模型的关键思想是并行训练两个“塔”,即神经网络,主塔用于学习相关性,而…