如何评估表示
评估表示
从无监督到有监督的度量
嵌入(Embeddings),也被称为表示,是对诸如单词、文档、产品等实体的稠密向量表示。它们旨在捕捉语义含义并突出实体之间的相似性。一组良好的表示不仅应该能有效地编码实体的基本特征,还应该具有紧凑性、有意义性和在各种任务上的鲁棒性等属性。在本文中,我们将探讨各种评估度量来评估表示的质量。让我们开始吧。
评估框架
任何评估框架都由三个主要组成部分组成:
- 基准方法:这是与新方法或模型进行比较的基准。它为评估所提出方法的性能提供了参考点。
- 一组评估度量:评估度量是用于评估模型性能的定量指标。这些度量可以是有监督的或无监督的,并定义了如何评估输出的成功程度。
- 评估数据集:评估数据集是用于评估模型性能的一组带有标签/注释或无标签的数据。该数据集应该能代表模型预期处理的真实场景。它需要涵盖各种示例,以确保全面评估。
根据评估度量是否需要真实标签,我们可以将其分为无监督度量和有监督度量。在实践中,使用无监督度量往往更有优势,因为它们不需要标签,而且收集标签非常昂贵。
下面,我们将研究最先进的度量方法。对于每个度量方法,选择一个基准方法来与其进行比较。基准方法可以简单到“随机嵌入生成器”!
有监督评估度量
有监督度量需要一个带有标签的评估数据集。一种常见的策略是选择一个预测器,如分类器或回归器。然后在有限的标记数据集上训练预测器…