用于恶意内容检测的LLMs:优点与缺点

LLMs for Malicious Content Detection Pros and Cons

有害内容检测

有害内容检测是指检测对互联网用户有害的内容。有害内容的例子包括令人讨厌/冒犯的内容、垃圾邮件、骚扰、性内容、钓鱼/欺诈和招揽。

内容平台上的有害内容可能会产生巨大的负面影响,包括:

  • 对用户造成情感困扰、羞辱,甚至身体伤害
  • 损害托管平台的声誉
  • 减少活跃用户并难以吸引广告商

因此,能够识别和监管有害内容并促使其删除至关重要。用户生成内容平台面临这个风险,因为它们允许用户上传各种内容。用户生成内容平台包括社交媒体、消息服务、论坛、游戏平台和市场。在这些平台上检测和减轻有害内容的重要性不可忽视。

为了减少用户接触此类内容的数量,平台通常依赖于自动检测和删除有害内容。自动检测可能是一项具有挑战性的任务,因为有害内容可以采取多种形式(文本、视频、图片、链接等),并且很难区分何为有害和何为无害。此外,误报(自动系统错误地将某物识别为有害)还可能产生一系列负面影响,包括对用户的伤害、对平台声誉的损害、潜在的法律挑战等。平台使用人工智能(AI)自动检测有害内容,但必须在检测有害内容和避免误报之间谨慎平衡。

监督分类器

目前用于自动检测有害内容的最流行方法是使用带标签的数据集训练分类器(监督机器学习模型)来检测有害内容。特定有害类型的带标签数据集包括一些有害和良性示例。训练过程包括从内容中提取特征,然后使用数据集中提取的特征和标签来训练监督分类器。

随着预训练的基础模型的出现,所需的带标签数据集数量已大大减少。例如,在文本分类的基础模型方法中,训练过程涉及使用预训练模型(如BERT或RoBERTa)生成文本的嵌入,并使用这些嵌入作为特征来训练传统的监督分类器。这种方法需要更小的带标签数据集。嵌入是我们数据集中文本的固定长度向量表示,用于捕捉其含义。因此,监督模型学会对文本的含义进行分类,判断其是否有害。

以下是一些可用作上述描述或针对分类目的进行微调的免费开源基础模型的示例。

图像可以通过光学字符识别(OCR)进行额外处理,音频/视频可以通过自动语音识别(ASR)提取文本,然后对文本进行有害内容检测。

下面是一段用于训练仇恨分类器的示例代码。该代码将训练并输出一个名为”hate”的模型到本地目录。

监督分类器的缺点

虽然使用经过大量文本训练的基础模型可以显著减少训练分类器所需的带标签训练示例数量,但该技术也存在一些缺点:

  • 监督学习仍然需要带标签的数据,可能需要手动创建。这可能耗时且昂贵。
  • 监督学习模型对数据中的噪声敏感。这意味着即使有少量错误或不相关的数据,也可能严重降低模型的性能。
  • 如果训练数据存在偏差,监督学习模型可能会带有偏见。这意味着模型可能学习到不准确或不公平的预测。

使用大型语言模型进行N-Shot分类

N-Shot分类是一种机器学习技术,允许模型在没有接受任何特定类别的训练的情况下对以前未见类别的对象进行分类。这可以通过提供一组类别描述来实现,模型可以利用这些描述学习区分不同类别的特征。

为了促使一个LLM检测到不良内容,可以使用多种技术。其中一种常见的技术是使用一个自然语言问题,例如“这段文本是否是仇恨言论?” LLM可以通过预测文本的类别来回答这个问题。另一种技术是使用提供有关文本更多信息的提示,例如“这段文本包含词汇‘仇恨’和短语‘杀死所有移民’。它是仇恨言论吗?” LLM可以利用这些信息更准确地判断文本的类别。除了问题外,可以提供几个示例作为提示的一部分,以帮助LLM提高性能。

使用LLMs进行零-shot分类有以下优点:

  • LLMs可以在大量的文本和代码数据集上进行训练,这使它们对于有害内容的书写方式的变化更加稳健。
  • 它们可以用来对先前未见过的类和子类的有害内容进行分类,而无需接受对这些类别的具体训练。这使它们非常适合新兴形式的有害内容。
  • 它们可以用来检测多种语言的有害内容。这使它们成为全球内容审核的宝贵工具。
  • 最重要的是,训练一个有监督分类器不需要大量的数据集,这可以减少运营成本和上线时间。

以下是一些用于检测仇恨言论的ChatGPT API示例代码。它使用了零-shot分类,但N-shot分类类似。令人印象深刻的是,下面的代码量要少得多。

使用LLMs进行零-shot/N-shot分类的缺点:

  • 训练和部署可能需要大量的计算资源。强烈不建议训练一个新的大型语言模型,建议使用专有模型如GPT4、Palm 2、Claude 2或开源模型如LLAMA 2和Falcon。即使使用这些模型,推理过程可能也是计算密集型的。
  • 它们可能容易受到偏见的影响,导致对有害内容的错误分类。
  • 难以水平扩展检测,因为专有模型可能有自己的速率限制。
  • 这还需要与外部方共享潜在敏感的用户生成的私有数据。
  • 额外的计算会增加延迟,而外部服务调用将根据提示的大小进一步增加延迟。
  • 虽然不需要训练数据集,但评估提示的性能仍然很重要。提示的微小变化可能导致性能的巨大变化。
  • 可能需要复杂的、针对特定模型的提示工程,而这些提示可能不适用于其他模型,可能仍需要一些初始学习投入。

结论

检测有害内容是一项具有挑战性但重要的任务。通过选择合适的方法,可以开发出能够有效检测有害内容并保护用户免受伤害的系统。大型语言模型可以帮助进行N-shot分类,并帮助团队快速启动分类器,以检测多种语言中的大量有害内容类型,而无需大型训练数据集,而使用较小的模型进行有监督检测可以帮助团队以较低的延迟、成本、内部和规模化完成这项工作,并提供良好的训练数据。