宣布Rekogniton自定义审核:使用您的数据来提高预训练的Rekognition审核模型的准确性
宣布Rekognition自定义审核:利用您的数据提升预训练Rekognition审核模型的准确性
公司越来越依赖用户生成的图片和视频进行互动。从电子商务平台鼓励客户分享产品图片到社交媒体公司推广用户生成的视频和图片,利用用户内容进行互动是一种强大的策略。然而,确保这些用户生成的内容与您的政策一致并为用户提供安全的在线社区可能具有挑战性。
许多公司目前依赖人工审核员或仅在用户投诉后做出回应,以管理不适当的用户生成的内容。这些方法无法扩展以有效地审核数百万张图片和视频,无法以足够的质量和速度进行审核,导致用户体验差,规模化的成本高,甚至可能对品牌声誉造成危害。
在本文章中,我们讨论如何使用Amazon Rekognition中的自定义审核功能来提高您预先训练的内容审核API的准确性。
Amazon Rekognition中的内容审核
Amazon Rekognition是一项托管的人工智能(AI)服务,提供预先训练和可定制的计算机视觉功能,用于从图片和视频中提取信息和洞察。其中之一的功能是Amazon Rekognition内容审核,用于检测图片和视频中的不当或不希望的内容。Amazon Rekognition使用层次分类法将不当或不希望的内容标记为10个一级审核类别(如暴力、露骨、酒精或毒品)和35个二级类别。电子商务、社交媒体和游戏等各行各业的客户可以使用Amazon Rekognition中的内容审核来保护自己的品牌声誉并促进安全的用户社区。
- 利亞瑪指數 vs 語言鏈:一個比較分析’ (LlamaIndex vs LangChain Yīgè bǐjiào fēnxī)
- RAG在NLP中统一检索和生成的创新方法
- 世界地图上的许多面孔 – 地图投影
通过使用Amazon Rekognition进行图片和视频审核,人工审核员只需审核少量被内容审核模型标记的内容,通常占总量的1-5%。这使得公司可以专注于更有价值的活动,并以较低的成本实现全面的审核覆盖。
引入Amazon Rekognition自定义审核
现在,您可以通过自定义审核功能提高适用于业务特定数据的Rekognition审核模型的准确性。您只需少量(至少20张)已标注的图片进行适配器训练,即可在不到1小时的时间内完成。这些适配器将审核模型的能力扩展到具有更高准确性的训练图片。在本文章中,我们使用一个包含安全图片和含有酒精饮料(被视为不安全)的图片的示例数据集,以提高酒精审核标签的准确性。
训练适配器的唯一ID可以提供给现有的DetectModerationLabels API操作,以使用该适配器处理图片。每个适配器只能由用于训练该适配器的AWS账号使用,确保用于训练的数据在该AWS账号中保持安全和保密。通过自定义审核功能,您可以根据特定的审核用例改进Rekognition预训练审核模型的性能,无需任何机器学习(ML)专业知识。您仍可以享受完全托管的审核服务的好处,并采用按使用量计费的自定义审核定价模型。
解决方案概述
训练自定义审核适配器包括五个步骤,您可以使用AWS管理控制台或API界面完成:
- 创建项目
- 上传训练数据
- 给图片分配地面真实标签
- 训练适配器
- 使用适配器

让我们通过控制台更详细地了解这些步骤。
创建项目
项目是存储适配器的容器。您可以在项目内训练多个适配器,使用不同的训练数据集评估哪个适配器在您特定的用例中表现最佳。要创建项目,请完成以下步骤:
- 在Amazon Rekognition控制台上,在导航窗格中选择自定义审核。
- 选择创建项目。

- 在项目名称中,输入您的项目名称。
- 在适配器名称中,输入适配器的名称。
- 可选择为适配器输入描述。

上传训练数据
您可以从少至20个样本图像开始,针对您的业务调整适配器模型以检测更少的误报(被模型标记为版图标签的适用于您的业务但不适当的图像)。为减少误报漏报(被模型标记为不适当但适用于您的业务的图像),您需要至少使用50个样本图像。
您可以根据以下选项提供适配器训练的图像数据集:
- 根据Amazon Rekognition内容版图分类导入一个带有标记图像的清单文件。
- 从Amazon简单存储服务(Amazon S3)存储桶导入图像并提供标签。确保AWS身份与访问管理(IAM)用户或角色对指定的S3存储桶文件夹具有适当的访问权限。
- 从计算机上上传图像并提供标签。
请按照以下步骤完成:
- 对于此贴文,选择从S3存储桶导入图像并输入您的S3 URI。

与任何机器学习训练过程一样,在Amazon Rekognition中训练自定义版图适配器需要两个独立的数据集:一个用于训练适配器,另一个用于评估适配器。您可以上传一个单独的测试数据集,或选择自动分割训练数据集进行训练和测试。
- 对于此贴文,选择自动分割。
- 选择启用自动更新以确保系统在推出内容版图模型的新版本时自动重新训练适配器。
- 选择创建项目。

为图像分配真实标签
如果您上传了未经注释的图像,可以使用Amazon Rekognition控制台按照版图分类为图像提供标签。在以下示例中,我们训练一个适配器以更准确地检测隐藏的酒精,并将所有此类图像标记为酒精。未被视为不适当的图像可以标记为安全。

训练适配器
在标记所有图像之后,选择开始训练以启动训练过程。亚马逊 Rekognition 将使用上传的图像数据集训练一个适配器模型,以提高对于训练所提供的特定类型图像的准确性。
在自定义审查适配器训练完成后,您可以在适配器性能部分查看所有适配器的详细信息(adapterID、test 和 training manifest 文件)。
在适配器性能部分,与预训练的审查模型相比,显示出了假阳性和假阴性的改进。我们训练的适配器在测试图像中将假阴性率降低了 73%。换句话说,与预训练的审查模型相比,适配器现在能够准确预测 73% 更多图像中的酒精审查标签。但是,假阳性没有改善,因为训练中没有使用假阳性样本。

使用适配器
您可以使用新训练的适配器进行推理,以实现更准确的结果。要做到这一点,调用 Amazon Rekognition 的 DetectModerationLabel API,并添加一个额外的参数 ProjectVersion,它是适配器的唯一 AdapterID。以下是使用 AWS 命令行界面(AWS CLI)的示例命令:
aws rekognition detect-moderation-labels \--image 'S3Object={Bucket="<bucket>",Name="<key>"}' \--project-version <适配器的ARN> \--region us-east-1
以下是使用 Python Boto3 库的示例代码片段:
import boto3client = boto3.client('rekognition')response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket":"<bucket>", "Name":"<key>" } }, ProjectVersion="<适配器的ARN>")
训练的最佳实践
为了最大化适配器的性能,推荐以下训练最佳实践:
- 样本图像数据应捕捉您想要提高审查模型准确性的代表性错误
- 除了为假阳性和假阴性带来错误图像外,还可以提供真阳性和真阴性以改善性能
- 尽可能提供尽可能多的有注释的图像进行训练
结论
在本文中,我们详细介绍了亚马逊 Rekognition 自定义审查功能。此外,我们详细说明了在控制台上执行训练的步骤,包括获得最佳结果的最佳实践。欲获取更多信息,请访问亚马逊 Rekognition 控制台并探索自定义审查功能。
亚马逊 Rekognition 自定义审查已在所有可用的 AWS 区域中普遍可用。
了解更多关于AWS上内容审查。与AWS一起迈出实现简化内容审查操作的第一步。





