使用无代码机器学习,利用亚马逊SageMaker Canvas情感分析和文本分析模型从产品评论中得出洞见

通过使用无代码机器学习和亚马逊SageMaker Canvas,从产品评论中提取情感和文本分析模型的见解

根据Gartner的数据,85%的软件购买者与个人的推荐同等地信任在线评论。顾客通过许多渠道提供有关他们购买的产品的反馈和评论,包括评论网站、供应商网站、销售电话、社交媒体等。多渠道上不断增加的顾客评论的问题在于,对于公司来说,使用传统方法处理和从数据中获得有意义的洞察力可能会变得具有挑战性。机器学习(ML)可以分析大量的产品评论,并识别讨论的模式、情感和主题。凭借这些信息,公司可以更好地了解客户的偏好、痛点和满意程度。他们还可以利用这些信息改善产品和服务,识别趋势,并采取推动业务增长的策略性行动。然而,对于没有机器学习从业者、数据科学家或人工智能(AI)开发人员等资源的公司来说,实施机器学习可能是一个挑战。通过新的Amazon SageMaker Canvas功能,业务分析员现在可以使用机器学习从产品评论中获得洞察力。

SageMaker Canvas专为业务分析员的功能需求而设计,以使用AWS无代码机器学习对表格数据进行即席分析。SageMaker Canvas是一个视觉化、点对点的服务,允许业务分析员生成准确的机器学习预测,而无需编写任何代码或需要机器学习专业知识。您可以使用模型进行交互式预测和批量评分。SageMaker Canvas提供完全托管的即用型人工智能模型和自定义模型解决方案。对于常见的机器学习使用案例,您可以使用一个即用型人工智能模型,在不需要进行任何模型训练的情况下,为您的数据生成预测。对于与您的业务领域相关的机器学习使用案例,您可以使用自己的数据训练一个机器学习模型进行自定义预测。

在本文中,我们演示如何使用即用型情感分析模型和自定义文本分析模型从产品评论中获取洞察力。在这个使用案例中,我们有一组模拟生成的产品评论,我们希望对其进行情感分析,并按产品类型对评论进行分类,以便更容易绘制出有助于业务利益相关者做出更明智的决策的模式和趋势。首先,我们介绍如何使用即用型情感分析模型确定评论的情感。然后,我们将引导您完成训练一个文本分析模型以按产品类型分类评论的过程。接下来,我们将解释如何查看训练模型的性能。最后,我们将解释如何使用训练好的模型进行预测。

情感分析是一种用于分析文本情感的自然语言处理(NLP)即用型模型。可以对单行或批量预测运行情感分析。每行文本的预测情感可能为正面、负面、混合或中性。

文本分析允许您使用自定义模型将文本分类为两个或更多个类别。在本文中,我们希望根据产品类型对产品评论进行分类。为了训练一个文本分析自定义模型,您只需提供一个包含文本和相关类别的CSV文件的数据集。数据集需要至少包含两个类别,每个类别的文本需要125行。在模型训练完成后,您可以查看模型的性能并在使用模型进行预测之前,如果需要的话重新训练模型。

先决条件

完成以下先决条件:

  1. 具备AWS账户
  2. 设置好SageMaker Canvas
  3. 下载示例产品评论数据集:
    • sample_product_reviews.csv – 包含2,000个合成的产品评论,用于情感分析和文本分析预测。
    • sample_product_reviews_training.csv – 包含600个合成的产品评论和三个产品类别,用于文本分析模型训练。

情感分析

首先,您可以通过完成以下步骤使用情感分析来确定产品评论的情感。

  1. SageMaker控制台上,点击导航窗格中的Canvas,然后点击打开Canvas以打开SageMaker Canvas应用。
  2. 点击导航窗格中的Ready-to-use models,然后点击Sentiment analysis
  3. 点击Batch prediction,然后点击创建数据集
  4. 提供一个数据集名称,然后点击创建
  5. 点击从您的计算机中选择文件以导入sample_product_reviews.csv数据集。
  6. 点击创建数据集并查看数据。第一列包含评论,用于情感分析。第二列包含评论ID,仅用于参考。
  7. 点击创建数据集以完成数据上传过程。
  8. 选择用于预测的数据集视图中,选择sample_product_reviews.csv,然后点击生成预测
  9. 批量预测完成后,点击查看以查看预测结果。
情感分析步骤

情感和置信度列分别提供情感和置信度分数。置信度分数是介于0和100%之间的统计值,显示情感被正确预测的概率。

  1. 点击下载CSV以将结果下载到您的计算机。

文本分析

在本节中,我们将通过以下步骤执行使用自定义模型的文本分析:导入数据、训练模型,然后进行预测。

导入数据

首先导入训练数据集。完成以下步骤:

  1. Ready-to-use models页面,点击创建自定义模型
  2. 对于模型名称,输入一个名称(例如,产品评论分析)。点击文本分析,然后点击创建
  3. 选择选项卡上,点击创建数据集以导入sample_product_reviews_training.csv数据集。
  4. 提供一个数据集名称,然后点击创建
  5. 点击创建数据集并查看数据。训练数据集包含一个描述产品类别的第三列,以及由三个产品(书籍、视频和音乐)组成的目标列。
  6. 点击创建数据集以完成数据上传过程。
  7. 选择数据集页面,选择sample_product_reviews_training.csv,然后点击选择数据集
分类步骤

训练模型

接下来,您需要配置模型以开始训练过程。

  1. 构建选项卡上,点击目标列下拉菜单,选择product_category作为训练目标。
  2. 点击product_review作为来源。
  3. 点击快速构建以开始模型训练。

了解快速构建和标准构建之间的差异的更多信息,请参阅构建自定义模型

当模型训练完成后,您可以在使用模型进行预测之前,检查模型的性能。

  1. 分析选项卡上,将显示模型的置信度分数。置信度分数表示模型对其预测结果正确性的确定程度。在概览选项卡上,查看每个类别的性能。
  2. 点击评分以查看模型准确性洞察。
  3. 点击高级指标以查看混淆矩阵和F1分数

进行预测

使用自定义模型进行预测,请完成以下步骤:

  1. 预测选项卡上,点击批量预测,然后点击手动
  2. 点击相同的数据集 sample_product_reviews.csv,该数据集之前用于情感分析,然后点击生成预测
  3. 当批量预测完成后,点击查看以查看预测结果。

对于自定义模型预测,SageMaker Canvas 需要一些时间来部署模型供初始使用。SageMaker Canvas 在空闲超过15分钟后,自动取消部署模型以节省成本。

Prediction (Category) 和 Confidence 列分别提供了预测的产品类别和置信度分数。

  1. 突出显示已完成的作业,选择三个点,然后点击下载将结果下载到您的计算机。

清理

在导航面板中点击登出以退出 SageMaker Canvas 应用程序,停止消耗Canvas会话时间并释放所有资源。

结论

在本文中,我们演示了如何使用Amazon SageMaker Canvas从产品评价中提取见解,无需机器学习专业知识。首先,您使用现成的情感分析模型来确定产品评价的情感。接下来,您使用文本分析来通过快速构建过程训练自定义模型。最后,您使用训练的模型将产品评价分类到产品类别中。所有这些都不需要编写任何代码。我们建议您使用标准构建过程重复文本分析过程,以比较模型结果和预测置信度。