用户反馈——机器学习监控栈中的缺失环节

用户反馈——机器学习监控栈中的缺失环节' can be condensed to '用户反馈——监控栈中的缺失环节

构建以用户为中心的人工智能的完整指南

Unsplash上的图片

AI模型与用户之间的错位

您是否曾经花了数月时间和数额不菲的资金来实现一个AI模型,结果发现没有人使用它?即使您克服了采用的挑战,但如何知道模型的输出是否真正为用户的决策、查询、专业或日常活动增加了价值呢?

机器学习性能指标和实时监控工具是计算模型性能、识别可能出现问题的技术视角的绝佳方法。但是,如果不了解用户的参与度和满意度,就很难知道模型是否被用于其预期目的。

此外,倾听AI模型的用户可能会发现错误预测的边界情况;解释性算法并没有像我们希望的那样清晰地解释事物;或者用户体验缺陷影响用户与模型的互动方式。

本文的其余部分将涵盖理解AI模型上用户反馈的重要性、不同类型的用户反馈以及如何收集用户反馈以改进模型性能、增加用户采用率和最终使AI模型与用户保持一致的重要内容。

目录

  • AI模型与用户之间的错位
  • 什么是AI的用户反馈?
  • 为什么AI的用户反馈很重要?
  • 不同类型的反馈有哪些?
  • 收集用户反馈的指南
  • 总结

什么是AI的用户反馈?

当我们提到用户反馈时,所指的用户取决于您正在实施的用例。例如,这可能是内部业务用户或内部基于机器学习的需求预测应用的利益相关者;也可能是外部领域专家,例如医学肿瘤学家,利用医疗技术产品来辅助检测医学扫描中的肿瘤;或者是外部求职申请助手的最终用户,利用生成式AI来帮助撰写和完善简历。

本文中概述的概念、方法和好处适用于所有这些不同的用例。然而,某些好处可能更多或更少地适用于不同的用例,并应根据具体情况加以考虑。

为了说明用户反馈的好处,本文将使用上述的简历助手作为示例。

另一个重要的观点是,当提到用户反馈时,我们不仅仅指的是重新标记错误预测,或者用于自动模型重新训练的反馈循环。用户反馈包括用户提供的任何信息,以了解AI应用的有用性和采用情况。在我们的简历助手示例中,用户反馈可以包括用户满意度评分,提供有关生成的简历的用户满意程度的见解,或提供书面评论以突出特定问题。

这种类型的反馈不应总是直接推送到自动重新训练的流水线中,原因如下:

  1. 用户反馈通常是非结构化的,突出显示了不正确预测之外的问题,因此不能直接用于模型的重新训练。例如,用户指出简历助手使用过于正式的语言,可能需要更多的非正式文本示例来进行训练数据,而不是直接根据此反馈进行重新训练。
  2. 仅关注正确/错误的预测会忽视用户提供的有价值的信息。了解用户反馈使AI团队能够根据用户体验和使用模式改进应用程序。
  3. 在受控环境中,诸如强化学习与人类反馈(RLHF)之类的训练策略非常有效。然而,现实世界中的用户反馈可能是嘈杂且有潜在危害的。例如,盲目将用户反馈纳入训练数据可能导致数据中毒,其中恶意用户有意误导模型。

因此,AI团队应该审查用户反馈以提取不同的见解,并确定改进整体AI应用程序的下一步最佳操作。

为什么AI的用户反馈很重要?

实现模型评估

许多AI模型缺乏真实的标准。这使得在测试数据集上进行评估变得困难,因为通常基于的代理度量只能部分反映情况。对于生成模型来说,了解用户是否对模型预测感到满意通常是最重要的指标。

提高模型性能:

用户反馈可以用于不断改进AI模型的性能。用户可能拥有构建强大模型所需的良好领域知识。此外,监控用户参与度可以帮助确定模型性能差的原因,是否是由于训练/测试集不够真实可靠。

增加用户对齐:

用户反馈可以洞察模型的优点和问题所在。这使得AI团队能够提升用户体验,使模型更加直观和用户友好。此外,AI团队可以确保模型适用于所有用户,而不仅仅是较小的子群体。例如,确保简历助手在所有语言中保持质量,而不仅仅是英语。

当用户感觉到自己的声音被倾听,他们更有可能信任AI模型并保持参与,从而实现用户对齐和采用率的提高。

提高AI责任:

通过用户反馈,AI团队可以识别和解决与安全、偏见或其他伦理考虑相关的问题。这种积极的方法有助于开发更安全和更可靠的AI模型。通过寻求和回应用户反馈,AI团队展示了他们的责任和承诺,创造高质量和可靠的AI解决方案。反馈还可能揭示对额外教育资源和文档的需求,AI团队可以提供这些资源,以确保用户清楚了解模型的能力,并促进最佳实践。

总之,利用用户见解使得AI团队能够改进模型、优化用户体验并解决伦理问题,从而提高用户满意度和信任度。

现在我们已经澄清了用户反馈的定义及其好处,让我们来介绍不同类型的反馈以及它们的用途。

不同类型的反馈有哪些?

用户反馈主要有两个主要类别,即显式反馈和隐式反馈。这可以通过我们的新朋友ChatGPT(如下图所示)进行简洁明了的解释和说明。

ChatGPT解释显式和隐式反馈之间的区别。截图取自OpenAI的ChatGPT,并由作者编辑。

显式用户反馈是指用户直接、有意识地提供的关于他们的经验、意见或偏好的输入。正如您在ChatGPT界面中所见,点赞/点踩反馈是显式反馈的一个例子。

显式反馈可以进一步分为定量和定性。定量反馈包括可测量的评分,如点赞/点踩、用户满意度(也称为5点李克特量表)或最适合您从用户那里了解的任何自定义量表。

定性反馈通常包括一个开放的文本框,供用户提供书面反馈。将定量度量与定性反馈相结合,使AI团队能够了解用户评论背后的“为什么”,并揭示诸如AI错误、领域知识或用户偏好等细节。

选择负面定量回应后提交定性反馈。截图取自OpenAI的ChatGPT。

隐式用户反馈是指基于用户的行为、动作或模式提供的间接、无意识和无意识的数据。再次看一下ChatGPT用户界面,”复制到剪贴板”按钮就是OpenAI收集隐式反馈的例子。对于简历助手的例子,隐式用户反馈还可以通过跟踪用户对生成输出所做的任何编辑来获取。

在选择要实施的反馈类型时需要考虑到。显式反馈可以更清楚地了解用户反馈和想法。然而,在外部用例中,最终用户可能并不总是提供显式反馈,因为他们可能不理解如何受益(或感觉没有时间!)。在这种情况下,隐式反馈也可以很好地了解AI应用程序的使用情况,而不依赖用户采取直接行动。

根据应用程序和当前面临的挑战,您还应考虑要实施的措施。例如,如果您专注于提高模型性能,那么点赞/点踩的量化度量和评论可以帮助识别模型问题。但是,如果您更关注增加采用率,那么用户满意度评分可能更合适。

收集用户反馈的指南

在本节中,我们将介绍收集用户反馈并将用户见解整合到机器学习监控系统中的四个关键步骤(如下图所示)。

系统图表,概述了收集用户反馈并将用户见解整合到机器学习监控系统的高层架构。图片由作者提供。

第一步:在你的AI应用中设计和构建反馈组件

在确定为何收集用户反馈的目标后,你可以确定哪种类型的反馈最符合你的要求。通常在生成模型输出之后才实现用户反馈。然而,你可能希望在应用程序中的某些功能上收集反馈,以获得对这些功能的反馈。

应该在组件中捕获与所有反馈一起提交的AI模型元数据。这包括模型版本、提示或请求、模型输出以及用户人口统计信息(如用户ID和位置)等内容。

第二步:开发分析能力以理解用户反馈

对于定量反馈,这可能包括诸如用户满意度(CSAT/NPS)或随时间变化的平均正面/负面响应等图表,具有比较不同模型版本、用户或其他元数据的能力。

对于定性反馈,使用机器学习分析用户评论中的情感,并将反馈分类到不同的类别中。这可以监控不同类别的评论的不同情感/满意度指标。

第三步:确定AI问题

使用分析能力,可以识别反馈中的重复主题和主题,以对改进的领域进行分类。然后可以提出并优先解决AI问题。

在这个阶段,AI团队的角色是识别模型问题和用户问题,并确定解决它们的最佳方法。

要了解AI团队可能在用户反馈中找到的见解类型,请回顾一下“用户反馈对于AI的意义”部分。

第四步:将用户反馈整合回你的机器学习监控系统

将用户反馈整合到当前的机器学习监控系统中,将允许你设置警报(类似于性能监控或漂移检测)。例如,如果全球用户满意度得分低于某个阈值,可以触发警报通知AI团队采取行动。

此外,可以向AI团队或利益相关者发送摘要和每日报告,提供用户反馈的概述。

总结

总之,用户反馈使AI团队能够识别错误、微调模型并将模型与用户对齐。

以上内容也可以通过机器学习监控系统实现。然而,通过从用户的角度评估模型,我们可以发现传统机器学习监控系统所忽略的附加信息。

希望本文激发了您的兴趣,并为您提供了关于如何开始倾听用户并改进您的AI应用程序的初步思路。

如果您想了解更多关于AI用户反馈的内容,或者分享和讨论您对该主题的想法,请随时通过LinkedIn或电子邮件与我们联系。