开发一款适用于公司的ChatGPT,三分之一是技术,两分之一是流程改进

打造适用于公司的ChatGPT:三分之一技术,两分之一流程改进

Image by Author

GPT-based虚拟助手开发的过程、角色和复杂性的实际概述

在2023年,我们为巴尔干半岛最大能源公司Enefit的员工开发了一个基于GPT模型的虚拟助手。在第一篇文章中,我概述了问题、开发过程和初步结果。在本文中,我将深入探讨开发虚拟助手中非技术相关挑战的重要性。

介绍

2023年初,人们看到了大型语言模型技术的突破。与过去十年的聊天机器人不同,它们常常让用户在第二或第三个问题时感到失望。ChatGPT准确、多功能且真正有帮助。OpenAI和Microsoft提供通过开放API服务对GPT模型进行编程访问的决定,为实施公司特定用例创造了机会。

我们对Enefit虚拟助手项目采取的是基于技术已经准备好、内部兴趣很高、并且具备良好专业人员的软件开发挑战的知悉态度。

在开发的早期阶段,这种描述被证明是正确的:项目活动中近80%是软件开发任务,20%是与技术无关的活动。随着项目的推进,这些比例发生了显著变化,导致需要完全新的流程和角色。

数据/信息管理2.0

虚拟助手只能提供基于公司特定信息准确性的信息。换句话说,如果基础文档包含不正确、结构不良或过时的信息,虚拟助手无法提供更好的答案。这通常被称为GIGO(垃圾进、垃圾出)原则,为人工智能的能力设置了根本限制。

因此,构建虚拟助手的一个重要部分就是确保数据/信息的质量。这包括:

  • 指定每个文档/信息组的负责人,负责信息的准确性。
  • 商定一个反馈机制,允许虚拟助手用户报告错误答案或错误信息。
  • 建立一个反馈管理流程,确保用户反馈到达信息所有者并得到处理。

实质上,这意味着所有各方都参与数据管理:用户提供持续反馈和数据所有者负责响应该反馈。

文档所有者还可通过丰富文档部分的关键字、测试虚拟助手的准确性、必要时重组内容、测试、改进、测试、改进…改善虚拟助手在其管理范围内查找信息的能力。实质上,信息所有者应将虚拟助手视为需要合作的同事!

总结这一部分,我们将谈谈微软的新Copilot。目前,所有人都在关注Copilot的发布。大多数技术爱好者已经观看了演示视频,并期望它是一个半神奇的插拔式产品,能够提供对公司相关问题的良好答案。然而,这种期望很可能导致失望,因为即使Copilot也无法免受GIGO原则的影响。

超越Copilot的营销视频,我们会发现有关文档管理要求的广泛文档。总的来说,微软希望(阅读更多):

  • 所有过时的文档将被删除。
  • 所有文档应包含准确和相关的信息。
  • 公司应建立新的数据管理流程以确保上述情况。
  • 文档应用关键字丰富以增强搜索能力。

这些要求很高,尤其是当我们谈论存储在员工计算机上的文档时。

明确一些,我认为Copilot是一个很棒的新技术。然而,必须强调没有数据管理流程,任何虚拟助手技术都无法成功实施。

指导虚拟助手

大型预训练语言模型(例如GPT,Llama)是机械逻辑机器。这意味着如果我们希望它们能够扮演特定的角色(例如执行助理,合同助理,法律专家),我们需要指导它们并提供样式示例。

指导虚拟助手意味着为语言模型提供用户的问题和回应指南。例如,“你是Enefit的虚拟助手,了解公司政策和规则。如果你在可用信息中找不到答案,就说你不知道…”

通过这种指导方式,我们可以告诉虚拟助手如何表现,规定其回应的格式,并强调应该避免的内容。

然而,仅凭一般指南通常是不够的。例如,公司可能希望虚拟助手遵循特定的风格(正式的,友好的等)。在这种情况下,可以提供样式示例,这些示例本质上是问题-答案对。由于语言模型经过训练以继续现有文本,虚拟助手将尝试根据提供的样式示例回答用户问题。

制作回应指南和样式示例,测试不同版本并加以改进构成虚拟助手开发的第三个重要部分。

“虚拟助手训练师/指导”角色是全新的,并且只有对虚拟助手所属领域有深入了解的人才能胜任。有效地开发虚拟助手需要软件开发人员、信息所有者和虚拟助手训练师之间的密切合作,因为每个“糟糕”的回应可能都源于不同的专业人员。

结论

利用今天的技术开发一个80%效率的聊天机器人很容易,但创造一个95%品质的虚拟助手是一个复杂的任务。

乍一看,有人可能认为80%就足够了,那么为什么要为最后的20个百分点付出那么大的努力呢?事实上,根据过去十年对聊天机器人的经验,我们知道,一个80%的准确率只能达到用户的“认知实用性阈值”。

这个“认知实用性阈值”是我们心中的一个隐含基准,但我们无法精确定义这个限制的位置。然而,使用技术,我们很快就能明白这个限制是否已经被突破。如果技术的质量低于这个阈值,我们将完全放弃使用这项技术。

换句话说,80%和95%之间的差别在于,在第一种情况下,没有人会开始使用这项技术,在第二种情况下,它成为许多员工的日常助手。

80%和95%准确率之间的差别在于,在第一种情况下,没有人会开始使用这项技术,在第二种情况下,它成为许多员工的日常助手!

为了实现最后的15-20%,有必要实施一个数据管理系统,确保基础信息的相关性,创建与虚拟助手开发相关的新角色和流程,对所有相关方进行新技术培训,并在战略和运营层面支持实施和采用。因此,技术只占虚拟助手开发的1/3,而组织和过程相关的挑战占据了剩下的部分。