赫瑞瓦特大学和Alana AI的研究人员提出了FurChat:一种基于大型语言模型的新型具有实体交互功能的对话代理系统

Researchers from Heriot-Watt University and Alana AI have proposed FurChat, a new dialogue agent system with entity interaction functionality based on a large-scale language model.

大型语言模型(LLMs)在科技正在飞速发展的世界中占据了重要地位。这些LLMs是非常复杂的计算机程序,可以以非常自然的方式理解、生成和与人类语言进行交互。最近的研究中,一种名为FurChat的创新型交互式对话代理已经亮相。像GPT-3.5这样的LLMs推动了自然语言处理领域的可能性边界。它们能够理解上下文、回答问题,甚至生成感觉像是由普通人写的文本。这种强大的能力为机器人等各个领域打开了无数的机遇。

Heriot-Watt大学和Alana AI的研究人员提出了FurChat,这是一个革命性的系统,可以充当接待员,进行动态对话,并通过面部表情传达情感。FurChat在National Robotarium的部署展示了其具有变革性的潜力,可以与访客进行自然对话,并提供有关设施、新闻、研究和即将举行的活动的各种信息。

Furhat机器人是一个类似人类面部的三维面具,采用微型投影仪将动画面部表情投影到这个面具上。该机器人安装在一个受监控的平台上,使其头部可以移动和点头,增强其逼真的互动。为了促进交流,Furhat配备了麦克风阵列和扬声器,使其能够识别和回应人类的语音。

其系统设计用于无缝应用。对话管理涉及三个主要组件:NLU、DM和自定义数据库。NLU分析输入的文本,分类意图并评估置信度。DM维护对话流程,向LLM发送提示并处理响应。通过网络爬虫创建一个自定义数据库,该数据库提供与用户意图相关的数据。提示工程确保LLM以自然的方式回复。它结合了一些少量学习和提示学习技术,以生成上下文感知的回复。手势解析利用Furhat SDK的面部手势和LLM从文本中的情感识别来同步面部表情和语音,创造出沉浸式的互动。使用Amazon Polly进行文本转语音转换,该功能在FurhatOS中可用。

未来,研究人员正准备扩展其功能。他们将目光投向实现多用户交互,这是接待员机器人领域的一个活跃研究领域。此外,为了解决语言模型中幻觉问题所带来的困扰,他们计划探索策略,如对语言模型进行微调,并尝试直接对话生成,减少对NLU组件的依赖。对研究人员来说,FurChat在Sigdial会议上的演示是一个重要的里程碑。它将成为向同行和专家展示该系统能力的平台。