聊天机器人即将颠覆音乐搜索

三个引人入胜的理由引发了范式转变

由DALL-E生成的图像,由作者编辑。

技术已经改变了我们搜索和发现音乐的方式。随着技术的不断进步,AI聊天机器人已经成为增强音乐搜索体验的有前途的工具。由于他们能够进行对话交互并提供量身定制的建议,聊天机器人有望彻底改变我们探索和享受音乐的方式。在本篇博客文章中,我将介绍三个引人入胜的理由,说明聊天机器人即将接管音乐搜索。

1 — 技术已经成熟

Alexandre Debiève在Unsplash上的照片

人工智能的最新进展将聊天机器人技术推向了新的高度,使其能够以更高的智能和细微差别理解和回答人类的查询。认识到对话式搜索优于传统方法的优势,微软和谷歌等行业巨头已经开始将AI聊天机器人纳入他们的网络搜索引擎中。

在音乐搜索领域,这种转变具有特殊的相关性,因为简单的基于关键字的搜索,类似于“谷歌搜索”,在过去几个月才开始变得流行。一些音乐科技初创公司,如Cyanite,已经在今年早些时候推出了自由文本音乐搜索功能作为突破性技术。在此之前,音乐搜索主要依赖于选择流派、心情或艺术家,并筛选可能的许多歌曲,以找到所需的歌曲。

然而,ChatGPT等模型的出现促进了从“自由文本”搜索到真正的对话搜索的过渡。这种变革性方法使我们能够克服重复的“输入-输出-重复”工作流,用动态和自然的对话取代它。这种范式转变与微软必应和谷歌等主要搜索引擎所见证的不断演化相一致。

此外,建立定制的音乐聊天机器人的可访问性已经达到了前所未有的水平。事实上,我在不到一天的时间内以不到5美元的成本建立了自己的音乐聊天机器人原型——但更多相关内容将在后续文章中介绍。虽然ChatGPT本身已经非常有用于音乐发现,但定制的聊天机器人系统提供了更精细的响应、与音乐数据库或网络播放器的无缝集成以及更大的对话控制。由于开源社区的最新发展,建立基于特定领域或公司数据的定制聊天机器人,以及根据个人需求进行定制,变得比以往任何时候都更容易。

2 — 对话是发现音乐最自然的方式

Christina @ wocintechchat.com在Unsplash上的照片

当涉及到音乐发现时,对话提供了一种自然和直观的方式来探索和发现新的歌曲或艺术家。我们经常依赖于朋友、音乐爱好者或专家的建议,因为这些对话使我们能够表达我们的喜好并收到个性化的建议。聊天机器人可以复制这种对话体验,使用户能够就他们的音乐口味进行对话,并获得量身定制的建议。

相比之下,传统的“谷歌搜索”工作流程,在过去的20年中,有时会感到不直观。当以这种方式搜索音乐时,我们遵循严格的步骤:

  1. 撰写描述我们正在寻找的内容的文本提示。
  2. 搜索响应并收听一些曲目。
  3. 如果不满意,我们要么分析如何改进我们的提示,以使搜索引擎更好地理解我们,要么返回步骤1。

这种方法的问题在于,每次搜索尝试都会有效地抹去所有先前的结果,即使它们对于搜索过程的后续阶段可能有用。这是聊天机器人表现出色的地方,因为它们有能力存储整个搜索历史,即对话。

假设您的提示是

一首节奏适中的朋克摇滚歌曲,女歌手演唱,歌词描述了无法得到的爱情。

传统的搜索引擎会执行搜索并向您推荐20首曲目,按预测相关性排序。您听了前5首曲目,但不喜欢它们。它们都是现场演出的或者节奏有点太快超出了您的口味。因此,您更改了您的提示

女歌手演唱的一首朋克摇滚歌曲,录制于录音室,节奏适中至缓慢,歌词描述了无法得到的爱情。

然后重新开始搜索。搜索引擎执行另一次(潜在的昂贵的)搜索,并向您呈现另外20首歌曲。这个过程会一直持续到您找到自己喜欢的曲目为止。

相比之下,音乐搜索聊天机器人更加优雅地解决了这个问题。您从您的提示开始

一首节奏适中的朋克摇滚歌曲,女歌手演唱,歌词描述了无法得到的爱情。

聊天机器人很聪明,会要求您更精确地指定节奏,因为它知道结果可能不够准确。您告诉聊天机器人“不知道,也许是110-130 bpm?”而不改变您的原始提示。在考虑到从对话中收集到的所有信息后,聊天机器人发起搜索并向您呈现一个新的、按预测相关性排序的20首曲目列表。

然而,在查看前5首曲目后,您发现它们再次是现场演出的,这是您没有指定的偏好。幸运的是,您可以利用聊天机器人的功能来优化结果,而不是回到提示阶段并重新开始搜索过程。您只需要求聊天机器人排除所有现场演出的推荐。聊天机器人理解了您的请求,将现有的20首曲目分为两类:录音室录制和现场演出。它然后向您呈现筛选后的结果,消除了进行另一次昂贵的搜索的需要。

将音乐搜索视为一个过程而不是一个简单的输入-输出操作的这种方法,明显有助于通常不知道自己想要什么的用户。一个能够…

  1. 通过询问后续问题或指出不精确的公式来引导用户描述他们的需求
  2. 根据进一步的规范快速更新其推荐

具有潜在破坏所有现有音乐搜索系统的能力。

3-领域特定的音乐聊天机器人可以像口袋音乐学家一样

Photo by Jonas Leupe on Unsplash

音乐聊天机器人最令人兴奋的前景之一就是它们作为领域特定的专家的潜力,类似于口袋音乐学家。音乐学家是对各种流派、艺术家、历史背景和其他音乐细节有广泛知识的人。通过将这种专业知识封装在聊天机器人中,用户可以即时访问大量信息和见解。

为了说明这一点,我们来考虑一个场景,您正在寻找一首体现特定音乐属性的歌曲,但您只能通过像“AC/DC风格的吉他独奏”这样的参考来描述它。虽然一款能干的音乐搜索引擎可以搜索带有吉他独奏的歌曲,但它可能会在理解参考方面遇到困难,特别是如果它的数据库中没有任何AC/DC的歌曲。在这种情况下,您唯一的选择是尝试表达什么使AC/DC的独奏听起来独特,这对于没有广泛音乐知识的人来说可能是具有挑战性的。

这就是口袋音乐学家聊天机器人变得无价的地方。在各种来源(如专辑评论、粉丝论坛、乐谱和发表的科学音乐分析)的培训下,音乐聊天机器人具有深刻的理解,知道一个典型的AC/DC吉他独奏的结构和演奏方式。因此,聊天机器人可以接受您的参考,并制定一个精确的提示,以一种可以有效利用搜索引擎的方式描述所需的音乐特征。

在这里,我要求ChatGPT列出AC/DC独奏的几个典型属性。这就是它想出的:

1. 节奏布鲁斯的影响。

2. 简单而易记的旋律。

3. 原始而粗糙的经典摇滚声音。

4. 力和标志性的节奏。

5. 悠扬的弯曲和颤音。

7. 高能量和激进的弹奏。

当然,这些结果并不惊人。然而,请记住这是一款通用的聊天机器人,没有特定的音乐学培训。你可以想象这样一款特定领域的聊天机器人能够提供更准确、更精细的描述。

这只是将音乐聊天机器人概念化为口袋音乐学家如何帮助改进搜索体验的一个例子。然而,这种可能性是无限的。例如,你可以通过询问聊天机器人列出一些有趣的爵士子类型并解释每个类型的关键特征来开始对话。然后,你可以选择一个听起来有趣的类型并在该类型内发起搜索。请考虑一下:当ChatGPT在2022年底发布时,没有人能够预测到它会为数百万用户带来如此广泛的用途。同样的情况也将适用于基于聊天机器人的音乐搜索。

开放性问题

Photo by JESHOOTS.COM on Unsplash

聊还是不聊

在前面的章节中,我提出了三个理由,说明我们可能正处于音乐搜索范式转变的边缘。虽然可能存在不同意见,认为这些理由无效,但关键问题在于聊天机器人音乐搜索的优势和可行性是否能够说服公司和研究机构开发这项技术。

显然,并不是每个人都认为聊天机器人将完全取代传统的搜索引擎。幸运的是,我们可以研究其他搜索领域的发展,特别是网络搜索。尽管像新的必应或谷歌搜索和Perplexity AI这样的网络搜索聊天机器人已经可用,但它们的使用仍然主要局限于技术爱好者和人工智能专业人士。显然,这些聊天机器人没有像通用(和离线!)聊天机器人ChatGPT那样获得广泛的采用。特别是它们远远无法取代传统的谷歌搜索引擎。

虽然这可能部分归因于产品成熟需要时间和潜在用户需要采用它们的原因,但也存在实际考虑因素,这些考虑因素有利于继续使用更传统的基于关键字或语义搜索。例如,搜索引擎经常用于查找我们以前遇到但不记得完整名称或网址的特定文章、网站或歌曲。在这种情况下,使用基于关键字的搜索并将搜索输入与与输入的关键字紧密对齐的结果进行匹配要实用得多。在这种情况下使用聊天机器人这样的复杂技术就像用大锤砸坚果一样。

此外,并不是每一次交互都需要是一次对话。例如,在特定类型的歌曲中搜索时,你可能不想与AI机器人进行对话。有两个原因造成这种情况。首先,你可能需要即时结果,因此来自搜索引擎的任何与提供搜索结果不符的响应都是浪费时间的。其次,使用聊天机器人可以将纯粹的进行音乐搜索的机械行为转变为社交交互。这种潜在的社交方面可能被视为缺点,特别是对于将音乐作为逃避社交环境手段的个人来说。

总之,我预计这种范式转变不会完全消除传统的音乐搜索方法。相反,我设想聊天机器人将被用于用户寻求指导和咨询而不是快速筛选音乐目录的场景中。在制作音乐方面,聊天机器人搜索可以极大地帮助找到商业或YouTube视频的完美音轨。然而,对于音乐流媒体服务的普通用户来说,在大多数情况下,采用更传统的搜索系统可能更实用。最终,这种范式转变可能会体现在制作音乐库和音乐流媒体服务中同时包含两种类型的搜索,以适应其用户的多样化需求。

技术实现

在今天的技术领域中,构建与您特定业务需求相符的定制聊天机器人已经变得非常容易。有几种方法可以实现这一目标。其中一种方法涉及利用OpenAI的GPT模型之类的基础模型通过其API并通过定制逻辑增强它们。另一种方法涉及利用开源语言模型并使用特定领域的数据进行微调,以确保相关性和准确性。

通过API使用预构建的基础模型,如GPT-4,提供了许多优点。首先,它使企业能够直接开始使用这些模型,而无需额外的数据获取、准备或机器学习工作。这对于没有或仅有有限的内部数据科学家的公司尤其有利,因为它将任务简化为软件工程问题。其次,无需担心构建本地或云基础架构以适应这些大型模型的计算要求。通过利用API,企业可以以相对较低的成本访问托管解决方案。

一个缺点是,您的数据,包括用户搜索输入,音乐元数据等,可能会被模型提供者(例如OpenAI)访问,甚至用于进一步训练他们的模型。这可能不符合内部数据治理指南或外部法规,具体取决于您的情况。另一个缺点是,这些第三方解决方案通常不允许在您的数据上进行模型微调。因此,无法开发早期所描述的“口袋音乐学家”类型的产品。

另一方面,使用自己的基础设施上的开源模型具有几个优点。首先,没有限制构建完全定制以满足您特定要求的聊天机器人。通过微调的过程,您可以将其转变为全面的音乐专家,或者将其训练以理解您公司或领域中使用的特定词汇。其次,工作流程的每一步,包括微调和模型推理,都可以在您自己的基础设施中实现。这消除了与内部指南或外部法规的合规性有关的任何顾虑。

使用开源模型构建自己的聊天机器人的缺点是会产生显着的工程开销。这消耗了计算和人力资源,您可能会在观察到初步结果之前犹豫投资于产品。此外,开源模型的过时速度加快。因此,您需要定期转换到更新的模型并重复微调过程,这会消耗额外的资源。相比之下,通过API提供的托管解决方案提供了更大的灵活性,可以尝试并切换到替代聊天机器人模型。

总之,如果您的目标是开发快速原型或缺乏必要的人力资源在适当的基础设施中微调和部署自己的模型,我建议目前选择托管的API解决方案。这正是我为我的聊天机器人原型所做的,欢迎您从我的方法中汲取灵感。但是,重要的是要注意,这些解决方案很可能被基于开源模型的更先进和定制的系统所取代。

进一步阅读

如果您对如何实现这样的系统感兴趣,请考虑查看我在这个GitHub存储库中在不到一天内构建的音乐搜索聊天机器人。我正在撰写一篇后续文章,更详细地描述我是如何构建它的。

以下是两篇关于音乐AI目前发展的更多文章,您可能会喜欢:

  • AudioGPT-让我们预见音乐制作的未来
  • 谷歌如何使用虚假数据集训练生成音乐AI