GPT-5现已被OpenAI注册商标:这对ChatGPT的未来意味着什么?

GPT-5 is now a registered trademark by OpenAI. What does this mean for the future of ChatGPT?

它在暗示什么?.. ChatGPT-5?

图片:Bing Image Creator + Canva

一. GPT-5 的商标

在2014年的一次BBC采访中,史蒂芬·霍金说了以下的话——

完全人工智能的发展可能意味着人类的终结。

2014年的人工智能状况与今天不同。当时,人工智能在企业界引起了兴趣。在那一年,谷歌以超过6亿美元的价格收购了机器学习初创公司DeepMind。一年后,DeepMind开发出了AlphaGo,它击败了欧洲围棋冠军范晖。另一方面,Facebook正在创建一个可以预测两张图片是否显示同一个人的系统。

深度学习的发展正处于黄金时期。一个名为OpenAI的小型初创公司在2015年12月成立。现在,10年过去了,仿佛在人工智能领域取得了一个世纪般的进展后,OpenAI于7月14日向美国专利商标局(USPTO)申请了“GPT-5”的商标。

OpenAI的这一举动引起了许多猜测。许多人认为这暗示着他们在GPT4之后可能会开发一个新版本的语言模型。

这则新闻在7月31日由商标律师乔什·格本(Josh Gerben)发布在Twitter/X上。

GPT-5的商标注册对我们许多人来说都是个惊喜。

它在暗示什么?

二. OpenAI的代码解释器:一个秘密发布,连接GPT-4.5和GPT-5?

不久前,OpenAI发布了ChatGPT的最新功能:代码解释器。这无疑是对ChatGPT-4最令人印象深刻的功能补充。使用代码解释器,您现在可以在ChatGPT中运行Python程序,上传甚至下载文件。此外,它甚至可以在某种程度上处理图像。

在《Latent Space》(7月11日)的一期播客中,Simon Willison、Alex Volkov、Aravind Srinivas和Alex Graveley认为,代码解释器实际上是GPT-4.5。当然,OpenAI还没有宣布这是否确实是GPT 4.5。然而,这并不是什么新鲜事。我们之前已经见过OpenAI悄悄发布Gpt 3.5的行为。

然而,这次OpenAI可能没有宣布Gpt 4.5,这与OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)要求遵守六个暂停信的声明一致。

当谈到呼吁对AI开发进行为期六个月的暂停的病毒性公开信时,萨姆说了以下的话:

“有些方面我真的非常同意…在我们完成GPT-4的训练后,我们花了超过六个月的时间才发布它,所以花时间来研究模型的安全性,真正试图理解发生了什么并尽力减轻风险是很重要的。”

在同样的对话中,萨姆对于GPT-5的发展评论道:

“[OpenAI]不会在短时间内[开发新版本的gpt],所以从这个意义上说,[六个月的暂停]有点可笑。”

这次谈话是在今年3月的MIT举行的。您可以在这里观看短片。

根据这一点,我们中的许多人相信OpenAI很可能不会很快发布GPT-5。GPT-4完成训练和发布之间的明显间隔意味着GPT-5的发布尚未开始。

至少,这是人们的预期。

然而,OpenAI注册GPT-5的商标是一件新鲜事。难道OpenAI已经在开发GPT-5了吗?这是一种炒作人工智能通用智能(AGI)的新营销策略吗?AGI是一种假想的人工智能,可以在没有任何帮助的情况下完成任何任务。

眯起眼睛,我们可以在商标申请本身中找到线索。

III. 商标化未来:GPT-5进入多模态前沿的奥德赛

稍微详细一点,GPT-5商标申请涉及“与语言模型相关的可下载的计算机程序和计算机软件”。这意味着该商标涵盖了与LLM相关的“程序”和“计算机软件”。

GPT-5实际上可以是GPT-4的即将推出的迭代版本中可以利用的LLM。

Trademark Electronic Search System (TESS) (uspto.gov) Highlights done by me.

此外,提示的主要关键点来自我上面所突出显示的内容。商标申请包括用于语音和文本制作、语言处理和机器学习的软件。它还包括用于语音和语音识别、将音频文件转换为文本等的软件。

这给你带来了一些熟悉的感觉吗?除了生成回复外,还可以处理图像、声音、语音等的聊天机器人?

哈!GPT的多模态特性。

多模态是指能够处理多种类型的输入,例如图像、文本、音频等。人们期待GPT-4的发布,网络上到处都是“未来已经来临”的广告牌。当我们得知GPT-4在不久的将来“可能”能够处理图像时,这种期待变得更加高涨。在4个月前的GPT-4演示直播中,我们看到了该模型许多令人印象深刻的功能。其中包括解释梗和图像的各个元素等能力。

OpenAI总裁兼联合创始人Greg Brockman演示了他如何使用GPT-4创建一个网站。他通过输入他笔记本上的一个想法的照片,GPT4为网站生成了代码。那非常令人印象深刻。我们确信未来确实近在眼前。

但它有多近呢?到目前为止,我曾经体验过的最接近多模态体验是使用Bing Chat,它运行在GPT4上。理论上,你可以使用图像进行在线搜索,并根据图像获取结果。然而,Bing仍然感觉有些生涩,需要进一步开发。roboflow进行的一个实验展示了Bing的这种多模态功能有多好。

以下是报告中提到的一些值得注意的发现-

“…模型在计算图像中存在的人数方面表现不佳。令人惊讶的是,要求模型以简单的结构化格式(以JSON形式)进行表达比大多数其他提示更好。话虽如此,Bing无法提取确切的位置或边界框,要么产生虚构的边界框,要么根本没有答案…”

roboflow总结了该模型的优点和缺点-

Bing Chat模型的一个优点是其能够识别定性特征,如给定图像的上下文和细微差别…

还有

Bing的新功能在某些使用情况下存在明显的限制,特别是在需要定量数据的情况下。

显然,你不能使用它来创建一个网站,就像Brockman在演示中展示的那样,这使得Bing在‘几乎是多模态’(如果不是最低的话)。

我自己给它喂了一些梗,它无法解释其中的幽默,就像在直播中展示的那样。这个功能需要进一步改进,或者我的梗品味本身就不好。在我的情况下,两者都有可能(我不是梗的大粉丝)。

目前,只有基于GPT-4的Bing搜索允许您使用图像进行搜索。但是,似乎响应并不理想。

在ChatGPT的情况下,特别是GPT4,您可以将多模态与代码解释器联系起来。它使您可以使用文件和图像以及ChatGPT的强大功能一起工作。输入文档或图像确实是一种与文本不同的“新输入”,使GPT-4成为多模态。因此,说GPT-4还不是多模态是错误的。

代码解释器为多模态提供了一些体验。它对ChatGPT未来功能的期望进行了设定。

大家好!希望你们喜欢这篇文章。这篇文章是我《创意封锁》通讯的一部分——一个关于技术和人工智能的每周通讯。

如果你想阅读更多类似的内容,请前往Creative Block。

从商标中的“人工生成人类语音和文本”这个短语来看,GPT-5(如果有的话)很可能会在多模态上有很高的基础。ChatGPT可以处理(当然)文本,还可以处理图像、语音、文档等等。

那么这意味着GPT-5的发布即将到来了?事实并非如此,如果我们相信Sam的话。说GPT-5很快就会发布会与Sam Altman的说法相矛盾。他在四月份确认公司没有在研发GPT-5。

所以如果是真的,商标注册GPT-5似乎是提前确保其下一代GPT模型的权益。这将使其他公司无法进入并减少“竞争”。GPT-5可能是许多人预期的AGI,但专家似乎认为AGI目前尚不可能。

然而,从炒作和希望的角度来看,还有另一个视角来看待这个商标的举动。OpenAI似乎早早地掌握了这一点。

IV. 炒作、希望和AGI的梦想

在一篇博文中,Sam宣称他的公司的人工通用智能(AGI)将使人类受益,并且“有潜力为每个人提供令人难以置信的新能力。”

但我们离AGI还很遥远。它真的可能吗?我们不知道。

“经验丰富的专家”认为我们离AGI还很远。与此同时,“AI末日论者”认为我们离AGI很近。而“AI影响者”则完全不关心,只要有合适的内容就可以了。所有这些人对人工智能的未来有不同的观点,但有一条共同的线索:他们都在炒作的浪潮中前进。有些人反对它,有些人沉浸其中。OpenAI似乎展现了这种趋势。

记者Karen Hao在2020年撰写了一份关于OpenAI公司文化的详细报告,她认为OpenAI的内部文化已经开始更多地关注如何超越其他人,而不是安全和研究驱动的人工智能。因此,指责该公司“炒作人工智能周期”。

以下是该帖子的摘录。

但OpenAI与GPT-2的媒体宣传也遵循了一种早已确立的模式,这让整个人工智能社区感到警惕。多年来,引人注目的研究公告一再被指责为推动人工智能炒作周期……批评者还指责这个实验室过分夸大其成果。因此,该领域的许多人都倾向于保持与OpenAI的距离。

——Karen Hao,《The messy, secretive reality behind OpenAI’s bid to save the world | MIT Technology Review》

但让我们假设炒作和谣言是真实的——OpenAI正在他们的秘密地下室中构建GPT-5。

他们声称GPT-5将如此令人印象深刻,以至于会让人们质疑ChatGPT是否已经达到了AGI。未来又一次来临了。

根据叙述和炒作,GPT-5或ChatGPT 5将带来以下内容:

  • 多模态功能:GPT-4已经可以处理图像和文本输入——这是一个良好的开端。但仍有一些空间可以处理音频和视频输入。谷歌和Meta等公司已经展示了使用各种文本转语音和文本转音乐工具的能力。谷歌还尝试使用多模态人工智能开发PaLM 2语言模型。但这些能力仍然是零散的。如果传言是真的,那么下一个ChatGPT将是所有这些多模态功能的集合体。如果可能,它将成为一个多合一的ChatGPT。当然,生成型人工智能领域的竞争迫使OpenAI和其他人工智能公司创新出接近AGI的东西。这是这场炒作驱动的人工智能竞赛的期望。
  • 提高准确性:虽然不可能消除幻觉——即AI编造事实的倾向——但我们在更新的GPT版本中看到了改进。根据OpenAI的说法,GPT-4编造事实的可能性降低了60%。后续的AI模型试图比它们之前的版本更准确。我们在GPT-3和GPT-4、Llama和Llama2、甚至Claude和Claude 2中都看到了这一点——其中准确率有了明显的提高。未来版本的GPT可能会扩大其训练数据集以修复不准确之处。然而,这将使其资源消耗很大,因为即使当前的ChatGPT每天的运行费用也达到了70万美元。如果没有更好的方法使其更准确、资源需求更少,那么GPT-5离近期还很远。
  • 人工通用智能(AGI):这是每个人工智能研究公司都在努力实现的最终目标。它是否可行仍然有争议——但可以合理地说,AGI在短时间内是无法实现的。AGI在理论上是一种可以自行完成任何任务的人工智能,但如何在实践中进行处理是一个难题。计算机不在外界,为了为人类做任务,它们需要与环境进行交互。如何解决这个问题?目前没有人完全知道,但答案似乎在神经科学和深度学习的结合中。如果GPT-5能够实现AGI——这是高度推测的——那将是又一个里程碑;不仅对于人工智能,也对于整个技术领域。从算法中复活一个具有思维能力的生命绝对是奇迹。

V. 锻造AGI之梦

当我写这篇文章时,GPT-5商标申请正在等待审查。但是每当这样的事情成为头条新闻时,都会引起AI界的很多好奇和猜测。人群总是分为两派——一派持怀疑态度,另一派持乐观态度。一派相信昨天的事实,另一派相信明天的希望。然而,这两派都同样重要——尤其是在管理AI时。

随着更严格的法规和法律——如欧盟AI法案和美国AI法案——对于AI公司来说,为突破而辩护变得越来越困难。但是这样严格的措施是否合理呢?我相信是。

如果你观察过AI领域在过去几年里的发展数量,你会发现增长是指数级的。

但是由于企业界竞争日益激烈,安全方面的问题引起了人们的关注。OpenAI成为了一家盈利公司。投资者开始在任何“AI Powered”公司背后烧钱,使得AI竞争变得激烈。

仅仅取得进展是不够的。我们需要安全的进展——在自然语言处理、多模态和人工通用智能的发展中都需要安全。

但是推动商标注册——作为保护知识产权的一种方式,或者作为一种营销策略来制造炒作和期待——并不能降低竞争,只会增加竞争。

话虽如此,如果GPT-5能够达到我们的期望,那么它无疑将再次成为AI领域的游戏改变者。但前提是它能够成为接近AGI的东西,即使不是完全的AGI。

然而,即使在我们最疯狂的梦想中,如果我们真的达到了AGI,那么安全和监管必须是首要任务。否则,我们在AI竞赛中追求AGI,用霍金的话来说,可能会导致人类的终结。

野生的AGI可以创造奇迹——甚至从破坏的角度来看也是如此。

你有兴趣了解科技、科学和人工智能领域的最新事件吗?

那么你不会想错过我在substack上的免费周刊,我在其中分享有关科技和人工智能的见解、新闻和分析。

创意阻塞 | Aditya Anil | Substack

100+订阅者。与您相关的关于人工智能、技术和科学的每周新闻简报。点击阅读创意…

creativeblock.substack.com