ChatGPT被推翻:克劳德如何成为新的AI领导者

ChatGPT被推翻:克劳德成为新AI领导者

 

我们已经习惯了在过去几个月里不断取得的人工智能突破。

但是没有任何一项创纪录的宣布能将新的标准提升到前一个标准的10倍,这恰恰是Anthropic最新版本的聊天机器人Claude所做的,它是ChatGPT最强大的竞争对手。

它实际上让周围的每个人都感到羞愧。

现在,您将很快将几个小时的文本和信息搜索转变为几秒钟,将生成式AI聊天机器人从简单的对话代理进化为真正改变生活的工具,不仅改变您的生活,也改变周围人的生活。

 

类固醇聊天机器人,关注善行

 

正如您所知,通过GenAI,我们为人工智能打开了生成文本或图像等内容的窗口,这太棒了。

但是,就像任何技术一样,它也有一个权衡之处,即GenAI模型缺乏对“好”或“坏”事物的认知或判断。

实际上,它们通过模仿人类生成的数据来生成文本,而这些数据往往隐藏了有争议的偏见和可疑的内容。

可悲的是,随着这些模型越来越强大,它们变得越来越大,简单地给它任何可能的文本,不管内容如何,尤其具有吸引力。

这带来了巨大的风险。

 

对齐问题

 

由于它们缺乏判断力,基础大型语言模型(Base LLM)特别危险,因为它们很容易学习到其训练数据隐藏的偏见,因为它们重现了同样的行为。

例如,如果数据偏向于种族主义,这些LLM就成为了种族主义的活生生体现。同样,对于恐同和任何其他形式的歧视也是如此。

因此,考虑到许多人将互联网视为测试他们不道德和不道德极限的理想场所,LLM在没有任何监管的情况下使用了几乎所有的互联网数据,这一点就足以说明其潜在风险。

值得庆幸的是,像ChatGPT这样的模型是这些基本模型的演变,通过将其响应与人们认为“适当”的对齐,实现了这一点。

这是通过一种被称为“强化学习人类反馈”的奖励机制来实现的。

具体而言,ChatGPT通过OpenAI工程师的命令判断进行过滤,将一个非常危险的模型转变成了不仅偏见较少,而且更加有用和善于遵循指令的模型。

毫不奇怪,这些LLM通常被称为指导调整的语言模型。

当然,OpenAI的工程师不应该决定对世界其他地方来说什么是好或者不好,因为他们也有他们自己的偏见(文化、种族等)。

归根结底,即使是最有美德的人也有偏见。

不用说,这个过程并不完美。

我们在几个案例中看到,尽管它们声称是对齐的,但这些模型对其用户的行为方式却有些可疑,几乎是卑鄙的,正如许多人在必应上所遭受的那样,迫使微软将交互的上下文限制在事情变糟之前的几条信息。

考虑到所有这些,当两位前OpenAI研究员创办Anthropic时,他们有另一个想法……他们将使用人工智能而不是人类来对齐他们的模型,采用了完全革命性的自我对齐概念。

 

从马萨诸塞州到人工智能

 

首先,团队起草了一个宪法,其中包括《世界人权宣言》或苹果的服务条款等内容。

这样,模型不仅被教会预测句子中的下一个单词(就像其他任何语言模型一样),而且还必须在每次回答中考虑一个确定了其可说和不可说内容的宪法。

接下来,AI将负责对齐模型,而不是人类,这可能使其摆脱人类的偏见。

但Anthropic最近发布的关键消息并不是将他们的模型与人类可以接受和利用的AI对齐的概念,而是最近的一个声明,使Claude成为GenAI战争中不可动摇的主要参与者。

具体来说,它将上下文窗口从9,000个标记增加到了100,000个标记。这是一项前所未有的改进,具有无与伦比的影响。

但这意味着什么,有什么影响呢?

一切都与标记有关

让我明确指出,“标记”这个概念的重要性是不可忽视的,因为尽管许多人可能告诉你的是,LLM并不是字面上预测序列中的下一个单词。

在生成响应时,LLM预测下一个标记,通常表示3到4个字符,而不是下一个单词。

自然地,这些标记可以表示一个单词,或者一个单词可以由其中几个标记组成(例如,100个标记表示大约75个单词)。

在运行推断时,像ChatGPT这样的模型会将您提供的文本分成几部分,并执行一系列矩阵计算,这个概念被定义为自注意力,它将文本中的所有不同标记组合在一起,以了解每个标记对其他标记的影响。

通过这种方式,模型“学习”文本的含义和上下文,然后可以进行响应。

问题是,这个过程对模型来说计算量非常大。

准确地说,计算要求与输入长度的平方成正比,因此您给出的文本越长(即上下文窗口),训练和推断模型的成本就越高。

这迫使研究人员将输入给这些模型的允许大小显著限制在约2000到8000个标记之间,后者约为6000个单词。

可预见的是,限制上下文窗口严重削弱了LLM对我们生活的影响能力,使它们成为一种只能帮助您完成一些事情的有趣工具。

但为什么增加这个上下文窗口可以释放LLM的最大潜力呢?

嗯,很简单,因为它释放了LLM最强大的功能:上下文学习。

无需训练的学习

简单地说,LLM具有一种罕见的能力,使它们能够在使用过程中进行学习。

正如您所知,训练LLM既昂贵又危险,具体原因是要训练它们,您必须将数据交给它们,这对于保护您的隐私来说并不是最佳选择。

此外,每天都会出现新数据,因此如果您不得不不断对模型进行微调和训练,LLM的商业案例将完全被摧毁。

幸运的是,LLM在这个称为上下文学习的概念上表现出色,即它们可以在不实际修改模型权重的情况下进行学习。

换句话说,它们可以通过在您请求它们所需的数据的同时为其提供所需的数据来学习回答您的查询…而无需对模型进行训练。

这个概念也被称为零样本学习或少样本学习(取决于它需要看到数据的次数),是LLM以准确回应给定请求的能力,而这些数据在此之前它们从未见过。

因此,上下文窗口越大,您可以提供的数据越多,因此它可以回答的查询就越复杂。

因此,尽管小的上下文窗口对于聊天和其他简单任务来说还可以,但它们完全无法处理真正强大的任务…直到现在。

在几秒钟内了解《星球大战》系列

我来直接说。

正如我之前提到的,最新版本的Claude,版本1.3,可以一次处理100,000个标记,或约75,000个单词。

但这并不能告诉你很多,对吧?

让我给你一个更好的概念,看看75,000个单词能装下什么。

 

从弗兰肯斯坦到安纳金

 

你现在正在阅读的文章不到2,000个单词,比克劳德一次性摄取的内容少了37.5倍。

但是有哪些相似大小的例子呢?嗯,更具体地说,75,000个单词代表:

  • 大约是玛丽·雪莱的《弗兰肯斯坦》一书的总长度
  • 《哈利·波特与魔法石》这本书的全部内容,共76,944个单词
  • 任何一本《纳尼亚传奇》的书,因为它们的字数更少
  • 最令人印象深刻的数字,足以包含多达8部星球大战电影的对话…合并在一起

现在,想象一下,一个聊天机器人可以在几秒钟内让你有能力询问它关于任何给定文本的任何事情

例如,我最近看到一个视频,他们给克劳德一个长达五小时的约翰·科尔马克播客,这个模型不仅能够用几句话总结整个播客的内容,还能够指出在五个小时的演讲中在某一特定时刻说的特定内容。

想象一下,这个模型不仅可以在一个75,000个单词的文本中做到这一点,而且令人惊叹的是,它还可以处理它可能是第一次看到的数据。

毫无疑问,这是学生、律师、研究科学家以及任何必须同时处理大量数据的人的巅峰解决方案。

对我来说,这是人工智能领域少有的一种范式转变。

毫无疑问,LMMs已经打开了真正颠覆性创新的大门。

令人难以置信的是,人工智能在短短几个月内发生了多么大的变化,以及每周的变化速度有多快。唯一我们知道的是,它在一次次的令牌更替中不断变化。

    Ignacio de Gregorio Noblejas 在技术领域拥有超过五年的综合经验,目前在一家顶级咨询公司担任管理咨询经理职位,在技术采用和数字化转型项目上提供战略指导。他的专业知识不仅限于咨询工作,业余时间他还与更广泛的受众分享他的深入见解。通过他在VoAGI上的写作和他的每周通讯《TheTechOasis》,他积极教育和激励他人了解人工智能领域的最新进展,这两个平台的受众分别超过11,000人和3,000人。

  原文。经允许转载。