LLM大灾变现在:开源克隆的复仇

这是关于开源项目如何挑战LLM行业的故事

“我们的人太多了。我们拥有太多的金钱和装备,渐渐地,我们疯了。”

弗朗西斯·福特·科波拉并不是在暗示人工智能公司花费过多并迷失方向,但他本可以这么做。《现代启示录》是史诗之作,但也是一个漫长、困难和昂贵的项目,就像GPT-4一样。我认为,LLM的开发已经趋向于过多的金钱和装备。有些“我们刚刚发明了通用智能”的炒作有些疯狂。但现在轮到开源社区发挥其所长:使用更少的金钱和装备提供免费竞争性软件。

OpenAI已经获得了超过110亿美元的资金,估计GPT-3.5的每次训练成本为500万至600万美元。我们对GPT-4知之甚少,因为OpenAI没有透露任何信息,但我认为可以安全地假设它不会比GPT-3.5小。目前全球存在显卡短缺,而这一次,不是因为最新的加密货币。产生生成式AI初创公司以巨大估值获得1亿美元以上的A轮融资,但他们不拥有用于驱动其产品的LLM的任何知识产权。LLM的热潮正在高速运转,资金正在流动。

曾经看起来命运已经注定:只有像微软/开放AI、亚马逊和谷歌这样的资金充裕的公司才能负担得起培训百亿参数模型。更大的模型被认为是更好的模型。GPT-3犯了错误?只要等到有一个更大的版本,一切都会好的!想要竞争的小公司必须筹集更多的资本,否则只能在ChatGPT市场上构建商品整合。学术界,预算更为受限,被排挤在了边缘。

幸运的是,一群聪明的人和开源项目将其视为挑战而非限制。斯坦福大学的研究人员发布了7亿个参数模型Alpaca,其性能接近于GPT-3.5的1750亿参数模型。由于没有足够的资源构建OpenAI所使用的规模的训练集,他们巧妙地选择了在一系列GPT-3.5提示和输出上对经过训练的开源LLM LLaMA进行微调。实质上,该模型学习了GPT-3.5的行为,这是一种非常有效的复制策略。

Alpaca在代码和数据上仅授权非商业使用,因为它使用了开源非商业LLaMA模型,而OpenAI明确禁止使用其API创建竞争产品。这确实创造了一种令人心动的前景,即在Alpaca的提示和输出上微调不同的开源LLM…创建第三个类似于GPT-3.5的模型,具有不同的许可证可能性。

这里还有另一层讽刺意味,即所有主要的LLM都是在互联网上可用的受版权保护的文本和图像上进行训练的,他们没有向版权持有人支付一分钱。这些公司声称根据美国版权法的“公平使用”豁免规定使用是“变革性的”。然而,当涉及到他们用免费数据构建的模型的产出时,他们确实不想让任何人对他们做同样的事情。我预计这种情况会随着权利持有人的觉醒而发生改变,并可能在某个时候走上法庭。

这是与作者对限制性开源的意见不同的另一个层面,对于生成式AI for Code产品,例如CoPilot,他们反对使用他们的代码进行培训,理由是未按照许可证进行使用。对于个人开源作者来说,问题在于他们需要展示具体的复制行为并遭受损失。由于模型使得将输出代码与输入(作者的源代码行)相链接变得困难,并且没有经济损失(它应该是免费的),因此很难提出诉讼。这不同于以营利为目的的创作者(例如摄影师),他们的整个商业模式都是在许可/销售他们的作品,而且由像Getty Images这样的聚合器代表他们提供实质性复制行为的证据。

LLaMA的另一个有趣之处在于它来自Meta。它最初只是向研究人员发布,然后通过BitTorrent泄漏到了世界。Meta的业务本质上与OpenAI、微软、谷歌和亚马逊不同,因为它不试图向你销售云服务或软件,因此具有非常不同的激励。它曾经在过去公开了计算设计(OpenCompute),并看到社区对其进行改进-它理解开源的价值。

Meta可能成为最重要的开源AI贡献者之一。它不仅拥有巨大的资源,而且如果有更多伟大的生成式AI技术的出现,它将从中受益:社交媒体上将有更多的内容可以用于其盈利。Meta已经发布了另外三个开源AI模型:ImageBind(多维数据索引)、DINOv2(计算机视觉)和Segment Anything。后者可以识别图像中的独特对象,并在高度自由的Apache许可下发布。

最后,我们还有一份谷歌内部文件的泄露“我们没有护城河,开放AI也没有”,这份文件对于封闭模型与社区创造的远远小于或等于其封闭源对应物的更便宜的模型的创新持消极态度。我说据称是因为无法验证文章的来源是否为谷歌内部。但是,它确实包含了这张引人入胜的图表:

稳定扩散,将图像从文本合成,是开源生成式AI能够比专有模型更快地发展的另一个例子。该项目的最新版本(ControlNet)已经改进了它,使其超过了Dall-E2的能力。这来自全球各地的无数人的大量摆弄,导致了一种进步速度,任何单一机构都难以匹配。其中一些摆弄者找到了使稳定扩散更快地训练和在更便宜的硬件上运行的方法,从而使更多人可以进行更短的迭代周期。

所以我们已经全面回到了起点。没有太多的钱和太多的设备,激发了整个社区普通人的巧妙创新。成为AI开发人员的好时光。Mathew Lodge是Diffblue的首席执行官,这是一家面向代码的AI初创公司。他在Anaconda和VMware等公司的产品领导方面拥有25年以上的多样化经验。Lodge目前担任Good Law Project董事会成员,并担任皇家摄影协会董事会的副主席。