“预训练背景就是你所需要的一切”

“预训练的背景是你所需之事”

现代Transformer模型的驱动力主要来自于相应的数据,这使得它具备了强大的上下文学习能力。

生成式人工智能及其流行的Transformer模型如今无处不在地宣传,每时每刻都有新模型发布(请参见AI的膨胀现象)。在这个快速发展的人工智能领域,这些模型可能带来的价值似乎是无限的。像chatGPT这样的大型语言模型已经成为每个工程师资源库中的一部分,作家们使用它们来支持他们的文章,设计师们则通过计算机视觉模型的成果来进行首次可视化创作或寻求灵感。

如果这些令人印象深刻的Transformer模型不是魔法,那么它们的真正动力是什么呢?

然而,尽管这些成就和用途非常优秀且生成式人工智能提高了生产效率,但重要的是要记住,现代机器学习模型(如大型语言模型或视觉Transformer)并不具备任何魔法的能力(与事实上,机器学习或统计模型从未具备魔法的能力相似)。尽管大家可能会将模型的卓越能力视为魔法般的,一些领域的专家甚至谈论模型的幻觉等问题,但每个模型的基础仅仅是数学和统计概率(有时可能很复杂,但仍然是数学)。这就引出了一个根本性的问题:如果这不是魔法,那么真正驱动这些令人印象深刻的Transformer模型的是什么?

图1:展示了ChatGPT(使用GPT4)将其“先进技术”和“广泛培训”作为主要性能驱动因素。

每个模型的基础是数据

与任何模型(统计或机器学习)一样,训练数据对后续模型的性能影响最大。如果您没有高质量的大量数据来反映您想要模型学习的关系,那么没有任何可供训练的数据,生成的模型将表现不佳(著名的GIGO原理:垃圾进垃圾出)。这个数据建模的基本原则多年来一直没有变化。在每个革命性的新Transformer模型的背后,首先是一件事情:数据。数据的数量质量上下文将会…