简化Transformer 使用你理解的词语进行最先进的自然语言处理——第1部分——简介
Simplified Transformer Introduction to state-of-the-art Natural Language Processing - Part 1
Transformer是一种深度学习架构,对AI的发展做出了杰出贡献。它是AI和技术领域的重要阶段,但也有一些复杂之处。如今,关于Transformer的资源已经相当丰富,那为什么还要再做一个呢?有两个原因:
- 我对自学很熟悉,并且根据我的经验,阅读不同人对相同理念的描述可以大大增强理解。
- 我很少读到一篇文章,觉得它解释得足够简单。科技内容创作者往往会过于复杂化或者解释不足。应该明确的是,没有什么是火箭科学,甚至火箭科学也不是。你可以理解任何东西,只需要一个足够好的解释。在这个系列中,我尽量提供足够好的解释。
此外,作为一个将自己的职业归功于文章和开源代码的人,我认为我有义务回报。
这个系列将尝试为那些对AI几乎一无所知的人和那些了解机器学习的人提供一个合理的指南。我打算如何做到这一点呢?首先并且最重要的是——解释。在我的职业生涯中,我大概阅读了接近1000篇技术论文(比如这篇),我所面临的主要问题是作者(或许是下意识地)假设你知道很多东西。在这个系列中,我打算假设你知道的比我为此准备时阅读的Transformer文章要少。
此外,我将结合直觉、数学、代码和可视化,使系列内容如同一个糖果店——每个人都有所收获。考虑到这是一个相当复杂领域的高级概念,我冒着你会认为:“哇,这进展太慢了,别再解释那些显而易见的东西了”的风险,但如果你自己想:“他在说什么?”的话,风险就小得多了。
Transformer,值得你花时间吗?
这是什么麻烦事?它真的很重要吗?嗯,作为世界上一些最先进的以AI为驱动的技术工具(例如GPT等)的基础,它可能确实如此。
尽管与许多科学进步一样,一些想法以前已经被描述过,但关于这种架构的深入详细描述来自于“Attention is all you need”论文,该论文声称以下是一个“简单的网络架构”。
如果你和大多数人一样,你不认为这是一个简单的网络架构。因此,我的工作就是尽力让你在阅读完这个系列之后,对自己说:“这仍然不简单,但我确实理解了。”
那么,这个疯狂的图,到底是什么意思?我们看到的是一个深度学习架构,这意味着这些方块中的每一个都应该被转化为一些代码片段,而所有这些代码片段一起将完成一些目前人们还不知道如何实现的工作。
Transformer可以应用于许多不同的用例,但最著名的可能是自动化聊天。它可以像懂很多东西一样谈论许多主题。在某种程度上类似于《黑客帝国》。
我希望让人们只读他们实际需要的内容,因此这个系列将根据我认为应该讲述Transformer故事的方式进行分解。第一部分在这里,它将关于架构的第一部分——输入。