转换器和位置嵌入:逐步掌握自然语言处理的教程

转换器和位置嵌入:自然语言处理教程

介绍Transformer架构,包括主要组件、优势、劣势、限制等。在本部分中,我们将介绍PositionalEmbedding层

我将开始一个关于Transformer的新教程系列。我将逐步在TensorFlow中实现它们,并解释所有部分。所有创建的层都将包含在机器学习训练工具(”mltu” PyPi库)中,以便可以在其他项目中轻松重用。

在这些教程的最后,我将创建有关在NLP任务中训练和使用Transformer的实际示例。

在本教程中,我将逐步实现“Attention is All You Need”论文中用于机器翻译任务的Transformer模型。该模型基于Transformer(自注意力)架构,是递归神经网络(RNNs)的一种替代方法。Transformer模型比传统的递归神经网络更直观,并在机器翻译任务上取得了最先进的结果。

目录:

  • Transformer架构介绍;
  • 实现位置嵌入层;
  • 实现注意力层;
  • 实现编码器和解码器层;
  • 构建Transformer模型;
  • 预处理用于机器翻译任务的数据;
  • 训练和评估模型;
  • 使用训练好的模型对新数据进行推理。

Transformer架构介绍

CNNs和RNNs vs. Transformers

如果你一直在关注我的博客,最近我一直在关注CNNs和RNNs,但我还没有涉及到Transformers。那么,它们之间有什么区别呢…