掌握NLP:深度学习模型的深入Python编程

掌握NLP:利用Python深入学习深度学习模型

使用深度学习和Python进行文本分类的逐步指南及详细代码解释

Photo by Waypixels on Unsplash

在阅读众多关于文本数据、分类、循环神经网络以及使用文本数据开发机器学习项目的热门主题的文档和观看YouTube视频后,本文得以落地。许多信息并不那么用户友好,部分内容也很难理解,因此,我希望节省读者大量时间,并且阐明在任何机器学习项目中使用文本数据的最重要概念。

这里提供的示例支持代码可以在以下链接中找到:https://github.com/Eligijus112/NLP-python

本文涵盖的主题包括:

  • 将文本转换为序列
  • 将序列索引转换为嵌入向量
  • 深入解析循环神经网络(RNN)
  • 用于分类的损失函数
  • 使用Pytorch构建完整的自然语言处理(NLP)流程

NLP代表自然语言处理¹。这是一个关于如何在硬件和软件上执行以下任务的广泛主题:

  • 将一种语言翻译成另一种语言
  • 文本分类
  • 文本摘要
  • 下一个标记预测
  • 命名实体识别

还有很多其他任务。在本文中,我希望通过简单和编码示例介绍最流行的技术,让读者熟悉相关概念。

NLP中的许多任务都是从将文本拆分为标记(tokenizing the text²)开始。

文本标记化是将原始文本拆分为较小部分(即标记)的过程。这些标记可以是字符、子词、单词或它们的混合。

考虑以下字符串:

“在Python中进行NLP很有趣,而且有非常详细的文档。让我们开始吧!”

我将使用基于单词的标记,因为相同的逻辑也适用于更低级别的标记化。