深度学习中的迁移学习指的是什么?

深度迁移学习:你了解它的真正含义吗?

机器学习和深度学习中的预训练模型

Photo by Arnold Francisca on Unsplash

简单来说,它是一种利用在数据集上训练的模型,在新的、不同的数据集上运行的技术。核心思想是将经过训练的模型的知识应用于新的但相关的应用程序。由于具有语义信息的大数据,这种技术在计算机视觉和自然语言处理(NLP)领域更加有用。

从头开始训练深度学习模型存在的问题是什么?

  1. 如果没有公开可用的数据,需要大量的标记数据,这需要更多的时间和精力。
  2. 在大型数据集上训练模型需要很长时间。

避免在大数据上训练模型的解决方案

  • 我们可以使用预训练模型。

预训练模型是已经在不同的大型数据集上以不同的类别进行了训练的模型。如果我们的输入数据与预训练模型的类别不同,为了解决这个问题,迁移学习技术起着重要作用。

按类型进行预训练:

  1. 对于计算机视觉:VGG、ResNet、MobileNet等。
  2. 对于NLP:GPT-3/4、Bert、XLNet、T5等。

迁移学习的好处:

  1. 节省模型训练时间。
  2. 在大多数情况下,比ANN(人工神经网络)获得更好的结果。
  3. 能够用少量数据进行训练。

例子:

  1. 让我们以VGG16架构模型为例,该模型在ImageNet(1000个类别)上进行了训练。它有卷积层和全连接层。卷积层用于捕捉空间信息,全连接层用于对对象进行分类。
  2. 假设我们的分类不属于这1000个类别之一;那么我们保留预训练模型的卷积层,并添加自定义的全连接层。由于这样做,之前经过训练的知识将被应用于自定义的层进行训练,使用的数据较少。

迁移学习的工作原理: