强化学习:马尔可夫决策过程-第1部分

强化学习:马尔可夫决策过程-第1部分

介绍强化学习的核心 — 马尔可夫决策过程

Image by Ricardo Gomez Angel on Unsplash

在我之前的大部分文章中,我主要讨论了监督学习,并夹杂了一些无监督学习的要素。然而,在本文和接下来的几篇文章中,我将尝试解决强化学习的问题,并给读者一个清晰而直观的理解。

首先,让我们对机器学习进行一个总体概述。在机器学习中,有三个不同的主要子领域,分别是无监督学习、监督学习和强化学习。我们首先尝试理解它们之间的区别:

  1. 无监督学习:自动找出所有没有标签的数据点的模式或给它们标签,每个点是所有特征的向量,通常是通过对它们进行聚类来实现。想象一下,您搬进一个新房间,里面有衣橱和橱柜,还有您的所有物品。您仔细研究了房间和物品,并看到哪些物品彼此相似,然后按照类别将物品整理到它们各自的位置上。从本质上讲,您正在进行无监督学习 —— 这是一个单步骤的过程。
  2. 监督学习:现在您有了这些带有标签的数据点 —— 您被告知每个数据点属于哪个标签。然后,您找到能够将这些数据点正确匹配到标签的函数 —— 找到 y≈f(x)。想象一下,您正在学习强化学习,并且最初您有一些先入之见。因此,你的 f(x) 是随机初始化的。随着时间的推移,当您不断回顾学习材料时,您的概念变得更加牢固。从本质上讲,这个 y 是学习材料,f(x) 是您的理解。正如您所看到的,监督学习是一个单步骤的过程。
  3. 强化学习:强化学习与监督学习非常不同,因为它不依赖于标签进行学习,而是利用奖励。此外,强化学习通常是一个多步骤的过程 —— 有许多状态,每个状态都有数据点 —— 对于每个状态,智能体选择行动以最大化长期回报。在监督学习中,标签 y