(3) 增强学习简介 · UCB CS294-112 深度强化学习中文笔记

# (3) 增强学习简介 > 作者：[谢天](https://www.zhihu.com/people/xie-tian-55-77) > > 来源：[POST 馆](https://zhuanlan.zhihu.com/c_150977189) ## Markov 决策过程与增强学习在上一篇中，我们已经熟悉了状态![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)、观测![](https://img.kancloud.cn/43/c6/43c665d984fa96ced4f70fa1e398f02d_15x11.jpg)、行动![](https://img.kancloud.cn/83/44/834474ce919482e0232071b1ae5607d8_15x11.jpg)、策略![](https://img.kancloud.cn/0d/ed/0dedffb02246e773016f98a4ecff6331_67x19.jpg)或者是![](https://img.kancloud.cn/31/36/31362ed68b5916b9f2147c5c87dce3ea_64x19.jpg)的概念，也知道了从包含认知世界所需要的所有信息的状态![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)得到观测![](https://img.kancloud.cn/43/c6/43c665d984fa96ced4f70fa1e398f02d_15x11.jpg)，然后使用策略![](https://img.kancloud.cn/0d/ed/0dedffb02246e773016f98a4ecff6331_67x19.jpg)做出行动![](https://img.kancloud.cn/83/44/834474ce919482e0232071b1ae5607d8_15x11.jpg)，最后由状态![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)和行动![](https://img.kancloud.cn/83/44/834474ce919482e0232071b1ae5607d8_15x11.jpg)经过系统固有的转移概率分布函数 (dynamics) ![](https://img.kancloud.cn/e2/77/e2777a2e36311626e3682430c9a73882_95x19.jpg)得到下一期的状态![](https://img.kancloud.cn/c3/89/c38924b21817d4267b9832500da80649_29x13.jpg)这样周而复始的过程，同样我们也明白了给定状态![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)，假设之后的状态![](https://img.kancloud.cn/c3/89/c38924b21817d4267b9832500da80649_29x13.jpg)和之前的状态![](https://img.kancloud.cn/7b/a0/7ba0b27343d3ae9759049a20d8e0e2e0_29x12.jpg)等无关的 Markov 性。我们同样给出了如果我们有充分的数据，一定程度上可以做监督学习（模仿学习）。但是如果我们没有数据的话，需要用一些方式来定义这个任务。在上一篇的结尾也提到，一个核心是要去设置一个收益函数![](https://img.kancloud.cn/92/96/9296aefc475ab23d151ba45a5db7a89c_48x18.jpg)，它定义了什么样的 (状态, 行为) 二元组是好的，以及什么样的是不好的。譬如在自动驾驶问题中，如果汽车开得很顺利速度很快，收益函数应该很高；而如果和其他车辆撞上了，那么收益函数应该很低。收益函数的目的不是直接告诉你现在应该做什么，只是告诉你哪些结果会被认为是比较好的。而增强学习问题的一大目标就是，弄清楚现在应该做什么，使得未来的结果会更好。这也被称为延迟收益 (delayed reward) 问题，现在的行为可能不立即产生什么奖惩，而会对将来的结果产生严重的影响。状态![](https://img.kancloud.cn/64/cb/64cb6c12af33e812d8c18d8492e5fdab_8x8.jpg)、行动![](https://img.kancloud.cn/47/d8/47d8a736c44fb8a90e7c5ef4ef497af2_10x8.jpg)、收益函数![](https://img.kancloud.cn/92/96/9296aefc475ab23d151ba45a5db7a89c_48x18.jpg)和转移概率![](https://img.kancloud.cn/2f/1d/2f1d9bf08b7c1aaf05c529174354ecb7_67x19.jpg)共同定义了**Markov 决策过程** (Markov Decision Process, MDP)。为了描述这一过程，我们先来回顾一下俄罗斯数学家 Andrey Markov 提出的 Markov 链。Markov 链本身并不是直接与增强学习相关。Markov 链![](https://img.kancloud.cn/58/b2/58b296a1c98f99371005b81d82d055f1_98x19.jpg)由状态空间 (state space) ![](https://img.kancloud.cn/2d/d3/2dd3705e8f553f342fdcef1e9dcb1531_12x13.jpg)和转移算子 (transition operator) ![](https://img.kancloud.cn/32/7f/327f8bd1266af11dc4aa0e1bb3d62432_16x14.jpg)共同构成。每一个状态![](https://img.kancloud.cn/2b/75/2b755e0a2d51a20409554da9553ac111_43x14.jpg)可以是离散的分类变量，也可以是连续的数值之类；转移算子确定了概率![](https://img.kancloud.cn/99/15/9915ab57c4af7ed1f7508f07ef20f8e3_72x19.jpg)，是给定当前状态转移到下一个某状态的转移概率。该算子其实是一个线性算子。如果状态是离散的，令![](https://img.kancloud.cn/49/b5/49b513ed6ad599768305868667104ba5_114x20.jpg)为在![](https://img.kancloud.cn/64/9c/649cbb0dc497a73d3cb2a543eaaf7933_6x12.gif)时刻处于状态![](https://img.kancloud.cn/ce/2f/ce2f0b65d997f22465d44c6f3c70f0df_6x13.gif)的概率，从而![](https://img.kancloud.cn/18/e9/18e9ecd087bdeb9b69763c1b3172625f_16x12.jpg)是一个加和为 1 的概率分布向量，表示了在![](https://img.kancloud.cn/64/9c/649cbb0dc497a73d3cb2a543eaaf7933_6x12.gif)时刻的概率分布；令转移概率![](https://img.kancloud.cn/28/b5/28b5420b9327f2ced7f83ad96f5eec69_183x20.jpg)，则这些概率组成一个转移概率矩阵![](https://img.kancloud.cn/32/7f/327f8bd1266af11dc4aa0e1bb3d62432_16x14.jpg)，且有![](https://img.kancloud.cn/90/a6/90a63fca29ab75b00572f654d02f65b0_88x18.jpg)的关系。如果状态是连续的，则无非状态变成了无数个，转移概率矩阵无穷大，但还是线性的。Markov 性体现在转移概率的定义上，当我们知道状态![](https://img.kancloud.cn/47/9a/479a2ff68b18f35cf381aa7b7e44e815_13x11.jpg)了，下一个状态就不依赖于其他的信息了，分布为![](https://img.kancloud.cn/99/15/9915ab57c4af7ed1f7508f07ef20f8e3_72x19.jpg)。 Markov 决策过程 (MDP) 是将 Markov 链放在一个决策环境的扩展产物，在 1950 年代由 Richard Bellman 等人提出。Markov 决策过程![](https://img.kancloud.cn/7c/9b/7c9b2d87d9b49775798e88423e44e50c_138x19.jpg)相比之前多了一些组件。其中状态空间![](https://img.kancloud.cn/2d/d3/2dd3705e8f553f342fdcef1e9dcb1531_12x13.jpg)保持不变，多了一个行动空间 (action space) ![](https://img.kancloud.cn/44/aa/44aa123929d3bc0ade47bd586e788f96_15x14.jpg)，行动![](https://img.kancloud.cn/7d/d5/7dd5c4fa53198b36957f066c084869c4_47x14.jpg)同样可以是离散的也可以是连续的。在这里，转移概率不仅受到状态影响，还受到行动影响，因此转移算子![](https://img.kancloud.cn/32/7f/327f8bd1266af11dc4aa0e1bb3d62432_16x14.jpg)在这里变成了一个张量，每个元素![](https://img.kancloud.cn/1e/bf/1ebf8834fa0c26f41faf6b9bd7e64fd0_249x20.jpg)。如果令![](https://img.kancloud.cn/30/a4/30a41e492595b0833d047b8879021981_118x20.jpg)，![](https://img.kancloud.cn/4f/7f/4f7f1e98d03244c52f253fe3d9acd3fc_119x20.jpg)的话，同样存在一个线性关系： ![](https://img.kancloud.cn/13/f6/13f696a38bc97e03504e333d34ef057e_179x42.jpg)。因此下一期的状态只与当期状态和当期行动有关系。最后一部分![](https://img.kancloud.cn/5e/2b/5e2b69b8877119e29cf30c4fc3ed5ca8_47x18.jpg)是收益函数，是一个![](https://img.kancloud.cn/63/88/6388126f29ba79fc40cb352dc652895d_91x14.jpg)的映射。一个更加广义的问题被称为**部分可观察的 Markov 决策过程** (Partially Observed Markov Decision Process, POMDP)。该过程![](https://img.kancloud.cn/a8/44/a8443eb238854a9efe3afca3b3b0dccf_180x19.jpg)新增了两个组件：观察空间![](https://img.kancloud.cn/4a/ac/4aac266aa0804465081afa921ee1e26c_14x13.jpg) (observation space)，同样是可以离散可以连续的；![](https://img.kancloud.cn/71/e0/71e0d6365f0a05ed9f8be829899c4b19_11x13.jpg)为排放概率 (emission probability)，决定了给定由![](https://img.kancloud.cn/47/9a/479a2ff68b18f35cf381aa7b7e44e815_13x11.jpg)后，![](https://img.kancloud.cn/50/dd/50dd650e375035428b2ac869fe0c751b_14x11.jpg)的概率分布为![](https://img.kancloud.cn/16/35/16351637ff0c341d4707776ee8f5ffa3_56x19.jpg)。现在我们来说明增强学习的目标是什么。在这里我们假设的策略函数是清楚的，![](https://img.kancloud.cn/cd/cb/cdcb05294b000178204d45fc9850b833_53x19.jpg)可以由一个参数为![](https://img.kancloud.cn/d7/4e/d74edaaf2305d2d981f9c13219e34f36_9x12.gif)的深度神经网络确定（这里先假设完全可观察）。我们将状态![](https://img.kancloud.cn/64/cb/64cb6c12af33e812d8c18d8492e5fdab_8x8.jpg)输入到深度神经网络之中，得到行动![](https://img.kancloud.cn/47/d8/47d8a736c44fb8a90e7c5ef4ef497af2_10x8.jpg)，共同输入给环境。环境通过某些转移概率函数![](https://img.kancloud.cn/2f/1d/2f1d9bf08b7c1aaf05c529174354ecb7_67x19.jpg)（一般我们假设这个是不知道的），得到新的状态![](https://img.kancloud.cn/c5/bb/c5bbb12c97a20586fea19f5589959be7_12x14.jpg)，形成一个循环。 ![](https://img.kancloud.cn/4e/37/4e3726ec65aea9c2f38050176e353d46_720x212.jpg) 我们考虑一个有限长度的(状态, 行动)轨迹 (trajectory)，![](https://img.kancloud.cn/1b/5e/1b5e5371ba913539eb5759841bc121c9_178x19.jpg)。对于这样的轨迹，发生的概率为![](https://img.kancloud.cn/de/a3/dea356d3c044d135e3b34a7ef62ce90d_292x54.jpg)。我们通常不能控制初始状态![](https://img.kancloud.cn/7d/c0/7dc001f4ead5b1767e77565f91a9f92d_14x12.jpg)，而后面每一期的行动都由当前状态和策略函数决定，转移概率具有 Markov 性，故可以表现为这样乘积的形式。而我们想做的是，选出一组最优的神经网络参数![](https://img.kancloud.cn/a7/22/a7223030d9a433ad42117cfd720820c4_15x13.jpg)，使得![](https://img.kancloud.cn/6b/17/6b17278317e44b3d2881f593e45b38dc_285x55.jpg)，即最大化总收益函数的关于轨迹期望。收益可以非常稀疏，如打一场篮球赛，如果最后时点赢了那么得到收益为 1，此外其他时间的收益都是 0；如果想减少自动驾驶中车祸的数量，也可以设置成一旦发生车祸就给予-1 的收益；总体来说，如何使用收益函数是非常灵活的。值得一提的是，这个发生概率其实本质上是一个关于增广的空间![](https://img.kancloud.cn/6d/46/6d466bc75e0064ecc088f082d91e0f57_38x18.jpg)的 Markov 链。具体来说，可以表示为![](https://img.kancloud.cn/00/c3/00c356eee5e56647778a9e24776e2e81_380x19.jpg)。对于有限长度的轨迹问题，事实上![](https://img.kancloud.cn/e0/be/e0be965eda80d05816fa680ccf10d8d1_314x54.jpg)，只需要关注这个 Markov 链在一个时间点上的边际分布就可以了。对于![](https://img.kancloud.cn/46/1c/461c756db6849eb7119a47f1f9eeb480_55x13.jpg)的无限长度的问题，由于我们之前已经把![](https://img.kancloud.cn/6d/46/6d466bc75e0064ecc088f082d91e0f57_38x18.jpg)的 Markov 链化，因此有![](https://img.kancloud.cn/07/39/073939a00c8fc3577b97e5e362b4a9ba_151x45.jpg)，进一步![](https://img.kancloud.cn/65/a9/65a9120364a862f3e7abfc1c106738bc_9x13.gif)步转移算子![](https://img.kancloud.cn/58/19/5819381de622556d248a3a61084676d7_159x45.jpg)。我们考虑![](https://img.kancloud.cn/e1/cc/e1cc6c6ef74c45851e88c38d933d8909_67x18.jpg)是否逐渐收敛到一个平稳分布 (stationary distribution)：之所以说平稳分布，是因为经过一次状态转移后，分布不发生变化，这样的分布也就是![](https://img.kancloud.cn/60/a3/60a3dbd5291963bf59b489e85e85a37e_61x17.jpg)，也就是![](https://img.kancloud.cn/f4/cb/f4cb7d17014c4bb782f70664b4d2850f_101x18.jpg)，或者说以矩阵特征向量的角度考虑，![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg)是![](https://img.kancloud.cn/32/7f/327f8bd1266af11dc4aa0e1bb3d62432_16x14.jpg)特征值为 1 的特征向量。由于![](https://img.kancloud.cn/32/7f/327f8bd1266af11dc4aa0e1bb3d62432_16x14.jpg)是一个随机矩阵，给定一些正则条件，这样的向量总是存在的，此时![](https://img.kancloud.cn/5e/f4/5ef4542c033c5077479a90eed092aad0_90x18.jpg)是其平稳分布。对于无限长度的问题，我们也可以对目标函数进行平均，![](https://img.kancloud.cn/06/e9/06e9ff22f1979717bbbda85d7fb04d9a_526x54.jpg)，它将完全由平稳分布下的情形所控制。在增强学习中，我们几乎只关心期望，而不是个别的值，这是因为这给予了我们很好的数学性质。譬如说在盘山公路上开一辆车，如果正在运行那么收益函数为+1，如果掉下山崖则收益函数为-1。此时，我们的收益函数是不光滑的。假如说我们从非常复杂的系统中提取出了一个概率![](https://img.kancloud.cn/e5/66/e5667c7e3fc1b8c14ae35b6a7df81152_12x16.jpg)，作为掉下的概率，此时如果我们关注期望的话，平稳分布下的收益函数的期望，![](https://img.kancloud.cn/90/16/90168aa147510ae7c1ede60a3ee4ffbb_151x21.jpg)则是关于![](https://img.kancloud.cn/e5/66/e5667c7e3fc1b8c14ae35b6a7df81152_12x16.jpg)光滑的！这一点非常重要，允许我们使用诸如基于梯度的算法来优化非光滑的目标（可能是非光滑的转移，或者非光滑的收益函数等等导致）。 ## 增强学习算法的一般步骤 ![](https://img.kancloud.cn/25/85/258524f828b8d83a061b446e5ea1cc8f_720x481.jpg) 几乎所有的增强学习算法都会由以上三部分组成，即便可能特定算法会退化掉其中的一部分。 1. 生成样本。我们在现实世界（或者模拟器）中运行我们的策略，来收集轨迹样本。有的时候，这个轨迹可以只是一个转移，这样就是一个很短的轨迹；也可以是完整的有始有终的一条。 2. 拟合模型/估计收益。对于策略学习算法，则这个部分就是策略评估 (policy evaluation)；对于基于模型 (model-based) 的增强学习算法，那么就是模型拟合，等等。这个步骤中并不改变我们的行为，但我们想通过研究我们在第一步中得到的样本来看发生了什么，当前的策略有多好，或者尝试去分析物理环境等等。 3. 改进策略 (policy improvement)。根据之前的研究结果，改进策略，再投入到第一步的运行中去。不同算法在不同步骤要做的事情也差异很大。在绿色方块的第二步，策略梯度法只需要计算一个求和来得到收益，诸如![](https://img.kancloud.cn/2f/9a/2f9a2e9e3e8c5d9b85ef2bb0c896af06_118x54.jpg)；基于值函数的方法诸如演员-评论家算法和 Q 学习算法则需要去拟合一个用深度神经网络代表的函数![](https://img.kancloud.cn/98/e0/98e060894277558387de0871cb46ce33_62x20.jpg)；基于模型的方法则需要去估计转移概率![](https://img.kancloud.cn/2f/1d/2f1d9bf08b7c1aaf05c529174354ecb7_67x19.jpg)。在蓝色方块的第三步，策略梯度法需要对神经网络的参数进行一个梯度步的调整，诸如![](https://img.kancloud.cn/ed/ce/edceec99965961b0dcf7785bcc39b7f2_158x18.jpg)；Q 学习法则需要找到一个使得 Q 函数最大的行动![](https://img.kancloud.cn/ca/20/ca2003e82e193c01485e06ccd660e65c_197x20.jpg)；基于模型的方法则需要用诸如反向传播梯度的方法去优化策略函数![](https://img.kancloud.cn/cd/cb/cdcb05294b000178204d45fc9850b833_53x19.jpg)。哪些步骤昂贵，哪些步骤廉价，实际上取决于选取的算法和要处理的实际问题。就生成样本而言，如果我们运行诸如汽车、机器人等，需要用到真实物理系统的话，我们只能以 1 倍速度实时收集数据（除非有了时间穿梭手段）；当然如果我们有多个物理系统我们可能可以进行并行的数据收集。而如果我们使用诸如 MuJoCo 之类的模拟器，那么我们可以期待有 10000 倍速度的加速。因此取决于我们的具体问题，生成样本的难度可能会是效果的主要限制因素，当然也可能微不足道。同样，绿色方块第二步策略梯度法计算求和很容易，而 Q 学习方法的拟合神经网络则代价较高而且很难并行。但是，在蓝色方块第三步中，Q 学习方法对应的找到使得 Q 函数最大的行动却非常容易，而基于模型的方法的反向传播优化策略则相对很困难。 ![](https://img.kancloud.cn/3f/9d/3f9d6f772e0b1406c2b5d851e885454b_720x136.jpg) 让我们来考虑如上的有点像基于模型的增强学习中，用反向传播来训练增强学习模型的玩具例子。假设环境![](https://img.kancloud.cn/18/8e/188ee644e8202aad30eac11166858841_10x16.gif)是确定性的（非随机），策略![](https://img.kancloud.cn/51/fc/51fc5d9fb45ddeede09c1d1d021ad75e_16x11.jpg)用一个神经网络表示，给定状态，输出一个行动。整体形式类似于一个 RNN，优化策略的方法是反向传播收益函数的梯度。要做这件事情，我们要收集数据（第一步橙色方块），也要更新模型![](https://img.kancloud.cn/18/8e/188ee644e8202aad30eac11166858841_10x16.gif)，保证模型和实际发生状态转移情况一致（第二步绿色方块）。前向传播用于计算收益函数，也属于第二步绿色方块之中。唯一属于第三步蓝色方块的是计算梯度并将其反向传播。当然这个过程也是非常不足的，譬如只处理确定性的环境和策略，只处理连续的状态和行动，且优化问题也是非常难以求解的。 ## Q 函数与值函数那么如何处理随机系统呢？因为我们考虑的目标主要还是关于期望，因此条件期望成为一个非常有力的工具。我们想描述一个期望![](https://img.kancloud.cn/e1/4b/e14b5a03bded06d30419a3e0291ed6f6_208x54.jpg)，而这个期望则可以由一系列嵌套的条件期望所描述： ![](https://img.kancloud.cn/3b/91/3b910922163db32078c548762ffadfa1_592x42.jpg) 其中第一个状态是服从于初始分布，在第一个期望内，我们要对第一个行动取期望，是服从于我们的策略的。第二个状态是以第一个状态和第一个行动为条件的，依次类推。而我们想做的事情，首先是找到一个非常好的**第一个行动**![](https://img.kancloud.cn/9a/71/9a715bb2906369f4ae0e6a432d8357ea_16x12.jpg)。我们把中间的递归部分抽离出来，令![](https://img.kancloud.cn/a1/5e/a15ef75a2b735969af34714b497a03b0_565x20.jpg) ，如果我们知道这样一个函数，那么原来的问题就可以被简写为 ![](https://img.kancloud.cn/b7/bc/b7bc930182c9ecbcfcb9233028bd0709_278x20.jpg) ，我们对![](https://img.kancloud.cn/9a/71/9a715bb2906369f4ae0e6a432d8357ea_16x12.jpg)的选择的事实上就不依赖于其他的东西了。我们把这样的函数称为**Q 函数** (Q-function)，表现为在状态![](https://img.kancloud.cn/7d/c0/7dc001f4ead5b1767e77565f91a9f92d_14x12.jpg)下，选择行动![](https://img.kancloud.cn/9a/71/9a715bb2906369f4ae0e6a432d8357ea_16x12.jpg)所能带来的收益函数的条件期望。如果 Q 函数已知，那么改进策略将非常容易：我们只需要挑选一个![](https://img.kancloud.cn/9a/71/9a715bb2906369f4ae0e6a432d8357ea_16x12.jpg)，使得 Q 函数最大化就行了，即![](https://img.kancloud.cn/f4/72/f4727c115194eca505d9b8e1636aa17b_286x28.jpg)。同样也可以在其他步骤类似这样做法。那么我们给几个重要的概念下定义。 > Q 函数：![](https://img.kancloud.cn/71/d8/71d8fd7ddfdb1870225813cab2f90e38_273x54.jpg)，从![](https://img.kancloud.cn/64/9c/649cbb0dc497a73d3cb2a543eaaf7933_6x12.gif)时刻状态为![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)起，执行行动![](https://img.kancloud.cn/83/44/834474ce919482e0232071b1ae5607d8_15x11.jpg)，之后根据给定策略决策，未来总收益的条件期望。 > 值函数 (value function)：![](https://img.kancloud.cn/ae/03/ae03d6757346e09c73ff05304be7d9c3_226x54.jpg)，从![](https://img.kancloud.cn/64/9c/649cbb0dc497a73d3cb2a543eaaf7933_6x12.gif)时刻状态为![](https://img.kancloud.cn/e6/ff/e6ff47409e99fe4837deac4e204cfd59_13x11.jpg)起，根据给定策略决策，未来总收益的条件期望。由于 Q 函数和值函数的特别关系，值函数也可以表示为![](https://img.kancloud.cn/84/e4/84e4f4aeb79018baec60777151666804_238x20.jpg)。需要注意的是，这样定义的函数的右上角都有个![](https://img.kancloud.cn/6d/fd/6dfd85ec70d7f0f9a5e214f7e3e76e3f_11x8.gif)，指的是它都是关于某个特定的策略函数![](https://img.kancloud.cn/6d/fd/6dfd85ec70d7f0f9a5e214f7e3e76e3f_11x8.gif)的。注意，经过这样的标记后，![](https://img.kancloud.cn/cd/de/cdde3c80cf28b240987d80c96e474882_136x20.jpg)正好是增强学习的目标函数。这两类函数之所以有价值，是因为如果我们已知这两类函数，那么能够很方便地做很多事情。譬如： * 如果我们现在有一个策略![](https://img.kancloud.cn/6d/fd/6dfd85ec70d7f0f9a5e214f7e3e76e3f_11x8.gif)，且我们知道![](https://img.kancloud.cn/bf/b6/bfb6993e10f221503e9423566c382a5b_62x18.jpg)，那么我们可以构造一个新的策略![](https://img.kancloud.cn/1e/e2/1ee2a6b78a7ad140d836219b07d2f489_260x25.jpg)，这个策略至少和![](https://img.kancloud.cn/6d/fd/6dfd85ec70d7f0f9a5e214f7e3e76e3f_11x8.gif)一样好（且可能更好），是因为这一个策略最大化未来的收益。这一点与当前的![](https://img.kancloud.cn/6d/fd/6dfd85ec70d7f0f9a5e214f7e3e76e3f_11x8.gif)是什么没有关系。 * 我们可以增加“好的行动”发生的概率。注意到，![](https://img.kancloud.cn/57/64/57648d45f48f7bfa968d030052764996_154x19.jpg)代表了在策略![](https://img.kancloud.cn/96/98/9698e56446ea3a102cc88c53f05cf2ac_47x19.jpg)下的行动平均水平，所以如果![](https://img.kancloud.cn/15/f1/15f1bf41a522e52c6325bcddd5b410dd_131x18.jpg)，就能说明![](https://img.kancloud.cn/47/d8/47d8a736c44fb8a90e7c5ef4ef497af2_10x8.jpg)是高于平均水平的行动。那么我们便可以改动策略，使得这样的行动发生的概率上升。 ## 增强学习算法的权衡回顾我们的目标，![](https://img.kancloud.cn/73/18/73189b1bd3b8e845d29afdd645be52fb_217x55.jpg)。在增强学习中，有以下几类基本算法： * **策略梯度法**：这类算法直接对目标函数关于参数求梯度。本质是一阶最优化算法，求解无约束优化问题的通用方法。 * **值函数方法**：这类方法尝试去近似估计**最优策略下的**值函数或 Q 函数，而并不揣测策略函数是什么。注意此时策略并需要不显式表达出来，只需要选择使得 Q 函数最大的行动即可（或者值函数类似于动态规划中的手段）。 * **演员-评论家 (actor-critic) 方法**：这类方法尝试去近似估计**当前策略下的**值函数或 Q 函数，并用这个信息求一个策略的梯度，改进当前的策略。所以也可以看作是策略梯度法和值函数方法的一个混合体。 * **基于模型 (model-based) 的增强学习方法**与上面的几类都不同。它需要去**估计转移概率**来作为模型，描述物理现象或者其他的系统动态。有了模型以后，可以做很多事情。譬如可以做行动的安排（不需要显式的策略），可以去计算梯度改进策略，也可以结合一些模拟或使用动态规划来进行无模型训练。我们来看基于模型的方法如何分解成三个方块的步骤。在第二步绿色方块中，显然它需要去学习转移概率![](https://img.kancloud.cn/e2/77/e2777a2e36311626e3682430c9a73882_95x19.jpg)。在第三步蓝色方块中，改进策略可能有很多不同的选项。 1. 有了模型，我们可以抛开策略，直接使用模型去模拟安排。对于连续问题，可以用一些轨迹优化和最优控制的方法；对于离散问题，可以使用譬如蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 的方法来对离散的行动空间进行计划。 2. 我们可以将梯度反向传播回策略之中，这通常需要一些技巧来使得它能真正起效。 3. 也可以使用模型来学习值函数和 Q 函数。如果运气好，在一个空间足够小的离散环境下可以使用动态规划，一个更流行的方法是用这个模型生成综合的“经验”，然后进行无模型训练（如 Dyna 算法）。值函数类算法在绿色方块中做的是去拟合一个值函数或者 Q 函数，而蓝色方块的策略改进部分则没有显式的过程，策略仅仅是去选一个行动使得 Q 函数最大。直接的策略梯度法的绿色方块做的是计算收益![](https://img.kancloud.cn/14/ad/14ad20a4875ce73cb084d4283a4731b2_134x38.jpg)，蓝色方块做的是计算一个梯度![](https://img.kancloud.cn/06/2b/062b1a343310dfd60a1c32fbf324a995_207x38.jpg)，这一点做起来是非常神奇的。演员-评论家算法是两者的混合，因此这两个它都做一点：绿色方块它拟合值函数或者 Q 函数，并用这些函数去评估收益，蓝色方块还是跟策略梯度法做的一样，走一个梯度步。为什么我们需要那么多中不同的强化学习算法？在强化学习中，没有一个单纯的算法在所有情形下都表现得很好，因此算法之间需要有很多**权衡点**：首先是**样本效率** (sample efficiency)，就是要有一个不错的策略效果需要橙色方块收集多少数据；其次是**稳定性**和**易用性**，主要体现在选择超参数和学习率等调参的难度，在不同的算法中这个难度可以差别很大。不同的算法也有不同的前提假设：有些算法假设系统动态和策略是随机的，有些是确定性的；有些连续有些离散；有些有限期 (episodic) 有些无限期。还有一个很现实的问题是，在不同的问题下，要去表示一个东西的难度是不一样的，譬如有些问题去表示一个策略是比较容易的，而有些问题去拟合模型更容易：因此方法的选择对于特定问题很有关系。在橙色方块中，我们主要关心样本效率。样本效率意味着我们要得到一个好的策略，需要收集的样本数量：这决定了我们需要在模拟器或者真实世界运行我们的策略多久才能让它到一个稳定状态。最重要的一点是，我们的算法是否是**离线** (off-policy) 的。离线的意义是我们可以在不用现在的策略去生成新样本的情况下，就能改进我们的策略。其实就是能够使用其他策略生成过的历史遗留数据来使得现在的策略更优。**在线** (on-policy) 算法指的是每次策略被更改，即便只改动了一点点，我们也需要去生成新的样本。在线算法用于梯度法通常会有一些问题，因为梯度算法经常会走梯度步，些许调整策略就得生成大量样本。 ![](https://img.kancloud.cn/a0/95/a095ef285864bc18b1f9875a4549b516_720x162.jpg) 上图是一个算法间的样本效率比较图（是非常粗糙的，具体效果如何其实非常依赖于特定的问题）。以竖线为分界点，离线算法有较高的样本效率，在线算法则较低。如最右侧的进化算法，甚至都不使用梯度信息，只是把参数当成一些黑盒子，使用一些不可微函数的方法来作用在参数上：它们需要最多的样本，因为它们没有利用梯度信息。在线的策略梯度法也是在线算法，每次策略更改后需要重新收集数据，但它利用了梯度信息所以会高效一些。演员-评论家算法在两侧都可以有。离线的 Q 学习法，通常学习 Q 函数可以是完全离线的，样本效率较高。基于模型的深度增强学习方法更有效，更极端的基于模型的浅度增强学习方法不去拟合神经网络，使用一些更加高效的贝叶斯方法，但通常会引入一些很强的假设来作用于一些特定的问题。然而样本效率低并不代表这个方法是“坏”的。为什么我们会用一个样本效率较低的算法？答案有很多，其中一个答案是现实时间并不与样本效率相同。如果你有一个很快的模拟器，可能你根本不关心收集样本所需要的时间；我们关心的是真实发生的时间消耗，优化我们的策略需要花多少时间，其中包含模拟时间和优化神经网络的时间。有一些时候，将进化算法进行并行是最快的；在线的策略梯度法有时候也很容易做并行，也相当快，如果模拟是相当廉价的。相对的，基于模型的增强学习，即便它们充分利用数据，真实时间也相当慢，因为可能去拟合了很多个不同的神经网络模型（转移概率、策略），需要反向传播很长的序列，有可能更昂贵。关于稳定性和易用性，我们需要问一系列问题。首先是这样的算法收敛么？如果收敛的话，收敛到什么地方？它在所有情况都收敛么？至于这为什么会成为问题，我们在监督学习中训练巨大的模型，在现在技术下通常收敛得不错。这是因为，在监督学习中，我们采用的基本上都是某种意义上的梯度下降法，而这样的算法分析起来是相对简单的，大家对它比较了解，也有很好的让它收敛的办法。而增强学习通常不使用梯度下降法，譬如 Q 学习法本质上是一个不动点迭代的过程，在一定条件下收敛；基于模型的增强学习，当我们在优化转移模型时，它并不优化期望收益函数；策略梯度法是梯度方法，比较好用，但它的样本效率比前两者都要低。这些都是权衡，更聪明的算法可能更难用。很多方法都有缺点，如值函数拟合方法，一般来说我们优化的是它对期望收益函数拟合得多好，但是把这个函数拟合得好并不意味着有一个很好的策略，减少预测误差不见得最大化期望收益；在更坏的情况下，它什么都不优化，事实上，很多流行的值函数拟合方法在非线性的问题中并不能保证收敛性。基于模型的增强学习方法，立足于减少模型预测误差，这是一个监督学习问题，一般会收敛；但这不意味着一个更好的模型能得到一个更好的策略。策略梯度法是仅有的关于目标函数使用梯度上升方法的，但也有一些缺点。不同的方法由不同的假设。**完全的可见性**常常被值函数拟合类方法所假设，可以通过加入 RNN 的方法来缓解；**有限期**被纯策略梯度法和一些基于模型的增强学习算法假设，这些方法不用去训练值函数，对于有些机器人问题中确实是如此的（机器人拼乐高的例子）；**连续性和光滑性**也是一些连续的值函数学习法和一些基于模型的增强学习算法（如浅层学习）所假设的，如果知道连续性，那么可以有一些技巧可做。要看问题具体满足什么样的假设，然后选取合适的算法。值函数拟合方法有 Q 学习（深度 Q 网络 DQN）、时间差分学习、拟合值迭代等，策略梯度法有 REINFORCE、自然策略梯度 (Natural Policy Gradient)、信赖域策略优化 (Trust Region Policy Optimization, TRPO)等，演员-评论家算法如 A3C、基于模型的增强学习算法如 Dyna 和引导策略搜索 (Guided Policy Search)等。基于值函数方法的一个最经典的例子是使用 DQN 来打 Atari 游戏 (Mnih et al., 2013)，使用卷积神经网络来估计 Q 函数，学习的不是策略而是 Q 函数来预测未来的收益，并由此得到策略。Levine et al. (2016) 使用引导策略搜索 (GPS) 这样的基于模型的增强学习方法来做基于像素图像的机器人控制，拟合局部模型。Schulman et al. (2016) 使用加入值函数近似的策略梯度法 (TRPO) 来训练小人模拟行走，走的时间逐渐变长。