您所在的位置：首页 - 文化 - 正文文化

不看好强化学习：「我确实更喜欢」

茹儿 2024-08-29 【文化】 1032人已围观

摘要机器之心报道编辑：张倩、小舟五十多年前的理论还值得再研究一下？「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从2016年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」在最近发布的一个帖子中，Meta首席人工智能科学家YannL

机器之心报道

编辑：张倩、小舟

五十多年前的理论还值得再研究一下？

「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从2016年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」

在最近发布的一个帖子中，Meta首席人工智能科学家YannLeCun发表了这样一番看法。

一直以来，YannLeCun都是强化学习的批评者。他认为，强化学习这种方法需要大量的试验，非常低效。这和人类的学习方式大相径庭——婴儿不是通过观察一百万个相同物体的样本来识别物体，或者尝试危险的东西并从中学习，而是通过观察、预测和与它们互动，即使没有监督。

在半年前的一次演讲中，他甚至主张「放弃强化学习」（参见《GPT-4的研究路径没有前途？YannLeCun给自回归判了死刑》）。但在随后的一次采访中，他又解释说，他的意思并不是完全放弃，而是最小化强化学习的使用，训练系统的正确方法是首先让它从主要观察（也许还有一点交互）中学习世界和世界模型的良好表示。

同时，LeCun也指出，相比于强化学习，他更倾向于MPC（模型预测控制）。

MPC是一种使用数学模型在有限时间内实时优化控制系统的技术，不看好强化学习：「我确实更喜欢」自二十世纪六七十年代问世以来，已广泛应用于化学工程、炼油、先进制造、机器人和航空航天等各个领域。比如，前段时间，波士顿动力就分享了他们利用MPC进行机器人控制的多年经验（参见《波士顿动力技术揭秘：后空翻、俯卧撑与翻车，6年经验、教训总结》）。

MPC的最新发展之一是与机器学习技术的集成，即ML-MPC。在这种方法中，机器学习算法用于估计系统模型、进行预测和优化控制动作。机器学习和MPC的这种结合有可能在控制性能和效率方面提供显著的改进。

LeCun的世界模型相关研究也用到了MPC相关理论。

最近，LeCun对于MPC的偏爱又在AI社区引发了一些关注。

有人说，如果我们的问题能够很好地建模，并且具有可预测的dynamics，MPC就会很好地发挥作用。

或许对于计算机科学家来说，信号处理和控制领域还有很多值得挖掘的东西。

不过，也有人指出，求解精确的MPC模型是个很难的问题，LeCun观点中的前提——「如果你有一个良好的世界模型」本身就难以实现。

还有人说，强化学习和MPC未必是二选一的关系，二者可能有各自的适用场景。

之前已经有一些研究将二者结合起来使用，效果很好。

强化学习vsMPC

在前面的讨论中，有网友推荐了一篇Medium文章，分析对比了强化学习与MPC。

接下来，就让我们根据这篇技术博客，具体分析下两者的优缺点。

强化学习（RL）和模型预测控制（MPC）是优化控制系统的两种强大技术。两种方法都有其优点和缺点，解决问题的最佳方法取决于特定问题的具体要求。

那么，两种方法的优缺点分别有哪些，又适用于解决哪些问题呢？

强化学习

强化学习是一种通过反复试验来学习的机器学习方法。它特别适合解决复杂动力学或未知系统模型的问题。在强化学习中，智能体学习在环境中采取行动以最大化奖励信号。智能体与环境交互，观察结果状态并采取行动。然后根据结果给予智能体奖励或惩罚。随着时间的推移，智能体将学会采取能够带来更积极奖励的行动。强化学习在控制系统中有多种应用，旨在提供动态自适应方法来优化系统行为。一些常见的应用包括：

强化学习（RL）工作流。

模型预测控制

模型预测控制（ModelPredictiveControl，MPC）是一种广泛使用的控制策略，已应用于许多领域，包括过程控制、机器人、自主系统等等。

MPC的核心宗旨是使用系统的数学模型来预测未来的行为，然后利用该知识来产生控制操作，以最大化某些性能目标。

经过多年的不断改进和完善，MPC现在可以处理日益复杂的系统和困难的控制问题。如下图所示，在每个控制间隔，MPC算法计算控制范围的开环序列，以优化预测范围内受控体（plant）的行为。

离散MPC方案。

MPC在控制系统中的应用包括：

其中，MPC在机器人系统中用于规划和优化运动轨迹，确保机械臂和机器人平台在各种应用（包括制造和物流）中平稳高效地运动。

下表列出了强化学习和MPC在模型、学习方法、速度、稳健性、样本效率、适用场景等方面的区别。一般来说，对于难以建模或具有复杂动态的问题，强化学习是合适的选择。对于建模良好且动态可预测的问题，MPC是一个不错的选择。

MPC的最新进展之一是与机器学习技术的集成，即ML-MPC。ML-MPC采用和传统MPC不同的方法来进行控制，使用机器学习算法来估计系统模型、进行预测和生成控制动作。它背后的主要思想是使用数据驱动模型来克服传统MPC的局限性。

基于机器学习的MPC可以实时适应不断变化的条件，使其适用于动态和不可预测的系统。与基于模型的MPC相比，基于机器学习的MPC可以提供更高的准确性，尤其是在复杂且难以建模的系统中。

此外，基于机器学习的MPC可以降低模型的复杂性，使其更易于部署和维护。不过，与传统MPC相比，ML-MPC也有一些局限性，比如需要大量数据来训练模型、可解释性差等等。

看来，要想真正将MPC引入AI领域，计算机科学家们还有很长的路要走。

参考链接：https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

Tags：不看好强化学习「我确实更喜欢」

上一篇：艺术与科技的交融，显卡排名一览表的艺术解读

下一篇：带月的诗句飞花令，100句文学文化的浪漫之旅

您所在的位置：首页 - 文化 - 正文文化

不看好强化学习：「我确实更喜欢」

最近发表

目录[+]