您所在的位置:首页 - 文化 - 正文文化
不看好强化学习:「我确实更喜欢」
茹儿
2024-08-29
【文化】
1032人已围观
摘要机器之心报道编辑:张倩、小舟五十多年前的理论还值得再研究一下?「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从2016年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」在最近发布的一个帖子中,Meta首席人工智能科学家YannL
机器之心报道
编辑:张倩、小舟
五十多年前的理论还值得再研究一下?
「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从2016年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」
在最近发布的一个帖子中,Meta首席人工智能科学家YannLeCun发表了这样一番看法。
一直以来,YannLeCun都是强化学习的批评者。他认为,强化学习这种方法需要大量的试验,非常低效。这和人类的学习方式大相径庭——婴儿不是通过观察一百万个相同物体的样本来识别物体,或者尝试危险的东西并从中学习,而是通过观察、预测和与它们互动,即使没有监督。
在半年前的一次演讲中,他甚至主张「放弃强化学习」(参见《GPT-4的研究路径没有前途?YannLeCun给自回归判了死刑》)。但在随后的一次采访中,他又解释说,他的意思并不是完全放弃,而是最小化强化学习的使用,训练系统的正确方法是首先让它从主要观察(也许还有一点交互)中学习世界和世界模型的良好表示。
同时,LeCun也指出,相比于强化学习,他更倾向于MPC(模型预测控制)。
MPC是一种使用数学模型在有限时间内实时优化控制系统的技术,不看好强化学习:「我确实更喜欢」自二十世纪六七十年代问世以来,已广泛应用于化学工程、炼油、先进制造、机器人和航空航天等各个领域。比如,前段时间,波士顿动力就分享了他们利用MPC进行机器人控制的多年经验(参见《波士顿动力技术揭秘:后空翻、俯卧撑与翻车,6年经验、教训总结》)。
MPC的最新发展之一是与机器学习技术的集成,即ML-MPC。在这种方法中,机器学习算法用于估计系统模型、进行预测和优化控制动作。机器学习和MPC的这种结合有可能在控制性能和效率方面提供显著的改进。
LeCun的世界模型相关研究也用到了MPC相关理论。
最近,LeCun对于MPC的偏爱又在AI社区引发了一些关注。
有人说,如果我们的问题能够很好地建模,并且具有可预测的dynamics,MPC就会很好地发挥作用。
或许对于计算机科学家来说,信号处理和控制领域还有很多值得挖掘的东西。
不过,也有人指出,求解精确的MPC模型是个很难的问题,LeCun观点中的前提——「如果你有一个良好的世界模型」本身就难以实现。
还有人说,强化学习和MPC未必是二选一的关系,二者可能有各自的适用场景。
之前已经有一些研究将二者结合起来使用,效果很好。
强化学习vsMPC
在前面的讨论中,有网友推荐了一篇Medium文章,分析对比了强化学习与MPC。
接下来,就让我们根据这篇技术博客,具体分析下两者的优缺点。
强化学习(RL)和模型预测控制(MPC)是优化控制系统的两种强大技术。两种方法都有其优点和缺点,解决问题的最佳方法取决于特定问题的具体要求。
那么,两种方法的优缺点分别有哪些,又适用于解决哪些问题呢?
强化学习
强化学习是一种通过反复试验来学习的机器学习方法。它特别适合解决复杂动力学或未知系统模型的问题。在强化学习中,智能体学习在环境中采取行动以最大化奖励信号。智能体与环境交互,观察结果状态并采取行动。然后根据结果给予智能体奖励或惩罚。随着时间的推移,智能体将学会采取能够带来更积极奖励的行动。强化学习在控制系统中有多种应用,旨在提供动态自适应方法来优化系统行为。一些常见的应用包括:

强化学习(RL)工作流。
模型预测控制
模型预测控制(ModelPredictiveControl,MPC)是一种广泛使用的控制策略,已应用于许多领域,包括过程控制、机器人、自主系统等等。
MPC的核心宗旨是使用系统的数学模型来预测未来的行为,然后利用该知识来产生控制操作,以最大化某些性能目标。
经过多年的不断改进和完善,MPC现在可以处理日益复杂的系统和困难的控制问题。如下图所示,在每个控制间隔,MPC算法计算控制范围的开环序列,以优化预测范围内受控体(plant)的行为。
离散MPC方案。
MPC在控制系统中的应用包括:
其中,MPC在机器人系统中用于规划和优化运动轨迹,确保机械臂和机器人平台在各种应用(包括制造和物流)中平稳高效地运动。
下表列出了强化学习和MPC在模型、学习方法、速度、稳健性、样本效率、适用场景等方面的区别。一般来说,对于难以建模或具有复杂动态的问题,强化学习是合适的选择。对于建模良好且动态可预测的问题,MPC是一个不错的选择。
MPC的最新进展之一是与机器学习技术的集成,即ML-MPC。ML-MPC采用和传统MPC不同的方法来进行控制,使用机器学习算法来估计系统模型、进行预测和生成控制动作。它背后的主要思想是使用数据驱动模型来克服传统MPC的局限性。
基于机器学习的MPC可以实时适应不断变化的条件,使其适用于动态和不可预测的系统。与基于模型的MPC相比,基于机器学习的MPC可以提供更高的准确性,尤其是在复杂且难以建模的系统中。
此外,基于机器学习的MPC可以降低模型的复杂性,使其更易于部署和维护。不过,与传统MPC相比,ML-MPC也有一些局限性,比如需要大量数据来训练模型、可解释性差等等。
看来,要想真正将MPC引入AI领域,计算机科学家们还有很长的路要走。
参考链接:https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27
Tags: 不看好强化学习「我确实更喜欢」
版权声明: 感谢您对【奚诗百科网】网站平台的认可,无特别说明,本站所有文章均归【奚诗百科网】平台所有,转载请说明文章出处“来源【奚诗百科网】”。 https://www.sptgyg.com/post/14117.html
最近发表
- 林俊杰免费听歌网,音乐爱好者的福音,林俊杰歌曲全收录
- 林俊杰全部歌曲免费听,音乐的盛宴,心灵的慰藉
- 四书五经,古典智慧的现代传承
- 艺术设计就业方向,探索适合你的职业道路
- 林俊杰音乐免费听,探索音乐共享的新纪元
- 华为手环6 Pro,智能生活的新伙伴
- 穿越时空的智慧,四书五经中的现代启示
- 音乐宝库,探索1000首经典歌曲的魅力
- 无论学说源自哪本书小学,探索知识的无限可能
- 五年级孩子读四书五经,开启智慧之门的金钥匙
- 艺术设计专业就业前景分析,机遇与挑战并存
- 艺术设计专业,描绘未来的色彩
- 华为MatePad Pro,重新定义生产力工具的智能平板
- 三星W系列手机,奢华与科技的完美融合
- 探索北京,十大免费景点排名及深度体验指南
- 探索知识宝库,小学四书的奥秘
- 时光的旋律,探索一百首经典老歌曲的魅力
- 艺术设计专业,创意与薪酬的完美融合
- 探索北京,30个免费景点全攻略
- 开启你的学术之旅,研究生择校咨询的艺术与科学
- 探索北京,免费景点的宝藏之旅
- 华为云账号登录官网,一站式指南
- 三星Galaxy S7 Edge,2016年的旗舰手机及其历史价值
- 985工程大学排名名单,中国顶尖学府的荣耀与挑战
- 华为荣耀10青春版,青春的风采,一图尽览
- 考研路上的钱包指南,预算大揭秘
- 华为MatePad Pro,您的智能生活新伙伴
- 时光回响,一千首经典老歌曲大全
- 考研路上的灯塔,揭秘考研辅导机构的神奇力量
- 穿越时空的旋律,一千首经典老歌曲的不朽魅力
- 旋律中的世界,全球著名音乐剧的魅力与影响
- 三星手机图片大全,视觉盛宴,科技与美学的结晶
- 旋律中的世界,探索全球著名音乐剧的魅力
- 三星W系列手机,高端奢华与卓越性能的完美结合
- 函授硕士研究生报考条件,开启你的远程学习之旅
- 英文经典音乐剧,穿越时空的旋律与故事
- 福建省美术学院排名大揭秘,艺术殿堂的十座灯塔
- 探索京城,北京免费景点全攻略
- 四书五经,古典智慧的宝库
- 索尼摄像机使用指南,轻松掌握拍摄技巧
- 考研路上的灯塔,为何选择多样的考研课程至关重要
- 旋律与梦想,探索著名英语音乐剧的魅力与影响
- 电影中的音乐之旅,西方音乐电影的魅力与启示
- 深入了解考研课程班的费用,一个全面的指南
- 探索北京,揭秘免门票的宝藏景区
- 考研课程费用解析,如何判断合适的投资
- 艺术之门,揭秘美术公办二本最低分数线的秘密
- 探索北京,十大必去景点深度游
- 舞动经典,探索歌舞剧电影的魅力
- 戴尔最新款笔记本型号,性能、特点与购买指南