让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26
核心思路:从画大纲到扣细节
让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26 – 量子位
首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26
一水
2026-04-06
13:35:27
来源:
量子位
核心思路:从画大纲到扣细节
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。
它们生成的轨迹经常陷入
局部合理但全局偏航
的窘境。
它们太关注眼前的每一步,却忘了最终的目的地。
针对这一痛点,厦门大学和香港科技大学提出一种名为
MAGE
(魔法师,Multi-scale Autoregressive Generation)的离线强化学习新算法。
MAGE与现有序列生成方法不同,MAGE采用自顶向下的“由粗到细”生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。
MAGE的核心思路非常符合人类的直觉:
“自顶向下、由粗到细”
。
这就好比画一幅素描,你不会一上来就描绘眼睛的睫毛,而是先画出整体的身体轮廓(宏观规划),再逐步细化五官和表情
(微观动作)
△MAGE的思考过程
从一场”迷宫寻宝“揭示AI规划的盲区
为了直观展示现有模型的缺陷,研究团队设计了一个
迷宫吃金币小实验
。智能体需要从随机起点出发,依靠对环境的
长程空间理解
,先吃银币,再吃金币,最后抵达终点。
△各个算法在迷宫环境的表现
然而,面对这种需要全局规划的场景,现有的模型纷纷暴露了缺陷。
Decision Transformer受限于
单向自回归特性带来的全局上下文缺失
,它在长程规划中完全迷失方向,最终连终点都未能抵达。
Decision Diffuser则由于扩散模型固有的
局部生成偏差
,生成的轨迹往往只能保证局部合理;虽然智能体抵达了终点,却遗漏了关键的一枚金币,全局连贯性较差。
Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹,但由于其固定的
双层结构过于僵硬
,
高低层策略之间缺乏有效协同
,生成的轨迹甚至出现了物理违规的“穿墙”现象,全局规划与局部动作严重脱节。
相比之下,MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的
宏观全局轮廓
,随后利用多尺度Transformer在
更细的时间尺度上逐层细化
,顺利规划出完整的路径。
MAGE的核心思路:从画大纲到扣细节
MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块,并辅以精确的控制机制:
△MAGE的架构图
MTAE多尺度轨迹自编码器:
MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控
全局长程结构
,最细尺度的Token则详细建模
短期的动态细节
。
多尺度条件引导自回归生成:
模型使用Transformer序列化地生成这些多尺度Token。在生成每层时,都会严格以“目标回报”和“初始状态”作为条件进行约束,确保智能体的每一步都在朝着最终目标前进。
条件引导细化与动作决策:
因为把连续世界变成离散Token会丢失信息,普通的生成过程容易让轨迹起点偏离现实。为此,MAGE在解码器中集成了轻量级的适配器(adapter)模块,并引入了
条件引导损失函数Lcond
,强制解码出的初始状态与真实环境是精确对齐的。最后,通过潜在逆动力学模型决定最终的动作。
实验表现:长序列任务全面超越,推理速度满足实时控制
研究团队在包含Adroit、Franka Kitchen、AntMaze等
5个离线RL基准测试
中,将MAGE与
15种
具有代表性的基线算法进行了广泛的评估。
多任务表现出色
在极具挑战的高维连续控制
Adroit机械臂任务
中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法。在强调子目标执行顺序的
Franka Kitchen组合任务
中,MAGE凭借捕获全局结构和局部细节的能力,以相当大的优势超越了所有竞争算法。
在
迷宫导航
任务中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力。
极高的推理效率与部署潜力
MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据表明,MAGE的运行速度比Hierarchical Diffuser快
约50倍
,比Decision Diffuser
快80倍
。其每步推理时间保持在27毫秒,完美满足了
真实机器人控制
所要求的20 Hz
实时运行门槛
。
结语
MAGE成功地将多尺度轨迹建模与条件引导相结合,通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天,机器人不再需要人类一口一口地“喂”奖励,而是能够自主审视全局,制定长远计划并流畅执行时,也许具身智能的下一个奇点就真正到来了。
论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/
作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
强化学习
论文
一水
OpenAI又曝出内讧了!IPO前夜高层大换血
2026-04-06
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
2026-04-03
国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了
2026-03-27
从Token到词元:全模态时代的基模与交互入口
2026-03-27
扫码分享至朋友圈
相关阅读
不好美国要捧杀了!新研究:中国正在成为全球科学领导者
用AI模型分析600万篇论文
一水
2025-10-29
中美科技
论文
简单点,让论文写作简单点,老牌名校助理教授给出8个建议
学好方法论,告别论文0输出
子豪
2021-03-19
论文
论文写作
想让论文能发表,应该星期几投稿?丨SCI研究
不同时间投稿,中旋律差三倍。
郭一璞
2019-10-18
审稿
论文
教AI逐帧搓招玩《铁拳》通关最高难度,现在的街机游戏爱好者有点东西啊
精通拳皇98、街头争霸、死或生
博雯
2022-02-14
强化学习
街机游戏
reddit高赞资源:20h系统性深度学习&强化学习课程,视频、PPT、代码全都有 | 免费
无需强大知识背景,初学者的福音~
子豪
2021-02-26
强化学习
深度学习
视频课程
在《我的世界》里挖钻石把AI难哭,DeepMind最新算法终于扳回颜面
不靠攻略和“外挂”
鱼羊
2023-01-22
DeepMind
强化学习
我的世界
热门文章
阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro
2026-03-30
ClawTip来了! 京东科技首发推出AI智能体的“专属自主零钱包”
2026-03-31
全球OCR新王来自中国开源!GitHub狂揽73300+Star
2026-03-30
刚刚,TRAE SOLO上线独立端:已经不满足写代码,还要跨界干活!
2026-03-31
全球权威大模型盲测榜单公布,阿里千问3.6登顶中国最强编程模型
2026-04-03
关于量子位
加入我们
寻求报道
商务合作
扫码关注量子位
追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司
京ICP备17005886号-1
本文来源:量子位