论文标题:Monte Carlo Tree Diffusion for System 2 Planning
论文地址:https://arxiv.org/pdf/2502.07202v1
蒙特卡洛树扩散(MCTD)
简单来说,MCTD = 扩散模型 + MCTS。该框架整合了基于扩散的轨迹生成以及 MCTS 的迭代搜索能力,可实现更加高效和可扩展的规划。
具体方法上,MCTD 有三项创新。
第一,MCTD 将去噪(denoising)过程重构成了一种基于树的 rollout 过程,于是便能在维持轨迹连贯性的同时实现半自回归的因果规划。
第二,其引入了引导层级作为元动作(meta-action),从而可实现「探索」与「利用」的动态平衡,进而确保在扩散框架内实现自适应和可扩展的轨迹优化。
第三,其采用的模拟机制是快速跳跃去噪(fast jumpy denoising)。从名字也能看出来,该机制的效率肯定很高 —— 不使用成本高昂的前向模型 rollout 即可有效估计轨迹质量。
基于这些创新,便可以在扩散过程中实现 MCTS 的四大步骤,即选择、扩展、模拟和反向传播,从而有效地将结构化搜索与生成式建模组合到了一起。
上图的(a)为 MCTS 视角:展示了 MCTD 一轮的四个步骤 —— 选择、扩展、模拟和反向传播 —— 在一个部分去噪树上的过程。每个节点对应一个部分去噪的子轨迹,边标记为二元引导级别(0 = 无引导,1 = 有引导)。在新节点扩展后,执行「跳跃」去噪以快速估计其值,然后沿着树中的路径反向传播。
上图的(b)为扩散视角:同一过程被视为在去噪深度(纵轴)和规划范围(横轴)上的部分去噪。每个彩色块表示在特定噪声水平下的部分去噪规划,颜色越深表示噪声越高。不同的扩展(0 或 1)在规划方向上创建分支,代表替代的轨迹优化。值得注意的是,整行同时去噪,但去噪水平不同。
MCTD 框架将这两种视角统一了起来。整体的算法过程如下所示:
MCTD 的效果得到了实验的验证
该团队也通过实验验证了蒙特卡洛树扩散的效果。他们采用的评估任务套件是 Offline Goal-conditioned RL Benchmark(OGBench),其中涉及包括迷宫导航在内的多种任务以及多种机器人形态和机器臂操作。
下表 1 展示了质点和机器蚁在中、大、巨型迷宫中的成功率,可以看到 MCTD 的表现远超其它方法。
下图展示了三个规划器的规划结果以及实际的 rollout。
三种规划器 ——Diffuser、Diffusion Forcing 和 MCTD 生成的规划与实际展开的对比。虽然 Diffuser 和 Diffusion Forcing 未能生成成功的轨迹规划,但 MCTD 通过自适应优化其规划取得了成功。
在点阵迷宫中等任务中,使用二元引导集 {无引导,引导} 的 MCTD 树搜索过程可视化展示。每个节点对应一个部分去噪的轨迹,其中左图显示带噪声的部分规划,右图显示快速去噪后的规划。搜索通过选择无引导或引导来扩展子节点,评估每个新生成的规划,并最终收敛到高亮的叶节点作为解决方案。
下面两个表格则展示了不同方法在机器臂方块操作任务以及视觉点迷宫任务上的结果。
总体而言,MCTD 在长期任务上的表现优于现有方法,可实现卓越的可扩展性,并得到高质量的解决方案。
该团队表示:「未来还将探索自适应计算分配、基于学习的元动作选择和奖励塑造,以进一步提高性能,为更具可扩展性和灵活性的 System 2 规划铺平道路。」