热门资讯

PlanningBench – 腾讯混元等开源的大模型规划能力评测框架

业界来源：AI工具集 2026-06-07 01:53:21

PlanningBench是什么

PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架，专注于大语言模型的规划能力评测与训练。框架从真实场景出发，构建一套覆盖六大类、30余种规划任务的可验证数据生成体系，通过约束驱动的闭环合成流程，让模型规划结果从看起来合理走向真的可执行。

PlanningBench的主要功能

真实场景覆盖：涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类共30余种具体规划任务。
三层约束体系：将规划难度拆解为基础约束、中等约束和困难约束，实现任务难度的精细化控制。
自动验证机制：每条实例配套可执行checklist，支持Avg-pass和All-pass双指标评测。
闭环数据生成：通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程，自动增强数据难度。
训练信号输出：可验证样本可直接用于强化学习训练，为模型提供稳定的规划能力优化信号。

PlanningBench的技术原理

真实场景抽象与约束体系构建：PlanningBench 将由具有规划经验的专业标注人员与算法研究人员协作，从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构，最终形成六大规划任务家族与 30 余种具体任务类型，将约束划分为基础约束（时间窗口、资源边界）、中等约束（多目标优化、依赖关系）和困难约束（异常恢复、目标冲突）三个层级，使数据生成在结构化设计空间中组合任务与约束。
约束驱动的闭环合成流程：框架的核心是一个 Generator-Responder-Critic 三角色协作的闭环系统：Generator 根据采样的任务与约束组合生成自包含的规划问题及对应验证清单；Responder 模型尝试生成方案；Critic 依据 checklist 逐项检查答案是否满足全部要求，若通过则提高难度，否则保留为挑战性样本，使 PlanningBench 成为一个能主动寻找模型能力边界的动态数据生成系统。
三层难度约束体系：PlanningBench 将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素，通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性，中等约束引入公平性与负载均衡要求，困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力，使难度提升真正作用于规划推理深度。

如何使用PlanningBench

获取资源：访问 GitHub 仓库克隆代码，或从 HuggingFace 下载数据集。
运行评测：加载PlanningBench评测集，调用模型生成规划方案，使用内置checklist自动计算Avg-pass和All-pass指标。
生成定制数据：配置任务类型与约束层级，运行闭环生成流程，按需产出特定难度和领域的规划训练数据。
训练模型：用生成的可验证样本作为奖励信号，对目标模型进行强化学习训练，迁移到下游规划任务。

PlanningBench的核心优势

可验证性：通过自动checklist精确判定方案是否全局可执行。
难度可控：基于约束层级而非简单增加提示词长度来调控任务难度，更贴近真实规划复杂度。
诊断精准：Avg-pass与All-pass双指标能识别”局部正确但整体不可执行”的模型输出。
训练迁移：仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
场景真实：任务来源于通勤、排产、医疗调度等实际场景，避免模型在固定题库上过拟合。

PlanningBench的项目地址

GitHub仓库：https://github.com/Tencent-Hunyuan/PlanningBench
HuggingFace模型库：https://huggingface.co/datasets/tencent/PlanningBench
arXiv技术论文：https://arxiv.org/pdf/2605.20873

PlanningBench的同类竞品对比

维度	PlanningBench	AgentBench
核心定位	专注于大模型规划能力的评测与训练框架，强调从”看起来合理”到”真的可执行”。	综合性大模型智能体能力评测框架，覆盖推理、决策、工具使用、环境交互等多维度。
任务覆盖	覆盖6大类30余种真实规划任务，包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。	覆盖8个交互环境，包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。
验证机制	每条实例配套结构化checklist，自动逐项验证约束满足情况，精确判定方案是否全局可执行。	基于环境执行反馈与结果匹配判定任务成功，不同环境有独立的验证逻辑。
评测指标	采用Avg-pass（局部约束满足率）与All-pass（全局可执行率）双指标，识别”局部正确但整体不可执行”的输出。	主要采用Success Rate（成功率），按8个环境分别统计，衡量任务最终完成度。
难度控制	通过三层约束体系（基础/中等/困难）与闭环难度增强机制，主动调控约束耦合度和资源冲突强度。	通过多轮交互（5-50轮）和环境复杂度递进提升难度，更侧重交互深度而非约束密度。
环境交互	面向静态规划问题求解，模型在明确输入下生成完整方案，无需与外部环境实时交互。	要求模型与模拟环境（如bash终端、浏览器、数据库）进行实时多轮交互，动态获取反馈。
训练支持	原生支持训练，可验证数据可直接作为GRPO等强化学习的奖励信号，且能迁移到外部基准。	主要用于评测，框架本身不直接提供可扩展的训练数据生成能力。