SkillOpt – 微软开源的Agent技能文档优化工具
SkillOpt是什么
SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间,把skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束有界修改,经保留验证集门控筛选,迭代产出best_skill.md。SkillOpt支持跨模型、跨工具链迁移,部署零开销。在52个评估单元全部最佳,让Agent技能像神经网络一样可量化、可复现地持续进化。

SkillOpt的主要功能
技能文档训练:将 skill.md 像训练神经网络一样迭代优化,包含前向传播、反向传播、参数更新和验证门控。
有界编辑控制:通过文本学习率限制编辑幅度,避免语义跳变和覆盖有效规则。
拒绝编辑缓冲:记录被验证门拒绝的编辑方向,防止优化循环重复踩坑。
跨模型/跨工具迁移:在一个模型上训练的技能文档可直接迁移到同系列小模型、不同工具链(Codex ↔ Claude Code)或相近基准测试。
零部署开销:最终产物仅为一个 300–2000 token 的 Markdown 文件,部署时不增加额外推理调用。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用SkillOpt
安装:通过 pip 安装 SkillOpt 及其依赖。
配置 API:复制环境变量模板文件并填入 OpenAI、Azure 或 Anthropic 等平台的 API 密钥。
准备数据:将原始任务数据按训练集、验证集和测试集划分好,或让 SkillOpt 自动完成划分。
启动训练:运行训练脚本并指定配置文件、教师模型与学生模型,开始迭代优化技能文档。
获取产物:训练完成后在输出目录中获取最终生成的 best_skill.md 技能文档及各轮迭代快照。
部署使用:将 best_skill.md 的内容直接嵌入目标 Agent 的系统提示词中可生效,无需额外推理开销。
SkillOpt的核心优势
- 系统性优化:告别写文档→运行→凭感觉改的试错循环,提供可量化、可复现的技能提升路径。
- 全场景领先:在 6 个基准、7 个目标模型、3 种执行工具链的 52 个评估单元中全部取得最佳或并列最佳。
- 显著性能提升:GPT-5.5 平均提升 +23.5 个百分点;ALFWorld 上 GPT-5.4-mini 从 70.9% 提升到 85.8%。
- 一次训练,到处部署:同一份 best_skill.md 可跨模型规模、跨 Agent 工具链、跨相近任务复用。
SkillOpt的项目地址
项目官网:https://microsoft.github.io/SkillOpt/
GitHub仓库:https://github.com/microsoft/SkillOpt
SkillOpt的同类竞品对比
| 维度 | SkillOpt | TextGrad | GEPA | Trace2Skill |
|---|---|---|---|---|
| 优化对象 | 单一 skill.md 文档 | 文本提示 | 文本提示 | 从轨迹提取规则 |
| 训练纪律 | 类深度学习(epoch、batch、lr、验证门) | 基于梯度的文本优化 | 进化算法 | 轨迹归纳 |
| 编辑控制 | 有界编辑预算 + 拒绝缓冲区 | 无显式预算控制 | 变异选择 | 无迭代优化 |
| 验证机制 | 严格 held-out 验证门 | 无显式验证门 | 无 | 无 |
| 跨模型迁移 | 原生支持 | 有限 | 有限 | 有限 |
| 部署开销 | 零(纯 Markdown) | 低 | 低 | 低 |
SkillOpt的应用场景
- Agent 技能调优:为已有 Agent 系统化打磨 skill.md,替代凭经验反复试错的手动调优。
- 多模型技能复用:在强模型上训练技能文档,直接部署到弱模型或不同工具链,降低多模型适配成本。
- 基准测试突破:在 SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld 等任务上持续刷新性能上限。
- 本地编码 Agent 自进化:结合 SkillOpt-Sleep 预览版,在夜间自动回顾会话、复现高频任务并固化验证通过的技能。
-
MMSkills – 上海交大与小红书联合推出的多模态技能框架
MMSkills是什么MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架,支持将可复用技能从纯文本步骤扩展为包含文本流程、运行时状态卡片和多视角关键帧的多模态
-
Ornith-1.0 – DeepReinforce 开源的 Agentic 编程系列模型
Ornith-1.0是什么Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列,模型基于 Gemma 4 与 Qwen 3.5 预训练基座
-
PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型
PhoneBuddy是什么PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock A
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩







