ACE-Ego – 大晓机器人联合港中文开源的具身操作 VLA 模型
ACE-Ego是什么
ACE-Ego 是大晓机器人联合港中文 MMLab 开源的一脑多型具身操作 VLA 模型。模型用 6.0K+ 小时人类第一视角视频为核心进行预训练,通过相机空间动作与形态条件编码,使同一模型可适配不同机器人本体。在 RoboCasa GR1 TableTop 基准上以 72.8% 刷新 SOTA,能稳定完成塑料袋打包、鞋盒装鞋等复杂零售操作,大幅降低多本体部署成本。

ACE-Ego的主要功能
一脑多型适配:同一 VLA 模型通过形态条件编码适配不同机器人本体,无需为每台机器人单独训练。
复杂操作执行:支持长周期、强接触的零售操作,如塑料袋打包、鞋子装入鞋盒等精细任务。
双臂协调控制:在高难度双臂操作基准 RoboTwin 2.0 中实现 90.62% 成功率,支持复杂双手协作。
开源生态开放:模型与相关资源向行业开源,降低具身智能研发门槛。
ACE-Ego的技术原理
以人为中心的预训练:整合 6.0K+ 小时人类第一视角视频、多本体机器人演示与仿真数据进行预训练,用人类日常操作视频建立通用操作表征,通过少量机器人数据微调实现技能迁移。
相机空间动作:将动作预测统一到相机坐标系下,消除不同机器人本体和相机视角差异带来的动作空间不一致问题,使模型能跨形态输出统一的动作指令。
形态条件编码:通过编码机器人形态信息,如关节结构、自由度配置,让模型理解不同本体的物理约束,在同一模型内适配多种机器人硬件。
可靠性感知训练:引入可靠性评估机制,在训练过程中区分高置信度与低置信度动作预测,提升模型在复杂接触操作中的稳定性和安全性。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用ACE-Ego
环境准备:克隆官方 GitHub 仓库并安装 Python 依赖环境,确保系统支持 PyTorch 与 CUDA。
模型下载:从开源渠道获取 ACE-Ego 预训练权重文件,加载以人为中心预训练的 VLA 基础模型。
本体配置:通过形态条件编码接口录入目标机器人的 URDF 结构、关节自由度与相机参数,完成一脑多型适配。
相机标定:对机器人搭载的 RGB-D 相机进行内外参标定,建立统一的相机空间动作坐标系。
数据微调(可选):针对特定任务采集少量机器人演示数据,结合人类视频预训练权重进行轻量级微调。
视觉输入:将机器人实时相机画面与语言指令,如”把鞋子装进鞋盒”输入模型。
动作推理:模型输出相机空间下的末端执行器动作序列,包含位置、姿态与夹爪开合度。
映射执行:将相机空间动作指令转换为目标机器人本体的关节控制信号,驱动硬件完成操作。
可靠性校验:启用可靠性感知模块过滤低置信度动作,确保长周期复杂操作的安全稳定执行。
ACE-Ego的核心优势
性能领先:RoboCasa GR1 TableTop 72.8% 刷新 SOTA,大幅超越 π0.5(37.0%)、GR00T-N1.6(47.6%)等主流模型。
跨形态泛化:一脑多型架构支持同一模型适配不同机器人,降低多本体部署成本。
复杂任务能力:在强接触、长周期零售操作中表现稳定,覆盖商品整理到打包履约全链路。
数据效率高:基于人类视频预训练,减少对昂贵机器人演示数据的依赖。
ACE-Ego的项目地址
项目官网:https://acerobotics-vla.github.io/ACE-Ego/
GitHub仓库:https://github.com/ACERobotics-VLA/ACE-Ego-0
技术论文:https://acerobotics-vla.github.io/ACE-Ego-0/paper.html
ACE-Ego的同类竞品对比
| 维度 | ACE-Ego | π0.5 |
|---|---|---|
| 发布方 | 大晓机器人 × 港中文 MMLab | Physical Intelligence |
| 定位 | 一脑多型具身操作 VLA | 通用流匹配 VLA 模型 |
| RoboCasa GR1 | 72.8%(SOTA) | 37.0% |
| 预训练数据 | 6.0K+ 小时人类视频 + 机器人数据 | 大规模多本体机器人数据 |
| 核心特色 | 以人为中心、相机空间动作、形态条件编码 | 流匹配动作生成、大规模预训练 |
| 开源状态 | 开源 | 闭源(API/模型权重受限) |
| 形态适配 | 原生支持一脑多型 | 需针对各本体单独微调 |
ACE-Ego的应用场景
零售履约:超市、便利店等场景中的商品整理、塑料袋打包、鞋盒装鞋等线下零售操作自动化。
物流仓储:仓库内物品分拣、装箱、码垛等需要强接触操作的物流环节智能化。
家庭服务:家庭环境中的物品收纳、整理、简单清洁等日常家务操作辅助。
商业服务:商场、酒店、餐厅等场景中的物品搬运、陈列维护与台面整理。
工业制造:生产线上的零部件装配、工具取放、物料转移等精细工业操作。
-
AgentCanvas – Vstorm开源的 Pydantic AI 可视化工具
AgentCanvas是什么AgentCanvas 是 Vstorm开源的 Pydantic AI 可视化工具。能将已接入 Logfire 追踪的 AI Agent 运行日志,自动转化为一份可交互的
-
Grok Imagine Video 1.5 – xAI 推出的图生视频模型
Grok Imagine Video 1.5是什么Grok Imagine Video 1.5 是 xAI 推出的图生视频模型,模型基于 Aurora 自回归引擎构建。模型支持静态图一键生成带原生同步
-
Image-to-LoRA-V2 – 魔搭社区开源的免训练风格迁移工具
Image-to-LoRA-V2是什么Image-to-LoRA-V2(i2L-V2)是魔搭社区开源的免训练风格迁移工具。上传1-8张风格图,一次推理预测文生图模型的LoRA权重。工具支持Z-Imag
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩







