热门资讯

ACE-Ego – 大晓机器人联合港中文开源的具身操作 VLA 模型

业界来源：AI工具集 2026-06-20 13:46:41

ACE-Ego是什么

ACE-Ego 是大晓机器人联合港中文 MMLab 开源的一脑多型具身操作 VLA 模型。模型用 6.0K+ 小时人类第一视角视频为核心进行预训练，通过相机空间动作与形态条件编码，使同一模型可适配不同机器人本体。在 RoboCasa GR1 TableTop 基准上以 72.8% 刷新 SOTA，能稳定完成塑料袋打包、鞋盒装鞋等复杂零售操作，大幅降低多本体部署成本。

ACE-Ego的主要功能

一脑多型适配：同一 VLA 模型通过形态条件编码适配不同机器人本体，无需为每台机器人单独训练。
复杂操作执行：支持长周期、强接触的零售操作，如塑料袋打包、鞋子装入鞋盒等精细任务。
双臂协调控制：在高难度双臂操作基准 RoboTwin 2.0 中实现 90.62% 成功率，支持复杂双手协作。
开源生态开放：模型与相关资源向行业开源，降低具身智能研发门槛。

ACE-Ego的技术原理

以人为中心的预训练：整合 6.0K+ 小时人类第一视角视频、多本体机器人演示与仿真数据进行预训练，用人类日常操作视频建立通用操作表征，通过少量机器人数据微调实现技能迁移。
相机空间动作：将动作预测统一到相机坐标系下，消除不同机器人本体和相机视角差异带来的动作空间不一致问题，使模型能跨形态输出统一的动作指令。
形态条件编码：通过编码机器人形态信息，如关节结构、自由度配置，让模型理解不同本体的物理约束，在同一模型内适配多种机器人硬件。
可靠性感知训练：引入可靠性评估机制，在训练过程中区分高置信度与低置信度动作预测，提升模型在复杂接触操作中的稳定性和安全性。

微信关注回复 “开源”，加入AI开源项目交流群

如何使用ACE-Ego

环境准备：克隆官方 GitHub 仓库并安装 Python 依赖环境，确保系统支持 PyTorch 与 CUDA。
模型下载：从开源渠道获取 ACE-Ego 预训练权重文件，加载以人为中心预训练的 VLA 基础模型。
本体配置：通过形态条件编码接口录入目标机器人的 URDF 结构、关节自由度与相机参数，完成一脑多型适配。
相机标定：对机器人搭载的 RGB-D 相机进行内外参标定，建立统一的相机空间动作坐标系。
数据微调（可选）：针对特定任务采集少量机器人演示数据，结合人类视频预训练权重进行轻量级微调。
视觉输入：将机器人实时相机画面与语言指令，如”把鞋子装进鞋盒”输入模型。
动作推理：模型输出相机空间下的末端执行器动作序列，包含位置、姿态与夹爪开合度。
映射执行：将相机空间动作指令转换为目标机器人本体的关节控制信号，驱动硬件完成操作。
可靠性校验：启用可靠性感知模块过滤低置信度动作，确保长周期复杂操作的安全稳定执行。

ACE-Ego的核心优势

性能领先：RoboCasa GR1 TableTop 72.8% 刷新 SOTA，大幅超越 π0.5（37.0%）、GR00T-N1.6（47.6%）等主流模型。
跨形态泛化：一脑多型架构支持同一模型适配不同机器人，降低多本体部署成本。
复杂任务能力：在强接触、长周期零售操作中表现稳定，覆盖商品整理到打包履约全链路。
数据效率高：基于人类视频预训练，减少对昂贵机器人演示数据的依赖。

ACE-Ego的项目地址

项目官网：https://acerobotics-vla.github.io/ACE-Ego/
GitHub仓库：https://github.com/ACERobotics-VLA/ACE-Ego-0
技术论文：https://acerobotics-vla.github.io/ACE-Ego-0/paper.html

ACE-Ego的同类竞品对比

维度	ACE-Ego	π0.5
发布方	大晓机器人 × 港中文 MMLab	Physical Intelligence
定位	一脑多型具身操作 VLA	通用流匹配 VLA 模型
RoboCasa GR1	72.8%（SOTA）	37.0%
预训练数据	6.0K+ 小时人类视频 + 机器人数据	大规模多本体机器人数据
核心特色	以人为中心、相机空间动作、形态条件编码	流匹配动作生成、大规模预训练
开源状态	开源	闭源（API/模型权重受限）
形态适配	原生支持一脑多型	需针对各本体单独微调

ACE-Ego的应用场景

零售履约：超市、便利店等场景中的商品整理、塑料袋打包、鞋盒装鞋等线下零售操作自动化。
物流仓储：仓库内物品分拣、装箱、码垛等需要强接触操作的物流环节智能化。
家庭服务：家庭环境中的物品收纳、整理、简单清洁等日常家务操作辅助。
商业服务：商场、酒店、餐厅等场景中的物品搬运、陈列维护与台面整理。
工业制造：生产线上的零部件装配、工具取放、物料转移等精细工业操作。

延伸阅读

AgentCanvas – Vstorm开源的 Pydantic AI 可视化工具

AgentCanvas是什么AgentCanvas 是 Vstorm开源的 Pydantic AI 可视化工具。能将已接入 Logfire 追踪的 AI Agent 运行日志，自动转化为一份可交互的
Grok Imagine Video 1.5 – xAI 推出的图生视频模型

Grok Imagine Video 1.5是什么Grok Imagine Video 1.5 是 xAI 推出的图生视频模型，模型基于 Aurora 自回归引擎构建。模型支持静态图一键生成带原生同步
Image-to-LoRA-V2 – 魔搭社区开源的免训练风格迁移工具

Image-to-LoRA-V2是什么Image-to-LoRA-V2（i2L-V2）是魔搭社区开源的免训练风格迁移工具。上传1-8张风格图，一次推理预测文生图模型的LoRA权重。工具支持Z-Imag

关注公众号：拾黑（shiheibook）了解更多

友情链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站：https://www.yaorank.com/

*文章为作者独立观点，不代表牛品汇立场

本文由李青依发表，转载此文章须经作者同意，并请附上出处( 牛品汇 )及本页链接。

原文链接 https://www.niupinhui.com/net/it/21109.html

AI工具集 ACE-Ego MMLab

图库

猜你喜欢

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接