SenseNova-MARS – 商汤科技开源的多模态自主推理模型

业界 来源:AI工具集 2026-02-03 11:05:46

SenseNova-MARS是什么

SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源模型中达到SOTA水平,标志着AI从”能回答”向”能执行”的重要跨越。

SenseNova-MARS的主要功能

  • 多模态搜索推理:模型融合图像与文本进行跨模态信息检索,支持动态调用工具完成复杂知识推理。
  • 细粒度视觉分析:支持处理4K/8K超高清图像,能精准裁剪、识别占比不足5%的微小视觉细节。
  • 自主Agent执行:模型能自主规划任务步骤,无缝协作多工具形成闭环,无需人工干预解决复杂问题。

SenseNova-MARS的技术原理

  • 双阶段训练架构:第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调,使模型掌握基础工具使用模式;第二阶段用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练过程,优化多工具协同调用与推理决策能力。

  • BN-GSPO强化学习算法:针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题,算法先对同组样本进行组归一化消除内部偏差,再对整个批次进行归一化平衡不同任务的学习信号,实现稳定高效的多工具策略优化。

  • 动作空间与工具设计:模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择,图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循严格的JSON格式规范确保交互一致性。

  • 奖励模型机制:模型采用GPT-4o作为评判器,从答案准确性与格式合规性两个维度提供稀疏奖励,准确性奖励衡量最终答案与 ground truth 的语义匹配度,格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。

  • 自动化数据合成:基于多模智能体构建数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时过滤幻觉数据保证训练数据质量。

SenseNova-MARS的项目地址

  • GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS

  • HuggingFace模型库

    • https://huggingface.co/sensenova/SenseNova-MARS-32B

    • https://huggingface.co/sensenova/SenseNova-MARS-8B

  • arXiv技术论文:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

  • 体育竞技分析:模型能识别赛车服微小logo并查询相关企业及车手背景信息,自动计算时间差值辅助赛事数据核实。
  • 商业情报挖掘:从峰会照片中识别企业标志,快速搜集产品参数与融资信息,辅助分析行业竞争格局。
  • 新闻事实核查:针对高分辨率新闻图片追溯事件背景与人物身份,验证社交媒体流传信息的真实性。
  • 学术研究与教育:自动分析论文图表数据并检索相关研究背景,加速文献综述与知识整合过程。
  • 地理旅行探索:识别地标路牌等细节并实时检索历史文化信息,提供沉浸式智能导览体验。
延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接