LongCat-2.0-Preview – 美团推出的万亿参数级大模型预览版
LongCat-2.0-Preview是什么
LongCat-2.0-Preview 是美团推出的万亿参数级大模型预览版,采用 MoE 架构,总参数达 1.6T、激活参数约 48B,支持 1M 超长上下文。模型基于 5–6 万张国产加速卡完成全流程训练与推理,英伟达算力占比为 0,系业内首次在国产芯片上跑通万亿级大模型训推闭环,目前模型已开放内测,每日提供 1000 万免费 Token 额度。

LongCat-2.0-Preview的主要功能
- 超长上下文理解:支持 1M token 长文本输入,可处理整本书籍、大型代码库、长篇报告等海量内容。
- 代码生成与推理:基于 MoE 架构精准调度专家网络,在编程、数学推理与复杂指令跟随任务中表现稳定。
- 多轮对话与语义检索:通过稀疏注意力机制,在长对话历史中快速定位关键信息,减少重复计算。
- 多模态内容理解:结合美团在本地生活场景的积累,支持对复杂业务文档、图文混合内容的深度解析。
LongCat-2.0-Preview的技术原理
- MoE(混合专家)架构:总参数 1.6T 中仅激活 48B 参与单次前向计算,通过门控路由动态选择最相关的专家模块,降低推理成本。
- N-gram Embedding:将部分原本位于专家层的参数前移至 Embedding 层,引入词组级建模能力,使高频语言模式可直接匹配命中,减少逐层计算开销。
- 稀疏注意力与跨层流感知索引:引入轻量稀疏注意力机制,叠加跨层语义路径索引,避免全量 O(n²) Attention 计算,保障 1M 上下文下的推理延迟可控。
- 确定性算子自研:针对国产芯片生态,自研 FlashAttention 反向梯度(FAG)、Scatter 类算子及 GEMM 模块,将性能损失控制在 5% 左右,确保万卡集群长期训练的可复现性。
- 显存与通信优化:通过 V-ZB 算法将训练峰值显存压缩至 60GB 以下,重构专家并行(EP)、张量并行(TP)与流水线并行(PP)策略,适配国产芯片带宽与显存约束。
如何使用LongCat-2.0-Preview
申请内测资格:访问LongCat开放平台,官网点击内测申请入口,填写基本信息并提交审核。
等待审核通过:团队将在申请提交后进行资格审核,通过后以邮件或短信形式通知用户开通权限。
登录平台获取额度:用审核通过的账号登录 LongCat 平台,系统自动发放每日 1000 万 Token 的免费调用额度。
选择接入方式:用户可通过 Web 聊天界面直接体验,或根据文档指引获取 API Key,将模型接入自有应用与工作流程。
开始长文本任务:在对话框或 API 请求中输入长文档、代码库或复杂指令,模型将基于 1M 上下文窗口与 MoE 专家网络完成推理并返回结果。
LongCat-2.0-Preview的关键信息和使用要求
- 模型名称:LongCat-2.0-Preview
- 发布方:美团 / LongCat 团队
- 模型架构:MoE,总参数 1.6T,激活参数 48B
- 上下文窗口:1M(百万级)token
- 算力底座:5–6 万张国产加速卡,训推全流程国产化
- 使用阶段:受邀内测,需申请资格
- 免费额度:每日 1000 万 Token
- 硬件要求:用户端无需配置硬件,通过云端 API 或 Web 界面调用
LongCat-2.0-Preview的核心优势
- 全流程国产自主可控:从训练到推理完全基于国产芯片,摆脱对英伟达 CUDA 生态的依赖,验证国产算力可支撑顶级大模型任务。
- 超长文本能力领先:1M 上下文窗口配合稀疏注意力,在长文档分析、视频脚本理解等场景具备显著优势。
- 推理成本可控:MoE 架构仅激活少量专家,N-gram Embedding 进一步降低计算量,单位任务成本远低于稠密模型。
- 工程稳定性强:通过确定性计算与多层容错恢复体系,在万卡级国产集群上实现长周期稳定训练,故障定位与复现能力追平国际水平。
- 开源基因深厚:LongCat 团队已开源 Flash、Video、Image、AudioDiT 等多个项目,2.0 版本大概率延续开放路线。
LongCat-2.0-Preview的同类竞品对比
| 对比维度 | LongCat-2.0-Preview | DeepSeek-V4 |
|---|---|---|
| 发布方 | 美团 | DeepSeek |
| 总参数量 | 约 1.6T | 万亿级 |
| 激活参数 | 约 48B | 未公开具体数值 |
| 上下文窗口 | 1M | 1M |
| 训练算力 | 5–6 万张国产卡,全流程 | 英伟达 GPU 训练,国产平台推理首发 |
| 架构特色 | N-gram Embedding + 稀疏注意力 | MLA + MoE |
| 国产自主程度 | 训推全流程国产化,英伟达含量为 0 | 训练依赖英伟达,推理可跑国产芯片 |
| 开源策略 | 大概率延续开源 | 已开源 |
| 使用成本 | 内测阶段每日 1000 万免费 Token | V4 Flash 0.02 元/百万 Tokens,V4 Pro 0.025 元/百万 Tokens |
| 生态定位 | 验证国产算力上限,深耕本地生活场景 | 极致性价比,服务广泛开发者 |
LongCat-2.0-Preview的应用场景
- 长文档分析与研报生成:一次性输入百万字级资料,进行摘要提取、观点对比与深度研报撰写。
- 大型代码库理解与开发:处理整个项目仓库的代码,完成跨文件依赖分析、Bug 定位与功能模块生成。
- 智能客服与工单处理:在电商、外卖、酒旅等场景中,基于超长上下文理解用户历史订单与复杂投诉链路。
- 多语言翻译与本地化:利用长上下文保持术语一致性,处理整本技术手册或影视字幕的批量翻译。
- 教育科研与知识管理:辅助学者快速梳理海量文献,构建知识图谱,回答跨论文的综合性问题。
-
FlashQLA – 通义实验室开源的高性能线性注意力算子库
FlashQLA是什么FlashQLA 是通义实验室开源的基于 TileLang 实现的高性能线性注意力算子库。FlashQLA 通过算子融合、Gate 驱动卡内序列并行及 Warp-Speciali
-
天禧AI Claw – 联想推出的 AI 智能体助理
天禧AI Claw是什么天禧AI Claw是联想基于OpenClaw架构推出的开箱即用型AI智能体助理,采用端云混合部署模式,支持PC、Phone、Pad多端无缝协同。工具无需本地环境配置即可7×24
-
Qwen3.6-Max-Preview – 阿里通义推出的下一代旗舰模型
Qwen3.6-Max-Preview是什么Qwen3.6-Max-Preview 是阿里通义千问团队推出的下一代旗舰大模型早期预览版。相比 Qwen3.6-Plus,模型在智能体编程、世界知识和指令
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/


![CHEN77___公主回家咯[抱一抱] ](https://imgs.knowsafe.com:8087/img/aideep/2023/3/12/c4b1b77d0eddc34b32a2775504190ca2.jpg?w=250)




关注网络尖刀微信公众号
