热门资讯

HPC-Ops – 腾讯混元开源的工业级高性能大模型推理算子库

业界来源：AI工具集 2026-06-12 12:13:31

HPC-Ops是什么

HPC-Ops是腾讯混元AI Infra团队开源的工业级高性能大模型推理算子库，覆盖Attention、MoE、GEMM、采样及通信融合等核心模块，原生支持BF16/FP8与混合精度。HPC-Ops针对NVIDIA H20等GPU深度优化，动态调度与算子融合使端到端QPM提升30%+，多项性能显著超越vLLM、FlashInfer、SGLang等主流基线，已支撑腾讯混元大规模生产级推理服务。

HPC-Ops的主要功能

动态 Attention 调度：针对长短请求混排的在线推理负载，采用运行时 Tile 级动态任务调度，实现 CTA 级负载均衡，长文本场景最高加速 2.95 倍。
Router GEMM：以双 BF16 GEMM 组合模拟 FP32 精度计算，离线拆分权重、推理阶段融合为单 Kernel，兼顾数值敏感场景的高精度与 Tensor Core 高吞吐。
FusedMoE：将路由索引、Gate-Up GEMM、激活量化、Down GEMM、Top-K 加权聚合五阶段重构为无气泡流水线，消除显存搬运与内核启动开销。
Fused AllReduce+Norm：深度融合跨 GPU 通信、残差相加与 RMSNorm 归一化，基于 NVLink 多播与 P2P 技术实现通信计算一体化，缓解张量并行瓶颈。
Sampler 大算子融合：将重复惩罚、温度缩放、Top-K、Top-P、Softmax、随机采样等 10 余个 Kernel 融合为 2 个 CUDA Kernel，补齐推理末端后处理短板。
GroupGEMM FP8：支持专家并行与分组专家矩阵乘，原生支持 per-tensor 与 block-wise FP8 量化，适配 MoE 模型的高效推理。

HPC-Ops的技术原理

Attention 动态调度：传统静态 split-kv 无法兼顾长短请求混排的动态负载，HPC-Ops 将所有请求按统一 Tile 粒度拆分，通过全局 Tile 总量均衡分配各 CTA 任务规模，再以贪心装桶算法实现极致均分；Task Assign 模块在每次推理前生成专属任务映射表，各层 Attention Kernel 按表精准领取任务，最终由 Combine Kernel 合并结果，实现全流程负载均衡。
Router GEMM 双 BF16 模拟 FP32：针对 MoE 路由等精度敏感场景，离线将 FP32 权重拆分为高位 BF16 与低位残差 BF16（缩放因子 1/256），推理阶段执行两次 BF16 Tensor Core GEMM 并做线性组合，激活值全程保持 BF16；双路计算融合至单一 Kernel，输入仅搬运一次，双寄存器累加器缓存中间结果，Epilogue 阶段一次 FMA 修正后写出，全程无 HBM 往返开销。
FusedMoE 流水线重构：路由阶段采用共享内存分块统计，为每个专家预留连续显存输出区间；Gate-Up GEMM 直接通过路由索引读取原始输入，省去独立 Gather 搬运；取消 Warp Specialization，由同一 Warp Group 完成数据搬运与计算，将访存延迟掩盖逻辑从 CTA 内软件流水线升级为跨 CTA 硬件调度；PDL 技术串联全链路为无气泡执行。
Fused AllReduce+Norm 通信计算融合：基于 CUDA multimem 与 P2P 技术，封装为 NVLink 原生一体化操作 RMSNorm(AllReduce(x) + residual, weight)；高吞吐版本依托 NVSwitch 多播机制适配 Prefill 场景，低延迟版本基于 Lamport P2P 机制通过 PDL 实现双 Kernel 重叠执行，适配 Decode 场景。

如何使用HPC-Ops

硬件环境：准备一台配备 NVIDIA SM90 架构 GPU（如 H20）的服务器，并安装 Python 3.8+、CUDA 12.8+ 和 C++17 编译器。
克隆仓库：从 GitHub 克隆 HPC-Ops 源代码仓库到本地。
编译打包：进入项目目录，执行编译打包命令生成 wheel 安装文件。
安装部署：用 pip 命令安装生成的 wheel 文件，完成环境部署。
导入模块：在 Python 脚本中导入 hpc 模块。
准备数据：根据目标算子类型准备符合精度要求的输入张量与配置参数。
调用算子：调用对应算子的 Python API（如 Attention、FusedMoE、Sampler 等）执行高性能推理。
测试验证：参考 tests 目录下的测试脚本验证算子正确性与具体用法。
框架集成：通过提供的 Python API 将 HPC-Ops 无缝嵌入 vLLM、SGLang 等主流推理框架。
性能基准：用 benchmark 目录下的脚本在目标硬件上运行性能复现与对比测试。

HPC-Ops的核心优势

端到端全链路优化：覆盖 Attention → Router → MoE → 通信融合 → Sampler 的推理全链路，端到端 QPM 提升 30%+，而非单点算子优化。
动态负载均衡根治长尾：运行时 Tile 级动态调度与贪心装桶算法，长短请求混排场景下长文本加速最高 2.95 倍，端到端 QPM 提升 17%。
高精度 Router GEMM：双 BF16 组合模拟 FP32 精度，误差仅为 TF32 的 1/36，性能较 cuBLAS FP32 最高提速 3.22 倍，兼顾数值敏感与算力释放。
MoE 无气泡流水线：FusedMoE 将路由、Gate-Up、量化、Down、Top-K 聚合五阶段重构为单一执行链路，消除显存搬运与内核启动开销，较 vLLM/SGLang 提升 1.2x~1.6x。
通信计算深度融合：Fused AllReduce+Norm 封装为 NVLink 原生一体化操作，打通张量并行瓶颈，较 NCCL/FlashInfer 最高提速 1.68 倍。

HPC-Ops的项目地址

GitHub仓库：https://github.com/Tencent/hpc-ops

HPC-Ops的同类竞品对比

维度	HPC-Ops	FlashInfer
项目性质	腾讯混元开源并长期维护的工业级算子库，经大规模生产验证	社区驱动的开源高性能算子库，被 vLLM、SGLang 等框架广泛集成
Attention 动态调度	支持运行时 Tile 级动态任务分配与贪心装桶，长短请求混排场景下长文本最高加速 2.95x，混合 batch 加速 1.59x~1.76x	主要采用静态 split-k 调度，在均匀长度负载表现稳定，但长短混排时易出现 CTA 级长尾延迟
Attention 标准性能	BF16 Prefill 最高 1.33x、Decode 2.22x；FP8 Decode 2.0x（相对 FlashInfer 基线）	作为社区主流基线，性能表现优异，但在动态负载与稀疏场景下存在优化空间
Sparse Attention	FP8 块稀疏 Prefill，支持预计算块掩码跳过无关 KV Tile，相对 FlashInfer 等基线最高 3.16x	支持块稀疏模式，但 HPC-Ops 在 FP8 精度下的稀疏调度与 Tile 量化有更精细的实现
MoE 融合	FusedMoE 将路由索引→Gate-Up→量化→Down→Top-K 聚合重构为无气泡流水线，性能领先 1.2x~1.6x	提供基础 MoE 支持，无全模块流水线融合，存在多阶段显存搬运与 Kernel 启动开销
Router GEMM	独创双 BF16 模拟 FP32 精度，误差仅为 TF32 的 1/36，性能 3.22x，适合数值敏感的路由模块	无专用高精度 Router GEMM 优化，需依赖 cuBLAS FP32 或接受 BF16/TF32 精度折损
通信计算融合	Fused AllReduce+Residual+RMSNorm 封装为 NVLink 原生一体化操作，相对 FlashInfer 最高 1.68x~1.76x	提供基础通信算子，但无 AllReduce、残差与归一化的原生融合实现

HPC-Ops的应用场景

高吞吐在线推理服务：动态 Attention 调度与 Sampler 融合显著降低长尾延迟，适合长短请求混排的真实业务负载。
MoE 大模型推理：FusedMoE 针对 DeepSeek-V3、Qwen3-235B 等 MoE 模型深度优化，提升 TP/EP 并行场景下的推理效率。
张量并行分布式推理：Fused AllReduce+Norm 打通多卡通信瓶颈，适合单节点多 GPU 的大模型部署。
精度敏感推理：Router GEMM 以 BF16 算力实现 FP32 精度，满足 MoE 路由、稀疏 Attention 等数值敏感模块的需求。