HPC-Ops – 腾讯混元开源的工业级高性能大模型推理算子库

业界 来源:AI工具集 2026-06-12 12:13:31

HPC-Ops是什么

HPC-Ops是腾讯混元AI Infra团队开源的工业级高性能大模型推理算子库,覆盖Attention、MoE、GEMM、采样及通信融合等核心模块,原生支持BF16/FP8与混合精度。HPC-Ops针对NVIDIA H20等GPU深度优化,动态调度与算子融合使端到端QPM提升30%+,多项性能显著超越vLLM、FlashInfer、SGLang等主流基线,已支撑腾讯混元大规模生产级推理服务。

HPC-Ops的主要功能

  • 动态 Attention 调度:针对长短请求混排的在线推理负载,采用运行时 Tile 级动态任务调度,实现 CTA 级负载均衡,长文本场景最高加速 2.95 倍。
  • Router GEMM:以双 BF16 GEMM 组合模拟 FP32 精度计算,离线拆分权重、推理阶段融合为单 Kernel,兼顾数值敏感场景的高精度与 Tensor Core 高吞吐。
  • FusedMoE:将路由索引、Gate-Up GEMM、激活量化、Down GEMM、Top-K 加权聚合五阶段重构为无气泡流水线,消除显存搬运与内核启动开销。
  • Fused AllReduce+Norm:深度融合跨 GPU 通信、残差相加与 RMSNorm 归一化,基于 NVLink 多播与 P2P 技术实现通信计算一体化,缓解张量并行瓶颈。
  • Sampler 大算子融合:将重复惩罚、温度缩放、Top-K、Top-P、Softmax、随机采样等 10 余个 Kernel 融合为 2 个 CUDA Kernel,补齐推理末端后处理短板。
  • GroupGEMM FP8:支持专家并行与分组专家矩阵乘,原生支持 per-tensor 与 block-wise FP8 量化,适配 MoE 模型的高效推理。

HPC-Ops的技术原理

  • Attention 动态调度:传统静态 split-kv 无法兼顾长短请求混排的动态负载,HPC-Ops 将所有请求按统一 Tile 粒度拆分,通过全局 Tile 总量均衡分配各 CTA 任务规模,再以贪心装桶算法实现极致均分;Task Assign 模块在每次推理前生成专属任务映射表,各层 Attention Kernel 按表精准领取任务,最终由 Combine Kernel 合并结果,实现全流程负载均衡。

  • Router GEMM 双 BF16 模拟 FP32:针对 MoE 路由等精度敏感场景,离线将 FP32 权重拆分为高位 BF16 与低位残差 BF16(缩放因子 1/256),推理阶段执行两次 BF16 Tensor Core GEMM 并做线性组合,激活值全程保持 BF16;双路计算融合至单一 Kernel,输入仅搬运一次,双寄存器累加器缓存中间结果,Epilogue 阶段一次 FMA 修正后写出,全程无 HBM 往返开销。

  • FusedMoE 流水线重构:路由阶段采用共享内存分块统计,为每个专家预留连续显存输出区间;Gate-Up GEMM 直接通过路由索引读取原始输入,省去独立 Gather 搬运;取消 Warp Specialization,由同一 Warp Group 完成数据搬运与计算,将访存延迟掩盖逻辑从 CTA 内软件流水线升级为跨 CTA 硬件调度;PDL 技术串联全链路为无气泡执行。

  • Fused AllReduce+Norm 通信计算融合:基于 CUDA multimem 与 P2P 技术,封装为 NVLink 原生一体化操作 RMSNorm(AllReduce(x) + residual, weight);高吞吐版本依托 NVSwitch 多播机制适配 Prefill 场景,低延迟版本基于 Lamport P2P 机制通过 PDL 实现双 Kernel 重叠执行,适配 Decode 场景。

如何使用HPC-Ops

  • 硬件环境:准备一台配备 NVIDIA SM90 架构 GPU(如 H20)的服务器,并安装 Python 3.8+、CUDA 12.8+ 和 C++17 编译器。
  • 克隆仓库:从 GitHub 克隆 HPC-Ops 源代码仓库到本地。
  • 编译打包:进入项目目录,执行编译打包命令生成 wheel 安装文件。
  • 安装部署:用 pip 命令安装生成的 wheel 文件,完成环境部署。
  • 导入模块:在 Python 脚本中导入 hpc 模块。
  • 准备数据:根据目标算子类型准备符合精度要求的输入张量与配置参数。
  • 调用算子:调用对应算子的 Python API(如 Attention、FusedMoE、Sampler 等)执行高性能推理。
  • 测试验证:参考 tests 目录下的测试脚本验证算子正确性与具体用法。
  • 框架集成:通过提供的 Python API 将 HPC-Ops 无缝嵌入 vLLM、SGLang 等主流推理框架。
  • 性能基准:用 benchmark 目录下的脚本在目标硬件上运行性能复现与对比测试。

HPC-Ops的核心优势

  • 端到端全链路优化:覆盖 Attention → Router → MoE → 通信融合 → Sampler 的推理全链路,端到端 QPM 提升 30%+,而非单点算子优化。
  • 动态负载均衡根治长尾:运行时 Tile 级动态调度与贪心装桶算法,长短请求混排场景下长文本加速最高 2.95 倍,端到端 QPM 提升 17%。
  • 高精度 Router GEMM:双 BF16 组合模拟 FP32 精度,误差仅为 TF32 的 1/36,性能较 cuBLAS FP32 最高提速 3.22 倍,兼顾数值敏感与算力释放。
  • MoE 无气泡流水线:FusedMoE 将路由、Gate-Up、量化、Down、Top-K 聚合五阶段重构为单一执行链路,消除显存搬运与内核启动开销,较 vLLM/SGLang 提升 1.2x~1.6x。
  • 通信计算深度融合:Fused AllReduce+Norm 封装为 NVLink 原生一体化操作,打通张量并行瓶颈,较 NCCL/FlashInfer 最高提速 1.68 倍。

HPC-Ops的项目地址

  • GitHub仓库:https://github.com/Tencent/hpc-ops

HPC-Ops的同类竞品对比

维度HPC-OpsFlashInfer
项目性质腾讯混元开源并长期维护的工业级算子库,经大规模生产验证社区驱动的开源高性能算子库,被 vLLM、SGLang 等框架广泛集成
Attention 动态调度支持运行时 Tile 级动态任务分配与贪心装桶,长短请求混排场景下长文本最高加速 2.95x,混合 batch 加速 1.59x~1.76x主要采用静态 split-k 调度,在均匀长度负载表现稳定,但长短混排时易出现 CTA 级长尾延迟
Attention 标准性能BF16 Prefill 最高 1.33x、Decode 2.22x;FP8 Decode 2.0x(相对 FlashInfer 基线)作为社区主流基线,性能表现优异,但在动态负载与稀疏场景下存在优化空间
Sparse AttentionFP8 块稀疏 Prefill,支持预计算块掩码跳过无关 KV Tile,相对 FlashInfer 等基线最高 3.16x支持块稀疏模式,但 HPC-Ops 在 FP8 精度下的稀疏调度与 Tile 量化有更精细的实现
MoE 融合FusedMoE 将路由索引→Gate-Up→量化→Down→Top-K 聚合重构为无气泡流水线,性能领先 1.2x~1.6x提供基础 MoE 支持,无全模块流水线融合,存在多阶段显存搬运与 Kernel 启动开销
Router GEMM独创双 BF16 模拟 FP32 精度,误差仅为 TF32 的 1/36,性能 3.22x,适合数值敏感的路由模块无专用高精度 Router GEMM 优化,需依赖 cuBLAS FP32 或接受 BF16/TF32 精度折损
通信计算融合Fused AllReduce+Residual+RMSNorm 封装为 NVLink 原生一体化操作,相对 FlashInfer 最高 1.68x~1.76x提供基础通信算子,但无 AllReduce、残差与归一化的原生融合实现

HPC-Ops的应用场景

  • 高吞吐在线推理服务:动态 Attention 调度与 Sampler 融合显著降低长尾延迟,适合长短请求混排的真实业务负载。
  • MoE 大模型推理:FusedMoE 针对 DeepSeek-V3、Qwen3-235B 等 MoE 模型深度优化,提升 TP/EP 并行场景下的推理效率。
  • 张量并行分布式推理:Fused AllReduce+Norm 打通多卡通信瓶颈,适合单节点多 GPU 的大模型部署。
  • 精度敏感推理:Router GEMM 以 BF16 算力实现 FP32 精度,满足 MoE 路由、稀疏 Attention 等数值敏感模块的需求。
延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接