新闻动态
News
首页 > 新闻动态 > 产品资讯
返回

实测封神!容天1360工作站双卡RTX PRO 5000+Qwen3.6-35B-A3B-NVFP4推理性能大揭秘,速度对比FP16精度,直接翻9倍

做AI推理的伙伴们看过来!最近我们容天AI实验室完成了Qwen3.6 NVFP4在2×NVIDIA RTX PRO 5000 Blackwell硬件上的全面推理测试。

结果直接刷新预期——单流速度比FP16方案快9倍,峰值吞吐突破4000 tok/s,看完这份实测总结,你再也不用为推理性能选型发愁~

图片

先上核心结论,帮大家快速抓重点:

  • 单流首包延迟低至38.3ms,输出速度达180 tok/s,交互体验拉满;

  • 峰值吞吐4085 tok/s,高并发能力拉满;

  • 并发192达性能拐点,兼顾吞吐与延迟,部署选型有明确方向;

  • 长上下文表现优秀,16K prompt仍能稳定运行,适配多场景需求。

Part.1

测试背景

同口径复测,结果更具参考性

核心测试环境(必看!):

  • 硬件:2×NVIDIA RTX PRO 5000 Blackwell

  • 模型:Qwen3.6 NVFP4(量化格式:compressed-tensors / nvfp4-pack-quantized)

  • 环境:Ubuntu 24.04 + Docker(vllm/vllm-openai:cu130-nightly)

  • 服务配置:TP=2,max_model_len=131072,gpu_memory_utilization=0.85

Part.2

核心测试结果:每一项都很能打


单请求延迟基线:单用户体验拉满

测试条件:短prompt(“请用中文简要说明什么是矩阵乘法”)、max_tokens=256,连续测试5次,结果稳定:

  • TTFT P50(首token延迟):38.3ms,首包响应极快;

  • 单流tps P50:180.07 tok/s;

  • TPOT P50(首token后平均间隔):5.43ms,输出流畅无卡顿。

☑ 结论:单用户场景下,交互体验堪称“丝滑”,完全满足即时调用、Agent交互等低延迟需求。

并发吞吐测试:

峰值拐点清晰,部署有章可循

我们测试了1/4/8/16...256共12个并发档位,核心观察如下:

  • 峰值吞吐:4085 tok/s,出现在并发192档位

  • 饱和信号:并发256时,吞吐降至4055.8 tok/s,TTFT P50飙升至486.5ms

  • 关键规律:并发≤128时,TTFT P50<300ms,单流≥30 tok/s,兼顾吞吐与交

附上核心并发档位数据(精简版),方便大家快速参考:

图片

长上下文测试:

Prefill性能突出,适配长文档场景

针对150/1K/4K/16K四种prompt长度,固定输出128 tokens,测试结果亮点十足:

  • Prefill吞吐:1K+ prompt后稳定在9.2K~10.1K tok/s,处理长prompt速度极快

  • 上下文影响:随着prompt长度增加,输出速度略有下降(16K时降至28 tok/s),但整体仍能稳定运行

  • 实用建议:长文档问答场景,需平衡“交互体验”和“总耗时”,优先选择并发≤128档位

GPU监控:充分打满,无明显瓶颈

并发192和256两个关键档位,用nvidia-smi dmon实时监控GPU状态,结果显示:

  • SM利用率:平均92.8%~94%,峰值100%,GPU资源被充分利用

  • 功耗与温度:单卡平均功耗约190W,峰值温度79℃,运行稳定,无过热风险

  • 核心优势:不同于参考方案的低功耗带宽瓶颈,本次平台呈现“算力与带宽共同接近上限”的健康高负载状态

Part.3

实用部署建议

不同场景对应不同方案

结合测试结果,整理了4种部署模式,直接对照选用即可,不用再自己摸索:

图片

Part.4

Qwen3.6 NVFP4这套组合

闭眼冲不踩坑

本次测试全程零失败,综合来看,2×RTX PRO 5000 Blackwell + Qwen3.6 NVFP4的组合,核心优势总结3点:

  • 性能能打:硬件潜力充分释放;

  • 部署灵活:不同并发档位对应不同场景,从低延迟交互到高吞吐批量任务,全覆盖无死角

  • 运行稳定:GPU负载健康,长上下文表现优秀,适配绝大多数AI推理业务场景

如果你的业务涉及AI推理、大模型部署,这套组合值得重点考虑~

后续我们还会持续更新更多模型+硬件的实测报告,记得关注不迷路!


上一篇:智习华章携手双卡 5880ADA 工作站,重塑高效工作新纪元