实测封神！容天1360工作站双卡RTX PRO 5000+Qwen3.6-35B-A3B-NVFP4推理性能大揭秘，速度对比FP16精度，直接翻9倍

做AI推理的伙伴们看过来！最近我们容天AI实验室完成了Qwen3.6 NVFP4在2×NVIDIA RTX PRO 5000 Blackwell硬件上的全面推理测试。

结果直接刷新预期——单流速度比FP16方案快9倍，峰值吞吐突破4000 tok/s，看完这份实测总结，你再也不用为推理性能选型发愁～

先上核心结论，帮大家快速抓重点：

Part.1

测试背景

同口径复测，结果更具参考性

核心测试环境（必看！）：

Part.2

核心测试结果：每一项都很能打

单请求延迟基线：单用户体验拉满

测试条件：短prompt（“请用中文简要说明什么是矩阵乘法”）、max_tokens=256，连续测试5次，结果稳定：

☑ 结论：单用户场景下，交互体验堪称“丝滑”，完全满足即时调用、Agent交互等低延迟需求。

并发吞吐测试：

峰值拐点清晰，部署有章可循

我们测试了1/4/8/16...256共12个并发档位，核心观察如下：

附上核心并发档位数据（精简版），方便大家快速参考：

长上下文测试：

Prefill性能突出，适配长文档场景

针对150/1K/4K/16K四种prompt长度，固定输出128 tokens，测试结果亮点十足：

GPU监控：充分打满，无明显瓶颈

在并发192和256两个关键档位，用nvidia-smi dmon实时监控GPU状态，结果显示：

Part.3

实用部署建议

不同场景对应不同方案

结合测试结果，整理了4种部署模式，直接对照选用即可，不用再自己摸索：

Part.4

Qwen3.6 NVFP4这套组合

闭眼冲不踩坑

本次测试全程零失败，综合来看，2×RTX PRO 5000 Blackwell + Qwen3.6 NVFP4的组合，核心优势总结3点：

如果你的业务涉及AI推理、大模型部署，这套组合值得重点考虑～

后续我们还会持续更新更多模型+硬件的实测报告，记得关注不迷路！