对于金融、医疗、政务等对数据合规有极高要求的行业,闭源API的调用始终存在数据泄露的风险,而Qwen3.5-122b的本地部署能力,完美解决了这个痛点。
有金融机构的技术团队,将模型本地部署在内部隔离网络中,用于内部业务代码的辅助开发、审计报告的自动生成、客户信贷材料的合规审核。所有数据全程不出本地机房,既满足了监管合规要求,又享受到了大模型带来的效率提升,相比采购闭源API,成本降低了90%以上。
同样,在医疗行业,有机构基于模型微调后,用于医学文献的分析、病历的结构化整理、临床诊疗指南的快速查询,在保证患者数据隐私安全的前提下,为医生提供辅助决策支持。
容天 AIX-1360 + 双卡 RTX PRO 5000 黄金组合部署Qwen 3.5 122b 实测高光:
双 Blackwell 架构 GPU+96G 显存,轻松承载 81G 全精度大模型,硬件算力拉满
464 次请求 100% 成功率,0 失败 0 报错,企业级稳定性直接拉满
并发≥10 吞吐量触顶~67.5tok/s,逼近理论上限,调度开销低到忽略不计
单并发延迟仅 1.7s,响应速度超惊艳,推理效率与体验双优
全系统适配 Ubuntu24.04,软硬协同无卡点,落地超省心
顶级大模型 + 旗舰工作站的王炸组合,堪称企业级大模型推理落地的最优解,全精度、高并发、稳性能三者兼得
1 测试环境
项目 | 详情 |
服务器 | 192.168.110.136 (lyl-Super-Server) |
操作系统 | Ubuntu 24.04, 内核 6.17.0-14-generic |
GPU | 2 × NVIDIA RTX PRO 5000 Blackwell (48GB VRAM each) |
总显存 | 96 GB |
驱动版本 | NVIDIA 580.105.08, CUDA 13.0 |
Ollama 版本 | 最新稳定版,systemd 服务模式运行 |
模型 | qwen3.5:122b (81GB, 全精度) |
2 测试方案
Prompt | 请用一句话解释什么是人工智能。 |
最大生成 Token | 100 |
并发级别 | 1, 5, 10, 20, 30, 50 |
OLLAMA_NUM_PARALLEL 设置 | 1, 2, 4, 8 |
每组测试流程 | 重启 Ollama 服务 → 预热加载模型到 GPU → 开始正式测试 |
3 测试结果
3.1 吞吐量对比(tok/s)
并发数 | P=1 | P=2 | P=4 | P=8 |
1 | 59.0 | 58.9 | 59.2 | 58.9 |
5 | 65.2 | 65.0 | 65.0 | 65.0 |
10 | 67.0 | 67.0 | 67.0 | 67.1 |
20 | 67.4 | 67.4 | 67.4 | 67.4 |
30 | 67.6 | 67.6 | 67.6 | 67.6 |
50 | 67.5 | 67.6 | 67.7 | 67.5 |
3.2 平均延迟对比(秒)
并发数 | P=1 | P=2 | P=4 | P=8 |
1 | 1.7 | 1.7 | 1.7 | 1.7 |
5 | 4.7 | 4.7 | 4.7 | 4.7 |
10 | 8.3 | 8.3 | 8.3 | 8.3 |
20 | 15.7 | 15.7 | 15.7 | 15.7 |
30 | 23.1 | 23.1 | 23.1 | 23.1 |
50 | 38.0 | 37.9 | 37.9 | 38.0 |
3.3 单请求 Token 生成速率
所有测试中,单请求 TPS 恒定在 ~74 tok/s,不受并发数和NUM_PARALLEL 影响。
3.4 成功率
100% — 共 464 个请求(4 轮 × 116 请求),0 失败。
4 关键发现
4.1 OLLAMA_NUM_PARALLEL 对性能无影响
⚠ 重要 修改OLLAMA_NUM_PARALLEL(1→2→4→8)后,吞吐量和延迟完全一致,没有任何变化。
原因:qwen3.5:122b 模型权重约 81 GB,两张 48 GB 显卡(共 96 GB)几乎被完全占满,没有多余显存分配多个并行的 KV Cache,Ollama 自动退回串行处理模式。
4.2 请求为串行处理
并发请求实际按队列串行执行:
• 单请求耗时 ~1.5s(100 token ÷ 74 tok/s)
• 5 并发总耗时 7.7s ≈ 1.5s × 5(串行排队)
• 延迟随并发数线性增长,进一步证实串行行为
4.3 GPU 解码速率稳定
单请求 TPS 恒定 ~74 tok/s,说明 GPU 推理性能稳定,不存在热降频或其他性能波动。
4.4 吞吐量天花板 ~67.5 tok/s
并发数≥ 10 后吞吐量趋于稳定(~67.5 tok/s),这是 GPU 请求调度开销导致的上限,略低于理论值 74 tok/s。
5 总结
建议 | 说明 |
保持 P=1 | OLLAMA_NUM_PARALLEL保持默认,设更高无收益 |
锁定内核 | 执行apt-mark hold linux-image-generic-hwe-24.04防止驱动再次丢失 |
如需更高吞吐 | 使用更小的量化模型(如 Q4/Q8),释放显存给并行 KV Cache |
如需真正并行 | 增加 GPU 数量,或部署多实例 + 负载均衡 |
作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。 能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~ 产品咨询热线:400-890-8985 期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能。