合规敏感场景，数据安全的最优解出炉-------容天天AIX-1360工作站 + 双卡 RTX PRO 5000 黄金组合+Qwen 3.5 122b

对于金融、医疗、政务等对数据合规有极高要求的行业，闭源API的调用始终存在数据泄露的风险，而Qwen3.5-122b的本地部署能力，完美解决了这个痛点。

有金融机构的技术团队，将模型本地部署在内部隔离网络中，用于内部业务代码的辅助开发、审计报告的自动生成、客户信贷材料的合规审核。所有数据全程不出本地机房，既满足了监管合规要求，又享受到了大模型带来的效率提升，相比采购闭源API，成本降低了90%以上。

同样，在医疗行业，有机构基于模型微调后，用于医学文献的分析、病历的结构化整理、临床诊疗指南的快速查询，在保证患者数据隐私安全的前提下，为医生提供辅助决策支持。

容天 AIX-1360 + 双卡 RTX PRO 5000 黄金组合部署Qwen 3.5 122b 实测高光：

双 Blackwell 架构 GPU+96G 显存，轻松承载 81G 全精度大模型，硬件算力拉满

464 次请求 100% 成功率，0 失败 0 报错，企业级稳定性直接拉满

并发≥10 吞吐量触顶～67.5tok/s，逼近理论上限，调度开销低到忽略不计

单并发延迟仅 1.7s，响应速度超惊艳，推理效率与体验双优

全系统适配 Ubuntu24.04，软硬协同无卡点，落地超省心

顶级大模型 + 旗舰工作站的王炸组合，堪称企业级大模型推理落地的最优解，全精度、高并发、稳性能三者兼得

1 测试环境

项目	详情
服务器	192.168.110.136 (lyl-Super-Server)
操作系统	Ubuntu 24.04, 内核 6.17.0-14-generic
GPU	2 × NVIDIA RTX PRO 5000 Blackwell (48GB VRAM each)
总显存	96 GB
驱动版本	NVIDIA 580.105.08, CUDA 13.0
Ollama 版本	最新稳定版，systemd 服务模式运行
模型	qwen3.5:122b (81GB, 全精度)

2 测试方案

Prompt	请用一句话解释什么是人工智能。
最大生成 Token	100
并发级别	1, 5, 10, 20, 30, 50
OLLAMA_NUM_PARALLEL 设置	1, 2, 4, 8
每组测试流程	重启 Ollama 服务 → 预热加载模型到 GPU → 开始正式测试

3 测试结果

3.1 吞吐量对比（tok/s）

3.2 平均延迟对比（秒）

3.3 单请求 Token 生成速率

所有测试中，单请求 TPS 恒定在 ~74 tok/s，不受并发数和NUM_PARALLEL 影响。

3.4 成功率

100% — 共 464 个请求（4 轮 × 116 请求），0 失败。

4 关键发现

4.1 OLLAMA_NUM_PARALLEL 对性能无影响

⚠ 重要 修改OLLAMA_NUM_PARALLEL（1→2→4→8）后，吞吐量和延迟完全一致，没有任何变化。

原因：qwen3.5:122b 模型权重约 81 GB，两张 48 GB 显卡（共 96 GB）几乎被完全占满，没有多余显存分配多个并行的 KV Cache，Ollama 自动退回串行处理模式。

4.2 请求为串行处理

并发请求实际按队列串行执行：

• 单请求耗时 ~1.5s（100 token ÷ 74 tok/s）

• 5 并发总耗时 7.7s ≈ 1.5s × 5（串行排队）

• 延迟随并发数线性增长，进一步证实串行行为

4.3 GPU 解码速率稳定

单请求 TPS 恒定 ~74 tok/s，说明 GPU 推理性能稳定，不存在热降频或其他性能波动。

4.4 吞吐量天花板 ~67.5 tok/s

并发数≥ 10 后吞吐量趋于稳定（~67.5 tok/s），这是 GPU 请求调度开销导致的上限，略低于理论值 74 tok/s。

5 总结

建议	说明
保持 P=1	OLLAMA_NUM_PARALLEL保持默认，设更高无收益
锁定内核	执行apt-mark hold linux-image-generic-hwe-24.04防止驱动再次丢失
如需更高吞吐	使用更小的量化模型（如 Q4/Q8），释放显存给并行 KV Cache
如需真正并行	增加 GPU 数量，或部署多实例 + 负载均衡

作为英伟达官方授权代理商，北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求，用专业服务帮您降低技术门槛，快速落地高性能生产力工具～

产品咨询热线：400-890-8985

期待与您携手，以英伟达硬核产品为基石，探索 AI 赋能办公、算力驱动创新的无限可能。