新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

合规敏感场景,数据安全的最优解出炉-------容天天AIX-1360工作站 + 双卡 RTX PRO 5000 黄金组合+Qwen 3.5 122b

     对于金融、医疗、政务等对数据合规有极高要求的行业,闭源API的调用始终存在数据泄露的风险,而Qwen3.5-122b的本地部署能力,完美解决了这个痛点。

    有金融机构的技术团队,将模型本地部署在内部隔离网络中,用于内部业务代码的辅助开发、审计报告的自动生成、客户信贷材料的合规审核。所有数据全程不出本地机房,既满足了监管合规要求,又享受到了大模型带来的效率提升,相比采购闭源API,成本降低了90%以上。

   同样,在医疗行业,有机构基于模型微调后,用于医学文献的分析、病历的结构化整理、临床诊疗指南的快速查询,在保证患者数据隐私安全的前提下,为医生提供辅助决策支持。

容天 AIX-1360 + 双卡 RTX PRO 5000 黄金组合部署Qwen 3.5 122b 实测高光:

图片

     双 Blackwell 架构 GPU+96G 显存,轻松承载 81G 全精度大模型,硬件算力拉满

    464 次请求 100% 成功率,0 失败 0 报错,企业级稳定性直接拉满

并发≥10 吞吐量触顶~67.5tok/s,逼近理论上限,调度开销低到忽略不计

单并发延迟仅 1.7s,响应速度超惊艳,推理效率与体验双优

全系统适配 Ubuntu24.04,软硬协同无卡点,落地超省心

顶级大模型 + 旗舰工作站的王炸组合,堪称企业级大模型推理落地的最优解,全精度、高并发、稳性能三者兼得

测试环境

项目

详情

服务器

192.168.110.136 (lyl-Super-Server)

操作系统

Ubuntu 24.04, 内核 6.17.0-14-generic

GPU

2 × NVIDIA RTX PRO 5000 Blackwell (48GB VRAM each)

总显存

96 GB

驱动版本

NVIDIA 580.105.08, CUDA 13.0

Ollama 版本

最新稳定版,systemd 服务模式运行

模型

qwen3.5:122b (81GB, 全精度)

测试方案

Prompt

请用一句话解释什么是人工智能。

最大生成 Token

100

并发级别

1, 5, 10, 20, 30, 50

OLLAMA_NUM_PARALLEL 设置

1, 2, 4, 8

每组测试流程

重启 Ollama 服务 → 预热加载模型到 GPU → 开始正式测试

测试结果

3.1 吞吐量对比(tok/s

并发数

P=1

P=2

P=4

P=8

1

59.0

58.9

59.2

58.9

5

65.2

65.0

65.0

65.0

10

67.0

67.0

67.0

67.1

20

67.4

67.4

67.4

67.4

30

67.6

67.6

67.6

67.6

50

67.5

67.6

67.7

67.5

3.2 平均延迟对比(秒)

并发数

P=1

P=2

P=4

P=8

1

1.7

1.7

1.7

1.7

5

4.7

4.7

4.7

4.7

10

8.3

8.3

8.3

8.3

20

15.7

15.7

15.7

15.7

30

23.1

23.1

23.1

23.1

50

38.0

37.9

37.9

38.0

3.3 单请求 Token 生成速率

所有测试中,单请求 TPS 恒定在 ~74 tok/s,不受并发数和NUM_PARALLEL 影响。

3.4 成功率

100% — 共 464 个请求(轮 × 116 请求),失败。

关键发现

4.1 OLLAMA_NUM_PARALLEL 对性能无影响

⚠ 重要 修改OLLAMA_NUM_PARALLEL1→2→4→8)后,吞吐量和延迟完全一致,没有任何变化。

原因qwen3.5:122b 模型权重约 81 GB,两张 48 GB 显卡(共 96 GB)几乎被完全占满,没有多余显存分配多个并行的 KV CacheOllama 自动退回串行处理模式。

4.2 请求为串行处理

并发请求实际按队列串行执行:

• 单请求耗时 ~1.5s100 token ÷ 74 tok/s

• 5 并发总耗时 7.7s ≈ 1.5s × 5(串行排队)

• 延迟随并发数线性增长,进一步证实串行行为

4.3 GPU 解码速率稳定

单请求 TPS 恒定 ~74 tok/s,说明 GPU 推理性能稳定,不存在热降频或其他性能波动。

4.4 吞吐量天花板 ~67.5 tok/s

并发数≥ 10 后吞吐量趋于稳定(~67.5 tok/s),这是 GPU 请求调度开销导致的上限,略低于理论值 74 tok/s

5 总结

建议

说明

保持 P=1

OLLAMA_NUM_PARALLEL保持默认,设更高无收益

锁定内核

执行apt-mark hold linux-image-generic-hwe-24.04防止驱动再次丢失

如需更高吞吐

使用更小的量化模型(如 Q4/Q8),释放显存给并行 KV Cache

如需真正并行

增加 GPU 数量,或部署多实例 负载均衡


     作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~

产品咨询热线:400-890-8985

期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能。


上一篇:Qwen3-Coder-Next-FP8 部署在 NVIDI