新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

全网首发---------双机 NVIDIA DGX Spark (GB10) 落地 Qwen3.5-122B!Ray+vLLM 性能拉满,适配多类企业推理需求

       容天 AI 研究中心基于2 台 NVIDIA DGX Spark (GB10) 完成 Qwen3.5-122B 大模型分布式部署与全维度并发压测,通过 Ray 组建双节点集群、TP=2 跨机推理,搭配 vLLM 实现 OpenAI 兼容接口对外服务,部署零故障且token 生成速率、QPS 等核心性能线性飙升,轻量化分布式架构精准适配多类企业客户的大模型推理落地需求

图片

 双机 Spark 核心部署配置

每台 Spark 机搭载 1 张 GB10 GPU,高速网互通 + SSH 免密协同,适配 cu130-nightly 专属镜像,GPU 内存利用率 0.60 规避 OOM,Ray 集群稳定输出 40CPU+2GPU 算力,跨机推理链路全通,API 验证 100% 通过,为高性能推理筑牢硬件与架构基础。

 核心性能 & token 生成速率拉满

测试档位:并发 1/5/10/20、每档 40 请求、max_tokens=64,全档位成功率 100% Completion tok/s 从 21.260 飙升至 191.027(9.0×),Total tok/s 从 27.240 涨至 244.753(9.0×)QPS 从 0.332req/s 提升至 2.985req/s(9.0×),并发 20 集群仍未饱和,性能可深度挖掘高并发时延可控:并发 20 时 P95 仅 7.327s,vLLM 连续批处理让硬件算力充分释放

 精准适配如下场景需求

 中大型企业研发 / AI 部门:需轻量化分布式架构落地大模型,无需大规模集群即可实现高性能推理,兼顾成本与算力

 云计算 / SAAS 服务商:对外提供大模型 API 推理服务,需稳定的 OpenAI 兼容接口、高并发下的低时延与高 token 生成速率

 政企 / 金融 / 教育行业客户:有专属私有化部署需求,双机 Spark 架构易部署、易维护,能满足业务侧智能问答、内容生成等推理场景

创业公司 / AI 工作室:算力预算有限,无需投入海量硬件,双机分布式架构即可支撑 Qwen3.5-122B 这类大模型的日常推理与业务测试

 智能制造 / 客服中心:需本地化大模型推理能力,双机 Spark 集群占地小、部署快,能适配生产咨询、智能客服等高频次低复杂度推理场景

图片


如下是部署细节可参考

第一部分:部署手册

1. 目标与架构

1. 两台机器各 张 GPUGB10),通过 Ray 组成 节点集群。

2. vLLM 在 Head 节点启动,tensor-parallel-size=2,跨两机推理。

3. 对外提供 OpenAI 兼容接口:/v1/models/v1/chat/completions

2. 环境前提

2.1 节点与网络

节点

IP

高速网 IP

高速网卡

Head

192.168.110.32

10.10.10.1

enp1s0f0np0

Worker

192.168.110.97

10.10.10.2

enp1s0f0np0

两机 SSH 免密可用。

2.2 模型与镜像

项目

详情

模型目录(两机一致)

/model/qwen3.5-122

必用镜像

vllm/vllm-openai:cu130-nightly

不建议镜像

nvcr.io/nvidia/vllm:26.01-py326.02-py3(不支持 qwen3_5_moe

3. 关键兼容性结论

1. Qwen3.5-122Bqwen3_5_moe)需 cu130-nightly

2. Ray 模式下容器必须 --entrypoint bash(不能走默认 vllm serve entrypoint)。

3. 两节点都必须设置:VLLM_HOST_IPGLOO_SOCKET_IFNAME=enp1s0f0np0NCCL_SOCKET_IFNAME=enp1s0f0np0

4. 修改配置时必须同时重建 Head+Worker,避免 Ray 残留节点导致 IP 冲突。

5. 本次实测:--gpu-memory-utilization 0.90 会失败,0.60 可稳定启动。

4. 标准部署流程

4.1 清理旧容器

ssh root@192.168.110.32 "docker rm -f vllm-head 2>/dev/null || true"
ssh root@192.168.110.97 "docker rm -f vllm-worker 2>/dev/null || true"

4.2 启动 Ray HeadNode 32

ssh root@192.168.110.32 "docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-head --entrypoint bash \
  -v /model:/model \
  -e VLLM_HOST_IP=10.10.10.1 \
  -e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
  -e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
  vllm/vllm-openai:cu130-nightly \
  -c 'ray start --head --node-ip-address=10.10.10.1 --port=6379 && sleep infinity'"

4.3 启动 Ray WorkerNode 97

sleep 5
ssh root@192.168.110.97 "docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-worker --entrypoint bash \
  -v /model:/model \
  -e VLLM_HOST_IP=10.10.10.2 \
  -e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
  -e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
  vllm/vllm-openai:cu130-nightly \
  -c 'ray start --address=10.10.10.1:6379 --node-ip-address=10.10.10.2 && sleep infinity'"

4.4 验证 Ray 集群

ssh root@192.168.110.32 "sleep 8 && docker exec vllm-head ray status"

预期:Active: 2 nodes, 2 GPU, 40 CPU

5. 启动 vLLM(已验证参数)

vllm serve /model/qwen3.5-122 \
  --tensor-parallel-size 2 \
  --distributed-executor-backend ray \
  --host 0.0.0.0 --port 8000 \
  --max-model-len 2048 \
  --gpu-memory-utilization 0.60 \
  --enforce-eager \
  --disable-custom-all-reduce \
  --trust-remote-code \
  --language-model-only \
  --reasoning-parser qwen3

参数

说明

--tensor-parallel-size

2

跨两机 TP 并行

--distributed-executor-backend

ray

使用 Ray 分布式后端

--max-model-len

2048

受内存限制,限制最大上下文

--gpu-memory-utilization

0.60

0.90 会 OOM0.60 稳定

--enforce-eager

-

禁用 CUDA Graph

--language-model-only

-

仅加载语言模型(跳过视觉编码器)

--reasoning-parser

qwen3

启用 Qwen3 reasoning 解析

6. 启动监控与成功判据

ssh root@192.168.110.32 "docker exec vllm-head tail -f /tmp/vllm_serve.log"

成功标志:

1. Loading safetensors checkpoint shards: 100%

2. Application startup complete

3. Starting vLLM API server ... http://0.0.0.0:8000

查看日志,模型分片已经加载完毕

图片


7. API 验证

查看模型列表:

curl -sS http://127.0.0.1:8000/v1/models

聊天测试:

curl http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{"model":"/model/qwen3.5-122","messages":[{"role":"user","content":"你好"}],"max_tokens":50}' 

8. 常见故障与处理

故障

报错信息

原因

处理方案

Ray IP 冲突

Every node should have a unique IP address

只重建了单边容器,Ray 残留旧节点

同时删除并重建 Head + Worker

Gloo 走 localhost

Gloo connectFullMesh failed ... 127.0.0.1

未设置网卡环境变量

两节点设置 GLOO/NCCL_SOCKET_IFNAME

启动显存不足

Free memory ... less than desired

gpu-memory-utilization 设置过高

下调至 0.60

9. 本次实测最终状态

测试日期:2026-03-04

项目

状态

Ray 集群

节点稳定,40 CPU / 2 GPU

vLLM 服务

Qwen3.5-122B 成功加载并启动 API

/v1/models

验证通过

关键动作

清理无关容器释放内存 + gpu-memory-utilization=0.60

10. 生产建议

1. 制作一键部署脚本,包含清理、启动、校验、健康检查全流程。

2. 推理节点建议专机专用,停掉无关容器,减少统一内存竞争。

3. 保留镜像离线包便于快速恢复。

第二部分:并发压测报告

11. 测试配置

项目

详情

测试对象

/model/qwen3.5-122 (Qwen3.5-122B)

服务地址

http://127.0.0.1:8000/v1/chat/completionsHead 节点本机)

集群形态

节点 Ray40 CPU / 2 GPU),TP=2

并发档位

1 / 5 / 10 / 20

每档请求数

40

max_tokens

64

temperature

0

Prompt

Explain parallel computing in one sentence.(英文固定 prompt

统计指标:总耗时、QPSPrompt/Completion/Total tok/s、延迟 avg/p50/p95

12. 测试结果汇总

并发

总耗时(s)

QPS(req/s)

Prompt tok/s

Completion tok/s

Total tok/s

平均时延(s)

P50(s)

P95(s)

成功/失败

1

120.413

0.332

5.979

21.260

27.240

3.010

3.007

3.094

40/0

5

44.691

0.895

16.110

57.282

73.392

5.583

4.131

15.178

40/0

10

21.100

1.896

34.123

121.327

155.450

5.268

5.218

5.630

40/0

20

13.401

2.985

53.726

191.027

244.753

6.696

6.656

7.327

40/0

吞吐量趋势

并发

Completion tok/s

相对并发1倍数

QPS (req/s)

1

21.3

1.0×

0.332

5

57.3

2.7×

0.895

10

121.3

5.7×

1.896

20

191.0

9.0×

2.985

吞吐量随并发近乎线性增长,说明在并发 20 时集群仍未饱和,还有提升空间。

延迟趋势

并发

平均时延(s)

P50(s)

P95(s)

1

3.010

3.007

3.094

5

5.583

4.131

15.178

10

5.268

5.218

5.630

20

6.696

6.656

7.327

延迟在并发 5 时 P95 较高(15.2s),可能是初始排队导致。并发 10/20 时 P95 反而更稳定(5.6s/7.3s)。

13. 结论

1. 吞吐随并发提升明显,并发 20 达到本轮最高:Completion tok/s = 191.0Total tok/s = 244.8ls

k

2. 时延在高并发下上升但可控:并发 20 时 P95 = 7.327s

3. 稳定性良好:四个并发档位均 40/40 成功,无错误请求。

4. vLLM continuous batching 有效发挥作用,吞吐随并发近乎线性增长。

14. 说明与建议

建议

说明

扩展并发测试

继续测试 30/40/50 并发,找到吞吐量饱和拐点

增大 max_tokens

测试 128/256/512,评估长文本生成性能

增加请求数

每档 200+ 请求,使统计更稳定

使用真实 prompt

引入线上典型 prompt 长度分布评估真实业务体验

提升 gpu-memory-utilization

尝试 0.70/0.75,增大 KV Cache 容量提升并发上限

参考文档:https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html

北京容天汇海科技有限公司|英伟达官方授权代理商

作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供英伟达全系列产品一站式采购与技术咨询服务。

覆盖 AI 训练 / 推理、数据中心、智算集群、高性能计算等全场景,提供方案设计、供货交付、部署实施、技术维保一体化解决方案,用专业服务降低技术门槛,助力高性能算力快速落地。

主营产品

  • GPU 加速卡
  • DGX 系列 AI 服务器
  • 智能网卡 & DPU
    ConnectX 系列网卡、BlueField DPU
  • 高速交换机
    Spectrum 以太网交换机、Quantum InfiniBand 交换机

服务优势

一站式满足您在AI 算力、高速网络、服务器部署、集群优化等需求,从产品选型到落地交付全程支持,稳定供货、专业赋能。

产品咨询热线:400-890-8985

以英伟达硬核算力为基石,与您携手探索 AI 赋能、算力驱动的无限可能。


上一篇:合规敏感场景,数据安全的最优解出炉-------容天天AIX