容天 AI 研究中心基于2 台 NVIDIA DGX Spark (GB10) 完成 Qwen3.5-122B 大模型分布式部署与全维度并发压测,通过 Ray 组建双节点集群、TP=2 跨机推理,搭配 vLLM 实现 OpenAI 兼容接口对外服务,部署零故障且token 生成速率、QPS 等核心性能线性飙升,轻量化分布式架构精准适配多类企业客户的大模型推理落地需求
双机 Spark 核心部署配置
每台 Spark 机搭载 1 张 GB10 GPU,高速网互通 + SSH 免密协同,适配 cu130-nightly 专属镜像,GPU 内存利用率 0.60 规避 OOM,Ray 集群稳定输出 40CPU+2GPU 算力,跨机推理链路全通,API 验证 100% 通过,为高性能推理筑牢硬件与架构基础。
测试档位:并发 1/5/10/20、每档 40 请求、max_tokens=64,全档位成功率 100% Completion tok/s 从 21.260 飙升至 191.027(9.0×),Total tok/s 从 27.240 涨至 244.753(9.0×)QPS 从 0.332req/s 提升至 2.985req/s(9.0×),并发 20 集群仍未饱和,性能可深度挖掘高并发时延可控:并发 20 时 P95 仅 7.327s,vLLM 连续批处理让硬件算力充分释放
精准适配如下场景需求
中大型企业研发 / AI 部门:需轻量化分布式架构落地大模型,无需大规模集群即可实现高性能推理,兼顾成本与算力
云计算 / SAAS 服务商:对外提供大模型 API 推理服务,需稳定的 OpenAI 兼容接口、高并发下的低时延与高 token 生成速率
政企 / 金融 / 教育行业客户:有专属私有化部署需求,双机 Spark 架构易部署、易维护,能满足业务侧智能问答、内容生成等推理场景
创业公司 / AI 工作室:算力预算有限,无需投入海量硬件,双机分布式架构即可支撑 Qwen3.5-122B 这类大模型的日常推理与业务测试
智能制造 / 客服中心:需本地化大模型推理能力,双机 Spark 集群占地小、部署快,能适配生产咨询、智能客服等高频次低复杂度推理场景
如下是部署细节可参考
第一部分:部署手册
1. 两台机器各 1 张 GPU(GB10),通过 Ray 组成 2 节点集群。
2. vLLM 在 Head 节点启动,tensor-parallel-size=2,跨两机推理。
3. 对外提供 OpenAI 兼容接口:/v1/models、/v1/chat/completions。
节点 | IP | 高速网 IP | 高速网卡 |
Head | 192.168.110.32 | 10.10.10.1 | enp1s0f0np0 |
Worker | 192.168.110.97 | 10.10.10.2 | enp1s0f0np0 |
两机 SSH 免密可用。
项目 | 详情 |
模型目录(两机一致) | /model/qwen3.5-122 |
必用镜像 | vllm/vllm-openai:cu130-nightly |
不建议镜像 | nvcr.io/nvidia/vllm:26.01-py3、26.02-py3(不支持 qwen3_5_moe) |
1. Qwen3.5-122B(qwen3_5_moe)需 cu130-nightly。
2. Ray 模式下容器必须 --entrypoint bash(不能走默认 vllm serve entrypoint)。
3. 两节点都必须设置:VLLM_HOST_IP、GLOO_SOCKET_IFNAME=enp1s0f0np0、NCCL_SOCKET_IFNAME=enp1s0f0np0。
4. 修改配置时必须同时重建 Head+Worker,避免 Ray 残留节点导致 IP 冲突。
5. 本次实测:--gpu-memory-utilization 0.90 会失败,0.60 可稳定启动。
ssh root@192.168.110.32 "docker rm -f vllm-head 2>/dev/null || true"
ssh root@192.168.110.97 "docker rm -f vllm-worker 2>/dev/null || true"
ssh root@192.168.110.32 "docker run -d --gpus all --network host --shm-size=16g \
--name vllm-head --entrypoint bash \
-v /model:/model \
-e VLLM_HOST_IP=10.10.10.1 \
-e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
-e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
vllm/vllm-openai:cu130-nightly \
-c 'ray start --head --node-ip-address=10.10.10.1 --port=6379 && sleep infinity'"
sleep 5
ssh root@192.168.110.97 "docker run -d --gpus all --network host --shm-size=16g \
--name vllm-worker --entrypoint bash \
-v /model:/model \
-e VLLM_HOST_IP=10.10.10.2 \
-e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
-e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
vllm/vllm-openai:cu130-nightly \
-c 'ray start --address=10.10.10.1:6379 --node-ip-address=10.10.10.2 && sleep infinity'"
ssh root@192.168.110.32 "sleep 8 && docker exec vllm-head ray status"
预期:Active: 2 nodes, 2 GPU, 40 CPU
vllm serve /model/qwen3.5-122 \
--tensor-parallel-size 2 \
--distributed-executor-backend ray \
--host 0.0.0.0 --port 8000 \
--max-model-len 2048 \
--gpu-memory-utilization 0.60 \
--enforce-eager \
--disable-custom-all-reduce \
--trust-remote-code \
--language-model-only \
--reasoning-parser qwen3
参数 | 值 | 说明 |
--tensor-parallel-size | 2 | 跨两机 TP 并行 |
--distributed-executor-backend | ray | 使用 Ray 分布式后端 |
--max-model-len | 2048 | 受内存限制,限制最大上下文 |
--gpu-memory-utilization | 0.60 | 0.90 会 OOM,0.60 稳定 |
--enforce-eager | - | 禁用 CUDA Graph |
--language-model-only | - | 仅加载语言模型(跳过视觉编码器) |
--reasoning-parser | qwen3 | 启用 Qwen3 reasoning 解析 |
ssh root@192.168.110.32 "docker exec vllm-head tail -f /tmp/vllm_serve.log"
成功标志:
1. Loading safetensors checkpoint shards: 100%
2. Application startup complete
3. Starting vLLM API server ... http://0.0.0.0:8000
查看日志,模型分片已经加载完毕
查看模型列表:
curl -sS http://127.0.0.1:8000/v1/models
聊天测试:
curl http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{"model":"/model/qwen3.5-122","messages":[{"role":"user","content":"你好"}],"max_tokens":50}'
故障 | 报错信息 | 原因 | 处理方案 |
Ray IP 冲突 | Every node should have a unique IP address | 只重建了单边容器,Ray 残留旧节点 | 同时删除并重建 Head + Worker |
Gloo 走 localhost | Gloo connectFullMesh failed ... 127.0.0.1 | 未设置网卡环境变量 | 两节点设置 GLOO/NCCL_SOCKET_IFNAME |
启动显存不足 | Free memory ... less than desired | gpu-memory-utilization 设置过高 | 下调至 0.60 |
测试日期:2026-03-04
项目 | 状态 |
Ray 集群 | 2 节点稳定,40 CPU / 2 GPU |
vLLM 服务 | Qwen3.5-122B 成功加载并启动 API |
/v1/models | 验证通过 |
关键动作 | 清理无关容器释放内存 + gpu-memory-utilization=0.60 |
1. 制作一键部署脚本,包含清理、启动、校验、健康检查全流程。
2. 推理节点建议专机专用,停掉无关容器,减少统一内存竞争。
3. 保留镜像离线包便于快速恢复。
第二部分:并发压测报告
项目 | 详情 |
测试对象 | /model/qwen3.5-122 (Qwen3.5-122B) |
服务地址 | http://127.0.0.1:8000/v1/chat/completions(Head 节点本机) |
集群形态 | 2 节点 Ray(40 CPU / 2 GPU),TP=2 |
并发档位 | 1 / 5 / 10 / 20 |
每档请求数 | 40 |
max_tokens | 64 |
temperature | 0 |
Prompt | Explain parallel computing in one sentence.(英文固定 prompt) |
统计指标:总耗时、QPS、Prompt/Completion/Total tok/s、延迟 avg/p50/p95
并发 | 总耗时(s) | QPS(req/s) | Prompt tok/s | Completion tok/s | Total tok/s | 平均时延(s) | P50(s) | P95(s) | 成功/失败 |
1 | 120.413 | 0.332 | 5.979 | 21.260 | 27.240 | 3.010 | 3.007 | 3.094 | 40/0 |
5 | 44.691 | 0.895 | 16.110 | 57.282 | 73.392 | 5.583 | 4.131 | 15.178 | 40/0 |
10 | 21.100 | 1.896 | 34.123 | 121.327 | 155.450 | 5.268 | 5.218 | 5.630 | 40/0 |
20 | 13.401 | 2.985 | 53.726 | 191.027 | 244.753 | 6.696 | 6.656 | 7.327 | 40/0 |
并发 | Completion tok/s | 相对并发1倍数 | QPS (req/s) |
1 | 21.3 | 1.0× | 0.332 |
5 | 57.3 | 2.7× | 0.895 |
10 | 121.3 | 5.7× | 1.896 |
20 | 191.0 | 9.0× | 2.985 |
吞吐量随并发近乎线性增长,说明在并发 20 时集群仍未饱和,还有提升空间。
并发 | 平均时延(s) | P50(s) | P95(s) |
1 | 3.010 | 3.007 | 3.094 |
5 | 5.583 | 4.131 | 15.178 |
10 | 5.268 | 5.218 | 5.630 |
20 | 6.696 | 6.656 | 7.327 |
延迟在并发 5 时 P95 较高(15.2s),可能是初始排队导致。并发 10/20 时 P95 反而更稳定(5.6s/7.3s)。
1. 吞吐随并发提升明显,并发 20 达到本轮最高:Completion tok/s = 191.0,Total tok/s = 244.8。ls
k
2. 时延在高并发下上升但可控:并发 20 时 P95 = 7.327s。
3. 稳定性良好:四个并发档位均 40/40 成功,无错误请求。
4. vLLM continuous batching 有效发挥作用,吞吐随并发近乎线性增长。
建议 | 说明 |
扩展并发测试 | 继续测试 30/40/50 并发,找到吞吐量饱和拐点 |
增大 max_tokens | 测试 128/256/512,评估长文本生成性能 |
增加请求数 | 每档 200+ 请求,使统计更稳定 |
使用真实 prompt | 引入线上典型 prompt 长度分布评估真实业务体验 |
提升 gpu-memory-utilization | 尝试 0.70/0.75,增大 KV Cache 容量提升并发上限 |
参考文档:https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html
作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供英伟达全系列产品一站式采购与技术咨询服务。
覆盖 AI 训练 / 推理、数据中心、智算集群、高性能计算等全场景,提供方案设计、供货交付、部署实施、技术维保一体化解决方案,用专业服务降低技术门槛,助力高性能算力快速落地。
一站式满足您在AI 算力、高速网络、服务器部署、集群优化等需求,从产品选型到落地交付全程支持,稳定供货、专业赋能。
产品咨询热线:400-890-8985
以英伟达硬核算力为基石,与您携手探索 AI 赋能、算力驱动的无限可能。