在大模型分布式推理的技术探索中,容天AI研究中心再迈新步!基于两台 NVIDIA DGX Spark (GB10) 服务器,通过 Ray 分布式 + vLLM 架构实现 Qwen3.5-397B-INT4 超大规模模型的 TP=2 跨机并行部署,经全流程测试验证,服务启动成功、API 调用通畅、推理性能稳定,测试结果 100% PASS,圆满完成本次大模型分布式部署验证!
本次部署的 Qwen3.5-397B-INT4 模型为 397B 参数的 INT4 量化版本,对硬件资源、分布式通信架构要求极高。而双机 DGX Spark (GB10) 的硬核配置,成为本次超大规模模型成功落地的核心支撑:每台设备搭载 128GB 统一内存,双机构建高速内网集群(Head 节点 192.168.110.32/Worker 节点 192.168.110.97),结合 Ray 分布式后端与 vLLM 推理框架,将模型计算与存储压力高效分摊至双机,实现 102.53GiB 模型的完整加载,仅耗时 46.70 秒即完成引擎初始化,94 个模型分片 100% 成功加载,为大模型推理筑牢硬件根基。
在核心参数调优上,我们经过实测敲定最优配置:设置 --tensor-parallel-size=2 实现跨机 TP 并行,GPU 显存利用率拉满至 0.92,通过 FP8 格式 KV Cache 节省内存资源,同时预留 8.64GiB 缓存空间,搭配 16GiB CPU swap 空间,既充分发挥硬件性能,又保障部署兼容性
部署详细步骤
项目 | 详情 |
Head 节点 | 192.168.110.32(高速网 10.10.10.1) |
Worker 节点 | 192.168.110.97(高速网 10.10.10.2) |
模型路径 | /model/qwen3.5-397b-int4 |
模型大小 | 397B 参数,INT4 量化 |
Docker 镜像 | vllm/vllm-openai:cu130-nightly |
运行时 | Ray 分布式 + vLLM serve |
GPU | 2× NVIDIA GB10(每机 128GB 统一内存) |
参数 | 值 | 说明 |
--tensor-parallel-size | 2 | 跨两机 TP 并行 |
--distributed-executor-backend | ray | 使用 Ray 分布式后端 |
--max-model-len | 16 → 512 | 初始 16 用于启动验证,后扩展至 512 |
--max-num-seqs | 1 | 限制最大并发序列数 |
--gpu-memory-utilization | 0.92 | 模型 102.5 GiB,需高利用率 |
--kv-cache-dtype | fp8 | FP8 KV Cache 节省内存 |
--swap-space | 16 | CPU swap 空间(128 会验证失败) |
--enforce-eager | - | 禁用 CUDA Graph |
--disable-custom-all-reduce | - | 禁用自定义 AllReduce |
--trust-remote-code | - | 允许加载模型自定义代码 |
--language-model-only | - | 仅加载语言模型(跳过视觉编码器) |
注意:max-model-len=16 是极端启动参数,仅用于 bring-up 验证,不适合生产使用。
指标 | 值 |
模型分片加载 | Loading safetensors checkpoint shards: 100% | 94/94 |
模型内存占用 | 102.53 GiB |
可用 KV Cache 内存 | 8.64 GiB |
引擎初始化时间 | 46.70 秒 |
API 服务地址 | http://0.0.0.0:8000 |
curl http://192.168.110.32:8000/v1/models
结果:HTTP 200,返回模型 ID /model/qwen3.5-397b-int4。
请求体:
{
"model": "/model/qwen3.5-397b-int4",
"messages": [{"role":"user","content":"hi"}],
"max_tokens": 4,
"temperature": 0.0
}
结果:请求成功,返回补全文本。
项目 | 详情 |
测试方法 | 10 次串行请求 (concurrency=1) |
Prompt | hi |
max_tokens | 4 |
temperature | 0.0 |
服务配置 | max-model-len=16 |
指标 | 值 |
成功率 | 10/10 |
平均延迟 | 0.435 s |
P50 延迟 | 0.431 s |
Min / Max 延迟 | 0.419 s / 0.475 s |
平均生成速度 | 9.20 tokens/s |
Run | 延迟 (s) | 速度 (tok/s) |
1 | 0.475 | 8.41 |
2 | 0.442 | 9.04 |
3 | 0.426 | 9.38 |
4 | 0.431 | 9.28 |
5 | 0.438 | 9.14 |
6 | 0.429 | 9.32 |
7 | 0.431 | 9.28 |
8 | 0.424 | 9.44 |
9 | 0.437 | 9.16 |
10 | 0.419 | 9.55 |
注:以上数值是在极端短上下文 (max-model-len=16) 下的结果,不代表长上下文生产性能。
项目 | 详情 |
测试方法 | 10 次串行请求 (concurrency=1) |
Prompt | 请用一句话介绍你自己。 |
max_tokens | 32 |
temperature | 0.0 |
服务配置 | max-model-len=512, max-num-seqs=1, gpu-memory-utilization=0.92, kv-cache-dtype=fp8 |
指标 | 值 |
成功率 | 10/10 |
平均延迟 | 3.086 s |
P50 延迟 | 3.149 s |
Min / Max 延迟 | 2.858 s / 3.199 s |
平均生成速度 | 10.386 tokens/s |
P50 生成速度 | 10.160 tokens/s |
Run | 延迟 (s) | 速度 (tok/s) |
1 | 3.146 | 10.172 |
2 | 3.123 | 10.245 |
3 | 2.858 | 11.198 |
4 | 2.891 | 11.069 |
5 | 2.966 | 10.790 |
6 | 3.153 | 10.149 |
7 | 3.167 | 10.105 |
8 | 3.199 | 10.003 |
9 | 3.194 | 10.017 |
10 | 3.165 | 10.112 |
配置 | max-model-len=16 | max-model-len=512 | 说明 |
Prompt | hi (极短) | 请用一句话介绍你自己。 | 更长 prompt |
max_tokens | 4 | 32 | 更多生成 |
平均延迟 | 0.435 s | 3.086 s | 长上下文延迟增加 |
平均速度 | 9.20 t/s | 10.39 t/s | 速度略有提升(更多 token 摊薄 prefill) |
P50 速度 | — | 10.16 t/s | 稳定在 ~10 t/s |
作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供英伟达全系列产品一站式采购与技术咨询服务。
覆盖 AI 训练 / 推理、数据中心、智算集群、高性能计算等全场景,提供方案设计、供货交付、部署实施、技术维保一体化解决方案,用专业服务降低技术门槛,助力高性能算力快速落地。
一站式满足您在AI 算力、高速网络、服务器部署、集群优化等需求,从产品选型到落地交付全程支持,稳定供货、专业赋能。
产品咨询热线:400-890-8985
以英伟达硬核算力为基石,与您携手探索 AI 赋能、算力驱动的无限可能。