全网首发第二弹---我把Qwen3.5-397B-INT4 超大模型塞到了双机 DGX Spark里

在大模型分布式推理的技术探索中，容天AI研究中心再迈新步！基于两台 NVIDIA DGX Spark (GB10) 服务器，通过 Ray 分布式 + vLLM 架构实现 Qwen3.5-397B-INT4 超大规模模型的 TP=2 跨机并行部署，经全流程测试验证，服务启动成功、API 调用通畅、推理性能稳定，测试结果 100% PASS，圆满完成本次大模型分布式部署验证！

本次部署的 Qwen3.5-397B-INT4 模型为 397B 参数的 INT4 量化版本，对硬件资源、分布式通信架构要求极高。而双机 DGX Spark (GB10) 的硬核配置，成为本次超大规模模型成功落地的核心支撑：每台设备搭载 128GB 统一内存，双机构建高速内网集群（Head 节点 192.168.110.32/Worker 节点 192.168.110.97），结合 Ray 分布式后端与 vLLM 推理框架，将模型计算与存储压力高效分摊至双机，实现 102.53GiB 模型的完整加载，仅耗时 46.70 秒即完成引擎初始化，94 个模型分片 100% 成功加载，为大模型推理筑牢硬件根基。

在核心参数调优上，我们经过实测敲定最优配置：设置 --tensor-parallel-size=2 实现跨机 TP 并行，GPU 显存利用率拉满至 0.92，通过 FP8 格式 KV Cache 节省内存资源，同时预留 8.64GiB 缓存空间，搭配 16GiB CPU swap 空间，既充分发挥硬件性能，又保障部署兼容性

此次双机 DGX Spark 部署 Qwen3.5-397B-INT4 大模型的成功，不仅突破了单设备对超大规模模型的资源限制，验证了 Ray+vLLM 架构在双机分布式推理中的可行性，更彰显了 DGX Spark 集群在大模型部署中的硬核优势 —— 大显存支撑海量参数加载、高速内网保障跨机通信效率、高算力集群实现稳定推理，为后续更大规模、更高并发的大模型生产级部署积累了宝贵的实测经验。

部署详细步骤

1. 测试环境

项目	详情
Head 节点	192.168.110.32（高速网 10.10.10.1）
Worker 节点	192.168.110.97（高速网 10.10.10.2）
模型路径	/model/qwen3.5-397b-int4
模型大小	397B 参数，INT4 量化
Docker 镜像	vllm/vllm-openai:cu130-nightly
运行时	Ray 分布式 + vLLM serve
GPU	2× NVIDIA GB10（每机 128GB 统一内存）

2. 成功部署参数（实测可用）

参数	值	说明
--tensor-parallel-size	2	跨两机 TP 并行
--distributed-executor-backend	ray	使用 Ray 分布式后端
--max-model-len	16 → 512	初始 16 用于启动验证，后扩展至 512
--max-num-seqs	1	限制最大并发序列数
--gpu-memory-utilization	0.92	模型 102.5 GiB，需高利用率
--kv-cache-dtype	fp8	FP8 KV Cache 节省内存
--swap-space	16	CPU swap 空间（128 会验证失败）
--enforce-eager	-	禁用 CUDA Graph
--disable-custom-all-reduce	-	禁用自定义 AllReduce
--trust-remote-code	-	允许加载模型自定义代码
--language-model-only	-	仅加载语言模型（跳过视觉编码器）

注意：max-model-len=16 是极端启动参数，仅用于 bring-up 验证，不适合生产使用。

3. 启动日志关键指标

指标	值
模型分片加载	Loading safetensors checkpoint shards: 100% \| 94/94
模型内存占用	102.53 GiB
可用 KV Cache 内存	8.64 GiB
引擎初始化时间	46.70 秒
API 服务地址	http://0.0.0.0:8000

4. API 验证

4.1 Models API

curl http://192.168.110.32:8000/v1/models

结果：HTTP 200，返回模型 ID /model/qwen3.5-397b-int4。

4.2 Chat API

权重加载成功

测试模型命令

和模型进行对话

请求体：
{
"model": "/model/qwen3.5-397b-int4",
"messages": [{"role":"user","content":"hi"}],
"max_tokens": 4,
"temperature": 0.0
}

结果：请求成功，返回补全文本。

5. 性能测试 — max-model-len=16

项目	详情
测试方法	10 次串行请求 (concurrency=1)
Prompt	hi
max_tokens	4
temperature	0.0
服务配置	max-model-len=16

汇总结果

指标	值
成功率	10/10
平均延迟	0.435 s
P50 延迟	0.431 s
Min / Max 延迟	0.419 s / 0.475 s
平均生成速度	9.20 tokens/s

逐次详情

Run	延迟 (s)	速度 (tok/s)
1	0.475	8.41
2	0.442	9.04
3	0.426	9.38
4	0.431	9.28
5	0.438	9.14
6	0.429	9.32
7	0.431	9.28
8	0.424	9.44
9	0.437	9.16
10	0.419	9.55

注：以上数值是在极端短上下文 (max-model-len=16) 下的结果，不代表长上下文生产性能。

6. 性能测试 — max-model-len=512

项目	详情
测试方法	10 次串行请求 (concurrency=1)
Prompt	请用一句话介绍你自己。
max_tokens	32
temperature	0.0
服务配置	max-model-len=512, max-num-seqs=1, gpu-memory-utilization=0.92, kv-cache-dtype=fp8

汇总结果

指标	值
成功率	10/10
平均延迟	3.086 s
P50 延迟	3.149 s
Min / Max 延迟	2.858 s / 3.199 s
平均生成速度	10.386 tokens/s
P50 生成速度	10.160 tokens/s

逐次详情

Run	延迟 (s)	速度 (tok/s)
1	3.146	10.172
2	3.123	10.245
3	2.858	11.198
4	2.891	11.069
5	2.966	10.790
6	3.153	10.149
7	3.167	10.105
8	3.199	10.003
9	3.194	10.017
10	3.165	10.112

两轮测试对比

配置	max-model-len=16	max-model-len=512	说明
Prompt	hi (极短)	请用一句话介绍你自己。	更长 prompt
max_tokens	4	32	更多生成
平均延迟	0.435 s	3.086 s	长上下文延迟增加
平均速度	9.20 t/s	10.39 t/s	速度略有提升（更多 token 摊薄 prefill）
P50 速度	—	10.16 t/s	稳定在 ~10 t/s

北京容天汇海科技有限公司｜英伟达官方授权代理商

作为英伟达官方授权代理商，北京容天汇海科技有限公司为您提供英伟达全系列产品一站式采购与技术咨询服务。

覆盖 AI 训练 / 推理、数据中心、智算集群、高性能计算等全场景，提供方案设计、供货交付、部署实施、技术维保一体化解决方案，用专业服务降低技术门槛，助力高性能算力快速落地。

主营产品

GPU 加速卡
DGX 系列 AI 服务器
智能网卡 & DPU
ConnectX 系列网卡、BlueField DPU
高速交换机
Spectrum 以太网交换机、Quantum InfiniBand 交换机

服务优势

一站式满足您在AI 算力、高速网络、服务器部署、集群优化等需求，从产品选型到落地交付全程支持，稳定供货、专业赋能。

产品咨询热线：400-890-8985

以英伟达硬核算力为基石，与您携手探索 AI 赋能、算力驱动的无限可能。

上一篇：全网首发---------双机 NVIDIA DGX Spa 下一篇：GTC2026 | 针对中国创业生态的精彩会议即将开启