本次部署围绕 80B 参数量的代码大模型展开，形成了可落地的企业部署方案，为内网科研、内网编程企业客户的编程智能体提供现有的解决方案。

近期，我们完成了 Qwen3-Coder-Next-FP8 大模型在 NVIDIA DGX Spark 服务器的单机部署与全流程测试，基于 vLLM 框架攻克显存溢出等核心问题，实现 ARM 架构下的高效稳定运行，模型推理性能优异且兼容 OpenAI API，可直接开箱即用。

基于 Blackwell 架构 GB10 GPU，FP8 量化 + MoE 稀疏激活，经参数调优成功落地，单卡实现～42 tokens/s 解码速度，TTFT 低至 99ms，OpenAI API 兼容，16K 上下文稳定运行～

Qwen3-Coder-Next 是为企业级、高并发、复杂代码场景打造的旗舰版模型，而普通版 Qwen3-Coder 更偏向轻量级、基础型代码生成，Next 版本在能力、效率、适配性上实现了全维度超越。

1. 硬件环境

项目	详情
服务器 IP	192.168.110.32
设备类型	NVIDIA DGX Spark
GPU	NVIDIA GB10 (Blackwell 架构, Compute Capability 12.1)
统一内存	128 GB LPDDR5x
系统内存	~120 GB
CPU 架构	aarch64 (ARM, Grace CPU)
存储	3.7 TB NVMe, 已用 2.9 TB, 剩余 619 GB
操作系统	Ubuntu 24.04.3 LTS (Noble Numbat)
CUDA 版本	13.0
驱动版本	580.82.09
Docker	28.5.1
NVIDIA Container Runtime	1.18.1

2. 模型信息

项目	详情
模型名称	Qwen3-Coder-Next-FP8
开发者	Alibaba Qwen Team
模型架构	Qwen3NextForCausalLM (Hybrid: Gated DeltaNet + Gated Attention + MoE)
总参数量	80B
活跃参数量	3B (MoE 稀疏激活)
专家数量	512 个专家, 每次激活 10 个 + 1 个共享专家
隐藏层数	48 层
量化方式	FP8 (fine-grained, block size 128)
上下文长度	262,144 tokens (原生)
模型磁盘大小	~75 GB (40 个 safetensors 分片)
模型内存占用	74.89 GiB
模型路径	/model/next-fp8/
许可证	Apache-2.0

模型架构详情

3. 部署过程

3.1 Docker 镜像准备

步骤	详情
预装镜像	nvcr.io/nvidia/vllm:25.10-py3 (vLLM 0.10.2) — ❌ 版本过低
要求版本	vLLM ≥ 0.15.0 (Qwen3-Coder-Next 架构支持)
拉取镜像	nvcr.io/nvidia/vllm:26.01-py3
镜像大小	~22 GB
拉取耗时	~30 分钟

3.2 首次部署（失败）

docker run -d --name qwen3-coder \

--gpus all --ipc=host \

--ulimit memlock=-1 --ulimit stack=67108864 \

-p 8000:8000 \

-v /model/next-fp8:/model/next-fp8 \

nvcr.io/nvidia/vllm:26.01-py3 \

vllm serve /model/next-fp8 \

--port 8000 \

--max-model-len 32768 \

--gpu-memory-utilization 0.90 \

--kv-cache-dtype fp8 \

--enable-auto-tool-choice \

--tool-call-parser qwen3_coder \

--trust-remote-code

3.3 最终部署（成功）

docker run -d --name qwen3-coder \

--gpus all --ipc=host \

--ulimit memlock=-1 --ulimit stack=67108864 \

-p 8000:8000 \

-v /model/next-fp8:/model/next-fp8 \

nvcr.io/nvidia/vllm:26.01-py3 \

vllm serve /model/next-fp8 \

--port 8000 \

--max-model-len 16384 \

--gpu-memory-utilization 0.80 \

--kv-cache-dtype fp8 \

--enable-auto-tool-choice \

--tool-call-parser qwen3_coder \

--trust-remote-code

关键参数变更**：

参数	初始值	最终值	原因
--gpu-memory-utilization	0.90	0.80	为 Triton autotuner 留出内存
--max-model-len	32768	16384	减少 KV Cache 占用

3.4 启动日志关键指标

指标	值
模型加载时间	239.20 秒
模型内存占用	74.89 GiB
torch.compile 时间	99.22 秒
CUDA graph capture 时间	33 秒
CUDA graph 内存占用	2.32 GiB
可用 KV Cache 内存	28.77 GiB
KV Cache 容量	628,192 tokens
最大并发 (16K/请求)	68.97x
引擎初始化总时间	142.87 秒
Attention Backend	FlashInfer

4. 性能测试

4.1 测试方法

- 工具: 自定义 Python 基准测试脚本 ([benchmark_llm.py](file:///D:/benchmark_llm.py))

- 测试模式: 同时测试 Streaming 和 Non-Streaming

- 预热: 发送 warmup 请求后再开始正式测试

- 采样参数: temperature=1.0, top_p=0.95 (官方推荐)

- 并发数: 1 (单请求串行)

4.2 测试结果

测试场景	Prompt Tokens	生成 Tokens	TTFT	Decode 速度	总吞吐量	总耗时
短输入	20	512	99 ms	42.71 t/s	41.93 t/s	12.21 s
中输入	80	1024	149 ms	42.35 t/s	41.69 t/s	24.56 s
长输出	58	2048	137 ms	41.77 t/s	41.85 t/s	48.94 s

4.3 关键性能指标

指标	结果	评价
TTFT (首 Token 延迟)	99 ~ 149 ms	⭐优秀，亚秒级响应
Decode 速度	~42 tokens/s	✅ 与 NVIDIA 官方基准 (~43 t/s) 一致
吞吐量稳定性	41.7 ~ 42.7 t/s	✅ 不同输出长度下几乎无衰减
长序列衰减	< 2%	✅ 稳定

4.4 API 功能验证

// 请求

{

"model": "/model/next-fp8",

"messages": [{"role": "user", "content": "Say hello in Chinese"}],

"max_tokens": 64,

"temperature": 1.0,

"top_p": 0.95

}

// 响应 ✅

{

"id": "chatcmpl-8d17e3218bfe78b1",

"model": "/model/next-fp8",

"choices": [{

"message": {"role": "assistant", "content": "你好！"},

"finish_reason": "stop"

}],

"usage": {"prompt_tokens": 18, "completion_tokens": 3}

}

5. 服务信息

API 端点

端点	方法	说明
http://192.168.110.32:8000/v1/models	GET	查看可用模型
http://192.168.110.32:8000/v1/chat/completions	POST	对话补全 (兼容 OpenAI API)
http://192.168.110.32:8000/v1/completions	POST	文本补全
http://192.168.110.32:8000/v1/embeddings	POST	文本嵌入

Python 调用示例

from openai import OpenAI

client = OpenAI(

base_url="http://192.168.110.32:8000/v1",

api_key="EMPTY"

)

response = client.chat.completions.create(

model="/model/next-fp8",

messages=[{"role": "user", "content": "写一个快排算法"}],

max_tokens=4096,

temperature=1.0,

top_p=0.95,

top_k=40, # 官方推荐

)

print(response.choices[0].message.content)

容器管理命令

docker ps --filter name=qwen3-coder # 查看状态

docker logs --tail 20 qwen3-coder # 查看日志

docker stop qwen3-coder # 停止

docker start qwen3-coder # 启动

docker rm -f qwen3-coder # 删除

# 设置开机自启

docker update --restart=unless-stopped qwen3-coder

作为英伟达官方授权代理商，北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求，用专业服务帮您降低技术门槛，快速落地高性能生产力工具～

产品咨询热线：400-890-8985

期待与您携手，以英伟达硬核产品为基石，探索 AI 赋能办公、算力驱动创新的无限可能

上一篇：强强联合！Qwen3.5-122B × NVIDIA DGX 下一篇：合规敏感场景，数据安全的最优解出炉-------容天天AIX

Qwen3-Coder-Next-FP8 部署在 NVIDIA DGX Spark上，实现内网环境编程调用。助力内网编程研发效率