近期,我们完成了 Qwen3-Coder-Next-FP8 大模型在 NVIDIA DGX Spark 服务器的单机部署与全流程测试,基于 vLLM 框架攻克显存溢出等核心问题,实现 ARM 架构下的高效稳定运行,模型推理性能优异且兼容 OpenAI API,可直接开箱即用。
基于 Blackwell 架构 GB10 GPU,FP8 量化 + MoE 稀疏激活,经参数调优成功落地,单卡实现~42 tokens/s 解码速度,TTFT 低至 99ms,OpenAI API 兼容,16K 上下文稳定运行~
Qwen3-Coder-Next 是为企业级、高并发、复杂代码场景打造的旗舰版模型,而普通版 Qwen3-Coder 更偏向轻量级、基础型代码生成,Next 版本在能力、效率、适配性上实现了全维度超越。
项目 | 详情 |
服务器 IP | 192.168.110.32 |
设备类型 | NVIDIA DGX Spark |
GPU | NVIDIA GB10 (Blackwell 架构, Compute Capability 12.1) |
统一内存 | 128 GB LPDDR5x |
系统内存 | ~120 GB |
CPU 架构 | aarch64 (ARM, Grace CPU) |
存储 | 3.7 TB NVMe, 已用 2.9 TB, 剩余 619 GB |
操作系统 | Ubuntu 24.04.3 LTS (Noble Numbat) |
CUDA 版本 | 13.0 |
驱动版本 | 580.82.09 |
Docker | 28.5.1 |
NVIDIA Container Runtime | 1.18.1 |
项目 | 详情 |
模型名称 | Qwen3-Coder-Next-FP8 |
开发者 | Alibaba Qwen Team |
模型架构 | Qwen3NextForCausalLM (Hybrid: Gated DeltaNet + Gated Attention + MoE) |
总参数量 | 80B |
活跃参数量 | 3B (MoE 稀疏激活) |
专家数量 | 512 个专家, 每次激活 10 个 + 1 个共享专家 |
隐藏层数 | 48 层 |
量化方式 | FP8 (fine-grained, block size 128) |
上下文长度 | 262,144 tokens (原生) |
模型磁盘大小 | ~75 GB (40 个 safetensors 分片) |
模型内存占用 | 74.89 GiB |
模型路径 | /model/next-fp8/ |
许可证 | Apache-2.0 |
步骤 | 详情 |
预装镜像 | nvcr.io/nvidia/vllm:25.10-py3 (vLLM 0.10.2) — ❌ 版本过低 |
要求版本 | vLLM ≥ 0.15.0 (Qwen3-Coder-Next 架构支持) |
拉取镜像 | nvcr.io/nvidia/vllm:26.01-py3 |
镜像大小 | ~22 GB |
拉取耗时 | ~30 分钟 |
docker run -d --name qwen3-coder \
--gpus all --ipc=host \
--ulimit memlock=-1 --ulimit stack=67108864 \
-p 8000:8000 \
-v /model/next-fp8:/model/next-fp8 \
nvcr.io/nvidia/vllm:26.01-py3 \
vllm serve /model/next-fp8 \
--port 8000 \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--kv-cache-dtype fp8 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--trust-remote-code
docker run -d --name qwen3-coder \
--gpus all --ipc=host \
--ulimit memlock=-1 --ulimit stack=67108864 \
-p 8000:8000 \
-v /model/next-fp8:/model/next-fp8 \
nvcr.io/nvidia/vllm:26.01-py3 \
vllm serve /model/next-fp8 \
--port 8000 \
--max-model-len 16384 \
--gpu-memory-utilization 0.80 \
--kv-cache-dtype fp8 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--trust-remote-code
关键参数变更**:
参数 | 初始值 | 最终值 | 原因 |
--gpu-memory-utilization | 0.90 | 0.80 | 为 Triton autotuner 留出内存 |
--max-model-len | 32768 | 16384 | 减少 KV Cache 占用 |
指标 | 值 |
模型加载时间 | 239.20 秒 |
模型内存占用 | 74.89 GiB |
torch.compile 时间 | 99.22 秒 |
CUDA graph capture 时间 | 33 秒 |
CUDA graph 内存占用 | 2.32 GiB |
可用 KV Cache 内存 | 28.77 GiB |
KV Cache 容量 | 628,192 tokens |
最大并发 (16K/请求) | 68.97x |
引擎初始化总时间 | 142.87 秒 |
Attention Backend | FlashInfer |
- 工具: 自定义 Python 基准测试脚本 ([benchmark_llm.py](file:///D:/benchmark_llm.py))
- 测试模式: 同时测试 Streaming 和 Non-Streaming
- 预热: 发送 warmup 请求后再开始正式测试
- 采样参数: temperature=1.0, top_p=0.95 (官方推荐)
- 并发数: 1 (单请求串行)
测试场景 | Prompt Tokens | 生成 Tokens | TTFT | Decode 速度 | 总吞吐量 | 总耗时 |
短输入 | 20 | 512 | 99 ms | 42.71 t/s | 41.93 t/s | 12.21 s |
中输入 | 80 | 1024 | 149 ms | 42.35 t/s | 41.69 t/s | 24.56 s |
长输出 | 58 | 2048 | 137 ms | 41.77 t/s | 41.85 t/s | 48.94 s |
指标 | 结果 | 评价 |
TTFT (首 Token 延迟) | 99 ~ 149 ms | ⭐优秀,亚秒级响应 |
Decode 速度 | ~42 tokens/s | ✅ 与 NVIDIA 官方基准 (~43 t/s) 一致 |
吞吐量稳定性 | 41.7 ~ 42.7 t/s | ✅ 不同输出长度下几乎无衰减 |
长序列衰减 | < 2% | ✅ 稳定 |
// 请求
{
"model": "/model/next-fp8",
"messages": [{"role": "user", "content": "Say hello in Chinese"}],
"max_tokens": 64,
"temperature": 1.0,
"top_p": 0.95
}
// 响应 ✅
{
"id": "chatcmpl-8d17e3218bfe78b1",
"model": "/model/next-fp8",
"choices": [{
"message": {"role": "assistant", "content": "你好!"},
"finish_reason": "stop"
}],
"usage": {"prompt_tokens": 18, "completion_tokens": 3}
}
端点 | 方法 | 说明 |
http://192.168.110.32:8000/v1/models | GET | 查看可用模型 |
http://192.168.110.32:8000/v1/chat/completions | POST | 对话补全 (兼容 OpenAI API) |
http://192.168.110.32:8000/v1/completions | POST | 文本补全 |
http://192.168.110.32:8000/v1/embeddings | POST | 文本嵌入 |
from openai import OpenAI
client = OpenAI(
base_url="http://192.168.110.32:8000/v1",
api_key="EMPTY"
)
response = client.chat.completions.create(
model="/model/next-fp8",
messages=[{"role": "user", "content": "写一个快排算法"}],
max_tokens=4096,
temperature=1.0,
top_p=0.95,
top_k=40, # 官方推荐
)
print(response.choices[0].message.content)
docker ps --filter name=qwen3-coder # 查看状态
docker logs --tail 20 qwen3-coder # 查看日志
docker stop qwen3-coder # 停止
docker start qwen3-coder # 启动
docker rm -f qwen3-coder # 删除
# 设置开机自启
docker update --restart=unless-stopped qwen3-coder
作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。
能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~
产品咨询热线:400-890-8985
期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能