新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

Qwen3-Coder-Next-FP8 部署在 NVIDIA DGX Spark上,实现内网环境编程调用。助力内网编程研发效率

   本次部署围绕 80B 参数量的代码大模型展开,形成了可落地的企业部署方案,为内网科研、内网编程企业客户的编程智能体提供现有的解决方案。    

     近期,我们完成了 Qwen3-Coder-Next-FP8 大模型在 NVIDIA DGX Spark 服务器的单机部署与全流程测试,基于 vLLM 框架攻克显存溢出等核心问题,实现 ARM 架构下的高效稳定运行,模型推理性能优异且兼容 OpenAI API,可直接开箱即用。

图片

     基于 Blackwell 架构 GB10 GPU,FP8 量化 + MoE 稀疏激活,经参数调优成功落地,单卡实现~42 tokens/s 解码速度,TTFT 低至 99ms,OpenAI API 兼容,16K 上下文稳定运行~

     Qwen3-Coder-Next 是为企业级、高并发、复杂代码场景打造的旗舰版模型,而普通版 Qwen3-Coder 更偏向轻量级、基础型代码生成,Next 版本在能力、效率、适配性上实现了全维度超越。

1. 硬件环境

项目

详情

服务器 IP

192.168.110.32

设备类型

NVIDIA DGX Spark

GPU

NVIDIA GB10 (Blackwell 架构, Compute Capability 12.1)

统一内存

128 GB LPDDR5x

系统内存

~120 GB

CPU 架构

aarch64 (ARM, Grace CPU)

存储

3.7 TB NVMe, 已用 2.9 TB, 剩余 619 GB

操作系统

Ubuntu 24.04.3 LTS (Noble Numbat)

CUDA 版本

13.0

驱动版本

580.82.09

Docker

28.5.1

NVIDIA Container Runtime

1.18.1

2. 模型信息

项目

详情

模型名称

Qwen3-Coder-Next-FP8

开发者

Alibaba Qwen Team

模型架构

Qwen3NextForCausalLM (Hybrid: Gated DeltaNet + Gated Attention + MoE)

总参数量

80B

活跃参数量

3B (MoE 稀疏激活)

专家数量

512 个专家, 每次激活 10 个 + 1 个共享专家

隐藏层数

48 层

量化方式

FP8 (fine-grained, block size 128)

上下文长度

262,144 tokens (原生)

模型磁盘大小

~75 GB (40 个 safetensors 分片)

模型内存占用

74.89 GiB

模型路径

/model/next-fp8/

许可证

Apache-2.0

模型架构详情

3. 部署过程

3.1 Docker 镜像准备

步骤

详情

预装镜像

nvcr.io/nvidia/vllm:25.10-py3 (vLLM 0.10.2) — ❌ 版本过低

要求版本

vLLM ≥ 0.15.0 (Qwen3-Coder-Next 架构支持)

拉取镜像

nvcr.io/nvidia/vllm:26.01-py3

镜像大小

~22 GB

拉取耗时

~30 分钟

3.2 首次部署(失败)

docker run -d --name qwen3-coder \

--gpus all --ipc=host \

--ulimit memlock=-1 --ulimit stack=67108864 \

-p 8000:8000 \

-v /model/next-fp8:/model/next-fp8 \

nvcr.io/nvidia/vllm:26.01-py3 \

vllm serve /model/next-fp8 \

--port 8000 \

--max-model-len 32768 \

--gpu-memory-utilization 0.90 \

--kv-cache-dtype fp8 \

--enable-auto-tool-choice \

--tool-call-parser qwen3_coder \

--trust-remote-code

3.3 最终部署(成功)

docker run -d --name qwen3-coder \

--gpus all --ipc=host \

--ulimit memlock=-1 --ulimit stack=67108864 \

-p 8000:8000 \

-v /model/next-fp8:/model/next-fp8 \

nvcr.io/nvidia/vllm:26.01-py3 \

vllm serve /model/next-fp8 \

--port 8000 \

--max-model-len 16384 \

--gpu-memory-utilization 0.80 \

--kv-cache-dtype fp8 \

--enable-auto-tool-choice \

--tool-call-parser qwen3_coder \

--trust-remote-code

关键参数变更**:

参数

初始值

最终值

原因

--gpu-memory-utilization

0.90

0.80

 Triton autotuner 留出内存

--max-model-len

32768

16384

减少 KV Cache 占用

3.4 启动日志关键指标

指标

模型加载时间

239.20 秒

模型内存占用

74.89 GiB

torch.compile 时间

99.22 秒

CUDA graph capture 时间

33 秒

CUDA graph 内存占用

2.32 GiB

可用 KV Cache 内存

28.77 GiB

KV Cache 容量

628,192 tokens

最大并发 (16K/请求)

68.97x

引擎初始化总时间

142.87 秒

Attention Backend

FlashInfer


4. 性能测试

4.1 测试方法

工具: 自定义 Python 基准测试脚本 ([benchmark_llm.py](file:///D:/benchmark_llm.py))

测试模式: 同时测试 Streaming 和 Non-Streaming

预热: 发送 warmup 请求后再开始正式测试

采样参数temperature=1.0top_p=0.95 (官方推荐)

并发数: 1 (单请求串行)

4.2 测试结果

测试场景

Prompt Tokens

生成 Tokens

TTFT

Decode 速度

总吞吐量

总耗时

短输入

20

512

99 ms

42.71 t/s

41.93 t/s

12.21 s

中输入

80

1024

149 ms

42.35 t/s

41.69 t/s

24.56 s

长输出

58

2048

137 ms

41.77 t/s

41.85 t/s

48.94 s

4.3 关键性能指标

指标

结果

评价

TTFT (首 Token 延迟)

99 ~ 149 ms

优秀,亚秒级响应

Decode 速度

~42 tokens/s

✅ 与 NVIDIA 官方基准 (~43 t/s) 一致

吞吐量稳定性

41.7 ~ 42.7 t/s

✅ 不同输出长度下几乎无衰减

长序列衰减

< 2%

✅ 稳定

4.4 API 功能验证

// 请求

{

"model": "/model/next-fp8",

"messages": [{"role": "user", "content": "Say hello in Chinese"}],

"max_tokens": 64,

"temperature": 1.0,

"top_p": 0.95

}

// 响应 

{

"id": "chatcmpl-8d17e3218bfe78b1",

"model": "/model/next-fp8",

"choices": [{

"message": {"role": "assistant", "content": "你好!"},

"finish_reason": "stop"

}],

"usage": {"prompt_tokens": 18, "completion_tokens": 3}

}

5. 服务信息

API 端点

端点

方法

说明

http://192.168.110.32:8000/v1/models

GET

查看可用模型

http://192.168.110.32:8000/v1/chat/completions

POST

对话补全 (兼容 OpenAI API)

http://192.168.110.32:8000/v1/completions

POST

文本补全

http://192.168.110.32:8000/v1/embeddings

POST

文本嵌入

Python 调用示例

from openai import OpenAI

client = OpenAI(

base_url="http://192.168.110.32:8000/v1",

api_key="EMPTY"

)

response = client.chat.completions.create(

model="/model/next-fp8",

messages=[{"role": "user", "content": "写一个快排算法"}],

max_tokens=4096,

temperature=1.0,

top_p=0.95,

top_k=40,  # 官方推荐

)

print(response.choices[0].message.content)

容器管理命令

docker ps --filter name=qwen3-coder # 查看状态

docker logs --tail 20 qwen3-coder # 查看日志

docker stop qwen3-coder # 停止

docker start qwen3-coder # 启动

docker rm -f qwen3-coder # 删除

设置开机自启

docker update --restart=unless-stopped qwen3-coder


     作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~

产品咨询热线:400-890-8985

期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能


上一篇:强强联合!Qwen3.5-122B × NVIDIA DGX