最新干货出炉！！！完美适配OpenClaw大龙虾的「超强开源模型」，Nemotron 3 Super 在DGX spark 成功部署。

Nemotron 3 Super

完美适配OpenClaw的超强开源模型

前言/ INTRODUCTION

完美适配OpenClaw的「超强开源模型」，诞生了！英伟达重磅祭出新一代「开源模型」Nemotron 3 Super，专为大规模AI智能体打造。它共有1200亿参数，120亿激活参数，100万token上下文，推理狂飙3倍，吞吐量暴涨5倍。该模型在DGX spark 上成功部署，标志着本地推理本地养虾能够更加的智慧。

部署目标

在 192.168.110.97 上使用现有 vLLM 容器镜像，单机拉起 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4，对外提供 OpenAI 兼容接口。

接口目标：

GET /v1/models
POST /v1/chat/completions

环境信息

☑ 节点：192.168.110.97

☑ 主机名：spark-3185

☑ GPU：NVIDIA GB10

☑ Docker 镜像候选：

vllm/vllm-openai:cu130-nightly
vllm/vllm-openai:latest
vllm/vllm-openai:nightly

☑ 本次实际使用镜像：

vllm/vllm-openai:cu130-nightly

模型目录确认

☑ 模型路径：

/model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

☑ 目录已确认完整，约 75G，包含：

config.json
tokenizer.json
generation_config.json
configuration_nemotron_h.py
modeling_nemotron_h.py
model-00001-of-00017.safetensors 到 model-00017-of-00017.safetensors

☑ 从配置文件中确认到的关键模型信息：

architectures: NemotronHForCausalLM
model_type: nemotron_h
transformers_version: 4.57.6
dtype: bfloat16
max_position_embeddings: 262144
含量化配置：quantization_config

☑ 结论：

模型目录是完整的 Hugging Face 风格目录
带自定义代码
当前 vLLM 能识别该架构

启动方案

4.1 首次保守启动

为了先验证服务能否启动，最初使用了较小上下文：

docker run -d --gpus all --network host --shm-size=16g \
--name vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 --entrypoint bash \
-v /model:/model \
-e VLLM_HOST_IP=127.0.0.1 \
vllm/vllm-openai:cu130-nightly \
-lc 'vllm serve /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
--host 0.0.0.0 \
--port 8000 \
--trust-remote-code \
--gpu-memory-utilization 0.85 \
--max-model-len 2048 \
--served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
> /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log 2>&1'

4.2 按最大上下文重启

随后按要求改为模型标称最大上下文：

docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

docker run -d --gpus all --network host --shm-size=16g \
--name vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 --entrypoint bash \
-v /model:/model \
-e VLLM_HOST_IP=127.0.0.1 \
vllm/vllm-openai:cu130-nightly \
-lc 'vllm serve /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
--host 0.0.0.0 \
--port 8000 \
--trust-remote-code \
--gpu-memory-utilization 0.85 \
--max-model-len 262144 \
--served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
> /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log 2>&1'

启动日志关键结论

☑ 日志中已明确识别出：

Resolved architecture: NemotronHForCausalLM
quantization=modelopt_mixed
Detected ModelOpt fp8 checkpoint
Detected ModelOpt NVFP4 checkpoint
Using FLASHINFER attention backend

☑ 这说明：

架构识别成功
量化格式识别成功
没有卡在 transformers 架构不识别问题
没有卡在 vllm serve 参数层面

5.1 2048 上下文阶段

在 --max-model-len 2048 时，服务已经完整启动并通过接口验证。

日志关键点：

Starting vLLM API server 0 on http://0.0.0.0:8000
Application startup complete.

接口验证结果

6.1 模型列表接口

在 2048 上下文运行阶段，验证成功：

curl http://127.0.0.1:8000/v1/models

返回结果显示模型名为：

"id": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4"

6.2 对话接口

在 2048 上下文运行阶段，/v1/chat/completions 已返回成功结果。

测试请求等价于：

{
"model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
"messages": [
{
"role": "user",
"content": "Say hi in one short sentence."
}
],
"max_tokens": 32,
"temperature": 0.2
}

结论

API 已经可用
模型已能完成推理
但输出风格偏“解释用户意图”，后续建议继续调 prompt 或采样参数

当前状态

当前最新状态分为两段：

☑ 已确认成功的部分：

/model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 模型目录完整
vLLM 成功识别 NemotronHForCausalLM
vLLM 成功识别 modelopt_mixed 量化格式
在 2048 上下文下，服务已成功启动并完成接口测试

风险与警告

8.1 PyTorch 与 GB10 的兼容警告

日志里出现：

当前 GPU：NVIDIA GB10
当前 PyTorch 提示支持范围上限到 cuda capability 12.0
实际 GPU 是 12.1

这条目前是警告，不是硬失败。至少在 2048 上下文下，它没有阻止服务启动。

8.2 tokenizer 正则警告

日志提示：

tokenizer regex pattern 可能不正确
建议 fix_mistral_regex=True

这不是服务启动阻塞项，但可能影响 tokenization 质量。

常用运维命令

☑ 查看容器状态：

docker ps -a | grep vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

☑ 看实时日志：

docker exec -it vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 bash -lc 'tail -f /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log'

☑ 查询模型：

curl http://127.0.0.1:8000/v1/models

☑ 最小对话测试：

curl http://127.0.0.1:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
"messages": [
{"role": "user", "content": "你好，请用一句话介绍你自己。"}
],
"max_tokens": 128,
"temperature": 0.3
}'

☑ 停止服务：

docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

最终结论

本次部署已经证明：

192.168.110.97 上的 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 可以通过现有 vLLM 容器成功启动
单机推理链路是通的
2048 上下文版本已完成接口级验证

上一篇：MiniMax2.5-229B-AWQ × 双机NVIDIA 下一篇：CNode-X ：全场景实现 GPU 加速