Nemotron 3 Super
完美适配OpenClaw的超强开源模型
前言/ INTRODUCTION
完美适配OpenClaw的「超强开源模型」,诞生了!英伟达重磅祭出新一代「开源模型」Nemotron 3 Super,专为大规模AI智能体打造。它共有1200亿参数,120亿激活参数,100万token上下文,推理狂飙3倍,吞吐量暴涨5倍。该模型在DGX spark 上成功部署,标志着本地推理本地养虾能够更加的智慧。

部署目标
在 192.168.110.97 上使用现有 vLLM 容器镜像,单机拉起 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4,对外提供 OpenAI 兼容接口。
接口目标:
GET /v1/models
POST /v1/chat/completions
环境信息
☑ 节点:192.168.110.97
☑ 主机名:spark-3185
☑ GPU:NVIDIA GB10
☑ Docker 镜像候选:
vllm/vllm-openai:cu130-nightly
vllm/vllm-openai:latest
vllm/vllm-openai:nightly
☑ 本次实际使用镜像:
vllm/vllm-openai:cu130-nightly
模型目录确认
☑ 模型路径:
/model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
☑ 目录已确认完整,约 75G,包含:
config.json
tokenizer.json
generation_config.json
configuration_nemotron_h.py
modeling_nemotron_h.py
model-00001-of-00017.safetensors 到 model-00017-of-00017.safetensors
☑ 从配置文件中确认到的关键模型信息:
architectures: NemotronHForCausalLM
model_type: nemotron_h
transformers_version: 4.57.6
dtype: bfloat16
max_position_embeddings: 262144
含量化配置:quantization_config
☑ 结论:
模型目录是完整的 Hugging Face 风格目录
带自定义代码
当前 vLLM 能识别该架构
启动方案
启动日志关键结论
☑ 日志中已明确识别出:
Resolved architecture: NemotronHForCausalLM
quantization=modelopt_mixed
Detected ModelOpt fp8 checkpoint
Detected ModelOpt NVFP4 checkpoint
Using FLASHINFER attention backend
☑ 这说明:
架构识别成功
量化格式识别成功
没有卡在 transformers 架构不识别问题
没有卡在 vllm serve 参数层面
接口验证结果
当前状态
当前最新状态分为两段:
☑ 已确认成功的部分:
/model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 模型目录完整
vLLM 成功识别 NemotronHForCausalLM
vLLM 成功识别 modelopt_mixed 量化格式
在 2048 上下文下,服务已成功启动并完成接口测试
风险与警告
常用运维命令
☑ 查看容器状态:
docker ps -a | grep vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
☑ 看实时日志:
docker exec -it vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 bash -lc 'tail -f /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log'
☑ 查询模型:
curl http://127.0.0.1:8000/v1/models
☑ 最小对话测试:
curl http://127.0.0.1:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
"messages": [
{"role": "user", "content": "你好,请用一句话介绍你自己。"}
],
"max_tokens": 128,
"temperature": 0.3
}'
☑ 停止服务:
docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
最终结论
本次部署已经证明:
192.168.110.97 上的 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 可以通过现有 vLLM 容器成功启动
单机推理链路是通的
2048 上下文版本已完成接口级验证