Nemotron 3 Super
完美适配OpenClaw的超强开源模型
前言/ INTRODUCTION
完美适配OpenClaw的「超强开源模型」,诞生了!英伟达重磅祭出新一代「开源模型」Nemotron 3 Super,专为大规模AI智能体打造。它共有1200亿参数,120亿激活参数,100万token上下文,推理狂飙3倍,吞吐量暴涨5倍。该模型在DGX spark 上成功部署,标志着本地推理本地养虾能够更加的智慧。
部署目标
在 192.168.110.97 上使用现有 vLLM 容器镜像,单机拉起 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4,对外提供 OpenAI 兼容接口。
接口目标: GET /v1/models POST /v1/chat/completions 环境信息 ☑ 节点:192.168.110.97 ☑ 主机名:spark-3185 ☑ GPU:NVIDIA GB10 ☑ Docker 镜像候选: vllm/vllm-openai:cu130-nightly vllm/vllm-openai:latest vllm/vllm-openai:nightly ☑ 本次实际使用镜像: vllm/vllm-openai:cu130-nightly 模型目录确认 ☑ 模型路径: /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 ☑ 目录已确认完整,约 75G,包含: config.json tokenizer.json generation_config.json configuration_nemotron_h.py modeling_nemotron_h.py model-00001-of-00017.safetensors 到 model-00017-of-00017.safetensors ☑ 从配置文件中确认到的关键模型信息: architectures: NemotronHForCausalLM model_type: nemotron_h transformers_version: 4.57.6 dtype: bfloat16 max_position_embeddings: 262144 含量化配置:quantization_config ☑ 结论: 模型目录是完整的 Hugging Face 风格目录 带自定义代码 当前 vLLM 能识别该架构 启动方案 启动日志关键结论 ☑ 日志中已明确识别出: Resolved architecture: NemotronHForCausalLM quantization=modelopt_mixed Detected ModelOpt fp8 checkpoint Detected ModelOpt NVFP4 checkpoint Using FLASHINFER attention backend ☑ 这说明: 架构识别成功 量化格式识别成功 没有卡在 transformers 架构不识别问题 没有卡在 vllm serve 参数层面 接口验证结果 当前状态 当前最新状态分为两段: ☑ 已确认成功的部分: /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 模型目录完整 vLLM 成功识别 NemotronHForCausalLM vLLM 成功识别 modelopt_mixed 量化格式 在 2048 上下文下,服务已成功启动并完成接口测试 风险与警告 常用运维命令 ☑ 查看容器状态: docker ps -a | grep vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 ☑ 看实时日志: docker exec -it vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 bash -lc 'tail -f /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log' ☑ 查询模型: curl http://127.0.0.1:8000/v1/models ☑ 最小对话测试: curl http://127.0.0.1:8000/v1/chat/completions \ ☑ 停止服务: docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 最终结论 本次部署已经证明: 192.168.110.97 上的 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 可以通过现有 vLLM 容器成功启动 单机推理链路是通的 2048 上下文版本已完成接口级验证
-H "Content-Type: application/json" \
-d '{
"model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
"messages": [
{"role": "user", "content": "你好,请用一句话介绍你自己。"}
],
"max_tokens": 128,
"temperature": 0.3
}'