新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

最新干货出炉!!!完美适配OpenClaw大龙虾的「超强开源模型」,Nemotron 3 Super 在DGX spark 成功部署。

Nemotron 3 Super

图片

完美适配OpenClaw的超强开源模型

前言/ INTRODUCTION

图片


完美适配OpenClaw的「超强开源模型」,诞生了!英伟达重磅祭出新一代「开源模型」Nemotron 3 Super,专为大规模AI智能体打造。它共有1200亿参数120亿激活参数100万token上下文推理狂飙3倍吞吐量暴涨5倍。该模型在DGX spark 上成功部署,标志着本地推理本地养虾能够更加的智慧。

图片


部署目标

在 192.168.110.97 上使用现有 vLLM 容器镜像,单机拉起 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4,对外提供 OpenAI 兼容接口。

接口目标:

  • GET /v1/models

  • POST /v1/chat/completions


环境信息

☑ 节点:192.168.110.97

☑ 主机名:spark-3185

☑ GPU:NVIDIA GB10

☑ Docker 镜像候选

  • vllm/vllm-openai:cu130-nightly

  • vllm/vllm-openai:latest

  • vllm/vllm-openai:nightly

☑ 本次实际使用镜像

  • vllm/vllm-openai:cu130-nightly


模型目录确认

☑ 模型路径:

  • /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

☑ 目录已确认完整,约 75G,包含:

  • config.json

  • tokenizer.json

  • generation_config.json

  • configuration_nemotron_h.py

  • modeling_nemotron_h.py

  • model-00001-of-00017.safetensors 到 model-00017-of-00017.safetensors

☑ 从配置文件中确认到的关键模型信息:

  • architectures: NemotronHForCausalLM

  • model_type: nemotron_h

  • transformers_version: 4.57.6

  • dtype: bfloat16

  • max_position_embeddings: 262144

  • 含量化配置:quantization_config

☑ 结论:

  • 模型目录是完整的 Hugging Face 风格目录

  • 带自定义代码

  • 当前 vLLM 能识别该架构


启动方案

4.1 首次保守启动

为了先验证服务能否启动,最初使用了较小上下文:

docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 --entrypoint bash \
  -v /model:/model \
  -e VLLM_HOST_IP=127.0.0.1 \
  vllm/vllm-openai:cu130-nightly \
  -lc 'vllm serve /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    --host 0.0.0.0 \
    --port 8000 \
    --trust-remote-code \
    --gpu-memory-utilization 0.85 \
    --max-model-len 2048 \
    --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    > /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log 2>&1'

图片

4.2 按最大上下文重启

随后按要求改为模型标称最大上下文:

docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 --entrypoint bash \
  -v /model:/model \
  -e VLLM_HOST_IP=127.0.0.1 \
  vllm/vllm-openai:cu130-nightly \
  -lc 'vllm serve /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    --host 0.0.0.0 \
    --port 8000 \
    --trust-remote-code \
    --gpu-memory-utilization 0.85 \
    --max-model-len 262144 \
    --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
    > /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log 2>&1'

图片


启动日志关键结论

☑ 日志中已明确识别出:

  • Resolved architecture: NemotronHForCausalLM

  • quantization=modelopt_mixed

  • Detected ModelOpt fp8 checkpoint

  • Detected ModelOpt NVFP4 checkpoint

  • Using FLASHINFER attention backend

☑ 这说明:

  • 架构识别成功

  • 量化格式识别成功

  • 没有卡在 transformers 架构不识别问题

  • 没有卡在 vllm serve 参数层面

5.1 2048 上下文阶段

在 --max-model-len 2048 时,服务已经完整启动并通过接口验证。

日志关键点:

  • Starting vLLM API server 0 on http://0.0.0.0:8000

  • Application startup complete.


接口验证结果

6.1 模型列表接口

在 2048 上下文运行阶段,验证成功:

curl http://127.0.0.1:8000/v1/models

返回结果显示模型名为:

"id": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4"

6.2 对话接口

在 2048 上下文运行阶段,/v1/chat/completions 已返回成功结果。

测试请求等价于:

{
  "model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
  "messages": [
    {
      "role": "user",
      "content": "Say hi in one short sentence."
    }
  ],
  "max_tokens": 32,
  "temperature": 0.2
}

结论

  • API 已经可用

  • 模型已能完成推理

  • 但输出风格偏“解释用户意图”,后续建议继续调 prompt 或采样参数


当前状态

当前最新状态分为两段:

☑ 已确认成功的部分:

  • /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 模型目录完整

  • vLLM 成功识别 NemotronHForCausalLM

  • vLLM 成功识别 modelopt_mixed 量化格式

  • 在 2048 上下文下,服务已成功启动并完成接口测试


风险与警告

8.1 PyTorch 与 GB10 的兼容警告

日志里出现:

  • 当前 GPU:NVIDIA GB10

  • 当前 PyTorch 提示支持范围上限到 cuda capability 12.0

  • 实际 GPU 是 12.1

这条目前是警告,不是硬失败。至少在 2048 上下文下,它没有阻止服务启动。

8.2 tokenizer 正则警告

日志提示:

  • tokenizer regex pattern 可能不正确

  • 建议 fix_mistral_regex=True

这不是服务启动阻塞项,但可能影响 tokenization 质量。


常用运维命令

☑ 查看容器状态:

  • docker ps -a | grep vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

☑ 看实时日志:

  • docker exec -it vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 bash -lc 'tail -f /tmp/vllm_NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4.log'

☑ 查询模型:

  • curl http://127.0.0.1:8000/v1/models

☑ 最小对话测试

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4",
    "messages": [
      {"role": "user", "content": "你好,请用一句话介绍你自己。"}
    ],
    "max_tokens": 128,
    "temperature": 0.3
  }'

☑ 停止服务:

  • docker rm -f vllm-NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4


最终结论

本次部署已经证明:

  • 192.168.110.97 上的 /model/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 可以通过现有 vLLM 容器成功启动

  • 单机推理链路是通的

  • 2048 上下文版本已完成接口级验证


上一篇:MiniMax2.5-229B-AWQ × 双机NVIDIA