新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

MiniMax2.5-229B-AWQ × 双机NVIDIA DGX Spark专属赋能 “养龙虾”,本地算力养OpenClaw超省心!

MiniMax2.5

图片

养龙虾专属国产模型

前言/ INTRODUCTION

图片
图片

MiniMax2.5-229B-AWQ × 双机NVIDIA DGX Spark专属赋能 “养龙虾”,本地算力养OpenClaw超省心!

“养龙虾”爆火,首个模型排行榜出炉 MiniMax国产开源模型霸榜OpenClaw。

OpenClaw创始人Peter Steinberger 在平台X上分享龙虾基准测试排行榜。PinchBench 测试了32款主流大模型,从成功率、速度、费用三个维度,测试哪个模型最适合养龙虾。

排行榜显示,国产模型MiniMax,成功率93.6%,战胜Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一众国际大模型。

位居第二。

MiniMax 重磅加持 2026 “养龙虾” 热潮,作为开源 AI 智能体 OpenClaw 核心调用模型,凭 229B 超强算力与专属优化,解锁 AI 养虾全场景高效能力,让 “养龙虾” 更智能、更高效、更易落地


目标与结论

  • 在两台 DGX Spark 上使用 Ray + vLLM 部署 MiniMax-AWQ。

  • 采用双机 TP=2(每机 1 卡)进行推理。

  • 已成功启动服务,接口可用:/v1/models、/v1/chat/completions。


环境信息

  • 节点与网络

节点

IP

高速网 IP

高速网卡

Head

192.168.110.32

10.10.10.1

enp1s0f0np0

Worker

192.168.110.97

10.10.10.2

enp1s0f0np0


  • 模型与镜像

项目

详情

模型目录(两机)

/data/minimax-awq

模型架构

MiniMaxM2ForCausalLM

量化方式

AWQbits=4, group_size=128, version=gemm

Docker 镜像

vllm/vllm-openai:cu130-nightly



成功部署参数(实测可用)

参数

说明

--tensor-parallel-size

2

跨两机 TP 并行

--distributed-executor-backend

ray

使用 Ray 分布式后端

--quantization

awq_marlin

AWQ 量化推理路径(Marlin kernel

--gpu-memory-utilization

0.75

0.30 会 KV Cache 不足,0.75 稳定

--max-model-len

256

受内存限制

--max-num-seqs

1

限制最大并发序列数

--max-num-batched-tokens

256

限制最大 batch token 

--enforce-eager

-

禁用 CUDA Graph

--disable-custom-all-reduce

-

禁用自定义 AllReduce

--trust-remote-code

-

允许加载模型自定义代码

--language-model-only

-

仅加载语言模型

说明:早期用 --gpu-memory-utilization 0.30 会在 KV Cache 初始化时报内存不足。改为 0.75 并压低序列长度与并发后可稳定启动。


标准部署步骤(可复用)

4.1 清理旧容器

ssh root@192.168.110.32 "docker rm -f vllm-head 2>/dev/null || true"

ssh root@192.168.110.97 "docker rm -f vllm-worker 2>/dev/null || true"

4.2 启动 Ray Head(Node 32)

ssh root@192.168.110.32 "docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-head --entrypoint bash \
  -v /data:/data \
  -e VLLM_HOST_IP=10.10.10.1 \
  -e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
  -e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
  vllm/vllm-openai:cu130-nightly \
  -c 'ray start --head --node-ip-address=10.10.10.1 --port=6379 && sleep infinity'"

4.3 启动 Ray Worker(Node 97)

ssh root@192.168.110.97 "docker run -d --gpus all --network host --shm-size=16g \
  --name vllm-worker --entrypoint bash \
  -v /data:/data \
  -e VLLM_HOST_IP=10.10.10.2 \
  -e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
  -e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
  vllm/vllm-openai:cu130-nightly \
  -c 'ray start --address=10.10.10.1:6379 --node-ip-address=10.10.10.2 && sleep infinity'"

4.4 验证 Ray 集群

ssh root@192.168.110.32 "sleep 8 && docker exec vllm-head ray status"

预期:Active: 2nodes,总资源约40CPU / 2 GPU。

4.5 启动 vLLM(Node 32)

vllm serve /data/minimax-awq \
  --tensor-parallel-size 2 \
  --distributed-executor-backend ray \
  --host 0.0.0.0 --port 8000 \
  --max-model-len 256 \
  --max-num-seqs 1 \
  --max-num-batched-tokens 256 \
  --gpu-memory-utilization 0.75 \
  --quantization awq_marlin \
  --enforce-eager \
  --disable-custom-all-reduce \
  --trust-remote-code \
  --language-model-only

注:上述命令需通过启动脚本在 Head 容器内执行(参考 Qwen3.5-122B 部署手册中的脚本方式)。

4.6 监控启动日志

ssh root@192.168.110.32 "docker exec vllm-head tail -f /tmp/vllm_serve_minimax_awq.log"

成功标志:

  • Loading safetensors checkpoint shards: 100%

  • GPU KV cache size: ... tokens

  • Application startup complete

  • Uvicorn running on http://0.0.0.0:8000

5.API 验证

查看模型列表:

curl http://192.168.110.32:8000/v1/models

聊天测试:

curl http://192.168.110.32:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"/data/minimax-awq","messages":[{"role":"user","content":"你好"}],"max_tokens":64}'

图片


关键排障经验

序号

经验

说明

1

同时重建 Head + Worker

避免 Ray 残留节点导致 IP 冲突

2

设置 GLOO/NCCL_SOCKET_IFNAME

两个容器都必须设置,否则可能走 127.0.0.1

3

gpu-memory-utilization 不能过低

过低会导致 KV Cache 无可用块,即使模型加载完也会失败

4

AWQ 优先使用 awq_marlin

Marlin kernel 对 AWQ 4bit 有更好的推理优化



上一篇:NVIDIA CEO 黄仁勋发表最新署名文章:AI 的“五层