MiniMax2.5-229B-AWQ × 双机NVIDIA DGX Spark专属赋能 “养龙虾”，本地算力养OpenClaw超省心！

MiniMax2.5

养龙虾专属国产模型

前言/ INTRODUCTION

MiniMax2.5-229B-AWQ × 双机NVIDIA DGX Spark专属赋能 “养龙虾”，本地算力养OpenClaw超省心！

“养龙虾”爆火，首个模型排行榜出炉 MiniMax国产开源模型霸榜OpenClaw。

OpenClaw创始人Peter Steinberger 在平台X上分享龙虾基准测试排行榜。PinchBench 测试了32款主流大模型，从成功率、速度、费用三个维度，测试哪个模型最适合养龙虾。

排行榜显示，国产模型MiniMax，成功率93.6%，战胜Claude Sonnet 4.5（92.7%）和 GPT-4o（85.2%）等一众国际大模型。

位居第二。

MiniMax 重磅加持 2026 “养龙虾” 热潮，作为开源 AI 智能体 OpenClaw 核心调用模型，凭 229B 超强算力与专属优化，解锁 AI 养虾全场景高效能力，让 “养龙虾” 更智能、更高效、更易落地

目标与结论

在两台 DGX Spark 上使用 Ray + vLLM 部署 MiniMax-AWQ。
采用双机 TP=2（每机 1 卡）进行推理。
已成功启动服务，接口可用：/v1/models、/v1/chat/completions。

环境信息

节点与网络

节点	IP	高速网 IP	高速网卡
Head	192.168.110.32	10.10.10.1	enp1s0f0np0
Worker	192.168.110.97	10.10.10.2	enp1s0f0np0

模型与镜像

项目	详情
模型目录（两机）	/data/minimax-awq
模型架构	MiniMaxM2ForCausalLM
量化方式	AWQ（bits=4, group_size=128, version=gemm）
Docker 镜像	vllm/vllm-openai:cu130-nightly

成功部署参数（实测可用）

参数	值	说明
--tensor-parallel-size	2	跨两机 TP 并行
--distributed-executor-backend	ray	使用 Ray 分布式后端
--quantization	awq_marlin	AWQ 量化推理路径（Marlin kernel）
--gpu-memory-utilization	0.75	0.30 会 KV Cache 不足，0.75 稳定
--max-model-len	256	受内存限制
--max-num-seqs	1	限制最大并发序列数
--max-num-batched-tokens	256	限制最大 batch token 数
--enforce-eager	-	禁用 CUDA Graph
--disable-custom-all-reduce	-	禁用自定义 AllReduce
--trust-remote-code	-	允许加载模型自定义代码
--language-model-only	-	仅加载语言模型

说明：早期用 --gpu-memory-utilization 0.30 会在 KV Cache 初始化时报内存不足。改为 0.75 并压低序列长度与并发后可稳定启动。

标准部署步骤（可复用）

4.1 清理旧容器

ssh root@192.168.110.32 "docker rm -f vllm-head 2>/dev/null || true"

ssh root@192.168.110.97 "docker rm -f vllm-worker 2>/dev/null || true"

4.2 启动 Ray Head（Node 32）

ssh root@192.168.110.32 "docker run -d --gpus all --network host --shm-size=16g \
--name vllm-head --entrypoint bash \
-v /data:/data \
-e VLLM_HOST_IP=10.10.10.1 \
-e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
-e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
vllm/vllm-openai:cu130-nightly \
-c 'ray start --head --node-ip-address=10.10.10.1 --port=6379 && sleep infinity'"

4.3 启动 Ray Worker（Node 97）

ssh root@192.168.110.97 "docker run -d --gpus all --network host --shm-size=16g \
--name vllm-worker --entrypoint bash \
-v /data:/data \
-e VLLM_HOST_IP=10.10.10.2 \
-e GLOO_SOCKET_IFNAME=enp1s0f0np0 \
-e NCCL_SOCKET_IFNAME=enp1s0f0np0 \
vllm/vllm-openai:cu130-nightly \
-c 'ray start --address=10.10.10.1:6379 --node-ip-address=10.10.10.2 && sleep infinity'"

4.4 验证 Ray 集群

ssh root@192.168.110.32 "sleep 8 && docker exec vllm-head ray status"

预期：Active: 2nodes，总资源约40CPU / 2 GPU。

4.5 启动 vLLM（Node 32）

vllm serve /data/minimax-awq \
--tensor-parallel-size 2 \
--distributed-executor-backend ray \
--host 0.0.0.0 --port 8000 \
--max-model-len 256 \
--max-num-seqs 1 \
--max-num-batched-tokens 256 \
--gpu-memory-utilization 0.75 \
--quantization awq_marlin \
--enforce-eager \
--disable-custom-all-reduce \
--trust-remote-code \
--language-model-only

注：上述命令需通过启动脚本在 Head 容器内执行（参考 Qwen3.5-122B 部署手册中的脚本方式）。

4.6 监控启动日志

ssh root@192.168.110.32 "docker exec vllm-head tail -f /tmp/vllm_serve_minimax_awq.log"

成功标志：

Loading safetensors checkpoint shards: 100%
GPU KV cache size: ... tokens
Application startup complete
Uvicorn running on http://0.0.0.0:8000

5.API 验证

查看模型列表：

curl http://192.168.110.32:8000/v1/models

聊天测试：

curl http://192.168.110.32:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"/data/minimax-awq","messages":[{"role":"user","content":"你好"}],"max_tokens":64}'

关键排障经验

序号	经验	说明
1	同时重建 Head + Worker	避免 Ray 残留节点导致 IP 冲突
2	设置 GLOO/NCCL_SOCKET_IFNAME	两个容器都必须设置，否则可能走 127.0.0.1
3	gpu-memory-utilization 不能过低	过低会导致 KV Cache 无可用块，即使模型加载完也会失败
4	AWQ 优先使用 awq_marlin	Marlin kernel 对 AWQ 4bit 有更好的推理优化

上一篇：NVIDIA CEO 黄仁勋发表最新署名文章：AI 的“五层下一篇：最新干货出炉！！！完美适配OpenClaw大龙虾的「超强开源