MiniMax2.5
养龙虾专属国产模型
前言/ INTRODUCTION
MiniMax2.5-229B-AWQ × 双机NVIDIA DGX Spark专属赋能 “养龙虾”,本地算力养OpenClaw超省心!
“养龙虾”爆火,首个模型排行榜出炉 MiniMax国产开源模型霸榜OpenClaw。
OpenClaw创始人Peter Steinberger 在平台X上分享龙虾基准测试排行榜。PinchBench 测试了32款主流大模型,从成功率、速度、费用三个维度,测试哪个模型最适合养龙虾。
排行榜显示,国产模型MiniMax,成功率93.6%,战胜Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一众国际大模型。
位居第二。
MiniMax 重磅加持 2026 “养龙虾” 热潮,作为开源 AI 智能体 OpenClaw 核心调用模型,凭 229B 超强算力与专属优化,解锁 AI 养虾全场景高效能力,让 “养龙虾” 更智能、更高效、更易落地
目标与结论 在两台 DGX Spark 上使用 Ray + vLLM 部署 MiniMax-AWQ。 采用双机 TP=2(每机 1 卡)进行推理。 已成功启动服务,接口可用:/v1/models、/v1/chat/completions。 环境信息
节点与网络
节点 | IP | 高速网 IP | 高速网卡 |
Head | 192.168.110.32 | 10.10.10.1 | enp1s0f0np0 |
Worker | 192.168.110.97 | 10.10.10.2 | enp1s0f0np0 |
模型与镜像
项目 | 详情 |
模型目录(两机) | /data/minimax-awq |
模型架构 | MiniMaxM2ForCausalLM |
量化方式 | AWQ(bits=4, group_size=128, version=gemm) |
Docker 镜像 | vllm/vllm-openai:cu130-nightly |
成功部署参数(实测可用)
参数 | 值 | 说明 |
--tensor-parallel-size | 2 | 跨两机 TP 并行 |
--distributed-executor-backend | ray | 使用 Ray 分布式后端 |
--quantization | awq_marlin | AWQ 量化推理路径(Marlin kernel) |
--gpu-memory-utilization | 0.75 | 0.30 会 KV Cache 不足,0.75 稳定 |
--max-model-len | 256 | 受内存限制 |
--max-num-seqs | 1 | 限制最大并发序列数 |
--max-num-batched-tokens | 256 | 限制最大 batch token 数 |
--enforce-eager | - | 禁用 CUDA Graph |
--disable-custom-all-reduce | - | 禁用自定义 AllReduce |
--trust-remote-code | - | 允许加载模型自定义代码 |
--language-model-only | - | 仅加载语言模型 |
说明:早期用 --gpu-memory-utilization 0.30 会在 KV Cache 初始化时报内存不足。改为 0.75 并压低序列长度与并发后可稳定启动。
标准部署步骤(可复用) 关键排障经验
序号 | 经验 | 说明 |
1 | 同时重建 Head + Worker | 避免 Ray 残留节点导致 IP 冲突 |
2 | 设置 GLOO/NCCL_SOCKET_IFNAME | 两个容器都必须设置,否则可能走 127.0.0.1 |
3 | gpu-memory-utilization 不能过低 | 过低会导致 KV Cache 无可用块,即使模型加载完也会失败 |
4 | AWQ 优先使用 awq_marlin | Marlin kernel 对 AWQ 4bit 有更好的推理优化 |