本次部署实现1251亿参数模型单机承载,Q4_K_M量化后仅占81GB内存,平均推理速度达24.2 tokens/s,同时支持视觉理解、工具调用、深度思考等全维度能力,且100%兼容OpenAI API,商用落地无阻碍
项目 | 详情 |
部署日期 | 2026年2月 |
服务器 | NVIDIA DGX Spark(192.168.110.97) |
部署方式 | Ollama v0.17.1 离线安装 |
部署状态 | 部署成功,已稳定运行 |
项目 | 详情 |
设备类型 | NVIDIA DGX Spark |
CPU | GB10 Spark CPU @ 3.9GHz(Grace 架构,ARM aarch64) |
GPU | NVIDIA GB10(Blackwell 架构,Compute Capability 12.1) |
统一内存 | 128 GB LPDDR5x(CPU/GPU 共享) |
可用内存 | ~120 GB |
存储 | 3.7 TB NVMe SSD |
操作系统 | Ubuntu 24.04.3 LTS |
GPU 驱动 | 580.95.05 |
DGX Spark 核心优势:采用 NVIDIA Grace-Blackwell 架构,CPU 与 GPU 共享 128GB 统一内存,无需传统的 PCIe 数据搬运,天然适合部署百亿级参数大模型。
项目 | 详情 |
模型名称 | Qwen3.5-122B (qwen3.5:122b) |
开发者 | 阿里通义千问团队 |
架构 | qwen35moe(混合专家,MoE) |
总参数量 | 125.1B(1251 亿) |
量化方式 | Q4_K_M(4-bit 混合量化) |
模型大小 | 81 GB |
原生上下文 | 262,144 tokens(约 20 万字) |
嵌入维度 | 3072 |
许可证 | Apache 2.0(商用友好) |
能力 | 支持 | 说明 |
文本生成 | 通用问答、写作、编程 | |
视觉理解 | 图片识别与分析 | |
工具调用 | Function Calling,可对接外部 API | |
深度思考 | Thinking 模式,逐步推理 |
# 解压 ARM64 版 Ollama(v0.17.1-rc2 预发布版)
tar x -C /usr -f ollama-linux-arm64.tar.zst
# 创建系统服务
useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
cat > /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment=PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
Environment=OLLAMA_HOST=0.0.0.0
[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload
systemctl enable ollama
systemctl start ollama
⚠️ 注意:Qwen3.5:122b 需要 Ollama ≥ 0.17.1 版本支持,官方稳定版 0.17.0 无法拉取此模型。
ollama pull qwen3.5:122b
模型大小 81GB,下载完成后即可直接推理,无需额外配置。
ollama run qwen3.5:122b "你好,请用中文介绍一下你自己"
- Ollama 版本:0.17.1-rc2
- 量化精度:Q4_K_M (4-bit)
- 并发数:1(单请求)
- 采样参数:temperature=0.7
测试场景 | 生成 Tokens | Decode 耗时 | 生成速度 |
短文本生成 (64 tokens) | 64 | 2.64 s | 24.3 t/s |
中等文本生成 (256 tokens) | 256 | 10.55 s | 24.3 t/s |
长文本生成 (512 tokens) | 512 | 21.20 s | 24.1 t/s |
指标 | 结果 | 评价 |
平均 Decode 速度 | 24.2 tokens/s | 流畅打字体验 |
速度稳定性 | 24.1 ~ 24.3 t/s | 几乎无衰减 |
等效中文速度 | ~12 字/秒 | 超过正常阅读速度 |
首次加载时间 | ~60 s | 81GB 模型首次加载 |
速度解读:24.2 tokens/s 约等于每秒输出 12 个中文字符。这意味着一个 500 字的回答大约 40 秒即可生成完成,对于一个 1251 亿参数的大模型而言,表现相当出色。
服务兼容 OpenAI API 格式,可直接被各类应用集成:
端点 | 方法 | 说明 |
http://192.168.110.97:11434/api/chat | POST | 对话补全 |
http://192.168.110.97:11434/api/generate | POST | 文本生成 |
http://192.168.110.97:11434/v1/chat/completions | POST | OpenAI 兼容 API |
from openai import OpenAI
client = OpenAI(
base_url="http://192.168.110.97:11434/v1",
api_key="ollama" # Ollama 不需要真实 key
)
response = client.chat.completions.create(
model="qwen3.5:122b",
messages=[
{"role": "user", "content": "写一首关于春天的诗"}
],
temperature=0.7,
top_p=0.95,
)
print(response.choices[0].message.content)
curl http://192.168.110.97:11434/api/chat -d '{
"model": "qwen3.5:122b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": false
}'
# 查看模型列表
ollama list
# 交互式对话
ollama run qwen3.5:122b
# 查看运行状态
systemctl status ollama
# 查看日志
journalctl -u ollama -f
# 重启服务
systemctl restart ollama
维度 | 评价 |
部署难度 | 简单(Ollama 一键部署) |
模型能力 | 顶级(1251 亿参数 MoE,多模态) |
推理速度 | 良好(24.2 t/s @ Q4_K_M) |
内存占用 | 81 GB / 128 GB(占用 63%) |
API 兼容 | 完全兼容 OpenAI API |
商用许可 | Apache 2.0 开源协议 |
核心结论:NVIDIA DGX Spark 凭借 128GB 统一内存的独特架构,可以轻松单机部署 1251 亿参数的 Qwen3.5-122B 大模型,配合 Q4_K_M 量化仅需 81GB 内存,并能保持 24+ tokens/s 的流畅推理速度。这证明 DGX Spark 是企业级 AI 推理的理想平台——无需复杂的分布式配置,一台设备即可运行千亿参数模型。
作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。
能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~
专属对接通道:
产品咨询热线:400-890-8985
期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能