在企业级大模型落地过程中，千亿参数模型的部署往往需要复杂的分布式集群配置，硬件与技术门槛居高不下。本次基于NVIDIA DGX Spark设备，通过Ollama工具完成Qwen3.5-122B千亿参数MoE模型的单机部署，不仅实现了一键推理、稳定运行，更充分发挥了模型与硬件的双重核心能力，为企业级AI推理落地提供了轻量化、高性价比的解决方案。

本次部署实现1251亿参数模型单机承载，Q4_K_M量化后仅占81GB内存，平均推理速度达24.2 tokens/s，同时支持视觉理解、工具调用、深度思考等全维度能力，且100%兼容OpenAI API，商用落地无阻碍

部署概况

项目	详情
部署日期	2026年2月
服务器	NVIDIA DGX Spark（192.168.110.97）
部署方式	Ollama v0.17.1 离线安装
部署状态	部署成功，已稳定运行

硬件环境

项目	详情
设备类型	NVIDIA DGX Spark
CPU	GB10 Spark CPU @ 3.9GHz（Grace 架构，ARM aarch64）
GPU	NVIDIA GB10（Blackwell 架构，Compute Capability 12.1）
统一内存	128 GB LPDDR5x（CPU/GPU 共享）
可用内存	~120 GB
存储	3.7 TB NVMe SSD
操作系统	Ubuntu 24.04.3 LTS
GPU 驱动	580.95.05

DGX Spark 核心优势：采用 NVIDIA Grace-Blackwell 架构，CPU 与 GPU 共享 128GB 统一内存，无需传统的 PCIe 数据搬运，天然适合部署百亿级参数大模型。

模型信息

项目	详情
模型名称	Qwen3.5-122B (qwen3.5:122b)
开发者	阿里通义千问团队
架构	qwen35moe（混合专家，MoE）
总参数量	125.1B（1251 亿）
量化方式	Q4_K_M（4-bit 混合量化）
模型大小	81 GB
原生上下文	262,144 tokens（约 20 万字）
嵌入维度	3072
许可证	Apache 2.0（商用友好）

模型能力

能力	支持	说明
文本生成		通用问答、写作、编程
视觉理解		图片识别与分析
工具调用		Function Calling，可对接外部 API
深度思考		Thinking 模式，逐步推理

部署过程

第一步：安装 Ollama

# 解压 ARM64 版 Ollama（v0.17.1-rc2 预发布版）

tar x -C /usr -f ollama-linux-arm64.tar.zst

# 创建系统服务

useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama

cat > /etc/systemd/system/ollama.service << 'EOF'

[Unit]

Description=Ollama Service

After=network-online.target

[Service]

ExecStart=/usr/bin/ollama serve

User=ollama

Group=ollama

Restart=always

RestartSec=3

Environment=PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

Environment=OLLAMA_HOST=0.0.0.0

[Install]

WantedBy=multi-user.target

EOF

systemctl daemon-reload

systemctl enable ollama

systemctl start ollama

⚠️ 注意：Qwen3.5:122b 需要 Ollama ≥ 0.17.1 版本支持，官方稳定版 0.17.0 无法拉取此模型。

第二步：拉取模型

ollama pull qwen3.5:122b

模型大小 81GB，下载完成后即可直接推理，无需额外配置。

第三步：验证部署

ollama run qwen3.5:122b "你好，请用中文介绍一下你自己"

性能测试

测试环境

- Ollama 版本：0.17.1-rc2

- 量化精度：Q4_K_M (4-bit)

- 并发数：1（单请求）

- 采样参数：temperature=0.7

测试结果

测试场景	生成 Tokens	Decode 耗时	生成速度
短文本生成 (64 tokens)	64	2.64 s	24.3 t/s
中等文本生成 (256 tokens)	256	10.55 s	24.3 t/s
长文本生成 (512 tokens)	512	21.20 s	24.1 t/s

性能分析

指标	结果	评价
平均 Decode 速度	24.2 tokens/s	流畅打字体验
速度稳定性	24.1 ~ 24.3 t/s	几乎无衰减
等效中文速度	~12 字/秒	超过正常阅读速度
首次加载时间	~60 s	81GB 模型首次加载

速度解读：24.2 tokens/s 约等于每秒输出 12 个中文字符。这意味着一个 500 字的回答大约 40 秒即可生成完成，对于一个 1251 亿参数的大模型而言，表现相当出色。

API 使用

API 端点

服务兼容 OpenAI API 格式，可直接被各类应用集成：

端点	方法	说明
http://192.168.110.97:11434/api/chat	POST	对话补全
http://192.168.110.97:11434/api/generate	POST	文本生成
http://192.168.110.97:11434/v1/chat/completions	POST	OpenAI 兼容 API

Python 调用示例

from openai import OpenAI

client = OpenAI(

base_url="http://192.168.110.97:11434/v1",

api_key="ollama" # Ollama 不需要真实 key

)

response = client.chat.completions.create(

model="qwen3.5:122b",

messages=[

{"role": "user", "content": "写一首关于春天的诗"}

temperature=0.7,

top_p=0.95,

)

print(response.choices[0].message.content)

curl 调用示例

curl http://192.168.110.97:11434/api/chat -d '{

"model": "qwen3.5:122b",

"messages": [{"role": "user", "content": "Hello"}],

"stream": false

运维指南

# 查看模型列表

ollama list

# 交互式对话

ollama run qwen3.5:122b

# 查看运行状态

systemctl status ollama

# 查看日志

journalctl -u ollama -f

# 重启服务

systemctl restart ollama

总结

维度	评价
部署难度	简单（Ollama 一键部署）
模型能力	顶级（1251 亿参数 MoE，多模态）
推理速度	良好（24.2 t/s @ Q4_K_M）
内存占用	81 GB / 128 GB（占用 63%）
API 兼容	完全兼容 OpenAI API
商用许可	Apache 2.0 开源协议

核心结论：NVIDIA DGX Spark 凭借 128GB 统一内存的独特架构，可以轻松单机部署 1251 亿参数的 Qwen3.5-122B 大模型，配合 Q4_K_M 量化仅需 81GB 内存，并能保持 24+ tokens/s 的流畅推理速度。这证明 DGX Spark 是企业级 AI 推理的理想平台——无需复杂的分布式配置，一台设备即可运行千亿参数模型。

作为英伟达官方授权代理商，北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求，用专业服务帮您降低技术门槛，快速落地高性能生产力工具～

专属对接通道：

产品咨询热线：400-890-8985

期待与您携手，以英伟达硬核产品为基石，探索 AI 赋能办公、算力驱动创新的无限可能

上一篇：真正的大数据：上下文记忆如何重塑 AI 基础设施下一篇：Qwen3-Coder-Next-FP8 部署在 NVIDI

强强联合！Qwen3.5-122B × NVIDIA DGX Spark 单机跑通千亿大模型