新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

强强联合!Qwen3.5-122B × NVIDIA DGX Spark 单机跑通千亿大模型

      在企业级大模型落地过程中,千亿参数模型的部署往往需要复杂的分布式集群配置,硬件与技术门槛居高不下。本次基于NVIDIA DGX Spark设备,通过Ollama工具完成Qwen3.5-122B千亿参数MoE模型的单机部署,不仅实现了一键推理、稳定运行,更充分发挥了模型与硬件的双重核心能力,为企业级AI推理落地提供了轻量化、高性价比的解决方案。

     本次部署实现1251亿参数模型单机承载Q4_K_M量化后仅占81GB内存,平均推理速度达24.2 tokens/s,同时支持视觉理解、工具调用、深度思考等全维度能力,且100%兼容OpenAI API,商用落地无阻碍


部署概况

项目

详情

部署日期

2026年2月

服务器

NVIDIA DGX Spark(192.168.110.97)

部署方式

Ollama v0.17.1 离线安装

部署状态

部署成功,已稳定运行

硬件环境

项目

详情

设备类型

NVIDIA DGX Spark

CPU

GB10 Spark CPU @ 3.9GHz(Grace 架构,ARM aarch64)

GPU

NVIDIA GB10(Blackwell 架构,Compute Capability 12.1)

统一内存

128 GB LPDDR5x(CPU/GPU 共享)

可用内存

~120 GB

存储

3.7 TB NVMe SSD

操作系统

Ubuntu 24.04.3 LTS

GPU 驱动

580.95.05

DGX Spark 核心优势:采用 NVIDIA Grace-Blackwell 架构,CPU 与 GPU 共享 128GB 统一内存,无需传统的 PCIe 数据搬运,天然适合部署百亿级参数大模型。

模型信息

项目

详情

模型名称

Qwen3.5-122B (qwen3.5:122b)

开发者

阿里通义千问团队

架构

qwen35moe(混合专家,MoE)

总参数量

125.1B(1251 亿)

量化方式

Q4_K_M(4-bit 混合量化)

模型大小

81 GB

原生上下文

262,144 tokens(约 20 万字)

嵌入维度

3072

许可证

Apache 2.0(商用友好)

模型能力

能力

支持

说明

文本生成


通用问答、写作、编程

视觉理解


图片识别与分析

工具调用


Function Calling,可对接外部 API

深度思考


Thinking 模式,逐步推理

部署过程

第一步:安装 Ollama

解压 ARM64 版 Ollamav0.17.1-rc2 预发布版)

tar x -C /usr -f ollama-linux-arm64.tar.zst

创建系统服务

useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama

cat > /etc/systemd/system/ollama.service << 'EOF'

[Unit]

Description=Ollama Service

After=network-online.target

[Service]

ExecStart=/usr/bin/ollama serve

User=ollama

Group=ollama

Restart=always

RestartSec=3

Environment=PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

Environment=OLLAMA_HOST=0.0.0.0

[Install]

WantedBy=multi-user.target

EOF

systemctl daemon-reload

systemctl enable ollama

systemctl start ollama

⚠️ 注意Qwen3.5:122b 需要 Ollama ≥ 0.17.1 版本支持,官方稳定版 0.17.0 无法拉取此模型。

第二步:拉取模型

ollama pull qwen3.5:122b

模型大小 81GB,下载完成后即可直接推理,无需额外配置。

第三步:验证部署

ollama run qwen3.5:122b "你好,请用中文介绍一下你自己"

性能测试

测试环境

Ollama 版本0.17.1-rc2

量化精度Q4_K_M (4-bit)

并发数1(单请求)

采样参数temperature=0.7

测试结果

测试场景

生成 Tokens

Decode 耗时

生成速度

短文本生成 (64 tokens)

64

2.64 s

24.3 t/s

中等文本生成 (256 tokens)

256

10.55 s

24.3 t/s

长文本生成 (512 tokens)

512

21.20 s

24.1 t/s

性能分析

指标

结果

评价

平均 Decode 速度

24.2 tokens/s

流畅打字体验

速度稳定性

24.1 ~ 24.3 t/s

 几乎无衰减

等效中文速度

~12 字/秒

超过正常阅读速度

首次加载时间

~60 s

81GB 模型首次加载

速度解读24.2 tokens/s 约等于每秒输出 12 个中文字符。这意味着一个 500 字的回答大约 40 秒即可生成完成,对于一个 1251 亿参数的大模型而言,表现相当出色。

API 使用

API 端点

服务兼容 OpenAI API 格式,可直接被各类应用集成:

端点

方法

说明

http://192.168.110.97:11434/api/chat

POST

对话补全

http://192.168.110.97:11434/api/generate

POST

文本生成

http://192.168.110.97:11434/v1/chat/completions

POST

OpenAI 兼容 API

Python 调用示例

from openai import OpenAI

client = OpenAI(

base_url="http://192.168.110.97:11434/v1",

api_key="ollama"   # Ollama 不需要真实 key

)

response = client.chat.completions.create(

model="qwen3.5:122b",

messages=[

{"role": "user", "content": "写一首关于春天的诗"}

],

temperature=0.7,

top_p=0.95,

)

print(response.choices[0].message.content)

curl 调用示例

curl http://192.168.110.97:11434/api/chat -d '{

"model": "qwen3.5:122b",

"messages": [{"role": "user", "content": "Hello"}],

"stream": false

}'

运维指南

查看模型列表

ollama list

交互式对话

ollama run qwen3.5:122b

查看运行状态

systemctl status ollama

查看日志

journalctl -u ollama -f

重启服务

systemctl restart ollama

总结

维度

评价

部署难度

简单(Ollama 一键部署)

模型能力

顶级(1251 亿参数 MoE,多模态)

推理速度

良好(24.2 t/s @ Q4_K_M)

内存占用

81 GB / 128 GB(占用 63%)

API 兼容

完全兼容 OpenAI API

商用许可

Apache 2.0 开源协议

核心结论NVIDIA DGX Spark 凭借 128GB 统一内存的独特架构,可以轻松单机部署 1251 亿参数的 Qwen3.5-122B 大模型,配合 Q4_K_M 量化仅需 81GB 内存,并能保持 24+ tokens/s 的流畅推理速度。这证明 DGX Spark 是企业级 AI 推理的理想平台——无需复杂的分布式配置,一台设备即可运行千亿参数模型。

      作为英伟达官方授权代理商,北京容天汇海科技有限公司为您提供全系列产品采购与咨询服务。

能一站式满足您在 AI 算力、网络搭建、服务器部署等多场景的需求,用专业服务帮您降低技术门槛,快速落地高性能生产力工具~

专属对接通道:

产品咨询热线:400-890-8985

期待与您携手,以英伟达硬核产品为基石,探索 AI 赋能办公、算力驱动创新的无限可能


上一篇:真正的大数据:上下文记忆如何重塑 AI 基础设施