容天AIX-1365国产工作站搭配华为昇腾300Duo双卡，部署 DeepSeek-R1-Distill-Qwen-32B 模型，成为国产化 AI 推理场景下的优选解决方案。

容天AIX 1365国产工作站搭配华为昇腾双卡300Duo

部署 DeepSeek-R1-Distill-Qwen-32B 模型

部署时间	2026年1月27日
部署人员	容天
服务器	192.168.110.xx
操作系统	openEuler 24.03 LTS (ARM64)

一、环境信息

1.1 硬件配置

服务器型号	容天AIX 1365工作站
NPU 型号	华为昇腾300Duo
NPU 数量	2 卡
NPU 总显存	~176 GB (4×44GB)
CPU	32 核心 ARM64
内存	64 GB

1.2 软件环境

操作系统	openEuler 24.03 LTS (ARM64)
NPU 驱动版本	25.5.0
CANN 工具包	8.5.0
Docker 版本	26.1.3
MindIE 版本	2.3.0
Python 版本	3.11

1.3 NPU 状态

所有 4 个 NPU 核心运行正常，温度范围 34-38°C

NPU ID	型号	显存	温度
0	310P3	44 GB	34°C
1	310P3	44 GB	36°C
2	310P3	44 GB	38°C
3	310P3	44 GB	35°C

二、部署模型

模型名称	DeepSeek-R1-Distill-Qwen-32B
模型类型	大语言模型 (LLM)
参数规模	32B (320亿参数)
模型大小	62 GB (8个safetensors文件)
数据类型	float16 (修复后)
下载来源	ModelScope (魔搭社区)

模型路径: /data/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

三、服务配置

3.1 部署架构

• 容器化部署: Docker + MindIE

• 容器名称: deepseek32b

• 镜像: mindie:2.3.0-800I-A2-py311-openeuler24.03-lts

• NPU 分配: 2卡并行推理 (davinci0-3)

• 共享内存: 16 GB

3.2 关键配置参数

服务端口	1025 (生成接口), 1026 (管理接口)
推理模式	standard
最大批处理	200
最大序列长度	2560
最大输入长度	2048
Block 大小	128
Tokenizer 进程数	8
模型实例数	1

3.3 API 端点

• 生成接口: http://192.168.110.xx:1025/generate

• 模型信息: http://192.168.110.xx:1025/v1/models

• 健康检查: http://192.168.110.xx:1025/health

四、资源使用情况

4.1 NPU 显存使用

模型加载后各 NPU 显存使用情况:

NPU ID	已使用显存	使用率
NPU 0	~16 GB	~36%
NPU 1	~16 GB	~36%
NPU 2	~16 GB	~36%
NPU 3	~16 GB	~36%

总显存使用: ~64 GB / 176 GB (约 36%)

4.2 系统资源

CPU 使用率	中等 (推理时 30-50%)
内存使用	~8 GB
磁盘使用	62 GB (模型) + 10 GB (系统)
网络带宽	低 (本地推理)

五、性能测试

5.1 推理速度测试

测试场景	Token数	耗时(秒)	速度(tokens/s)	状态
短文本生成	50	6.2	~8	✓
中等文本	100	12-15	~7-8	✓
长文本	200	25-30	~7-8	✓
超长文本	1800	62	~29	✓

平均性能:

• 短文本: 7-8 tokens/秒

• 长文本批处理: 20-30 tokens/秒

• 首 token 延迟: <1 秒

5.2 功能测试

测试项	测试结果	备注
中文问答	✓ 通过	生成质量良好
英文生成	✓ 通过	语法正确
代码生成	✓ 通过	可生成 Python 代码
长文本理解	✓ 通过	上下文理解准确

5.3 稳定性测试

• 连续运行时间: 2+ 小时

• 请求成功率: 100%

• 服务重启: 正常

• 异常处理: 良好

六、API 使用示例

7.1 基础调用示例

使用 curl 命令:

curl -X POST http://192.168.110.xx:1025/generate \
-H "Content-Type: application/json" \
-d '{
"inputs": "你好，请介绍一下你自己",
"parameters": {
"max_new_tokens": 100
}
}'

7.2 Python 调用示例

import requests

url = "http://192.168.110.xx:1025/generate"
payload = {
"inputs": "写一个快速排序算法",
"parameters": {
"max_new_tokens": 200,
"temperature": 0.7
}
}

response = requests.post(url, json=payload)
result = response.json()
print(result["generated_text"])

八、测试结论

8.1 部署结果

✓ 部署成功

✓ 服务运行稳定

✓ API 接口正常

✓ 功能测试通过

服务器端展示

8.2 性能评估

推理速度	⚠️ 一般 (7-8 tokens/秒)
生成质量	✓ 优秀
稳定性	✓ 优秀
资源利用	✓ 良好 (显存使用 36%)
综合评分	⚠️ 良好 (适合开发测试)

8.3 适用场景

✓ 推荐场景:

• 开发测试环境

• 小规模应用 (<10 并发)

• 离线批处理任务

• 模型验证和调试

上一篇：闪存告急？供应不足，那就提升效率！下一篇：重磅！！！Moltbot（原Clawdbot）在NVIDIA