容天AIX 1365国产工作站搭配华为昇腾双卡300Duo
部署 DeepSeek-R1-Distill-Qwen-32B 模型
部署时间 | 2026年1月27日 |
部署人员 | 容天 |
服务器 | 192.168.110.xx |
操作系统 | openEuler 24.03 LTS (ARM64) |
服务器型号 | 容天AIX 1365工作站 |
NPU 型号 | 华为昇腾300Duo |
NPU 数量 | 2 卡 |
NPU 总显存 | ~176 GB (4×44GB) |
CPU | 32 核心 ARM64 |
内存 | 64 GB |
操作系统 | openEuler 24.03 LTS (ARM64) |
NPU 驱动版本 | 25.5.0 |
CANN 工具包 | 8.5.0 |
Docker 版本 | 26.1.3 |
MindIE 版本 | 2.3.0 |
Python 版本 | 3.11 |
所有 4 个 NPU 核心运行正常,温度范围 34-38°C
NPU ID | 型号 | 显存 | 温度 |
0 | 310P3 | 44 GB | 34°C |
1 | 310P3 | 44 GB | 36°C |
2 | 310P3 | 44 GB | 38°C |
3 | 310P3 | 44 GB | 35°C |
模型名称 | DeepSeek-R1-Distill-Qwen-32B |
模型类型 | 大语言模型 (LLM) |
参数规模 | 32B (320亿参数) |
模型大小 | 62 GB (8个safetensors文件) |
数据类型 | float16 (修复后) |
下载来源 | ModelScope (魔搭社区) |
模型路径: /data/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
• 容器化部署: Docker + MindIE
• 容器名称: deepseek32b
• 镜像: mindie:2.3.0-800I-A2-py311-openeuler24.03-lts
• NPU 分配: 2卡并行推理 (davinci0-3)
• 共享内存: 16 GB
服务端口 | 1025 (生成接口), 1026 (管理接口) |
推理模式 | standard |
最大批处理 | 200 |
最大序列长度 | 2560 |
最大输入长度 | 2048 |
Block 大小 | 128 |
Tokenizer 进程数 | 8 |
模型实例数 | 1 |
• 生成接口: http://192.168.110.xx:1025/generate
• 模型信息: http://192.168.110.xx:1025/v1/models
• 健康检查: http://192.168.110.xx:1025/health
模型加载后各 NPU 显存使用情况:
NPU ID | 已使用显存 | 使用率 |
NPU 0 | ~16 GB | ~36% |
NPU 1 | ~16 GB | ~36% |
NPU 2 | ~16 GB | ~36% |
NPU 3 | ~16 GB | ~36% |
总显存使用: ~64 GB / 176 GB (约 36%)
CPU 使用率 | 中等 (推理时 30-50%) |
内存使用 | ~8 GB |
磁盘使用 | 62 GB (模型) + 10 GB (系统) |
网络带宽 | 低 (本地推理) |
测试场景 | Token数 | 耗时(秒) | 速度(tokens/s) | 状态 |
短文本生成 | 50 | 6.2 | ~8 | ✓ |
中等文本 | 100 | 12-15 | ~7-8 | ✓ |
长文本 | 200 | 25-30 | ~7-8 | ✓ |
超长文本 | 1800 | 62 | ~29 | ✓ |
平均性能:
• 短文本: 7-8 tokens/秒
• 长文本批处理: 20-30 tokens/秒
• 首 token 延迟: <1 秒
测试项 | 测试结果 | 备注 |
中文问答 | ✓ 通过 | 生成质量良好 |
英文生成 | ✓ 通过 | 语法正确 |
代码生成 | ✓ 通过 | 可生成 Python 代码 |
长文本理解 | ✓ 通过 | 上下文理解准确 |
• 连续运行时间: 2+ 小时
• 请求成功率: 100%
• 服务重启: 正常
• 异常处理: 良好
使用 curl 命令:
curl -X POST http://192.168.110.xx:1025/generate \
-H "Content-Type: application/json" \
-d '{
"inputs": "你好,请介绍一下你自己",
"parameters": {
"max_new_tokens": 100
}
}'
import requests
url = "http://192.168.110.xx:1025/generate"
payload = {
"inputs": "写一个快速排序算法",
"parameters": {
"max_new_tokens": 200,
"temperature": 0.7
}
}
response = requests.post(url, json=payload)
result = response.json()
print(result["generated_text"])
✓ 部署成功
✓ 服务运行稳定
✓ API 接口正常
✓ 功能测试通过
服务器端展示
推理速度 | ⚠️ 一般 (7-8 tokens/秒) |
生成质量 | ✓ 优秀 |
稳定性 | ✓ 优秀 |
资源利用 | ✓ 良好 (显存使用 36%) |
综合评分 | ⚠️ 良好 (适合开发测试) |
✓ 推荐场景:
• 开发测试环境
• 小规模应用 (<10 并发)
• 离线批处理任务
• 模型验证和调试