新闻动态
News
首页 > 新闻动态 > 新闻资讯
返回

容天AIX-1365国产工作站搭配华为昇腾300Duo双卡,部署 DeepSeek-R1-Distill-Qwen-32B 模型,成为国产化 AI 推理场景下的优选解决方案。

容天AIX 1365国产工作站搭配华为昇腾双卡300Duo

部署 DeepSeek-R1-Distill-Qwen-32B 模型

部署时间

2026年1月27日

部署人员

容天

服务器

192.168.110.xx

操作系统

openEuler 24.03 LTS (ARM64)


一、环境信息

1.1 硬件配置

服务器型号

容天AIX 1365工作站

NPU 型号

华为昇腾300Duo

NPU 数量

2 

NPU 总显存

~176 GB (4×44GB)

CPU

32 核心 ARM64

内存

64 GB

1.2 软件环境

操作系统

openEuler 24.03 LTS (ARM64)

NPU 驱动版本

25.5.0

CANN 工具包

8.5.0

Docker 版本

26.1.3

MindIE 版本

2.3.0

Python 版本

3.11

1.3 NPU 状态

所有 4 个 NPU 核心运行正常,温度范围 34-38°C

NPU ID

型号

显存

温度

0

310P3

44 GB

34°C

1

310P3

44 GB

36°C

2

310P3

44 GB

38°C

3

310P3

44 GB

35°C


二、部署模型

模型名称

DeepSeek-R1-Distill-Qwen-32B

模型类型

大语言模型 (LLM)

参数规模

32B (320亿参数)

模型大小

62 GB (8个safetensors文件)

数据类型

float16 (修复后)

下载来源

ModelScope (魔搭社区)

模型路径: /data/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

三、服务配置

3.1 部署架构

• 容器化部署: Docker + MindIE

• 容器名称: deepseek32b

• 镜像: mindie:2.3.0-800I-A2-py311-openeuler24.03-lts

• NPU 分配: 2卡并行推理 (davinci0-3)

• 共享内存: 16 GB

3.2 关键配置参数

服务端口

1025 (生成接口), 1026 (管理接口)

推理模式

standard

最大批处理

200

最大序列长度

2560

最大输入长度

2048

Block 大小

128

Tokenizer 进程数

8

模型实例数

1

3.3 API 端点

• 生成接口: http://192.168.110.xx:1025/generate

• 模型信息: http://192.168.110.xx:1025/v1/models

• 健康检查: http://192.168.110.xx:1025/health

四、资源使用情况

4.1 NPU 显存使用

模型加载后各 NPU 显存使用情况:

NPU ID

已使用显存

使用率

NPU 0

~16 GB

~36%

NPU 1

~16 GB

~36%

NPU 2

~16 GB

~36%

NPU 3

~16 GB

~36%

总显存使用: ~64 GB / 176 GB (约 36%)

4.2 系统资源

CPU 使用率

中等 (推理时 30-50%)

内存使用

~8 GB

磁盘使用

62 GB (模型) + 10 GB (系统)

网络带宽

 (本地推理)


五、性能测试

5.1 推理速度测试

测试场景

Token数

耗时(秒)

速度(tokens/s)

状态

短文本生成

50

6.2

~8

中等文本

100

12-15

~7-8

长文本

200

25-30

~7-8

超长文本

1800

62

~29

平均性能:

• 短文本: 7-8 tokens/秒

• 长文本批处理: 20-30 tokens/秒

• 首 token 延迟: <1 秒

5.2 功能测试

测试项

测试结果

备注

中文问答

✓ 通过

生成质量良好

英文生成

✓ 通过

语法正确

代码生成

✓ 通过

可生成 Python 代码

长文本理解

✓ 通过

上下文理解准确

5.3 稳定性测试

• 连续运行时间: 2+ 小时

• 请求成功率: 100%

• 服务重启: 正常

• 异常处理: 良好

API 使用示例

7.1 基础调用示例

使用 curl 命令:

curl -X POST http://192.168.110.xx:1025/generate \
  -H "Content-Type: application/json" \
  -d '{
    "inputs": "你好,请介绍一下你自己",
    "parameters": {
      "max_new_tokens": 100
    }
  }'

7.2 Python 调用示例

import requests

url = "http://192.168.110.xx:1025/generate"
payload = {
    "inputs": "写一个快速排序算法",
    "parameters": {
        "max_new_tokens": 200,
        "temperature": 0.7
    }
}

response = requests.post(url, json=payload)
result = response.json()
print(result["generated_text"])

八、测试结论

8.1 部署结果

✓ 部署成功

✓ 服务运行稳定

✓ API 接口正常

✓ 功能测试通过

服务器端展示

8.2 性能评估

推理速度

⚠️ 一般 (7-8 tokens/秒)

生成质量

✓ 优秀

稳定性

✓ 优秀

资源利用

✓ 良好 (显存使用 36%)

综合评分

⚠️ 良好 (适合开发测试)

8.3 适用场景

✓ 推荐场景:

• 开发测试环境

• 小规模应用 (<10 并发)

• 离线批处理任务

• 模型验证和调试


上一篇:闪存告急?供应不足,那就提升效率!