容天AIX4950工作站｜4卡RTX PRO 5000 Blackwell + Qwen3.6-NVFP4 + vLLM + Hermes Agent 推理速度可达197 tok/s

大家好！在AI应用落地过程中，容天AI实验室大模型推理加速与智能体联动是实现人机交互、机器人服务、问答系统的两大核心环节。今天为大家带来一套完整的生产级部署方案：基于4卡NVIDIA RTX PRO 5000 Blackwell服务器，完成Qwen3.6-35B-A3B-NVFP4量化模型、vLLM推理服务与Hermes Agent智能体的联合部署，并结合全维度压测数据，分享适配Hermes交互场景的最优配置、并发策略与运维方案，无论是搭建微信机器人、在线问答还是智能工具调用场景，都可以直接参考复用。

Part.1

方案整体概述

本次部署，整套架构采用vLLM作为底层推理引擎，承载Qwen3.6 NVFP4量化模型，对外提供标准OpenAI格式API；上层对接Hermes Agent v0.14.0智能体，实现工具调用、对话管理、多轮交互等能力，整套服务已配置容器开机自启，可7×24小时稳定运行。

核心能力亮点

超大上下文支持

模型最大上下文长度131072 tokens，轻松处理超长文档解析、万字对话、长文本问答等场景；

极致推理性能

单并发推理速度可达185-197 tok/s，短上下文吞吐峰值2253 tok/s；

全链路兼容

vLLM原生兼容OpenAI API，Hermes无缝对接，支持工具调用、流式输出；

量化优化

采用NVFP4量化格式，模型体积仅22G，4卡张量并行充分释放RTX PRO 5000算力；

灵活并发策略

区分在线交互、后台批处理两大场景，提供不同并发阈值，兼顾响应速度与算力利用率。

Part.2

硬件与基础环境详解

硬件配置

本次使用4张NVIDIA RTX PRO 5000 Blackwell显卡，单卡显存48935 MiB，整机采用x86_64架构，为大模型并行推理提供充足算力与显存支撑。

宿主机必备组件

部署前需完成基础环境安装，适配Docker容器化部署与Python环境，Ubuntu/Debian系统可直接执行下方命令一键安装：

bash
apt update
apt install -y \
  openssh-server \
  curl \
  ca-certificates \
  gnupg \
  python3 \
  python3-venv \
  python3-pip \
  jq \
  git

核心依赖说明：

Docker + NVIDIA Container Toolkit：支撑vLLM容器运行，打通GPU虚拟化调用；
Python3+虚拟环境：用于Hermes Agent的安装、运行与版本隔离；
curl/jq：用于API接口调试、指标监控与JSON数据解析。

容器镜像选型

vLLM采用官方nightly镜像，兼顾新特性与稳定性，同时留存多个备用镜像应对版本切换需求：

主力运行镜像：vllm/vllm-openai:nightly
备用镜像：vllm/vllm-openai:cu130-nightly、vllm/vllm-openai:latest

Part.3

模型与组件部署详情

Qwen3.6-NVFP4 模型信息

模型存放路径：/model/qwen3.6-nvfp4，整体大小22G，采用ModelOpt NVFP4量化，包含完整的权重分片、分词器、聊天模板与工具调用配置，完美适配Qwen系列工具解析规则。

核心文件包含模型权重分片、量化配置、分词器、对话模板等，无需额外修改即可加载运行。

vLLM 服务部署（核心推理层）

（1）当前运行参数（临时启动）

容器名称：vllm-server，启用4卡张量并行，开启前缀缓存、分片预填充、自动工具选择等优化功能：

bash
vllm serve /model/qwen3.6-nvfp4 \
  --port 8000 \
  --tensor-parallel-size 4 \
  --trust-remote-code \
  --dtype auto \
  --quantization modelopt \
  --gpu-memory-utilization 0.90 \
  --max-model-len 131072 \
  --enable-chunked-prefill \
  --enable-prefix-caching \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --host 0.0.0.0

（2）生产环境推荐启动命令（重点！适配Hermes交互）

相较于临时参数，生产版本新增最大并发序列限制、全局关闭思维链输出，彻底解决Hermes调用时出现多余thinking文本的问题，同时保留容器自启策略：

bash
docker rm -f vllm-server

docker run -d --name vllm-server \
  --restart unless-stopped \
  --gpus all \
  --network host \
  --ipc=host \
  --privileged \
  -v /model:/model:ro \
  vllm/vllm-openai:nightly \
  /model/qwen3.6-nvfp4 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 4 \
  --trust-remote-code \
  --dtype auto \
  --quantization modelopt \
  --gpu-memory-utilization 0.90 \
  --max-model-len 131072 \
  --max-num-seqs 256 \
  --enable-chunked-prefill \
  --enable-prefix-caching \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --default-chat-template-kwargs '{"enable_thinking": false}'

自启策略：unless-stopped，服务器重启后自动拉起服务；

关键新增参数：--default-chat-template-kwargs 全局关闭模型思维输出，统一Hermes对话格式。

Hermes Agent 配置（智能体交互层）

Hermes作为上层智能体，负责对话逻辑、工具调度、多轮会话管理，是对接微信机器人、在线问答的核心入口。

安装信息

安装目录：/opt/hermes-env
命令软链接：/usr/local/bin/hermes、/usr/local/bin/hermes-agent
版本：Hermes Agent v0.14.0，Python 3.12.3，OpenAI SDK 2.24.0

核心配置文件

配置文件分root用户与普通用户两套，统一指向本地vLLM API地址，配置路径：

root用户：/root/.hermes/config.yaml
普通用户：/home/lyl/.hermes/config.yaml

标准配置内容（直接复制使用）：

yaml
model:
  default: /model/qwen3.6-nvfp4
  provider: custom
  base_url: http://127.0.0.1:8000/v1
  api_key: none
  context_length: 131072
  max_tokens: 8192
onboarding:
  seen:
  busy_input_prompt: true
  tool_progress_prompt: true

服务验证命令

bash
# 查看Hermes版本
hermes --version
# 启动Hermes交互终端，验证连通性
hermes

Part.4

全维度性能压测数据

（Hermes场景必看）

为了匹配Hermes不同业务场景，我们完成了常规生成、长上下文、极限并发三大类测试，所有测试均关闭模型思维输出、启用流式请求，数据真实反映生产环境表现。

基础推理性能

单并发推理速度：185-197 tok/s，短文本响应极快；
固定512 Token输出场景：单请求平均速度稳定在196 tok/s左右；
代码生成场景：单并发512 Token输出耗时2.979s，推理表现优秀。

长上下文测试（核心优势）

模型131072 tokens超大上下文已完全生效，可稳定处理超长文本输入，受前缀缓存优化影响，超长文本推理效率进一步提升：

小贴士：长上下文场景下，单个请求占用KV Cache会大幅提升，并发上限需主动降低，避免排队超时。

极限并发压测

(关键！决定Hermes业务并发阈值)

测试档位覆盖1~512并发，每请求固定输出128 Token，统计吞吐、首Token延迟(TTFT)、排队数、KV Cache使用率等核心指标，整理关键数据如下：

并发瓶颈总结

KV Cache并非短文本瓶颈：短上下文压测中KV Cache峰值仅14.73%，瓶颈集中在GPU解码吞吐、请求调度队列；
有效并发上限256：256并发达到吞吐峰值，512并发时请求开始大量排队，吞吐不升反降；
高并发严重影响交互体验：512并发下P95首Token延迟高达17.2s，在线对话会出现明显卡顿。

Part.5

分场景并发策略

（Hermes+微信机器人专属方案）

结合压测数据，针对Hermes对接的在线交互与后台批处理两大核心场景，给出明确的并发配置建议，直接落地即可：

场景一：

Hermes交互 / 微信机器人 / 在线问答（推荐）

建议并发：64 ~ 128

优势：首Token延迟基本可控、几乎无排队，用户交互体验流畅稳定；
配套参数：vLLM启动参数设置 --max-num-seqs 128；
适用场景：个人微信机器人、公众号AI对话、实时在线问答、多轮闲聊、工具调用交互。

场景二：

后台批处理 / 离线生成 / 文档批量解析

建议并发：256

优势：整机吞吐拉满（峰值2253 tok/s），最大化利用4卡GPU算力；
配套参数：vLLM启动参数设置 --max-num-seqs 256；
适用场景：批量文案生成、离线文档总结、知识库批量录入、数据清洗、非实时批量推理任务。

Part.6

接口验证与日常运维命令

API接口调试（快速验证服务可用性）

查看已加载模型

bash
curl -s http://127.0.0.1:8000/v1/models | jq

对话接口测试（模拟Hermes调用）

bash
curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
  "model": "/model/qwen3.6-nvfp4",
  "messages": [
  {"role": "user", "content": "回复 API_OK"}
  ],
  "max_tokens": 32,
  "temperature": 0,
  "chat_template_kwargs": {
  "enable_thinking": false
  }
  }'

监控vLLM核心指标（KV缓存、Token统计）

bash
curl -s http://127.0.0.1:8000/metrics | grep -E 'num_requests|kv_cache|generation_tokens|prompt_tokens'

核心指标释义：

vllm:num_requests_running：当前正在运行的请求数
vllm:num_requests_waiting：排队等待的请求数
vllm:kv_cache_usage_perc：KV缓存使用率

日常运维常用命令

bash
# 查看vLLM容器运行状态
docker ps
# 实时查看容器日志（排查报错）
docker logs -f --tail 200 vllm-server
# 查看GPU占用状态
nvidia-smi
# 重启/停止推理服务
docker restart vllm-server
docker stop vllm-server
# 验证容器自启策略
docker inspect vllm-server --format '{{json .HostConfig.RestartPolicy}}'

Part.7

全文总结

这套Qwen3.6-NVFP4 + vLLM + Hermes Agent 组合，基于4卡RTX PRO 5000 Blackwell服务器完成全链路部署，完美兼顾高速推理、超大上下文、智能体交互三大核心能力，经过多轮极限压测验证，完全满足生产环境落地要求。

针对Hermes智能体+微信机器人场景，我们提炼出核心落地准则：

在线实时交互：极致平衡延迟与稳定性；

对于预算有限、缺乏专业AI运维团队的中小企业而言，这套 Qwen3.6-NVFP4 + vLLM + Hermes Agent 私有化部署方案，摒弃了公有云大模型的高额调用费用、数据泄露风险，依托4卡服务器即可实现全员本地化AI办公，覆盖企业日常办公、客户服务、内容生产、文档处理等核心刚需场景，实用性极强。

企业微信/公众号智能客服

依托Hermes Agent智能交互能力，搭建企业专属AI客服，对接企业微信、微信公众号、官网咨询窗口。基于模型131072超大上下文，可一键学习企业产品资料、售后手册、常见问答、企业文化，实现7×24小时无人值守自动答疑、客户咨询分流、售后问题预处理。搭配64-128稳定并发，可满足企业日常客户咨询峰值，低延迟响应不卡顿，大幅减少人工客服工作量，降低企业人力成本。

办公文档批量处理

适配中小企业行政、运营、财务岗位日常办公需求，依托256高吞吐并发能力，实现离线批量办公任务。可自动完成合同审核、简历筛选、公文改写、周报月报批量生成、长文档总结、会议纪要提炼、规章制度整理等工作。超大上下文支持直接解析万字合同、长篇报表、完整项目文档，无需拆分文本，批量处理效率远超人工，大幅提升办公效率。

企业内容营销自动化生产

助力中小企业新媒体运营、品牌推广工作，可批量生成公众号推文、短视频脚本、产品宣传文案、朋友圈文案、活动策划方案、客户回访话术。依托模型优秀的文本生成与逻辑能力，生成内容贴合企业品牌调性，同时支持自定义风格、语气、格式，批量并发生成模式可一次性产出多篇营销内容，解决中小企业运营人员不足、内容产出效率低的痛点。

内部智能问答知识库

搭建企业私有化专属知识库，录入企业制度、考勤规则、岗位职责、项目资料、培训文档、客户档案等内部资料，员工可随时通过Hermes智能体快速问答，自助解决办公疑问、查阅业务资料、学习岗位技能。私有化本地部署，所有企业核心数据不外泄，彻底规避公有云AI的数据安全风险，适配涉密办公、商务资料留存场景。

轻量化代码辅助与办公工具调用

模型自带优质代码生成与工具调用能力，可满足中小企业简易开发、办公脚本编写需求，自动生成Excel处理脚本、数据统计脚本、简易自动化工具，助力办公数据整理、报表自动化统计。无需专业开发人员，即可实现办公流程轻量化自动化，适配小微企业数字化转型刚需。

上一篇：VAST Data：突破 AI 存储瓶颈，打造新标杆下一篇：暂无