“云边协同” 的AI落地最佳实践｜容天智算中心云端算力+DGX Spark 本地算力方案落地

在AI大模型落地进程中，DGX Spark 显存足够，是企业规模化落地AI应用的关键核心。容天AI实验室基于DGX Spark（aarch64/ARM64架构），成功完成NVIDIA Nemotron 3 Nano Omni 30B多模态大模型全流程部署、功能验证与压力测试，落地出一套高性能、高稳定、可直接复用的生产级部署方案，搭配着容天智算中心的云端算力。形成云端结合本地的大模型落地方案。

微信图片_2026-06-23_103302_353.png

本文聚焦本次部署的核心优势、实测亮点、性能成果，全方位展示这套成熟可靠的大模型落地方案。

模型落地实践案例：

案例一

复杂任务调用云端算力进行计算

容天智算中心本次模型扩容，搭配成熟的Hermes平台集成方案，打造出高适配、高可用、易拓展的AI算力服务体系，核心优势突出：

全量模型适配

汇聚DeepSeek、通义千问、智谱、百川、Kimi等十余家长期稳定迭代的主流模型，共计96款，覆盖全业务场景。

Hermes无缝集成

所有模型兼容OpenAI标准接口，可快速接入Hermes网关，支持模型动态切换、智能负载路由、批量配置管理，适配各类智能体开发场景。

全模态能力覆盖

纯文本对话、深度推理、视觉多模态、代码生成、图文视频生成、语音识别、向量重排序等能力全覆盖。

企业级稳定算力

依托成熟智算底座，模型调用低延迟、高吞吐、100%请求稳定，支持常态化生产落地与高并发业务场景

轻量化运维：依托Hermes轻量化架构，内存占用低、QPS承载能力强，无需复杂部署配置，快速落地即用

调用容天智算中心的API进行程序的开发，下图就是workbuddy配置容天智算中心API,调用deepseek模型案例。

案例二

简单多模态任务

用边缘计算设备SPARK进行计算

NVIDIA Nemotron 3 Nano Omni 30B多模态大模型接入Hermes智能体，让智能体有了眼睛，能分析图片和视频。

① 接入hemers智能体，做问答服务

② 调用多模态能力，分析图片

③ 调用多模态能力分析视频

④ 根据视频生成，镜头脚本

以下是部署详情与经验分享

Part.1

项目落地概况｜全程稳定可控

本次部署基于ARM64架构DGX SPARK完成，所有配置参数经过多轮调试验证，最终实现服务常态化稳定运行，整体落地效果优异。

部署载体：DGX Spark（aarch64 / ARM64架构）
落地模型：NVIDIA Nemotron 3 Nano Omni 30B A3B Reasoning
服务形态：vLLM搭建OpenAI标准兼容服务
核心成果：服务稳定运行，全程无崩溃、无中断、无异常报错
服务地址：http://192.168.110.24:8000/v1

本次部署完美适配ARM64架构环境，成功攻克架构适配难题，实现30B级大模型的轻量化、稳定化落地。

Part.2

专属镜像适配｜架构兼容拉满

本次最终选用DGX Spark专属定制vLLM镜像，完美适配ARM64架构特性，适配性、稳定性远超通用镜像，是模型顺利落地的核心基础。

该定制镜像经过深度适配优化，可快速识别、加载30B大模型，高效完成EngineCore初始化，秒级启动API推理服务，适配性极强、运行效率稳定，为后续功能落地、高并发推理提供了坚实保障。

Part.3

黄金生产配置｜高性能且极致稳定

经过多轮参数调优，我们敲定一套适配DGX Spark服务器的黄金稳定配置，平衡推理性能、上下文长度与硬件资源占用，适配生产环境常态化运行。

这套配置支持32K超长上下文推理，可满足长文本问答、内容创作、逻辑推理、多轮对话等复杂业务场景，同时搭配合理的显存利用率、批处理参数，实现资源高效利用。

核心优势配置亮点

开启前缀缓存（prefix-caching），大幅提升多轮对话推理速度，降低重复推理资源消耗
集成专属Nemotron推理解析器，精准匹配模型推理逻辑，提升推理准确性
支持智能工具自动选择，拓展模型工具调用能力，适配智能化业务场景
配置多模态输入规范，精准适配图文音视频多场景推理需求
容器配置自动重启策略，全方位保障线上服务高可用性

Part.4

全维度能力就绪｜文本+多模态全覆盖

本次部署完成后，模型所有核心功能全部验证通过，支持文本推理、多模态解析，接口标准化、接入便捷，能力覆盖主流AI应用场景。

标准化接口稳定可用

模型列表接口、对话推理接口全部正常就绪，完全兼容OpenAI通用接口标准，请求响应及时、推理输出稳定，支持自定义prompt、最大生成长度等灵活配置，适配各类对话业务。

全场景多模态能力加持

模型已全面解锁图片、音频、视频多模态推理能力，单请求支持图文音视频协同解析，同时开放服务器本地媒体文件读取权限，可直接调用本地资源完成推理，适配图文理解、视频解析、音频分析等多元化AI场景，模型综合能力全面拉满。

Part.5

超稳压测表现｜100%请求成功率

本次梯度并发压力测试展现出极强的服务稳定性，从1并发至16并发，所有请求成功率100%，零失败、零超时、零报错，服务抗压能力优异。

16并发核心优质指标：服务排队推理逻辑清晰、延迟可控，高并发场景下无服务雪崩、无请求异常。

长期压测后服务状态依旧饱满，内存资源占用可控，服务器剩余可用内存充足，容器运行轻量化，资源利用率高效合理，完全满足企业常态化生产使用需求。

Part.6

高兼容易接入｜快速适配各类客户端

本次部署的vLLM服务完全兼容OpenAI通用协议，适配性极强，可快速接入Cherry Studio、OpenClaw等主流AI客户端，接入配置简单、落地零门槛。

通用接入标准配置

接口类型：OpenAI Compatible
Base URL：http://192.168.110.XX:8000/v1
API Key：local-vllm
模型名称：nemotron_3_nano_omni
优选接口：/v1/chat/completions（兼容性最佳、运行最稳）

标准化接口设计让模型可快速对接各类AI应用、智能客户端、业务系统，适配各类企业智能化改造场景，拓展性极强。

Part.7

可迭代拓展｜支持性能持续优化升级

当前落地配置为极致稳定的生产版本，同时具备极佳的性能拓展空间。后续可根据业务流量需求，梯度递增并发参数，稳步提升模型并行推理能力，在保障服务稳定的前提下，持续优化推理吞吐量与并发处理能力，适配业务规模化扩容需求。

- 总结 -

容天智算中心“云边协同” 的AI落地最佳实践：

算力分层调度

将需要庞大算力、高并发的复杂逻辑推理与深度生成任务交由云端（容天智算中心）处理，保障稳定性与模型丰富度；将需要低延迟、隐私安全或实时感知的轻量级多模态任务下沉至边缘侧（NVIDIA SPARK）执行。

统一平台管理

通过Hermes智能体平台作为统一网关，屏蔽了底层云端API与边缘模型的差异，实现了全模态能力的无缝接入与灵活调度。

极简开发与运维

无论是云端API的标准化接入，还是边缘侧多模态模型的即插即用，都大幅降低了开发门槛，使企业能够以极低的运维成本快速构建具备“思考+感知”能力的下一代AI应用。

上一篇：NVIDIA Vera CPU 在竞争中展现强劲性能下一篇：暂无