RT-Brain 2.0来了

北京容天汇海科技有限公司成立于2005年,是一家人工智能产品及解决方案提供商。致力于基于GPU的深度学习、高性能计算的服务器、工作站、集群、存储设备定制研发及生产,提供GPU并行计算代码编写、移植、优化,可为用户制定对应的GPU代码、深度学习培训计划,为客户提供软硬件一体化解决方案的新型高科技企业。

容天专注于AI领域,自主研发了整套深度学习应用平台RT-Brain,是软硬一体化解决方案中的重要组成部分、是公司未来的战略重心、是公司全力打造的拳头产品。自2017年9月26日在NVIDIA GTC大会上发布了RT-Brain产品后,大量用户密切关注并提出了宝贵的意见和反馈,对此我们表示诚挚的感谢并积极对产品进行改进,现在我们携RT-Brain2.0与大家见面。

在RT-Brain2.0中,我们对基础架构做出了重大变革、对产品线进行了重新梳理,使其定位更加明确、功能更加完善。通过人性化界面使其更好的服务广大人工智能及相关行业从业者。

 

◇  RT-Brain 2.0架构

实现计算、存储和网络的统一管理,整合物理服务器、传统存储、分布式存储以及网络资源,形成了端到端的软件定义能力,并且以服务的形式对外提供。在基础上增加了分布式架构,提供容器,并进一步提升了软件定义能力,实现按需扩展。

 

与传统的稳定架构(承载业务,其特点为业务流程固定、行业规范成熟,开发和实际基于传统商业软件套件,搭载在高性能专属架构中运行,主要存在目的是“规避风险”)相比,本架构需要不断试错能力的支撑,通常使用开源软件框架,搭载在扁平的标准基础架构中运行。

▷  RT-Brain2.0架构特性:

1)   一体化管理平台;

2)   异构硬件资源的统一管理;

3)   资源池化、标准化;

4)   微服务架构及容器化管理;

5)   智能的超参搜索算法;

6)   多租户、容量和配额管理;

7)   完全开源、标准API接口(符合OpenAPI 3.0标准)。

 

◇  丰富的产品线

主要介绍这次RT-Brain 2.0中针对RT-Brain 1.0功能完善了的产品,原RT-Brain 1.0已有功能不再赘述

 

▷   资源中心

RT-Brain资源中心以docker容器为核心,辅以用户管理、容器资源管理,作业管理,用户存储管理、镜像管理和系统监控六个功能模块,构建出以“用户申请容器,在容器内进行开发工作,将配置好的环境和开发好的程序提交为镜像,使用提交的镜像发布作业,保存作业数据”为主线的工作流程,以容器化的形式让管理员更好的管理集群资源,让企业更充分地利用GPU集群资源。

 

•  资源总览

监控系统资源,从资源池、物理节点和用户三个维度查看租户所拥有的资源总量和剩余资源,目的在于方便完成容器资源的申请以及提交任务时的资源申请,显示容器资源列表以及任务列表以让用户对自己的资源和列表有一个大致的了解。

 

•  资源(申请/审核/释放)

RT-Brain平台把很多分散的物理计算资源抽象成一个巨大的资源池,它利用这些资源来帮助用户执行计算任务。对于用户来说,操作一个分散的集群资源可以像使用一台计算机一样简单。系统使用微服务和容器化管理作为集群的基础,在启动时,可以对该应用使用的资源进行分配,包括CPU、内存、磁盘、GPU等。普通用户可以申请资源,释放资源,系统管理员或租户可以审核和释放资源。

 

•  主机

基于开放成熟的X86和docker管理技术,构建高可靠、高可用的虚拟机资源,兼容其他虚拟化技术,提供裸机资源池服务。管理云主机申请、释放,监测主机资源的实时使用情况。

•  镜像

使用Docker 进行应用镜像的管理,镜像中心主要存储RT-Brain相关镜像和用户自己提交的镜像,用户可以构建针对自己应用的镜像环境,以用于创建大型训练任务。

在RT-Brain2.0中,每一个深度学习框架环境为一个独立的镜像,使用不同深度学习框架镜像运行对应的容器副本,之后与master镜像进行交互完成应用的调用,以完成各个深度学习框架的训练,识别等操作。如此修改之后各个深度学习框架存在于独立的镜像当中,不存在兼容性问题,需要进行升级时也只需升级对应的镜像即可,同时单个镜像的体积不会过大,用户可以根据需求选择对应的深度学习框架镜像。镜像管理包括对公有镜像和私有镜像的管理两部分。

•  任务

用户UI 提交任务参数,使用成熟的调度框架来调度用户作业,为运算程序提供服务器运算资源,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。slurm 来调度高性能计算应用,不让任务排队成为难题。

展示任务的基础信息,配置信息还有日志信息,同时也展示任务占用的资源情况,处理器、内存的动态使用情况。

•  存储

采用可扩展的分布式网络存储系统,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。在一些拥有几万人的企业,或者整个互联网用户,分布式存储的自动化管理是极为重要。

按照需求构建标准池化的存储池,云平台提供可靠的块、文件、对象等存储服务。通过存储分级,满足热数据、温数据、冷数据等不同SLA 等级业务需求适配和调度。云平台提供可靠的块、文件、对象等存储服务。通过存储分级,满足热数据、温数据、冷数据等不同SLA 等级业务需求适配和调度。文件资源管理式的界面,便于浏览用户存储空间的数据,上传数据,并提供训练结果数据的下载。

•  用户管理

系统提供系统管理员管理租户,租户管理员管理普通用户的二级用户管理机制,需要对用户和租户资源和任务实现关联,方便资源管理和任务管理中的筛选。

 

◇  智能管家

智能管家能够应付各种复杂的异构环境,实现了RT-Brain的自动化部署及版本升级功能。为用户节约大量人力成本且大大缩短了平台的部署时间,是一款高附加值产品。其次可以用来监控系统性能和管理集群内各容器的部署和使用,管理集群内各种资源的状态,如:CPU 、内存、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

 

◇   产品解决方案

RT-Brain 2.0适合对服务器有严格要求的政府、国有企业、军工、医疗、金融、大型企业、高校等用户,也适合对内存和硬盘扩展、网络I/O能力有很高要求的2D/3D和CAD应用,天体物理,化学,云和虚拟化,深度学习等。其设计更是完美展现了高效、可靠、智能、高扩展特性,适用于在深度学习领域内的训练,识别,应用等多种应用场景。

▷  针对AI领域的具体分析:

▪  AI领域对于传统环境的云化已被验证可行,能够有效应对传统应用上云的诉求,并且获得一定的收益;

▪ AI领域,尤其是负载波动巨大的,可以考虑引入互联网架构,实现AI架构双态化;

▪ 存储虚拟化、分布式存储、软件定义存储等技术逐步成熟,存储资源池可以与计算资源池建设并行,进一步提高软件定义能力。