前言
融科联创Super-AI,是基于NVIDIA高性能GPU计算硬件平台,将NVIDIA专有Docker和SDK以及融科人工智能管理平台集于一体,构建出的一套专为人工智能分析打造的深度学习解决方案。能够快速进行AI深度学习训练,并实现AI计算资源的高效管理,特别适用于人工智能、深度学习领域的应用。
1 项目背景
某985高校人工智能与机器人实验室,是机器人大学生创新基地,专注于人工智能及智能机器人的研发。随着人工智能的兴起,实验室设备数量日益增多,但资源利用率不足的问题也日趋严峻。
先后出现学生基础薄弱且开发环境搭建费时费力;学生抢占资源,计算效率低且无法进行调优;小规模机器计算性能低且耗费时间太长等问题。
【高校人工智能实验室】
2 客户需求
面对校内老师和学生的AI计算资源使用需求,解决方案需要能够支持200个以上的用户端。同时还需满足部分用户进行图形视频处理的高强度计算需求。
在管理端,需要支持灵活的用户管理和计算资源分配、回收以及任务调度等管理功能。在用户端,能够预置常用深度学习框架,以及支持模板定制等功能。
同时,在硬件方面还要求能够支持GPU资源的横向扩展、支持单GPU卡的资源分配、以及支持挂载外加存储。当然还有硬件本身稳健强劲的性能和较高的性价比。
☆ 支持200个以上的用户端
☆ 支持多用户端高强度AI计算需求
☆ 用户端支持模板定制
☆ 用户端可以应用常用深度学习框架
☆ 管理端支持灵活的用户和计算资源管理
☆ 支持计算资源的分配、回收以及任务调度
☆ GPU资源横向扩展
☆ 支持单GPU卡资源分配
☆ 支持挂载外加存储
☆ …………
可见,用户的需求,不仅仅是具有强劲AI计算能力的服务器硬件,同时还需要能够方便快捷高效地分配、回收、调度这些计算资源的管理软件。
因此,一套能够实现多用户使用的、又便于灵活管理的AI计算解决方案,才是用户的真正需求。
3 解决方案
融科在多年的客户服务实践中,在优质的硬件产品的基础上,针对人工智能、云计算、大数据、物联网四大领域推出了优化的产品解决方案。
根据客户的需求,并结合客户的实际应用场景,我们为客户使用了融科联创针对人工智能领域所推出的Super-AI深度学习解决方案。
【Super-AI深度学习解决方案】
融科联创Super-AI是底层基于NVIDIA高性能GPU计算硬件平台,将NVIDIA专有Docker和SDK以及融科人工智能管理平台集于一体,构建出的一套专为人工智能分析打造的深度学习方案。
Super-AI整合物理服务器、传统存储、分布式存储以及网络资源,形成了端到端的软件定义能力,并且以服务的形式对外提供。在基础上增加了分布式架构,提供容器,并进一步提升了软件定义能力,实现按需扩展。
【Super-AI解决方案架构图】
同时,Super-AI资源中心以docker容器为核心,辅以用户管理、容器资源管理,作业管理,用户存储管理、镜像管理和系统监控六个功能模块,构建出以用户申请容器进行开发工作,实现计算、存储和网络的统一管理。
【Super-AI资源管理中心】
在服务器硬件方面,我们采用了RW-4029GP-TRT2,它作为融科面向AI领域的经典GPU服务器产品,能够为客户轻松构建稳健可靠的AI运算平台,单节点最高支持10GPU,是帮助Super-AI展现AI技术实力的强力支撑。
【融科AI经典:RW-4029GP-TRT2】
4 方案优势
在存储层,Super-AI针对深度学习优化且完美支持NVMe、RDMA技术的高带宽低延时混闪存储,大幅度提升深度学习中小文件性能和提升训练速度,同时支持前端高并发计算任务。
在计算资源层,Super-AI使用优化的单根服务器架构;单节点最高支持10个高性能GPU计算单元、56个CPU计算核心以及6TB高速内存;模块冗余2+2钛金级高效能电源,80PLUS国际认证,转换效率高达96%。
在虚拟化和管理层,Super-AI通过Docker引擎实现计算、存储的虚拟化,为用户提供相互隔离的环境;应用部署简单,支持到秒级部署;实现GPU资源的单卡多用,多卡一用等应用模式,提升GPU等计算资源的使用效率,提供docker虚拟环境管理平台。
在软件资源层,Super-AI集成了Caffe、Torch、TensorFlow、Theano、Pytorch等常用深度学习框架,以及Mnist、MS-COCO、ImageNet等常用深度学习数据集等。
【Super-AI解决方案层级图】
我们将Super-AI深度学习解决方案成功应用于此高校人工智能实验室,让老师学生的多用户AI资源使用和管理变得轻松顺畅,很好的满足了实验室的使用需求。
★ 提供RDMA、分布式存储等技术;
★ 让多台机器并行计算,大大提高运算效率;
★ 集成开发环境,大大降低对用户技术门槛;
★ 对资源进行全面监控,随时获知资源剩余量;
★ 三种权限进行资源分配,防止学生抢占资源;
Super-AI深度学习解决方案作为融科面向人工智能领域推出的经典方案,以其稳健强劲的硬件性能,以及灵活高效的资源管理能力,得到了客户的一致认可和好评。
5 总结
融科联创Super-AI,是基于NVIDIA高性能GPU计算硬件平台,将NVIDIA专有Docker和SDK以及融科人工智能管理平台集于一体,构建出的一套专为人工智能分析打造的深度学习解决方案。能够快速进行AI深度学习训练,并实现AI计算资源的高效管理,特别适用于人工智能、深度学习领域的应用。