【RC9000分布式存储】助力科研大数据分析!

前言

融科联创RC9000分布式存储系统,为实验科研所产生的海量大数据提供了稳定、高效、共享的数据支持能力,为生物分子学研究工作提供了稳定的存储服务和支撑,不断帮助高等院校和科研院所取得新的研究进展,为我们国家乃至全人类的进步造福!

1 项目背景

人类基因组计划的完成,标志着科学已进入后基因组时代。此时人类面临一个挑战,就是进一步解析基因产物-蛋白质的空间结构,建立结构基因组学,并且阐明由这些生物大分子和复合物所行使的生物学功能。

冷冻电镜技术,是目前研究生物分子结构的典型技术。冷冻系统维持样品的低温状态,电镜系统对样品进行观察,并对样品进行多维结构的电子信息采集。后期在软件的帮助下,对采集数据进行分析拼合,重现生物分子或细胞的三维结构。

某名牌大学生物系,通过冷冻电镜技术进行分子及细胞结构的研究,每天都会产生大量的高分辨率图像及附属数据。前期数据量较少,数据会存储在每台数据分析服务器和一台传统的存储设备内。

后期数据量越来越大,前期设备便无法满足存储容量需求,同时因为传统存储不能很好的满足高带宽和多客户端数据共享的要求,实验室急需扩展一套大容量、高带宽、可共享、易管理的存储系统,以保障后续研究工作的顺利进行。

2 客户需求

☆ 需要一个可共享的存储系统,支持数台数据分析设备存取数据;
☆ 需要提供全局管理平台,实现存储容量灵活分配、实时监控系统状态、提供读写性能曲线、硬件状态等信息,提供故障预警,确保存储数据的安全;
☆ 存储容量需求约800TB;
☆ 存储分为热数据区域和冷数据区域,以应对不同任务的调用需求;
☆ 存储总带宽要求为9GB/s;
☆ 采用冗余存储架构,实现系统内节点冗余,单台设备故障不再影响整体存储的使用,保障数据安全,保障数据处理过程不中断;
☆ 系统通过IB网络和前段计算节点互联,构建IB环境下的HPC环境,实现数据的高效存取;
☆ 整体存储系统要具备较高的性价比。

3 解决方案

根据用户需求,结合用户实际应用场景,我们推荐采用了融科联创RC9000分布式存储系统,为客户构建海量、高效、且可扩展的分布式存储系统。

RC9000分布式存储系统采用稳定高性能的基础硬件,并配合100Gb的高速Infiniband网络,具有丰富的协议支持能力、强大的横向扩展能力和超高的吞吐能力,可为用户提供高性能、动态、高扩展性的存储服务。在满足当前高读写性能要求的前提下,可随着业务的发展,快速实现容量和性能的后续扩展,大大简化系统规划难度、降低前期投入。

【融科联创RC9000分布式存储节点】

本次RC9000分布式存储系统搭建,将采用4个存储节点搭建存储集群,每个节点按比例配置了SSD卷和HDD卷,SSD卷用于存储中间热数据;HDD卷用于存储最终结果数据,实现数据冷热分层和调用。业务端数据分析设备和存储系统间采用了通过100Gb的Infiniband网络连接到分布式存储系统,可实现基于RDMA协议的高带宽、低延迟访问能力。

【融科联创RC9000分布式存储拓扑图】

4 方案优势

1. 卓越的性能
RC9000分布式存储系统,提供分布式的文件读写和共享服务;本次配置的集群实现了9GB/s的读写带宽性能,而且未来可通过集群扩展,提供更高的带宽;支持万兆网卡及Infiniband网络,通过RDMA优化并发读写性能。

2. 弹性的可扩展存储架构
采用完全去中心化的的分布式存储架构,无独立元数据服务器设计,消除元数据信息交互瓶颈;动态扩展,快速在线增删节点,最高可实现512个节点集群,可管理近100PB的海量数据,并以全局命名空间的形态实现存储资源的呈现,为客户端提供统一的逻辑视图和资源访问入口。

3. 极高的可靠性与可用性
分布式集群架构,全活冗余节点,节点故障后可在数秒内实现故障接管;实时一致的数据副本及智能自修复机制;可选采用纠删码保护,提升容量利用率。整个集群存储具有数据的可靠性、可恢复性和存储服务的高可用性,可有效支持业务的连续性。

【融科联创RC9000分布式存储整机柜】

5 应用效果

融科联创RC9000分布式存储系统上线以来,得到了客户的一致好评,圆满地满足了客户对存储的升级需求:

★ 提供一套可为多台计算节点提供共享数据的存储系统。
★ 提供一套整体存储管理平台,提供共享数据空间和私密存储空间,满足不同业务的需求。实现了存储容量按需灵活分配,并提供了实时的系统状态监控、读写性能曲线、硬件状态监控等界面,★ 提供直达底层的故障预警,保障了数据安全和应用的稳定运行。
★ 提供了800TB的统一命名的存储空间,并实现冷热数据的分层存储,适应了不同应用任务对不同数据的调用要求。
★ 采用了分布式存储架构,支持高HA,确保整体系统的稳定性和安全性。
★ 引入高速Infiniband网络,4个节点即实现高达9Gb/s的读写带宽,很好地保障了多台分析计算设备对数据存取的高带宽要求。

【高达9GB/s的读写带宽】

6 总结

融科联创RC9000分布式存储系统,为实验科研所产生的海量大数据提供了稳定、高效、共享的数据支持能力,为生物分子学研究工作提供了稳定的存储服务和支撑,不断帮助高等院校和科研院所取得新的研究进展,为我们国家乃至全人类的进步造福!