高端访谈 > 正文
没有靠谱存储,哪来高性能计算?
2021/7/8 10:18   希捷      关键字:存储 高性能计算      浏览量:
在周会群看来,高性能存储支撑的并行文件系统,本来就是超算集群的重要组成部分。伴随着大数据应用的普及,高性能计算存储的重要性也在不断提升。其实早在多年前,科学研究中的数据分析就扮演了重要的角色,许多数据处理或者模型反演事实上就是大数据应用的表现,而如今的大数据应用如果借助于超算平台也会有更快的运行速度和更好的处理效率。
  最近,第57届超算TOP500榜单发布,让高性能计算再次进入了大众视野。
  但细心的网友们发现,整个TOP500榜单表格中并没有单独的存储性能介绍,这似乎并不符合大数据如今的“江湖地位”。要知道,即便超级计算机的计算能力再强,即便有上百个核心,但每个核心在执行一个线程的都是外部IO进行访问,而存储设备的性能则会直接影响到这个访问进程的运行效率,读写速度也直接影响到了进程速度。
  换句话说,如果存储性能太慢,所有的核心都会停下来等待读写进程的完成,只有完成了才能进行后续的应用。这也就意味着,高带宽存储可以为超算性能提供更快的运行速度;而带宽越低,超算的性能越难发挥,延迟越高,运行速度越慢。从这个角度来说,存储则是超算系统的关键组成部件。

  “很多人都忽略了这个问题”,周会群说。作为南京信易达计算技术有限公司的首席科学家,周会群从事高性能计算应用研究多年,曾任南京大学地球科学与工程学院教授、江苏省高性能计算学会会长等职务,1992年获国务院特殊津贴,是业内当之无愧的顶尖专家,从理论到应用都能谈得头头是道,说起存储技术更是如数家珍。也正因为如此,周会群非常重视软件系统对于存储设备的作用,而信易达本身就是希望通过软件解决方案为存储应用提供全新的支撑。
  在周会群看来,高性能存储支撑的并行文件系统,本来就是超算集群的重要组成部分。伴随着大数据应用的普及,高性能计算存储的重要性也在不断提升。其实早在多年前,科学研究中的数据分析就扮演了重要的角色,许多数据处理或者模型反演事实上就是大数据应用的表现,而如今的大数据应用如果借助于超算平台也会有更快的运行速度和更好的处理效率。
  不过他也同时表示,由于高性能对于算力需求的特殊性,许多应用都希望将算力发挥到最大,这样自然也对存储系统产生了巨大的压力。正如我们在最初描述存储重要性时谈到的,存储的速度越快,超算的运行速度就越快,因此如果想要达到最大的性能,除了发挥系统本身的算力之外,还需要一款高效、稳定、可靠的存储系统,尤其是海量存储系统。这时,周会群将眼光落在了希捷Exos AP 4U100平台上来。

  Exos AP 4U100是希捷推出的在单个系统中拥有最高的计算和存储密度的应用与存储融合平台,也是一款具备高可靠、高可用和强大IO吞吐能力的产品。就结构设计来说,它在4U高度的空间内,提供了最大96块3.5英寸硬盘和4 块 2.5英寸硬盘的支持,并采用了2个12G SAS IO控制器实现冗余,提高数据吞吐量。这也开创了当下4U空间内大数据系统设计的先河,在双路英特尔至强可扩展处理的支持下,无论是在TCO能耗还是超高密度上都属于业内领先的水平。
  “我们的解决方案需要存储设备具备高性能、高可靠、高可用的特性,而希捷的产品无论是从硬盘、JBOD还是都符合我们的需求,与我们有很高的契合度”,周会群介绍说。也正因为如此,在存储领域复杂的产品形态和品牌竞争中,他选择了Exos AP 4U100这款产品部署信易达的高性能存储解决方案,也是看重了产品本身高带宽、高IOPS的特性所在。
  “我们的解决方案不仅仅包括存储,也支持x86和鲲鹏等多元化架构,包括对于以太网、光纤、InfiniBand等规格网络接口的支持,形成了一个超算所需要的存储集群”。换句话说,Exos AP 4U100存储在这套解决方案中起到了核心作用,通过Exos AP 4U100可以实现对于计算、存储、互联等多种功能的支撑,也是组建超算集群必不可少的设备。
  对于如此重要的设备,信易达同样也对系统性能进行了深度测试。测试采用双机互备直连的方式进行,软件FIO测试结果显示,磁盘的平均读取带宽为232MB/S,写入带宽为274MB/S;而在另一项网络相关测试中,配置40颗HDD的系统网络吞吐性能分别为5954MB/S和5977MB/S,考虑到采用的是InfiniBand FDR 56GB/s网络,这样的成绩已经非常不错。
  如此也印证了周会群对于解决方案“高性能”的需求。当然如果对于那些对于带宽、延迟敏感的用户,信易达也可以提供基于闪存架构的解决方案,但是这与希捷的这款平台并不矛盾——“我们考虑多样性,也就是说不管我们自己设计者怎么想我们这个系统,但是首先很重要的是用户需要什么”。
  “从用户出发”是信易达公司多年来服务的宗旨,也正因为如此它也获得了众多用户的信赖和支持。如今,信易达提供的解决方案已经广泛应用在教育、科研、政务、医疗等多个领域和场景中——
  在教育领域中,南京大学、南京信息工程大学、南京邮电大学等高校的院校级超算平台,已经将信易达的解决方案应用于并行文件存储;
  在科研领域中,紫金山天文台采用信易达的HPC监控软件进行天体物理相关的研究,从而实现运维管理标准化;
  在政务领域中,南京市检察院、郑州财政局等政企单位也应用了信易达高性能、高可控存储平台以支撑核心应用数据库;
  除此之外,贵州公路系统也采用了相关的解决方案存储视频监控数据;
  这同时也证明了信易达的高可靠性与高安全性,毕竟无论是科研还是政务,对于数据安全都非常重视。而为了实现数据安全,信易达也在系统架构中实现了深层的数据加密系统,比如某些数据只能通过密码的方式进行调阅,对方可以查看但是不能拷贝数据,这样就兼顾了数据的利用与安全,也得到了用户的高度称赞。
  “用户最终最看重的是服务能力”,周会群表示,而这个服务能力一方面考察的是信易达在技术层面的积累、团队的凝聚力等因素,另一方面也得益于底层基础设施的配合。在希捷Exos AP 4U100平台的支持下,用户只要通过系统界面就能观测到设备的运行状况,并且能够在第一时间得到故障报警;而面向大数据的未来,希捷也提供了包括热辅助磁记录(HAMR)技术和双磁臂技术(MACH.2)等多种“黑科技”,努力打造新一代高性能、大容量硬盘和系统级解决方案,助力更多企业迎接数字化挑战。
  后记:以往,当我们提到超算或者高性能计算概念的时候,许多人第一时间关注的就是“计算”本身。但是通过对于信易达公司、对于周会群本人的采访,我们更认识到存储在超算系统中的重要性——如果说计算是系统发展推动力的话,那么存储更多则是起到了“承载”的作用,一方面计算的结果需要储存起来,另一方面存储也负责将这些结果通过网络系统“传递”到其他的设备或集群中,实现数据的协同与备份,这样才能为高性能计算乃至AI计算提供更多保障。
  得益于希捷Exos AP 4U100平台级解决方案,越来越多的科研、政务、医疗等客户感受到了数据的价值,也通过数据实现了业务驱动,屹立在数字化转型的潮头。
  附:周会群老师访谈核心内容实录
  问:关于南京信易达计算技术有限公司
  周会群:信易达公司主要从事软件的开发,开发的产品主要是围绕高性能的存储和高性能计算的一体化解决方案。从目前来讲,我们有适用于x86和鲲鹏的专用操作系统,还有在这两个处理器平台上的超算运维管理软件,以及适配若干重要领域的高性能计算容器,为了云上的超算应用作准备。
  问:为什么选择希捷存储?
  周会群:从我们的研发来讲,从高度可靠性、安全性出发,我们是基于自己研发的小型化的内核做出操作系统,所以我们强调的是高性能、高可靠、高可用。从希捷的JBOD或者是AP系列设备,我们看到这三点,就是高性能、高可靠、高可用。所以说在这一点上我们非常契合了。而且我们也看到因为希捷几十年专注于存储,是大家很熟悉的,专业做存储的企业。
  我们认可希捷品牌,还有它的技术能力给我们带来的可靠性和高性能。我们前端的控制机头直接用希捷 AP系列的控制器,可以形成非常高性能的存储,能够充分的满足我们支撑具有高带宽或者高IOPS的应用场景。
  问:存储对于高性能计算的影响有多大?
  周会群:这个问题问得非常好,这个其实是很多人可能比较忽略的问题。
  其实超算就是大规模并行计算,也就是说在一个计算任务当中,你可能会用到几十、几百甚至上千计算服务器,每一个计算服务器里面至少有两个CPU,每一个CPU可能有几十个核。打个比方说现在鲲鹏就是ARM的平台上最多的1个CPU已经可以有64个核,一台服务器就128个核,那么每一个核都会是一个线程。每一个这样的线程或者进程,它都会有输入输出,那么就要去访问后端的存储。
  但是我们知道无论是x86还是ARM处理器去访问外部设备的时候,处理器要产生中断。产生中断是什么意思?就是说我得等着系统把外部访问设备的任务完成了以后,处理器才能接着去做其他事。那么这样一来在一个大型的超算集群里边,如果输入输出太慢了,那么它就会大大的降低集群的性能。因为什么?因为输入输出太慢了,所有的计算服务器,凡是在做输入输出的那些服务器,都要在等待任务处理结束,才能继续算下去。
  这就是为什么从30年前超算集群刚刚兴起的时候,并行文件系统、并行存储就出现了,原因就在于输入输出太慢了,计算也会很慢,所以说存储的性能,存储能达到的高带宽是整个超算中心非常关键的一个组成部分。
  问:目前有哪些客户在采用信易达的解决方案?
  周会群:我们的存储解决方案在南京大学、南京信息工程大学、南京邮电大学等高校的院系或校级超算中心都有应用。紫金山天文台也在用我们的HPC监控软件,从而实现运维管理标准化。
  在其他领域,我们存储因为高可靠、高可用、高性能,被诸多用户采纳。南京检察院、郑州财政局将其用于支持核心应用数据库;贵州公路系统等机构也用了我们的存储方案。

微信扫描二维码,关注公众号。