IBM Spectrum LSF助力顶级大学,释放高性能计算之美

  IBM Spectrum LSF使顶尖大学能够释放高性能计算的美妙

  【技术新闻】12月20日消息,南京虎虎居,紫金顶级。作为中国三大研究中心之一,这里聚集了大量的科研机构。只有高校,比如南京有54所高校,70多万大学生,每百万人口的大学生超过1100人,在全国排名第一。数值模拟,理论分析和科学实验成为当代科学研究的三大支柱。其中,数值模拟在很大程度上依赖于高性能计算。随着国内大学的研究工作越来越多,对复杂计算的需求越来越大。过去只有少数科研院所的高性能系统已经成为许多高校必不可少的“基础设施”。 2009年,南京大学为大气,地球科学,天文学,数学,物理学,化学和生物学等领域需要高计算能力的学科建立了高性能系统。系统峰值计算性能达到每秒34万亿次,居全国高校首位,全国高性能计算机排行榜前100名也位列第七位,极大地支持了南京大学各学科的应用。然而,随着时间的推移,面对越来越多的功课要求,高性能服务器原来的集群逐渐动摇,无法满足学校的日常使用。 2015年,南京大学高性能计算中心的扩建再次提上议事日程。软硬结合多年来并不疲惫,高性能的系统建设一般由大量高性能x86服务器进行集群化,高速网络连接,系统的计算性能可以突飞猛进。在原有的基础上,南京大学高性能计算中心得到了全面升级:集群高性能服务器数量达到900多个,系统规模由原来的402个节点提升到910个,存储容量也从之前的128TB SAN加上54TB的并行存储,高达2PB的高性能存储加上超过1.2PB的分布式存储,到目前为止,南京大学高性能计算中心改造项目已经完成结束并正式投入使用,与前一期相比,二阶系统的峰值可达873.6万亿次,相当于f的25倍第一时期。目前,南京大学高性能计算中心在硬件配置方面已达到世界领先水平,极大地支持了高校各学科的科研工作。在这里,这个故事似乎已经结束了。其实以上只是表面,官方章节才刚刚开始。很多人不知道,在南大高性能计算中心的新系统背景下,一个来自软件的全能力量起到了不可替代的作用,这就是IBM Spectrum LSF,它的主要作用是硬件计算资源的统一调度和管理。 (注:IBM不仅在管理软件和高性能并行存储方面扩大了其在南京大学的高性能计算中心)。当我们的系统中只有少量的服务器和用户时,存储压力不大,基本可以保证各个用户的需求。但是,在高性能计算系统中,每天7×24小时只是最基本的要求。它面临着繁重的任务,给存储系统带来很大的压力。我们知道南京大学的集群中有多达900台服务器。与此同时,可能有数百名科学家使用它。成千上万个作业运行在高性能系统上,读写操作经常需要例外。想象一下,如果你不能排队工作有效的调度,这套高性能的国内系统可以发挥一些高性能?当然南京大学高性能计算中心也不会犯这样的错误。原因是这个软件在以前的学校系统中使用,取得了很好的效果。事实上,由于IBM Spectrum LSF的集中调度和对旧系统潜力的深入探索,南京大学不同学科的高性能计算需求长期以来一直受到严重破坏,对IBM Spectrum LSF的需求在学校正式启动HPC扩展后立即得到了认可,“我喜欢你的过去,我期待着你的未来”,也许这就是心态?只有这一次,调度资源统一管理IBM Spectrum LSF产品是一套行业领先的系统管理和部署集成软件,拥有世界500强用户的60%,在各种行业和市场中占有一席之地和第二全球。该产品系列使硬件和软件资源共享调度,所有资源可以有效地结合在一起,并按照预定义的调度策略进行统一管理。 HPC的本质是最大限度地利用硬件和软件资源。 IBM Spectrum LSF以极高的效率解决了所有HPC系统的核心挑战。难怪它包括了世界500强顶级企业在内的各种机构,包括青睐。以南京大学为例。对于一个严密的计算中心来说,保留近千台全天候运行的服务器几乎是过去“不可能完成的任务”,即使难以到达的第三方服务也很难实现。 IBM Spectrum LSF可以对计算资源进行统一管理。那是什么意思?通过将LSF驻留在运行过程中的硬件资源集中在一起,实现统一的平台级别的监控和管理。从用户的角度来看,他们看不到大量的服务器,而“一台”机器的管理难度和相应的工作量已经大大降低,在此基础上,根据不同的调度策略和不同的排队机制,产品可以同时完成更多的任务,对于要求苛刻的分布式HPC环境,它提供了一套全面的策略驱动的智能调度功能,使用户能够充分利用计算资源,并确保最佳的应用性能。南京大学高性能计算中心的管理和调度也希望找到一些平衡 - 比如说,每个用户都希望自己的资源具有最高的优先级 - 问题是这是不可能的,但是计算中心必须找到一些为什么您的资源很慢且排队,IBM Spectrum LSF可以提供帮助。IBM Spectrum LSF为异构环境提供支持包括SMP,集群,独立混合平台,统一管理和调度小型机,x86,胖节点,图形工作站等。这就意味着南京大学高性能计算中心过去,各种设备不必成功退休,他们可以在新的建筑系统中完全恢复活力。另外,IBM Spectrum LSF的可扩展性可以被描述为一个广阔的范围:单个集群支持5000个节点,高达100000个核心扩展和50000个等待在线作业。从这个角度看,该系统为南京大学高性能中心的未来升级留下了充足的空间。软件驱动的未来对于南京大学的许多要求,IBM为学校的高性能计算中心提供了一整套以存储和管理为重点的软件定义解决方案。在存储方面,IBM提供基于IBM Spectrum Scale的全功能ESS高性能存储,基于SDS,可实现容量和性能独立按需扩展,从而避免容量或性能浪费,并扩展存储服务接口独立。 IBM Spectrum Scale是与硬件分离的存储虚拟化软件,允许用户根据自己的应用需求选择合适的硬件:灵活性,通用硬件和以性能为核心的硬件。通过使用软件RAID实现软件和硬件的结合,即使部分磁盘损坏,也不会影响读写性能,故障硬盘可以在几分钟内恢复。试想一下,如果南京大学900多台服务器上有900多台服务器出现故障,并且由于IBM Spectrum LSF支持,系统能够继续运行,相反,如果所有的服务器都是好的,那么存储文件系统就会失败。在管理软件方面,IBM提供了IBM Spectrum LSF,该产品的最新版本是10,目前运行在世界上绝大多数的超级计算机中心,包括研发机构,航空航天,制造和制造企业。 IBM Spectrum LSF是将数百台机器作为一个单元进行管理的核心。它还可以将失败的节点任务移动到其他节点,并在调度良好的情况下提高高性能计算的效率。 IBM Spectrum Scale支持广泛的部署选项,并与现有块存储,存储服务器(Elastic Storage Server,ESS)硬件节点集成,提供全局命名空间和统一访问接口。 IBM Spectrum LSF 10从9个版本升级到10个版本,看起来只是该版本的每日更新,实际上比同一硬件系统的前一版本性能提高了5倍,比当前的开放源代码版本高出150倍。换句话说,IBM Spectrum LSF可以在一个小时之内安排工作,开源软件需要150个小时才能完成。与其他领域相比,大学的超级计算机可能不是很复杂,但从应用的角度来看,可能会超越许多超级要求较高的行业。以南京大学为例。高性能计算中心运行着大量的国家级科学和工程项目。与此同时,有数百个应用程序和项目可能跨多个学科支持。所以南京大学对平台的成熟度有很高的要求。 IBM相关方案拥有业界最深的应用基础,其中包括在许多行业,包括研究中使用最为广泛,技术领先和成熟度毋庸置疑。对于用户的各种趋势要求,IBM将永远是第一次准备就绪,比如最新的人工智能和认知计算,IBM Spectrum LSF产品族都是预制的 - 这是它百年来常青的重要原因之一。在IBM创新产品和解决方案的支持下,南京大学继续向“创建世界一流大学的责任与使命”迈进。