在2020 年中国高性能计算机性能 TOP100 的排行榜中,部署在国家超算中心(无锡)的「神威 · 太湖之光」依然稳居第一,国家超算中心(广州)的「天河二号升级系统」位列第二,而荣登榜眼的,却是此前名不见经传的北京超级云计算中心 A 分区。
这一排名,让许多此前并不知道北京超级云计算中心的朋友大吃一惊:「超级云计算」是什么?北京超级云计算中心的「A 分区」究竟实力何在?
尽管大家对A 分区的研制厂商戴尔(DELL)多有耳闻,但对 A 分区所部署的北京超级云计算中心却几乎一无所知,顾名思义,更容易将其与国家超算中心混淆。
这座超算中心成立于2011 年,虽由中国科学院计算机网络信息中心孵化、北京怀柔区政府支持成立,但却不在国家的8 个超算中心之列。
众所周知,我国第一个国家超算中心成立于2009 年,由天津滨海新区与国防科技大学合作共建,斥资6 亿。此后,国家又陆续在多个东部城市建立了超算中心:济南、深圳、广州、长沙、无锡、郑州、昆山……
其「政府+ 高校」的合作模式虽与国家超算相似,但自创立之初,北京超级云计算中心的核心理念便注定了它的不同。
从2011 年到2020 年,北京超级云计算中心何以从一个籍籍无名的超算中心,成为跻身于中国高性能计算机 TOP100 榜单一员、并仅次于两个国家超算中心的明星超算呢?
在中国高性能计算盛会CCF HPC China2021 中,我们有幸采访了北京超级云计算中心的 CTO 郭宇,与他一同探究该中心的「成名之道」。
从建设的模式来看,北京超级云计算中心与国家超算中心有许多不同之处,其中,最大的不同便是:国家超算中心注重科研支持,而北京超级云计算中心的核心理念是超算商业化。
按照郭宇的话说,是「像设计产品一样设计超算。」
被誉为「国之重器」的超级计算机,向来是大国之间的必争之地。长久以来,这也形成了国家超算独当一面、民间超算不为人知的局面。然而,任一行业的发展,必然是多方力量的融合与交汇,百花齐放,从而共同推进领域的前进。
那么,在中国的超算领域内,北京超级云计算中心的位置在哪里?优势是什么?
1
超算市场的形成
回顾2011 年北京超级云计算中心的成立节点,除了两个国家超算中心(天津与济南)的成立所带来的信号,超算市场的爆发早在过去的五年便有了行业的铺垫与基础:
2005 年以前,CPU 处理器处于「单核时代」,一个 CPU 只有一个核心。如果一台服务器上有两个 CPU,那么,搭建一个1024 核的 CPU 则需要512 个节点,12 个机柜,因为一个机柜最多只能装 40 个节点。而每个机柜的宽度为60 公分,12 个机柜则是7.2 米,相当于一个普通教室的宽度。
但从2006 年开始,CPU 处理器开始进入了「双核」、并逐步拓展到「多核」时代。双核处理器的出现,基于 x86 的计算架构,英特尔与 AMD 在 CPU 服务器市场中的主导地位也就此形成:
2006 年年中,AMD 率先推出 AM2 平台。两个月后,英特尔发布 Conroe,性能直接提高40%,与此同时,功耗也降低了40%。但英特尔并不「就此罢休」,同年11 月又直接推出全新的四核处理器 Kentsfield,直接把 CPU 推进了「多核时代」。
与单核的CPU 相比,多核 CPU 的并行处理能力更强、计算密度也更高,并大大减少了散热与功耗。后来,CPU 出现了8 核、12 核、16 核……目前一个 CPU 最高已能达到64 核。对于许多关注高性能计算的行业从事人员来说,他们认为,多核 CPU 必然会带来计算与任务的并行化,也就是说,超算市场在未来会迎来爆发。
因此,回顾超算市场的发展历史,在CPU 进入「多核时代」后,北京超级云计算中心的成立,是卡在了CPU算力爆发的起点。但当时,北京超级云计算中心还未正式开始商业化的探索,前期工作也主要以维护中科院计算机网络信息中心的超算集群,支持院内科研项目为主。
除了技术的加持,国家超算中心的陆续成立,也逐渐在国内孵化了一个算力的市场。
国家超算中心的建设模式是:科技部与地方政府各出一部分资金建设好国家超算中心后,在运营阶段,超算中心的部分运营费用由地方政府的财政补贴,同时,国家部委和地方政府向部分高校科研人员开放课题申请,由高校科研人员从课题经费中支出部分资金到国家超算中心去采购计算资源。
在这样的模式下,国内逐渐形成了一个商业循环的算力市场。随着国家超算中心的出现,科研院所与高校逐渐缩减自建超算的规模,增加对外部超算资源的采购。如此一来,超算市场的用户越来越多,对超算的需求也不断增加。当市场扩大到一定的程度,必然会出现分化,分为尖端超算市场、通用超算市场与行业超算市场。
对于国家超算中心来说,服务如此分化明显的市场并不是一件易事,且国家超算中心存在的目的主要是支持国家大课题(如航空、宇宙、气象等)、推进科研进步。这就造成了超算市场的服务缝隙:海量需要超算资源的小课题用户在提出需求时,并不能得到满足。
正是看到超算市场的这一缝隙,2018 年,北京超级云计算中心开始了超算商业化的探索,希望能够提供「随需扩容」的计算服务,满足尖端超算以外的大规模通用超算市场。
2
超算商业化探索
中国高性能计算机TOP100 的榜单排名由超级计算机计算能力决定,而计算能力主要由超级计算机的单节点性能与集群规模决定。
北京超级云计算A 分区的 Linpack 测试性能达3.743PFlops,计算峰值性能达7.035PFlops,CPU 核数达到192000,几乎是第四名往后的计算机的三倍及以上。
据郭宇介绍,A 分区从2019 年年底开始建设,而后在2020 年逐步扩容到3000 节点,背后的原因并不是为了争夺 TOP3,而是为了满足客户的需求。
在郭宇看来,国内的超算市场可以大致分为三类:尖端超算、通用超算与行业超算。其中,国家超算中心所服务的需求市场,便主要是尖端超算市场,满足尖端超算需求的超级计算机,以难度高、设计性能平衡为主,要兼顾计算、访存、通信与I/O 等,服务对象是国家级的科研项目,重点是出成果,而不是盈利。
而北京超级云计算中心的目标市场是通用超算,主要面向万核以下(尤其是千核以下)的应用,为需求不一的海量用户提供租赁式超算服务。对于北京超级云计算中心来说,他们的目标是超算的商业化运营,实现超算业务的盈利,反哺到中心建设的投入中,实现自给自足、灵活外延的正循环。
「让计算不排队」,是北京超级云计算中心的核心理念。
从2011 年成立至今,北京超级云计算中心经历了两个主要的阶段:
刚成立的几年,北京超级云计算中心以运营中科院体系内的超算为主,包括中科院计算机网络信息中心在2014 年推出的超级计算机「元」、2015 年的「元」二期等等。在这一阶段,北京超级云计算中心的建设模式、运营模式与国家超算中心的体系有许多相同之处。
到了2017 年,他们逐渐发现了上述所说的国家超算中心无法满足的外溢市场需求。随着国内科研发展的深入推进,高校教师对计算的需求越来越大,超算的用户类型也越来越多,应用越来越复杂,用户对计算机的服务要求也越来越高。
比方说,有些用户做计算,并不是简单地将一个程序放到超级计算机上就可以直接运行,而是需要在Linux 命令行窗口下将源代码进行编译、调优、集成甚至更复杂的适配移植,这对广大只熟悉 Windows 操作系统的用户来说过于复杂。
国家超算中心的主要任务是支持重量级的科研项目,取得出色的学术成果,如此一来,国家超算中心的计算资源自然会优先分配给重要的科研团队,这就导致了许多中小用户享受不到好的服务,出现「排队计算」的情况。
基于这一行业需求,北京超级云计算中心便思考从商业运营的角度去解决国家超算中心的这部分外溢需求,根据这部分通用超算客户需求设计超级计算机和超算服务产品,通过灵活的方式将计算资源提供给超算市场的中小微「散户」。
于是,2018 年,北京超级云计算中心发布了「中国科技云 · 超算云」,开始了超算商业化的探索征程。
他们以云服务的方式输出超算资源,注重商业化运营,遵循「随需供应」、「按需扩容」的理念,在两年间占领了一定的超算市场,赢取了客户的信任,在吸引更多中小用户的过程中对A 分区进行了扩容与提升,最终在2020 年赢得了中国高性能计算机 TOP100 排行榜的第三名。
郭宇表示:「赢得TOP3 是结果,不是目的。我们打造超算,本心是为了服务客户,获得该荣誉是锦上添花。」
相对于聚焦TOP3 的排名,郭宇更希望大家看到 A 分区背后的北京超级云计算中心及其独特的建设与运营模式。
3
关于「计算」模式的新思考
郭宇提出了一个有意思的观点:作为一种「产品」,超算的独特之处在于,在用户购买超算资源时,用户需要的并不是超级计算机,而是想要解决问题。就像人们在购买电钻时,他们想要的并不是电钻,而是电钻在墙上钻出的洞。
所以,在市场上推广计算资源时,北京超级云计算中心往往是强调「客户服务」,而不只是中心的资源情况。
从A 分区来看,我们不难发现,北京超级云计算中心与国家超算中心的模式多有不同:
首先是建设周期。国家超算中心由科技部或地方政府出资,超级计算机的项目申报需要经过层层审批,建设周期一般为3-5 年,而 A 分区由北京超级云计算中心根据市场需求决定。此外,A 分区的建设主要基于市场上已有的技术设备,减少了技术攻关的时间成本。
比如,A 分区从2019 年年底开始建设,从一个试验性的小集群到面向用户开放,2020 年年中扩容,只用了 5 周便扩容1000 个节点,后续又逐步扩容至 3000 节点。
其次是分布位置。从地图上看,我们不难发现,国家超算中心基本分布在东部城市,而北京超级云计算中心的超算则主要分布在中西部,尤其是西部。A 分区便是分布在宁夏。超算中心是「耗电大户」,从商业运营的角度看,西部的电价明显更低。
在建设A 分区的时候,国家还没有发布十四五计划,「碳达峰」与「碳中和」的概念还未兴起。郭宇谈道,从北京超级云计算中心的角度来看,他们在建设 A 分区时,主要是遵循商业运营的逻辑,而今年「双碳」热点出现后,他们意外地发现,自己的路线竟契合了国家的「双碳」战略。
「西部有风力发电、光伏发电,能源丰富,而且年平均气温比较低,十分适合计算中心的生存,所以我们将西部作为主要的节点。而且超算业务对实时通讯的需求不高,用户更关心的是产品的价格,至于机器是在本地、还是在几千公里以外的西部,他们并不关心。」郭宇解释。
北京超级云计算中心面向通用超算,用户数量大,符合长尾效应。郭宇谈道:「有这些特点的市场,是比较适合用互联网的方式去服务的。一是降低单用户的成本,二是贴身服务。」
所以,无论是计算选址的确定,还是「超算+ 云服务」的互联网运营模式,都体现了北京超级云计算中心在计算供应中注重灵活与性价比的特点。
从A 分区所搭配的 CPU 来看,也可窥见北京超级云计算中心的商业运营理念:
A 分区采用的是 AMD 在2019 年推出的第二代 EPYC(霄龙)服务级处理器,代号罗马(Rome),基于7nm 工艺,搭载64 核心128 线程,在提升核心数量的同时也提升了时钟速度,加速频率可达3.4GHz。
从计算机的角度来看,计算总共可以分为4 种类型:计算密集型、访存密集型、存储密集型(I/O 密集型)与网络通信密集型。北京超级云计算中心的主要客户是访存密集型的应用, A 分区用户的特点是:计算规模不大,价格敏感。而罗马处理器主频适中,计算性能适中,能耗低,性价比高,显然更有利于商业运营。
郭宇坦言,北京超级云计算中心的目标并不是打造出像「神威· 太湖之光」或「天河二号升级系统」这样各方面性能均衡又出色的超级计算机,而是找到自己的市场定位,为目标用户提供适合他们的超算方案。
根据处理器的类别,北京超级云计算中心的超算分区可以划分为四大系列:
基于AMD 芯片的 A 分区与 M 分区,以及 A 分区的加强版「A6 分区」
基于英特尔芯片的T 分区与 L 分区
基于国产芯片的分区
基于英伟达芯片的AI 智算云,比如 N17、N19 区
根据不同用户的需求,北京超级云计算中心设立了不同的分区去满足这些需求。比如,荣登2020 年中国高性能计算机 TOP100 榜单的 A 分区便是专门针对计算密集型与访存密集型的用户,存储性能加强的 I/O 分区专门面向 I/O 密集型用户等等。
「中国科技云· 超算云」汇聚了国家超算中心、互联网云计算中心等资源,可以为用户提供定制化的计算服务。同时,他们揭开了高性能计算的「神秘面纱」,为用户提供运行问题解答、参数配置优化、定制化脚本编写等一系列服务,更有一对一专属微信群、7 ×24 小时人工值守与5 分钟快速响应等机制。
4
自主研发离不开计算
近年来,越来越多企业高举「自主研发」的旗帜。与此同时,产品的迭代周期加快。为了快速满足市场的需求,研发人员会越来越多地利用数字化技术进行模拟仿真,其间产生大量数据,对计算的需求也会越来越多。
事实上,从2010 年以来,许多企业也陆续建立了计算中心,但他们同样面临建设周期长、内部计算资源协调难、计算排长队的现象。企业一般是基于项目的优先级进行计算资源的分配,但人工协调的效率较低,影响了研发项目的进展。
郭宇认为,随着人们对云计算优势的认识加深,云计算的市场也在不断扩大。在新基建中,「数据中心」对应的便是云计算,云计算是数字化转型的基础。同时,随着「双碳」规划的推进,碳排放指标也将成为自建超算中心发展的限制因素之一。而北京超级云计算中心在分布位置上的先见之明,无疑将在未来的逐鹿上优势渐显。
作为国内第一家成规模的、市场化运营的超算中心,北京超级云计算中心的建设模式,启示了中国超算市场的发展现状:除了国家超算中心,越来越多由地方政府支持、市场化资本创办的超算中心展示了其在推进中国超算发展上的独特优势。
比如,在2020 年中国高性能计算机 TOP100 的榜单排名上,除了北京超级云计算中心 A 分区获得佳绩,内蒙古和林格尔新区的内蒙古高性能计算公共服务平台(青城之光)位居第四。
除了尖端超算与通用超算,中国的超算市场还有一股重要的力量:公有云厂商,比如阿里云、华为云与亚马逊云(AWS)。北京超级云计算中心的另一块重要业务——行业超算,便与这股力量有所交织与重叠。
行业超算更注重实际业务,应用规模为单核到几千核不等,超算只是业务中的一环。比方说,在基因测序的过程中,基因测序仪产生大量数据,这时候,如果数据存储在云上,使用云的存储、网络与计算资源等等服务进行基因的测序与分析,那么整个业务流程就会十分流畅。
对于这类业务流程,郭宇认为,单靠通用超算是很难满足的。从北京超级云计算中心的角度来看,他们会考虑将通用超算与云厂商的云服务资源相结合。除了核心的计算业务,公有云厂商还提供丰富的云服务组件,能更好地解决用户的问题。
「对用户来说,解决问题最重要。至于计算资源来自哪里,他们并不在乎。我们就是要把各种优势的资源组合在一起,满足客户的需求。」郭宇谈道。
从2018 年至今,北京超级云计算中心已服务超过15 万用户, 已实现连续盈利。
比如,北京超级云计算中心曾支持中科院力学所研究中速磁浮列车的空气动力学外形优化设计。中速磁浮列车气动外形优化研究需要针对一系列优化外形进行数值模拟研究,对计算资源的要求较高,单工况网格量约6000 万左右,流场特性研究及外形优化研究中产生的计算工况上百计。
在这个项目中,北京超级云计算中心提供了可灵活拓展的大量计算节点,保证了多任务的提交计算。最终,他们确定的最优化流线外形,相对于原始外形,头车气动升力系数增加了33.25%,尾车气动升力系数减少了1.78%,整车气动阻力系数减小了4.44%,大幅提升了中速磁浮列车的气动性能。
「从用户的角度看,建设几千核的计算资源,先不说时间,就投资成本来讲,现在的主流服务器,一个节点大概是40 核心,如果他用的是5000 核的计算资源,那么就需要125 个节点,125 个节点大概需要投资 1200 多万,但他们的项目时长只有两个月。」郭宇介绍。
因此,从投入产出比来看,对一些短期的项目来说,直接采购计算资源显然更划算。
5
计算紧跟时代
在郭宇看来,目前国内的超算市场展示了以下三个趋势:
趋势一:国内的企业越发重视自主研发,计算需求增加,同时也越来越愿意接受云计算的模式。
趋势二:国产化的推进加深。在超算体系中,芯片、操作系统、应用等等方面的国产化趋势将越来越明显。
趋势三:计算体系架构正在革新。随着人工智能、加速计算的兴起,以异构计算、加速卡为引导的GPU 力量正在崛起。
郭宇谈起,他在2019 年去美国参加全球超级计算大会(SC19)时,席间与美国高校的老师聊天,得到的讯息便是:「在现在的环境下,如果你没有搞点 GPU 的加速计算,文章都难发。从学术的角度看,CPU 体系已经研究地差不多,下一个重点就是 GPU。」
2021 年正好是北京超级云计算中心成立的十周年。作为一家商业化运营的超算中心,郭宇介绍:「我们肯定会坚定不移地走超算商业化的道路。与此同时,他们也会与时俱进,根据国内超算市场的发展趋势,制定新的发展方针。
紧跟学术界的研究趋势,北京超级云计算中心也加大了在GPU 计算领域的投入,建设基于 GPU 加速卡的计算分区。随着人工智能计算的兴起,以及异构计算模式的变化,他们也顺势建立了「AI智算云」,以满足部分从事人工智能研究学者的需求。
相应地,针对企业的自主研发需求,北京超级云计算中心也逐步推出了一系列面向企业的计算资源,比如针对CAD 三维设计和中小规模 CAE 仿真计算的设计仿真云,支持海量中小企业实现 " 云上研发 ",可以极低成本起步,推动中小企业高速发展,为国家中小企业发展打造坚实云上研发平台。针对超算体系国产化的趋势,他们也有了基于国产芯片的集群,与国产软件厂商合作,通过云化的方式,帮助国产应用更好地触及用户。
在郭宇看来,「让计算不排队」不仅是一句口号,更是切实、坚定的实践。