首页 > 科技未来 > 内容

成立十年，这个由中科院孵化的超级计算中心是如何跻身中国高性能计算机百强第三名的？

发布于：2024-06-18 编辑：匿名来源：网络

2019年中国顶级高性能计算机排名中，国家超级计算中心（无锡）部署的“神威·太湖之光”仍位列第一，国家超级计算中心（广州）部署的“天河二号”排名第一升级系统”排名第二，而第二名就是此前不为人知的北京超级云计算中心A区。

这个排名让很多之前不知道北京超级云计算中心的朋友感到惊讶：什么是“超级云计算”？北京超级云计算中心“A分区”实力如何？虽然大家对A分区开发商戴尔（DELL）耳熟能详，但对于A分区所属的北京超级云计算中心却几乎一无所知。

顾名思义，很容易与国家超级计算中心混淆，这个超级计算中心成立于2007年，虽然是由中国科学院计算机网络信息中心孵化、怀柔区政府支持的。

北京，并不在全国八个超级计算中心之列。

众所周知，我国第一个国家超级计算中心成立于2006年，由天津滨海新区和国防科学技术大学联合建设，耗资6亿。

此后，国家陆续在多个东部城市建立了超级计算中心：济南、深圳、广州、长沙、无锡、郑州、昆山……虽然其“政府+大学”的合作模式与国家超级计算中心类似，自成立之初，北京超级云计算中心的核心理念就注定了它与众不同。

一年又一年，北京超级云计算中心是如何从一个名不见经传的超级计算中心，成长为跻身国内高性能计算机顶尖、仅次于两个国家超级计算中心的明星超级计算机？在中国高性能计算盛会CCF HPC China上，我们有幸见到了北京超级云计算中心CTO郭宇，并与他一起探索中心的“成名之路”。

从建设模式来看，北京超级云计算中心与国家超级计算中心存在诸多差异。

其中，最大的区别在于，国家超级计算中心注重科研支撑，而北京超级云计算中心的核心理念是超级计算。

考虑商业。

用郭宇的话来说，“设计超级计算机就像设计产品”。

超级计算机被誉为“国家最重要的武器”，一直是大国之间的必争之地。

长期以来，这也形成了国家超算当家、民间超算默默无闻的局面。

但任何行业的发展都必须是多种力量的融合与交汇，让百花齐放，从而共同推动领域的进步。

那么，在中国的超级计算领域，北京超级云计算中心的位置在哪里呢？有什么优点？ 1.超级计算市场的形成。

回顾2016年北京超级云计算中心的成立，除了两个国家超级计算中心（天津和济南）成立带来的信号外，超级计算市场的爆发早在近五年就开始了。

有了业界的铺垫和基础：几年前，CPU处理器处于“单核时代”，一个CPU只有一个核心。

如果一台服务器上有两个CPU，那么构建一个一核的CPU需要1个节点和12个机柜，因为一个机柜最多只能装42U。

每个柜子的宽度为60厘米，12个柜子的宽度为7.2米，相当于普通教室的宽度。

更重要的是，提高计算效率的方法仅仅依靠提高主频，但从今年开始，CPU处理器开始进入“双核”时代，并逐渐扩展到“多核”时代。

双核处理器的出现也奠定了以x86为基础的计算架构，Intel和AMD在CPU帝国的霸主地位形成：年中AMD率先推出AM2平台。

两个月后，Intel发布了Conroe，性能直接提升了40%。

同时，功耗也降低了40%。

但英特尔并没有“就此止步”。

同年11月，直接推出新款四核处理器Kentsfield，直接将CPU推入“多核时代”。

与单核CPU相比，多核CPU具有更强的并行处理能力、更高的计算密度，并且大大降低了散热和功耗。

后来又出现了8核、12核、16核的CPU……目前一个CPU最多可以达到64核。

对于很多关注高性能计算的业内人士来说，他们认为多核CPU必然会带来计算和任务的并行化。

也就是说，未来超级计算市场将会爆发。

因此，回顾超级计算市场的发展历史，在CPU进入“多核时代”后，北京超级云计算中心的成立就卡在了爆发的起点。

但当时，北京超级云计算中心尚未正式开始探索商业化，前期工作主要集中在维护中科院计算机网络信息中心超级计算集群和支持科研项目等方面。

除了技术支撑，国家超级计算中心的相继成立也逐渐孵化了国内的算力市场。

北京超级云计算中心CTO郭宇介绍，国家超级计算中心的建设模式是：科技部和地方政府各提供一部分资金建设国家超级计算中心后，运营阶段，超级计算中心的部分运营费用将由当地政府承担。

除了政府的财政补贴外，项目还向部分大学研究人员开放申请，他们将拿出部分项目资金向国家超级计算中心购买计算资源。

在这种模式下，中国逐渐形成了具有景气周期的算力市场。

随着国家超算中心的出现，科研院所和高校逐渐缩小自建超算规模，加大对外部超算资源的采购。

由此，超级计算市场的用户越来越多，对超级计算的需求也越来越大。

当市场扩大到一定程度，必然会出现分化，分为高端市场、中端市场和低端市场。

对于国家超算中心来说，服务如此差异化的市场并不是一件容易的事。

国家超级计算中心的主要目的是支持国家重大项目（如航空、航天、气象等）和推动科研进步。

这造成了超级计算市场的服务缺口：一些需要超级计算资源用于小型项目的用户无法满足他们的需求。

看到超级计算市场的这一空白，2018年，北京超级云计算中心开始了计算商业化的探索，希望能够提供“按需扩展”的计算服务，以满足大规模通用超级计算的需求。

到尖端的超级计算。

市场。

2.探索计算商业化。

中国顶级高性能计算机的排名是由计算机的计算能力决定的，计算能力主要由计算机的单节点性能和集群规模组成。

北京超级云计算A分区的Linpack测试性能达到3.PFlops，峰值计算性能达到7.PFlops，CPU核心数达到00个，几乎是排名第四及以下的计算机的三倍或更多。

据郭宇介绍，A分区的施工是在年底开始的。

最初只有2个节点，然后在年中扩展到10个节点。

其背后的原因并不是为了争夺Top3，而是为了满足客户的需求。

在郭宇看来，国内超算市场大致可以分为三类：前沿超算、通用超算和行业超算。

其中，国家超算中心服务的需求主要是尖端超算，以难度大、性能均衡的设计为主。

必须兼顾计算、内存访问、通信和I/O等，服务对象为国家级科研项目。

，重点是产生结果，而不是利润。

北京超级云计算中心的目标市场是通用超级计算，主要针对万核以下（特别是千核以下）的应用规模，为大量不同需求的用户提供租赁超级计算服务。

对于北京超级云计算中心来说，他们的目标是将超算业务商业化，实现超算业务盈利，并反哺中心建设投资，实现自给自足、灵活可扩展的正循环。

“计算无需排队”是北京超级云计算中心的核心理念。

北京超级云计算中心自2010年成立以来，经历了两个主要阶段：成立后的最初几年，北京超级云计算中心主要运营中科院系统内的超级计算机，包括计算机网络信息中科院中心于2016年推出超级计算机“元”、“元”二期等。

现阶段，北京超级云计算中心的建设模式和运行模式与中科院的系统有很多相似之处。

国家超级计算中心。

到了这一年，他们逐渐发现国家超算中心无法满足上述的溢出市场需求。

随着国内科研发展的深入，大学教师对计算的需求越来越大，超级计算用户的类型越来越多，应用越来越复杂，用户对计算机服务的要求越来越高。

例如，有些用户在进行计算时，并不是简单地将程序放到超级计算机上直接运行。

相反，他们需要在 Linux 命令行窗口下编译、调整、集成甚至更复杂的源代码改编。

对于大多数只熟悉Windows操作系统的用户来说移植过于复杂。

国家超级计算中心的主要任务是支持重量级科研项目并取得杰出学术成果（如获得戈登贝尔奖）。

这样一来，国家超算中心的计算资源自然会优先分配给重要的科研团队。

导致很多中小用户无法享受到良好的服务，出现“排队计算”的情况。

基于这一行业需求，北京超级云计算中心正在思考从商业运营的角度解决国家超级计算中心的这部分溢出需求，为行业中的中小微“散户”提供计算资源。

以灵活的方式开拓超级计算市场。

因此，2019年，北京超级云计算中心发布了“中国科技云·超级计算云”，开始了计算商业化的探索之旅。

他们以云服务的形式输出超级计算，专注于商业运营，遵循“按需供应”和“按需扩展”的理念。

他们在两年内占领了一定的超算市场，赢得了客户的信任，并吸引了更多的中小型用户，在吸引更多中小型用户的过程中，对A分区进行了扩展和改进，最终获得了中国顶级高第三名——2016年性能计算机排名。

郭宇表示：“获得Top3是结果，不是目标。

我们打造超级计算机是为了服务客户，赢得这个荣誉是锦上添花。

”与其关注Top3的排名，郭宇更希望大家看到甲区北京超级云计算中心背后的故事及其独特的建设模式。

3、“计算”模式的新思考。

郭宇提出了一个有趣的观点：作为一种“产品”，计算的独特性在于，当用户购买计算资源时，他们需要的不是计算资源，而是想要解决问题。

就像人们买钻头时，他们想要的不是钻头，而是它在墙上打的孔。

因此，北京超级云计算中心在市场推广计算资源时，往往强调的是“客户服务”，而不是中心的资源状况。

从分区A来看，不难发现北京超级云计算中心和国家超级计算中心的模式有很大不同：首先是建设周期。

国家超级计算中心由科技部或地方政府资助。

超级计算机项目申请需要经过层层审批，建设周期一般为3-5年。

A组由北京超级云计算中心内部“决定”。

另外，A部分的建设主要基于市场上已有的技术设备，减少了技术攻关的时间成本。

例如，A分区年底开始建设，从一个小型实验集群发展到对用户开放，并在年中进行了扩展。

从1个节点扩展到1个节点仅用了3周时间。

二是分布地点。

看地图不难发现，国家超算中心基本分布在东部城市，而北京超级云计算中心的超算系统主要分布在中西部地区，尤其是西部地区。

A分区分布在宁夏。

计算中心是“电力消耗大户”。

从商业运营角度来看，西部地区电价明显较低。

以北京为例。

北京的电价为每千瓦时9分钱，而西部城市则不到30分钱。

A区建设时，国家还没有发布“十四五”规划，“碳达峰”、“碳中和”的概念还没有出现。

郭宇表示，从北京超级云计算中心的角度来看，他们在建设A分区时，主要遵循的是商业运营的逻辑。

然而，今年“双碳”热点出现后，他们却意外地发现自己的路线居然发生了变化。

这符合国家的“双碳”战略。

“西部有风力发电、光伏发电，能源丰富，而且年平均气温比较低，非常适合计算中心的生存，所以我们把西部作为主要基地。

而且，对计算中心的需求也很大。

”超算业务实时通讯要求不高，用户更关心“重要的是产品的价格”。

“他们并不关心机器是在他当地的城市，还是在遥远的西部数千公里之外。

”郭宇解释道。

北京超级云计算中心面向通用超级计算，拥有大量用户，符合郭宇表示：“具有这些特征的市场更适合由互联网来服务。

“一是降低单个用户的成本，二是提供个性化服务。

”因此，无论是计算的选址还是“超级计算+云服务”的互联网运营模式都体现了北京超级云计算中心强调计算供应的灵活性和成本效益。

从A区使用的CPU来看，我们也可以一窥北京超级云计算中心的经营理念：A区采用AMD于2016年推出的第二代EPYC服务级处理器，代号为Rome。

），基于7nm工艺，配备64个核心线程，每个核心拥有4GB内存。

在改进核心的同时，还提高了主频，加速频率可达3.4GHz。

从计算机的角度来看，计算可以分为四种类型：计算密集型、内存访问密集型、存储密集型（I/O密集型）和网络通信密集型。

北京超级云计算中心的主要客户是内存访问密集型应用，这就决定了A分区的特点：计算规模小、成本低。

罗马处理器主频适中，计算性能适中，能耗低，性价比高，显然更有利于商业运营。

郭宇坦言，北京超级云计算中心的目标从来不是像“神威·太湖之光”、“天河二号升级系统”那样打造一台各方面均衡、性能优异的超级计算机，而是找到自己的市场定位。

为目标用户提供适合其的超级计算解决方案。

根据处理器类型，北京超级云计算中心的超算分区可分为四个系列： ? 基于AMD芯片的A分区和M分区，以及A分区的增强版“A6分区” ? T分区基于Intel芯片和L分区 ? 基于国产芯片的先锋一号（如海光x86 CPU） ? 基于NVIDIA芯片的AI智能计算云，如N17、N19领域。

根据不同用户的需求，北京超级云计算中心设置了不同的分区来满足这些需求。

例如，2016年中国高性能计算机排行榜上名列前茅的A分区专门针对计算密集型和内存访问密集型用户，而存储性能增强的I/O分区专门针对I/O-密集型用户等等。

“中国科技云·超算云”汇聚国家超算中心、互联网云计算中心等资源，为用户提供定制化计算服务。

同时，他们揭开了高性能计算的“神秘面纱”，为用户提供操作问题解答、参数配置优化、定制脚本编写等一系列服务。

他们还有一对一专属微信群、7×24小时人工值班和5分钟快速响应机制等机制。

4、自主研发离不开计算。

近年来，越来越多的企业高举“自主研发”的旗帜。

与此同时，产品迭代周期正在加速。

为了快速满足市场需求，研发人员将越来越多地利用数字技术进行模拟，期间会产生大量数据，对计算的需求也会增加。

事实上，自2000年以来，不少企业陆续建立了计算中心，但也面临着建设周期长、内部计算资源协调困难、计算队列长等问题。

企业一般根据项目优先级分配计算资源，但人工协调效率低下，限制了研发项目的进度。

郭宇认为，随着人们对云计算优势认识的加深，云计算的市场也在不断扩大。

新基建中，“数据中心”对应云计算，是数字化转型的基础。

同时，随着“双碳”计划的推进，碳排放指标也将成为自建超级计算中心发展的限制因素之一。

北京超级云计算中心在布局定位上的远见无疑将使其在未来的竞争中占据优势。

作为国内首个大规模、市场化的超级计算中心，北京超级云计算中心的建设模式揭示了中国超级计算市场的发展现状：除了国家超级计算中心外，越来越多的得到地方超级计算中心的支持。

各国政府。

民营超级计算中心在推动我国超级计算发展方面展现了独特的优势。

例如，在2017年中国高性能计算机排行榜中，除了A组的北京超级云计算中心取得成功外，和林格的内蒙古高性能计算公共服务平台（青城之光）也取得了成功。

内蒙古新区排名第四。

。

除了尖端超算和通用超算之外，中国超算市场还有另一支重要力量：阿里云、华为云、亚马逊云（AWS）等公有云厂商。