中国进入科研黄金时代,通用超算云服务填补算力缺口_高校科研教学算力缺口-程序员宅基地

技术标签: 超级计算机  数字化转型  云服务  

 

 

“自主创新”是十四五规划献策中呼声最高的关键词之一。而在十四五规划中,也提出要坚持创新在我国现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑。尤其是十九届五中全会,审议通过了将实现关键核心技术重大突破,进入创新型国家前列列为国家二〇三五年远景目标。在加强自主创新中,科研R&D经费投入是重要的保障,我国在2018年就已经实现R&D经费总量全球第二,而2019年全国R&D经费投入同比增长12.5%,占GDP的2.23%。

当前,无论是从十四五规划对自主创新和自主科研的重视,还是全国R&D经费历年增长的投入来看,我国都进入到了科研的“黄金时代”。对于科研来说,超级计算机一直起着关键作用。在2020年6月发布的2020全球超级计算机TOP500中,45%的超级计算机来自中国,而未来,中国自主研发的天河三号超级计算机更是将目标直指E级超算。然而,这些作为国家战略资源的超级计算机虽然在国家重大科研应用方面发挥了重要作用,但是在面向中小规模海量运算的通用和商业计算场景来说就显得大材小用。

 

 

“尖端超算是‘高精尖’,服务于万核以上的应用,难以走进‘寻常百姓家’”,北京超级云计算中心总经理吴迪在谈到超算的应用之变时表示,“‘北京超级云计算中心’的使命就是更好的服务于通用超算市场,即万核以下计算用户的需求,包括科研、教育、工程设计类等,提高科研效率、降低研发成本,与尖端超算形成互补,让各行各业大中小用户都能用上超算,推动中国数字化经济转型与升级。”

在2020年11月发布的2020中国高性能计算机性能排行榜TOP 100中,北京超级云计算中心A分区荣获TOP 100排行榜第三名,通用CPU算力第一。该中心专注于通用超算市场,特别是通过与戴尔科技等知名IT硬件供应商的紧密合作,把传统超算三到五年的建设周期缩短到三周,满足海量用户对中小微超算的需求,填补社会算力缺口。

 

填补通用算力缺口

当前,全社会都在加大对于自主创新和研发经费的投入。根据统计,在规模以上工业企业中,电气机械和器材制造业、汽车制造业、医药制造业、化学原料与化学制品制造业等9个行业的2019年R&D经费投入都超过了500亿元;北京、广东、江苏、山东、浙江、上海等6省市的2019年R&D经费投入都超过了1,000亿元。

不过,各大企业和城市对于R&D科研经费的投入,很大一部分都投向了服务器等硬件基础设施,这就造成了R&D科研经费的利用效率不高。北京超级云计算中心总经理吴迪介绍,传统的超算中心一般都是由政府牵头和投资建设,并且由于其特殊性,这种投入往往是不计成本和回报的。正是因为如此,往往动辄几十亿元的资金投入,却面临缺少市场应用的窘境,并且,大型超算中心还存在着建设周期长,一旦建成也往往意味着机器设备还需要二次更新才能继续提供服务。

尖端超算服务的用户大多为行业专家、学者,而通用超算市场中小用户,包括科研、教育、中小企业都存在大量的算力需求,面对性价比、资源使用的灵活性和服务质量等诉求,就需要具备市场化、商业化服务能力的超算中心填补通用算力的缺口,这就是北京超级云计算中心的核心价值。

北京超级云计算中心成立于2011年11月,由中国科学院和北京市政府共建,依托中国科学院计算机网络信息中心建设,由北京北龙超级云计算有限责任公司运营。北京超算中心以立足北京、辐射全国、构建国内领先、国际一流的信息化基础设施及公共服务平台为总目标,面向科学计算、工业仿真、气象海洋、新能源、生物医药、人工智能等重点行业应用领域,随需提供超级云计算服务。

目前,北京超级云计算中心总核心数共27万核,服务用户数超过30,000家,可根据用户的计算量、应用程序及业务场景,提供随需供应、不排队、省心省时的高品质VIP计算服务。吴迪强调,北京超级云计算中心在中国率先推出了超算的云服务化,特别是在疫情期间帮助很多高校和研究所及时完成了科研任务。

北京超级云计算中心的扩容也不像传统超算那样,而是根据用户需求配备多种型号的计算资源,最核心的A区与戴尔科技合作,采用了“第二代AMD EPYC(霄龙)”处理器,满足海量日常科研用户和企业用户的计算需求,并可随需扩容。吴迪强调,北京超级云计算中心配置了多个分区,包括最新型号的硬件设备,从而可以更好的适配不同用户的需求,提高科研效率。

 

通用算力背后的技术布局

北京超级云计算中心坚持以用户需求为导向,提供“随需供应,动态扩容”的计算资源和高质量云化计算服务。截止2020年10月,北京超级云计算中心通用超算算力超过10PFlops,在2020中国高性能计算机性能TOP100排名第三,通用CPU算力市场排名第一。北京超级云计算中心于2018年发布超级云计算服务平台——中国科技云·超算云,2019年启动超级云计算建设模式,2020年实现10PFlops算力。

 

(北京超级云计算中心A分区)

面向不同类型的用户需求,北京超级云计算中心提供不同的计算资源,目前最大的是A分区,同时还有按核调度的M分区、T分区,存储性能加强的IO分区,面向人工智能用户的17区、19区等,分别分布在北京、辽宁、江西、宁夏、湖北和深圳等地,这既是出于成本的考虑,也是出于就近服务用户的考虑。

虽然在北上广等地建设数据中心的难度大成本高,但这里也是国内通用算力的主要市场,需要就近服务这些地区的用户;而在中西部地区布局数据中心,既可以优化成本结构,又可以就近服务当地及周边地区的用户。例如,北上广地区的国家超算中心一年的电费就可能达三四千万甚至更高,而将部分数据中心部署在西部,就可以降低一半甚至更多的电费。北京超级云计算中心以市场化运营,最终的目标是降低成本并回馈客户,让客户能够使用普惠的算力,最终应用到产品研发和科学研究,形成良性循环。

CPU型号的选择也遵循同样的原则——围绕客户需求。尖端超算建设时考虑的是各方面的均衡,因为超级计算机对于资源的需求是多方面的,包括计算、访存、通信和I/O等都要非常出众。而面向广大中小用户时,应用特点是多样性的,用户应用不会同时要求很强的CPU、网络和访存等,例如:计算物理应用为计算密集型,也就是要求CPU扩展性和网络,这种情况下只需要CPU主频适中并搭配高速互联网络即可;但结构强度分析应用为访存密集型,进行有限元分析需要大内存、胖节点的机器,这就需要在相应分区里设置大内存节点。

 

(北京超级云计算中心A区拓扑图)

根据不同的用户需求、设置不同计算资源、满足特定用户的需求,这就演化出了北京超级云计算中心A分区,A分区采用了基于EPYC Rome处理器的Dell EMC PowerEdge服务器,可提供一个节点两个CPU 64核,对于计算物理第一性原理、气动分析等用户很适合,可以用几个节点组成一个小规模或中等规模的计算任务。而有些用户作业不需要64核,但需要海量作业,例如天文的蒙特卡罗模拟只需要单核计算,但完成一批任务需要成百上千个核,这种海量单核计算就需要定制集群,由此引出了M分区和T分区。

北京超级云计算中心CTO郭宇表示,目前北京超级云计算中心A分区为3,000个节点、6,000个CPU的规模,以达到规模、效率和成本的平衡,接下来我们会不断地扩容新的分区,以满足不同用户的需求。目前已完成M分区、T分区以及A2分区的建设, A3分区也正在快速建设中,最终的目标就是保障充沛的计算资源,让用户无需排队、随时都有可用的计算资源。而为了保证用户对后端计算资源的无感知——只要将作业提交上来就无需考虑作业是在华北区或是华东区完成,北京超级云计算中心提供了一整套的作业自动迁移、自动资源匹配等自动运维系统,从而在资源切换上实现了无感知的用户体验。

北京超级云计算中心的算力资源采用超算集群架构,可以提供超过5,000台物理服务器的计算资源,累计超过27万CPU核心;涵盖PB级大容量并行文件系统,全线速、无阻塞的专用计算网络环境,提升了计算速度和扩展性;同时配备有完整、高效、专业的基础软件,包括操作系统、并行编译开发环境等,支持CPU和加速卡的多种编译环境及应用,包括编译器、调试器、MPI并行开发环境及数学库等。北京超级云计算中心覆盖各种级别的任务队列管理和调度功能,根据用户需求及应用场景设置不同的优先级别,从而保障关键业务的正常运行。

 

TOP 3只是一个开始

北京超级云计算中心A分区成功荣获2020中国高性能计算机性能TOP100排名第三、通用CPU算力第一,这对于北京超级云计算中心以及中国的通用超算产业来说,只是一个新的开始。至此,中国的超算逐渐形成了三类市场:万核以上的尖端超算,千核左右的通用超算以及单核到千核的行业超算。其中,通用超算以北京超级云计算中心为代表,行业超算以公有云的超算服务为代表。

 

 

吴迪强调,对于北京超级云计算中心来说,其初心并不是为了获得排名,作为一家市场化运营超算中心的最终目的还是提升行业效率、降低行业成本。企业和科技机构逐步从自建转为购买超级云计算服务模式,一方面可以节省成本,另一方面可以获得更多算力,同时也无需维护系统,从而把更多时间和精力用于科研工作。北京超级云计算中心不仅具有强大的计算能力、丰富的软件资源、可信赖的支持团队、定制化的行业解决方案,可提供随需而用的超算资源,减少计算任务排队,适应多学科应用需求,降低用户资源使用成本,并为大规模复杂技术和商业应用实现提供专业完整的解决方案,同时还提供一对一专属微信群、7×24小时在线服务和5分钟快速响应机制。

对于一个100节点的中型超算数据中心来说,从项目申报、审批一直到项目建设完成,通常的建设周期是三到五年。而北京超级云计算中心则将之前的建设周期,缩短到一个季度,再进一步缩短到3周。传统的尖端超算采用的是针对专门应用而研制的计算机,通用超算和行业超算则采用市面已有标准化产品进行搭建,才可能实现灵活、快速、敏捷的云计算服务模式。而与公有云服务商提供的超算服务有所不同,通用超算对硬件的要求更高。

郭宇介绍,一般公有云厂商的工作负载峰值、谷值波动非常大,机器运行负载平均是在30%或40%左右;而通用超算的机器一定是7×24小时运行,CPU负载一定达到100%。这造成了对于超算服务器的稳定性、可靠性的高要求,必须要能够持续24小时长时间运行,一旦机器出故障或是CPU、内存有问题,对科研成果造成的损失是无法衡量的。北京超级云计算中心进行了一系列测试,最后选择与戴尔科技集团合作,是因为戴尔易安信的设备在各方面表现十分均衡,包括稳定性以及与AMD芯片优势的整合等,更重要的是戴尔科技集团供应链体系成熟,能够随时解决中心对于备件的需求。

 

​(Dell PowerEdge C6525)

北京超级云计算中心希望获得更快的建设周期,而戴尔科技集团良好的供应链体系能够降低北京超级云计算中心的运营成本。实际上,北京超级云计算中心长期以来与戴尔科技集团保持着紧密的合作关系,除了A分区外,其他部分分区也是与戴尔科技集团合作完成的。特别是戴尔科技通过与服务器产业链上下游的良好供应链关系,例如在AMD等发布新一代芯片时就能马上提供最新、最优的样机产品,这让北京超级云计算中心能够在第一时间用上最新的技术与产品。除了服务器外,北京超级云计算中心也广泛采用了戴尔科技集团的网络、存储等多种产品。郭宇还表示,戴尔科技对于数据中心的维护考虑周到,提供了iDRAC等专门的管理工具,对降低维护成本、提高效率都很有帮助。

戴尔科技集团高性能计算实验室主任、高性能计算方案架构师凌巍才介绍,戴尔科技的iDRAC软件产品可以远程对服务器进行访问、管理、开机等底层操作,具体实现方法是每台服务器都有一个iDRAC的IP地址;而另一个软件产品OME(OpenManage Enterprise)则搭建了一个Web控制界面,管理员可直接在界面上访问每台服务,而不用一一登录到每一台服务器上,而且,这两款软件产品都有免费提供给客户的版本。

通过与戴尔科技这样具有成熟硬件供应链体系,以及完整科技产品与技术的供应商合作,北京超级云计算中心得以将通用超算的算力普惠给更多的中小企业和科研机构。

金风科技作为中国风电事业蓬勃发展的推动者,对于超算的需求体现在三个方面:首先,要解决风力发电机叶片的造型设计包括扭向和角度;其次,是风机的选址,要根据风能资源情况以及当地气象一整年的观测数据进行推演;第三,是风力发电厂投产后,向国家电网上报发电量的预测;这些都需要仿真计算。北京超级云计算中心在深入了解了金风科技的需求后提供了满足其要求的计算平台,金风科技迁移到A分区上,再基于平台开发了业务系统,甚至还把系统开放给产业链上其它风电合作伙伴或者生态里的厂商。

总结而言:当前,我国正从加工出口向高附加值产业转移,这就需要大量的计算力,通用超算可谓适逢“天时”;加上“新基建”之火,推动了各地对于超算的需求,这可谓是通用超算的“地利”;而云化服务对于超算的渗透才刚刚开始,北京超级云计算中心又汇聚了一批从业超过十几年的超算行业专业人员,这为以北京超级云计算中心为代表的通用超算奠定了坚实的“人和”基础。加上国家加大对于科研经费的投入以及要求提高科研经费的利用率,通用超算云服务势必将在十四五期间走入发展的黄金时代,进而推进中国自主创新的全面提升与遍地开花。(文/宁川)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/achuan2015/article/details/112654401

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签