本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策

百亿亿级算力背后的超高速无损网络

数字化社会需要庞大的算力,现在百亿亿级的算力相当于1000个AlphaGo的计算能力。与大咖对话,了解网络如何助力超算及人工智能的算力提升。

文/华为数据通信产品线营销经理 李新元
《华为技术》第90期

“华为全联接2021”大会上,华为数据通信产品线数据中心网络领域总裁王雷邀请中国科学技术大学李京教授、西安市雁塔区科技和工业信息化局薛瑛局长共同探讨了华 为超融合数据中心网络如何助力超算及人工智能的算力提升,并分享了对超算应用的思考和畅想。

在科幻巨作《三体》中,刘慈欣有这样一段描述:“它们后面是世界上最强大的计算机,每秒可进行500万亿次的浮点运算。”这是第二位面壁者雷迪亚兹看到的人类最强的计算力,用于顶尖的核爆模拟。这里面有一个非常难以想象的数字:500万亿次。

2021年7月1日,中国的鹏城云脑II以顶尖性能获得了世界超算大会IO500排行的冠军,按照规划,它的速度将超过每秒百亿亿次浮点运算,是《三体》中所描述的计算机的2000倍。该数字表明,超级计算已经从幻想走进现实。

超级计算机的算力非常强大,我们应该怎么理解和想象百亿亿次?

王雷:百亿亿次是一个非常大的计算能力。它用科学技术的表达法,应该是1018,相当于我们现在50万台最新笔记本电脑的算力之和。几年前,第一次在围棋上战胜人类的人工智能AlphaGo,其依托的就是一个千万亿级超级计算机的计算能力,而现在百亿亿级的计算能力,则相当于1000个AlphaGo的计算能力。

李京:这是一个算力的衡量标准。目前,我国在“十四五”规划纲要中已明确提出要建设E级和10E级超级计算中心,以增强数据的感知、传输、存储及运算能力。所谓的E级,就指的百亿亿次,即1000P。

超级计算机是不是就是把很多个计算机摞到一起?

李京:超算界有句名言叫“1+1<2”,例如,如果将100台机器加在一起,其是否就相当于100台机器的算力呢?当然不是,当把两个计算单元连接在一起时,要想让它协调工作,将涉及到很多层面的协调,而最底层则必须保证它们的通信是畅通的。如果通信通道无损,就会使整个通信的时延小、效率高。华为为我们研制的无损网络,就是来解决通信的问题。

王雷:准确地讲,超级计算机应该是超级集群。从外观上看,只是一堆计算单元聚集在一起,实际上它们背后还有超高速的网络,依托高速的网络,计算单元才能高速运转。因此,超级计算机不仅仅是计算机的简单叠加,背后还需要有超高速无损网络的支撑。

薛瑛:无论是超算中心,还是人工智能计算中心,都需要通过高速的网络和软件,将物理上分散的计算设备统一管理起来,形成一个逻辑上统一的算力集群,即可按需使用的算力资源池。西安未来人工智能计算中心采用华为超融合数据中心网络后,实现了以太网的零丢包,算力和算效都获得了极大的提升。

超高速,无损网络

以太网天生就是丢包的,为什么华为会想到解决这个困扰了以太网40年的问题呢?目前,华为是否已经解决了这个极具挑战性的技术难题?

王雷:早在两年前,华为就已经突破了这个技术难关。在做与计算相关的投资及研究之初,科学家们就发现,对服务器进行简单累加,算力并不能产生相应的线性增长。例如,将GPU服务器的数量增加一倍,算力仅增加了4%。经过对计算过程的分析定位后,科学家发现其原因在于传统以太网的丢包现象,0.1%丢包就会导致50%的算力损失,即一半服务器的算力是浪费的。基于此,华为开始研究如何让以太网实现零丢包,最终在两年前解决了这个问题,从而实现了算力100%的释放。

大家都说数字经济已经进入“算力时代”,超级计算与老百姓的生活是否有关系呢?

王雷:从传统意义上讲,老百姓确实觉得超级计算距离我们的日常生活还很远,因为目前这项技术主要用于天气预报、地震监测、人类基因检测等较为高大上的应用。而实际上,超级计算已经离我们的日常生活非常之近了。例如,近年来新款汽车越来越多,种类越来越丰富,价格也越来越亲民,其背后就是超算在起作用。

在汽车制造过程中,有一项耗时周期较长,投入较高的汽车碰撞试验。如果使用实体车进行试验的话,每次的碰撞都会导致试验车报废,试错成本高达上百万元。如果使用超级计算机进行仿真模拟试验,可以使新车的研发周期从36个月缩短到12个月。而采用华为超融合数据中心网络,还可以将时间进一步缩短。

李京:超算与我们的关系,可以从当前的一个热点公共卫生的角度来看。比如,新冠疫情爆发初期,大家对新冠疫情的认识尚不充分,后来经过大量分析发现,“免疫风暴”是导致致病率提升的一个重要因素,在这一研究过程中,超算就起了很大作用。中国科技大学的科学家与科大附一院的医生通过共同研究发现,正是由于人体的免疫系统对入侵病毒的过度反应,才造成了人类的某些正常功能受到影响,进而导致该功能的衰竭。在超算的支持下,他们发现了一种切断免疫风暴传递途径的方法,后来在武汉成功应用,挽救了一部分人的生命。

薛瑛:如果把AI算力比喻为电力的话,AI计算中心就像是一个大型的发电站,AI的应用就像电的应用一样,会深入到各行各业,走进千家万户,与每个行业、每个人息息相关。在政府治理和城市管理中运用AI之后,城市的管理将会更加精准化,例如自动驾驶、车牌识别等都是AI在日常生活及城市管理中的一些具体应用。

结语

爱因斯坦曾说过这样一句话——你不能用制造问题时的同一水平思维来解决问题。我们人类是在制造问题与解决问题的历史进程中不断繁衍发展的,因此,对于超级计算机、人工智能的种种认识,都将随着科技的进步而逐渐明朗起来,而超算领域的技术创新,会在这一进程中扮演重要的角色。我们相信,华为的技术创新可以为行业和重要应用领域的科学研究、经济建设及社会发展提供优质的算力基础设施,助力各方共同迈进算力时代。