2023成都積分入學(xué)什么時(shí)候開始申請
2023-01-31
更新時(shí)間:2022-06-21 08:08:18作者:未知
【文/觀察者網(wǎng)專欄作者 余鵬鯤】
當(dāng)?shù)貢r(shí)間5月30日,世界超算兩大學(xué)術(shù)會(huì)議之一的ISC在德國漢堡舉行,并發(fā)布了超級計(jì)算機(jī)Top500 榜單。登頂本次榜單的是美國橡樹嶺國家實(shí)驗(yàn)室研制的Frontier超級計(jì)算機(jī),在LINPACK基準(zhǔn)測試中,這臺(tái)超級計(jì)算機(jī)的穩(wěn)定運(yùn)行速度可高達(dá)1.1EPlop/s(百億億每秒),理論速度高達(dá)1.68EPlop/s。
Frontier的成績在榜單中是鶴立雞群的存在,以穩(wěn)定速度計(jì),比排名第二的日本超級計(jì)算機(jī)“富岳”整整快了2.49倍,理論速度更是快了3.14倍。事實(shí)上Frontier的穩(wěn)定速度,相當(dāng)于排名2-8名超算的性能之和。在性能有成倍提升的情況下,F(xiàn)rontier的功耗僅相當(dāng)于“富岳”的71%。也就是說,F(xiàn)rontier不僅性能強(qiáng)大,還擁有非常出色的功耗表現(xiàn)。
超算Top500 榜單1-6名
相比日本、芬蘭和美國在超算上的你追我趕,近年來的中國顯得非常沉寂,曾經(jīng)排名世界第一的超算神威·太湖之光不僅在排名上滑落到第6,性能也只有不到0.1EPlop/s,與Frontier相比存在數(shù)量級的差異。
第一名超過第二名近2.5倍,第二名又比第三名快了將近3倍,面對這一現(xiàn)象,有人提出中國的超算是“(堆)硬件上的領(lǐng)先”,并引用清華大學(xué)科學(xué)史系博士后司宏偉文章,認(rèn)為:“中國超級計(jì)算機(jī)的自主創(chuàng)新之路還任重而道遠(yuǎn),面臨著原創(chuàng)能力不足、人才匱乏及應(yīng)用較少等問題”。
2021年底,司宏偉在發(fā)表的一篇文章中指出:若以國內(nèi)目前傳統(tǒng)技術(shù)方法構(gòu)建一臺(tái)E級的超級計(jì)算機(jī),年能耗將會(huì)超過三峽水庫發(fā)電量的1/3。
美國加州大學(xué)計(jì)算機(jī)工程博士劉少山認(rèn)為:國內(nèi)超算軟件人才與美國相比還有很大差距,目前絕大多數(shù)超算底層軟件庫都是由美國的科研人員所研發(fā)。中國還很缺能夠利用超算解決應(yīng)用問題的高素質(zhì)人才。國家超級計(jì)算無錫中心并行優(yōu)化部主管劉釗在接受媒體采訪時(shí)談到,近年來在互聯(lián)網(wǎng)公司的沖擊之下,無錫(超算)中心的人手一直吃緊,特別是應(yīng)用領(lǐng)域人才偏少,大約只占研發(fā)團(tuán)隊(duì)人員的三分之一。
如果只看這些材料,難免給人一種感覺,中國過去在超算領(lǐng)域長期領(lǐng)先只是偶然的,中美超算的潛在實(shí)力相差很遠(yuǎn),事實(shí)果真如此么?
中美超算水平依然接近
根據(jù)中國科學(xué)院院士錢德沛2019年所做的一個(gè)報(bào)告,1993-2012年,超級計(jì)算機(jī)的性能大約每10年提高1000倍,從2013年起,上升速率變緩,降低為每10年100倍左右。但無論如何,超級計(jì)算機(jī)性能增長的速度遠(yuǎn)高于民用PC的性能增長,這說明超級計(jì)算機(jī)性能提高固然要靠單芯片性能的增長,也非常依賴系統(tǒng)規(guī)模的擴(kuò)大。
超算性能增長曲線
超級計(jì)算機(jī)的性能野蠻生長了20年,至今為止,美國研制Frontier的花費(fèi)也不過區(qū)區(qū)6億美元,這說明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡單的堆硬件。過去超級計(jì)算機(jī)競爭的關(guān)鍵,就在于研發(fā)設(shè)計(jì)芯片間計(jì)算任務(wù)調(diào)度、分發(fā)、通信的軟硬件,使得數(shù)量眾多的芯片能夠以較高的效率同時(shí)進(jìn)行計(jì)算。
Frontier超算
一些文章雖然正確科普了通信技術(shù)對超算的重要性,但卻陷入到對美國超算通信技術(shù)的盲目崇拜中去,把Frontier采用的HPE Cray Slingshot-11說成是“最先進(jìn)的”,而沒能客觀比較中美超算通信難度。2016年,中國正式公布了神威·太湖之光超算,該超算共由40960塊“申威26010”處理器構(gòu)成,這些處理器分屬20480個(gè)節(jié)點(diǎn)。
而美國的Frontier只有9408個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然,F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多,也更容易設(shè)計(jì)。因?yàn)镕rontier拿了第一,所以就認(rèn)為美國在超算調(diào)度、分發(fā)、通信等等領(lǐng)域超過中國,這顯然是不客觀的。
Frontier的基本情況
有人可能會(huì)覺得只比較節(jié)點(diǎn)太過于武斷,其實(shí)早在2016年中科曙光就正式啟動(dòng)了E級超算的研制項(xiàng)目,2018年前后同時(shí)在研的有曙光、神威、天河三種技術(shù)路線的E級超算,其中進(jìn)度最快的“天河三號”原型機(jī),2018年7月就通過了驗(yàn)收,標(biāo)志著中國掌握了E級超算相關(guān)技術(shù)。
但中國超算繼續(xù)領(lǐng)跑榜單的情況并未出現(xiàn),這主要是由于美國對中國超算發(fā)展始終持不正常的陰暗想法,蠻橫無理地采用包括單邊制裁在內(nèi)的手段遏制中國超算發(fā)展,導(dǎo)致中國從2020年開始不愿意提供中國超算的基準(zhǔn)測試數(shù)據(jù),并加強(qiáng)了保密措施。正如上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任、高性能計(jì)算專家林新華所說:“進(jìn)入TOP500是為了促進(jìn)國際合作,但結(jié)果卻適得其反”。
那么中國是否具有E級超算呢?今年5月,美國田納西大學(xué)相關(guān)領(lǐng)域的教授杰克·唐加拉認(rèn)為:“中國是有東西的”,“只是沒有官方的說法”。
無獨(dú)有偶,去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名權(quán)威人士”的話指出,中國神威·太湖之光的后續(xù)型號海洋之光,2021年3月運(yùn)行基準(zhǔn)測試時(shí),穩(wěn)定運(yùn)行速度達(dá)到了1.05EPlop/s,其時(shí)的功率為35MW。
如果該文數(shù)據(jù)正確,那么有人說中國的E級超算功耗“將超過三峽發(fā)電量的1/3”的說法不攻自破。
國外媒體的猜測并非空穴來風(fēng),今年4月中國科學(xué)技術(shù)大學(xué)、國家海洋科學(xué)與技術(shù)試點(diǎn)實(shí)驗(yàn)室(青島)、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、無錫國家超級計(jì)算中心和中國海洋大學(xué)組成的聯(lián)合團(tuán)隊(duì),公布了一篇超級計(jì)算機(jī)模擬復(fù)雜量子多體的文章,文章中介紹了高性能計(jì)算環(huán)境時(shí)報(bào)告了sw26010pro的架構(gòu)。該CPU作為sw26010改進(jìn)型,擁有6個(gè)計(jì)算組,每個(gè)計(jì)算群有1個(gè)管理核心和64個(gè)計(jì)算核心。而組成太湖之光的sw26010,只有4個(gè)計(jì)算組,說明sw26010pro單片至少有50%的性能提升,極可能屬于新超算,文章也稱之為“新一代神威超級計(jì)算機(jī)”。
sw26010pro的架構(gòu)
同樣基于“新一代神威超級計(jì)算機(jī)”的還有第一單位為中國科學(xué)技術(shù)大學(xué)的一篇論文,該研究首次實(shí)現(xiàn)了長達(dá)7天的全球3公里空間分辨率大氣物理-化學(xué)全耦合數(shù)值模擬試驗(yàn)。文中提到,數(shù)值模擬試驗(yàn)的規(guī)模最大曾經(jīng)達(dá)到過近4000萬處理器核,并且效率仍然達(dá)到76.2%。
相關(guān)論文
從論文中透露的信息,我們不難分析出兩點(diǎn)內(nèi)容。一是“新一代神威超級計(jì)算機(jī)”的規(guī)模很大,遠(yuǎn)超過神威·太湖之光(最大1000多萬個(gè)處理器核)。二是“新一代神威超級計(jì)算機(jī)”效率很高,須知幾乎沒有超算程序的運(yùn)行效率高于基準(zhǔn)測試。美國的Frontier運(yùn)行基準(zhǔn)測試時(shí),效率也不過能達(dá)到理論的65%,還有很大的進(jìn)步空間。
更為直接的證據(jù)來自于2021年一項(xiàng)利用神威·海洋之光實(shí)時(shí)模擬量子電路的研究。該研究披露,海洋之光的節(jié)點(diǎn)高達(dá)驚人的107520個(gè)!模擬程序的速度可以達(dá)到1.1EPlop/s(單精度)或者4.4EPlop/s(F16混合精度)。
由于模擬使用的海洋之光還是片上異構(gòu)式的超算,1.1EPlop/s(單精度)換算成超算常用的雙精度至少有0.55EPlop/s。如果海洋之光沒有對混合精度進(jìn)行過優(yōu)化,那么4.4EPlop/s(F16混合精度)換算成雙精度就有1.1EPlop/s,這一成績已經(jīng)與Frontier運(yùn)行基準(zhǔn)測試的成績差不多了。何況模擬程序的效率,幾乎肯定達(dá)不到基準(zhǔn)測試,海洋之光的實(shí)際速度還可能更高。
論文中關(guān)于計(jì)算速度的表格
因此我們可以放心大膽地認(rèn)為:中國即使沒有E級超算,也非常接近,中美超算技術(shù)并未重新拉開差距,而這些成績還是在西方國家嚴(yán)格制裁的情況下取得的。
同時(shí),這么多的論文和研究,也說明中國超算的應(yīng)用水平已經(jīng)達(dá)到了相當(dāng)?shù)乃健9倘贿€有提高的空間,卻不像一些人所說的那樣一團(tuán)黑。
美優(yōu)勢在于民用芯片
中美超算水平接近,是否意味著美國超算就不值得借鑒呢?顯然不能這么說,美國這次超算重新奪魁,一個(gè)突出的優(yōu)勢就在于美國的民用芯片水平很高,并且?guī)?dòng)了像超算這樣的專用領(lǐng)域。
在神威·太湖之光以前,超算的競爭主要是超算系統(tǒng)中調(diào)度、分發(fā)、通信相關(guān)的軟硬件的競爭。每一個(gè)節(jié)點(diǎn)要么純CPU,要么是CPU+加速卡的異構(gòu)計(jì)算方案,為了提高性價(jià)比和計(jì)算速度,往往還會(huì)購買英特爾和英偉達(dá)兩家美國廠商的成熟產(chǎn)品,早期的天河系列超算就是典型代表。
天河二號是典型的異構(gòu)計(jì)算
CPU+加速卡方案的優(yōu)點(diǎn)是將管理(通用計(jì)算)和專業(yè)計(jì)算分開,提高了單節(jié)點(diǎn)的計(jì)算速度,但缺點(diǎn)是計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸,造成大量的性能浪費(fèi)。而太湖之光使用的sw26010將兩個(gè)部分的電路,集成到了一個(gè)芯片上(片上異構(gòu)),這樣既避免了純CPU不擅長專業(yè)計(jì)算的劣勢,又避免了加速卡不能和CPU共享內(nèi)存的問題。
值得一提的是,2010年前后開始,純CPU的方案劣勢太大,越來越少地被采用。而無論是異構(gòu)計(jì)算,還是片上異構(gòu),編程都不容易,且掌握起來難度都差不多。不存在中國超算芯片因?yàn)椴挥糜谏虡I(yè)市場,所以程序兼容性不好的問題。
正是由于這個(gè)創(chuàng)新,sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小,制程落后整整兩代的情況,實(shí)現(xiàn)了和英特爾類似產(chǎn)品相似的功耗和性能。太湖之光的成功,啟迪了后來日本的“富岳”超算?!案辉馈蓖瑯訏仐壛嗣绹墒斓挠?jì)算方案,購買ARMv8.2-A指令集開發(fā)管理核心,并自研專業(yè)計(jì)算模塊,推出了富士通版的片上異構(gòu)芯片A64FX。
A64FX的架構(gòu)和sw26010即使不能說一模一樣,也可算得上極為相似,同樣是四個(gè)計(jì)算組,就連性能也差距不大。A64FX的理論性能是2.7TFlop/s,sw26010的為3.06TFlop/s。僅就性能而言,2018年推出且工藝更先進(jìn)的A64FX尚不及2015年的sw26010,足以說明神威超算開發(fā)團(tuán)隊(duì)在立項(xiàng)sw26010時(shí)獨(dú)具慧眼。
A64FX架構(gòu)介紹
從理論上講,片上異構(gòu)具有突出的功耗比優(yōu)勢,因?yàn)檎{(diào)度和傳輸浪費(fèi)的計(jì)算性能較少。太湖之光的實(shí)測性能與理論性能之比高達(dá)74%,日本的“富岳”更是達(dá)到82%,而美國的Frontier由于是傳統(tǒng)的CPU+加速卡架構(gòu),只有65%,但是Frontier功耗遠(yuǎn)低于“富岳”,很可能也明顯低于中國的E級超算。這意味著芯片間調(diào)度過程中浪費(fèi)的性能,被每個(gè)芯片優(yōu)異的功耗表現(xiàn)省了回來。
由于美國的半導(dǎo)體封鎖,中國超算芯片不可能運(yùn)用先進(jìn)的制程,單芯片功耗比表現(xiàn)不佳情有可原。但日本的富士通A64FX使用的制程與美國的幾乎一樣,性能表現(xiàn)上出現(xiàn)這么大的差距,只能是兩國民用半導(dǎo)體產(chǎn)業(yè)內(nèi)功相差甚遠(yuǎn)。
Frontier是由AMD主導(dǎo)打造的,AMD曾經(jīng)在與英特爾的商業(yè)競爭中受挫,從而差點(diǎn)一蹶不振。2015年,AMD攜帶十年磨一劍的Zen架構(gòu)再踏征程,在CPU方面與英特爾展開了慘烈的商業(yè)競爭。AMD還做GPU,與英偉達(dá)也殺得難解難分。伴隨著競爭而來的是,CPU、GPU的功耗比陡峭地下降,性能迅猛地上升。
Frontier使用的是AMD Epyc 7A53 CPU,為了充分降低功耗,這款64核的CPU主頻被限制在了2.0Ghz。雖然AMD不愿透露更多信息,外界普遍猜測這款號稱為超算定制的CPU改進(jìn)是有限的。AMD用于數(shù)據(jù)中心的芯片本來就有很多64核的芯片,其中有很多的基礎(chǔ)頻率就是2.0Ghz,將其用于超算,主要是限制主頻+芯片特挑。除此之外,AMD的64核芯片早已形成了多條產(chǎn)品線,既有壓低功耗的,也有像Epyc 7H12這樣的高功耗高性能的芯片。
AMD部分64核數(shù)據(jù)中心服務(wù)器芯片
由于AMD的64核系列能夠在商業(yè)市場賺大錢,進(jìn)而投入更多成本進(jìn)行優(yōu)化,因此Epyc 7A53雖然投入精力不多,也能在超算市場打出一片天來。
Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構(gòu),熟悉游戲顯卡的人不難想到近年來AMD游戲顯卡的架構(gòu)是RDNA2,兩者之間是存在關(guān)系的。MI250X加速卡可視為一張專門為計(jì)算打造的顯卡,眾所周知美國的CPU設(shè)計(jì)技術(shù)領(lǐng)先世界,但很少有人知道美國的GPU設(shè)計(jì)技術(shù)更是和其他國家拉開了代差。其他國家獨(dú)立自主研發(fā)的頂尖GPU,絕對性能與美國英偉達(dá)、AMD等巨頭之間存在2-3個(gè)數(shù)量級的差異。
Frontier之所以能在節(jié)點(diǎn)數(shù)量遠(yuǎn)少于海洋之光和“富岳”的情況下,實(shí)現(xiàn)E級超算,關(guān)鍵就在于MI250X加速卡突出的性能和功耗比。一張MI250X能提供的理論雙精度性能竟然有47.9TFLOP/s,是富士通A64FX的17倍,要是雙精度運(yùn)算全是超算應(yīng)用中較多的矩陣運(yùn)算,MI250X的理論性能還能進(jìn)一步提高到95.7TFLOP/s。
MI250X的基本情況
MI250X加速卡這么強(qiáng),不光是AMD本身的設(shè)計(jì),每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存?,F(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo),內(nèi)存速度將直接影響計(jì)算速度,這種內(nèi)存比普通的要快得多,目前卻只有少數(shù)企業(yè)能夠生產(chǎn)。
由于美國有著極為發(fā)達(dá)的民用芯片產(chǎn)業(yè),因此Frontier作為美國首臺(tái)E級超算,基本沒在超算理論上費(fèi)多少心,主要就是依靠近年來民用CPU、GPU功耗急劇下降,GPGPU(計(jì)算顯示核心)蓬勃生長的浪潮,極大地提高了每個(gè)節(jié)點(diǎn)的性能而實(shí)現(xiàn)的。
面對此情此景,我們要做的,不是否定過去篳路藍(lán)縷艱苦奮斗的國產(chǎn)超算成就,而要鼓勵(lì)民用計(jì)算機(jī)產(chǎn)業(yè)努力升級,直面競爭。超算是計(jì)算機(jī)產(chǎn)業(yè)的皇冠,超算和民用芯片的關(guān)系有越來越大的趨勢,只有我們民用計(jì)算芯片的寶石足夠大、足夠多,中國超算的皇冠才能更加璀璨。
本文系觀察者網(wǎng)獨(dú)家稿件,文章內(nèi)容純屬作者個(gè)人觀點(diǎn),不代表平臺(tái)觀點(diǎn),未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。