您現在的位置是:首頁 > 棋牌

雲原生超級計算背後的秘密:打通網路瓶頸是關鍵

  • 由 位元洞察 發表于 棋牌
  • 2022-01-05
簡介宋慶春深入介紹說:“英偉達基於InfiniBand網路的Quantum-2平臺具備多租戶、效能隔離、擁塞控制、網路計算等功能,為雲原生超級計算解決了一系列的難題

an的物件繪製在哪裡

這是一個算力為王的年代,無論是去年的主角AI,還是今天突然崛起的元宇宙,其背後的支撐都是算力。而隨著業界流行應用的變遷,算力本身也正在經歷一場重構。並且,當越來越多的應用跑在雲上之後,算力重構開始沿著兩條路徑進行。當我們被邊緣算力的重構吸引了太多關注之後,我們往往會忽略中心雲本身的變革。在這其中,旨在助力我們應對最棘手的HPC和AI應用的雲原生超級計算機,正在成為一個新的發展趨勢。英偉達網路事業部亞太區市場開發高階總監宋慶春近日就為我們解析了這一趨勢。

雲原生超級計算為何而生

在當今的商業雲計算服務中,使用者已經習慣了共享計算資源,但在此之前,使用者卻很難共享用於技術和科學應用的HPC系統。原因很簡單,在這些系統中,裸效能的優先順序最高,而且安全服務還會降低系統效率。但是,各種模擬、數字孿生、AI訓練等工作需要處理海量的資料,從而相應也就需要海量的算力,越來越多的使用者希望多使用者共享一臺超級計算機。

雲原生超級計算背後的秘密:打通網路瓶頸是關鍵

英偉達網路事業部亞太區市場開發高階總監宋慶春

宋慶春解釋了這其中的原因:“一方面,使用者渴求大的算力資源,另一方面,使用者對於大算力資源的需求卻又是波動性極大的。也許他們今天還需要這些海量的算力資源,但幾個月後這些算力資源就不再是他們需要的了。這個時候,算力資源的供應商就需要把超算效能和雲靈活性、安全性整合起來,提供一種更新的架構,以支援現在的業務需求。而這種需求讓雲原生超級計算機成為未來計算平臺的發展趨勢。”

雲原生超級計算機融合了高效能計算的強大算力和雲服務的安全性與易用性,提供一個性能強如TOP500超級計算機的HPC雲,在保障不犧牲應用效能的同時允許多使用者安全共享。這聽起來很不錯,但要實現起來卻要克服一系列技術難點。

在傳統超級計算機中,執行中的計算任務有時不得不暫停等待 CPU 去處理通訊任務,這是業界熟知的一個問題,被稱為系統噪聲。而在多租戶的狀態之下,這個缺點會被放大,因而云原生超級計算機需要計算和通訊的並行處理。其次,當多使用者共享一臺超級計算機時,同時保證每個使用者的應用的安全性和私密性,也成了一大難題。

然而,隨著英偉達在今年11月推出了Quantum-2平臺,應用NVIDIA Quantum-2交換機、ConnectX-7網絡卡、BlueField-3 InfiniBand DPU和相應軟體等產品,這一系列的難題已經迎刃而解了。

網路瓶頸的解法

傳統的超級計算機只有兩個“大腦”——CPU和GPU,但云原生超級計算機卻多引入了一個“大腦”——DPU,旨在幫助構建更快、更高效的系統。

DPU的本質是融計算與通訊於一體的網路裝置,基於DPU實現的雲原生計算架構,將通訊框架、儲存框架、安全框架和業務隔離放在DPU上來執行。這樣一來,就可以將CPU和GPU資源釋放給使用者的應用,裝置的整體算力自然也就得到了提升。具體來說,就是讓DPU來執行通訊框架,加速HPC業務中的通訊,由CPU和GPU執行真正的浮點計算。

英偉達BlueField-3 DPU在無阻塞(NON-BLOCKING)通訊環境下,其iAlltoall和iAllgather兩種MPI通訊效能分別提升了44%和36%。

英偉達的BlueField-3 DPU包含在Quantum-2平臺裡,因而可以依靠整體的力量發揮更大作用。

Quantum-2平臺是一個400Gbps的InfiniBand網路平臺,InfiniBand網路是一種天然最合適雲原生超級計算中心的網路。InfiniBand網路共有四條優勢:首先,InfiniBand網路是一種會計算的網路,可以在實現網絡卡計算、DPU計算和交換機計算;其次,InfiniBand網路具有可大規模擴充套件的特性,無網路死鎖和網路風暴;再次,InfiniBand網路是一種天然的SDN(軟體定義網路),可以集中實現軟體定義;最後,InfiniBand網路在業界具有IBTA標準規範,有著相容、清晰的路線圖。

宋慶春深入介紹說:“英偉達基於InfiniBand網路的Quantum-2平臺具備多租戶、效能隔離、擁塞控制、網路計算等功能,為雲原生超級計算解決了一系列的難題。”

例如,針對傳統超級計算機的系統噪聲問題,宋慶春重點介紹了Quantum-2平臺中動態路由和擁塞控制兩項新技術。

他說:“動態路由技術可以在傳輸資料時,根據網路的流量狀況選擇更為通暢的道路,將資料送到另一端。該技術對通訊效率有著顯著的提升,當前乙太網最好的通訊效率為76%,而基於InfiniBand網路的動態路由技術可以將通訊效率提升到96%。在VASP、BSMench等業務場景中,動態路由技術達到了很好的最佳化效果。”

而說到擁塞控制技術則,宋慶春表示:“擁塞控制技術是解決多工時超算雲效能降低問題的關鍵。此前,當多個任務執行在超算雲時,會出現互相干擾問題,影響了任務處理效率。擁塞控制技術可以識別不同業務,對那些會降低超算雲效能的任務進行一定調整,將其處理速率降低,保證整個網路的任務處理效率。在Microsoft Azure例項中,透過Quantum的動態路由技術和擁塞控制技術,其多租戶和單租戶的任務處理速度幾乎一致。”

這樣一來,在雲原生超級計算機中,計算和通訊可以實現並行處理,就像在高速公路上開設第三條車道一樣,能夠讓所有流量變得更加順暢。

零信任的功用

雲安全一直是使用者上雲路上的一隻攔路虎,而當雲計算與超級計算機相遇,不僅雲安全本身的問題被放大了,而且還要解決安全服務會降低系統效率的問題。

宋慶春說道:“隨著資料量級的不斷增加,非結構化的資料佔比的提升,資料處理的複雜程度正在增加,網路安全已成為資料安全的最大威脅。但是,傳統的方法和工具已經無法滿足現代資料中心的安全需求。如今發現一個漏洞大約需要200天,修復這個漏洞大約需要70天,這一速度顯然無法滿足資料中心要求。”

而在這樣的條件之下,零信任環境下的安全保障成了行業關注的焦點問題。英偉達對此也早有考慮,在今年的GTC大會上,英偉達釋出了DOCA 1。2,這是一款注重網路安全並支援零信任環境的軟體。此外,英偉達還發布了Morpheus安全框架,為未來的資料中心提供了一個透過AI技術進行安全防禦和事件管理的方法。

宋慶春介紹說:“傳統方法應對惡意攻擊的方法往往是先對惡意攻擊進行識別,再進行安全防禦。其問題在於惡意攻擊行為在不斷出新,無法識別這些惡意攻擊行為的傳統方法就無法實現100%的安全防禦。而Morpheus安全框架的特別之處在於,其透過AI深度學習,對資料中心的人、行為、裝置、流量等特徵進行提取、分析、訓練、推理,最終產生一套數字指紋模型。該安全框架可以在零監督、自學習的環境下,識別行為是否標準、存在惡意,對非標準行為進行監督,防護資料中心安全。”

DOCA 1。2則是一款零信任安全框架,這個框架可以幫助開發者實現網路安全即服務,將資料中心安全保護擴充套件到使用者涉及的應用、資料、裝置、儲存、基礎架構等幾乎每個關鍵點。它如同一個保護神,給算力支撐系統加了一把鎖。藉助DOCA 1。2的零信任安全框架,開發者可以建立量化的雲服務來控制資源訪問、驗證每個應用和使用者、隔離可能受到影響的機器並幫助保護資料免遭破壞和盜竊。

綜合來看,宋慶春強調:“GPU打破了越級計算機的單機算力瓶頸,Quantum-2平臺進一步解決了多租戶、效能隔離、擁塞控制等難題,而DOCA 1。2更是與Morpheus安全框架一起,將安全問題化解於無形。雲原生超級計算中,一個包含CPU、GPU、DPU的3U一體時代,正在向我們走來。”

俄亥俄州立大學 MVAPICH 實驗室成為了雲原生超級計算機最早的使用者之一。該實驗室的早期測試顯示,雲原生超級計算機執行某些HPC作業的速度是傳統計算機的 1。4 倍。該實驗室還展示,雲原生超級計算機實現了計算和通訊功能的100%重合,這比現有的 HPC 系統高出99%。在算力為王的時代,這樣的效能提升無疑將吸引更多使用者參與這場算力重構。

另一方面,在2021年11月的TOP500超算系統排名中,在TOP10的超級計算機中有8臺採用了英偉達GPU、InfiniBand網路技術,或同時採用了兩種技術。TOP500榜單的系統中,有333套(三分之二)採用了英偉達的技術。在雲原生超級計算取得領先優勢之後,英偉達必定將創造HPC領域的新格局。

Top