您現在的位置是:首頁 > 棋牌

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

  • 由 OG極客 發表于 棋牌
  • 2022-12-18
簡介因為使用者的家目錄在檔案系統裡,需要去掛載檔案系統才能登入login 節點,然後配置作業排程的軟體,以便使用者透過作業排程軟體去提交作業到計算節點

集群系統怎麼用

哈嘍,大家好!奧工服務小分隊又來啦!基於以往的專案案例和實施經驗,我們精心策劃並開啟了“Geeki說”專欄,用來講述我們奧工工程師實踐故事和技術體會。

上一期《管理節點篇》向大家講述了頭節點如何安裝部署,本期“Geeki 說”讓我們一起聚焦超算平臺搭建實施的第二步,也是“看不見”的部分——集群系統部署,講講集群系統如何分發。

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

(超算平臺搭建實施四大模組示意圖)

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

(凝聚了服務小分隊智慧的一張圖)

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

首先,我們會把client節點的mac表匯入我們的管理節點,管理節點透過mac 表去分發對應節點的作業系統以及他們所需要的軟體。

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

(mac表示意圖)

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

說到這部分,不如舉個“栗子”

讓我們先來看一個配置

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

叢集包括登入節點、計算節點、io節點、管理節點。上圖中的大記憶體節點、fat節點和gpu節點都屬於計算節點的一種。

登入節點,該節點顧名思義,是用來給使用者登入的。我們高教領域的使用者不在少數,在學校的叢集平臺上,師生登入的時候不可能讓他們任意登入整個叢集。那麼如何限定他的許可權呢?這就需要選取或者規定其中幾臺節點作為他們的登入節點,只能登入並透過這些節點去操作叢集。

使用者登入後,需要計算節點進行下一步的計算操作,“跑”各種應用。比如“跑”生命科學應用需要呼叫計算節點,那麼登入節點就會透過作業排程軟體把這些任務派發到叢集的計算節點上,再透過計算節點的資源去進行計算。

上圖叢集配置中除了較常見的一些計算節點外,還有特別的cpu節點(包括大記憶體節點、fat節點)和gpu節點。大記憶體節點最明顯的特點是記憶體數量比較多,而fat節點則是cpu核數比較多,另外圖中兩個gpu節點的配置也是不同的,在gpu-k40節點中使用的是2塊 nvidia tesla k40c gpu卡,在gpu_v100節點中使用的是8塊 nvidia tesla v100 gpu卡,它們的功能傾向稍有不同。

說完配置,讓我們回到集群系統配置的圖解。▼▼▼

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

(管理節點部署詳細圖解)

首先是mgt。mgt對應管理節點,管理節點是用來管理整個叢集的,包括系統推送、使用者管理、系統批次操作等等。

由於叢集的儲存口有限,無法兼顧每一臺節點,可將儲存的磁碟空間對映給io節點,再透過io節點上層安裝gpfs並行檔案系統,將儲存映射出來的磁碟組成檔案系統,掛載給所有計算節點,那麼所有計算節點就能看到統一的儲存空間了。

另外大家耳熟能詳的login節點,即使用者登入節點,是用來給使用者登入的。使用者登入後只有普通許可權,並在這些限定節點進行作業提交,把任務派發到計算節點。

接下來是gpu計算節點和cpu計算節點,這裡就不多做贅述了。

以上是各個節點的介紹,下面和大家詳細聊一聊各個節點需要對應的軟體角色。

首先,管理節點需要ladp server(使用者管理)、作業排程server、ib驅動、系統最佳化、時間同步、rsyslog日誌和網路配置。

io節點包括了檔案系統server(因為只有它和儲存直接接觸),除此之外的配置基本同上。

login節點需要配置檔案系統的client端。因為使用者的家目錄在檔案系統裡,需要去掛載檔案系統才能登入login 節點,然後配置作業排程的軟體,以便使用者透過作業排程軟體去提交作業到計算節點。除了和前兩個節點差不多的配置,還有intel編譯器、環境變數指令碼等。

剩下的計算節點所需的功能點較少,多為軟體client端與效能調優,效能調優會在下一篇《效能測試篇》中詳細介紹,這裡也就不多說了。

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

以上部分配置完成了後,需要配置檔案系統。

檔案系統是在作業系統中負責管理和儲存檔案資訊。從系統角度來看,檔案系統是對檔案儲存裝置的空間進行組織和分配,負責檔案儲存並對存入的檔案進行保護和檢索的系統。而在之前的操作中所提到的“檔案系統”操作僅僅是安裝,安裝後還需要把檔案系統對接起來,透過配置io節點將檔案系統的最佳化項包括掛載項這些給作業節點配置好。

我們會透過建立叢集模板檔案,將所有的節點都新增進去,並定義節點角色,以建立的節點模板檔案來建立叢集,再建立nsd裝置(這裡需要提前準備磁碟描述檔案)。在準備好nsd底層的裝置之後,就可以建立gpfs對外提供的檔案系統了。

Geeki分享丨概述超算平臺搭建實施之《集群系統篇》

最後是作業排程系統的配置。

作業排程,簡單來說是將我們派發的作業提交給各個計算節點,它有四大明顯的特點:①在單位時間內儘可能提交更多的作業;②不斷提交作業,自動排隊,保證叢集利用率最高並一直處於忙碌狀態(可達到接近100%);③由於叢集利用率可達到100%,io得以充分利用,利用率相對也很高;④對所有使用者的作業的優先順序進行公平公正、合理有效的分配。

我們會透過修改lsf的配置檔案install。config裡面的內容,來修改安裝位置、管理者、叢集名、檔案位置、安裝源glibc檔案包地址等等,從而實現作業排程系統的配置。

在配置好作業排程系統後,我們集群系統的部署“四步走”就全部完成啦。

在完成整個叢集配置之後

需要對所搭建的叢集整體做一個驗證

下一篇《效能測試篇》

我們將和大家詳細聊一聊

“叢集效能如何測試”

期待和大家的再次見面!

咱們下期見!

- END -

「奧工科技」

奧工科技作為一家專業的融合計算服務提供商,面向企業級IT客戶提供端對端、可資源異構、全生命週期的HPC全棧服務,其中包括資源選型、專案規劃、實施服務、運維服務、運營支援、定製開發,全棧服務客戶HPC叢集建設需求。

Top