您現在的位置是:首頁 > 綜合

MLPerf排名榜重新整理:相同GPU配置訓練BERT,飛槳拿下世界第一

  • 由 量子位 發表于 綜合
  • 2022-12-21
簡介1 BERT模型,所有提交結果吞吐比較(8機64卡GPU)[1]飛槳分散式訓練核心技術解析及在MLPerf中的應用飛槳在MLPerf基準測試中取得的優異成績,得益於飛槳框架在分散式訓練核心技術上的持續探索和創新:高加速比的混合並行技術針對大

2階魔方散了怎麼裝圖解

允中 發自 凹非寺

量子位 | 公眾號 QbitAI

北京時間11月10日,全球權威AI訓練效能基準測試MLPerf Training v2。1結果正式公佈[1]。百度使用飛槳框架提交的8機64卡配置下的BERT模型訓練效能,位列同等GPU配置下世界第一。端到端訓練時間和訓練吞吐兩個指標均超越NVIDIA高度最佳化的NGC PyTorch框架。

MLPerf是全球影響力最廣的AI效能基準測試之一[2],飛槳本次奪魁,進一步體現了飛槳框架在分散式訓練效能上的領先優勢。

飛槳在MLPerf Training中的表現成績

在今年6月30日釋出的v2。0榜單裡[3],百度飛槳在8卡NVIDIA GPU(400W功耗,80G視訊記憶體)配置下,BERT模型訓練效能排名第一,比其他提交結果快5%~11%不等,展示了飛槳領先的單機多卡並行訓練效能優勢。

在v2。0優異效能的基礎上,飛槳在v2。1中提交的多機效能結果,進一步印證了分散式訓練的極致效能表現。圖1展示了v2。1中8機64卡NVIDIA GPU(400W功耗,80G視訊記憶體)配置下BERT模型的所有訓練效能資料(共4組),百度飛槳的端到端訓練收斂時間比其它提交結果快1%~20%不等;圖2展示了圖1各組提交資料的吞吐對比,百度飛槳的訓練吞吐比其他提交結果快2%~12%不等。

MLPerf排名榜重新整理:相同GPU配置訓練BERT,飛槳拿下世界第一

△圖1:MLPerf Training v2。1 BERT模型,端到端訓練收斂時間排名(8機64卡GPU)[1]

MLPerf排名榜重新整理:相同GPU配置訓練BERT,飛槳拿下世界第一

△圖2:MLPerf Training v2。1 BERT模型,所有提交結果吞吐比較(8機64卡GPU)[1]

飛槳分散式訓練核心技術解析及在MLPerf中的應用

飛槳在MLPerf基準測試中取得的優異成績,得益於飛槳框架在分散式訓練核心技術上的持續探索和創新:

高加速比的混合並行技術

針對大規模稠密引數模型高效訓練問題,飛槳在業內首創4D混合並行訓練策略。MLPerf BERT模型訓練任務基於飛槳的混合並行策略,在單機8卡場景實現了超線性加速,在8機64卡相對於單機的擴充套件效率達到了94%。

端到端自適應分散式訓練技術

針對分散式訓練調優困難的問題,飛槳提出了端到端自適應分散式訓練架構。對於MLPerf BERT模型訓練任務,根據叢集通訊拓撲特點並結合NCCL SHARP協議,使用全域性通訊與分層次通訊結合的方式降低整體通訊耗時,有效提升模型訓練效能。

高效的異構裝置負載均衡技術

針對分散式訓練經常出現的負載不均、資料載入速度瓶頸等問題,飛槳提出了異構裝置混合負載均衡的方案,根據不同裝置的算力特點,高效地進行負載均衡設計。MLPerf BERT模型訓練任務透過使用GPU高頻寬通訊,解決模型訓練啟動時的資料載入慢問題;透過CPU異構裝置通訊,實現模型訓練過程與資料負載均衡間的重疊,提高模型訓練效率。

針對分散式訓練經常出現的負載不均、資料載入速度瓶頸等問題,飛槳提出了異構裝置混合負載均衡的方案,根據不同裝置的算力特點,高效地進行負載均衡設計。

MLPerf BERT模型訓練任務透過使用GPU高頻寬通訊,解決模型訓練啟動時的資料載入慢問題;透過CPU異構裝置通訊,實現模型訓練過程與資料負載均衡間的重疊,提高模型訓練效率。

源自產業實踐飛槳分散式技術助力大模型落地

作為產業級深度學習平臺,飛槳的分散式訓練技術在實踐中不斷創新,並結合應用反饋持續最佳化。結合計算機視覺、自然語言處理、科學計算等領域的應用,飛槳研發了異構硬體下的低儲存和高效能訓練技術,相繼釋出了業界首個通用異構引數伺服器架構、4D混合並行訓練策略、端到端自適應分散式訓練架構等多項領先技術成果。

飛槳大規模分散式訓練技術,支援了百度大模型領域技術快速迭代持續領先。例如,百度釋出了全球首個知識增強千億大模型“鵬城-百度·文心”、全球首個百億引數中英文對話預訓練生成模型PLATO-XL、全球規模最大中文跨模態生成模型ERNIE-VILG、業界規模最大的多工統一視覺大模型VIMER-UFO。

此外,飛槳分散式技術還在國產硬體叢集上將AlphaFold2千萬級別蛋白initial training階段從7天壓縮到2。6天。目前,文心已釋出20多個大模型,覆蓋自然語言處理、計算機視覺、跨模態、生物計算等領域,賦能工業、能源、城市、金融等千行百業。

結語

繼在MLPerf Training v2。0獲得了BERT模型單機訓練效能世界第一後,飛槳在MLPerf Training v2。1的8機64卡配置下分散式訓練效能再度折桂。成績的背後,不僅是飛槳分散式框架的持續創新突破,也伴隨著硬體生態的蓬勃發展。

飛槳硬體生態夥伴體系歷經“共聚”、“共研”、“共創”三大階段,目前已攜手超過30家硬體廠商深度融合最佳化。飛槳與NVIDIA、Intel、瑞芯微、Arm等多傢伙伴廠商合作,結合自有軟硬體基礎開發棧特色,針對不同應用場景和產品,在共同推出飛槳生態發行版、建設開源開放模型庫、開發課程與培訓內容等方面開展合作。

比如,NVIDIA與飛槳合作推出了NGC飛槳映象,自2022年5月26日上線以來每月更新,持續不斷地將NVIDIA CUDA最新軟體棧與飛槳框架深度整合。NVIDIA與百度飛槳聯合打造了深度學習最佳化與部署課程,預計12月中旬在百度飛槳人工智慧學習與實訓社群(AI Studio)及NVIDIA 深度學習培訓中心 (DLI) 同步上線。

未來,飛槳將繼續在軟硬協同效能最佳化和大規模分散式訓練技術等方向持續創新,為廣大使用者提供廣泛適配、效能優異的產業級深度學習平臺。

參考文獻:

[1] MLPerf Training v2。1 Results

https://mlcommons。org/en/training-normal-21/

[2] THE NEXT PLATFORM

https://www。nextplatform。com/2021/08/10/why-the-mlperf-benchmark-is-good-for-ai-and-good-for-you/

[3] MLPerf Training v2。0 Results

https://mlcommons。org/en/training-normal-20/

[4] 飛槳框架v2。3釋出高可複用運算元庫PHI!重構開發正規化,降本增效

https://www。paddlepaddle。org。cn/support/news?action=detail&id=2994

[5] 飛槳框架v2。3一鍵開啟全自動效能最佳化,媲美專家級最佳化效果

https://www。paddlepaddle。org。cn/support/news?action=detail&id=3079

Top