您現在的位置是：首頁 > 綜合

“東數西算”需要“懂數細算”

由華輿發表于綜合
2023-02-05

簡介東西部的算力中心，就分別更適用於熱資料和冷資料，從這個意義上來講，“東數西算”可以說是“東數西存”——主要是存，當然也有計算

馬原什麼是科學技術

『編者按：隨著新一代資訊通訊技術加速融入實體經濟，算力正在從金融科技、航空航天、地質勘探等領域，向政務、工業、交通、醫療等領域延伸拓展，極大激發了資料要素的創新活力。隨著國家“東數西算”戰略全面啟動，大資料產業向京津冀、長三角、成渝等國家算力樞紐節點集聚。截至目前，中國算力總規模超過150EFlops。中國工程院院士鄔賀銓日前在2022中國算力大會上的發言指出，資料中心切忌一步到位，若超前建設就會存在浪費。如何協同邊緣與中心雲的算力比例是需要認真研究的命題。本文為其在2022中國算力大會上的發言整理。』

▲（圖片來自Pixabay）

目前我國正在實施“東數西算”工程。在算力發展這個話題下，我來談一下對資料中心“數學”與“算術”的思考。這裡的“數學”是指資料的科學，“算術”指的是算力的技術。

要分開：以算為主or以存為主

從2012年到2019年，科技巨頭谷歌的算力需求6年間擴大了30萬倍，約每三個半月翻一番。它為什麼會有這麼高的計算需求？是人工智慧驅動了算力的增長。

以OpenAI於2020年釋出的人工智慧語言分析模型GPT-3為例，它的引數規模有1750億個，包含45TB資料，數學模型大小為700GB。微軟專門為OpenAI打造的超級計算機，擁有28。5萬個CPU和1萬個GPU，供OpenAI在上面訓練所有的AI模型，訓練一次的成本約為1300萬美元。可見，人工智慧建模對計算能力有很高的要求。

目前算力可以分為基礎算力（基於CPU晶片）、智慧算力（基於GPU和NPU晶片）和超算算力（基於高效能計算機）。基於GPU/NPU/FPGA等構建的AI智算中心，更適於訓練資料、匯出模型。訓練出數學模型後，後續透過模型使用輸入資料來計算AI決策結果，這時並不需要太高的計算算力。所以通常是用基於CPU的通用計算來做已知數學模型下的計算任務。這可以理解為智算中心的功能主要是算，資料中心的主要任務是存。

中國資訊通訊研究院的資料顯示，2021年全球算力分佈為，美國佔31%、中國佔27%，其次是日本、德國、英國等國家。其中，美國的基礎算力佔全球35%、智慧算力佔15%、超算佔30%，而中國這三類算力佔比分別為27%、26%和20%。

可以看出，美國以基礎算力為主，中國在智慧算力方面超過了美國。中國的超算和智慧算力中心是以政府為主，基礎算力以運營商和網際網路企業為主，美國則以網際網路企業為主。

另外，中國三大電信運營商都做了雲計算的能力和業務部署，全球其他運營商都沒有此類佈局，這與國外有所不同。

要關注：冷資料與熱資料

從資料角度看，大部分資料屬於熱資料或冷資料。熱資料主要是一些需要實時計算的資料，相比之下冷資料不需要實時性。國家的八大算力樞紐，實際上西部主要定位於處理冷資料和本地的一些熱資料；而東部主要是處理熱資料。

國際資料公司IDC提出，人類歷史上90%的資料都是過去幾年產生的，其中50%是過去兩年產生的。最近產生的資料是熱資料，但熱資料經過一段時間之後，也會“降溫”變成冷資料。一項統計認為，冷、溫、熱三類資料分別佔累計資料量的80%、15%和5%，這意味著，冷資料是最多的、主要的。

冷資料的需求主要是儲存。東西部的算力中心，就分別更適用於熱資料和冷資料，從這個意義上來講，“東數西算”可以說是“東數西存”——主要是存，當然也有計算。

在計算架構上，主要有兩種：存算分離、存內計算。

存算分離架構在控制單元指令下從儲存器讀資料並交給CPU計算，得到的結果再送回儲存器。如此往復的I/O通訊，對於熱資料的計算來說效率不高。

但存算分離有個優點，儲存單元不僅服務於單個計算單元，而且同時服務於多個伺服器的計算，形成一個池化的儲存，這樣能夠支援多雲計算，實現較高利用率和低成本、低能耗。而這恰好適用於冷資料，例如可以用雲平臺建模，用邊緣計算訓練與模擬。

不過，熱資料需快速計算，受限於存算分離I/O瓶頸，且CPU能力受累於儲存器訪問速度難以發揮，更需要存內計算。存內技術以隨機存取儲存器（RAM）替代硬碟，在RAM內完成所有運算。現在還有一些阻變儲存器和相變儲存器等新型非易失性儲存器，已經在實驗室中取得了突破，但要大規模推廣目前成本還較高。還有介於存內計算和存算分離之間的模式，如近存計算。

總體而言，存算分離適用於冷資料處理，存內計算適用於熱資料。舉個例子，自動駕駛的資料要在路邊甚至車內同時完成存與算。

西部以處理冷資料為主，但也需要處理當地的熱資料。冷熱資料是否需要分別採用不同的存算架構，這也是值得研究的問題。

要釐清：PUE與IT能效

現在資料中心都喜歡強調PUE。PUE是資料中心能耗佔IT系統能耗之比，反映了製冷系統的水平，但並不能衡量IT系統的能效。

衡量碳使用效率的指標是CUE，能直觀反映資料中心節碳水平。PUE與CUE在常規電力方面是等效的，但在使用“綠電”時，即使資料中心PUE很高，CUE也可以很低。因此，PUE低並不代表不耗能，因為IT系統也有能耗的。

據統計，資料中心IT系統的能耗中，伺服器約佔50%、儲存系統約佔35%、網路通訊裝置約佔15%。資料中心需要7×24小時工作，但連續工作並不是連續計算，一般來講，很多資料中心計算的時間佔比不高，但是資料“睡覺”的時候也耗能——此時儲存系統的能耗成為主體。所以麥卡錫報告稱，資料中心大部分電能是用於維持伺服器的，伺服器大部分時間僅用於儲存，只有6%~12%用來計算。所以，降低儲存的能耗非常重要。

降低能耗，首先要考慮冷資料儲存，有人建議採用磁帶代替磁碟。據估計100PB的資料儲存如果全部用硬碟，10年的儲存成本要1641萬美元；而如果這些資料100%用磁帶來代替，儲存成本可下降73%。

目前，磁帶儲存正被越來越多的科技公司所接受和應用。比如百度智慧駕駛已全面開始使用磁帶儲存，對比之前的儲存系統，整體成本下降了85%。

但對於熱資料，人們希望越快越好，就用快閃記憶體來代替磁碟。它不但速度快，能效也好，但目前成本還比較高。

還有一種改進能效的辦法是資料預處理。不是所有資料都是有用的，我們需要去掉一些無效值，如空格、有缺失的資料、過期資料等。另外，可以透過資料壓縮演算法把資料最佳化，而合理安排資料儲存的位置和排程，以比較精確地找出資料所存的位置，也可以減少能耗。

對“東數西算”的思考

“東數西算”使得算力設施的佈局超越了資料中心樞紐的範疇，雖然設想東部與西部互為冷熱資料的配對，但東部西部間應如何配比？

我注意到廣東省關於資料中心的規劃中，設計省內算力佔70%、省外算力佔30%。這與冷資料佔比80%的客觀情況有出入。按理說，省外多數是冷資料，冷資料佔80%，但省外算力只有30%，這顯然不能滿足需要。或者，是不是可以理解為，80%的冷資料是指儲存容量，而不是算力的比例？這是個問題。

另外在市場經濟條件下，東西部的存算比例理應“配對”，但是，誰去管它們之間的存算匹配？如果任由各自獨立設計，怎麼做到容量最佳利用？因此，在“東數西算”推進過程中，需要進一步加強東部和西部算力樞紐、資料中心的協同。

同時，同一資料中心樞紐或叢集內部也有很多比例需要最佳化。資料中心樞紐內有多個數據中心，每個資料中心內部又有多個業主。那麼，怎麼協調它們的能源、土地、電力等的供應？怎麼建立共享機制，以實現樞紐內各資料中心所需的能源與網路資源集約化，提升利用率？目前還沒有這種機制。為此，需要協調“東數西算”跨域資料中心能力，避免存、算資源不匹配。總之，“東數西算”還需要“懂數細算”。

此外，每一個數據中心還需要設計算力、存力和網路能力的合理比例以及相應的災備比例。這跟冷熱資料、大檔案小檔案資料關聯，不能“一刀切”。

從長遠來看，資料中心越大，能效越好，但也忌一步到位，一般而言，CPU一年半就要換代，若超前建設就會存在浪費。資訊科技研究和分析機構Gartner認為，到2025年，75%的資料要在邊緣處理，只有25%的資料會送到雲計算中心或資料樞紐。如何協同邊緣與中心雲的算力比例是需要認真研究的命題。所以，關於資料中心的“數學”和“算術”，還有很多需要深入研究的內容，算力對我們來講還是一個比較新的東西，我們要善於從實踐中學習創新。（完）

作者/鄔賀銓

上一篇：巧記歌訣記英語語法（三）

下一篇：哈弗神獸DHT-PHEV：動力領先比亞迪，但每月養車多花2百？

您現在的位置是：首頁 > 綜合

“東數西算”需要“懂數細算”

相關文章