您現在的位置是:首頁 > 武術

阿里雲架構變革背後:刺破寧靜 啟用新增長

  • 由 王如晨 發表于 武術
  • 2022-08-25
簡介文章開頭,我們強調了新架構的技術創新,但重心仍在商業化層面:“CIPU+飛天雲作業系統”新體系架構除了進一步奠定數字化技術底座,還將有望重新啟用核心板塊IaaS層、PaaS層的效能與高質量增長,大幅擴充技術增值服務,提升綜合毛利,最終帶動整

競屬於什麼結構

王如晨/文

阿里雲架構變革背後:刺破寧靜 啟用新增長

阿里雲正透過一場體系架構的變革,刺破行業寧靜,重新定義下一代的雲。

藉此,它將不僅進一步奠定雲計算、數字化技術底座基礎,還將有望重新啟用核心板塊IaaS層、PaaS層的效能與高質量增長,大幅擴充技術增值,提升綜合毛利,最終帶動整個SaaS化生態的程序。

這一訊號,集中閃爍在幾日前的阿里雲2023財年首場峰會上。

按往年風格,阿里雲智慧總裁、達摩院院長張建鋒(花名:行癲)常會在首場峰會丟擲影響全年或更長一段的整體戰略、升級動向,為全年定下基調。當然也會有核心技術與產品,但更為關鍵的進展,大都會在下半年雲棲大會釋放。

這次味道有點不同。

“今年我們最重要的策略是B2B,就是Back to Basic,回到雲計算本質。雲計算的核心競爭力是技術,我們堅持在技術的長征路上,不斷取得新的突破。”當日,行癲演講中強調。

Back to Basic,迴歸核心技術。倘無重磅技術創新,峰會可能空洞,很難形成年度戰略指引。

那麼,上述所謂刺破雲計算行業底層寧靜感的底層技術創新,是個什麼呢?

那就是行癲丟擲的一個面向下一代雲計算服務的全新體系架構,也即“CIPU+飛天雲作業系統”。

架構創新大都不輕鬆。既可能涉及微觀的設計創新,也可能涉及重大的體系架構。你知道,10多年前,阿里雲就倡導“去IOE架構”。至今諸多關鍵垂直場景,仍在滲透與替換。

飛天雲作業系統早有口碑。它是阿里雲誕生後的重大創新。也是阿里雲多年來軟體定義計算、儲存、網路等服務的象徵。放在雲計算能力體系裡,它更近阿里雲PaaS層的核心支撐體系。

那麼,CIPU誕生的邏輯如何?它與飛天雲作業系統之間,又將如何定義全新的體系架構?

在行癲那裡,這與雲計算發展至今面臨的挑戰與困惑有關。

他認為,截至目前,雲計算發展已經歷兩大階段:

一、分散式、虛擬化階段。

主要生成於網際網路企業高速成長程序。後者驅動了大規模、超大規模的資料中心誕生,由此亦催生出分散式和虛擬化代表的雲計算技術。同時,在網際網路企業推動下,快速完成從傳統大機向分散式系統的遷移,並發展出許多新技術、新生態,尤其開源生態。

二、資源池化階段。

在以CPU為中心的分散式架構下,雲計算公司透過軟體定義,將計算、儲存資源池化,構建計算、儲存分離的架構,對資源統一的排程編排,提供給客戶,以雲原生方式重新設計整個架構跟軟體。兩大階段的相通之處,即在於透過軟體定義計算、儲存、網路。這也是過去多年來言必稱的風潮。至今仍在延續。

不過,在行癲看來,軟體定義固然靈活,但只靠它,已很難真正挖掘出硬體形態資源的效能。而它對以CPU為中心的傳統計算體系架構的最佳化,已到瓶頸期。之前,與Facebook有關的一份報告顯示,高達30%以上的硬體效能浪費了。

一重壓力來自需求面。

雲上客戶需求已發生重大變化,資料高密型計算越來越多,它們對雲計算提出了更高的低時延、高頻寬需求,傳統基於CPU為中心計算體系架構的最佳化,無法滿足。

另一重,則是現有云計算平臺技術、運營正面臨三大挑戰。即:

1、計算和網路傳輸時延壓力大。多年來分散式風潮下,一個大型應用分散在多個子系統部署,它們之間需高速互聯;

2、IDC內部互動流量擴大,亟待網路升級;

3、系統規模日益龐大而複雜,亟需解決超大規模基礎設施的複雜管理與雲內部超大應用管理問題。

這該怎麼辦?

你應該看到,上述壓力既涉及硬體技術問題,也涉及軟體層面複雜管理、協同、排程問題。

說白了,就是雲計算既要滿足超大規模的計算、效能要求,又要滿足軟體定義的靈活性。這在過去是一組矛盾。

要解決它,必須一硬一軟,兩者兼顧。

阿里雲CIPU正是軟體定義與資料中心硬體資源的新一層。它超越了傳統CPU為核心的架構,一旦接入它,計算、儲存和網路資源即可被加速、高效雲化,最大限度地挖掘整體資源效能。

阿里雲架構變革背後:刺破寧靜 啟用新增長

在此基礎上,CIPU硬體形態與飛天作業系統軟體定義優勢結合,既可高速雲化算力資源,又能透過飛天實現規模化、靈活高效的管理和排程。

你可能覺得CIPU似乎並不新。

外界早有類似的硬體層。比如亞馬遜2017年就開始定義Nitro,英偉達們定義了DPU,英特爾則崇尚IPU概念。至於各有對標的AMD、Marvell的同類產品不多說。各家方案雖有差異,但核心基本都是透過將將原基於CPU形成一些功能負載解除安裝到專用的加速器新硬體。

但這裡面明顯有兩大派系。

一是硬體出身的英特爾們。

英特爾不晚。有過FPGA收購,也有SmartNIC實踐,後者旨在提高資料中心網路吞吐量。後有別於DPU推出IPU。因進一步走出x86,一度被視為變革。人們注意到,最近幾年,它幾乎不談摩爾定律。

但這類,阿里雲早有成熟脈絡與運用。2017年公佈moc卡,2018年正式商用。作為神龍技術架構核心。在行癲那裡,MOC卡是“一個全新里程碑”。後來,依託它,實現規模化RDMA,替代了專用網路交換機和網絡卡裝置,行業普惠效應遠大於硬體出身的英特爾們。後者其實很難徹底超越X86架構利益思考問題,革自己的命很難。另外,它們的商業化實踐,多透過傳統夥伴尤其惠普、戴爾等硬體企業落地。

看似相近的硬體層,實際軟體定義實踐上,無法與公有云能力深厚的阿里雲們相比。缺乏雲計算各種場景實踐與驗證,本就是硬體巨頭們的短板。

當然,我們不是否定硬體一端的創新。我們也並不認同那種“CIPU徹底替代CPU”的說法。

CIPU本就具有高度相容性,連線各種異構計算。它有部分計算功能,但與飛天結合後的敏捷、靈活的管理、排程、普惠才更核心。未來,即便CIPU協同平頭哥其他資源如自研架構、倚天(ARM架構)、RISK-V等路徑替代部分基礎設施,它與飛天雲作業系統結合的體系架構也不可能走向排他。當然,特定行業與場景是另一回事。

這其實是阿里雲變革行業體系架構的精髓,也是新架構核心競爭力之一。CIPU更近面向所有硬體基礎設施高速雲化的加速器與OneAPI,而飛天則實現靈活、敏捷、精益的管理,這種能力更近商業層面。

媒體關注CIPU更多。實際上,它與飛天是天然的高度耦合關係。脫離一方談體系架構變革都不成立。某種程度上,CIPU是飛天雲作業系統能力的衍生與補充。這不是矮化硬體。而更多站在客戶角度說,它們並不清楚甚至不需要了解背後各種硬體邏輯。真正意義上的數字基礎設施,它的體感本來就更多體現為對技術的脫敏與無感。畢竟,做個飯,誰有空天天思考“水電煤”背後的形態。

脫離飛天雲作業系統孤立談CIPU,於阿里雲來說,沒多大意義。孤立的硬體形態CIPU,雖然有作用,但沒有飛天,根本不可能解決行業痛點。

另一派,則是亞馬遜們。

AWS富有口碑,2017年開始定義Nitro。要說CIPU沒一點對標它的用意,恐怕很難。

但兩者痛點更接近。而具體差異,我覺得阿里雲虛擬化技術負責人蔣林泉(花名:雁楊)的表達比較生動。

他說,主要有兩點:

1、兩家區別更多在於身處不同市場,“看到的風景不一樣”。但阿里雲指標,尤其效能、應用跑起來後,無論計算、儲存還是網路技術上,“超越對手不是一點點”。因為,國內客戶對效能和價效比的要求非常極致,背後也有阿里雲垂直技術棧支撐。

2、國內雲計算企業客戶和海外成熟度差異。主要是業務作業系統分佈不均衡。中小客戶需要沒那麼多能力做更多高可用,它們需要普惠服務。如此,阿里雲相比美國同業面臨的挑戰與機遇就是,在高效能情況下,保證大規模、高可用的穩定性。

關注最大多數客戶群體,從它們需求出發,建構普惠的技術與商業體系,一直是阿里雲乃至阿里集團誕生以來的邏輯,也是它們的核心競爭力。淘系如此,阿里雲如此,“CIPU+飛天雲作業系統”新體系架構也是如此。

這也是夸克長期以來更多從技術創新與商業化維度思考創新的基本邏輯。

文章開頭,我們強調了新架構的技術創新,但重心仍在商業化層面:“CIPU+飛天雲作業系統”新體系架構除了進一步奠定數字化技術底座,還將有望重新啟用核心板塊IaaS層、PaaS層的效能與高質量增長,大幅擴充技術增值服務,提升綜合毛利,最終帶動整個SaaS化生態的程序。

何以見得?

那你就應該意識到,新的體系架構在阿里雲“IaaS+PaaS+SaaS化生態”中的價值。

CIPU顯然更多“做深基礎”,它更近IaaS層,飛天雲作業系統則屬於PaaS層。

兩者結合,會發生什麼呢?那就是:阿里雲將有望藉助新架構重新啟用增長。

邏輯如此:截至目前,公有云IaaS層創造了阿里雲最大比例的營收。但幾年來,基於傳統CPU的雲計算體系架構,產品、服務相對標準,綜合毛利較低。而在度過阿里雲1。0時代、奠定公有云市場地位後,增速已明顯放緩。由於營收佔比較大,它決定著誕生以來阿里雲的整體利潤結構。

而“CIPU+飛天雲作業系統”新體系架構,將透過軟硬體結合,貫通IaaS+PaaS層最核心的部分,創造新的增長機制。

這裡當然不會提供更精細的分析。

但有必要做出提醒:“CIPU+飛天雲作業系統”新體系架構下,雲計算既滿足資料中心硬體資源高速雲化,又滿足軟體定義的靈活性,聽上去是技術問題,其實是:

1、充分挖掘算力,減少內耗,降本增效。

要意識到,時延、資料、未被充分聚合的算力、能耗等都是複雜的交易成本。

“CIPU+飛天雲作業系統”新體系架構本身也是降本增效的創新。短期也許它並不能真正改變阿里雲IaaS層的成本結構,但由於這部分營收規模較大,只要成本稍有下降,綜合毛利率稍有提升,IaaS層的效益絕對值就會非常明顯。

當然也有其他配套的降本策略。阿里集團高階研究員、阿里雲智慧基礎產品事業部負責人蔣江偉介紹仁和資料中心時提到,最大規模的單相浸沒液冷資料叢集,PUE可做到1。09,若全國資料中心都達到該值,每年節省的電量約等於三峽全年發電總量的2/3。

2、新體系架構也是LaaS層的新遊戲規則,有利於提升阿里雲的估值。

要意識到,走出CPU主導的體系架構,其實也等於有望走出後者主導的毛利結構。

世紀初,英特爾CPU與微軟windows構成的wintel聯盟,主導著整個行業的利潤結構。10多年前,前宏碁全球董事長王振堂曾對我說,CPU主導著25%以上。

新體系架構本身也是一種新的底層遊戲規則。要知道,阿里雲全球擁有眾多大規模資料中心,運營著200多萬臺伺服器。“CIPU+飛天雲作業系統”裡,隱藏著無法迴避的技術融合與系統整合服務。過往左右著利潤結構的CPU,雖然仍不可活躍,但只是一種算力的要素而已。隨著更多異構計算連結、納入,也包括阿里雲自研產品的持續融入,IaaS層增收不增利的局面將會打破。未來,它本身也可能扮演利潤中心。

新架構意味著,阿里雲IaaS層增長將有望被啟用,毛利結構而PaaS層目前已成為阿里雲核心利潤來源。這家公司已經連續6個季度保持盈利。

LaaS層與PaaS的架構創新,遠比應用層更難。“CIPU+飛天雲作業系統”新體系架構的公佈,有望成為重估阿里雲價值的新的維度。

3、新體系架構下,為更多硬軟體網路一體的雲訂閱服務創造了巨大的增長空間。

這一點,你只要注意到持續升級的阿里雲“無影”就能體會到。它不是簡單的PC概念,而是一種將軟硬體網路服務納入整個雲計算範疇的靈活的按需訂閱服務。

2020年,行癲將它定義為“雲端一體”,從而與“雲釘一體”共同構成了阿里雲“一體兩翼”的服務。無影是阿里雲服務輸出模式的重大創新。

由於這種輸出對於整個“雲、網、邊、端”的整體協同高度依賴,“CIPU+飛天雲作業系統”新體系架構的誕生,將會在後端雲服務的集約性、技術、平臺體驗上帶來更多利好。

我記得,去年,行癲談到雲計算時,還曾強調說,雲計算正在呈現為軟硬體網路一體的服務,“硬體也可以SaaS化”。

4、正在進一步協同、融合、打破邊界的“IaaS+PaaS+SaaS化生態”。

新架構給我們的一重啟示是,某種程度上,LaaS與PaaS的邊界正被打破。

或者說,兩者區域性正在融合。

雲計算已不是過往的結構與形態了,交匯處的創新空間巨大,未來的關鍵產品、毛利節點可能也會誕生在這裡。

阿里雲基礎產品首席架構師黃瑞瑞談到了趨勢變化。他說,針對核心應用,尤其當阿里雲服務如此多客戶之後,後者訴求正逐步從“以業務邏輯為中心轉向資料處理為中心”。

這意味著,無論是硬體形態的CIPU,還是軟體形態的飛天雲作業系統,它們生成的架構,真正的價值流轉,圍繞的同樣是新一代以資料處理為中心的應用,只是各自分工不同。軟硬體網路一體的雲計算服務,整個鏈路的邊界越來越遵從應用、客戶為中心的視角。未來,三個層面的交界處會更加模糊。

而對於不做SaaS的阿里雲來說,前兩者的創新將更加密集。過去兩年,除了底層的部分,我們確實看到阿里雲很多軟硬體網路一體的產品。看一眼6大產品線就明白:技術產品與基礎設施、邊緣雲與雲通訊、資料管理服務、AI與機器學習、企業與媒體服務、IoT。

阿里雲架構變革背後:刺破寧靜 啟用新增長

這種動向,契合著各種垂直行業數字化的空間。新架構創造了敏捷交付的機會。

阿里雲看去已不像“雲計算”了。行癲說,阿里雲已是數字化基礎設施服務商,當然也可以叫“雲計算”,只是雲的價值鏈越來越長、越來越深、越來越寬。

這意味著阿里雲的增長點將變得更加多元。而上述6條線並不包括釘釘單元。“雲釘一體”下,釘釘的兩個數字化,與阿里雲兄弟單元的產品,互相協同、補充甚至互為客戶關係。4月,釘釘一號位不窮坦陳,阿里云為釘釘奠定了很多客戶基礎,而釘釘也開始為阿里雲創造新客戶。

剛才我們說“CIPU+飛天雲作業系統”新體系架構有利於捕捉阿里雲新的更高質量、更可持續的增長機制,有利於重估阿里雲價值。我們認為,正在鬆動的三個層面的邊界,同樣為阿里雲的增長打開了多引擎的空間。

我們甚至預判,不止產品創新,阿里雲的組織架構,後續不排除也會因此出現新的升級。事實上,夸克也認為,“CIPU+飛天雲作業系統”與其說是一種新體系架構,毋寧說是阿里雲對於超大規模基礎設施的組織管理、整體運維到了一個精細化的時刻。它為外部提供數字化升級服務,事實上,升級本身也反映出,阿里雲自身也已是一個巨大的數字化場景。這是原生的商業實踐。

你可能覺得,過於側重模糊的商業成效,可能有損一種新的體系架構創新的技術背景。

當然,我們從未否認過阿里雲也是一家技術公司。

行癲此次強調說,新財年的基本策略是B2B(Back to Basic),回到雲計算本質,也就是技術創新。我們當然理解此刻這一“做深基礎”動向背後更多的複雜背景。比如:

1、它事關阿里集團的戰略。

作為“內需、全球化、大資料與雲計算”三大戰略之一的載體,阿里雲既是主業,也是未來的產業。作為技術與科技要素,它不僅事關阿里集團的業務增長,也是整個集團多元引擎架構持續落地的內在驅動力之一。

2022財年,阿里雲營收若計入內部生態貢獻,已突破1000億,淨利潤超過11億。儘管無法與淘系相比,但它已成為中國零售版圖之外第二大的營收與利潤中心。

阿里集團AAC本地已達10億,全球13億,這也意味著本地的增長將進入結構性、存量深耕、內部互滲的週期。它對技術、組織協同提出了更高的要求。

2、新的體系架構,還對應著行業演進、政策風向、地緣政治等各種複雜的背景。

很多話題不用展開,就能理解此刻的技術創新之於大國的緊迫。其實,阿里集團三大戰略與整個國家目前的整體戰略幾乎完全一一對映。此外,我們還看到阿里雲此次峰會多次強調安全,那就更為隱晦了。

峰會上,行癲等人有關阿里雲軟硬體技術要素與能力的敘述還有更多。尤其CIPU生成背後的RDMA規模化、盤古儲存、神龍計算平臺、平頭哥、可程式設計SNA融合算力閘道器以及軟硬體一體的整體洛神網路。

但阿里雲始終也是一家商業公司。迴歸雲計算技

Top