您現在的位置是:首頁 > 棋牌

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

  • 由 深度人工智慧學院 發表于 棋牌
  • 2022-10-11
簡介VPUVector Processing Unit 向量處理器,Intel收購的Movidius公司推出的影象處理與人工智慧的專用晶片的加速計算核心

並行處理是什麼意思

人工智慧的發展離不開算力的支援,算力又是依附於各種硬體裝置的,沒有了算力裝置的加持,就好比煉丹少了丹爐一樣,可想而知,人工智慧智慧也就無用武之地了。以深度學習為主的人工智慧方向的發展更是離不開強大的算力支援。隨著深度學習的不斷髮展,各種各樣的晶片也逐漸拋頭露面,見過的,沒見過的,聽過的沒有聽過的都出現在眼前,一下有些眼花繚亂,一時竟不知選擇哪個?當然前提是不差錢。

本學徒在打雜的時候就發現了眾多的

XPU,

例如

GPU, TPU, DPU, NPU, BPU……,

各種不同的

XPU還分不同等級的系列,價格也大不相同,要起錢來一個比一個兇猛。突然覺得這玩意根本就不是我們這些窮人玩的,雖然當時看的頭暈目眩,內心波濤洶湧,但是仍然還要表現的波瀾不驚才行,畢竟做為一名資深的煉丹學徒,還是要有最基本的心裡素質的。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

東西貴是貴,但是擋不住看起來真香啊。那麼接下了,本學徒就給大家介紹一些常見的、以及不常見的

XPU吧。

首先介紹一下這些常見的XPU的英文全稱:

CPU全稱:Central Processing Unit, 中央處理器;

GPU全稱:Graphics Processing Unit, 影象處理器;

TPU全稱:Tensor Processing Unit, 張量處理器;

DPU全稱:Deep learning Processing Unit, 深度學習處理器;

NPU全稱:Neural network Processing Unit, 神經網路處理器;

BPU全稱:Brain Processing Unit, 大腦處理器。

下面就來科普一下這些所謂的

“XPU”

CPU

CPU( Central Processing Unit, 中央處理器)

一般是指的裝置的

“大腦”

,是整體佈局、釋出執行命令、控制行動的

總指揮

CPU主要包括運算器(ALU, Arithmetic and Logic Unit)和控制單元(CU, Control Unit),除此之外還包括若干暫存器、快取記憶體器和它們之間通訊的資料、控制及狀態的匯流排。CPU遵循的是馮諾依曼架構,即儲存程式、順序執行。一條指令在CPU中執行的過程是:讀取到指令後,透過指令匯流排送到控制器中進行譯碼,併發出相應的操作控制訊號。然後運算器按照操作指令對資料進行計算,並透過資料匯流排將得到的資料存入資料快取器。因此,CPU需要大量的空間去放置儲存單元和控制邏輯,相比之下計算能力只佔據了很小的一部分,在大規模平行計算能力上極受限制,而更擅長於邏輯控制。

簡單一點來說CPU主要就是三部分:

計算單元、控制單元和儲存單元

,其架構如下圖所示:

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

CPU微架構示意圖

什麼?這個架構太複雜,記不住?來,那麼我們換一種表示方法:

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

CPU微架構示意圖

嗯,大概就是這個意思。

從字面上我們也很容易理解,上面的

計算單元

主要執行計算機的算術運算、移位等操作以及地址運算和轉換;而

儲存單元

主要用於儲存計算機在運算中產生的資料以及指令等;

控制單元

則對計算機發出的指令進行譯碼,並且還要發出為完成每條指令所要執行的各個操作的控制訊號。

所以在CPU中執行一條指令的過程基本是這樣的:指令被讀取到後,透過控制器(黃色區域)進行譯碼被送到匯流排的指令,並會發出相應的操作控制訊號;然後透過運算器(綠色區域)按照操作指令對輸入的資料進行計算,並透過資料匯流排將得到的資料存入資料快取器(大塊橙色區域)。過程如下圖所示:

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

CPU執行指令圖

這個過程看起來是不是有點兒複雜?沒關係,這張圖可以

不用記住,我們只需要知道,

CPU遵循的是

馮諾依曼架構

,其核心就是:

儲存

計算

程式,

按照

順序執行。

講到這裡,有沒有看出問題,沒錯

——在上面的這個結構圖中,

負責計算的綠色區域佔的面積似乎太小了,而橙色區域的快取Cache和黃色區域的控制單元佔據了大量空間。

高中化學有句老生常談的話叫:

結構決定性質

,放在這裡也非常適用。

因為

CPU的架構中需要大量的空間去放置

儲存單元(橙色部分)

控制單元(黃色部分)

,相比之下

計算單元(綠色部分)

只佔據了很小的一部分,所以它在大規模平行計算能力上極受限制,而更擅長於邏輯控制。

另外,因為遵循馮諾依曼架構(儲存程式,順序執行),

CPU就像是個一板一眼的管家,人們吩咐它的事情它總是一步一步來做,當做完一件事情才會去做另一件事情,從不會同時做幾件事情。但是隨著社會的發展,大資料和人工智慧時代的來臨,人們對更大規模與更快處理速度的需求急速增加,這位管家漸漸變得有些力不從心。

於是,大家就想,我們能不能把多個處理器都放在同一塊晶片上,讓它們一起來做事,相當於有了多位管家,這樣效率不就提高了嗎?

沒錯,就是這樣的,我們使用的GPU便由此而誕生了。

GPU

我們在正式瞭解GPU之前,還是先來了解一下

上文中提到的一個概念

——

平行計算。

平行計算

(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程,是提高計算機系統計算速度和資料處理能力的一種有效手段。它的基本思想是用多個處理器來共同求解同一個問題,即將被求解的問題分解成若干個部分,各部分均由一個獨立的處理機來平行計算完成。

平行計算可分為

時間上的並行

空間上的並行

時間上的並行是指流水線技術,比如說工廠生產食品的時候分為四步:清洗

-消毒-切割-包裝。

如果不採用流水線,一個食品完成上述四個步驟後,下一個食品才進行處理,耗時且影響效率。但是採用流水線技術,就可以同時處理四個食品。這就是並行演算法中的時間並行,在同一時間啟動兩個或兩個以上的操作,大大提高計算效能。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:流水線示意圖

空間上的並行是指多個處理機併發的執行計算,即透過網路將兩個以上的處理機連線起來,達到同時計算同一個任務的不同部分,或者單個處理機無法解決的大型問題。

比如小李準備在植樹節種三棵樹,如果小李

1個人需要6個小時才能完成任務,植樹節當天他叫來了好朋友小紅、小王,三個人同時開始挖坑植樹,2個小時後每個人都完成了一顆植樹任務,這就是並行演算法中的空間並行,將一個大任務分割成多個相同的子任務,來加快問題解決速度。

所以說,如果讓CPU來執行這個種樹任務的話,它就會一棵一棵的種,花上6個小時的時間,但是讓GPU來種樹,就相當於好幾個人同時在種。

為了解決

CPU在大規模並行運算中遇到的困難, GPU應運而生,

GPU全稱為Graphics Processing Unit

,中文為

圖形處理器

,就如它的名字一樣,圖形處理器,GPU最初是用在個人電腦、工作站、遊戲機和一些移動裝置(如平板電腦、智慧手機等)上執行繪圖運算工作的微處理器。

GPU

採用數量眾多的計算單元和超長的流水線,善於處理影象領域的運算加速。但

GPU無法單獨工作,必須由CPU進行控制呼叫才能工作。CPU可單獨作用,處理複雜的邏輯運算和不同的資料型別,但當需要大量的處理型別統一的資料時,則可呼叫GPU進行平行計算。近年來,人工智慧的興起主要依賴於大資料的發展、演算法模型

的完善和硬體計算能力的提升。其中硬體的發展則歸功於

GPU的出現。

為什麼

GPU特別擅長處理影象資料呢?這是因為影象上的每一個畫素點都有被處理的需要,而且每個畫素點處理的過程和方式都十分相似,也就成了GPU的天然溫床。

GPU簡單架構如下圖所示:

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

GPU微架構示意圖

從架構圖我們就能很明顯的看出,GPU的構成相對簡單,有數量眾多的計算單元和超長的流水線,特別適合處理大量的型別統一的資料。

但GPU無法單獨工作,必須由CPU進行控制呼叫才能工作

CPU可單獨作用,處理複雜的邏輯運算和不同的資料型別,但當需要大量的處理型別統一的資料時,則可呼叫GPU進行平行計算。

注:

GPU中有很多的運算器ALU和很少的快取cache,快取的目的不是儲存後面需要訪問的資料的,這點和CPU不同,而是為執行緒thread提高服務的。如果有很多執行緒需要訪問同一個相同的資料,快取會合並這些訪問,然後再去訪問dram。

再把

CPU和GPU兩者放在一張圖上看下對比,就非常一目瞭然了。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

GPU的工作大部分都計算量大,但沒什麼技術含量,而且要重複很多很多次。

借用知乎上某大神的說法,就像你有個工作需要計算幾億次一百以內加減乘除一樣,最好的辦法就是僱上幾十個小學生一起算,一人算一部分,反正這些計算也沒什麼技術含量,純粹體力活而已;而

CPU就像老教授,積分微分都會算,就是工資高,一個老教授能頂二十個小學生,你要是富士康你僱哪個?

GPU就是用很多簡單的計算單元去完成大量的計算任務,純粹的人海戰術。這種策略基於一個前提,就是小學生A和小學生B的工作沒有什麼依賴性,是互相獨立的。

但有一點需要強調,雖然GPU是為了影象處理而生的,但是我們透過前面的介紹可以發現,它在結構上並沒有專門為影象服務的部件

,只是對

CPU的結構進行了最佳化與調整,所以現在GPU不僅可以在影象處理領域大顯身手,它還被用來科學計算、密碼破解、數值分析,海量資料處理(排序,Map-Reduce等),金融分析等需要大規模平行計算的領域。

所以

GPU也可以認為是一種較通用的晶片。

TPU

按照上文所述,

CPU和GPU都是較為通用的晶片,但是有句老話說得好:

萬能工具的效率永遠比不上專用工具。

隨著人們的計算需求越來越專業化,人們希望有晶片可以更加符合自己的專業需求,這時,便產生了

ASIC(專用積體電路)的概念。

ASIC是指依產品需求不同而定製化的特殊規格積體電路,由特定使用者要求和特定電子系統的需要而設計、製造。當然這概念不用記,簡單來說就是

定製化晶片。

因為ASIC很“專一”,只做一件事,所以它就會比CPU、GPU等能做很多件事的晶片在某件事上做的更好,實現更高的處理速度和更低的能耗。但相應的,ASIC的生產成本也非常高。

TPU(Tensor Processing Unit, 張量處理器)

就是

谷歌

專門為加速深層神經網路運算能力而研發的一款晶片,

其實也是一款ASIC。

人工智慧旨在為機器賦予人的智慧,機器學習是實現人工智慧的強有力方法。所謂機器學習,即研究如何讓計算機自動學習的學科。

TPU就是這樣一款專用於機器學習的晶片,它是Google於2016年5月提出的一個針對Tensorflow平臺的可程式設計AI加速器,其內部的指令集在Tensorflow程式變化或者更新演算法時也可以執行。TPU可以提供高吞吐量的低精度計算,用於模型的前向運算而不是模型訓練,且能效(TOPS/w)更高。在Google內部,CPU,GPU,TPU均獲得了一定的應用,相比GPU,TPU更加類似於DSP,儘管計算能力略有遜色,

但是其功耗大大降低,而且計算速度非常的快。然而,

TPU,GPU的應用都要受到CPU的控制。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:谷歌第二代

TPU

一般公司是很難承擔為深度學習開發專門

ASIC晶片的成本和風險的,但谷歌是誰,人家會差錢嗎?

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

開個

玩笑。更重要的原因是谷歌提供的很多服務,包括谷歌影象搜尋、谷歌照片、谷歌雲視覺

API、谷歌翻譯等產品和服務都需要用到深度神經網路。基於谷歌自身龐大的體量,開發一種專門的晶片開始具備規模化應用(大量分攤研發成本)的可能。

如此看來,

TPU登上歷史舞臺也順理成章了。

原來很多的機器學習以及影象處理演算法大部分都跑在

GPU與FPGA(半定製化晶片)上面,但這兩種晶片都還是一種通用性晶片,所以在效能與功耗上還是不能更緊密的適配機器學習演算法,而且Google一直堅信偉大的軟體將在偉大的硬體的幫助下更加大放異彩,所以Google便想,我們可不可以做出一款專用機機器學習演算法的專用晶片,TPU便誕生了。

據稱,

TPU與同期的CPU和GPU相比,可以提供15-30倍的效能提升,以及30-80倍的效率(效能/瓦特)提升。

初代的

TPU只能做推理,要依靠Google雲來實時收集資料併產生結果,而訓練過程還需要額外的資源;而第二代TPU既可以用於訓練神經網路,又可以用於推理。

看到這裡你可能會問了,為什麼

TPU會在效能上這麼牛逼呢?

TPU是怎麼做到如此之快呢?

1)深度學習的定製化研發:TPU 是谷歌專門為加速深層神經網路運算能力而研發的一款晶片,其實也是一款 ASIC(專用積體電路)。

2)大規模片上記憶體:TPU 在晶片上使用了高達 24MB 的區域性記憶體,6MB 的累加器記憶體以及用於與主控處理器進行對接的記憶體。

3)低精度 (8-bit) 計算:TPU 的高效能還來源於對於低運算精度的容忍,TPU 採用了 8-bit 的低精度運算,也就是說每一步操作 TPU 將會需要更少的電晶體。

嗯,谷歌寫了好幾篇論文和博文來說明這一原因,所以僅在這裡拋磚引玉一下。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

TPU 各模組的框圖

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

圖:

TPU晶片佈局圖

如上圖所示,

TPU在晶片上使用了高達24MB的區域性記憶體,6MB的累加器記憶體以及用於與主控處理器進行對接的記憶體,總共佔芯片面積的37%(圖中藍色部分)。

這表示谷歌充分意識到了片外記憶體訪問是GPU能效比低的罪魁禍首,因此不惜成本的在晶片上放了巨大的記憶體。

相比之下,英偉達同時期的

K80只有8MB的片上記憶體,因此需要不斷地去訪問片外DRAM。

另外,

TPU的高效能還來源於對於低運算精度的容忍。

研究結果表明,低精度運算帶來的演算法準確率損失很小,但是在硬體實現上卻可以帶來巨大的便利,包括功耗更低、速度更快、佔芯片面積更小的運算單元、更小的記憶體頻寬需求等

。。。TPU採用了8位元的低精度運算。

其它更多的資訊可以去翻翻谷歌的論文。

到目前為止,

TPU其實已經幹了很多事情了,例如機器學習人工智慧系統RankBrain,它是用來幫助Google處理搜尋結果併為使用者提供更加相關搜尋結果的;還有街景Street View,用來提高地圖與導航的準確性的;當然還有下圍棋的計算機程式AlphaGo!

NPU

講到這裡,相信大家對這些所謂的

“XPU”的套路已經有了一定了解,我們接著來。

所謂

NPU(Neural network Processing Unit)

神經網路處理器

。神經網路處理器(

NPU)採用“資料驅動平行計算”的架構,特別擅長處理影片、影象類的海量多媒體資料。NPU處理器專門為物聯網人工智慧而設計,用於加速神經網路的運算,解決傳統晶片在神經網路運算時效率低下的問題。

GX8010中,CPU和MCU各有一個NPU,MCU中的NPU相對較小,習慣上稱為SNPU。NPU處理器包括了乘加、啟用函式、二維資料運算、解壓縮等模組。乘加模組用於計算矩陣乘加、卷積、點乘等功能,NPU內部有64個MAC,SNPU有32個。

啟用函式模組採用最高

12階引數擬合的方式實現神經網路中的啟用函式,NPU內部有6個MAC,SNPU有3個。二維資料運算模組用於實現對一個平面的運算,如降取樣、平面資料複製等,NPU內部有1個MAC,SNPU有1個。解壓縮模組用於對權重資料的解壓。為了解決物聯網裝置中記憶體頻寬小的特點,在NPU編譯器中會對神經網路中的權重進行壓縮,在幾乎不影響精度的情況下,可以實現6-10倍的壓縮效果。

既然叫

神經網路處理器

顧名思義,這傢伙是想用電路模擬人類的神經元和突觸結構啊!

怎麼模仿?那就得先來看看人類的神經結構

——生物的神經網路由若干人工神經元結點互聯而成,神經元之間透過突觸兩兩連線,突觸記錄了神經元之間的聯絡。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

同志們,高中生物還記得嗎?

如果想用電路模仿人類的神經元,就得把每個神經元抽象為一個激勵函式,該函式的輸入由與其相連的神經元的輸出以及連線神經元的突觸共同決定。

為了表達特定的知識,使用者通常需要(透過某些特定的演算法)調整人工神經網路中突觸的取值、網路的拓撲結構等。該過程稱為

“學習”。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

在學習之後,人工神經網路可透過習得的知識來解決特定的問題。

這時不知道大家有沒有發現問題

——原來,由於深度學習的基本操作是神經元和突觸的處理,而傳統的處理器指令集(包括x86和ARM等)是為了進行通用計算發展起來的,其基本操作為算術操作(加減乘除)和邏輯操作(與或非),往往需要數百甚至上千條指令才能完成一個神經元的處理,深度學習的處理效率不高。

這時就必須另闢蹊徑——突破經典的馮·諾伊曼結構!

神經網路中儲存和處理是一體化的,都是透過突觸權重來體現。

而馮

·諾伊曼結構中,儲存和處理是分離的,分別由儲存器和運算器來實現,二者之間存在巨大的差異。當用現有的基於馮·諾伊曼結構的經典計算機(如X86處理器和英偉達GPU)來跑神經網路應用時,就不可避免地受到儲存和處理分離式結構的制約,因而影響效率。這也就是專門針對人工智慧的專業晶片能夠對傳統晶片有一定先天優勢的原因之一。

2016年6 月 20 日,中星微數字多媒體

晶片技術

國家重點實驗室在北京宣佈,已研發成功了中國首款嵌入式神經網路

處理器(

NPU)晶片,成為全球首顆具備深度學習人工智慧的嵌入式影片採集壓縮編碼系統級晶片,並取名“星光智慧一號”。

NPU的典型代表

有國內的寒武紀晶片和IBM的TrueNorth。

以中國的寒武紀為例,

DianNaoYu指令直接面對大規模神經元和突觸的處理,一條指令即可完成一組神經元的處理,並對神經元和突觸資料在晶片上的傳輸提供了一系列專門的支援。

用數字來說話,

CPU、GPU與NPU相比,會有百倍以上的效能或能耗比差距——以寒武紀團隊過去和Inria聯合發表的DianNao論文為例——DianNao為單核處理器,主頻為0。98GHz,峰值效能達每秒4520億次神經網路基本運算,65nm工藝下功耗為0。485W,面積3。02平方毫米mm。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

華為mate10中所用的麒麟970晶片,就集成了寒武紀的NPU,NPU是麒麟970處理器的最大特徵,專業來說,它相當於是設立了一個專門的AI硬體處理單元—NPU,主要用來處理海量的AI資料。NPU是麒麟970晶片中,搭載的一顆用於神經元計算的獨立處理單元,英文名 Neural Network Processing Unit,簡稱 NPU,中文含義為“神經元網路”,它的功能主要是「A new brain in your mobile」,簡單地說,藉助這個玩意兒,你的手機或許會變得更聰明一些。

簡單地說,由於神經元分佈是網狀結構,因此能夠實現發散式的資訊處理及儲存,使得處理與儲存的效率大大提高,並有助於機器學習

(啊,我的手機都開始認真學習了),沒錯和我們平時所說的「發散性思維」有些像。

由於神經網路演算法及機器學習需要涉及海量的資訊處理,而當下的

CPU / GPU 都無法達到如此高效的處理能力,所以需要有一個獨立的處理晶片來做這個事,麒麟 970 晶片中的這個 NPU 便是這樣的一個角色。

華為

mate10的手機

有了

NPU,才可以實現所謂的照片最佳化功能,以及保證手機用了很長時間後還能不卡(當然也得真正用了才能知道有沒有宣傳的這麼好)。

另外,

以往我們的手機無法知道一張圖片裡,除了我們的臉之外,還有些什麼,而如今藉助

NPU 這類晶片,手機能夠知道你在哪裡拍了什麼照片,照片中有什麼著名的建築或者哪條街,同時貓啊狗啊也能幫你分析出來,甚至為他們設一個照片專輯。

當然,經過長期與大量的學習後,手機便能在你拍攝的過程中實時分析拍攝場景,並分別針對不同的場景進行相機引數的設定,從而實現「隨手拍出好照片」

還可以

通過了解使用者經常會在哪些地方做什麼事情,來分析使用者的使用習慣,目的是在經過一段時間的學習之後,自動為使用者在某些場景實現某些功能。此外,還能分析出機主的使用者畫像,並針對性地做系統資源最佳化

(如電量、效能、運存等),讓手機真正達到越用越貼心。

PS,中星微電子的“星光智慧一號”雖說對外號稱是NPU,但其實只是DSP,僅支援網路正向運算,無法支援神經網路訓練。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

在我們瞭解了

以上這些知識的基礎上,我們再來理解

BPU和DPU就更容易了。

BPU

Brain Processing Unit (大腦處理器)。

地平線機器人(Horizon Robotics)以 BPU 來命名自家的 AI 晶片。地平線是一家成立於 2015 年的 start-up,總部在北京,目標是“嵌入式人工智慧全球領導者”。地平線的晶片未來會直接應用於自己的主要產品中,包括:智慧駕駛、智慧生活和智慧城市。地平線機器人的公司名容易讓人誤解,以為是做“機器人”的,其實不然。地平線做的不是“機器”的部分,是在做“人”的部分,是在做人工智慧的“大腦”,所以,其處理器命名為 BPU。相比於國內外其他 AI 晶片 start-up 公司,第一代是高斯架構,第二代是伯努利架構,第三代是貝葉斯架構。目前地平線已經設計出了第一代高斯架構,並與英特爾在2017年CES展會上聯合推出了ADAS系統(高階駕駛輔助系統)。BPU主要是用來支撐深度神經網路,比在CPU上用軟體實現更為高效。然而,BPU一旦生產,不可再程式設計,且必須在CPU控制下使用。BPU 已經被地平線申請了註冊商標,其他公司就別打 BPU 的主意了。

Biological Processing Unit。一個口號“21 世紀是生物學的世紀”忽悠了無數的有志青年跳入了生物領域的大坑。其實,這句話需要這麼理解,生物學的進展會推動 21 世紀其他學科的發展。比如,對人腦神經系統的研究成果就會推動 AI 領域的發展,SNN 結構就是對人腦神經元的模擬。不管怎麼說,隨著時間的推移,坑總會被填平的。不知道生物處理器在什麼時間會有質的發展。

Bio-Recognition Processing Unit。生物特徵識別現在已經不是紙上談兵的事情了。指紋識別已經是近來智慧手機的標配,電影裡的黑科技虹膜識別也上了手機,聲紋識別可以支付了 。。。 不過,除了指紋識別有專門的 ASIC 晶片外,其他生物識別還基本都是 sensor 加通用 cpu/dsp 的方案。不管怎樣,這些晶片都沒佔用 BPU 或 BRPU 這個寶貴位置。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

D 是 Deep Learning 的首字母,以 Deep Learning 開頭來命名 AI 晶片是一種很自然的思路。

DPU

Deep-Learning Processing Unit(深度學習處理器)。

DPU 並不是哪家公司的專屬術語。在學術圈,Deep Learning Processing Unit(或 processor)被經常提及。例如 ISSCC 2017 新增的一個 session 的主題就是 Deep Learning Processor。以 DPU 為目標的公司如下。

Deephi Tech(深鑑) 深鑑是一家位於北京的 start-up,初創團隊有很深的清華背景。深鑑將其開發的基於 FPGA 的神經網路處理器稱為 DPU。到目前為止,深鑑公開發布了兩款 DPU:亞里士多德架構和笛卡爾架構,分別針對 CNN 以及 DNN/RNN。雖然深鑑號稱是做基於 FPGA 的處理器開發,但是從公開渠道可以看到的招聘資訊以及非公開的業內交流來看,其做晶片已成事實。

TensTorrent 一家位於 Toronto 的 start-up,研發專為深度學習和智慧硬體而設計的高效能處理器,技術人員來自 NVDIA 和 AMD。

Deep Learning Unit。深度學習單元。Fujitsu(富士通)最近高調宣佈了自家的 AI 晶片,命名為 DLU。名字雖然沒什麼創意,但是可以看到 DLU 已經被富士通標了“TM”,雖然 TM 也沒啥用。在其公佈的資訊裡可以看到,DLU 的 ISA 是重新設計的,DLU 的架構中包含眾多小的 DPU(Deep Learning Processing Unit)和幾個大的 master core(控制多個 DPU 和 memory 訪問)。每個 DPU 中又包含了 16 個 DPE(Deep-Learning Processing Element),共 128 個執行單元來執行 SIMD 指令。富士通預計 2018 財年內推出 DLU。

Deep Learning Accelerator。深度學習加速器。NVIDA 宣佈將這個 DLA 開源,給業界帶來了不小的波瀾。大家都在猜測開源 DLA 會給其他 AI 公司帶來什麼。參考這篇吧“從 Nvidia 開源深度學習加速器說起”

Dataflow Processing Unit。資料流處理器。創立於 2010 年的 wave computing 公司將其開發的深度學習加速處理器稱為 Dataflow Processing Unit(DPU),應用於資料中心。Wave 的 DPU 內整合 1024 個 cluster。每個 Cluster 對應一個獨立的全定製版圖,每個 Cluster 內包含 8 個算術單元和 16 個 PE。其中,PE 用非同步邏輯設計實現,沒有時鐘訊號,由資料流驅動,這就是其稱為 Dataflow Processor 的緣由。使用 TSMC 16nm FinFET 工藝,DPU die 面積大概 400mm^2,內部單口 sram 至少 24MB,功耗約為 200W,等效頻率可達 10GHz,效能可達 181TOPS。前面寫過一篇他家 DPU 的分析,見傳輸門 AI 晶片|淺析 Yann LeCun 提到的兩款 Dataflow Chip。

Digital Signal Processor。數字訊號處理器

。晶片行業的人對

DSP 都不陌生,設計 DSP 的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI

Freescale 等等,都是大公司,此處不多做介紹。相比於 CPU,DSP 透過增加指令並行度來提高數字計算的效能,如 SIMD、VLIW、SuperScalar 等技術。面對 AI 領域新的計算方式(例如 CNN、DNN 等)的挑戰,DSP 公司也在馬不停蹄地改造自己的 DSP,推出支援神經網路計算的晶片系列。在後面 VPU 的部分,會介紹一下針對 Vision 應用的 DSP。和 CPU 一樣,DSP 的技術很長時間以來都掌握在外國公司手裡,國內也不乏兢兢業業在這方向努力的科研院所,如清華大學微電子所的 Lily DSP(VLIW 架構,有獨立的編譯器),以及國防科大的 YHFT-QDSP 和矩陣 2000。但是,也有臭名昭著的“漢芯”。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

國際上,

Wave Computing最早提出DPU。在國內,DPU最早是由深鑑科技提出,是基於Xilinx可重構特性的FPGA晶片,設計專用深度學習處理單元,且可以抽象出定制化的指令集和編譯器,從而實現快速的開發與產品迭代。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

你以為到這裡就完了嗎?

不,據說每過18天,積體電路領域就會多出一個XPU,直到26個字母被用完。

這被戲稱為

AI時代的XPU版摩爾定律。

據不完全統計,已經被用掉的有:

APU

Accelerated Processing Unit, 加速處理器

AMD公司推出加速影象處理晶片產品。

BPU

Brain Processing Unit

大腦處理器,

地平線公司主導的嵌入式處理器架構。

CPU

Central Processing Unit 中央處理器

目前

PC core的主流產品。

DPU

Deep learning Processing Unit, 深度學習處理器

,最早由國內深鑑科技提出;另說有

Dataflow Processing Unit 資料流處理器, Wave Computing 公司提出的AI架構;Data storage Processing Unit,深圳大普微的智慧固態硬碟處理器。

EPU

Emotion Processing Unit

情感處理

,Emoshape 並不是這兩年才推出 EPU 的,號稱是全球首款情緒合成(emotion synthesis)引擎,可以讓機器人具有情緒。但是,從官方渠道訊息看,EPU 本身並不複雜,也不需要做任務量巨大的神經網路計算,是基於 MCU 的晶片。結合應用 API 以及雲端的增強學習演算法,EPU 可以讓機器能夠在情緒上了解它們所讀或所看的內容。結合自然語言生成(NLG)及 WaveNet 技術,可以讓機器個性化的表達各種情緒。例如,一部能夠朗讀的 Kindle,其語音將根據所讀的內容充滿不同的情緒狀態。

FPU

Floating Processing Unit 浮點計算

浮點單元,不多做解釋了。現在高效能的

CPU、DSP、GPU 內都集成了 FPU 做浮點運算。

Force Processing Unit。原力處理器,助你成為絕地武士。酷!

GPU

Graphics Processing Unit, 圖形處理器

,採用多執行緒

SIMD架構,為圖形處理而生。

HPU

Holographics Processing Unit 全息影象處理器

Microsoft 專為自家 Hololens 應用開發的。第一代 HPU 採用 28nm HPC 工藝,使用了 24 個 Tensilica DSP 並進行了定製化擴充套件。HPU 支援 5 路 cameras、1 路深度感測器(Depth sensor)和 1 路動作感測器(Motion Sensor)。Microsoft 在最近的 CVPR 2017 上宣佈了 HPU2 的一些資訊。HPU2 將搭載一顆支援 DNN 的協處理器,專門用於在本地執行各種深度學習。指的一提的是,HPU 是一款為特定應用所打造的晶片,這個做產品的思路可以學習。據說 Microsoft 評測過 Movidius(見 VPU 部分)的晶片,但是覺得無法滿足演算法對效能、功耗和延遲的要求,所有才有了 HPU。

IPU

Intelligence Processing Unit

智慧處理器

Deep Mind投資的Graphcore公司出品的AI處理器產品。

JPU

請原諒鄙人的詞彙量,沒什麼新奇的想法。。。。

KPU

Knowledge Processing Unit

,知識處理器

嘉楠耘智(

canaan)號稱 2017 年將釋出自己的 AI 晶片 KPU。嘉楠耘智要在 KPU 單一晶片中整合人工神經網路和高效能處理器,主要提供異構、實時、離線的人工智慧應用服務。這又是一家向 AI 領域擴張的不差錢的礦機公司。作為一家做礦機晶片(自稱是區塊鏈專用晶片)和礦機的公司,嘉楠耘智累計獲得近 3 億元融資,估值近 33 億人民幣。據說嘉楠耘智近期將啟動股改並推進 IPO。

另:

Knowledge Processing Unit 這個詞並不是嘉楠耘智第一個提出來的,早在 10 年前就已經有論文和書籍講到這個詞彙了。只是,現在嘉楠耘智將 KPU 申請了註冊商標。

LPU

誰給我點靈感?

MPU/MCU

Microprocessor/Micro controller Unit

微處理器

/微控制器,一般用於低計算應用的RISC計算機體系架構產品,如ARM-M系列處理器。

Mind Processing Unit。意念處理器,聽起來不錯。“解讀腦電波”,“意念交流”,永恆的科幻話題。如果採集大量人類“思考”的腦電波資料,透過深度學習,再加上強大的意念處理器 MPU,不知道能否成為 mind-reader。如果道德倫理上無法接受,先了解一下家裡寵物貓寵物狗的“想法”也是可以的嗎。再進一步,從 mind-reader 發展為 mind-writer,持續升級之後,是不是就可以成為冰與火中的 Skinchanger?

Mobile Processing Unit。移動處理器,似乎沒什麼意思。

Motion Processing Unit。運動處理器。解析人類、動物的肌肉運動?

題外話:並不是所有的

xPU 都是處理器,比如有個 MPU,是 Memory Protection Unit 的縮寫,是記憶體保護單元,是 ARM 核中配備的具有記憶體區域保護功能的模組。

NPU

Neural Network Processing Unit

,神經網路處理器,是基於神經網路演算法與加速的新型處理器總稱,如中科院計算所

/寒武紀公司出品的diannao系列。

OPU

Optical-Flow Processing Unit。光流處理器

。有需要用專門的晶片來實現光流演算法嗎?不知道,但是,用

ASIC IP 來做加速應該是要的。

PPU

Physical Processing Unit。物理處理器。

要先解釋一下物理運算,就知道物理處理器是做什麼的了。物理計算,就是模擬一個物體在真實世界中應該符合的物理定律。具體的說,可以使虛擬世界中的物體運動符合真實世界的物理定律,可以使遊戲中的物體行為更加真實,例如布料模擬、毛髮模擬、碰撞偵測、流體力學模擬等。開發物理計算引擎的公司有那麼幾家,使用

CPU 來完成物理計算,支援多種平臺。但是,Ageia 應該是唯一一個使用專用晶片來加速物理計算的公司。Ageia 於 2006 年釋出了 PPU 晶片 PhysX,還發布了基於 PPU 的物理加速卡,同時提供 SDK 給遊戲開發者。2008 年被 NVIDIA 收購後,PhysX 加速卡產品被逐漸取消,現在物理計算的加速功能由 NVIDIA 的 GPU 實現,PhysX SDK 被 NVIDIA 重新打造。

QPU

Quantum Processing Unit。量子處理器。

量子計算機也是近幾年比較火的研究方向。作者承認在這方面所知甚少。可以關注這家成立於

1999 年的公司 D-Wave System。DWave 大概每兩年可以將其 QPU 上的量子位個數翻倍一次。

RPU

Resistive Processing Unit。

阻抗

處理單元 RPU。

這是

IBM Watson Research Center 的研究人員提出的概念,真的是個處理單元,而不是處理器。RPU 可以同時實現儲存和計算。利用 RPU 陣列,IBM 研究人員可以實現 80TOPS/s/W 的效能。

Ray-tracing Processing Unit。光線追蹤處理器。

Ray tracing 是計算機圖形學中的一種渲染演算法,RPU 是為加速其中的資料計算而開發的加速器。現在這些計算都是 GPU 的事情了。

Radio Processing Unit, 無線電處理器

Imagination Technologies 公司推出的集合集Wifi/藍芽/FM/處理器為單片的處理器。

SPU

Streaming Processing Unit。流處理器。

流處理器的概念比較早了,是用於處理影片資料流的單元,一開始出現在顯示卡晶片的結構裡。可以說,

GPU 就是一種流處理器。甚至,還曾經存在過一家名字為“Streaming Processor Inc”的公司,2004 年創立,2009 年,隨著創始人兼董事長被挖去 NVIDIA 當首席科學家,SPI 關閉。

Speech-Recognition Processing Unit。語音識別處理器

SPU 或 SRPU。這個縮寫還沒有公司拿來使用。現在的語音識別和語義理解主要是在雲端實現的,比如科大訊飛。科大訊飛最近推出了一個翻譯機,可以將語音傳回雲端,做實時翻譯,內部硬體沒有去專門瞭解。和語音識別相關的晶片如下。

啟英泰倫(

chipintelli) 於 2015 年 11 月在成都成立。該公司的 CI1006 是一款集成了神經網路加速硬體來做語音識別的晶片,可實現單晶片本地離線大詞彙量識別。

MIT 專案。今年年初媒體爆過 MIT 的一款黑科技晶片,其實就是 MIT 在 ISSCC2017 上發表的 paper 裡的晶片,也是可以實現單晶片離線識別上 k 個單詞。可以參考閱讀“分析一下 MIT 的智慧語音識別晶片”。

雲知聲(

UniSound)。雲知聲是一家專攻智慧語音識別技術的公司,成立於 2012 年 6 月,總部在北京。雲知聲剛剛獲得 3 億人民幣戰略投資,其中一部分將用來研發其稍早公佈的 AI 晶片計劃,命名“UniOne”。據官方透漏,UniOne 將內建 DNN 處理單元,相容多麥克風、多作業系統。並且,晶片將以模組的形式提供給客戶,讓客戶直接擁有一整套雲端芯的服務。

Smart Processing Unit。聰明的處理器

,聽起來很

Q。

Space Processing Unit。空間處理器

,高大上,有沒有。全景攝像,全息成像,這些還都是處理我們的生活空間。當面對廣闊的太陽系、銀河系這些宇宙空間,是不是需要新的更強大的專用處理器呢?飛向

M31 仙女座星系,對抗黑暗武士,只靠 x86 估計是不行的。

TPU

Tensor Processing Unit 張量處理器

Google 公司推出的加速人工智慧演算法的專用處理器。目前一代TPU面向Inference,二代面向訓練。

UPU

Universe Processing Unit。宇宙處理器。

Space Processing Unit 相比,你更喜歡哪個?

VPU

Vector Processing Unit 向量處理器

Intel收購的Movidius公司推出的影象處理與人工智慧的專用晶片的加速計算核心。

Vision Processing Unit。視覺處理器 VPU 也有希望成為通用名詞。作為現今最火熱的 AI 應用領域,計算機視覺的發展的確能給使用者帶來前所未有的體驗。為了處理計算機視覺應用中遇到的超大計算量,多家公司正在為此設計專門的 VPU。

Movidius(已被 Intel 收購)。Movidius 成立於 2006 年,總部位於矽谷的 San Mateo,創始人是兩個愛爾蘭人,所以在愛爾蘭有分部。Movidius 早期做的是將舊電影轉為 3D 電影的業務,後期開始研發應用於 3D 渲染的晶片,並開始應用於計算機視覺應用領域(這說明:1,晶片行業才是高技術含量、高門檻、高價值的行業;2,初創公司要隨著發展調整自己的戰略)。Movidius 開發的 Myriad 系列 VPU 專門為計算機視覺進行最佳化,可以用於 3D 掃描建模、室內導航、360°全景影片等更前沿的計算機視覺用途。例如,2014 年,谷歌的 Project Tango 專案用 Myriad 1 幫助打造室內三維地圖;2016 年,大疆的“精靈 4”和“御”都採用了 Movidius 的 Myriad 2 晶片。採用 TSMC 28nm 工藝的 Myriad2 中集成了 12 個向量處理器 SHAVE (Streaming Hybrid Architecture Vector Engine)。按照 Movidius 的說法,SHAVE 是一種混合型流處理器,集成了 GPU、 DSP 和 RISC 的優點,支援 8/16/32 bit 定點和 16/32 bit 浮點計算,而且硬體上支援稀疏資料結構。此外,Myriad2 中有兩個 RISC 核以及 video 硬體加速器。據稱,Myriad2 可以同時處理多個影片流。

Inuitive 一家以色列公司,提供 3D 影象和視覺處理方案,用於 AR/VR、無人機等應用場景。Inuitive 的下一代視覺處理器 NU4000 採用 28nm 工藝,選擇使用 CEVA 的 XM4 DSP,並集成了深度學習處理器(自己開發?或者購買 IP?)和深度處理引擎等硬體加速器。

DeepVision 一家總部位於 Palo Alto 的 start-up,為嵌入式裝置設計和開發低功耗 VPU,以支援深度學習、CNN 以及傳統的視覺演算法,同時提供實時處理軟體。

Visual Processing Unit。這裡是 visual,不是 vision。ATI 一開始稱自家顯示卡上的晶片為 VPU,後來見賢思齊,都改叫 GPU 了。

Video Processing Unit。影片處理器。處理動態影片而不是影象,例如進行實時編解碼。

Vector Processing Unit。向量處理器。標量處理器、向量處理器、張量處理器,這是以處理器處理的資料型別進行的劃分。現在的 CPU 已經不再是單純的標量處理器,很多 CPU 都集成了向量指令,最典型的就是 SIMD。向量處理器在超級計算機和高效能計算中,扮演著重要角色。基於向量處理器研發 AI 領域的專用晶片,也是很多公司的選項。例如,前面剛提到 Movidius 的 Myriad2 中,就包含了 12 個向量處理器。

Vision DSP。針對 AI 中的計算機視覺應用,各家 DSP 公司都發布了 DSP 的 Vision 系列 IP。簡單羅列如下。

CEVA 的 XM4,最新的 XM6 DSP。除了可以連線支援自家的硬體加速器 HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支援第三方開發的 HWA。前面提到的 Inuitive 使用了 XM4。可以參考“處理器 IP 廠商的機器學習方案 - CEVA”。

Tensilica(2013 年被 Cadence 以 3。8 億美元收購)的 P5、P6,以及最新的 C5 DSP。一個最大的特色就是可以用 TIE 語言來定製指令。前面微軟的 HPU 中使用他家的 DSP。可以參考“神經網路 DSP 核的一桌麻將終於湊齊了”。

Synopsys 的 EV5x 和 EV6x 系列 DSP。可以參考“處理器 IP 廠商的機器學習方案 - Synopsys”。

Videantis 的 v-MP4 系列。Videantis 成立於 1997 年,總部位於德國漢諾頓。v-MP4 雖然能做很多機器視覺的任務,但還是傳統 DSP 增強設計,並沒有針對神經網路做特殊設計。

WPU

Wearable Processing Unit, 可穿戴處理器

,一家印度公司Ineda Systems公司推出的可穿戴片上系統產品,包含GPU/MIPS CPU等IP。

Ineda Systems 在 2014 年大肆宣傳了一下他們針對 IOT 市場推出的 WPU 概念,獲得了高通和三星的注資。Ineda Systems 研發的這款“Dhanush WPU”分為四個級別,可適應普通級別到高階級別的可穿戴裝置的運算需求,可以讓可穿戴裝置的電池達到 30 天的持續續航、減少 10x 倍的能耗。但是,一切似乎在 2015 年戛然而止,沒有了任何訊息。只在主頁的最下端有文字顯示,Ineda 將 WPU 申請了註冊商標。有關 WPU 的資訊只有大概結構,哦,對了,還有一個美國專利。

Wisdom Processing Unit。智慧處理器。這個 WPU 聽起來比較高大上,拿去用,不謝。不過,有點“腦白金”的味道。

XPU

百度與Xilinx公司在2017年Hotchips大會上釋出的FPGA智慧雲加速

,含

256核。

百度

公開了其

FPGA Accelerator 的名字,就叫 XPU。

YPU

Y?沒想法,大家加油搶註名字了。

ZPU

Zylin Processing Unit,

由挪威

Zylin 公司推出的一款32位開源處理器。

挪威公司

Zylin 的 CPU 的名字。為了在資源有限的 FPGA 上能擁有一個靈活的微處理器,Zylin 開發了 ZPU。ZPU 是一種 stack machine(堆疊結構機器),指令沒有運算元,程式碼量很小,並有 GCC 工具鏈支援,被稱為“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin 在 2008 年將 ZPU 在 opencores 上開源。有組織還將 Arduino 的開發環境進行了修改給 ZPU 用。

其他非 xPU 的 AI 晶片

寒武紀科技(

Cambricon) 中科院背景的寒武紀並沒有用 xPU 的方式命名自家的處理器。媒體的文章既有稱之為深度學習處理器 DPU 的,也有稱之為神經網路處理器 NPU 的。陳氏兄弟的 DianNao 系列晶片架構連續幾年在各大頂級會議上刷了好幾篇 best paper,為其公司的成立奠定了技術基礎。寒武紀 Cambricon-X 指令集是其一大特色。目前其晶片 IP 已擴大範圍授權整合到手機、安防、可穿戴裝置等終端晶片中。據流傳,2016 年就已拿到一億元訂單。在一些特殊領域,寒武紀的晶片將在國內具有絕對的佔有率。最新報道顯示,寒武紀又融了 1 億美元。

Intel Intel 在智慧手機晶片市場的失利,讓其痛定思痛,一改當年的猶豫,在 AI 領域的幾個應用方向上接連發了狠招。什麼狠招呢,就是三個字:買,買,買。在資料中心 / 雲計算

方面,

167 億美金收購的 Altera,4 億美金收購 Nervana;在移動端的無人機、安防監控等方面,收購 Movidius(未公佈收購金額);在 ADAS 方面,153 億美金收購 Mobileye。Movidius 在前面 VPU 部分進行了介紹,這裡補充一下 Nervana 和 Mobileye(基於視覺技術做 ADAS 方案,不是單純的視覺處理器,所以沒寫在 VPU 部分)。

Nervana Nervana 成立於 2014 年,總部在 SanDiego,以提供 AI 全棧軟體平臺 Nervana Cloud 為主要業務。和硬體扯上關係的是,Nervana Cloud 除了支援 CPU、GPU 甚至 Xeon Phi 等後臺硬體外,還提供有自家定製的 Nervana Engine 硬體架構。根據 The Next Platform 的報道“Deep Learning Chip Upstart Takes GPUs to Task”,Nervana Engine 使用 TSMC 28nm 工藝,算力 55 TOPS。報道釋出不到 24 小時,就被 Intel 收購了,全部 48 位員工併入 Intel。Intel 以 Nervana Engine 為核心打造了 Crest Family 系列晶片。專案程式碼為“Lake Crest”的晶片是第一代 Nervana Engine,“Knights Crest”為第二代。哦,對了,Nervana 的 CEO 在創立 Nervana 之前,在高通負責一個神經形態計算的研究專案,就是上面提到的 Zeroth。

Mobileye 一家基於計算機視覺做 ADAS 的以色列公司,成立於 1999 年,總部在耶路撒冷。Mobileye 為自家的 ADAS 系統開發了專用的晶片——EyeQ 系列。2015 年,Tesla 宣佈正在使用 Mobileye 的晶片(EyeQ3)和方案。但是,2016 年 7 月,Tesla 和 Mobileye 宣佈將終止合作。隨後,Mobile 於 2017 年被 Intel 以$153 億收入囊中,現在是 Intel 的子公司。Mobileye 的 EyeQ4 使用了 28nm SOI 工藝,其中用了 4 個 MIPS 的大 CPU core 做主控和演算法排程以及一個 MIPS 的小 CPU core 做外設控制,集成了 10 個向量處理器(稱為 VMP,Vector Microcode Processor)來做資料運算(有點眼熟,回去看看 Movidius 部分)。Mobileye 的下一代 EyeQ5 將使用 7nm FinFET 工藝,整合 18 個視覺處理器,並且為了達到自動駕駛的 level 5 增加了硬體安全模組。

位元大陸

Bitmain 位元大陸設計的全定製礦機晶片效能優越,讓其大賺特賺。在賣礦機晶片之餘,位元大陸自己也挖挖礦。總之,晶片設計能力非凡、土豪有錢的位元大陸對標 NVIDIA 的高階 GPU 晶片,任性地用 16nm 的工藝開啟了自家的 AI 晶片之路。晶片測試已有月餘,據傳功耗 60W 左右,同步在招攬產品、市場人員。最近的推文爆出了這款 AI 晶片的名字:“智子(Sophon)”,來自著名的《三體》,可見野心不小,相信不就即將正式釋出。

華為

&海思 市場期待華為的麒麟 970 已經很長時間了,內建 AI 加速器已成公開的秘密,據傳用了寒武紀的 IP,就等秋季釋出會了。還是據傳,海思的 HI3559 中用了自己研發的深度學習加速器。

蘋果

蘋果正在研發一款 AI 晶片,內部稱為“蘋果神經引擎”(Apple Neural Engine)。這個訊息大家並不驚訝,大家想知道的就是,這個 ANE 會在哪款 iphone 中用上。

高通

高通除了維護其基於 Zeroth 的軟體平臺,在硬體上也動作不斷。收購 NXP 的同時,據傳高通也一直在和 Yann LeCun 以及 Facebook 的 AI 團隊保持合作,共同開發用於實時推理的新型晶片。

還有一些諸如

Leapmind、REM 這樣的 start-up,就不一一列舉。

目前三位數的

xpu還剩倆仨個(抓緊搶注啊!),等三位數的XPU被用完後,即將會

出現

XXPU,XXXPU

XXXXPU……,並且會以更快的發展速度帶來更長的名字,最後是更難記住。

突然感覺還是現在的這些

XPU的名字聽起來順口啊,畢竟只有三個字母。

當然,將來的事情等到將來再說,過好當下才是重要的事情。

不說了,回去打掃衛生了,老闆丹爐裡的灰還等著我去掏呢。

CPU、GPU、DPU、TPU、NPU……傻傻分不清楚?實力掃盲——安排!

Top