您現在的位置是：首頁 > 棋牌

人類太多餘？且慢，先聽AI科學家詳解AlphaGo Zero的偉大與侷限

由量子位發表于棋牌
2022-06-10

簡介根據DeepMind透露的訊息，AlphaGo Zero不但拋棄了人類棋譜，實現了從零開始學習，連以前使用的人類設計的特徵也拋棄了，直接用棋盤上的黑白棋作為輸入，可以說是把人類拋棄的徹徹底底，除了圍棋規則外，不使用人類的任何資料和知識了

圍棋對局用什麼方式決定誰用黑棋

夏乙李根發自凹非寺

量子位報道 | 公眾號 QbitAI

“人類太多餘了。”

面對無師自通碾壓一切前輩的AlphaGo Zero，柯潔說出了這樣一句話。

如果你無法理解柯潔的絕望，請先跟著量子位回顧上一集：

今年5月，20歲生日還未到的世界圍棋第一人柯潔，在烏鎮0：3敗給了DeepMind的人工智慧程式AlphaGo，當時的版本叫做Master，就是今年年初在網上60：0挑落中日韓高手的那個神秘AI。

AlphaGo Zero驟然出現，可以說是在柯潔快要被人類對手和迷妹們治癒的傷口上，撒了一大把胡椒粉。

被震動的不止柯潔，在DeepMind的Nature論文公佈之後，悲觀、甚至恐慌的情緒，在大眾之間蔓延著，甚至有媒體一本正經地探討“未來是終結者還是駭客帝國”。

於是，不少認真讀了論文的人工智慧“圈內人”紛紛站出來，為這次技術進展“去魅”。

無師自通？

首當其衝的問題就是：在AlphaGo Zero下棋的過程中，人類知識和經驗真的一點用都沒有嗎？

在這一版本的AlphaGo中，雖說人類的知識和經驗沒多大作用，但也不至於“多餘”。

在Zero下棋的過程中，並沒有從人類的對局經驗和資料中進行學習，但這個演算法依然需要人類向它灌輸圍棋的規則：哪些地方可以落子、怎樣才算獲勝等等。

剩下的，就由AI自己來搞定了。

對於這個話題，鮮有人比曠視科技首席科學家孫劍更有發言權了，因為AlphaGo Zero裡面最核心使用的技術ResNet，正是孫劍在微軟亞洲研究院時期的發明。

△孫劍

孫劍也在接受量子位等媒體採訪的過程中，對AlphaGo Zero的“無師自通”作出了評價，他認為這個說法“對，也不對”，並且表示“偉大與侷限並存”。

究竟對不對，還是取決於怎樣定義無師自通，從哪個角度來看。

和之前三版AlphaGo相比，這一版去掉了人類教授棋譜的過程，在訓練過程最開始的時候，AI落子完全是隨機的，AlphaGo團隊的負責人David Silver透露，它一開始甚至會把開局第一手下在1-1。在和自己對弈的過程中，演算法才逐漸掌握了勝利的秘訣。

從這個角度來看，Zero的確可以說是第一次做到了無師自通，也正是出於這個原因，DeepMind這篇Nature論文才能引起這麼多圈內人關注。

但要說它是“無監督學習”，就有點“不對”。孫劍說：“如果仔細看這個系統，它還是有監督的。”它的監督不是來自棋譜，而是圍棋規則所決定的最後誰輸誰贏這個訊號。

“從這個意義上說，它不是百分之百絕對的無師自通，而是透過這個規則所帶來的監督訊號，它是一種非常弱監督的增強學習，它不是完全的無師自通。”

孫劍還進一步強調：“但是同時這種無師自通在很多AI落地上也存在一些侷限，因為嚴格意義上講，圍棋規則和判定棋局輸贏也是一種監督訊號，所以有人說人類無用、或者說機器可以自己產生認知，都是對AlphaGo Zero錯誤理解。”

離全面碾壓人類有多遠？

Zero釋出之後，媒體關切地詢問“這個演算法以後會用在哪些其他領域”，網友認真地擔心“這個AI會不會在各個領域全面碾壓人類”。

對於Zero演算法的未來發展，DeepMind聯合創始人哈薩比斯介紹說，AlphaGo團隊的成員都已經轉移到其他團隊中，正在嘗試將這項技術用到其他領域，“最終，我們想用這樣的演算法突破，來解決真實世界中各種各樣緊迫的問題。”

DeepMind期待Zero解決的，是“其他結構性問題”，他們在部落格中特別列舉出幾項：蛋白質摺疊、降低能耗、尋找革命性的新材料。

哈薩比斯說AlphaGo可以看做一個在複雜資料中進行搜尋的機器，除了部落格中提到幾項，新藥發現、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。

不過，究竟哪些領域可以擴充套件、哪些領域不行呢？

孫劍說要解釋AlphaGo演算法能擴充套件到哪些領域，需要先了解它現在所解決的問題——圍棋——具有哪些特性。

首先，它沒有噪聲，是能夠完美重現的演算法；

其次，圍棋中的資訊是完全可觀測的，不像在麻將、撲克裡，對手的資訊觀測不到；

最後也是最重要的一點，是圍棋對局可以用計算機迅速模擬，很快地輸出輸贏訊號。

基於對圍棋這個領域特性的理解，提到用AlphaGo演算法來發現新藥，孫劍是持懷疑態度的。

他說，發現新藥和下圍棋之間有一個非常顯著的區別，就是“輸贏訊號”能不能很快輸出：“新藥品很多內部的結構需要透過搜尋，搜尋完以後製成藥，再到真正怎麼去檢驗這個藥有效，這個閉環非常代價昂貴，非常慢，你很難像下圍棋這麼簡單做出來。”

不過，如果找到快速驗證新藥是否有效的方法，這項技術就能很好地用在新藥開發上了。

而用AlphaGo演算法用來幫資料中心節能，孫劍就認為非常說得通，因為它和圍棋的特性很一致，能快速輸出結果反饋，也就是AlphaGo演算法依賴的弱監督訊號。

當然，從AlphaGo演算法的這些限制，我們也不難推想，它在某些小領域內可以做得非常好，但其實並沒有“全面碾壓人類”的潛力。

去魅歸去魅，對於AlphaGo Zero的演算法，科研人員紛紛讚不絕口。

大道至簡的演算法

在評價Zero的演算法時，創新工場AI工程院副院長王詠剛用了“大道至簡”四個字。

簡單，是不少人工智慧“圈內人”讀完論文後對Zero的評價。剛剛宣佈將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說，這篇論文“沒有提出任何新的方法和模型”，但是徹底地實現了一個簡單有效的想法。

為什麼“簡單”這件事如此被學術圈津津樂道？孫劍的解釋是“我們做研究追求極簡，去除複雜”，而Zero的演算法基本就是在前代基礎上從各方面去簡化。

他說，這種簡化，一方面體現在把原來的策略網路和價值網絡合併成一個網路，簡化了搜尋過程；另一方面體現在用深度殘差網路（ResNet）來對輸入進行簡化，以前需要人工設計棋盤的輸入，體現“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的資訊，而現在是“把黑白子二值的圖直接送進來，相當於可以理解成對著棋盤拍照片，把照片送給神經網路，讓神經網路看著棋盤照片做決策”。

孫劍認為，擬合搜尋和ResNet，正是Zero演算法中的兩個核心技術。

其中擬合搜尋所解決的問題，主要是定製化，它可以對棋盤上的每一次落子都進行量化，比如會對最終獲勝機率做多大貢獻，但是這其實並不是近期才產生的一種理論，而是在很早之前就存在的一種基礎算法理論。

而另一核心技術是最深可達80層的ResNet。總的來說，神經網路越深，函式對映能力就越強、越有效率，越有可能有效預測一個複雜的對映。

下圍棋時要用到的，就是一個非常複雜的對映，神經網路需要輸出每個可能位置落子時贏的機率，也就是最高要輸出一個361維的向量。這是一個非常複雜的輸出，需要很深的網路來解決。

人類棋手下棋，落子很多時候靠直覺，而這背後實際上有一個非常複雜的函式，Zero就用深層ResNet，擬合出了這樣的函式。

ResNet特點就是利用殘差學習，讓非常深的網路可以很好地學習，2015年，孫劍帶領的團隊就用ResNet把深度神經網路的層數從十幾二十層，推到了152層。

也正是憑藉這樣的創新，孫劍團隊拿下了ImageNet和MSCOCO影象識別大賽各專案的冠軍。到2016年，他們又推出了第一個上千層的網路，獲得了CVPR最佳論文獎。

而令孫劍更加意料之外的是，ResNet還被AlphaGo團隊看中，成為AlphaGo Zero演算法中的核心元件之一。

這位Face++首席科學家表示很開心為推動整個AI進步“做了一點微小的貢獻”，同時也很欽佩DeepMind團隊追求極致的精神。

任劍還說，在曠視研究院的工作中，還會不斷分享、開放研究成果，更注重技術在產業中的實用性，進一步推動整個AI產業的進步。

另外，還有不少AI大咖和知名科研、棋手對AlphaGo Zero發表了評價，量子位彙集如下：

大咖評說AlphaGo Zero

李開復：AI進化超人類想象，但與“奇點”無關

昨天AlphaGo Zero橫空出世，碾壓圍棋界。AlphaGo Zero完全不用人類過去的棋譜和知識，就再次打破人類認知。很多媒體問我對AlphaGo Zero的看法，我的觀點是：一是AI前進的速度比想象中更快，即便是行業內的人士都被AlphaGo Zero跌破眼鏡；二是要正視中國在人工智慧學術方面和英美的差距。

一方面，AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍棋是一種對弈遊戲，是資訊透明，有明確結構，而且可用規則窮舉的。對弈之外，AlphaGo Zero的技術可能在其他領域應用，比如新材料開發，新藥的化學結構探索等，但這也需要時間驗證。而且語音識別、影象識別、自然語音理解、無人駕駛等領域，資料是無法窮舉，也很難完全無中生有。AlphaGo Zero的技術可以降低資料需求（比如說WayMo的資料模擬），但是依然需要大量的資料。

另一方面，AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa learning（白板學習，不用人類知識），是以前的圍棋系統Crazy Stone最先使用的。AlphaGo Zero裡面最核心使用的技術ResNet，是微軟亞洲研究院的孫劍發明的。孫劍現任曠視科技Face++首席科學家。

雖然如此，這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美整合這些技術，本身就具有里程碑意義。DeepMind的這一成果具有指向標意義，證明這個方向的可行性。在科研工程領域，探索前所未知的方向是困難重重的，一旦有了可行性證明，跟隨者的風險就會巨幅下降。我相信從昨天開始，所有做圍棋對弈的研究人員都在開始學習或複製AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。

AlphaGo Zero的工程和演算法確實非常厲害。但千萬不要對此產生誤解，認為人工智慧是萬能的，所有人工智慧都可以無需人類經驗從零學習，得出人工智慧威脅論。AlphaGo Zero證明了AI 在快速發展，也驗證了英美的科研能力，讓我們看到在有些領域可以不用人類知識、人類資料、人類引導就做出頂級的突破。但是，AlphaGo Zero只能在單一簡單領域應用，更不具有自主思考、設定目標、創意、自我意識。即便聰明如AlphaGo Zero，也是在人類給下目標，做好數字最佳化而已。這項結果並沒有推進所謂“奇點”理論。

南大周志華：與“無監督學習”無關

花半小時看了下文章，說點個人淺見，未必正確僅供批評：

別幻想什麼無監督學習，監督資訊來自精準規則，非常強的監督資訊。

不再把圍棋當作從資料中學習的問題，迴歸到啟發式搜尋這個傳統棋類解決思路。這裡機器學習實質在解決搜尋樹啟發式評分函式問題。

如果說深度學習能在模式識別應用中取代人工設計特徵，那麼這裡顯示出強化學習能在啟發式搜尋中取代人工設計評分函式。這個意義重大。啟發式搜尋這個人工智慧傳統領域可能因此鉅變，或許不亞於模式識別計算機視覺領域因深度學習而產生的鉅變。機器學習進一步蠶食其他人工智慧技術領域。

類似想法以往有，但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構，存在統一適用於任意多子局面的評價函式。巨大的狀態空間誘使我們自然放棄此等假設，所以這個嘗試相當大膽。

工程實現能力超級強，別人即便跳出盲點，以啟發式搜尋界的工程能力也多半做不出來。

目前並非普適，只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

Facebook田淵棟：AI窮盡圍棋還早

老實說這篇Nature要比上一篇好很多，方法非常乾淨標準，結果非常好，以後肯定是經典文章了。

Policy network和value network放在一起共享引數不是什麼新鮮事了，基本上現在的強化學習演算法都這樣做了，包括我們這邊拿了去年第一名的Doom Bot，還有ELF裡面為了訓練微縮版星際而使用的網路設計。另外我記得之前他們已經反覆提到用Value network對局面進行估值會更加穩定，所以最後用完全不用人工設計的defaultpolicy rollout也在情理之中。

讓我非常吃驚的是僅僅用了四百九十萬的自我對局，每步僅用1600的MCTS rollout，Zero就超過了去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170（見Counting Legal Positions in Go），五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級，這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好，只能說明卷積神經網路（CNN）的結構非常順應圍棋的走法，說句形象的話，這就相當於看了大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說，CNN的inductivebias（模型的適用範圍）極其適合圍棋漂亮精緻的規則，所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方，CNN學得反而不快了。我們經常看見跑KGS或者GoGoD的時候，最後一兩個百分點費老大的勁，也許最後那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話，那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題（比如說protein folding），神經網路不能很好擬合它而只能採用死記硬背的方法，那泛化能力就很弱，Self-play就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因，大家用手調特徵加上線性分類器，模型不對路，就學不到太好的東西。一句話，重點不在左右互搏，重點在模型對路。

二是或許卷積神經網路（CNN）系列演算法在圍棋上的成功，不是因為它達到了圍棋之神的水平，而是因為人類棋手也是用CNN的方式去學棋去下棋，於是在同樣的道路上，或者說同樣的inductive bias下，計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋，換一種inductive bias，那它可能找到另一種（可能更強的）下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點，在側面上印證了這個思路。在這點上來說，說窮盡了圍棋肯定是還早。

三就是更證明了在理論上理解深度學習演算法的重要性。對於人類直覺能觸及到的問題，機器透過採用有相同或者相似的inductive bias結構的模型，可以去解決。但是人不知道它是如何做到的，所以除了反覆嘗試之外，人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的資料分佈上如何工作，那麼我相信到那時我們回頭看來，針對什麼問題，什麼資料，用什麼結構的模型會是很容易的事情。我堅信資料的結構是解開深度學習神奇效果的鑰匙。

另外推測一下為什麼要用MCTS而不用強化學習的其它方法（我不是DM的人，所以肯定只能推測了）。MCTS其實是線上規劃（online planning）的一種，從當前局面出發，以非引數方式估計區域性Q函式，然後用區域性Q函式估計去決定下一次rollout要怎麼走。既然是規劃，MCTS的限制就是得要知道環境的全部資訊，及有完美的前向模型（forward model），這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定，狀態清晰，有完美快速的前向模型，所以MCTS是個好的選擇。但要是用在Atari上的話，就得要在訓練演算法中內建一個Atari模擬器，或者去學習一個前向模型（forward model），相比actor-critic或者policy gradient可以用當前狀態路徑就地取材，要麻煩得多。但如果能放進去那一定是好的，像Atari這樣的遊戲，要是大家用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比，因為比了就不好玩了。

另外，這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多，我相信過不了多久就會有人重複出來，到時候應該會有更多的insight。大家期待一下吧。

清華大學馬少平教授：不能認為AI資料問題解決了

從早上開始，就被AlphaGo Zero的訊息刷屏了，DeepMind公司最新的論文顯示，最新版本的AlphaGo，完全拋棄了人類棋譜，實現了從零開始學習。

對於棋類問題來說，在蒙特卡洛樹搜尋的框架下，實現從零開始學習，我一直認為是可行的，也多次與別人討論這個問題，當今年初Master推出時，就曾預測這個新系統可能實現了從零開始學習，可惜根據DeepMind後來透露的訊息，Master並沒有完全拋棄人類棋譜，而是在以前系統的基礎上，透過強化學習提高系統的水平，雖然人類棋譜的作用越來越弱，但是啟動還是學習了人類棋譜，並沒有實現“冷”啟動。

根據DeepMind透露的訊息，AlphaGo Zero不但拋棄了人類棋譜，實現了從零開始學習，連以前使用的人類設計的特徵也拋棄了，直接用棋盤上的黑白棋作為輸入，可以說是把人類拋棄的徹徹底底，除了圍棋規則外，不使用人類的任何資料和知識了。僅透過3天訓練，就可以戰勝和李世石下棋時的AlphaGo，而經過40天的訓練後，則可以打敗與柯潔下棋時的AlphaGo了。

真是佩服DeepMind的這種“把革命進行到底”的作風，可以說是把計算機圍棋做到了極致。

那麼AlphaGo Zero與AlphaGo（用AlphaGo表示以前的版本）都有哪些主要的差別呢？

1。在訓練中不再依靠人類棋譜。AlphaGo在訓練中，先用人類棋譜進行訓練，然後再透過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習，在蒙特卡洛樹搜尋的框架下，一點點提高自己的水平。

2。不再使用人工設計的特徵作為輸入。在AlphaGo中，輸入的是經過人工設計的特徵，每個落子位置，根據該點及其周圍的棋的型別（黑棋、白棋、空白等）組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網路結構的變化，使得神經網路層數更深，提取特徵的能力更強。

3。將策略網路和價值網絡合二為一。在AlphaGo中，使用的策略網路和價值網路是分開訓練的，但是兩個網路的大部分結構是一樣的，只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個，從輸入到中間幾層是共用的，只是後邊幾層到輸出層是分開的。並在損失函式中同時考慮了策略和價值兩個部分。這樣訓練起來應該會更快吧？

4。網路結構採用殘差網路，網路深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模組，每個模組包含2個卷積層，比之前用了12個卷積層的AlphaGo深度明顯增加，從而可以實現更好的特徵提取。

5。不再使用隨機模擬。在AlphaGo中，在蒙特卡洛樹搜尋的過程中，要採用隨機模擬的方法計算棋局的勝率，而在AlphaGo Zero中不再使用隨機模擬的方法，完全依靠神經網路的結果代替隨機模擬。這應該完全得益於價值網路估值的準確性，也有效加快了搜尋速度。

6。只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天后可以戰勝與柯潔交手的AlphaGo。

對於計算機圍棋來說，以上改進無疑是個重要的突破，但也要正確認識這些突破。比如，之所以可以實現從零開始學習，是因為棋類問題的特點所決定的，是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負，這樣才可以不用人類資料，自己實現產生資料，自我訓練，自我提高下棋水平。但是這種方式很難推廣到其他領域，不能認為人工智慧的資料問題就解決了。

Rokid祝銘明：資料學習到評分方法學習的切換

Alpha Zero的文章有多少人認真看過，就在傳無監督學習，這次有意思的是方法其實有點回歸傳統規則指導的思考模式。如果這個算是無監督學習，那幾十年前就有了。只是這次是超大空間下的基於規則的決策樹裁決評分，文章最有價值的是把之前資料學習變成了評分方法學習，這個其實有點意思，對於規則清晰問題可以大大減少資料依賴。

簡單說這個就是如何透過學習，避免對超大規模搜尋樹的遍歷，同時保證決策打分的合理性。其實有點白盒子的味道。這方法的確在很多規則簡單清晰，但空間規模大的問題上有啟發意義，而且從理論上來說肯定比之前的基於資料學習的要優秀很多，因為過去的方法仍然對經驗資料依賴。不過和大家說的無監督學習是兩碼事。這麼說大家都能理解了吧。

即將加入加州伯克利的馬毅教授

熬夜讀完AlphaGo zero的Nature論文，深有感觸：我們一生與多少簡單而又有效的想法失之交臂，是因為我們或者過早認為這些想法不值得去做或者沒有能力或毅力正確而徹底地實現它們？這篇論文可以說沒有提出任何新的方法和模型——方法可以說比以前的更簡單“粗暴”。但是認真正確徹底的驗證了這個看似簡單的想法到底work不work。在做研究上，這往往才是拉開人與人之間差距的關鍵。

柯潔九段

一個純淨、純粹自我學習的AlphaGo是最強的…對於AlphaGo的自我進步來講…人類太多餘了。

還有一些零散討論：

微軟全球資深副總裁、美國計算機協會（ACM）院士Peter Lee認為這是一個激動人心的成果，如果應用到其他領域會有很多前景。其中的理論與康奈爾大學計算機系教授、1986年圖靈獎獲得者John Hopcroft之前下國際象棋的工作相似，而且Deepmind之前做的德州撲克比圍棋搜尋空間更大、更難。不過受限規則下的圍棋跟現實世界的應用場景有天壤之別，現在的自動駕駛、商業決策比遊戲複雜很多。

John Hopcroft提到了他常說的監督學習和非監督學習，因為給大量資料標標籤是一件非常難的事情。他還說，現在AI還在工程階段，我們先是把飛機飛向天，此後才理解了空氣動力學。AI現在能告訴你是誰，未來能告訴你在想什麼，再之後會有理論解釋為什麼這能工作。

美國人工智慧學會（AAAI）院士Lise Getoor認為，在監督學習和非監督學習之上還有結構化學習，如何讓機器發現可能是遞迴的ontological commitment。我們現在的深度學習模型可能存在structure bias。

楊強教授沒有說話，不過AlphaGo Zero論文剛一發布，他擔任理事會主席的國際人工智慧大會（IJCAI）就為這支團隊頒發了第一枚馬文·明斯基獎章，可謂最高讚許。

—完

加入社群

量子位AI社群10群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot3入群；

此外，量子位專業細分群（自動駕駛、CV、NLP、機器學習等）正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot3，並務必備註相應群的關鍵詞~透過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號（QbitAI）對話介面，回覆“招聘”兩個字。

量子位QbitAI

‘’ 追蹤AI技術和產品新動態

上一篇：藍浩克被稱為最強的綠巨人？有個浩克表示不服，網友：不服也得服

下一篇：為什麼會有那麼多火山噴發呢？

您現在的位置是：首頁 > 棋牌

人類太多餘？且慢，先聽AI科學家詳解AlphaGo Zero的偉大與侷限

相關文章