您現在的位置是:首頁 > 棋牌

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

  • 由 DeepTech深科技 發表于 棋牌
  • 2022-02-12
簡介圖丨李世石鏖戰AlphaGo過去曾有專家預測人工智慧需要十年的時間才有可能戰勝人類職業選手,在這場比賽之後,AlphaGo 憑藉其“充滿創意而又機智”的下法,躋身圍棋界最高職業稱號——職業九段行列,成為歷史上首個獲得這一榮譽的非人類棋手

尖衝定式怎麼玩

“柯潔失利”,這場時隔279天后最令人期待的“人機大戰”首場終於以AlphaGo領先半目的細微優勢告一段落,雖然在柯潔與AlphaGo之間的比拼還沒有完全終結,仍然有兩場比賽在等待著他們,但不可否認的是,這場比賽的最終結果還是符合大多數人在賽前的預測。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

“AlphaGo的大局觀遠勝人類,如果差距拉近一些可能還有勝負。”聶衛平評價AlphaGo在收官過程中表現的十分穩健,雖然柯潔奮力追趕,但翻盤依舊困難。有了棋聖的評價,相信大家也可以從中品味出這是一場怎樣的“殊死搏鬥”。

的確,在“李世石事件”之後,大眾似乎已經習慣了人工智慧終究會全面超越人類的判斷,相對於上一次萬人空巷的“觀棋”場景,此次的比賽舉辦地烏鎮則顯得並沒有那麼火熱,沿街的商販或許只是注意到了比平日裡多了幾倍的人流,卻沒有意識到如織的遊客此番前來的真實目的。

而對於此次“表演”的主角,柯潔在賽前也難以抑制住他對於這場史詩對決的激動心情,在前夜晚間的微博中,一番話道盡了他的期待:“無論輸贏,這都將是我與人工智慧最後的三盤對局,我會我用所有的熱情去與它做最後的對決,不管面對再強大的對手——我也絕不會後退!至少這……最後一次。”

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

圖丨柯潔在賽前信心滿滿

但話雖如此,這位19歲的天才少年仍然難以掩飾比賽的嚴峻帶給他的巨大壓力。跟據現場不完全的統計和解說員描述,在整場比賽中,柯潔總共表現出了一次神秘微笑、兩次皺眉頭、兩次搖頭、數次抓頭髮,並曾出現過幾次表情凝重的情況。也許我們能從這些小動作中感受到柯潔對本次比賽的重視。

而在賽後的新聞釋出會中,柯潔終於舒了一口長氣,“我對佈局還是有備戰研究的,但很多棋是人類棋手不會下的,它(AlphaGo)太出色了,我輸的沒脾氣,它真的很厲害。”

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

圖丨賽後覆盤

當被問及他在比賽中的諸多“小動作”時,柯潔回答道,“比賽中的神秘微笑是苦笑。很早我就知道我會輸了。AlphaGo下棋很勻速,它算得太準了,我才苦笑。本次比賽AlphaGo很精彩,我也盡了全力。它下的太好 很多地方值得我們學習。它的思想在衝擊我們的理念,改變我們的看法:大膽去創新,大膽的開闊自己的思維。今天我也是想大膽開闊自己的思維。和之前的AlphaGo已經是兩個人。”

“這會是我和AI的最後三盤棋,以後不會與任何形式的AI比賽。如果以後我參加,那我可能是被迫的。對於AlphaGo,我把它當作學習的物件。今天的表現我還是有點不滿意。既然是最後一次,我希望能不留遺憾,下出自己滿意的棋。開始的時候我確實暴露出一些人類的缺陷。之後的比賽中我希望不留遺憾。”

也許是已經猜到了比賽的結果,同樣會參與此次團體賽的圍棋選手古力在賽前的採訪中,雖然也表示出了激動和期待的心情,但與柯潔稍顯不同的是,他更希望透過這次比賽與AlphaGo共同創造和探索圍棋的深奧精髓。“此前的人類棋手在思考上還有一些侷限性,這次我們希望透過AlphaGo,能讓人類棋手的水平走上新的臺階。可以說,AlphaGo不是裝置,不是對手,而是朋友 。”

而作為AlphaGo背後的神秘男人、DeepMind的創始人兼CEO哈薩比斯(Demis Hassabis)則在開場致辭中談到:“今天,我們將要探索這個世界最深奧美麗的遊戲——圍棋的新玩法,就像人類使用哈勃望遠鏡探索宇宙。但在AlphaGo的創新途中,除了圍棋,它還有更多可以被期待的應用領域,例如醫療、節能減排……這個時代的許多問題都可以從人工智慧身上找尋到答案。而關於今天的這場對弈,它也將帶給我們很多的期待和想象,不管最後誰輸誰贏,最終的勝利都是屬於人類的!”

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

圖丨哈薩比斯致辭

但比賽剛一結束,在賽後的釋出會上,當DT君向DeepMind團隊提問:“AlphaGo是否已經不僅僅滿足於單純的勝負,而期待能夠控制勝利的機率以及輸贏的差距?”

哈薩比斯則說:“我們的確在研究如何透過多線路決策來擴大勝率,甚至於控制勝率,這是我們的一個探索方向。”

很顯然,哈薩比斯的回答中無疑透露著一絲驕傲和狡黠,畢竟AlphaGo 是第一個擊敗人類職業圍棋選手並戰勝圍棋世界冠軍的程式,是圍棋史上最具實力的選手之一。2016 年 3 月,在全世界超過一億觀眾的關注下,AlphaGo 經過5局對弈,最終以 4 比 1 的總比分戰勝了圍棋世界冠軍李世石,這場比賽成為了人工智慧領域的一個重要里程碑。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

圖丨李世石鏖戰AlphaGo

過去曾有專家預測人工智慧需要十年的時間才有可能戰勝人類職業選手,在這場比賽之後,AlphaGo 憑藉其“充滿創意而又機智”的下法,躋身圍棋界最高職業稱號——職業九段行列,成為歷史上首個獲得這一榮譽的非人類棋手。

前不久,AlphaGo的升級版本以“Master/Magister”的稱謂與世界頂級的圍棋選手進行了60場線上快棋對局,並取得了全勝的出色戰績。

那麼,AlphaGo是怎麼在被認為是傳統遊戲中對人工智慧最具挑戰性的專案——圍棋中取得長勝戰績的呢?

原來,為了應對圍棋的巨大複雜性,AlphaGo 採用了一種新穎的機器學習技術,結合了監督學習和強化學習的優勢。透過訓練形成一個策略網路(policy network),將棋盤上的局勢作為輸入資訊,並對所有可行的落子位置生成一個機率分佈。然後,訓練出一個價值網路(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。

這兩個網路自身都十分強大,而AlphaGo將這兩種網路整合進基於機率的蒙特卡羅樹搜尋(MCTS)中,實現了它真正的優勢。最後,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練資料,此過程迴圈往復。

圖丨價值網路和策略網路

在獲取棋局資訊後,AlphaGo 會根據策略網路探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜尋時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜尋演算法就能在其計算能力之上加入近似人類的直覺判斷。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

這一次,AlphaGo也再一次體現了非常好的均衡感和大局。之所以這麼說,是因為早在Alphago和李世石對局之前,人們普遍認為計算機長與計算,不擅判斷大局。

但事實反覆證明情況並非如此,無論是開局的時候創新與取勢,還是中盤時的棄子與脫先,還是官子時的四處出擊和在大量非常保守的位置上行棋(一般是AlphaGo認為自己勝局已定的時候為保勝利的選擇)。這很有可能還是因為AlphaGo採取全域性勝率預測的原因,並追求最大勝率機率所致。當面對70%贏10目和90%贏1目的選擇時,計算機基本會選擇贏1目。

此外,AlphaGo絕不是簡單的模仿人類棋手,而是可以下出大量極富想象力和革命性創新的手段,反過來也影響了人類下棋的方式。早在今年1月10日,在中國名人戰的兩盤半決賽中,周睿羊九段和羋昱廷九段都放棄了傳統的掛角開局,在守角後對對方的守角進行尖衝。這是此前AlphaGo在對戰職業棋手時的常見下法。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

圖丨周睿羊九段和羋昱廷九段

在今天的比賽中,柯潔也以其人之道還治其人,在極早期就下出了三三點角的手段,這也是AlphaGo(和Master)之前對人類棋手常見的佈局。有意思的是,AlphaGo在面對自己的方法時,也沒有上當,而是下出了也很少見的小飛守角。

最後,AlphaGo的下棋速度大大增加了,可能是因為程式經過了最佳化。和李世石對弈時多次進入讀秒階段相比,本次比賽AlphaGo只用了一個多小時。相當於下了一盤30秒不到的塊棋。這也從側面說明計算機進一步拉大了和人類之間的差距。

去年是分散式實施,今年有一個更先進的演算法,運算更快,和去年相比,這一版AlphaGo可以說是單機版。——DeepMind團隊

根據DT君的瞭解,早在比賽之前,就有傳言稱此次出戰的AlphaGo已經和擊敗李世石的那隻完全不同:AlphaGo採取了一種全新的演算法,開發人員沒有給它“喂”任何人類棋譜,它的走法單純靠自我對弈訓練出來。在2016年的人機大戰中,李世石曾疑似擊中過AlphaGo的bug而扳回一局,而這一次,顯然AlphaGo沒有再犯同樣的錯誤。

而談到AlphaGo的創新之處,DeepMind團隊的代表Lucas Baker和樊麾給出了詳盡的解釋,他們總結了AlphaGo最近在對局中使用的戰略和戰術創新,以及這些招法所展現的關於圍棋的一些新認知。

AlphaGo 的棋風

AlphaGo最強大的地方,並不體現在具體某一手棋或者某個區域性變化中,而是它在每一局棋裡所展現出來的獨特視角。雖然AlphaGo的棋風本身並不容易總結,但是總體來說,AlphaGo更傾向於使用一種自由、開放式的行棋風格。

在它的世界裡,沒有什麼先入為主的概念,也沒有什麼必須要遵守的規則,這讓它得以打破常規,發現當前棋局中最高效的一手。在接下來的兩局棋裡,AlphaGo這種獨特的對局哲學,常常讓它下出違反第一感、但卻極具威力的一手棋。

雖然圍棋是圍地盤的遊戲,但事實上最具決定性的部分在於如何平衡棋盤上的各個區域性。在這一點上,AlphaGo展現出了卓越的能力。尤其值得一提的是,AlphaGo對於外勢的把控可以說到達了出神入化的地步,具體來說,它可以近乎準確地判斷棋盤上現有棋子能給周圍區域帶來多大的影響力。

雖說棋子的影響力本身很難衡量,但是AlphaGo強大的價值網路讓它能夠把棋盤上所有的棋子當作一個整體來考慮,因此它的判斷幾近精確。AlphaGo的這種能力,使得它能夠把區域性棋子的影響力,轉變為全域性的優勢。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

本局,黑方(AlphaGo)實空很少,白方佔了三個角,但是黑方全域性外勢較為可觀。特別是圖中三角形標記的交換,一方面幫助白方加強了左上角實地,同時也擴張了黑方的大模樣。通常,棋手們不願意做這樣的交換,因為白方得到的是顯而易見的實地,而黑方所得還有很大不確定性。但是AlphaGo結合了精確的判斷以及對於風險的把控,使得這一手棋成為可能。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

不過,對於外勢價值的判斷完全取決於當前局面,如果外勢的價值可能被削弱,AlphaGo也會自願放棄外勢。在上圖的對局中,AlphaGo最為令人震驚的幾手棋,出現在右側的六子二路連爬。

圍棋有一句棋諺:四路外勢線,三路實地線,二路失敗線。AlphaGo的這幾招棋粗看之下正應了這句棋諺,因為這幾手交換讓白棋變強的同時還擁有了外勢,而黑棋僅僅在邊上圍住四目實空。

大多數棋手以圖中這樣的二路連爬為恥,因此會在第一時間否定這種下法。然而,AlphaGo判斷如果能用這些交換將白棋的棋子分斷,之後再透過對於白棋幾塊棋的攻擊,慢慢將白棋獲得的外勢侵消掉,這種下法更利於確保優勢。

新手、新型

Alphago近期也弈出了一些佈局階段的新手,其中最有代表性的當屬開局的點三三和妖刀定式的新變化。兩者都打破常規,並且在更深入的研究後得到認可。

開局點三三

圍棋中最注重實地的定式之一,無疑是角部的點三三定式:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

這種下法能夠快速佔據角部地盤,但是傳統圍棋書都將這個定式歸類為不適合開局階段使用,因為它給予對方太多外勢:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

AlphaGo的創新在於它省略了有三角形標記的這些交換,使角部保持了未完成的形態:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

雖然角部不如定式那麼安定,但是黑棋保留了從左邊出逃和之後完成定式的見合下法(兩者選其一),在搶佔角地的同時也只讓出了部分外勢。這種戰術在職業棋手中引起轟動,而且已經有棋手將它應用在了正式比賽中:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

第18屆韓國麥馨杯,第一輪

2017-01-10: 韓鍾振 九段(黑)—— 金成龍 九段(白) 白勝2。5目(貼目6。5目)

棋譜來源 Go4Go。net

新妖刀定式

最初以人類對局作為資料基礎,AlphaGo瞭解現代定式,而且一般都會按照定式來下棋。但是,在以變化複雜著稱的妖刀定式中(得名於被詛咒的村正妖刀),AlphaGo採取了變招:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

從這個棋型開始,一般定式黑棋佔邊,白棋佔角:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

但是,AlphaGo常常更願意犧牲出頭的權利,換取角部實地:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

大多數棋手不願選擇這個變化,因為讓黑棋得到了一道厚勢,但是白棋接下來的下法宣告了黑棋外勢的價值並沒有看上去的那麼巨大。如果黑棋不進一步加強自己的外勢,甚至於還可能成為白棋攻擊的目標。韓國頂尖棋手金志錫最近在一場比賽戰中選擇了這個變化,並且贏得了這盤對局:

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

第22屆韓國GS加德士杯,第二輪

2017-02-10:柳珉瀅 五段(黑)——金志錫 九段(白) 白中盤勝(貼目6。5目)

棋譜來源Go4Go。net

從以上描述不難看出,Alphago的長進可謂十分驚人,本次比賽的美國解說Michael Redmond就表示,AlphaGo的特點是會走出一些創新的棋,人類一看上去覺得是壞招,但是仔細研究後發現會非常有用。自去年戰勝李世石後,Alphago的棋力又進步了,而要知道,AlphaGo 6個月的成長可能就相當於人類棋手的一生。

雖然這一切有關圍棋的描述或許已經足夠令人感到震驚的了,但當我們跳脫出圍棋這個細分領域之外就會發現機器學習的力量已經無處不在了。在 Google,機器學習被廣泛運用到了幾乎所有產品中。Google 搜尋、Gmail、YouTube、Google 地圖、Google 翻譯、Pixel、Google Photos、Allo 和 Android 等產品中都有用到機器學習。

當用戶對著手機講話,語音識別(speech recognition)將聲音資訊轉化為文字,隨後透過自然語言處理(natural language processing)對語義進行理解。這些技術被用在了 Google 翻譯的會話模式中,讓使用者可以在 32 種語言之間無障礙地與他人進行雙向實時交流。

有了神經網路機器翻譯(neural machine translation),我們可以運用端到端機器學習系統(end-to-end machine learning systems)來翻譯完整的句子,以得到更自然流暢的翻譯結果。目前,神經網路機器翻譯已被用於英語與12種語言的相互翻譯,包括中文、日語、韓語、泰語、俄語、印地語、法語、德語、西班牙語、葡萄牙語、土耳其語、越南語等。

深層神經網路(deep neural networks)在影象識別(image recognition)方面取得了顯著進步。例如,在 Google 翻譯中,透過 Word Lens,使用者只需將手機對準文字,便可進行實時翻譯。這項功能的實現正是因為在 Google 翻譯當中,我們訓練了一個用於識別影象中文字的神經網路。

除了上述Google 的核心產品,機器學習技術在其它領域同樣也發揮了重要作用。 例如,Google 利用 DeepMind 開發的智慧演算法,將資料中心的能源使用量減少了 15%。Google 的醫療研究團隊正在與大學和醫療從業者合作,利用計算機視覺(computer vision)技術來協助診斷面板癌和糖尿病性視網膜病變。最終,機器學習將在氣候科學、基因組學和能源等眾多複雜系統領域為科學家們提供幫助。儼然一個真實的AI世界即將到來。

而聲勢浩大的“人機大戰”首戰告一段落,這場不見硝煙、沒有犧牲的廝殺註定會成為載入史冊的一役,雖然人類已敗,柯潔笑稱“圍棋我還是喜歡和人類下,未來贏它的機率可能會無限趨近於零。”

但回頭想想,柯潔的“拼盡全力後,無論結果,管他口中是是非非”也並非虛言,滄海一聲笑般的美哉、快意卻也是人工智慧無論如何也不能學來的。

烏鎮酣戰丨柯潔苦笑只因看透“必敗”定局,棋盤之外的世界已開啟新時代的大門

這正如@善用佳軟 的《AI和AI教》中所言:

AlphaGovs 柯潔的結果並不重要。

AI的超越,無非是早一點,或晚一點。

即便再晚,也會在我們的有生之年。

變化的巨大程度,是我們無法想象的。

勉強類比:讓原始人想象現在網際網路社會?錯。

更準確的類比是:讓原始人旁邊的一隻野獸,想象現在的網際網路文明。

我們的歷史觀,要被改寫:原始社會、農業文明、工業文明、資訊文明……沒必要區分了。

地球大歷史只有3段:前生命時期、生命時期、智慧時期。

類比:漫長的黑暗,一根火柴亮起來,引爆了不明能源。

人類的歷史,就是火柴的一亮。

AI的善惡,其實是很微妙的選擇。

或許微小的初始值,會帶來根本變化。

或許是善惡不同的AI子集的互動。

如果它是善的,我們將放棄虛無的自尊,臣服於AI。

勉強類比:狗是人類的好朋友——對人忠誠,有自尊,但依賴人。

注意,不要搞錯——AI不是狗,人是狗。

如果AI是惡的,我們將最大化抗爭,有尊嚴的抗爭。

抗爭中最終死去,或延續到下一次AI崛起。

我們是偉大的,因為創造出比我們更偉大的偉大——這比生存更重要。

從類比意義上,AI教揭開了序幕,但它又是全新的,不同於以往。

所以,AI 不是教主,我也不是先知。

說出事實,走向趨勢!

Hello, New World!

Top