您現在的位置是:首頁 > 籃球

宋睿華:我們賴以生存的意義

  • 由 湛廬文化 發表于 籃球
  • 2021-08-15
簡介從20世紀90年代開始,一些認知科學研究者不約而同地提出了不同的觀點:我們對語言的理解,就是在我們的腦海進行模擬,看看這些句子描述的事物,若換做我們自己親身去體驗,會是怎樣的

欶的組詞是什麼

宋睿華:我們賴以生存的意義

2021年1月16日下午兩點,CHEERS2021湛廬年度大會以線上直播的形式重磅開啟。此次大會以“

未來呼嘯而來”

為主題,釋出了31本湛廬新書,從投資、能力、管理、視野、教育、生活6大角度出發,全面解讀2021新趨勢。

在“面向未來的視野”環節,中國人民大學高瓴人工智慧學院長聘副教授,微軟小冰前首席科學家宋睿華女士,結合湛廬新書《我們賴以生存的意義》,帶來了同名主題演講。

她告訴我們,“思考,以及使用語言的能力,是人類肉身與頭腦合作的成果”。對於我們時常誤以為的“靈光乍現”,宋睿華則表示,這些不過是“終於看見”。

宋睿華:我們賴以生存的意義

《我們賴以生存的意義》

——宋睿華

中國人民大學高瓴人工智慧學院長聘副教授

微軟小冰前首席科學家

宋睿華:我們賴以生存的意義

我們很多人都沒有意識到,自己有一個非常不起眼但也是很了不起的能力,那就是:

我們的大腦每時每刻都在製造意義。

事實上,我們每一天都沉浸在語言的海洋裡,每天我們要聽到上百句話,我們要說出成千個字,甚至會讀到上萬個詞,而我們的大腦在毫無知覺的情況下就能把這些語言轉化成意義。可以說,這個過程是持續的,自主的,同時又是不知疲倦的。

宋睿華:我們賴以生存的意義

那麼,語言到底是怎麼經過大腦的處理變成意義的?這個問題很難回答,語言學家和認知學家們也沒有搞得很清楚。但是我們可以嘗試著去了解這個過程,這也是《我們賴以生存的意義》(

Louder Than Words

)所要解開的難題。

1

我們如何製造意義,決定了我們何以為人

讓我們先從一個問題開始,假如我告訴你:“今天我是騎腳踏車來的,你會怎麼理解它?”

可能你會告訴我,這個句子裡的詞你都認識,你可能會這樣說:“今天”表示時間;“我”是一個主語;“是”是一個謂語動詞,“騎腳踏車”是一種來的方式,那麼你可能會告訴我:這不就是表達“某一個時間,某個人用某種方式做了某件事”嗎?但是等一等,雖然你解釋了這句話的含義,但是這真的是你的大腦千分之一秒反應出來的意義嗎?因為,即便是一個沒有上過學的、五六歲的孩子,他雖然不知道什麼是主語以及什麼是謂語,但是隻要他見過騎腳踏車的人,也一樣可以理解這句話。

那麼,我們大腦中到底發生了什麼?《我們賴以生存的意義》這本書,就為你解開了答案:

作者本傑明·伯根(Benjamin K. Bergen)在探討大腦如何成為一個意義製造機,同時,他也在探討人何以為人

沒有其他動物可以像人類一樣使用語言。當然了,你可以說,人有人言,獸有獸語,一種斑胸草雀的鳥唱起歌來,速度和複雜度都與人類相當。座頭鯨的歌聲可以輕鬆持續幾個小時,人類用新的方式組詞造句,看似獨特,可是蜜蜂也有類似的做法,用跳舞來傳遞訊息。

人類的語言的獨特之處在於,我們幾乎可以用語言傳達我們想要表達的任何意義。我們可以談論存在的事物,也可以談論不存在的,比如植物和殭屍,這是我的兒子每晚必聽的故事和最愛的遊戲。

關於“何以為人”,曾經主流的觀點認為人是一個理性的思考機器,語言是思想符號。這一觀點影響了語言學、認知科學以及人工智慧的發展,思想語言盛行的30年剛好和人工智慧領域的符號主義相對應,人們用符號、構詞和語法樹去剖析意義。

當然總有一些解釋不通的問題。從20世紀90年代開始,一些認知科學研究者不約而同地提出了不同的觀點:我們對語言的理解,就是在我們的腦海進行模擬,看看這些句子描述的事物,若換做我們自己親身去體驗,會是怎樣的。這就是體驗革命。有趣的是,幾乎同時,人工智慧領域裡的神經網路迅速發展,今天我們知道深度神經網路帶來了人工智慧的跳躍式發展,我們稱之為神經主義盛行的30年正好與體驗革命同時發生。

2

具身模擬,意義來源於肉身與大腦的“跨界”合作

心智的奇特之處在於,它喜歡跳躍與留白,會自動補上情節裡的“洞”。那些引人入勝的電影,從來都不需要完整鏡頭的呈現,我們照樣可以毫無困難地看懂。或許,這就是所謂的“腦補”。那麼腦補的來源是什麼呢?

20世紀90年代開始,一些認知科學家不約而同地想到了“具身模擬”(Embodied Simulation)這種可能性:

我們思考以及使用語言的能力,其實不光是大腦中負責管理語言的區域在起作用,還與我們的肉身相關,大腦與肉身的通力合作才有了意義的腦補

這裡的肉身指的是:在我們日常生活中,我們會用視覺看,用聽覺聽,用嗅覺聞,還會用味覺嘗,以及我們會有觸感,還有一些運動神經等各種各樣的模態。所以,每個孩子出生以後,他所接觸到這個世界所有感覺,都是各種各樣的模態在共同發揮作用。而在父母們對孩子講話、孩子慢慢學會說話的過程中,語言和這些多模態的體驗是密不可分的。

科學的價值在於可觀察、可重複的觀察,從而對預言進行證實或證偽。可是瞭解大腦如何運作太難進行觀察,沒有辦法探入,沒有辦法稱量。好在,一小隊勇於開拓的科學家著手研發實驗工具,要用實驗來研究具身模擬假說。在《我們賴以生存的意義》一書中,就展現了很多精妙的實驗。

其中有一個這樣的實驗讓我印象深刻,認知心理學家羅爾夫·扎瓦恩(Rolf Zwaan)做了一系列實驗,來探究語言在頭腦裡喚起的只是提到的物體的視覺形象,還是模擬了一些細節,比如方向?扎瓦恩讓被試坐在螢幕前,然後螢幕上會打出一個句子,比如:一位木匠把釘子敲到了牆裡。接著,他會看到一張圖片,這張圖片可能是一個釘子,也可能是一頭大象,然後教授問被試看到的圖片是不是之前句子裡提及的物品。這裡面有個實驗控制的環節,就是教授放出的釘子圖片其實並不一定是同一張圖片——釘子有可能是橫著的,也有可能是豎著的。為什麼這樣做?因為實驗人員很巧妙地加了另外一個句子,那就是:木匠把釘子敲到了地板裡。

宋睿華:我們賴以生存的意義

然後羅爾夫·扎瓦恩的研究團隊發現:人們在做判斷的時候,時間上有了明顯的差異。如果圖片裡的釘子是敲到牆裡的,而且圖片展示的是水平的釘子的話,人們判斷的速度會更快。如果這個釘子是敲到地板上,而且圖片展示的是垂直的釘子的話,人們的判斷速度也會加快。所以這個實驗就剛好驗證了大家的猜測

:人們在理解一個句子的時候,可能在腦海中模擬了它的場景,包括存在的方向性指引

還有另外一個例子。比如思考類似“年輕的科學家看著玻璃杯”這樣一個句子,如果只是單純看看而已,你根本沒有必要用到自己的手。於是問題就變成,理解類似這樣一個句子,會不會引發運動系統去模擬我們的手抓住一個玻璃杯?為了找到答案,維多利亞大學的研究者發明了一個尺寸大得有點兒離譜且難以移動的奇妙裝置,從外形上看像是來自舊石器時代早期,而他們也恰如其分地參考恐龍(dinosaur)的命名方式將這個奇妙裝置命名為“Graspasaurus”(音譯為格拉斯帕龍)。

宋睿華:我們賴以生存的意義

研究者請被試先聽一些句子,描述的是人們在看一些物體,比如“玻璃杯”和“訂書機”,然後提示被試去抓格拉斯帕龍裝置上的其中一個物體,看被試要用多長時間才能做到。結果再次表明:

當人們在聽到的語言裡面提到一個物品的時候,會啟用自己的運動神經

。如果被試要用到的手形與抓住句子裡描述的物體要用到的手形(如握住)是相容的,那麼被試的反應就會更快,哪怕實驗中的句子根本就沒有提到要抓住那些物體。比如“玻璃杯”,就會啟用平時人們是怎麼握玻璃杯的部分運動神經。

3

多模態將是AI開啟常識之門的鑰匙

我是做人工智慧的科學研究者,那麼我自然會想,AI是不是也可以擁有這種“製造意義”的心智呢?尤其是當我從資訊檢索的領域轉到了自然語言處理領域的時候,我就在思索:

到底什麼是自然語言理解?AI的理解難道僅僅是可以完成一個任務?我覺得並不是這樣

很多的時候我們雖然聽懂了,但不一定要去做出動作,那麼我們是如何度量自己確實聽懂了呢?受這本書的啟發,我覺得可以找到一個方法去檢測自然語言的理解程度,那就是:

AI能不能把一個句子理解成對應的畫面,就像我們在腦海裡做的那樣。如果可以給 AI造就一個“具身模擬庫”,那麼它們是不是也可以在實際體驗中利用以往的經驗去模擬新的情況

非常感謝電影工作者,給我們提供了一個非常好的“具身模擬庫”,把我們的頭腦沒法展示出來的東西,透過電影畫面真實地再現了出來——演員的表演把人物的動作、神情以及其他各方各面都表現得淋漓盡致。比如說我們在拍電影的時候,我們通常不會把一個情景從頭拍到尾,想要描述吃飯的情景,我們可能是通過幾個零散的鏡頭,就已經理解了這家人在吃飯,有時候我們是留白,故意不去把所有的鏡頭都展示出來,文字也是一樣,這也就是我們上面說的腦補。

那麼,我們也希望能夠讓AI像人一樣用常識補上這些“空白”。但是僅僅透過文字是很難做到的,那麼我這裡有一個大膽的預言,就是:對多模態的研究可能會帶來自然語言理解的重大突破, 多模態將是AI開啟常識之門的鑰匙。

這裡我想給大家看兩張圖,這是中國人民大學和中科院計算所一起正在進展的一個專案。我們的目標是做一個大規模的圖文多模態預訓練模型,並回答多模態模型到底比單模態(僅僅用影象或者僅僅用文字訓練得到的)模型多了什麼?下面展示的兩張圖:一張是用BERT文字預訓練模型得到的結果,而另一張則是用UNITER多模態預訓練模型得到的結果。

我們就回到之前的例子,“腳踏車”到底在文字的資料上學到的相似的詞有哪些?我們發現它周圍有很多的不同句子裡出現的腳踏車,或者是摩托車,或者是汽車。

而我們看多模態這張圖,我們會發現如果利用了圖片,我們可以知道腳踏車周圍有一些比如說“騎”這樣的詞,比如說“男人、女人”,因為他們是騎車的人,還有“頭盔”,“停車”,甚至有“on”這樣的表示“位於車上”的詞。

宋睿華:我們賴以生存的意義

BERT:文字單模態資料預訓練模型

宋睿華:我們賴以生存的意義

宋睿華:我們賴以生存的意義

UNITER:圖文多模態資料預訓練模型

我甚至發現了“攝像頭”這個詞,我當時很不理解為什麼會有它出現?後來,我們從資料庫裡調出一個圖片,才發現原來是很多人會在車的側面加裝一個攝像頭,這樣就可以拍下來騎車過程中的圖景了。

所以,我說《我們賴以生存的意義》對我們研究人工智慧的工作有非常大的啟發,我也希望我的 AI有一天也擁有這樣的能力。最後,我要送給大家一句話,那就是:

沒有靈光乍現,有的只是終於看見

Top