您現在的位置是：首頁 > 棋牌

自監督學習，人工智慧世界的“暗物質”

由桃花十里說幣發表于棋牌
2022-01-24

簡介未來幾年我們面臨的挑戰可能是為潛在變數基於能量的模型設計非對比方法，這種方法應該能成功生成影象、影片、語音和其他訊號的良好表示形式，並在不需要大量標記資料的情況下在下游監督任務中獲得最佳效能

ai顏色暗怎麼辦

近年來，AI 產業在開發“可以從大量經過細緻標記的資料中學習的 AI 系統”這個研究領域上取得了巨大進步。這種監督學習的正規化在訓練專業模型方面有著非常好的成績，這類模型在完成它們針對訓練的任務時表現頗為出色。不幸的是，只靠監督學習，人工智慧領域的前景是有侷限的。

監督學習是構建更智慧的通用模型道路上面臨的一個瓶頸。這種通用模型可以無需大量標記資料就執行多種任務並獲得新技能。實際上，想要標記世界上的所有事物是不可能做到的。還有一些任務根本沒有足夠的標記資料，例如針對一些資源匱乏的語言的翻譯系統。如果 AI 系統能夠超越訓練資料集所指定內容的範疇，對現實做出更深入、更細緻的理解，那麼它們就會有更多用途，並最終發展出更接近人類的 AI 智慧。

在嬰兒時期，我們主要透過觀察來了解世界是如何運轉的。我們學習諸如事物恆久性和重力之類的概念，從而形成了關於世界中各種事物的通用預測模型。隨著我們成長，我們開始觀察世界，對其採取行動，再次觀察並建立假設，以透過嘗試和錯誤來解釋我們的行為是如何改變環境的。

一個可行的假設是，關於世界的通行知識，或者說常識，構成了人類和動物具備的生物智慧的主要基礎。這種常識能力對於人類和動物來說都是天然存在的，但是自 AI 研究起步以來，它一直都是一項未解決的挑戰。從某種意義上說，常識就是人工智慧領域的暗物質。

常識可以幫助人們學習新技能，而無需為每項任務都做大量的教學指導。例如，我們只需向小孩子展示幾張母牛的畫像，他們最後就能識別出他們看到的任何母牛。相比之下，受監督學習訓練的 AI 系統需要許多母牛影象的樣本，即便如此也可能無法識別出特殊情況下的母牛（例如躺在沙灘上的牛）。

在幾乎沒有監督的情況下，人們是如何在大約 20 個小時的練習中學會駕駛汽車的呢？相比之下，全自動駕駛系統為什麼需要動用我們最優秀的 AI 系統，接受來自人類駕駛員的數千小時資料的訓練？簡單的答案是，人類依賴的是他們之前獲得的有關世界運作方式的背景知識。

我們如何讓機器也能做到這一點呢？

我們相信，自監督學習（self-supervised learning，SSL）是建立這種背景知識，並在 AI 系統中建立一種近似常識形式的最有前途的方法之一。

自監督學習讓 AI 系統能夠從很少的資料中學習知識，這樣才能識別和理解世界上更微妙、更不常見的表示形式。自監督學習在自然語言處理（NLP）領域取得了顯著的成就，包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText，以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監督方式做訓練的系統相比，以這種方式進行預訓練的系統所提供的效能要高得多。

我們最新的研究專案 SEER 利用了 SwAV 等方法，在一個包含十億張隨機未標記影象的大型網路上做預訓練，進而在各種視覺任務集上獲得了最頂尖的準確性水平。這一進展表明，自監督學習也可以勝任複雜現實環境中的 CV 任務。

在這篇文章中，我們會向大家分享為什麼自監督學習可能有助於解鎖智慧研究領域的暗物質，以及 AI 產業下一個前沿領域的細節。我們還將重點介紹關於 AI 系統中自監督學習和推理的一些最有希望的新方向，包括在不確定環境下用於預測的基於能量的模型、聯合嵌入方法和潛在變數架構。

自監督學習是預測性學習

自監督學習是利用資料的基礎結構來從資料本身獲取監督訊號的。一般來說，自監督學習使用的技術是根據輸入的任何觀察到的或非隱藏的部分，來預測輸入的任何未觀察到的或隱藏的部分（或屬性）。例如，在 NLP 中很常見的例子是，我們可以隱藏句子的一部分，並從其餘單詞中預測隱藏的單詞。我們還可以根據當前幀（觀察到的資料）預測影片中的過去幀或未來幀（隱藏資料）。由於自監督學習使用的是資料本身的結構，因此它可以在多種共現模式（例如影片和音訊）和大型資料集中利用各種監督訊號，而無需依賴標記。

在自監督學習中，訓練系統以從輸入的可見部分（綠色）預測輸入的隱藏部分（灰色）

由於自監督學習是由監督訊號推動的，因此與之前使用的術語“無監督學習”相比，“自監督學習”這個術語更容易被接受。無監督學習是一個定義不清、具有誤導性的術語，讓人覺得這種學習根本用不到監督。實際上，自監督學習並不是無監督的，因為它使用的反饋訊號比標準的監督學習和強化學習方法要多得多。

自監督的語言與視覺學習

自監督學習對 NLP 產生了特別深遠的影響，使我們能夠在大型的未標記文字資料集上訓練 BERT、RoBERTa、XLM-R 等模型，然後將這些模型用於下游任務。這些模型在自監督階段進行預訓練，然後針對特定任務（例如分類文字主題）進行微調。在自監督的預訓練階段，系統會顯示一段簡短的文字（通常包含 1，000 個單詞），其中一些單詞已被遮蔽或替換。系統經過訓練可以預測被遮蔽或替換的單詞。透過這種方式，系統學會了表示文字的含義，這樣它就可以很好地填寫“正確的”單詞，或者說在上下文中有意義的單詞。

預測輸入的缺失部分是 SSL 預訓練的更常見的任務之一。要完成諸如“（）在非洲草原上追趕（）”這樣的句子，系統必須知道獅子或獵豹可以追捕羚羊或牛羚，但貓是在廚房而非熱帶草原中追逐老鼠的。訓練的結果是，系統學會了如何表示單詞的含義、單詞在句子中的作用以及整段文字的含義。

但是，這些技術不能輕鬆擴充套件到新領域，例如 CV 上。儘管 SSL 取得了令人鼓舞的早期成果，但它尚未在計算機視覺方面帶來我們在 NLP 領域中看到的那種改進（儘管這種情況將會改變）。

主要原因是，在影象的預測任務中表示不確定性要比在單詞中表示不確定性困難得多。當系統無法準確預測缺失的單詞時（是“獅子”還是“獵豹”？），系統可以對詞彙表中所有可能的單詞打出分數或機率：“獅子”“獵豹”和其他一些掠食者拿到高分，詞彙表中其他單詞的得分都較低。

規模這麼大的訓練模型還需要一種在執行時和記憶體方面都有很高效率，而又不影響準確性的模型架構。幸運的是，FAIR 在架構設計領域的最新創新催生了一個新的模型家族，名為 RegNets，可以完全符合這些需求。RegNet 模型都是 ConvNet，能夠擴充套件到數十億甚至可能是數萬億的引數，並且可以進行針對最佳化以適應不同的執行時和記憶體限制。

但是，當我們預測影片中丟失的幀或影象中缺少的色塊時，我們不知道如何有效地表示不確定性。我們無法列出所有可能的影片幀，也無法給每個可能的影片幀打出分數，因為它們的數量是無限的。儘管這一問題限制了視覺領域中 SSL 帶來的效能改進，但諸如 SwAV 之類的新 SSL 技術開始打破視覺任務中的準確性記錄。SEER 系統就是一個最佳證明，它使用了一個經過數十億樣本訓練的大型卷積網路。

對預測中的不確定性建模

為了更好地理解這一挑戰，我們首先需要了解與 NLP 相比，CV 中預測不確定性及其建模的方式。在 NLP 中，缺失單詞的預測工作需要計算詞彙表中每個可能單詞的預測分數。雖然詞彙量本身很大，並且預測缺失單詞會帶來一些不確定性，但系統可以生成詞彙表中所有可能單詞的列表以及該位置可能出現單詞的機率估計。典型的機器學習系統會將預測問題視為分類問題，並使用巨大的所謂的 softmax 層來計算每個結果的分數，進而將原始分數轉換為單詞的機率分佈以實現上述目的。使用這種技術，只要存在有限數量的可能結果，預測的不確定性就可以透過所有可能結果的機率分佈來表示。

相比之下，在 CV 領域中，預測影片中“丟失”的幀、影象中缺少的塊或語音訊號中缺失片段的類似任務需要對高維連續物件做預測，而不是對離散結果做預測。給定的影片幀後面可以跟隨的影片幀有無數種合理的可能。系統不可能明確表示所有可能的影片幀併為它們給出預測分數。實際上，我們可能永遠也沒有適當地表示高維連續空間（例如所有可能影片幀的集合）上機率分佈的技術。

這似乎是一個棘手的問題。

自監督方法的統一視角

基於能量的模型（energy-based model，EBM）這一統一框架為 SSL 提供了一種思路。EBM 是一種可訓練的系統，在給定兩個輸入 x 和 y 的情況下，它能告訴我們它們彼此之間的不相容程度。例如，x 可以是一段短影片剪輯，而 y 可以是另一個建議的影片剪輯。機器會告訴我們 y 在多大程度上是 x 的良好後續。為了指出 x 和 y 之間的不相容程度，機器會生成一個稱為能量的數字。如果能量較低，則認為 x 和 y 相互趨於相容；否則，x 和 y 被認為是不相容的。

基於能量的模型（EBM）測量觀測值 x 與建議的預測值 y 之間的相容性。如果 x 和 y 相容，則能量很小。如果它們不相容，則能量較大。

EBM 的訓練過程包括兩部分：（1）向其展示 x 和 y 相容的示例並對其進行訓練以產生一個較低的能量（2）找到一種方法來確保對於特定 x，與 x 不相容的 y 值產生的能量比與 x 相容的 y 值更高。第一部分很簡單，但第二部分就是困難所在。

為了進行影象識別，我們的模型將 x 和 y 這兩個影象作為輸入。如果 x 和 y 是同一影象的略有變形的版本，則用它們訓練該模型以使其輸出產生低能量。例如，x 可以是一輛汽車的照片，而 y 可以是同一輛汽車的照片，只是在一天中的不同時間從稍有不同的位置拍攝的，因此相比 x 中的汽車，y 中的汽車可以移動、旋轉、更大、更小，或者顯示的顏色和陰影略有不同。

聯合嵌入，暹羅網路

一種特別適合這一用途的深度學習架構是所謂的暹羅網路或稱聯合嵌入（joint embedding）架構。這個想法可以追溯到 Geoff Hinton 實驗室和 Yann LeCun 小組的論文（1990 年代初，這裡和這裡；2000 年代中，這裡，這裡，和這裡）。它過去一直沒得到很好的重視，但自 2019 年底以來重新成為了熱門話題。聯合嵌入架構由同一網路的兩個相同（或幾乎相同）的副本組成。一個網路用 x 輸入，另一個網路用 y 輸入。這些網路生成稱為嵌入（embedding）的輸出向量，分別表示 x 和 y。第三個模組將這些網路頭對頭連線起來，將能量計算為兩個嵌入向量之間的距離。當模型看到同一影象的不同變形版本時，可以輕鬆調整網路引數，以使它們的輸出靠得更近。這將確保網路生成物件的幾乎相同的表示（或嵌入），而不管該物件的特定檢視是什麼樣子。

聯合嵌入架構。頂部的函式 C 產生一個標量能量，該標量能量測量由共享相同引數（w）的兩個相同的雙胞胎網路生成的表示向量（嵌入）之間的距離。當 x 和 y 是同一影象的稍有不同的版本時，系統經過訓練以生成一個低能量，這迫使模型為兩個影象生成相似的嵌入向量。困難的部分是訓練模型，以便為不同的影象生成高能量（即，不同的嵌入）。

困難在於當 x 和 y 是不同的影象時，如何確保網路生成高能量，即不同的嵌入向量。如果沒有特定的方法，這兩個網路可能會愉快地忽略它們的輸入，並始終生成相同的輸出嵌入。這種現象稱為崩潰。當發生崩潰時，x 和 y 不匹配的能量不會比 x 和 y 匹配的能量更高。

有兩種避免崩潰的技術：對比方法和正則化方法。

基於能量的 SSL 的對比方法

對比方法基於以下簡單思想：構造不相容的 x 和 y 對，並調整模型的引數，以使相應的輸出能量較大。

用對比方法訓練 EBM 的方法包括同時降低訓練集中相容的（x，y）對的能量（由藍點表示），提高挑選出來的不相容的（x，y）對的能量（以綠點表示）。在這個簡單的示例中 x 和 y 都是標量，但在實際情況下，x 和 y 可以是具有數百萬個維度的影象或影片。找出讓能量按照預期方式漲落的不相容對是一大挑戰，需要龐大的計算資源。

透過遮蔽或替換某些輸入詞來訓練 NLP 系統的方法屬於對比方法的類別。但是它們不使用聯合嵌入架構。取而代之的是，他們使用了一種預測架構，其中模型直接生成 y 的預測。模型從文字 y 的一個完整段開始，然後透過遮蔽某些單詞來破壞它，以生成觀察值。損壞的輸入將輸入到一個大型神經網路，該網路經過訓練可以重現原始文字 y。未損壞的文字將被重建為自身（低重建錯誤），而已損壞的文字將被重建為自身的未損壞版本（較大的重建錯誤）。如果將重建錯誤解釋為一種能量，它將具有所需的屬性：“乾淨”文字的能量較低，而“損壞”文字的能量較高。

訓練模型以恢復輸入的損壞版本的一般性技術被稱為降噪自動編碼器。這個想法的早期形式可以追溯到 1980 年代，2008 年由蒙特利爾大學的 PascalVincent 和同事們復興。這一理念被 Collobert 和 Weston 引入 NLP 領域，並由我們在谷歌的同行在 BERT 論文中發揚光大。

遮蔽語言模型是降噪自動編碼器的一個例項，它本身是對比自監督學習的一個例項。變數 y 是一個文字段；x 是文字中某些單詞被遮蔽的版本。網路經過訓練可以重建未損壞的文字。

正如我們之前指出的，這種型別的預測架構只能對給定的輸入生成單個預測。由於模型必須能夠預測多個可能的結果，因此預測結果不是單個單詞集，而是針對每個缺失單詞位置的詞彙表中各個單詞的分數系列。

但是我們不能對影象使用這種技術，因為我們無法列舉所有可能的影象。存在解決這一問題的方法嗎？簡單的回答就是不存在。在這個方向上有一些有趣的想法，但是它們尚未產生與聯合嵌入架構一樣好的結果。一種有趣的途徑是潛在變數（latent-variable）預測架構。

潛在變數預測架構。給定一個觀測值 x，該模型必須能夠生成一組由圖中的 S 形色帶表示的多個相容預測。當潛在變數 z 在一個用灰色正方形表示的集合內變化時，輸出在該組合理的預測範圍內變化。

潛在變數預測模型包含一個額外的輸入變數（z）。之所以稱其為潛在，是因為系統從未觀察到它的值。對於經過適當訓練的模型，由於潛在變數在給定的集合上變化，因此輸出預測在與輸入 x 相容的合理預測的集合上變化。

可以使用對比方法來訓練潛在變數模型。生成對抗網路（GAN）就是一個很好的例子。批評者（或稱鑑別器）可以被視為計算能量，該能量指示輸入 y 是否看起來不錯。生成器網路經過訓練以生成對比樣本，批評者被訓練到對比樣本以關聯高能量。

但是對比方法有一大問題：它們的訓練效率很低。在諸如影象之類的高維空間中，一張影象與另一張影象的區別可以有很多表現形式。找到涵蓋所有可能與給定影象不同之處的對比影象集合幾乎是不可能的任務。就像托爾斯泰名著《安娜·卡列尼娜》中的名言：“幸福的家庭都是相似的；不幸的家庭都有自己的不幸。”看來，這一規則也適用於任何高維物件系列。

怎樣才能在不顯著提高許多不相容對的能量的情況下，確保不相容對的能量高於相容對的能量呢？

基於能量的 SSL 的非對比方法

應用於聯合嵌入架構的非對比方法可能是目前 SSL 視覺領域中最熱門的話題。這個領域還有大片需要探索的未知事物，但它似乎很有希望。

聯合嵌入的非對比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來自 DeepMind 的 BYOL 等等。他們使用各種技巧，例如為一組相似的影象計算虛擬目標嵌入（DeeperCluster、SwAV、SimSiam），或者透過架構或引數向量來讓兩種聯合嵌入架構出現細微差異（BYOL、MoCo）。BarlowTwins 則試圖最小化嵌入向量各個分量之間的冗餘。

從長遠來看，也許更好的選擇是設計潛在變數預測模型的非對比方法。主要的障礙是它們需要一種方法來最小化潛在變數的容量。容納潛在變數變化的集合大小限制了消耗低能量的輸出的大小。透過最小化這一大小，可以自動以正確的方式來排布能量。

這種方法的一個成功例子是變分自編碼器（Variational Auto-Encoder，VAE），其將潛在變數設為“模糊”，從而限制了其容量。但是，尚未證明 VAE 可以為下游的視覺任務提供良好的表示。另一個成功的例子是稀疏建模（sparse modeling），但其用例僅限於簡單的架構。似乎沒有完美的方法可以限制潛在變數的容量。

未來幾年我們面臨的挑戰可能是為潛在變數基於能量的模型設計非對比方法，這種方法應該能成功生成影象、影片、語音和其他訊號的良好表示形式，並在不需要大量標記資料的情況下在下游監督任務中獲得最佳效能。

推進視覺領域的自監督學習

最近，我們建立並開源了一種稱為 SEER 的，具有十億引數的自監督 CV 新模型，它已被證明可有效處理複雜的高維影象資料。它基於應用於卷積網路架構（ConvNet）的 SwAV 方法，可以用大量隨機影象訓練，而無需任何元資料或註釋。ConvNet 足夠大，可以從龐大而複雜的資料中捕獲和學習每個視覺概念。在對 10 億張隨機、未標記和未整理的公共 Instagram 影象集合進行預訓練，並在 ImageNet 上進行了監督微調之後，SEER 的表現超過了最先進的自監督系統，在 ImageNet 上的 top-1 準確度達到了 84。2％。

這些結果表明，我們可以將自監督的學習正規化拓展到計算機視覺領域。

在 Facebook 應用自監督學習

在 Facebook，我們不僅在多個領域透過基礎、開放的科學研究推進自監督學習技術，我們還將這項前沿工作應用到了生產中，以快速提高我們平臺安全性產品中內容理解系統的準確度，

像我們的預訓練語言模型 XLM 這樣的自監督領域研究正在為 Facebook 上的許多重要應用程式提供動力——包括主動檢測仇恨言論的系統。我們已經部署了 XLM-R，該模型利用了我們的

RoBERT 架構，以改進我們在 Facebook 和 Instagram 上針對多種語言的仇恨語音分類器，這樣即使在訓練資料很少的語言中我們也可以實現仇恨語音檢測。

近年來，自監督學習的進展讓我們倍感鼓舞，儘管要讓這種方法幫助我們發現 AI 智慧的暗物質還有很長的路要走。自監督是通往人類水平智慧的道路上的重要一步，但這一步背後肯定有許多積累，所謂千里之行始於足下。因此，我們在努力與更大範圍內的 AI 社群合作，以實現我們在未來的某一天創造出具有人類智慧的機器的目標。我們的研究已公開發布並在頂級會議上發表。我們還組織了研討會併發布了一些庫，以幫助加快這一領域的研究。

上一篇：區塊鏈技術簡說之雜湊演算法

下一篇：中國好女人的典範——長孫皇后，一個堪稱完美的女人

您現在的位置是：首頁 > 棋牌

自監督學習，人工智慧世界的“暗物質”

相關文章