您現在的位置是：首頁 > 綜合

機器之心的進化——一統江湖的模型

由冰巴克發表于綜合
2023-01-08

簡介4.1 Transformer 的誕生2017 年 Google Brain 和多倫多大學的研究人員一同發表了一篇名為《Attention Is All You Need》的論文，裡面提到了一個自然語言處理（NLP）的模型 Transfor

左右心的輸出量相等嗎

轉自 INDIGO 的數字映象

想象一下，你去五金店，看到架子上有一種新款的錘子。你或許已經聽說過這種錘子了，它比其他的錘子更快、更準；而且在過去的幾年裡，許多其他的錘子在它面前都顯得過時了。你只需要加一個配件再扭一下，它就變成了一個鋸子，而且和其它的鋸子一樣快、一樣準。事實上，這個工具領域的前沿專家說，這個錘子可能預示著所有的工具都將集中到單一的裝置中。

類似的故事也在 AI 的工具中上演，這種多用途的新型錘子是一種神經網路，我們稱之為Transformer（轉換器模型 - 不是動畫片裡的變形金剛），它最初被設計用來處理自然語言，但最近已經開始影響 AI 行業的其它領域了。

4.1 Transformer 的誕生

2017 年 Google Brain 和多倫多大學的研究人員一同發表了一篇名為《Attention Is All You Need》的論文，裡面提到了一個自然語言處理（NLP）的模型 Transformer，這應該是繼 GANs 之後 Deep Learning 領域最重大的發明。2018 年 Google 在 Transformer 的基礎上實現並開源了第一款自然語言處理模型 BERT；雖然研究成果來自 Google，但很快被 OpenAI 採用，建立了 GPT-1 和最近的火爆的 GPT-3。其他公司還有開源專案團隊緊隨其後，實現了自己的 Transformer 模型，例如 Cohere，AI21，Eleuther（致力於讓 AI 保持開源的專案）；也有用在其它領域的創新，例如生成影象的 Dall-E 2、MidJourney、Stable Diffusion、Disco Diffusion， Imagen 和其它許多。

配圖16：發表《Attention Is All You Need》論文的八位同學

發表這篇論文的 8 個人中，有 6 個人已經創辦了公司，其中 4 個與人工智慧相關，另一個創辦了名為 Near。ai 的區塊鏈專案。

自然語言處理這個課題在上世紀五十年代開創 AI 學科的時候就明確下來了，但只到有了Deep Learning 之後，它的準確度和表達合理性才大幅提高。序列傳導模型（Seq2Seq）是用於 NLP 領域的一種 DL 模型，在機器翻譯、文字摘要和影象字幕等方面取得了很大的成功，2016 年之後 Google 在搜尋提示、機器翻譯等專案上都有使用。序列傳導模型是在輸入端一個接一個的接收並編碼專案（可以是單詞、字母、影象特徵或任何計算機可以讀取的資料），並在同步在輸出端一個接一個解碼輸出專案的模型。

在機器翻譯的案例中，輸入序列就是一系列單詞，經過訓練好的神經網路中複雜的矩陣數學計算，在輸出端的結果就是一系列翻譯好的目標詞彙。

Transformer 也是一款用於 NLP 的序列傳導模型，論文簡潔清晰的闡述了這個新的網路結構，它只基於注意力機制（Attention），完全不需要遞迴（RNN）和卷積（CNN）。在兩個機器翻譯的實驗表明，這個模型在質量上更勝一籌，同時也更容易並行化，需要的訓練時間也大大減少。

好奇心強的同學，如果想了解 Transformer 模型的具體工作原理，推薦閱讀 Giuliano Giacaglia 的這篇《How Transformers Work》。

4.2 Foundation Models

斯坦福大學 CRFM & HAI 的研究人員在 2021 年 8 月的一篇名為《On the Opportunities and Risks of Foundation Models》的論文中將 Transformer 稱為 Foundation Models（基礎模型），他們認為這個模型已經推動了 AI 領域新一輪的正規化轉移。事實上，過去兩年在 arVix 上發表的關於 AI 的論文中，70% 都提到了 Transformer，這與 2017 年 IEEE 的一項研究相比是一個根本性的轉變，那份研究的結論是 RNN 和 CNN 是當時最流行的模型。

從 NLP 到 Generative AI

來自 Google Brain 的計算機科學家 Maithra Raghu 分析了視覺轉換器（Vision Transformer），以確定它是如何“看到”影象的。與 CNN 不同，Transformer 可以從一開始就捕捉到整個影象，而 CNN 首先關注小的部分來尋找像邊緣或顏色這樣的細節。

這種差異在語言領域更容易理解，Transformer 誕生於 NLP 領域。例如這句話：“貓頭鷹發現了一隻松鼠。它試圖抓住它，但只抓到了尾巴的末端。” 第二個句子的結構令人困惑： “它”指的是什麼？如果是 CNN 就只會關注“它”周圍的詞，那會十分不解；但是如果把每個詞和其他詞連線起來，就會發現是”貓頭鷹抓住了松鼠，松鼠失去了部分尾巴”。這種關聯性就是“Attention”機制，人類就是用這種模式理解世界的。

Transformer 將資料從一維字串（如句子）轉換為二維陣列（如影象）的多功能性表明，這種模型可以處理許多其他型別的資料。就在 10 年前，AI 領域的不同分支幾乎沒有什麼可以交流的，計算機科學家 Atlas Wang 這樣表述， “我認為 Transformer 之所以如此受歡迎，是因為它暗示了一種變得通用的潛力，可能是朝著實現某種神經網路結構大融合方向的重要一步，這是一種通用的計算機視覺方法，或許也適用於其它的機器智慧任務”。

更多基於Transformer 模型的 Generative AI 案例，推薦好友 Rokey 的這篇《AI 時代的巫師與咒語》，這應該是中文網際網路上寫得最詳細清晰的一篇。

湧現和同質化

Foundation Models 的意義可以用兩個詞來概括：湧現和同質化。湧現是未知和不可預測的，它是創新和科學發現的源頭。同質化表示在廣泛的應用中，構建 Machine Learning 的方法論得到了整合；它讓你可以用統一的方法完成不同的工作，但也創造了單點故障。我們在 Bug 2。0 那一小節中提到的資料汙染會被快速放大，現在還會波及到所有領域。

配圖18：人工智慧的湧現過程（來自斯坦福研究人員 2021 年 8 月的論文）

AI 的進化史一個不斷湧現和同質化的過程。隨著 ML 的引入，可以從例項中學習（演算法機率推論）；隨著 DL 的引入，用於預測的高階特徵出現；隨著基礎模型（Foundation Models）的出現，甚至出現了更高階的功能，在語境中學習。同時，ML 將演算法同質化（例如 RNN），DL 將模型架構同質化（例如 CNN），而基礎模型將模型本身同質化（如 GPT-3）。

一個基礎模型如果可以集中來自各種模式的資料。那麼這個模型就可以廣泛的適應各種任務。

配圖19：Foundation Model 的轉換（來自斯坦福研究人員 2021 年 8 月的論文）

除了在翻譯、文字創作、影象生成、語音合成、影片生成這些耳熟能詳的領域大放異彩之外，基礎模型也被用在了專業領域。

DeepMind 的 AlphaFold 2 在 2020 年 12 月成功的把蛋白質結構預測的準確度提升到了 90% 多，大幅超過所有的競爭對手。他們在《自然》雜誌上發表的文章中提到，像處理文字字串這樣讀取氨基酸鏈，用這個資料轉換成可能的蛋白質摺疊結構，這項工作可以加速藥物的發現。類似的應用也在藥物公司發生，阿斯利康（AstraZeneca）和 NVIDIA 聯合開發了 MegaMolBART，可以在未標記的化合物資料庫上進行培訓練，大幅提升效率。

大規模語言模型

這種通用化的特徵，讓大規模神經網路的訓練變得非常有意義。自然語言又是所有可訓練資料中最豐富的，它能夠讓基礎模型在語境中學習，轉換成各種需要的媒體內容，自然語言 = 程式設計方式 = 通用介面。

因此，大規模語言模型（LLMs - Large Scale Language Models）成了科技巨頭和新創業公司必爭之地。在這個軍備競賽之中，財大氣粗就是優勢，它們可以花費數億美元採購 GPU 來培訓 LLMs，例如 OpenAI 的 GPT-3 有 1750 億個引數，DeepMind 的 Gopher 有 2800 億個引數，Google 自己的 GLaM 和 LaMDA 分別有 1。2 萬億個引數和 1370 億個引數，Microsoft 與 Nvidia 合作的 Megatron-Turing NLG 有 5300 億個引數。

但 AI 有個特徵它是湧現的，大多數情況挑戰是科學問題，而不是工程問題。在 Machine Learning 中，從演算法和體系結構的角度來看，還有很大的進步空間。雖然，增量的工程迭代和效率提高似乎有很大的空間，但越來越多的 LLMs 創業公司正在籌集規模較小的融資（1000 萬至 5000 萬美元），它們的假設是，未來可能會有更好的模型架構，而非純粹的可擴充套件性。

4.3 AI 江湖的新機會

隨著模型規模和自然語言理解能力的進一步增強（擴大訓練規模和引數就行），我們可以預期非常多的專業創作和企業應用會得到改變甚至是顛覆。企業的大部分業務實際上是在“銷售語言”—— 營銷文案、郵件溝通、客戶服務，包括更專業的法律顧問，這些都是語言的表達，而且這些表達可以二維化成聲音、影象、影片，也能三維化成更真實的模型用於元宇宙之中。機器能理解文件或者直接生成文件，將是自 2010 年前後的移動網際網路革命和雲計算以來，最具顛覆性的轉變之一。參考移動時代的格局，我們最終也會有三種類型的公司：

1、平臺和基礎設施

移動平臺的終點是 iPhone 和 Android，這之後都沒有任何機會了。但在基礎模型領域 OpenAI、Google、Cohere、AI21、Stability。ai 還有那些構建 LLMs 的公司的競爭才剛剛開始。這裡還有許多許新興的開源選項例如 Eleuther。雲計算時代，程式碼共享社群 Github 幾乎託管了軟體 1。0 的半壁江山，所以像 Hugging Face 這種共享神經網路模型的社群，應該也會成為軟體 2。0 時代智慧的樞紐和人才中心。

2、平臺上的獨立應用

因為有了移動裝置的定位、感知、相機等硬體特性，才有了像 Instagram，Uber，Doordash 這種離開手機就不會存在的服務。現在基於 LLMs 服務或者訓練 Transformer 模型，也會誕生一批新的應用，例如 Jasper（創意文案）、Synthesia（合成語音與影片），它們會涉及 Creator & Visual Tools、Sales & Marketing、Customer Support、Doctor & Lawyers、Assistants、Code、Testing、Security 等等各種行業，如果沒有先進的 Machine Learning 突破，這些就不可能存在。

紅衫資本美國（SequoiaCap）最近一篇很火的文章《Generative AI： A Creative New World》詳細分析了這個市場和應用，就像在開篇介紹的那樣，整個投資界在 Web 3 的投機挫敗之後，又開始圍獵 AI 了。

配圖21：在模型之上的應用分類（Gen AI market map V2）

3、現有產品智慧化

在移動網際網路的革命中，大部分有價值的移動業務依舊被上個時代的巨頭所佔據。例如，當許多初創公司試圖建立“Mobile CRM”應用時，贏家是增加了移動支援的 CRM 公司，Salesforce 沒有被移動應用取代。同樣，Gmail、Microsoft Office 也沒有被移動應用取代，他們的移動版做得還不錯。最終，Machine Learning 將被內建到使用者量最大的 CRM 工具中，Salesforce 不會被一個全新由 ML 驅動的 CRM 取代，就像 Google Workspace 正在全面整合它們的 AI 成果一樣。

我們正處於智慧革命的初期，很難預測將要發生的一切。例如 Uber 這樣的應用，你按下手機上的按鈕，就會有一個陌生人開車來接你，現在看來稀疏平常，但智慧手機剛出現的時候你絕對想不到這樣的應用和互動介面。那些人工智慧的原生應用也將如此，所以請開啟腦洞，最有趣的應用形態還在等你去發掘。

我們已經感受了基礎模型的強大，但這種方法真能產生的智力和意識麼？今天的人工智慧看起來非常像工具，而不像智慧代理。例如，像 GPT-3 在訓練過程中不斷學習，但是一旦模型訓練完畢，它的引數的各種權重就設定好了，不會隨著模型的使用而發生新的學習。想象一下，如果你的大腦被凍結在一個瞬間，可以處理資訊，但永遠不會學到任何新的東西，這樣的智慧是你想要的麼？Transformer 模型現在就是這樣工作的，如果他們變得有知覺，可以動態的學習，就像大腦的神經元無時不刻不在產生新的連線那樣，那它們更高階的形態可能代表一種新的智慧。我們會在第六章聊一下這個話題，在這之前，先來看看 AI 如何在現實世界中生存的。

上一篇：微觀淄博丨持續曝光！這些“煞風景”的現象何時休

下一篇：你的自我設限，才是人生黯淡的最大根源

您現在的位置是：首頁 > 綜合

機器之心的進化——一統江湖的模型

相關文章