您現在的位置是:首頁 > 綜合

機器之心的進化——一統江湖的模型

  • 由 冰巴克 發表于 綜合
  • 2023-01-08
簡介4.1 Transformer 的誕生2017 年 Google Brain 和多倫多大學的研究人員一同發表了一篇名為《Attention Is All You Need》的論文,裡面提到了一個自然語言處理(NLP)的模型 Transfor

左右心的輸出量相等嗎

轉自 INDIGO 的數字映象

想象一下,你去五金店,看到架子上有一種新款的錘子。你或許已經聽說過這種錘子了,它比其他的錘子更快、更準;而且在過去的幾年裡,許多其他的錘子在它面前都顯得過時了。你只需要加一個配件再扭一下,它就變成了一個鋸子,而且和其它的鋸子一樣快、一樣準。事實上,這個工具領域的前沿專家說,這個錘子可能預示著所有的 工具都將集中到單一的裝置中。

類似的故事也在 AI 的工具中上演,這種多用途的新型錘子是一種神經網路,我們稱之為Transformer(轉換器模型 - 不是動畫片裡的變形金剛),它最初被設計用來處理自然語言,但最近已經開始影響 AI 行業的其它領域了。

4.1 Transformer 的誕生

2017 年 Google Brain 和多倫多大學的研究人員一同發表了一篇名為《Attention Is All You Need》的論文,裡面提到了一個自然語言處理(NLP)的模型 Transformer,這應該是繼 GANs 之後 Deep Learning 領域最重大的發明。2018 年 Google 在 Transformer 的基礎上實現並開源了第一款自然語言處理模型 BERT;雖然研究成果來自 Google,但很快被 OpenAI 採用,建立了 GPT-1 和最近的火爆的 GPT-3。其他公司還有開源專案團隊緊隨其後,實現了自己的 Transformer 模型,例如 Cohere,AI21,Eleuther(致力於讓 AI 保持開源的專案);也有用在其它領域的創新,例如生成影象的 Dall-E 2、MidJourney、Stable Diffusion、Disco Diffusion, Imagen 和其它許多。

機器之心的進化——一統江湖的模型

配圖16:發表《Attention Is All You Need》論文的八位同學

發表這篇論文的 8 個人中,有 6 個人已經創辦了公司,其中 4 個與人工智慧相關,另一個創辦了名為 Near。ai 的區塊鏈專案。

自然語言處理 這個課題在上世紀五十年代開創 AI 學科的時候就明確下來了,但只到有了Deep Learning 之後,它的準確度和表達合理性才大幅提高。序列傳導模型(Seq2Seq)是用於 NLP 領域的一種 DL 模型,在機器翻譯、文字摘要和影象字幕等方面取得了很大的成功,2016 年之後 Google 在搜尋提示、機器翻譯等專案上都有使用。序列傳導模型是在 輸入端 一個接一個的接收並 編碼 專案(可以是單詞、字母、影象特徵或任何計算機可以讀取的資料),並在同步在 輸出端一個接一個 解碼 輸出專案的模型。

在機器翻譯的案例中,輸入序列就是一系列單詞,經過訓練好的神經網路中複雜的矩陣數學計算,在輸出端的結果就是一系列翻譯好的目標詞彙。

Transformer 也是一款用於 NLP 的序列傳導模型,論文簡潔清晰的闡述了這個新的網路結構,它只基於 注意力機制(Attention),完全不需要遞迴(RNN)和卷積(CNN)。在兩個機器翻譯的實驗表明,這個模型在質量上更勝一籌,同時也更容易並行化,需要的訓練時間也大大減少。

好奇心強的同學,如果想了解 Transformer 模型的具體工作原理,推薦閱讀 Giuliano Giacaglia 的這篇《How Transformers Work》。

4.2 Foundation Models

斯坦福大學 CRFM & HAI 的研究人員在 2021 年 8 月的一篇名為《On the Opportunities and Risks of Foundation Models》的論文中將 Transformer 稱為 Foundation Models(基礎模型),他們認為這個模型已經推動了 AI 領域新一輪的正規化轉移。事實上,過去兩年在 arVix 上發表的關於 AI 的論文中,70% 都提到了 Transformer,這與 2017 年 IEEE 的一項研究 相比是一個根本性的轉變,那份研究的結論是 RNN 和 CNN 是當時最流行的模型。

從 NLP 到 Generative AI

來自 Google Brain 的計算機科學家 Maithra Raghu 分析了視覺轉換器(Vision Transformer),以確定它是如何“看到”影象的。與 CNN 不同,Transformer 可以從一開始就捕捉到整個影象,而 CNN 首先關注小的部分來尋找像邊緣或顏色這樣的細節。

這種差異在語言領域更容易理解,Transformer 誕生於 NLP 領域。例如這句話:“貓頭鷹發現了一隻松鼠。它試圖抓住它,但只抓到了尾巴的末端。” 第二個句子的結構令人困惑: “它”指的是什麼?如果是 CNN 就只會關注“它”周圍的詞,那會十分不解;但是如果把每個詞和其他詞連線起來,就會發現是”貓頭鷹抓住了松鼠,松鼠失去了部分尾巴”。這種關聯性就是“Attention”機制,人類就是用這種模式理解世界的。

Transformer 將資料從一維字串(如句子)轉換為二維陣列(如影象)的多功能性表明,這種模型可以處理許多其他型別的資料。就在 10 年前,AI 領域的不同分支幾乎沒有什麼可以交流的,計算機科學家 Atlas Wang 這樣表述, “我認為 Transformer 之所以如此受歡迎,是因為它暗示了一種變得通用的潛力,可能是朝著實現某種神經網路結構大融合方向的重要一步,這是一種通用的計算機視覺方法,或許也適用於其它的機器智慧任務”。

更多基於Transformer 模型的 Generative AI 案例,推薦好友 Rokey 的這篇《AI 時代的巫師與咒語》,這應該是中文網際網路上寫得最詳細清晰的一篇。

湧現和同質化

Foundation Models 的意義可以用兩個詞來概括:湧現和同質化。湧現 是未知和不可預測的,它是創新和科學發現的源頭。同質化 表示在廣泛的應用中,構建 Machine Learning 的方法論得到了整合;它讓你可以用統一的方法完成不同的工作,但也創造了單點故障。我們在 Bug 2。0 那一小節中提到的 資料汙染 會被快速放大,現在還會波及到所有領域。

機器之心的進化——一統江湖的模型

配圖18:人工智慧的湧現過程(來自斯坦福研究人員 2021 年 8 月的論文)

AI 的進化史一個不斷湧現和同質化的過程。隨著 ML 的引入,可以從例項中學習(演算法機率推論);隨著 DL 的引入,用於預測的高階特徵出現;隨著基礎模型(Foundation Models)的出現,甚至出現了更高階的功能,在語境中學習。同時,ML 將演算法同質化(例如 RNN),DL 將模型架構同質化(例如 CNN),而基礎模型將模型本身同質化(如 GPT-3)。

一個基礎模型如果可以集中來自各種模式的資料。那麼這個模型就可以廣泛的適應各種任務。

機器之心的進化——一統江湖的模型

配圖19:Foundation Model 的轉換(來自斯坦福研究人員 2021 年 8 月的論文)

除了在翻譯、文字創作、影象生成、語音合成、影片生成這些耳熟能詳的領域大放異彩之外,基礎模型也被用在了專業領域。

DeepMind 的 AlphaFold 2 在 2020 年 12 月成功的把蛋白質結構預測的準確度提升到了 90% 多,大幅超過所有的競爭對手。他們在《自然》雜誌上發表的文章中提到,像處理文字字串這樣讀取氨基酸鏈,用這個資料轉換成可能的蛋白質摺疊結構,這項工作可以加速藥物的發現。類似的應用也在藥物公司發生,阿斯利康(AstraZeneca)和 NVIDIA 聯合開發了 MegaMolBART,可以在未標記的化合物資料庫上進行培訓練,大幅提升效率。

大規模語言模型

這種通用化的特徵,讓大規模神經網路的訓練變得非常有意義。自然語言又是所有可訓練資料中最豐富的,它能夠讓基礎模型在語境中學習,轉換成各種需要的媒體內容,自然語言 = 程式設計方式 = 通用介面。

因此,大規模語言模型(LLMs - Large Scale Language Models)成了科技巨頭和新創業公司必爭之地。在這個軍備競賽之中,財大氣粗就是優勢 ,它們可以花費數億美元採購 GPU 來培訓 LLMs,例如 OpenAI 的 GPT-3 有 1750 億個引數,DeepMind 的 Gopher 有 2800 億個引數,Google 自己的 GLaM 和 LaMDA 分別有 1。2 萬億個引數和 1370 億個引數,Microsoft 與 Nvidia 合作的 Megatron-Turing NLG 有 5300 億個引數。

但 AI 有個特徵它是 湧現 的,大多數情況挑戰是科學問題,而不是工程問題。在 Machine Learning 中,從演算法和體系結構的角度來看,還有很大的進步空間。雖然,增量的工程迭代和效率提高似乎有很大的空間,但越來越多的 LLMs 創業公司正在籌集規模較小的融資(1000 萬至 5000 萬美元) ,它們的假設是,未來可能會有更好的模型架構,而非純粹的可擴充套件性。

4.3 AI 江湖的新機會

隨著模型規模和自然語言理解能力的進一步增強(擴大訓練規模和引數就行),我們可以預期非常多的專業創作和企業應用會得到改變甚至是顛覆。企業的大部分業務實際上是在“銷售語言”—— 營銷文案、郵件溝通、客戶服務,包括更專業的法律顧問,這些都是語言的表達,而且這些表達可以二維化成聲音、影象、影片,也能三維化成更真實的模型用於元宇宙之中。機器能理解文件或者直接生成文件,將是自 2010 年前後的移動網際網路革命和雲計算以來,最具顛覆性的轉變之一。參考移動時代的格局,我們最終也會有三種類型的公司:

1、平臺和基礎設施

移動平臺的終點是 iPhone 和 Android,這之後都沒有任何機會了。但在基礎模型領域 OpenAI、Google、Cohere、AI21、Stability。ai 還有那些構建 LLMs 的公司的競爭才剛剛開始。這裡還有許多許新興的開源選項例如 Eleuther。雲計算時代,程式碼共享社群 Github 幾乎託管了 軟體 1。0 的半壁江山,所以像 Hugging Face 這種共享神經網路模型的社群,應該也會成為 軟體 2。0 時代智慧的樞紐和人才中心。

2、平臺上的獨立應用

因為有了移動裝置的定位、感知、相機等硬體特性,才有了像 Instagram,Uber,Doordash 這種離開手機就不會存在的服務。現在基於 LLMs 服務或者訓練 Transformer 模型,也會誕生一批新的應用,例如 Jasper(創意文案)、Synthesia(合成語音與影片),它們會涉及 Creator & Visual Tools、Sales & Marketing、Customer Support、Doctor & Lawyers、Assistants、Code、Testing、Security 等等各種行業,如果沒有先進的 Machine Learning 突破,這些就不可能存在。

紅衫資本美國(SequoiaCap)最近一篇很火的文章《Generative AI: A Creative New World》詳細分析了這個市場和應用,就像在開篇介紹的那樣,整個投資界在 Web 3 的投機挫敗之後,又開始圍獵 AI 了 。

機器之心的進化——一統江湖的模型

配圖21:在模型之上的應用分類(Gen AI market map V2)

3、現有產品智慧化

在移動網際網路的革命中,大部分有價值的移動業務依舊被上個時代的巨頭所佔據。例如,當許多初創公司試圖建立“Mobile CRM”應用時,贏家是增加了移動支援的 CRM 公司,Salesforce 沒有被移動應用取代。同樣,Gmail、Microsoft Office 也沒有被移動應用取代,他們的移動版做得還不錯。最終,Machine Learning 將被內建到使用者量最大的 CRM 工具中,Salesforce 不會被一個全新由 ML 驅動的 CRM 取代,就像 Google Workspace 正在全面整合它們的 AI 成果一樣。

我們正處於 智慧革命 的初期,很難預測將要發生的一切。例如 Uber 這樣的應用,你按下手機上的按鈕,就會有一個陌生人開車來接你,現在看來稀疏平常,但智慧手機剛出現的時候你絕對想不到這樣的應用和互動介面。那些 人工智慧的原生應用 也將如此,所以請開啟腦洞,最有趣的應用形態還在等你去發掘。

我們已經感受了基礎模型的強大,但這種方法真能產生的智力和意識麼?今天的人工智慧看起來非常像工具,而不像 智慧代理。例如,像 GPT-3 在訓練過程中不斷學習,但是一旦模型訓練完畢,它的引數的各種權重就設定好了,不會隨著模型的使用而發生新的學習。想象一下,如果你的大腦被凍結在一個瞬間,可以處理資訊,但永遠不會學到任何新的東西,這樣的智慧是你想要的麼?Transformer 模型現在就是這樣工作的,如果他們變得有知覺,可以動態的學習,就像大腦的神經元無時不刻不在產生新的連線那樣,那它們更高階的形態可能代表一種 新的智慧。我們會在第六章聊一下這個話題,在這之前,先來看看 AI 如何在現實世界中生存的。

Top