您現在的位置是:首頁 > 垂釣

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

  • 由 新智元 發表于 垂釣
  • 2023-01-24
簡介例如,由於「突現」小樣本提示能力和策略沒有在預訓練中明確編碼,研究人員可能不知道當前語言模型的小樣本提示能力的全部範圍

美甲的nail glue怎麼用

編輯:Cris

【新智元導讀】谷歌的這項研究,很可能是我們邁向AGI的一大步。

由於可以做一些沒訓練過的事情,大型語言模型似乎具有某種魔力,也因此成為了媒體和研究員炒作和關注的焦點。

當擴充套件大型語言模型時,偶爾會出現一些較小模型沒有的新能力,這種類似於「創造力」的屬性被稱作「突現」能力,代表我們向通用人工智慧邁進了一大步。

如今,來自谷歌、斯坦福、Deepmind和北卡羅來納大學的研究人員,正在探索大型語言模型中的「突現」能力。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

解碼器提示的 DALL-E

神奇的「突現」能力

自然語言處理(NLP)已經被基於大量文字資料訓練的語言模型徹底改變。擴大語言模型的規模通常會提高一系列下游NLP任務的效能和樣本效率。

在許多情況下,我們可以透過推斷較小模型的效能趨勢預測大型語言模型的效能。例如,規模對語言模型困惑的影響已被驗證跨越超過七個數量級。

然而,某些其他任務的效能卻並沒有以可預測的方式提高。

例如,GPT-3的論文表明,語言模型執行多位數加法的能力對於從100M到13B引數的模型具有平坦的縮放曲線,近似隨機,但會在一個節點造成效能的飛昇。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

鑑於語言模型在NLP研究中的應用越來越多,因此更好地理解這些可能意外出現的能力非常重要。

在近期發表在機器學習研究(TMLR)上的論文「大型語言模型的突現能力」中,研究人員展示了數十個擴充套件語言模型所產生的「突現」能力的例子。

這種「突現」能力的存在提出了一個問題,即額外的縮放是否能進一步擴大語言模型的能力範圍。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

某些提示和微調方法只會在更大的模型中產生改進

「突現」提示任務

首先,我們討論在提示任務中可能出現的「突現」能力。

在此類任務中,預先訓練的語言模型會被提示執行下一個單詞預測的任務,並透過完成響應來執行任務。

如果沒有任何進一步的微調,語言模型通常可以執行訓練期間沒有看到的任務。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

當任務在特定規模閾值下不可預測地從隨機效能飆升至高於隨機效能時,我們將其稱為「突現」任務。

下面我們展示了三個具有「突現」表現的提示任務示例:多步算術、參加大學水平的考試和識別單詞的預期含義。

在每種情況下,語言模型的表現都很差,對模型大小的依賴性很小,直到達到某個閾值——它們的效能驟升。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

對於足夠規模的模型,這些任務的效能只會變得非隨機——例如,算術和多工NLU任務的訓練每秒浮點運算次數(FLOP)超過10的22次方,上下文任務中單詞的訓練FLOP超過10的24次方。

「突現」提示策略

第二類「突現」能力包括增強語言模型能力的提示策略。

提示策略是用於提示的廣泛正規化,可應用於一系列不同的任務。當它們對小型模型失敗並且只能由足夠大的模型使用時,它們被認為是可「突現」的。

思維鏈提示是「突現」提示策略的一個典型示例,提示模型在給出最終答案之前生成一系列中間步驟。

思維鏈提示使語言模型能夠執行需要複雜推理的任務,例如多步數學單詞問題。

值得一提的是,模型無需經過明確培訓即可獲得思維鏈推理的能力,下圖則顯示了一個思維鏈提示的示例。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

思維鏈提示的實證結果如下所示。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

對於較小的模型,應用思維鏈提示並不會優於標準提示,例如當應用於GSM8K時,這是一個具有挑戰性的數學文字問題基準。

然而對於大型模型,思維鏈提示在GSM8K上達到了57%的解決率,在我們的測試中效能顯著提升。

研究「突現」能力的意義

那麼研究「突現」能力,又究竟有什麼意義呢?

識別大型語言模型中的「突現」能力,是理解此類現象及其對未來模型能力的潛在影響的第一步。

例如,由於「突現」小樣本提示能力和策略沒有在預訓練中明確編碼,研究人員可能不知道當前語言模型的小樣本提示能力的全部範圍。

引數少量提升,效能指數爆發!谷歌:大語言模型暗藏神秘技能

此外,進一步擴充套件是否會潛在地賦予更大的模型「突現」能力,這個問題同樣十分重要。

為什麼會出現「突現」能力?

當某些能力出現時,語言模型的新現實世界應用會被解鎖嗎?

由於計算資源昂貴,能否在不增加擴充套件性的情況下透過其他方法解鎖突現」能力(例如更好的模型架構或訓練技術)?

研究人員表示,這些問題尚且不得而知。

不過隨著NLP領域的不斷髮展,分析和理解語言模型的行為,包括由縮放產生的「突現」能力,是十分重要的。

參考資料:

https://ai。googleblog。com/2022/11/characterizing-emergent-phenomena-in。html

https://the-decoder。com/google-explores-emergent-abilities-in-large-ai-models/

https://the-decoder。com/deeper-insights-for-ai-language-models-chain-of-thought-prompting-as-a-key-factor/

Top