您現在的位置是:首頁 > 垂釣

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

  • 由 DeepTech深科技 發表于 垂釣
  • 2022-12-08
簡介圖 | BEiT-3 模型引數分佈及預訓練資料(來源:arxiv)同時,在包含視覺問答、視覺推理、影象描述生成等在內的視覺-語言任務,以及包含目標檢測與例項分割、語義分割、影象分類等在內的一共 12 個視覺-語言下游任務上,該團隊評估了 B

換臉是怎麼做到的

他叫韋福如,本科、碩士和博士畢業於武漢大學計算機學院。博士期間,他在香港理工大學計算機系擔任訪問學者,自此開始從事自然語言處理(Natural Language Processing,NLP)領域的研究工作。

幾年間,韋福如在 NLP 領域取得了多次突破,並在大規模預訓練模型、自然語言處理,多模態人工智慧等領域持續創新,曾入選 2017 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國區榜單。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖 | 韋福如(來源:韋福如)

目前,韋福如已在微軟亞洲研究院工作 12 年,現任自然語言計算組首席研究員。他以 NLP 為主攻領域,這是人工智慧的核心課題之一,是一門研究機器如何理解和生成自然語言的學科。該領域包括語言分析、資訊抽取、資訊檢索、文字挖掘、機器閱讀理解、智慧問答、機器翻譯、自動文摘,文字生成以及綜合場景應用等研究課題。

近年來,隨著自然語言處理的研究和技術廣泛遷移到人工智慧的其他領域,韋福如和團隊還專注於跨任務、跨語言和跨模態基礎模型、語音處理、文件智慧和多模態人工智慧等領域的研究。

從技術層面來看,最近幾年 NLP 領域取得了非常出色的進展。大規模預訓練模型正在引領人工智慧領域進行一場前所未有的正規化遷移:在海量的未標註資料上透過自監督預訓練得到一個預訓練模型(又稱為基礎模型),再透過微調或少樣本/零樣本學習使用少量標註,甚至不需要標註資料,即可把基礎模型廣泛應用到下游任務模型上。新的正規化取得了優異的效果,並展現出了強大的泛化和通用能力。

“這幾年有三個重要的關鍵詞。第一個是大規模預訓練模型,或稱為基礎模型,即在透過自監督學習完成預訓練的同時,也實現了模型訓練的正規化遷移。第二個是多語言,也就是用一個模型可以支援多種語言的下游任務。第三個是多模態,即不同模態(例如文字、影象、語音等)的建模和學習逐漸趨於融合和統一。”韋福如表示。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

生成式自監督視覺預訓練模型 BEiT 和通用多模態基礎模型 BEiT-3

計算機視覺(Computer Vision,CV)領域通常使用的是有監督預訓練,也就是利用有標註的資料進行訓練。但隨著視覺模型的不斷擴大,標註資料難以滿足模型需求,當模型達到一定規模時,即使模型再擴大,也無法得到更好的結果,這就是所謂的資料飢餓(data hungry)。因此,科研人員開始使用無標註資料進行自監督學習,以此預訓練大模型引數。

以往在 CV 領域,無標註資料的自監督學習常採用對比學習。但對比學習存在一個問題——對影象干擾操作過於依賴。當噪聲太簡單時,模型學習不到有用的知識;而對影象改變過大,甚至面目全非時,模型無法進行有效學習。所以對比學習很難把握這之間的平衡,且需要大批次訓練,對視訊記憶體和工程實現要求很高。

在此背景下,韋福如團隊於 2021 年推出了生成式自監督的視覺預訓練模型 BEiT,藉助掩碼影象建模(Masked Image Modeling,MIM)方法完成預訓練任務。

國際表徵學習(International Conference on Learning Representations,ICLR)大會評審委員會認為,BEiT 為視覺大模型預訓練的研究開創了一個全新的方向,首次成功將掩碼預訓練應用在了 CV 領域非常具有創新性。實驗結果表明,與之前的預訓練方法相比,BEiT 可實現更為優越的效果。

基於 BEiT,2022 年韋福如和團隊進一步豐富了自監督學習的語義資訊,釋出了 BEiT-2,並隨後將其升級為 BEiT-3。

2022 年 8 月 31 日,相關論文以《把影象視為外語:適用於所有視覺和視覺-語言任務的BEiT預訓練方法》(Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks)為題釋出在預印本平臺

arXiv

[1]。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖| BEiT-3 論文(來源:arxiv)

隨著大模型的發展,語言、視覺等多模態領域的預訓練模型已呈現出“大一統”趨勢。模型在大規模、海量資料上預訓練之後,能順利遷移至各種下游任務中。因此,預訓練一個能夠處理多種模態的通用基礎模型,也成為目前人工智慧研究的一個關鍵課題。

BEiT-3 正是這樣一種通用的多模態基礎模型,在廣泛的視覺和視覺-語言任務上,都實現了最好的遷移效能。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖 | BEiT-3 預訓練概述(來源:arxiv)

在 BEiT-3 中,研究人員從骨幹網路、預訓練方法和模型規模化三個方面出發,推動了視覺-語言預訓練任務的融合。

首先,研究人員使用 Multiway Transformer 作為骨幹模型來編碼不同的模態。每一個 Multiway Transformer 模組都由一個共享的自注意力模組和一組用於不同模態的前饋網路池(即模態專家)組成,從而可以同時編碼多種模態。

此外,透過模組化的設計,統一架構可以用於不同的視覺及視覺-語言下游任務。其中,Multiway Transformer 每一層都包括一個視覺專家和一個語言專家。

最上面的三層有專門為融合編碼器設計的視覺-語言專家。共享的自注意力模組可以對不同模態之間的對齊(即尋找對應關係)進行學習,並能深度融合多模態(如視覺-語言)資訊。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖 | 可以遷移到各種視覺和視覺-語言下游任務的 BEiT-3(來源:arxiv)

統一的模型架構使 BEiT-3 能遷移到各種視覺和視覺-語言下游任務中。它不僅可以應用於影象分類、目標檢測、例項分割等視覺任務的骨幹網路,還可以在模型微調後成為高效的影象-文字檢索的雙編碼器,以及多模態理解和生成任務的融合編碼器等。

其次,在預訓練 BEiT-3 的過程中,研究人員採用單模態和多模態資料的統一掩碼資料建模(Masked Data Modeling)方法。這種方法能夠隨機遮蔽一定比例的文字或畫素塊,並訓練模型去恢復被遮蔽的部分。統一的掩碼-預測任務,不僅可以學習各模態的特徵,還能學習它們之間的對齊。

其他視覺-語言模型一般採用影象-文字對比、影象-文字匹配等多種預訓練任務,而 BEiT-3 只使用了一種預訓練任務,這不僅有利於擴大模型規模,還有助於實現 GPU 記憶體等多方成本的降低。

最後,該團隊從模型規模和資料規模兩方面出發,將 BEiT-3 進行規模化,從而提高基礎模型的泛化能力。

據悉,BEiT-3 由 1408 個隱藏神經元、6144 箇中間層神經元、16 組注意力模組的 40 層 Multiway Transformer 骨幹網路組成,模型共包含大約 19 億個引數,其中視覺專家引數 6。92 億,語言專家引數 6。92 億,視覺-語言專家引數 0。52 億,共享自注意力模組引數為 3。17 億個。

據介紹,微軟亞洲研究院在單模態和多模態資料上對 BEiT-3 進行了 100 萬次迭代的預訓練,每個批次的訓練資料包含 6144 個樣本,其中有 2048 張影象、 2048 個文字和 2048 個影象-文字對。相比使用對比學習方法訓練的模型來說, BEiT-3 的批次規模要小得多。值得一提的是,這裡面所有資料都是開源的。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖 | BEiT-3 模型引數分佈及預訓練資料(來源:arxiv)

同時,在包含視覺問答、視覺推理、影象描述生成等在內的視覺-語言任務,以及包含目標檢測與例項分割、語義分割、影象分類等在內的一共 12 個視覺-語言下游任務上,該團隊評估了 BEiT-3 的泛化能力。結果表明,BEiT-3 在這些任務上都取得了 SOTA 的遷移效能。

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

圖 | 與其他特定模型或基礎模型相比,BEiT-3 在廣泛任務中實現了最佳效能(來源:arxiv)

MSRA持續迭代AI大模型BEiT,為通用多模態基礎模型開創全新方向

“通用走向未來”:大規模預訓練模型將朝“大一統”方向發展

目前,在開發和訓練大模型的過程中,仍然存在許多需要探討和深思的問題。

例如,很多企業都會將資料收集類的工作外包處理,這個過程中不僅存在安全隱患,還會造成資料不均衡的問題。對此,韋福如表示,資料是模型的重要組成部分。沒有好的資料,就不可能有好的模型。資料本身就是大模型研究的一部分,因此這部分的工作需要更加重視。

從某種程度上看,對資料部分的研究更需要彙集聰明才智。如何收集、整理以及使用資料,也是最值得投入和研究的課題之一。

又比如,研發大模型時不僅會消耗大量成本,甚至也會對氣候造成一定影響。談及這個問題,韋福如表示大模型的能效(efficiency)很重要,這也是接下來需要研究的重要部分之一。但另一方面,因為通用大模型的出現,相關領域的特定任務和模型將變得更加簡單,這也有利於降低重複建設的成本。

在韋福如看來,未來大規模預訓練模型向“大一統”方向發展,已經成為必然。這個“大一統”主要可從兩個層面理解:

第一,從技術層面看,如何用相同的技術構建不同領域的基礎模型?這包括構建通用骨幹網路、生成式自監督學習為主的學習方式,以及持續擴大(scaling up)模型規模。

第二,從模型和應用層面看,如何構建一個能夠處理不同語言和模態任務的基礎模型?隨著技術的統一,未來將會出現能夠應用於各種領域的通用基礎大模型。

韋福如認為:“只有模型標準化,才可能實現規模化,進而為大範圍產業化提供基礎和可能 。‘大一統’中很重要的一點是,技術會變得越來越通用,只有通用才有可能更接近本質,也更利於不同領域的深度合作和相互促進。”

而對於 BEiT-3 來說,其核心思想就是把影象作為一種外語進行建模和學習,從而實現以統一的方式完成影象、文字和影象-文字的掩碼“語言”建模,這也在自然語言處理領域被證實為最有效的擴大模型規模的技術方向和方案,這也將成為規模化基礎模型一個頗有前景的方向。

未來,韋福如和團隊將繼續開展多模態預訓練方面的工作,並將在其中加入包括音訊、多語言在內的更多模態,在促進跨語言和跨模態轉換的同時,推動跨任務、跨語言和跨模態的大規模預訓練融合。

支援:王貝貝

參考資料:

1。W。 Wang, H。 Bao, L。 Dong, J。 Bjorck。et al。 Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks。

arXiv

(2022)。https://doi。org/10。48550/arXiv。2208。10442

H。 Bao, L。 Dong, S。 Piao。 F。 Wei, BEiT:BERT Pre-Training of Image Transformers。 arXiv (2021)。https://doi。org/10。48550/arXiv。2106。08254

Z。 Peng, L。 Dong, H。 Bao, Q。 Ye, F。 Wei, BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers。

arXiv

(2022)https://doi。org/10。48550/arXiv。2208。06366

Top