您現在的位置是:首頁 > 籃球

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

  • 由 香儂科技 發表于 籃球
  • 2021-12-11
簡介目前國內大多應用場景都基於中文資料集,為更好將人工智慧深度融合於行業,助推我國產業數智化轉型,近年來香儂科技陸續針對中文自然語言處理提出了多種模型,包括基於中文字形的語義表示模型、基於機器閱讀理解的資訊抽取模型MRC-IE、基於圖神經網路的

模型的拼音怎麼拼寫

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

近日,

香儂科技首創提出融合中文字形與拼音資訊的中文大規模預訓練模型ChineseBERT

。該模型將漢字的字形與拼音資訊融入到中文預訓練模型中,增強模型對中文語料的建模能力,不但有助於漢字消歧,並且具有正則化作用,使模型更好建模潛在文字語義。在同等模型引數量前提下,該方法在文字分類、機器閱讀理解、自然語言推理等6類中文自然語言處理任務取得當前最優效果。

目前,相關學術研究論文《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》已被自然語言處理(NLP)領域國際頂級會議ACL 2021 Oral收錄。

國際計算機學年會(ACL)是自然語言處理與計算語言領域最高級別的國際頂級學術會議,也是中國計算機學會(CCF)推薦的A類國際學術會議,由計算語言學領域歷史最悠久和最具權威的學術組織-國際計算語言學協會主辦。ACL論文錄用標準十分嚴苛,每年競爭激烈,ACL 2021共收到有效投稿3350篇,其中

僅21.3%

的論文被ACL主會錄用。香儂科技十分重視基礎前沿科學研究和自主技術創新,自2018年以來,已累計在人工智慧、自然語言處理相關領域的國際頂尖會議上發表重要論文

50餘篇

,其中獲ACL錄用論文

十餘篇

。憑藉在自然語言處理領域的持續創新力,

今年3篇最新學術研究論文再次在ACL 2021脫穎而出獲得錄用

,本篇由香儂科技聯合浙江大學關於ChineseBERT的研究成果便是其中之一。

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

自BERT推出以來,大規模預訓練模型已成為自然語言處理研究的一大重點,然而以往的很多預訓練模型都是以英文為基礎展開:資料為英文,模型架構也為英文而設計(掩碼方式)。面向中文的預訓練模型,尤其是能夠建模漢語這種特定語言特性的預訓練模型,相對較為缺乏。

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

(圖:ChineseBERT整體模型框架)

為此,香儂科技創新提出的ChineseBERT,從漢字本身的字形、拼音兩大特性出發,將漢字的字形與拼音資訊融入到中文語料的預訓練過程。一個漢字的字形向量由多個不同的字型形成,而拼音向量則由對應的羅馬化的拼音字元序列得到。二者與字向量一起進行融合,得到最終的融合向量,可以作為預訓練模型的輸入。在實驗過程中,ChineseBERT重點針對底層的融合層進行最佳化,融合了除字嵌入之外的字形嵌入和拼音嵌入,得到融合嵌入後再與位置嵌入相加,形成模型的輸入。

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

實驗表明,ChineseBERT在中文機器閱讀理解、自然語言推理、文字分類、句對匹配、命名實體識別和分詞任務上,均取得了顯著的效果提升。

以中文機器閱讀理解資料集為例,ChineseBERT在CJRC資料集上,EM的提升比F1更加顯著,能夠更好地抽取準確的答案文段。相比Vanilla BERT與RoBERTa模型,ChineseBERT在命名實體識別資料集上均提升了約1點的F1值。此外在分解實驗中,得益於字形資訊與拼音資訊的正則化效果,ChineseBERT能在小訓練資料的情況下取得更好的效果。

香儂科技提出首個融合字形與拼音資訊的中文大規模預訓練模型

(圖:字形嵌入與拼音嵌入效果)

目前ChineseBERT的程式碼、模型均已開源,包括Base版本與Large版本的預訓練模型,供業界、學界使用。接下來,香儂科技將在更大的語料上訓練ChineseBERT,在中文預訓練模型上進一步深入研究,不斷提升ChineseBERT 模型的效能水平。

香儂科技聚焦產業智慧,注重科研成果的轉化以及技術與產業的結合,始終將技術創新與行業實際需求緊密相連。演算法模型是人工智慧技術的承載體,模型設計懂場景、準確、專業對人工智慧商業化落地至關重要。目前國內大多應用場景都基於中文資料集,為更好將人工智慧深度融合於行業,助推我國產業數智化轉型,

近年來香儂科技陸續針對中文自然語言處理提出了多種模型,包括基於中文字形的語義表示模型、基於機器閱讀理解的資訊抽取模型MRC-IE、基於圖神經網路的文字分類模型BERT-GCN、多模態人機對話模型OpenViDial等。本次提出融入字形與拼音資訊的大規模中文預訓練模型ChineseBERT,是香儂科技在中文自然語言處理模型探索實踐過程中的又一創新

未來,香儂科技將繼續以基礎前沿科學研究創新能力為驅動,不斷塑造自身核心技術競爭力,推動人工智慧科研成果在重點行業領域的轉化應用,為我國科技創新、產業發展作出更多貢獻。

論文連結:

https://arxiv。org/pdf/2106。1603

ChineseBERT開源地址:

https://github。com/ShannonAI/ChineseBert

Top