您現在的位置是:首頁 > 武術

騰訊研究成果登《Nature》子刊:「scBERT」模型攻克單細胞測序資料分析痛點

  • 由 雷峰網 發表于 武術
  • 2022-10-05
簡介騰訊在論文中創新性地提出關於單細胞註釋的“scBERT”演算法模型,受到《Nature Machine Intelligence》雜誌評審高度認可,表示該成果對於單細胞轉錄組測序資料分析領域未來研究具有深遠意義

什麼痛點值得做

9月27日,騰訊在人工智慧、生命科學跨學科應用領域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》(《基於大規模預訓練語言模型的單細胞轉錄組細胞型別註釋演算法》),登上國際頂級學術期刊《Nature》子刊《Nature Machine Intelligence》。

據瞭解,《Nature Machine Intelligence》只關注對該領域具有重要影響的科研成果。因其嚴格的評審標準,每年收錄論文數量平均僅60篇左右。目前該期刊在計算機科學、人工智慧領域期刊中排名第一。

騰訊在論文中創新性地提出關於單細胞註釋的“scBERT”演算法模型,受到《Nature Machine Intelligence》雜誌評審高度認可,表示該成果對於單細胞轉錄組測序資料分析領域未來研究具有深遠意義。

單細胞測序技術是生命科學領域的一項革命性技術,可以細粒度地觀察和刻畫各個物種中組織、器官和有機體中單細胞分子圖譜(細胞表達),便於更好地瞭解腫瘤微環境,以達到精細分析病因、精準匹配治療方案的效果,對於“精準醫療”具有極高的應用價值。

值得注意的是,受資料樣本量小、人工干預多、過度依賴marker gene(已報道的特異性基因)等因素的影響,單細胞測序細胞型別註釋技術一直面臨著泛化性、可解釋性、穩定性均比較低的問題,現存的演算法難以有更廣泛的應用。

針對以上問題,論文中首次提出“基於大規模預訓練語言模型的單細胞轉錄組細胞型別註釋演算法”,即“scBERT”模型,首次將“transformer”(自然語言處理演算法經典計算單元)運用到單細胞轉錄組測序資料分析領域。

該模型基於BERT正規化,將細胞中基因的表達資訊轉化成可被計算機理解、學習的“語言”,並對細胞進行精準標註。

為了保證全基因組內基因級別的可解釋性,“scBERT”在預訓練資料上沒有做任何的降維或篩選處理,最大程度上保留資料本身的特性和資訊。

此外,該模型複用了大規模的公開資料集,包含不同實驗來源、批次和組織型別的單細胞資料,以保證模型能學習到更為“通用”的知識,精準捕獲單個基因的表達資訊及兩兩基因之間的作用關係。

從結果上來看,“scBERT”模型實現了高解釋性、高泛化性、高穩定性的單細胞型別註釋技術。

截至目前,通過了9個獨立資料集、超過50萬個細胞、覆蓋17種主要人體器官和主流測序技術組成的大規模benchmarking測試資料集上,該演算法模型的優越性均得以驗證。

其中,在極具挑戰的外周血細胞亞型細分任務上,相較現有最優方法的70%準確度提升了7%。

在應用價值層面,該項技術能給細胞中的每個基因都印上專屬“身份證”,可用於臨床單細胞測序資料,並輔助醫生描述準確的腫瘤微環境、檢測出微量癌細胞,從而實現個性化治療方案或者癌症早篩。

同時,對疾病致病機制分析、耐藥性、藥物靶點發現、預後分析、免疫療法設計等領域都具有極其重要的作用。

此前,騰訊AI Lab團隊科研成果曾多次入選《Nature Communications》、ACL-IJCNLP等國際權威期刊,研究方向涵蓋文字理解、文字生成、智慧對話、機器翻譯、資訊抽取、資訊檢索等領域。

未來,騰訊會繼續基於自身先進AI技術的積累,與下游臨床、製藥和生命科學基礎研究領域進行密切合作,為行業貢獻更多價值。

Top