您現在的位置是:首頁 > 武術

AI助力生命科學創新正規化變革 正突破新藥研發“雙十”困局

  • 由 科技新知 發表于 武術
  • 2023-01-14
簡介一方面由於演算法和硬體架構本身的特點,它強依賴於一些AI專用加速晶片的支援,但是這類硬體存在嚴重的記憶體或視訊記憶體限制,使得它在單晶片或單卡情況下能夠預測的蛋白質序列長度較短(比如2000氨基酸長度的蛋白,其記憶體峰值將超過200GB)

lr醫學是什麼藥

AI助力生命科學創新正規化變革 正突破新藥研發“雙十”困局

關注中國醫藥行業發展動態的人可能都還記得:2021年6月經國家食藥監管理局批准上市的某新型靶向療法,曾在社會上引起長時間的關注與熱議。大家的好奇心和討論焦點,不僅僅在於它在臨床實踐中體現出的療效是否符合預期,還有一個關鍵詞,也頻頻出現在各類相關新聞報道中,那就是“120萬一針”。

一款新藥的使用成本為何會如此昂貴?這就不得不提及醫藥研發領域的一個經典說法:“十年+十億美金”,它表明一款新藥的開發,不僅週期漫長、成本高昂,而且成功率低。但與此同時,世界上還有30000多種疾病,尚未找到對症的藥物。因此讓更多患者有藥可醫,這是強勁的社會剛需,也是醫學界的目標所在。

所幸的是,大資料與人工智慧(Artificial Intelligence,AI)的興起,正讓新藥的研發走出這個“雙十”困局,使藥物研發的進度得以加速,成功率得以提高,同時成本也得以大大降低。

新藥研發搭上AI快車

AI對比人腦有著 “

做得更快、更準確

” 的先天優勢,可以高效地完成各個領域中繁重複雜的工作,進而向著更加困難和更有意義的目標前進。AI領域的開創者之一尼爾斯·約翰·尼爾森教授曾經對AI下了這樣一個定義:“人工智慧是關於知識的學科”,這意味著AI自誕生以來,便肩負著推動人類科學發展的重任。

因此這也不難解釋,為何當前在各個科學領域的前沿研究中,幾乎每一次重大突破的背後都有著AI的身影。 比如今天要談的,在生命科學領域當中非常具有挑戰性,被人用“九死一生”來形容的新藥研發過程。

塔夫茨藥物開發研究中心提供的資料顯示,開發一個新藥的平均成本大約為26億美元。 一般需要12-15年的時間才能將一個新藥從試驗室走入市場。 不僅如此,5000個臨床前化合物大約只有5個化合物可以進入臨床試驗,最終只有一個才能被批准用於臨床治療,成為真正的藥物。

如今,隨著大資料、AI技術滲透到生產生活的各個領域,醫藥行業也開始藉助包括AI在內的新技術,用更經濟、更有針對性的方法開發新藥。 最近10年,隨著雲計算等大規模算力的普及,以及以深度學習為代表的AI演算法在多個領域的快速發展和應用,AI開始在藥物研發的各個關鍵環節發揮越來越重要的作用。

來自TechEmergence的報告顯示,AI可以將新藥研發的成功率提高16。7%,AI輔助藥物研發每年能夠為藥企節約540億美元的研發費用,並在研發主要環節節約40%至60%的時間成本。

另據2020年6月發表於Drug Discovery Today雜誌的文章顯示,21家頭部跨國藥企在 2014-2019年共發表398篇與“AI藥物研發”相關的論文,同時啟動了73項內部AI研發專案、61項與外部AI公司合作的專案、以及11項對初創AI企業的投資或收購。

從類似這樣的、越來越多的投入和案例中可以看到,AI已經成為助力藥物研發模式升級的一個關鍵因素。

從蛋白質結構開啟攻克疾病的缺口

蛋白質是生物體內一切功能的執行者,人類身體內的任何功能,從催化化學反應到抵禦外來侵略都是蛋白質作用的結果,在氨基酸根據基因表達的資訊形成一條多肽鏈之後,必須摺疊形成正確的三維空間結構才可能具有正常的生物學功能。 如果在摺疊過程中出現故障,形成錯誤的空間結構,不但將喪失其生物學功能,還會引起各種疾病。

對蛋白質三維結構開展有效解析與預測,就能對有機體的構成,以及執行和變化的規律實施更深層次的詮釋和探究,進而可為生物學、醫學、藥學乃至農業、畜牧業等行業和領域的未來研究與發展提供高質量的生物學假設。

為了解蛋白質的結構,傳統的實驗方法是使用X光、冷凍電鏡等方法對蛋白進行拍照,每一個樣品可能需要幾個月,甚至於幾年的時間,才能夠高精度地完成拍照。 在國際深具影響力的SwissProt資料庫上,累計的蛋白序列的資訊已經達到了56萬之多,傳統的實驗方法很難去滿足幾十萬量級甚至於未來幾百萬量級的蛋白序列結構解析的需求。

在 這個時候,AI開始發揮神奇的作用。

2020年,在第14屆國際蛋白質結構預測競賽(CASP)上,DeepMind研發的

AlphaFold2

成功根據基因序列預測了生命基本分子——蛋白質的三維結構,取得了中位分數為92。4(滿分100分)的好成績,比第二名高25分,打敗了所有競爭對手。

一般來說,AI方法的預測精度超過90分,可認為預測結果與實驗方法得到的蛋白質結構基本一致。 這一突破,標誌著AI輔助藥物開發的基礎理論研究和實踐進入新的階段。

AlphaFold2,憑藉自身在蛋白質結構預測上的高可信度,以及遠優於傳統實驗方法的效率和成本表現,樹起了一座“AI for Science”的全新里程碑。 它不僅在生命科學領域掀起了顛覆式的革新,也成為了AI在生物學、醫學和藥學等領域落地的核心發力點。

這從

中國科學院院士施一公

評價AlphaFold2“這是人工智慧對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一”中可見一斑。

在英特爾和國際學術期刊《Science》聯合推出的《架構師成長計劃》課程中,來自中國智慧化、自動化藥物研發科技領域明星企業晶泰科技的首席研發科學家楊明俊博士這樣談到: “以AlphaFold2為代表的研究成果,被認為是開拓了科學研究的第四正規化,就是基於大量的資料,然後採用以深度神經網路為代表的模型,給出對問題的一個解答。 ”他說,“蛋白質結構預測曾經被認為是不可能完成的一件事情,如今被AI演算法實現,這標誌著AI在生物醫藥領域的融合邁入了一個全新的階段,成為大勢所趨。 ”

AI找藥,需要什麼樣的“加速器”

隨著越來越多的科研機構、實驗室和企業開始藉助AlphaFold2進行蛋白質結構預測,各行業和領域內的使用者也開始遇到越來越多、也漸趨嚴峻的挑戰。 例如結構預測各環節面臨著龐大的計算量,使用者需要更加充分地挖掘硬體的計算潛力來提升執行效率; 為縮短結構預測時間,他們還需要利用更多計算節點來構建效率更高的平行計算方案等。

英特爾人工智慧架構師楊威博士

說,AlphaFold2可以高效率地去進行一個蛋白結構的解析,但是其原始實現其實存在兩方面的最佳化空間。

一方面由於演算法和硬體架構本身的特點,它強依賴於一些AI專用加速晶片的支援,但是這類硬體存在嚴重的記憶體或視訊記憶體限制,使得它在單晶片或單卡情況下能夠預測的蛋白質序列長度較短(比如2000氨基酸長度的蛋白,其記憶體峰值將超過200GB)。 另一方面,使用原始實現在CPU上進行推理速度較慢,很難在可以接受的時間範圍內完成高通量和長序列的預測需求。

正因為有這些限制,英特爾正在與眾多產、學、研領域的合作伙伴及客戶一起研究用記憶體容量優勢更為明顯的CPU平臺來加速AlphaFold2,但即便如此,在AlphaFold2的嵌入層中也容易遇到兩個問題: 一方面是巨大的記憶體峰值壓力,其需求量會使記憶體資源在短時間耗盡,尤其是記憶體峰值在相互疊加之後,進而可能造成推理任務的失敗; 另一方面,大張量運算所需的海量記憶體也會帶來不可忽略的記憶體分配過程,從而增加執行耗時。

透過對演算法架構的解析可知,AlphaFold2中大量的矩陣運算過程都需要大容量記憶體予以支撐。 其最大輸入序列長度越長,計算中所需的記憶體也就越大。 而在平行計算能力得到有效最佳化後,更多計算例項的加入也會進一步突顯記憶體瓶頸問題。

如果用“星際探索”來比喻的話,對3GEH蛋白的結構預測就相當於探索地球; 對某新型傳染病相關的刺突蛋白進行結構預測就相當於將探索擴大到了整個太陽系,對諾貝爾生理學或醫學獎發現的PIEZO1/2蛋白的結構預測則是進一步將探索擴充套件到了銀河系,對低密度脂蛋白受體相關蛋白2(LRP2)的結構預測,就相當於探索宇宙了。

在實踐中,進行3GEH蛋白(長度為765aa)的結構預測,記憶體大小滿足96GB就足以。 而對Spike蛋白和PIEZO2蛋白進行預測時,由於序列長度分別達到了1200aa和2700aa,就需要部署大於512GB的記憶體。 而當人們對LRP2蛋白進行預測時,其4700aa的序列長度要求的記憶體就遠大於1。3TB。 如果64個例項並行執行,記憶體容量的需求更是會衝到一個令人驚歎的量級,如果記憶體系統無法滿足這個需求,就會形成阻礙應用效能發揮的“記憶體牆”。

一直活躍在“

AI for Science

”創新前沿的英特爾結合自身優勢,以內建AI加速能力的產品技術,特別是至強 可擴充套件平臺和傲騰 持久記憶體的組合,在CPU平臺上更便捷地提供了TB級的記憶體支援,打破了“記憶體牆“,對AlphaFold2實施了端到端的高通量最佳化,在實踐中實現了比專用AI加速晶片更為出色的表現,累計通量提升可達最佳化前的23。11倍。

在這個全新的加速方案中,

第三代英特爾 至強 可擴充套件處理器

也憑藉出色的微架構設計,尤其是多核心、多執行緒和大容量快取記憶體,為AlphaFold2提供了充足的總體算力,以滿足整個結構預測過程所需;另一方面,這款處理器內建的

英特爾 AVX-512技術

,也能在

英特爾 oneAPI

相關軟體最佳化工具的啟用下,輸出額外的平行計算加速支援,為方案提供更進一步的效能調優空間。

這個加速方案的實驗結果顯示,對於一個含有765氨基酸的蛋白質測試樣例,在64個物理核同時併發的情況下,最高的記憶體消耗達到3。2TB,其測試通量可從未經任何最佳化的4。56序列/天,達到最佳化後的105。35序列/天。 而且如果在單節點上配備最高8TB記憶體的話,就可以支援完成高於1萬氨基酸序列長度下蛋白結構的預測。

從這個結果展開思考,就會發現: 通常情況下,雖然在需要圍繞大規模的訓練以及演算法的迭代更新時,各類專用AI加速晶片會作為固定演員扮演既有角色,但是這也意味著,所有入場者都需要為這種異構平臺的建設和充分利用投入更多的財力並加強相關人才儲備。

但如果是僅僅利用成熟的演算法模型來做推理,用以支援科研專案的開展而非演算法本身的演進呢? 或者是已經擁有了異構平臺,但一直難以突破蛋白質預測長序的限制呢? CPU+大記憶體的方案在這些場景下就有更為明顯、甚至是獨特的優勢了。

換言之,這就相當於所有相關行業和領域的從業者們自此有了更多也更為靈活的選擇,他們既可以選擇較為複雜的異構平臺來探究AI演算法的巔峰或極限,也可以藉助更為普及、也更易於獲取和使用的通用平臺作為科研實踐的加速器。 當然,後者這些天然優勢,也會降低AI在醫藥和生命科學領域落地的門檻,讓更多從業者能夠搭上AI for Science或AI找藥的“快車”。

給科研送上“神助攻”不止是AI

為推動生命科學這一前沿科研領域中的相關應用落地,《“十四五”生物經濟發展規劃》提出要開展前沿生物技術創新,突破高通量篩選、高效表達、精準調控等關鍵技術,推動在新藥開發、疾病治療等領域的應用。

得益於AI技術的高速發展和演進,它與科學前沿研究的結合正在快速地改變世界並造福人們的生活。 楊明俊博士說,AI藥物研發是一個新興的交叉學科,它不僅對生命醫藥行業產生深遠的影響,也對提高人類壽命的長度和質量有重要意義,“讓AI流淌進每一款新藥,讓患者更快地獲得有效治療。 ”

如今,中國生物醫藥行業經歷了跟蹤仿製和模仿創新階段,正處在向源頭創新的更高階段邁進。 同時中國新藥創制核心競爭力也在不斷得到提升,未來將會在全球研發中發揮更大的作用。

窺一斑而知全豹,儘管藥物研發只是生命科 學領域中的一環,但是這並不妨礙從中能夠看到AI和傳統科研結合帶來的巨大潛能,從而深刻地理解“AI for Science”為何能成為當前的重要趨勢。而更加重要,也更需要重視的是,除AI之外,大資料和HPC也曾經和正在推進著類似的正規化革命,驅動著重大的科學探索及發現。而位處算力創新源頭,產品涵蓋計算、儲存和通訊等多個維度的英特爾,也正透過構建全面且均衡的計算平臺,基於軟硬體之間的無縫組合與高效協作,以及多樣化的最佳化方法,在滿足各方面需求的同時,透過聯合產業鏈各個環節的合作伙伴,致力於給科學研究送上更多神助攻,促發更多前沿領域的科研新發現。

AI助力生命科學創新正規化變革 正突破新藥研發“雙十”困局

Top