您現在的位置是:首頁 > 棋牌

基於觀測資料的因果發現及因果性學習

  • 由 中科院物理所 發表于 棋牌
  • 2023-01-11
簡介圖4:隱變數場景下因果關係發現方法但這種方法的侷限性在於其認為觀測變數之間沒有邊,無法推斷變數之間完整的因果關係,在此基礎上可以利用面向不完全觀察資料的因果結構學習演算法(FRITL演算法)做進一步的最佳化,具體步驟:1)基於獨立性條件利用

任何數的0次方都是1

因果關係一直是人類認識世界的基本方式和現代科學的基石,可以幫助我們理解很多複雜的現實場景。與相關關係對比,因果關係嚴格區分了“原因”變數和“結果”變數,在揭示事物發生機制、指導干預行為等方面有相關關係不能替代的重要作用。

認識事物間的因果關係,最直接的方法是做隨機實驗,但在現實生活中,隨機實驗有時不具備可操作性,我們越來越希望能夠從觀測資料中得到因果關係,這其中最基本的核心點是需要找到有助於我們發現因果關係的額外資訊,建立起因果結構和觀測的統計資料之間的橋樑,下面介紹三種常用的方法:

1)基於約束的方法:主要是PC(Peter-Clark)演算法和IC(Inductive Causality)演算法,核心原理是基於獨立性和條件獨立性判斷變數之間的獨立性,獲得因果圖,並利用V-結構和定向規則對變數間的無向邊進行定向。這種方法的缺點是無法區分馬爾可夫等價類結構。

基於觀測資料的因果發現及因果性學習

圖1:基於約束的因果關係發現方法

2)基於因果函式模型的方法:主要是加性噪聲模型(ANM)和後非線性模型(PNL),核心原理是假設結果Y和原因X具有函式關係,如果X對Y做正向迴歸,噪聲項與X獨立,Y對X做反向迴歸,噪聲項與Y不獨立,則推斷X是Y的原因。

基於觀測資料的因果發現及因果性學習

圖2:基於因果函式模型的因果關係發現方法

對於離散的類別型資料,由於無法直接定義加法操作和迴歸函式操作,為了發現不對稱性,可以透過在 “X -> Y’ -> Y”前後兩個過程中建立似然度函式來保證模型的可識別性,找到X和Y之間的因果關係。

3)混合型方法:由於基於約束的方法,無法識別馬爾可夫等價類的問題,而基於因果函式模型的方法,只能判斷一個變數對結果變數的影響,無法解決實際生活中多變數的問題,兩類方法在現實中均存在一定的不適用性。為了解決這一問題,引入混合型方法,核心原理是將似然度框架嵌入因果函式模型,發現數據間的因果結構。

基於觀測資料的因果發現及因果性學習

圖3:混合型因果關係發現方法

現實場景中,經常有許多存在隱變數的情況,如果資料是線性非高斯的,可將獨立噪聲條件(IN)擴充套件到廣義獨立噪聲條件(GIN),透過找到隱變數的代理變數做迴歸,恢復資料的因果結構。具體步驟:

1)找到共享同樣的隱變數父節點的觀察變數cluster;

2)根據隱變數與觀察變數cluster的關係,找到不用隱變數之間的關係。

基於觀測資料的因果發現及因果性學習

圖4:隱變數場景下因果關係發現方法

但這種方法的侷限性在於其認為觀測變數之間沒有邊,無法推斷變數之間完整的因果關係,在此基礎上可以利用面向不完全觀察資料的因果結構學習演算法(FRITL演算法)做進一步的最佳化,具體步驟:

1)基於獨立性條件利用FCI方法構建祖先圖(PAG);

2)利用獨立噪聲條件(IN)推斷每個祖先圖(PAG)區域性的因果方向;

3)區域性的因果方向無法判別時,引入隱變數,利用三分體約束,檢測併合並同一個隱變數,估計未確定的區域性因果結構。

基於觀測資料的因果發現及因果性學習

圖5:隱變數場景下利用FRITL演算法的因果關係發現方法

正如圖靈獎得獎者Pearl Judea提出的 “因果關係之梯” 中特別指出,我們當前的機器學習只處於第一層,只是“弱人工智慧”,要實現“強人工智慧”還需要干預和反事實推理。因果推斷對於克服現有人工智慧在抽象、推理、可解釋性等方面的不足具有重要意義,比如

(1)在領域遷移中,可以基於因果機制抽象出語義資訊實現領域自適應(domain adaptation),解決方案是利用變分自編碼器(VAE)框架,在隱空間(latent space)中,從x學到label y和domain的隱變數,再基於監督訊號,將label相關的資訊和domain相關的資訊解耦,把語義的label資訊單獨抽離出來進行判別,這種方法在剪下圖、藝術圖、產品圖上都取得了較好的實驗效果。

基於觀測資料的因果發現及因果性學習

圖6:領域遷移中的解耦方法

基於觀測資料的因果發現及因果性學習

圖7:領域遷移中的解耦步驟

(2)在推薦系統中,我們可以利用因果圖解決自選擇偏差的問題。假設歷史資料是多種營銷策略的混合體(sij),且我們可以透過社交網路(Gi)來推斷ui的資訊,透過建立因果圖,可以看到sij節點附近形成兩個v結構,透過eij、vj、ui等變數資訊我們就可以推斷sij的資訊,從而幫助我們推斷歷史上採取了哪些不同的營銷策略,進而輔助提升推薦的效果。

基於觀測資料的因果發現及因果性學習

圖8:推薦系統解決自選擇偏差的方法

因果推斷框架的一個最基本的思想是:因果推斷是關於世界的一個更加穩定的抽象模型。因果發現方法基於高階資訊推斷因果結構,因果性學習從複雜資訊中抽取因果結構,這兩種方法也都是借鑑了這個思想。但由於受限於很多假設和理論基礎,很多問題仍在研究過程中,有待大家進一步探索和解決。

在因果推斷中,因果發現和因果性學習往往是互相促進的,因果發現會用很多VAE的工具,因果性學習也會利用因果圖的先驗資訊,在探索過程中可以將兩方面結合起來打通思考。

基於觀測資料的因果發現及因果性學習

圖9:因果推斷框架總結

參考文獻:

[1] Cai R, Qiao J, Zhang K, et al。 Causal discovery from discrete data using hidden compact representation。NeurIPS, 2018

[2] Cai R, Qiao J, Zhang Z, et al。 Self: structural equational likelihood framework for causal discovery[C]// AAAI 2018, 32(1)

[3] Silva et al。 (2006)。 Learning the structure of linear latent variable models, JMLR, 2006

[4] Xie, Cai, Huang, Glymour, Hao, Zhang, “Generalized Independent Noise Condition for Estimating Linear Non-Gaussian Latent Variable Causal Graphs,” NeurIPS 2020

[5] Chen W, Zhang K, Cai R, et al。 FRITL: A Hybrid Method for Causal Discovery in the Presence of Latent Confounders[J]。 Submitted to JMLR, arXiv preprint arXiv:2103。14238, 2021

[6] Cai R, Li Z, Wei P, et al。 Learning disentangled semantic representation for domain adaptation[C]//IJCAI:, 2019, 2019: 2060。

[7] Cai R, Li Z, et al。 Social Recommendation under Discrete Unobserved Exposure Strategies[C]// coming。 With wecha

講者介紹

基於觀測資料的因果發現及因果性學習

蔡瑞初

,廣東工業大學教授、博士生導師、省傑出青年基金獲得者、DMIR實驗室主任、廣東省移動網際網路電子商務大資料工程技術研究中心副主任。蔡教授專注於因果推斷與因果性學習、深度學習等領域的理論與應用研究。已發表論文50餘篇,包括ICML、NeurIPS、AAAI、IJCAI、SIGMOD、VLDB、SDM等領域重要會議和TNNLS、TKDE、NN、PR等國際著名期刊。上述成果在華為、網易、騰訊等企業應用實施,取得了良好的經濟和社會價值。

蔡教授專注於因果推斷與因果性學習、深度學習等領域的理論與應用研究。在上述領域先後主持國家自然科學基金、省傑出青年基金、省特支計劃科技創新青年拔尖人才、珠江科技新星、市協同創新重大專項等專案。已發表論文50餘篇,包括ICML、NeurIPS、AAAI、IJCAI、SIGMOD 、VLDB、SDM等領域重要會議和TNNLS、TKDE、NN、PR等國際著名期刊。上述成果在華為、網易、騰訊、唯品會、南方電網、南方通訊建設等企業應用實施,取得了良好的經濟和社會價值。先後獲得省科學技術二等獎(第四完成人)、省科學技術一等獎(第三完成人)、國家發明專利獎優秀獎(第三完成人)。

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯絡原公眾號

編輯:Callo

Top