您現在的位置是:首頁 > 綜合

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

  • 由 雷峰網leiphone 發表于 綜合
  • 2022-11-22
簡介而現在,資料迭代成為重心,因此我們需要更系統的方法來評估、篩選、清洗和註釋用於訓練和測試 AI 模型的資料

ai如何裁掉不需要的部分

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

作者 | 李梅、王玥

編輯 | 陳彩嫻

在當前 AI 模型的開發以模型為中心轉向以資料為中心的趨勢下,資料的質量變得尤為重要。

在以往的 AI 開發流程中,資料集通常是固定的,開發工作的重點是迭代模型架構或訓練過程來提高基準效能。而現在,資料迭代成為重心,因此我們需要更系統的方法來評估、篩選、清洗和註釋用於訓練和測試 AI 模型的資料。

最近,斯坦福大學計算機科學系的Weixin Liang、李飛飛等人在《自然-機器智慧》上共同發表了一篇題為“Advances, challenges and opportunities in creating data for trustworthy AI”的文章,在 AI 資料全流程的各個環節上討論了保證資料質量的關鍵因素和方法。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

論文地址:

htt

ps://www。nature。com/articles/s42256-022-00516-1。epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIA

Fc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D

AI 資料流程中的主要步驟包括:資料設計(資料的採集和記錄)、資料改善(資料篩選、清洗、標註、增強)以及用於評估和監控 AI 模型的資料策略,其中的每一個環節都會影響最終 AI 模型的可信度。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖1:從資料設計到評估的以資料為中心的方法開發路線圖。

1

AI 的資料設計

確定了一個人工智慧應用程式後,開發 AI 模型第一步就是設計資料(即識別和記錄資料來源)。

設計應當是一個迭代過程——用試驗資料來開發初始的 AI 模型,然後再收集額外資料來修補模型的侷限性。設計的關鍵標準是確保資料適用於任務,並覆蓋足夠的範圍來代表模型可能遇到的不同使用者和場景。

而目前用於開發 AI 的資料集通常覆蓋範圍有限或者具有偏差。例如在醫療 AI 中,用於開發演算法的患者資料的收集在地區分佈上不成比例,這會限制 AI 模型對不同人群的適用性。

提高資料覆蓋率的一種方法,是讓更廣泛的社群參與資料的建立。目前最大的公共資料集 Common Voice 專案就是一個例證,該資料集包含了來自 166000 多名參與者的 76 種語言的 11192 小時語音轉錄。

而當代表性資料難以獲得時,可以用

合成數據

來填補覆蓋空白。比如真實人臉的收集通常涉及隱私問題和抽樣偏差,而由深度生成模型建立的合成人臉現在已經被用於減輕資料不平衡和偏差。在醫療保健領域,可以共享合成醫療記錄來促進知識發現,而無需披露實際的患者資訊。在機器人技術中,真實世界的挑戰是終極的測試平臺,也可以用高保真模擬環境來讓智慧體在複雜和長期任務中實現更快、更安全的學習。

但合成數據也存在一些問題。合成數據與現實資料之間總是存在差距,所以在將基於合成數據訓練的 AI 模型轉移到現實世界時,通常會出現效能下降。如果模擬器的設計不考慮少數群體,那麼合成數據也會加劇資料差異,而 AI 模型的效能高度依賴其訓練和評估資料的上下文,因此在標準化和透明的報告中記錄資料設計地上下文就非常重要。

現在,研究人員已經建立了各種

「資料營養標籤」(data nutrition labels)來捕獲有關資料設計和註釋過程的元資料(metadata)。

有用的元資料包括資料集中參與者的性別、性別、種族和地理位置的統計資料,這有助於發現是否有代表性不足的亞群未被覆蓋。資料來源也是一種元資料,它跟蹤資料的來源和時間以及產生資料的過程和方法。

元資料可以儲存在一個專門的資料設計文件裡,資料文件對於觀察資料的生命週期和社會技術背景來說非常重要。文件可以上傳到穩定且集中的資料儲存庫(例如 Zenodo)中。

2

完善資料:篩選、清洗、標註、增強

初始資料集收集完成後,我們就需要進一步完善資料,為 AI 的開發提供更有效的資料。這是 AI 以模型為中心的方法與以資料為中心的方法的關鍵不同之處,如圖 2a ,以模型為中心的研究通常是基於給定的資料,專注於改進模型架構或最佳化此資料。而

以資料為中心的研究則側重於可擴充套件的方法,

透過資料清洗、篩選、標註、增強等過程來系統地改進資料,並且可以使用

一站式的模型開發平臺。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖2a:AI 以模型為中心與以資料為中心的方法比較。MNIST、COCO 和 ImageNet 是 AI 研究中常用的資料集。

資料篩選

如果資料集的噪聲很大,我們就得仔細對資料進行篩選之後再做訓練,這樣可以顯著提高模型的可靠性和泛化性。圖 2a 中的飛機影象就是鳥類資料集中應刪除的噪聲資料點。

在 圖 2b 中,由於訓練資料的偏差,在以前使用的大型面板病學資料上訓練的四種最先進的模型都表現不佳,在深色面板影象上的診斷效果尤其不好,而在較小的高質量資料上訓練的模型 1 在深淺膚色上都相對更可靠一些。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖 2b:淺色面板和深色面板影象上的面板病診斷測試效能。

圖 2c 顯示,ResNet、DenseNet 和 VGG 這三種用於影象分類的流行深度學習架構,如果是在噪聲大的影象資料集上進行訓練,其效能都欠佳。而經過資料Shapley 值過濾後,質量較差的資料被刪除,此時在更乾淨的資料子集上訓練的ResNet模型效能顯著更優。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖 2c:資料過濾前後不同模型的物件識別測試效能比較。括號中的數字表示過濾掉噪聲資料後剩下的訓練資料點的數量,結果彙總在五個隨機種子上,陰影區域代表 95% 置信區間。

這就是資料評估的意義所在,它旨在量化不同資料的重要程度,並過濾掉可能由於質量差或偏差而損害模型效能的資料。

資料清洗

在本文中,作者介紹了兩種資料評估方法來幫助清洗資料:

一種方法是測量在訓練過程中刪除不同資料時 AI 模型表現的變化,這可以採用資料的 Shapley 值或影響近似值來獲得,如下圖 3a。這種方法能夠有效計算大型 AI 模型的評估。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖3a:資料評估。當在訓

練中刪除特定點(圖中被劃掉的褪色五角星)時,資料的 Shapley 值測量在不同資料子集上訓練的模型的效能變化,從而來量化每個資料點(五角星符號)的值。顏色表示類別標籤。

另一種方法則是預測不確定性來檢測質量差的資料點。資料點的人類註釋可能會系統地偏離 AI 模型預測,置信學習演算法可以檢測出這些偏差,在 ImageNet 等常見基準測試中發現超過 3% 的測試資料被錯誤標註。過濾掉這些錯誤可以大大提升模型的效能。

資料標註

資料標註也是資料偏差的一個主要來源。儘管 AI 模型可以容忍一定程度的隨機標籤噪聲,但有偏差的錯誤會產生有偏差的模型。目前,我們主要依賴於人工標註,成本很昂貴,比如標註單個 LIDAR 掃描的成本可能超過 30 美元,因為它是三維資料,標註者需要繪製出三維邊界框,比一般的標註任務要求更高。

因此作者認為,我們需要仔細校準 MTurk 等眾包平臺上的標註工具,提供一致的標註規則。在醫療環領域,還要考慮到標註人員可能需要專業知識或者可能有無法眾包的敏感資料。

降低註釋成本的一種方法是資料程式設計。

在資料程式設計中,AI 開發人員不再需要手動標記資料點,而是編寫程式標籤函式來自動標註訓練集。如圖 3b,使用使用者定義的標籤函式為每個輸入自動生成多個可能有噪聲的標籤後,我們可以設計額外的演算法,來聚合多個標籤功能以減少噪聲。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖 3b:資料程式設計。

另一種降低標註成本的「人在迴路」(human-in-the-loop)方法是

優先考慮最有價值的資料,

以便我們透過

主動學習(active learning)

來進行標註。主動學習從最佳實驗設計中汲取思想,在主動學習中,演算法從一組未標註的資料點中選擇資訊量最大的點,比如具有高資訊增益的點或模型在其上具有不確定性的點嗎,然後再進行人工標註。這種方法的好處是,所需的資料數量比標準的監督學習所需的資料量要少得多。

據增強

最後,當現有資料仍十分有限時,

資料增強

就是一種擴充資料集和提高模型可靠性的有效方法。

計算機視覺資料可以透過影象旋轉、翻轉和其他數字轉換來增強,文字資料可以透過變換自動書寫風格來增強。還有最近的 Mixup,是一種更復雜的增強技術,它透過對訓練樣本對進行插值來建立新的訓練資料,如圖 3c。

除了人工資料增強之外,目前的 AI 的自動化資料增強流程也是一種流行方案。此外,當未標註的資料可用時,還可以透過使用初始模型進行預測(這些預測稱為偽標籤)來實現標籤增強,然後在具有真實和高置信度偽標籤的組合資料上訓練一個更大的模型。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖 3c:Mixup 透過創

建對現有資料進行插值的合成數據來擴充資料集。藍點表示訓練集中的現有資料點,紅點表示透過插值兩個現有資料點建立的合成數據點。

3

用於評估和監控 AI 模型的資料

在模型經過訓練後,AI 評估的目標是模型的

通用性

可信性

為了實現這一目標,我們應該仔細設計評估資料,從而去找到模型的現實世界設定(real-world settings),同時評估資料也需要與模型的訓練資料有足夠大的差異。

舉個例子,在醫學研究中,AI 模型通常是基於少數醫院的資料訓練的。這樣的模型在新的醫院部署時,由於資料收集和處理方面的差異,其準確性就會降低。為了評價模型的泛化性,就需要從不同的醫院、不同的資料處理管道收集評價資料。在其他應用程式中,評估資料應該從不同的來源收集,最好由不同的註釋器標記為訓練資料。同時,高質量的人類標籤仍然是最重要的評價。

AI 評估的一個重要作用是,

判斷 AI 模型是否在不能很好形成概念的訓練資料中將虛假相關性作為「捷徑」

。例如,在醫學成像中,資料的處理方式(例如裁剪或影象壓縮)可能產生模型拾取的虛假相關性(即捷徑)。這些捷徑表面上可能很有幫助,但當模型部署在稍有不同的環境中時,就可能會出現災難性的失敗。

系統的資料消融是檢查潛在的模型「捷徑」的好方法。

在資料消融(data ablation)中,AI 模型在虛假相關表面訊號的消融輸入上進行訓練和測試。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現可信 AI,資料的設計、完善、評估是關鍵

圖 4:數

據消融

使用資料消融探測出模型捷徑的一個例子是,一項關於常見自然語言推理資料集的研究發現,僅對文字輸入的前一半進行訓練的人工智慧模型在推斷文字的前一半和後一半之間的邏輯關係方面取得了很高的準確性,而人類在相同的輸入上的推斷水平和隨機猜測差不多。這就表明人工智慧模型利用虛假相關性作為完成這項任務的捷徑。研究團隊發現,特定的語言現象會被人工智慧模型利用,如文字中的否定與標籤高度相關。

資料消融被廣泛適用於各個領域。例如,在醫學領域,可以遮蔽影象中與生物相關的部分,用這種方式來評估人工智慧是從虛假背景中學習,還是從影象質量的人工製品中學習。

AI 評估通常侷限於比較整個測試資料集的總體效能指標。但即使 AI 模型在總體資料層面工作良好,它仍然可能在特定的資料子組上顯示出系統性錯誤,而

對這些錯誤叢集的特徵描述可以讓我們更加了解模型的侷限性。

當元資料可用時,細粒度的評估方法應該儘可能地按資料集中參與者的性別、性別、種族和地理位置對評估資料進行切片——例如,“亞洲老年男性”或“美國土著女性”——並量化模型在每個資料子組上的表現。多精度審計(Multi-accuracy auditing)是一種自動搜尋 AI 模型表現不佳的資料子組的演算法。在此處,審計算法被訓練來使用元資料預測和聚類原始模型的錯誤,然後提供 AI 模型犯了什麼錯,為什麼會犯錯等問題的可解釋答案。

當元資料不可用時,Domino 等方法會自動識別評估模型容易出錯的資料叢集,並使用文字生成來建立這些模型錯誤的自然語言解釋。

4

資料的未來

目前大多數 AI 研究專案只開發一次資料集,但現實世界的 AI 使用者通常需要不斷更新資料集和模型。

持續的資料開發將帶來以下挑戰:

首先,

資料和 AI 任務都可以隨著時間的推移而變化

:例如,可能道路上出現了一種新的車輛模型(即領域轉移),或者可能 AI 開發人員想要識別一種新的物件類別(例如,不同於普通公交車的校車型別),這就會改變標籤的分類。而將扔掉數百萬小時的舊標籤資料十分浪費,所以更新勢在必行。此外,培訓和評估指標應該經過精心設計後用來權衡新資料,併為每個子任務使用適當的資料。

其次,

為了持續獲取和使用資料,使用者將需要自動化大部分以資料為中心的 AI 過程。

這種自動化包括使用演算法來選擇將哪些資料傳送給標註器,以及如何使用它來重新訓練模型,並且只在過程出現錯誤時(例如,準確度指標下降時)才向模型開發人員發出警報。作為“MLOps(Machine Learning Operations,機器學習操作)”趨勢的一部分,業界公司開始使用工具來實現機器學習生命週期的自動化。

雷峰網

Top