您現在的位置是:首頁 > 武術

貫穿AI生命週期各階段的道德問題:資料準備

  • 由 澳鵬appen 發表于 武術
  • 2023-01-15
簡介如果使用有偏見的資料來訓練AI或機器學習模型,就會導致有偏差、不公正、不準確的結果在資料旅程的每一步,都有可能出現導致資料偏見的常見錯誤

道德有哪幾個階段

隨著AI在市場上得到更廣泛的採用並被作為各種用例中的工具實現,更多的挑戰也應勢而生。AI專案遇到了一個長期的關鍵問題,即合乎道德的AI以及資料中的偏見處理。在AI發展初期,這個問題並不明顯。

資料偏見是指資料集中某個元素的代表權重過大或不足。如果使用有偏見的資料來訓練AI或機器學習模型,就會導致有偏差、不公正、不準確的結果

在資料旅程的每一步,都有可能出現導致資料偏見的常見錯誤。值得慶幸的是,有一些方法可以避免這些隱患。在本系列文章中,我們將探索

AI生命週期

以下四個階段中的資料偏見:

資料獲取

資料準備

模型訓練和部署

人工模型評估

並非所有的資料集都是平等的,但我們希望幫助您駕馭AI生命週期中複雜的資料道德問題,這樣您就可以為AI模型建立最好、最有用且最可靠的資料集。

貫穿AI生命週期各階段的道德問題:資料準備

資料準備中的偏見

在使用資料訓練AI模型之前,必須保證這些資料可讀並可用。AI資料生命週期的第二階段是資料準備,即獲取一組原始資料,對其進行排序、標註、清理和複核。

這兩者結合應用,則能以儘可能低的偏見交付高質量的資料。

在資料準備階段,首先由標註員檢查每條資料,併為其提供標籤或標註。根據不同的資料型別,可能有以下標註方式:

在影象中的物件周圍加邊界框

轉錄音訊檔案

將書面文字從一種語言翻譯成另一種語言

標註文字檔案或影象檔案

我們世界各地的人工標註員完成資料標註後,資料便進入資料準備的下一環節:質量保證。質量保證過程需要人工標註員和機器學習模型來檢查資料的準確性。如果資料不適合專案或資料標註錯誤,則會從資料集中刪除相應資料。

在資料準備階段的最後,資料集接著進入模型訓練階段。在資料集進入這個階段之前,必須保證它一致、完整並且乾淨。高質量的資料造就高質量的AI模型。

偏見可以透過多種方式引入資料準備過程,併產生道德問題,這些問題隨後又被帶進AI模型。資料準備中最常見的資料偏見型別包括:

資料缺口

資料標註員訓練不當

標註不一致

個人偏見

資料過多或過少

一、資料中有缺口

AI資料集中潛入偏見的一種最常見情況是,資料缺口和資料代表性不足。如果資料集中缺少某些分組或型別的資料,就會導致在資料和生成的AI模型輸出中出現偏見。常見的資料缺口包括少數群體代表性不足。資料缺口也可能是某類資料或罕見用例示例的代表性不足。

資料缺口通常是無意造成的,因此在準備階段檢查資料,查出這些資料缺口非常必要。如果不能透過新增更多代表性資料來解決資料缺口問題,用於訓練AI模型的資料就會存在資料缺口,模型隨之就會生成不太準確的結果。

二、資料標註員沒有經過良好的訓練

資料準備階段引入偏見的另一種常見情況是,使用未經訓練的資料標註員標註資料。如果資料標註員訓練不足,不瞭解其工作的重要性,則標註過程中更有可能出現標註錯誤或是偷工減料的情況。

為資料標註員提供全面的訓練和支援性監督,能夠限制資料準備過程中出現的錯誤數。在資料標註過程中,未經訓練的資料標註員可能通過幾種方式引入偏見,其中包括標註不一致和個人偏見。

三、標註不一致

如果由多個標註員標註一個數據集,務必要訓練所有標註員在標註每個資料點時保持一致性。當相似型別的資料標註不一致時,就會產生回憶偏見,導致AI模型的準確性降低。

四、個人偏見

在標註過程中,資料標註員引入偏見的另一種情況是,夾雜他們自己的個人偏見。我們每個人對周圍的世界都有一套獨特的偏見和理解。雖然標註員對世界的獨特理解能夠幫助其標註資料,但卻可能會在資料中引入偏見。

例如,如果標註員標註帶有面部表情的、流露情緒的影象,則來自兩個不同國家的標註員可能會提供不同的標註。這類偏見是資料準備中所固有的,但可以透過全面質量保證流程加以控制。此外,企業還可為資料標註員提供避免無意識偏見的訓練,設法減少偏見對資料標註的影響。

五、只使用人工標註或只使用機器標註

過去,標註資料的唯一方法是,由人工檢查每一條資料,並用標籤標註。近來,機器學習程式已經能夠標註資料並建立訓練資料集。

圍繞兩種標註方法的爭論總是很激烈:哪個方法更好呢?我們想要雙管齊下,既使用人工標註員標註資料,同時也使用機器學習程式對資料標註進行質量保證檢查。這樣做才能構建一流質量的資料集。

六、資料過多或過少

在準備階段評估資料時,還需要考慮的重要一點是,要確保擁有適量的資料。訓練資料可能太少,也可能太多。

如果訓練資料太少,演算法將無法理解資料中的模式。這被稱為欠擬合。如果訓練資料太多,模型的輸出會不準確,因為它不能確定哪些是噪聲,哪些是真實資料。為模型提供的資料過多稱為過擬合。

為AI模型建立大小合適的資料集,將能提高模型輸出的質量。

排除

無關緊要的

資料

在資料準備過程中,認真檢查資料並從資料集中刪除不適用於未來模型的資料很重要。在刪除資料之前一定要反覆檢查,因為最初或對某人來說看似“無關緊要的”資料實際上可能並非如此。在這個階段刪除“無足輕重”的資料會導致排除方面的偏見。資料集的某個部分很小或是不常見,並不意味著它不重要。

資料準備中偏見問題的解決方案

雖然在資料準備過程中有多種方式可能會在資料集中引入偏見,但解決方案也有很多。下面介紹了一些可以在資料準備過程中避免偏見的方法。

一、僱傭多元化和有代表性的員工

在資料準備過程中消除偏見的一種最重要的方法是,確保決策者和參與者具有廣泛的代表性。僱傭多元化的員工對減少AI訓練資料集中的偏見大有幫助。

僱傭多元化的員工才是第一步,我們還可以再進一步,為所有員工提供無意識偏見訓練。無意識偏見訓練能幫助員工更好地識別自己的個人偏見,並有意識地在所標註的資料中尋找偏見。

二、在質量保證流程中增加偏見檢查環節

如果只能做一件事來減少資料準備中的偏見,那應該是在質量保證流程中增加偏見檢查環節。大多數偏見都是無意的。這意味著因為沒有人察覺,或是沒有人想去查詢,導致偏見潛入到資料中。

透過在質量保證流程中增加偏見檢查環節,可以有意識地進行偏見檢查。這樣有助於提醒員工明確查詢資料中的偏見,批判性地思考資料中應該和不應該代表什麼。為員工提供無意識偏見訓練,將使他們更容易在資料準備過程中查詢和消除偏見。

三、為標註員提供優厚的報酬和公平的待遇

偏見在AI資料中普遍存在。識別資料缺口需要敏銳的眼光和全面的訓練。為解決AI訓練資料集中的偏見問題,企業的一個簡單做法是,確保其資料標註員獲得優厚的報酬和公平的待遇。

工作報酬優厚的員工更有可能關注生產高質量的內容。企業善待員工,員工就更有可能以高質量的工作作為回報。本質而言,合乎道德的AI始於那些為訓練AI模型而標註資料和清理資料的人。這些人的工作報酬不令人滿意,偏見擴散的可能性就更大。

要為AI模型建立一個更合乎道德的美好世界,就應該回歸起點:從資料開始。AI生命週期包括四個資料處理階段,它們都有可能給訓練資料集引入偏見。在資料準備階段,至關重要的是要有訓練有素、享有優厚報酬的員工,他們可以識別無意識的偏見,就能幫助儘可能多地消除偏見。

Top