您現在的位置是：首頁 > 武術

貫穿AI生命週期各階段的道德問題：資料準備

由澳鵬appen 發表于武術
2023-01-15

資料標註偏見 AI 訓練

簡介如果使用有偏見的資料來訓練AI或機器學習模型，就會導致有偏差、不公正、不準確的結果在資料旅程的每一步，都有可能出現導致資料偏見的常見錯誤

道德有哪幾個階段

隨著AI在市場上得到更廣泛的採用並被作為各種用例中的工具實現，更多的挑戰也應勢而生。AI專案遇到了一個長期的關鍵問題，即合乎道德的AI以及資料中的偏見處理。在AI發展初期，這個問題並不明顯。

資料偏見是指資料集中某個元素的代表權重過大或不足。如果使用有偏見的資料來訓練AI或機器學習模型，就會導致有偏差、不公正、不準確的結果

在資料旅程的每一步，都有可能出現導致資料偏見的常見錯誤。值得慶幸的是，有一些方法可以避免這些隱患。在本系列文章中，我們將探索

AI生命週期

以下四個階段中的資料偏見：

資料獲取

資料準備

模型訓練和部署

人工模型評估

並非所有的資料集都是平等的，但我們希望幫助您駕馭AI生命週期中複雜的資料道德問題，這樣您就可以為AI模型建立最好、最有用且最可靠的資料集。

資料準備中的偏見

在使用資料訓練AI模型之前，必須保證這些資料可讀並可用。AI資料生命週期的第二階段是資料準備，即獲取一組原始資料，對其進行排序、標註、清理和複核。

這兩者結合應用，則能以儘可能低的偏見交付高質量的資料。

在資料準備階段，首先由標註員檢查每條資料，併為其提供標籤或標註。根據不同的資料型別，可能有以下標註方式：

在影象中的物件周圍加邊界框

轉錄音訊檔案

將書面文字從一種語言翻譯成另一種語言

標註文字檔案或影象檔案

我們世界各地的人工標註員完成資料標註後，資料便進入資料準備的下一環節：質量保證。質量保證過程需要人工標註員和機器學習模型來檢查資料的準確性。如果資料不適合專案或資料標註錯誤，則會從資料集中刪除相應資料。

在資料準備階段的最後，資料集接著進入模型訓練階段。在資料集進入這個階段之前，必須保證它一致、完整並且乾淨。高質量的資料造就高質量的AI模型。

偏見可以透過多種方式引入資料準備過程，併產生道德問題，這些問題隨後又被帶進AI模型。資料準備中最常見的資料偏見型別包括：

資料缺口

資料標註員訓練不當

標註不一致

個人偏見

資料過多或過少

一、資料中有缺口

AI資料集中潛入偏見的一種最常見情況是，資料缺口和資料代表性不足。如果資料集中缺少某些分組或型別的資料，就會導致在資料和生成的AI模型輸出中出現偏見。常見的資料缺口包括少數群體代表性不足。資料缺口也可能是某類資料或罕見用例示例的代表性不足。

資料缺口通常是無意造成的，因此在準備階段檢查資料，查出這些資料缺口非常必要。如果不能透過新增更多代表性資料來解決資料缺口問題，用於訓練AI模型的資料就會存在資料缺口，模型隨之就會生成不太準確的結果。

二、資料標註員沒有經過良好的訓練

資料準備階段引入偏見的另一種常見情況是，使用未經訓練的資料標註員標註資料。如果資料標註員訓練不足，不瞭解其工作的重要性，則標註過程中更有可能出現標註錯誤或是偷工減料的情況。

為資料標註員提供全面的訓練和支援性監督，能夠限制資料準備過程中出現的錯誤數。在資料標註過程中，未經訓練的資料標註員可能通過幾種方式引入偏見，其中包括標註不一致和個人偏見。

三、標註不一致

如果由多個標註員標註一個數據集，務必要訓練所有標註員在標註每個資料點時保持一致性。當相似型別的資料標註不一致時，就會產生回憶偏見，導致AI模型的準確性降低。

四、個人偏見

在標註過程中，資料標註員引入偏見的另一種情況是，夾雜他們自己的個人偏見。我們每個人對周圍的世界都有一套獨特的偏見和理解。雖然標註員對世界的獨特理解能夠幫助其標註資料，但卻可能會在資料中引入偏見。

例如，如果標註員標註帶有面部表情的、流露情緒的影象，則來自兩個不同國家的標註員可能會提供不同的標註。這類偏見是資料準備中所固有的，但可以透過全面質量保證流程加以控制。此外，企業還可為資料標註員提供避免無意識偏見的訓練，設法減少偏見對資料標註的影響。

五、只使用人工標註或只使用機器標註

過去，標註資料的唯一方法是，由人工檢查每一條資料，並用標籤標註。近來，機器學習程式已經能夠標註資料並建立訓練資料集。

圍繞兩種標註方法的爭論總是很激烈：哪個方法更好呢？我們想要雙管齊下，既使用人工標註員標註資料，同時也使用機器學習程式對資料標註進行質量保證檢查。這樣做才能構建一流質量的資料集。

六、資料過多或過少

在準備階段評估資料時，還需要考慮的重要一點是，要確保擁有適量的資料。訓練資料可能太少，也可能太多。

如果訓練資料太少，演算法將無法理解資料中的模式。這被稱為欠擬合。如果訓練資料太多，模型的輸出會不準確，因為它不能確定哪些是噪聲，哪些是真實資料。為模型提供的資料過多稱為過擬合。

為AI模型建立大小合適的資料集，將能提高模型輸出的質量。

排除

“

無關緊要的

”

資料

在資料準備過程中，認真檢查資料並從資料集中刪除不適用於未來模型的資料很重要。在刪除資料之前一定要反覆檢查，因為最初或對某人來說看似“無關緊要的”資料實際上可能並非如此。在這個階段刪除“無足輕重”的資料會導致排除方面的偏見。資料集的某個部分很小或是不常見，並不意味著它不重要。

資料準備中偏見問題的解決方案

雖然在資料準備過程中有多種方式可能會在資料集中引入偏見，但解決方案也有很多。下面介紹了一些可以在資料準備過程中避免偏見的方法。

一、僱傭多元化和有代表性的員工

在資料準備過程中消除偏見的一種最重要的方法是，確保決策者和參與者具有廣泛的代表性。僱傭多元化的員工對減少AI訓練資料集中的偏見大有幫助。

僱傭多元化的員工才是第一步，我們還可以再進一步，為所有員工提供無意識偏見訓練。無意識偏見訓練能幫助員工更好地識別自己的個人偏見，並有意識地在所標註的資料中尋找偏見。

二、在質量保證流程中增加偏見檢查環節

如果只能做一件事來減少資料準備中的偏見，那應該是在質量保證流程中增加偏見檢查環節。大多數偏見都是無意的。這意味著因為沒有人察覺，或是沒有人想去查詢，導致偏見潛入到資料中。

透過在質量保證流程中增加偏見檢查環節，可以有意識地進行偏見檢查。這樣有助於提醒員工明確查詢資料中的偏見，批判性地思考資料中應該和不應該代表什麼。為員工提供無意識偏見訓練，將使他們更容易在資料準備過程中查詢和消除偏見。

三、為標註員提供優厚的報酬和公平的待遇

偏見在AI資料中普遍存在。識別資料缺口需要敏銳的眼光和全面的訓練。為解決AI訓練資料集中的偏見問題，企業的一個簡單做法是，確保其資料標註員獲得優厚的報酬和公平的待遇。

工作報酬優厚的員工更有可能關注生產高質量的內容。企業善待員工，員工就更有可能以高質量的工作作為回報。本質而言，合乎道德的AI始於那些為訓練AI模型而標註資料和清理資料的人。這些人的工作報酬不令人滿意，偏見擴散的可能性就更大。

要為AI模型建立一個更合乎道德的美好世界，就應該回歸起點：從資料開始。AI生命週期包括四個資料處理階段，它們都有可能給訓練資料集引入偏見。在資料準備階段，至關重要的是要有訓練有素、享有優厚報酬的員工，他們可以識別無意識的偏見，就能幫助儘可能多地消除偏見。

上一篇：熱氣騰騰！這是昨夜今晨的中國

下一篇：大S的消費觀，早在20年前就暴露了

您現在的位置是：首頁 > 武術

貫穿AI生命週期各階段的道德問題：資料準備

相關文章