您現在的位置是:首頁 > 棋牌

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

  • 由 澎湃線上 發表于 棋牌
  • 2023-01-14
簡介該研究表明,如果著手糾正測試集中的標籤錯誤或在資料集噪聲較多時使用較小較簡單的模型,ML 從業者可能會從中受益

驗證集是什麼

機器之心報道

編輯:張倩、小舟

把老虎標成猴子,把青蛙標成貓,把碼頭標成紙巾……MIT、Amazon 的一項研究表明,ImageNet 等十個主流機器學習資料集的測試集平均錯誤率高達 3。4%。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

我們平時用的機器學習資料集存在各種各樣的錯誤,這是一個大家都已經發現並接受的事實。為了提高模型準確率,有些學者已經開始著手研究這些資料集中的錯誤,但他們的研究主要集中在訓練集,沒有人系統研究過機器學習測試集的誤差。

眾所周知,測試集是我們拿來衡量機器學習模型效能的基準。如果測試集錯誤百出,我們得到的效能資料也會存在很大偏差。

在一篇新論文中,麻省理工 CSAIL 和亞馬遜的研究者對 10 個主流機器學習資料集的測試集展開了研究,發現它們的平均錯誤率竟高達 3。4%。其中,最有名的 ImageNet 資料集的驗證集中至少存在 2916 個錯誤,錯誤率為 6%;QuickDraw 資料集中至少存在 500 萬個錯誤,錯誤率為 10%。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

論文連結:https://arxiv。org/pdf/2103。14749。pdf

下圖 1 顯示了各資料集中存在的錯誤示例:

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

為了向所有人展示這些錯誤,幫助改進資料集,研究者還做了一個專門的歸類網站。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

網站地址:https://labelerrors。com/

該網站列出的錯誤主要包括三種類型。第一種是標錯的影象,如碼頭被標記成紙巾。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

第二種是被標錯的文字情感傾向,如亞馬遜的商品評價本來是消極的,但被標成積極的。

第三種是被標錯的 YouTube 影片的音訊,如愛莉安娜 · 格蘭德的高音片段被標記成口哨。

論文作者在研究中發現了一個有趣的現象:ResNet-18 這類比較簡單的模型錯誤率要低於 ResNet-50 這種更為複雜的模型,這取決於不相關資料(噪聲)的普遍性。因此,作者建議,如果你的資料集標籤錯誤率高達 10%,你可以考慮使用較為簡單的模型。

為了方便大家復現論文結果並在自己的資料集中找到標籤錯誤,研究者還在 GitHub 上開源了他們用到的 Python 包(cleanlab)。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

專案地址:https://github。com/cgnorthcutt/cleanlab

參與調查的十大資料集

下表一顯示了研究者本次調查的十個資料集以及它們的測試集錯誤率。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

以下是這些資料集的詳細資訊,從它們的標註過程我們看出標籤出錯的一些可能原因:

MNIST

MNIST 資料集是是美國國家標準與技術研究院收集整理的大型手寫數字資料庫,最早是在 1998 年 Yan Lecun 的論文中提出的。該資料集包含了 0-9 共 10 類手寫數字圖片,每張圖片都做了尺寸歸一化,都是 28x28 大小的灰度圖。該資料集的 ground-truth 標籤是透過將數字與任務的指令相匹配來確定的,以便於複製一組特定的數字。標籤錯誤可能是由於未遵循該資料集的相關說明和手寫歧義引起的。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

CIFAR-10 和 CIFAR-100 資料集

CIFAR-10 和 CIFAR-100 資料集分別由 10 類和 100 類 32 × 32 影象組成。這兩個資料集透過在網際網路上搜索類別標籤來收集影象。人工標記時透過過濾掉標籤錯誤的影象,來選擇與類別標籤匹配的影象。標記器僅根據影象中最突出的一個例項來賦予標籤,其中允許該例項有部分遮擋。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

Caltech-256

Caltech-256 資料集是一種包含影象和類別的資料集,其中的影象是從影象搜尋引擎中抓取的,人工標記時將影象評定為 good、bad 和 not applicable,從資料集中過濾掉遮擋過度、混亂,以及非物體類別示例的影象。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

ImageNet

ImageNet 資料集是機器學習研究中最常用的資料集之一。該資料集透過在幾個影象搜尋引擎上查詢 WordNet 同義詞集(synset)中的單詞來抓取影象。這些影象由 Amazon Mechanical Turk 的工作人員標記,他們要檢查這些影象是否包含特定同義詞集中的物件,過濾掉物件混亂、遮擋過度的影象,並確保資料集的影象多樣性。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

QuickDraw

QuickDraw 塗鴉資料集是一個包含 5000 萬張圖畫的集合,分成了 345 個類別,這些圖畫都來自於 Quick, Draw! 遊戲的玩家。這些影象帶有一些元資料標註,包括玩家被要求繪畫的內容等。該資料集可能存在影象不完整、標籤不匹配等情況。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

20news

20 Newsgroups 資料集是由釋出到 Usenet 新聞組的文章的集合,一共涉及 20 種話題。該資料集常被用於對文字分類和聚類影象模型進行基準測試。其中每個樣本的標籤是最初發布的新聞組(例如 misc。forsale),該標籤可以在資料收集過程中獲得。

IMDB

IMDB 大型影評資料集是情感分類資料集,用於二元情感分類。其中的標籤是由使用者的評價決定的:滿分 10 分,分數≤ 4 被視為否定,分數≥ 7 被視為肯定。

ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜

評價中表示這是一部值得看的作品,但 IMDB 資料集給出的標籤是負面的。

Amazon Reviews

Amazon Reviews 資料集是來自亞馬遜客戶的文字評價和 5 星級評級的集合,通常被用於基準情感分析模型。

AudioSet

AudioSet 資料集包含 632 類音訊類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段(片段來自 YouTube 影片),被稱為聲音版 ImageNet。研究者指出一些標籤錯誤是因為標籤混亂、人為錯誤以及音訊檢測差異造成的。

如果測試集錯誤太多,大模型未必好用

在估計了各個測試集的錯誤率之後,研究者利用 ImageNet 和 CIFAR-10 作為案例研究了測試集標籤錯誤對基準穩定性造成的影響。

雖然這些基準測試資料中存在很多錯誤標籤,但研究者發現,在移除或修正這些錯誤之後,基準中的模型相對排名並沒有受到影響。但他們也發現,這些基準結果是不穩定的:與引數較少的模型(如 ResNet-18)相比,容量較大的模型(如 NasNet)在預測結果中更加能夠反映這些系統性標籤錯誤的分佈,而且這種效應隨著測試標籤錯誤普遍性的增加而變得更加明顯。

這不是傳統的過擬合。更大的模型能夠更好地泛化至測試資料中給定的噪聲標籤,但這是有問題的,因為在標籤修正之後的測試資料上進行評估時,這些模型給出的預測結果比不上那些容量較小的模型。

在存在大量標註錯誤的現實世界資料集中,小容量模型可能比大容量模型更有用。舉個例子,從基於原始給定標籤的測試準確率來看,NasNet 似乎要優於 ResNet-18,但如果用標籤修正之後的測試集進行測試,NasNet 的準確率其實比不上 ResNet-18。由於後者在現實中更為重要,在這種情況下,我們在現實中部署的也應該是 ResNet-18,而不是 NasNet。

為了評估流行預訓練模型的基準如何變化,研究者隨機並遞增地刪除正確標記樣本,每次刪除一個,直到只剩下一組原始的被錯誤標記的測試資料(標籤得到糾正)。藉助這種方法,他們只刪除了 6% 的正確標記測試樣本就讓 ResNet-18 的表現超越了 ResNet-50。

該研究表明,如果著手糾正測試集中的標籤錯誤或在資料集噪聲較多時使用較小 / 較簡單的模型,ML 從業者可能會從中受益。當然,你首先要確定你的資料集噪聲是不是真的有那麼大,判斷方法可以在論文中找到。

參考連結:https://www。csail。mit。edu/news/major-ml-datasets-have-tens-thousands-errors

轉載請聯絡本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin。com

原標題:《ImageNet驗證集6%的標籤都是錯的,MIT:十大常用資料集沒那麼靠譜》

Top