您現在的位置是:首頁 > 籃球

使用自我監督改進語音表示和個性化模型

  • 由 雨夜的書棧 發表于 籃球
  • 2021-11-25
簡介基準測試結果我們將 TRILL 的效能與其他不專注於語音識別並在類似的不同資料集上進行訓練的深度學習表示進行了比較

副語言包括什麼

語音處理中的許多工透過擁有大量資料更容易解決。例如自動語音識別(ASR) 將語音翻譯成文字。相比之下,“非語義”任務側重於人類語音的意義以外的方面,包括“副語言”任務,如語音情感識別,以及其他型別的任務,如說話人識別、語言識別和某些各種基於語音的醫療診斷。在完成這些任務的訓練系統中,一種常見的方法是利用盡可能大的資料集來幫助確保獲得良好的結果。然而,直接依賴海量資料集的機器學習技術在小資料集上訓練時往往不太成功。

彌合大資料集和小資料集之間效能差距的一種方法是在大資料集上訓練表示模型,然後將其轉移到資料較少的設定中。表示可以透過兩種方式提高效能:它們可以透過將高維資料(如影象和音訊)轉換為較低維度來訓練小模型,並且表示模型也可以用作預訓練。此外,如果表示模型足夠小,可以在裝置上執行或訓練,它可以透過為使用者提供個性化模型的好處來以保護隱私的方式提高效能,原始資料永遠不會離開他們的裝置。而表示學習通常用於文字域(例如BERT和ALBERT)和影象域(例如Inception 層和SimCLR),這些方法在語音領域沒有得到充分利用。

使用自我監督改進語音表示和個性化模型

如果沒有標準的基準來比較“語音表示的有用性”,就很難明確改進通用表示,特別是對於非語義語音任務。雖然T5框架系統地評估文字嵌入,並且視覺任務適應基準(VTAB) 標準化影象嵌入評估,兩者都導致了這些領域的表徵學習的進步,但對於非語義語音嵌入沒有這樣的基準。

在“學習語音的通用非語義表示“,我們為語音相關應用的表徵學習做出了三個貢獻。首先,我們提出了一個用於比較語音表徵的非語義語音 (NOSS) 基準,其中包括不同的資料集和基準任務,例如語音情感識別、語言識別、和說話人識別。這些資料集可在TensorFlow 資料集的“音訊”部分找到。其次,我們建立並開源了TRIpLet 損失網路(TRILL),這是一個小到可以在裝置上執行和微調的新模型,同時仍然優於其他表示。第三,我們進行了大規模研究比較不同的表示,並開原始碼用於計算新表示的效能。

語音嵌入的新基準

對於有效指導模型開發的基準,它必須包含應該具有相似解決方案的任務並排除那些明顯不同的任務。以前的工作要麼獨立處理各種可能的基於語音的任務,要麼將語義和非語義任務集中在一起。我們的工作提高了非語義語音任務的效能,部分原因是專注於在語音任務的這個子集上表現良好的神經網路架構。

這些任務被選為 NOSS 基準測試的基礎是 1) 多樣性——它們需要涵蓋一系列用例;2) 複雜性——它們應該具有挑戰性;3) 可用性,特別強調那些開源的任務。我們結合了六個不同大小和任務的資料集。

使用自我監督改進語音表示和個性化模型

我們還引入了三個額外的演講者內部任務來測試個性化場景中的效能。在一些有k 個說話者的資料集中,我們可以建立k 個不同的任務,包括對單個說話者的訓練和測試。整體效能按揚聲器進行平均。這三個額外的內部揚聲器任務測量嵌入適應特定揚聲器的能力,這對於個性化的裝置上模型來說是必要的,隨著計算轉移到智慧手機和物聯網,這變得越來越重要。

為了幫助研究人員比較語音嵌入,我們將基準測試中的六個資料集新增到 TensorFlow 資料集(在“音訊”部分)和開源評估框架。

TRILL:非語義語音分類

的最新技術從一個數據集中學習嵌入並將其應用於其他任務在語音中並不像在其他模態中那麼常見。然而,遷移學習是一種使用來自一項任務的資料來幫助另一項任務(不一定使用嵌入)的更通用的技術,它具有一些引人注目的應用,例如個性化語音識別器和從少數樣本進行語音模仿文字到語音。之前已經提出了許多語音表示,但其中大多數已經在更小且多樣化的資料上進行了訓練,主要在語音識別上進行了測試,或者兩者兼而有之。

為了建立跨環境和任務有用的資料衍生語音表示,我們從AudioSet開始,這是一個包含大約 2500 小時語音的大型多樣資料集。然後,我們在一個簡單的、自監督的標準上訓練了一個嵌入模型,這個標準源自之前 關於度量學習的工作——來自相同音訊的嵌入在嵌入空間中應該比來自不同音訊的嵌入更接近。像BERT和其他文字嵌入一樣,自監督損失函式不需要標籤,只依賴於資料本身的結構。這種自我監督形式最適合非語義語音,因為非語義現象在時間上比 ASR 和其他亞秒語音特徵更穩定。這個簡單的自我監督標準捕獲了大量在下游任務中利用的聲學特性。

使用自我監督改進語音表示和個性化模型

TRILL 架構基於MobileNet,使其速度足以在移動裝置上執行。為了在這個小型架構上實現高精度,我們從更大的ResNet50模型中提取了嵌入,而不會降低效能。

基準測試結果

我們將 TRILL 的效能與其他不專注於語音識別並在類似的不同資料集上進行訓練的深度學習表示進行了比較。此外,我們將 TRILL 與流行的OpenSMILE特徵提取器進行了比較,後者使用預深度學習技術(例如,傅立葉變換係數、使用音高測量的時間序列的“音高跟蹤”等)和隨機初始化的網路,已被證明是強大的基線。 為了彙總具有不同效能特徵的任務的效能,我們首先針對給定的任務和嵌入訓練少量簡單模型。選擇最好的結果。然後,為了理解特定嵌入對所有任務的影響,我們對觀察到的準確度計算線性迴歸,並將模型和任務作為解釋變數。模型對準確度的影響是與迴歸中模型相關的係數。對於給定的任務,當從一個模型更改為另一個模型時,準確率的變化預期是下圖中y值的差異。

使用自我監督改進語音表示和個性化模型

TRILL 優於我們研究中的其他表示。促成 TRILL 成功的因素是訓練資料集的多樣性、網路的大上下文視窗,以及 TRILL 訓練損失的普遍性,它廣泛地保留了聲學特性,而不是過早地關注某些方面。請注意,來自中間網路層的表示通常更有用。中間表示更大,具有更精細的時間粒度,並且在分類網路的情況下,它們保留了更多一般資訊,這些資訊並不特定於它們所訓練的類。

通用模型的另一個好處是它可以用於在新任務上初始化模型。當新任務的樣本量較小時,與從頭開始訓練模型相比,對現有模型進行微調可能會產生更好的結果。儘管沒有進行特定於資料集的超引數調整,但我們使用這種技術在六分之三的基準測試任務中取得了新的最先進的結果。

為了比較我們的新表示,我們還在Interspeech 2020 Computational Paralinguistics Challenge (CompParE)的掩碼子挑戰中對其進行了測試。在這個挑戰中,模型必須預測說話者是否戴著面具,這會影響他們的講話。遮罩效果有時很微妙,音訊剪輯只有一秒鐘長。TRILL 上的線性模型表現優於最佳模型基線模型,它融合了許多不同型別特徵的模型,包括傳統的光譜和深度學習特徵。

總結

評估 NOSS 的程式碼在GitHub上可用,資料集在TensorFlow Datasets 上,TRILL 模型在AI Hub上可用。

非語義語音基準測試可幫助研究人員建立在廣泛的上下文中有用的語音嵌入,包括個性化和小資料集問題。我們向研究界提供 TRILL 模型作為要超越的基線嵌入。

使用自我監督改進語音表示和個性化模型

Top