您現在的位置是:首頁 > 武術

一文釐清統計機器學習中模型、策略、演算法的區別和聯絡

  • 由 幻風的AI之路 發表于 武術
  • 2022-04-15
簡介梯度下降演算法總結統計機器學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型、最後需要考慮用什麼樣的計算方法求解最優模型,所以我們可以認為統計機器學習都是由模型、策略和演算法構成的

模型與演算法到底是什麼關係

統計機器學習是關於計算機基於資料構建機率統計模型並運用模型對資料進行預測與分析的一門學科。統計機器學習透過對已知資料構建模型,從而完成對未知的資料進行預測和分析,預測和分析這種行為可以使得計算機看起來很智慧,這就是人工智慧的一種體現。統計機器學習的總目標就是考慮學什麼樣的模型和如何學習模型,以使得模型能夠對未知資料進行準確的預測和分析。統計機器學習方法的三要素就是:模型、策略和演算法。

一文釐清統計機器學習中模型、策略、演算法的區別和聯絡

機器學習+統計=資料科學

模型

統計學習首要考慮的問題是學習什麼樣的模型。在監督學習過程中,模型就是所要學習的條件機率分佈或決策函式。

資料構成假設空間,在這個假設空間中包含所有可能的條件機率分佈或者決策函式,每一個條件機率分佈或者決策函式對應一個模型,那麼這個樣本空間中的模型個數有無數個。

怎樣理解模型呢?簡單來說就是使用什麼對映函式來表示特徵X和Y標籤之間的關係F,F有兩種形式:F={f|y=f(x)}或者F={P|P(Y|X)}

F={f|y=f(x)}為決策函式,它表示的模型為非機率模型。F={P|P(Y|X)}是條件機率表示,它的模型為機率模型。

一文釐清統計機器學習中模型、策略、演算法的區別和聯絡

模型

策略

策略即從假設空間中挑選出引數最優的模型的準則。模型的分類或預測結果與實際情況的誤差(損失函式)越小,模型就越好。

我們前面已經知道在樣本空間中有無數的模型,但模型有好有壞,現在的問題考慮的是按照什麼樣的準則學習或者選擇最優模型,而策略就是透過引入損失函式的方式來度量模型的好壞。

設定損失函式,這樣監督學習問題就變成了最小化損失函式,那麼按照這樣的策略,就可以求解出最最佳化的模型了。

一文釐清統計機器學習中模型、策略、演算法的區別和聯絡

風險損失

演算法

演算法是指學習模型的具體計算方法,也就是如何求解全域性最優解,並使得這個過程高效而且準確,本質上就是計算機演算法,怎麼去求數學問題的最最佳化解。

前面我們知道了模型有無數種,獲取最好模型的方法就是最小化損失函式,那麼此時的模型就是最好的,現在的問題就是如何才能獲取到這個最最佳化的解呢?是正規方程還是梯度下降等等。

一文釐清統計機器學習中模型、策略、演算法的區別和聯絡

梯度下降演算法

總結

統計機器學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型、最後需要考慮用什麼樣的計算方法求解最優模型,所以我們可以認為統計機器學習都是由模型、策略和演算法構成的。統計學習方法之間的不同,主要來自其模型、策略、演算法的不同。確定了模型、策略、演算法,統計學習的方法也就確定了。

Top