您現在的位置是:首頁 > 籃球

資料探勘中模型填補的方法

  • 由 資料分析師許卉 發表于 籃球
  • 2021-08-04
簡介建模樣本缺失型別資料探勘領域,由於收集困難、客觀缺失等多種原因導致樣本存在大量缺失值是非常正常的,如下為樣本缺失的幾種型別,通常,最後三種缺失情況最常見,只需依據Y的型別變通的選擇對應的填補方法即可:缺失值填補的程式碼實現以上述第5種缺失情

缺失值填充的幾種方法

填補方法與樣本量相關

通常,資料探勘領域 建模時 資料樣本的

填補方法

樣本量的大小

息息相關,一般,如果

變數間取值關聯程度較強

,則

模型填補

的方式似乎更為常見:

樣本量適中

的情況下,我會使用如下兩種方式進行缺失值的填補

一種方法是利用

proc stdize過程步

,這種方法只能利用基本的描述統計的方法進行填補,例如使用

均值、中位數

等方式,此外,這種方式也能夠同時進行樣本的

標準化

。工作中,這個過程步的

使用頻率很高;

另一種方法是利用

proc mi過程步

,這種方法為透過

模型

進行缺失值的填補。

樣本量較大

的情況下,我會使用如下兩種方式進行缺失值的填補

一種方法是利用

proc dmzip過程步

,大量樣本的資料探勘領域通常

很少使用均值

、而是使用

中位數

進行填補,這種方式便提供了中位數填補的方法,尤其是

資料間相關性較弱

時,

中位數填補

的使用頻率會更

高;

另一種方法是利用

決策樹模型

進行填補,這種方法的優點是執行模型的過程中便可以處理掉缺失值。

資料探勘中模型填補的方法

建模樣本缺失型別

資料探勘領域,由於

收集困難、客觀缺失

等多種原因導致樣本存在大量缺失值是非常正常的,如下為樣本缺失的幾種型別,通常,

最後三種缺失

情況最常見,只需依據

Y的型別

變通的選擇對應的填補方法即可:

資料探勘中模型填補的方法

缺失值填補的程式碼實現

以上述第5種缺失情形為例,即待填補變數的型別

Y為連續變數

時,通常我會用

FCS迴歸

的方式去實現缺失值的填補,SAS程式碼如下:

資料探勘中模型填補的方法

這裡利用了proc mi過程步、即模型的方法進行了缺失值的填補,方法依託於

多重插補

作為理論基礎去

解決填補過程中的隨機偏差

,其中:

nimpute

引數我理解為填補次數,資料探勘中通常令其等於1即可,

不用糾結

填補的穩定性;

nbiter=10

表示迭代了10次,市場分析中迭代次數為5次即可,資料探勘領域通常不會超過迭代次數為10次,

市場分析與資料探勘這兩種場景的資料不會過於複雜

var1--var5

這種寫法表示在這兩個變數間進行掃描,遇到存在缺失值的變數即進行填補,當然,如果樣本變數過

的情況,這樣逐一掃描會

降低效率

,故

我更習慣於自己先挑選出部分關鍵的變數寫在這裡

資料探勘中模型填補的方法

Top