您現在的位置是：首頁 > 籃球

資料探勘中模型填補的方法

由資料分析師許卉發表于籃球
2021-08-04

簡介建模樣本缺失型別資料探勘領域，由於收集困難、客觀缺失等多種原因導致樣本存在大量缺失值是非常正常的，如下為樣本缺失的幾種型別，通常，最後三種缺失情況最常見，只需依據Y的型別變通的選擇對應的填補方法即可：缺失值填補的程式碼實現以上述第5種缺失情

缺失值填充的幾種方法

填補方法與樣本量相關

通常，資料探勘領域建模時資料樣本的

填補方法

與

樣本量的大小

息息相關，一般，如果

變數間取值關聯程度較強

，則

模型填補

的方式似乎更為常見：

樣本量適中

的情況下，我會使用如下兩種方式進行缺失值的填補

一種方法是利用

proc stdize過程步

，這種方法只能利用基本的描述統計的方法進行填補，例如使用

均值、中位數

等方式，此外，這種方式也能夠同時進行樣本的

標準化

。工作中，這個過程步的

使用頻率很高；

另一種方法是利用

proc mi過程步

，這種方法為透過

模型

進行缺失值的填補。

樣本量較大

的情況下，我會使用如下兩種方式進行缺失值的填補

一種方法是利用

proc dmzip過程步

，大量樣本的資料探勘領域通常

很少使用均值

、而是使用

中位數

進行填補，這種方式便提供了中位數填補的方法，尤其是

資料間相關性較弱

時，

中位數填補

的使用頻率會更

高；

另一種方法是利用

決策樹模型

進行填補，這種方法的優點是執行模型的過程中便可以處理掉缺失值。

建模樣本缺失型別

資料探勘領域，由於

收集困難、客觀缺失

等多種原因導致樣本存在大量缺失值是非常正常的，如下為樣本缺失的幾種型別，通常，

最後三種缺失

情況最常見，只需依據

Y的型別

變通的選擇對應的填補方法即可：

缺失值填補的程式碼實現

以上述第5種缺失情形為例，即待填補變數的型別

Y為連續變數

時，通常我會用

FCS迴歸

的方式去實現缺失值的填補，SAS程式碼如下：

這裡利用了proc mi過程步、即模型的方法進行了缺失值的填補，方法依託於

多重插補

作為理論基礎去

解決填補過程中的隨機偏差

，其中：

nimpute

引數我理解為填補次數，資料探勘中通常令其等於1即可，

不用糾結

填補的穩定性；

nbiter=10

表示迭代了10次，市場分析中迭代次數為5次即可，資料探勘領域通常不會超過迭代次數為10次，

市場分析與資料探勘這兩種場景的資料不會過於複雜

；

var1--var5

這種寫法表示在這兩個變數間進行掃描，遇到存在缺失值的變數即進行填補，當然，如果樣本變數過

多

的情況，這樣逐一掃描會

降低效率

，故

我更習慣於自己先挑選出部分關鍵的變數寫在這裡

。

上一篇：公認的“醜女”，臉上都有這4個特徵，佔一個就嚴重“拉低顏值”

下一篇：如何使用Automunge來填充丟失的資料

您現在的位置是：首頁 > 籃球

資料探勘中模型填補的方法

相關文章