您現在的位置是:首頁 > 籃球
資料探勘中模型填補的方法
- 由 資料分析師許卉 發表于 籃球
- 2021-08-04
缺失值填充的幾種方法
填補方法與樣本量相關
通常,資料探勘領域 建模時 資料樣本的
填補方法
與
樣本量的大小
息息相關,一般,如果
變數間取值關聯程度較強
,則
模型填補
的方式似乎更為常見:
樣本量適中
的情況下,我會使用如下兩種方式進行缺失值的填補
一種方法是利用
proc stdize過程步
,這種方法只能利用基本的描述統計的方法進行填補,例如使用
均值、中位數
等方式,此外,這種方式也能夠同時進行樣本的
標準化
。工作中,這個過程步的
使用頻率很高;
另一種方法是利用
proc mi過程步
,這種方法為透過
模型
進行缺失值的填補。
樣本量較大
的情況下,我會使用如下兩種方式進行缺失值的填補
一種方法是利用
proc dmzip過程步
,大量樣本的資料探勘領域通常
很少使用均值
、而是使用
中位數
進行填補,這種方式便提供了中位數填補的方法,尤其是
資料間相關性較弱
時,
中位數填補
的使用頻率會更
高;
另一種方法是利用
決策樹模型
進行填補,這種方法的優點是執行模型的過程中便可以處理掉缺失值。
建模樣本缺失型別
資料探勘領域,由於
收集困難、客觀缺失
等多種原因導致樣本存在大量缺失值是非常正常的,如下為樣本缺失的幾種型別,通常,
最後三種缺失
情況最常見,只需依據
Y的型別
變通的選擇對應的填補方法即可:
缺失值填補的程式碼實現
以上述第5種缺失情形為例,即待填補變數的型別
Y為連續變數
時,通常我會用
FCS迴歸
的方式去實現缺失值的填補,SAS程式碼如下:
這裡利用了proc mi過程步、即模型的方法進行了缺失值的填補,方法依託於
多重插補
作為理論基礎去
解決填補過程中的隨機偏差
,其中:
nimpute
引數我理解為填補次數,資料探勘中通常令其等於1即可,
不用糾結
填補的穩定性;
nbiter=10
表示迭代了10次,市場分析中迭代次數為5次即可,資料探勘領域通常不會超過迭代次數為10次,
市場分析與資料探勘這兩種場景的資料不會過於複雜
;
var1--var5
這種寫法表示在這兩個變數間進行掃描,遇到存在缺失值的變數即進行填補,當然,如果樣本變數過
多
的情況,這樣逐一掃描會
降低效率
,故
我更習慣於自己先挑選出部分關鍵的變數寫在這裡
。