您現在的位置是:首頁 > 垂釣
地理加權迴歸概念介紹(蝦神專輯摘要)
- 由 遊戲樂淘淘 發表于 垂釣
- 2022-02-25
蝦分哪幾種
(一)先丟擲“空間異質性”這個問題
當資料缺失時,可透過迴歸方程進行補全。
全域性迴歸
會出現各種問題,相比之下,
區域性迴歸
效果更佳。
例如:
在我們印象中大機率會認為:人口多少與財政收入往往是正相關。
拿山東省·分市區的資料(來源:山東省統計資訊網)來做個
全域性迴歸
看看
R-squared(判定係數)越接近1,迴歸模型效果越好。
0.04
:自變數只能解釋4%的因變數的變化,基本叫沒有什麼關係。。。
但如果抽取一個市的資料算一下,發現:
威海區域性迴歸,係數高達0。966 青島的可解釋性居然只有1%
結論
:
當一個數據,在A區域有很強的解釋能力(威海:人口數量→財政變化,可解釋性超過96%)
但在B區域的解釋卻非常不顯著(同居魯東的青島)
以上這種,不同區域具有不同性質的情況,就是空間分析裡無所不在的
空間異質性 。
(二)為什麼提出GWR
從概念來說,進行
global model
分析前,其實已經假定了“
同質性
”(homo·gene·ity),從而掩蓋了變數間關係的區域性特徵。
也就是說,
全域性模型
得到的結果,即研究區域內的某種“
平均
”。
例如:北京人均年薪17。7萬
這種 “地理位置變化 → 變數間關係/結構的變化” 稱為
空間·非平穩性
(spatial non·station·arity)
Attention: 空間非平穩性 ≠ 空間異質性 (前者是後者的一種
表現形式
)
引起空間非平穩性的三個
原因
:
①隨機抽樣的誤差 ②自然、人文環境等差異 ③分析模型與實際不符
傳統的
應對方法
:
①區域性迴歸分析
:將研究區域劃分為若干個同質性的區域分別進行迴歸
(問題:樣本數量不一致,導致擬合所得的估計引數不同;行政區劃本身存在各種特殊情況,導致估計與實際不符,因為在現實中交界處的變化是緩慢而連續的,而邊界劃分會產生突然的“跳變”)
改進——移動視窗迴歸:在每個樣本週邊定義一個迴歸區域,以其中的樣本資料建立迴歸方程進行引數估計(視窗大小和性質決定區域)
對比:
依然無法避免相鄰迴歸點上引數估計的跳變問題
②變引數迴歸模型
(GWR的前身)
一種趨勢擬合法,當模型引數變化複雜時,此模型就歇菜了。
於是1996
地理加權迴歸模型(GWR)
被提出
(三)具體計算公式
GWR繼續應用了
變參迴歸
和
區域性迴歸
的思想,在迴歸時使用了空間關係作為權重加入到運算中。
全域性迴歸
vs
區域性迴歸
:
區域性迴歸看起來就像縮小版的全域性迴歸
地理加權迴歸
:
最重要的就是 “距離衰減函式”
首先:劃定研究區域,通常這個區域也可以包含整個研究資料的全體區域(以此擴充套件,可以利用空間關係(比如k-臨近),進行
區域性地理加權計算
)……
接下來:利用每個要素的不同空間位置,去計算
衰減函式。
於是就可以把每個要素的
空間位置
(一般是座標資訊(x,y)) 和 要素的
值
帶入到這個函數里,得到一個
權重值
,這個值就可以帶入到迴歸方程裡了。
這個衰減函式的理論基礎:地理學第一定律(Tobler‘s First Law)
利用公式對所有的樣本點進行
逐點
的計算。
其他樣本點 根據 與計算樣本點不同的空間關係 賦予
不同的權值
,得出每個不同樣本的相關
迴歸係數
了。最後透過解讀這些個係數,完成整個地理加權迴歸分析整個分析過程。
【計算公式】
不同點→不同
值:體現空間異質性
空間權重矩陣
:
無向圖
距離矩陣
將以上矩陣帶入方程
常見的
空間權重函式
:
①高斯函式(
Gauss
)
距離可以是:歐式、曼哈頓。。。 。。。
②雙重平方函式(
Bi-Square
)
b:頻寬 / 視窗大小
THEN
如何確定頻寬?→
(五)
①交叉確認·CV
(Cross Validation)
②赤池資訊量準則·AIC
(Akaike information criterion)
(四)兩類應用最多的空間權重計算函式
空間權重矩陣 就是用
空間關係
概念化計算來的
ArcGIS中的 七類·空間關係
距離閾值
:在指定範圍內權重為1,剩下就是反距離(距離反比:距離越遠,權重越小)
:一個常數(經驗值在0~3,取0就是全域性迴歸)
存在
問題
:當d_ij=0(迴歸點和樣本點重合)時,權值
無窮大
。若剔除又會使精度降低。
因此,我們選擇一個連續單調的
遞減函式
來表示 權重w和距離d之間關係,以此來克服反距離的缺點。(下面列出兩種應用最為廣泛的方法)
①Gauss函式法
b越大,權重隨距離衰減越慢
但與直接的反距離公式不同:當頻寬為0的時候,只有迴歸點上的權值為1,其他各觀測點的權重都無限趨近0。當頻寬無窮大的時候,所有的觀察點權重都無限接近1,那麼就變成了全域性迴歸。
只要頻寬給定了,距離d為0的時候 ,權重達到最大(w =1)。而隨著距離的增加,權重w逐漸減少,當離得足夠源的時候,權重w就無限接近於0了。所以這些足夠遠的點,可以看成對迴歸點的引數估計幾乎沒有影響。
但是,如果資料非常離散,就會產生“
長尾效應
”(大量的資料躲得很遠),帶來大量的計算開銷。所以,在實際運算中,應用的是
近高斯函式
來替代高斯計算,把那些影響很小的點給
截掉
,以提高效率。
②Bi-Square函式
距離閾值法 + Gauss函式法
迴歸點在頻寬的範圍內,透過 “高斯連續單調遞減函式” 計算資料點的權重,超出的部分,權重全部記為0。
(五)兩種確定頻寬的方法
①“交叉驗證法”
(Cross Validation)
進行迴歸引數估計時,不包含迴歸點本身。
將不同頻寬對應的CV繪製成
趨勢線
:
最小CV值 → “最佳頻寬”
通俗地說:把資料分成N組,用其中一部分用來
計算
,另外一部分資料就用來
驗證
;之後用另一部分進行計算,使用前一部分進行驗證。
應用舉例:驗證哪種戰術效果最好。
具體方法:把所有隊員分成若干組,然後用不同的戰術相互進行PK。不斷重新隨機分組再來一次,最後統計不同戰術的勝率。
②“最小資訊準則”
(Akaike information criterion)
AIC = (2倍(模型的獨立引數個數)- 兩倍 ln(模型的極大似然函式))/ 觀測值個數
首先假設:誤差的出現服從獨立正態分佈。所以採用
極大似然函式
就有意義了。
(極大似然函式:簡單的說,假設有
N種
結果,如果我們僅作
一
次實驗,出現哪個結果,就認為哪個結果機率最大。)
當我們有一堆可供選擇的模型引數的時,選
AIC最小
的。
(AIC的大小取決於 “獨立引數的個數” 和 “模型的極大似然函式兩個值”。引數值
少(模型簡潔)
,AIC
小
;極大似然函式
大(模型精確)
,AIC
小。
)
當兩個模型之間存在較大差異的時候,這個差異肯定首先出現在模型的極大似然函式上;而這個函式沒有出現顯著的差異的時候,模型的獨立引數個數才起作用了,從而,引數個數越少的模型,表現得
越好
。也就是這個原因,這個準則才被稱為:
最小資訊準則
。(鼓勵資料擬合的優良性,透過控制
自由引數
的多少
避免
出現
過度擬合
。)