您現在的位置是:首頁 > 垂釣

地理加權迴歸概念介紹(蝦神專輯摘要)

  • 由 遊戲樂淘淘 發表于 垂釣
  • 2022-02-25
簡介→(五)①交叉確認·CV(Cross Validation)②赤池資訊量準則·AIC(Akaike information criterion)(四)兩類應用最多的空間權重計算函式空間權重矩陣 就是用空間關係 概念化計算來的ArcGIS中的

蝦分哪幾種

(一)先丟擲“空間異質性”這個問題

當資料缺失時,可透過迴歸方程進行補全。

全域性迴歸

會出現各種問題,相比之下,

區域性迴歸

效果更佳。

例如:

在我們印象中大機率會認為:人口多少與財政收入往往是正相關。

拿山東省·分市區的資料(來源:山東省統計資訊網)來做個

全域性迴歸

看看

R-squared(判定係數)越接近1,迴歸模型效果越好。

0.04

:自變數只能解釋4%的因變數的變化,基本叫沒有什麼關係。。。

但如果抽取一個市的資料算一下,發現:

威海區域性迴歸,係數高達0。966 青島的可解釋性居然只有1%

結論

當一個數據,在A區域有很強的解釋能力(威海:人口數量→財政變化,可解釋性超過96%)

但在B區域的解釋卻非常不顯著(同居魯東的青島)

以上這種,不同區域具有不同性質的情況,就是空間分析裡無所不在的

空間異質性 。

(二)為什麼提出GWR

從概念來說,進行

global model

分析前,其實已經假定了“

同質性

”(homo·gene·ity),從而掩蓋了變數間關係的區域性特徵。

也就是說,

全域性模型

得到的結果,即研究區域內的某種“

平均

”。

例如:北京人均年薪17。7萬

這種 “地理位置變化 → 變數間關係/結構的變化” 稱為

空間·非平穩性

(spatial non·station·arity)

Attention: 空間非平穩性 ≠ 空間異質性 (前者是後者的一種

表現形式

引起空間非平穩性的三個

原因

①隨機抽樣的誤差  ②自然、人文環境等差異  ③分析模型與實際不符

傳統的

應對方法

①區域性迴歸分析

:將研究區域劃分為若干個同質性的區域分別進行迴歸

(問題:樣本數量不一致,導致擬合所得的估計引數不同;行政區劃本身存在各種特殊情況,導致估計與實際不符,因為在現實中交界處的變化是緩慢而連續的,而邊界劃分會產生突然的“跳變”)

改進——移動視窗迴歸:在每個樣本週邊定義一個迴歸區域,以其中的樣本資料建立迴歸方程進行引數估計(視窗大小和性質決定區域)

對比:

依然無法避免相鄰迴歸點上引數估計的跳變問題

②變引數迴歸模型

(GWR的前身)

一種趨勢擬合法,當模型引數變化複雜時,此模型就歇菜了。

於是1996

地理加權迴歸模型(GWR)

被提出

(三)具體計算公式

GWR繼續應用了

變參迴歸 

區域性迴歸

的思想,在迴歸時使用了空間關係作為權重加入到運算中。

全域性迴歸

vs

區域性迴歸

區域性迴歸看起來就像縮小版的全域性迴歸

地理加權迴歸

最重要的就是 “距離衰減函式”

首先:劃定研究區域,通常這個區域也可以包含整個研究資料的全體區域(以此擴充套件,可以利用空間關係(比如k-臨近),進行

區域性地理加權計算

)……

接下來:利用每個要素的不同空間位置,去計算

衰減函式。

於是就可以把每個要素的

空間位置

(一般是座標資訊(x,y)) 和 要素的

帶入到這個函數里,得到一個

權重值

,這個值就可以帶入到迴歸方程裡了。

這個衰減函式的理論基礎:地理學第一定律(Tobler‘s First Law)

利用公式對所有的樣本點進行

逐點

的計算。

其他樣本點 根據 與計算樣本點不同的空間關係 賦予

不同的權值

,得出每個不同樣本的相關

迴歸係數

了。最後透過解讀這些個係數,完成整個地理加權迴歸分析整個分析過程。

【計算公式】

不同點→不同

值:體現空間異質性

空間權重矩陣

無向圖

距離矩陣

將以上矩陣帶入方程

常見的

空間權重函式

①高斯函式(

Gauss

距離可以是:歐式、曼哈頓。。。 。。。

②雙重平方函式(

Bi-Square

b:頻寬 / 視窗大小

THEN

如何確定頻寬?→

(五)

①交叉確認·CV

(Cross Validation)

②赤池資訊量準則·AIC

(Akaike information criterion)

(四)兩類應用最多的空間權重計算函式

空間權重矩陣 就是用

空間關係 

概念化計算來的

ArcGIS中的 七類·空間關係

距離閾值

:在指定範圍內權重為1,剩下就是反距離(距離反比:距離越遠,權重越小)

:一個常數(經驗值在0~3,取0就是全域性迴歸)

存在

問題

:當d_ij=0(迴歸點和樣本點重合)時,權值

無窮大

。若剔除又會使精度降低。

因此,我們選擇一個連續單調的

遞減函式

來表示 權重w和距離d之間關係,以此來克服反距離的缺點。(下面列出兩種應用最為廣泛的方法)

①Gauss函式法

b越大,權重隨距離衰減越慢

但與直接的反距離公式不同:當頻寬為0的時候,只有迴歸點上的權值為1,其他各觀測點的權重都無限趨近0。當頻寬無窮大的時候,所有的觀察點權重都無限接近1,那麼就變成了全域性迴歸。

只要頻寬給定了,距離d為0的時候 ,權重達到最大(w =1)。而隨著距離的增加,權重w逐漸減少,當離得足夠源的時候,權重w就無限接近於0了。所以這些足夠遠的點,可以看成對迴歸點的引數估計幾乎沒有影響。

但是,如果資料非常離散,就會產生“

長尾效應

”(大量的資料躲得很遠),帶來大量的計算開銷。所以,在實際運算中,應用的是

近高斯函式

來替代高斯計算,把那些影響很小的點給

截掉

,以提高效率。

②Bi-Square函式

距離閾值法 + Gauss函式法

迴歸點在頻寬的範圍內,透過 “高斯連續單調遞減函式” 計算資料點的權重,超出的部分,權重全部記為0。

(五)兩種確定頻寬的方法

①“交叉驗證法”

(Cross Validation)

進行迴歸引數估計時,不包含迴歸點本身。

將不同頻寬對應的CV繪製成

趨勢線

最小CV值 → “最佳頻寬”

通俗地說:把資料分成N組,用其中一部分用來

計算

,另外一部分資料就用來

驗證

;之後用另一部分進行計算,使用前一部分進行驗證。

應用舉例:驗證哪種戰術效果最好。

具體方法:把所有隊員分成若干組,然後用不同的戰術相互進行PK。不斷重新隨機分組再來一次,最後統計不同戰術的勝率。

②“最小資訊準則”

(Akaike information criterion)

AIC = (2倍(模型的獨立引數個數)- 兩倍 ln(模型的極大似然函式))/ 觀測值個數

首先假設:誤差的出現服從獨立正態分佈。所以採用

極大似然函式

就有意義了。

(極大似然函式:簡單的說,假設有

N種

結果,如果我們僅作

次實驗,出現哪個結果,就認為哪個結果機率最大。)

當我們有一堆可供選擇的模型引數的時,選

AIC最小

的。

(AIC的大小取決於 “獨立引數的個數” 和 “模型的極大似然函式兩個值”。引數值

少(模型簡潔)

,AIC

;極大似然函式

大(模型精確)

,AIC

小。

當兩個模型之間存在較大差異的時候,這個差異肯定首先出現在模型的極大似然函式上;而這個函式沒有出現顯著的差異的時候,模型的獨立引數個數才起作用了,從而,引數個數越少的模型,表現得

越好

。也就是這個原因,這個準則才被稱為:

最小資訊準則

。(鼓勵資料擬合的優良性,透過控制

自由引數

的多少

避免

出現

過度擬合

。)

Top