您現在的位置是：首頁 > 垂釣

地理加權迴歸概念介紹(蝦神專輯摘要)

由遊戲樂淘淘發表于垂釣
2022-02-25

簡介→(五)①交叉確認·CV（Cross Validation）②赤池資訊量準則·AIC（Akaike information criterion）（四）兩類應用最多的空間權重計算函式空間權重矩陣就是用空間關係概念化計算來的ArcGIS中的

蝦分哪幾種

（一）先丟擲“空間異質性”這個問題

當資料缺失時，可透過迴歸方程進行補全。

全域性迴歸

會出現各種問題，相比之下，

區域性迴歸

效果更佳。

例如：

在我們印象中大機率會認為：人口多少與財政收入往往是正相關。

拿山東省·分市區的資料（來源：山東省統計資訊網）來做個

全域性迴歸

看看

R-squared（判定係數）越接近1，迴歸模型效果越好。

0.04

：自變數只能解釋4%的因變數的變化，基本叫沒有什麼關係。。。

但如果抽取一個市的資料算一下，發現：

威海區域性迴歸，係數高達0。966 青島的可解釋性居然只有1%

結論

：

當一個數據，在A區域有很強的解釋能力（威海：人口數量→財政變化，可解釋性超過96%）

但在B區域的解釋卻非常不顯著（同居魯東的青島）

以上這種，不同區域具有不同性質的情況，就是空間分析裡無所不在的

空間異質性。

(二)為什麼提出GWR

從概念來說，進行

global model

分析前，其實已經假定了“

同質性

”（homo·gene·ity），從而掩蓋了變數間關係的區域性特徵。

也就是說，

全域性模型

得到的結果，即研究區域內的某種“

平均

”。

例如：北京人均年薪17。7萬

這種 “地理位置變化 → 變數間關係/結構的變化” 稱為

空間·非平穩性

（spatial non·station·arity）

Attention：空間非平穩性 ≠ 空間異質性（前者是後者的一種

表現形式

）

引起空間非平穩性的三個

原因

：

①隨機抽樣的誤差 ②自然、人文環境等差異 ③分析模型與實際不符

傳統的

應對方法

：

①區域性迴歸分析

：將研究區域劃分為若干個同質性的區域分別進行迴歸

（問題：樣本數量不一致，導致擬合所得的估計引數不同；行政區劃本身存在各種特殊情況，導致估計與實際不符，因為在現實中交界處的變化是緩慢而連續的，而邊界劃分會產生突然的“跳變”）

改進——移動視窗迴歸：在每個樣本週邊定義一個迴歸區域，以其中的樣本資料建立迴歸方程進行引數估計（視窗大小和性質決定區域）

對比：

依然無法避免相鄰迴歸點上引數估計的跳變問題

②變引數迴歸模型

（GWR的前身）

一種趨勢擬合法，當模型引數變化複雜時，此模型就歇菜了。

於是1996

地理加權迴歸模型(GWR)

被提出

（三）具體計算公式

GWR繼續應用了

變參迴歸

和

區域性迴歸

的思想，在迴歸時使用了空間關係作為權重加入到運算中。

全域性迴歸

區域性迴歸

：

區域性迴歸看起來就像縮小版的全域性迴歸

地理加權迴歸

：

最重要的就是 “距離衰減函式”

首先：劃定研究區域，通常這個區域也可以包含整個研究資料的全體區域（以此擴充套件，可以利用空間關係（比如k-臨近），進行

區域性地理加權計算

）……

接下來：利用每個要素的不同空間位置，去計算

衰減函式。

於是就可以把每個要素的

空間位置

（一般是座標資訊（x，y））和要素的

值

帶入到這個函數里，得到一個

權重值

，這個值就可以帶入到迴歸方程裡了。

這個衰減函式的理論基礎：地理學第一定律（Tobler‘s First Law）

利用公式對所有的樣本點進行

逐點

的計算。

其他樣本點根據與計算樣本點不同的空間關係賦予

不同的權值

，得出每個不同樣本的相關

迴歸係數

了。最後透過解讀這些個係數，完成整個地理加權迴歸分析整個分析過程。

【計算公式】

不同點→不同

值：體現空間異質性

空間權重矩陣

：

無向圖

距離矩陣

將以上矩陣帶入方程

常見的

空間權重函式

：

①高斯函式（

Gauss

）

距離可以是：歐式、曼哈頓。。。。。。

②雙重平方函式（

Bi-Square

）

b：頻寬 / 視窗大小

THEN

如何確定頻寬？→

(五)

①交叉確認·CV

（Cross Validation）

②赤池資訊量準則·AIC

（Akaike information criterion）

（四）兩類應用最多的空間權重計算函式

空間權重矩陣就是用

空間關係

概念化計算來的

ArcGIS中的七類·空間關係

距離閾值

：在指定範圍內權重為1，剩下就是反距離（距離反比：距離越遠，權重越小）

：一個常數（經驗值在0~3，取0就是全域性迴歸）

存在

問題

：當d_ij=0（迴歸點和樣本點重合）時，權值

無窮大

。若剔除又會使精度降低。

因此，我們選擇一個連續單調的

遞減函式

來表示權重w和距離d之間關係，以此來克服反距離的缺點。（下面列出兩種應用最為廣泛的方法）

①Gauss函式法

b越大，權重隨距離衰減越慢

但與直接的反距離公式不同：當頻寬為0的時候，只有迴歸點上的權值為1，其他各觀測點的權重都無限趨近0。當頻寬無窮大的時候，所有的觀察點權重都無限接近1，那麼就變成了全域性迴歸。

只要頻寬給定了，距離d為0的時候，權重達到最大（w =1）。而隨著距離的增加，權重w逐漸減少，當離得足夠源的時候，權重w就無限接近於0了。所以這些足夠遠的點，可以看成對迴歸點的引數估計幾乎沒有影響。

但是，如果資料非常離散，就會產生“

長尾效應

”（大量的資料躲得很遠），帶來大量的計算開銷。所以，在實際運算中，應用的是

近高斯函式

來替代高斯計算，把那些影響很小的點給

截掉

，以提高效率。

②Bi-Square函式

距離閾值法 + Gauss函式法

迴歸點在頻寬的範圍內，透過 “高斯連續單調遞減函式” 計算資料點的權重，超出的部分，權重全部記為0。

（五）兩種確定頻寬的方法

①“交叉驗證法”

（Cross Validation）

進行迴歸引數估計時，不包含迴歸點本身。

將不同頻寬對應的CV繪製成

趨勢線

：

最小CV值 → “最佳頻寬”

通俗地說：把資料分成N組，用其中一部分用來

計算

，另外一部分資料就用來

驗證

；之後用另一部分進行計算，使用前一部分進行驗證。

應用舉例：驗證哪種戰術效果最好。

具體方法：把所有隊員分成若干組，然後用不同的戰術相互進行PK。不斷重新隨機分組再來一次，最後統計不同戰術的勝率。

②“最小資訊準則”

（Akaike information criterion）

AIC = （2倍（模型的獨立引數個數）- 兩倍 ln（模型的極大似然函式））/ 觀測值個數

首先假設：誤差的出現服從獨立正態分佈。所以採用

極大似然函式

就有意義了。

（極大似然函式：簡單的說，假設有

N種

結果，如果我們僅作

一

次實驗，出現哪個結果，就認為哪個結果機率最大。）

當我們有一堆可供選擇的模型引數的時，選

AIC最小

的。

（AIC的大小取決於 “獨立引數的個數” 和 “模型的極大似然函式兩個值”。引數值

少(模型簡潔)

，AIC

小

；極大似然函式

大(模型精確)

，AIC

小。

）

當兩個模型之間存在較大差異的時候，這個差異肯定首先出現在模型的極大似然函式上；而這個函式沒有出現顯著的差異的時候，模型的獨立引數個數才起作用了，從而，引數個數越少的模型，表現得

越好

。也就是這個原因，這個準則才被稱為：

最小資訊準則

。（鼓勵資料擬合的優良性，透過控制

自由引數

的多少

避免

出現

過度擬合

。）

上一篇：PR快到期？只要滿足這4個條件輕鬆續簽！

下一篇：突然“停經”，醫生提出了4個可能，如果你有，需要一一排查

您現在的位置是：首頁 > 垂釣

地理加權迴歸概念介紹(蝦神專輯摘要)

相關文章