您現在的位置是:首頁 > 綜合
你需要了解的關於時間序列的一些內容
- 由 AI公園 發表于 綜合
- 2021-12-20
時間順序什麼意思
作者:Marco Peixeiro
編譯:ronghuaiyang
導讀
理解滑動平均,指數平滑,平穩性,自相關性以及SARIMA等等。
無論我們希望預測金融市場的趨勢還是電力消耗,時間都是我們模型中必須考慮的一個重要因素。例如,不僅要知道股票是不是會上漲,還要知道股票什麼時候會上漲。
時間序列就是按時間順序排列的一系列資料點。在時間序列中,時間通常是自變數,目標通常是對未來進行的預測。
然而,在處理時間序列時,其他方面也會發揮作用。
是
平穩
的嗎?
有
季節性
嗎?
目標變數
是否自相關
?
在這篇文章中,我將介紹時間序列的不同特徵,以及我們如何對它們建模以獲得(儘可能)準確的預測。
自相關
非正式地說,
自相關
是它們與它們的時間延遲構成的函式之間的相似性。
自相關圖的例子
上面是一個自相關圖的例子。仔細觀察,你會發現第一個值和第24個值具有高度的自相關性。同樣的,第12次和第36次觀測高度相關。這意味著我們將在每24個單位時間內找到一個非常相似的值。
注意,這個圖看起來像正弦函式。這是一個關於
季節性的提示
,你可以透過找到上面圖中的週期找到它的值,是24h。
季節性
季節性
是指週期性波動。例如,白天用電量高,晚上用電量低,聖誕節期間網上銷售增長然後又變慢。
季節性的例子
正如你在上面看到的,有一個明確的日常季節性。每天傍晚,你都會看到一個高峰,最低點是每天的開始和結束。
記住,季節性也可以從自相關圖中推匯出來m如果它是正弦形狀的。簡單地看一下週期,它給出了季節的長度。
平穩性
平穩性
是時間序列的一個重要特徵。如果一個時間序列的統計性質不隨時間變化,那麼它就是平穩的。換句話說,它有恆定的均值和方差,協方差與時間無關。
平穩性的例子
再看一下同樣的圖,我們看到上面的過程是平穩的。均值和方差不隨時間變化。
通常,股票價格不是一個平穩的過程,因為我們可能會看到一個增長的趨勢,或者它的波動性可能會隨著時間的推移而增加(這意味著方差在變化)。
理想情況下,我們希望有一個平穩時間序列進行建模。當然,不是所有的都是平穩的,但是我們可以做不同的變換使它們平穩。
如何測試一個過程是不是平穩的
你可能已經注意到了上面的圖上的標題了,
Dickey-Fuller。
這是我們用來確定時間序列是否平穩的統計測試。
不涉及Dickey-Fuller檢驗的技術細節,它檢驗的是單位根存在的零假設。
如果存在,那麼
p >
0,這個過程不是平穩的。
否則,
p =
0,拒絕原假設,認為過程是平穩的。
例如,下面的過程不是平穩的。注意均值是如何隨時間變化的。
非平穩過程的例子
時間序列建模
為了做出預測,有很多方法可以對時間序列進行建模。在這裡,我將介紹:
移動平均
指數平滑法
ARIMA
移動平均
移動平均模型可能是時間序列建模中最樸素的方法。這個模型簡單地說,下一個觀測值是所有過去觀測值的平均值。
雖然很簡單,但這個模型可能非常好,它代表了一個良好的起點。
另外,移動平均可以用來識別資料中有趣的趨勢。我們可以定義一個視窗來應用到移動平均模型上,來對時間序列進行平滑,並突出不同的趨勢。
在一個24h的時間視窗上的移動平均的例子
在上圖中,我們將移動平均模型應用於一個24小時的視窗。綠線為平滑之後的時間序列,我們可以看到在24小時內有2個峰值。
當然,視窗越長,趨勢就會越平穩。下面是一個較小視窗上的移動平均的例子。
在一個12h的時間視窗上的移動平均的例子指數平滑
指數平滑法使用了與移動平均相似的邏輯,但是這一次,每個觀測值都被賦予了不同的“遞減權值”。換句話說,隨著我們離現在越來越遠,觀察的重要性也越來越小。
數學上,指數平滑表示為:
指數平滑表示式
在這裡,α是一個平滑因子,取值範圍在0到1之間。它決定了在之前的觀測中權重下降的速度。
指數平滑的例子
由上圖可知,深藍線表示時間序列的指數平滑,平滑因子為0。3,橙色線表示平滑因子為0。05。
如你所見,平滑因子越小,時間序列就越平滑。這是有意義的,因為當平滑因子趨於0時,我們接近移動平均模型。
雙指數平滑
當時間序列中存在趨勢時,採用雙指數平滑法。在這種情況下,我們使用這種技術,它只是遞迴地使用了兩次指數平滑。
數學式子:
雙指數平滑的表示式
這裡,
β
是
趨勢平滑因子
,取值範圍在0到1之間。
下面,你可以看到α和β的不同值如何影響時間序列的形狀。
雙指數平滑的例子
三次指數平滑
該方法擴充套件了雙指數平滑,增加了季節平滑因子。當然,如果你注意到時間序列中的季節性,這是很有用的。
數學上,三指數平滑表示為:
三次指數平滑的表示式
式中γ為季節平滑因子,
L
為季節長度。
季節自迴歸積分移動平均模型(SARIMA)
SARIMA實際上是由簡單模型組合而成的複雜模型,可以對具有非平穩特性和季節性的時間序列進行建模。
首先,我們得到
自迴歸模型AR(p)
。這基本上是對時間序列的迴歸。在這裡,我們假設當前值依賴於它的前一個值,但有一定的延遲。它使用一個引數
p
表示最大延遲。為了找到它,我們檢視區域性自相關圖,並確定大多數滯後不顯著的滯後。
在下面的例子中,
p
等於4。
區域性自相關圖的例子
然後,我們加入
移動平均模型MA(q)
。這個引數
q
表示自相關圖中其他滯後不顯著的最大滯後。
下面,
q
等於4。
自相關圖的例子
然後,我們新增
積分階I(d)
。引數
d
表示使級數平穩所需的差分數。
最後,我們新增最後一個元件:
季節性S(P, D, Q, S)
,其中
S
只是季節的長度。此外,這個元件需要引數
P
和
Q
,它們與
p
和
q
相同,但是對於季節性元件。最後,
D
是季節整合的順序,表示從序列中移除季節性所需的差異數量。
結合所有這些,我們得到
SARIMA(p, d, q)(P, D, Q, s)
模型。
由此得出的主要結論是,在使用SARIMA建模之前,我們必須對時間序列應用轉換,以消除季節性和任何非平穩行為。
英文原文:https://towardsdatascience。com/almost-everything-you-need-to-know-about-time-series-860241bdc578
更多文章,請關注微信公眾號:AI公園