站性是統計分析和機器學習中的基本概念,尤其是在處理時間序列數據時。簡單來說,一個時間序列若其統計屬性,例如均值和變異數,隨著時間保持常數,則該時間序列稱為站性。這種站性至關重要,因為許多統計模型假設生成數據的基礎過程不隨時間改變,這簡化了分析和預測。

在現實世界的應用中,例如金融,時間序列數據經常會呈現出趨勢和波動性,使它們非站性。因此,檢測並轉換非站性數據為站性數據是時間序列分析的關鍵步驟。增廣迪基—富勒(ADF)檢定是實現此目的的一項強大工具。

什麼是增廣迪基—富勒(ADF)檢定?

ADF檢定是一種統計檢定,用來確定給定的時間序列是站性還是非站性。特別地,它檢測數據中是否存在單根,這是非站性的指標。單根意味著時間序列有一個隨機趨勢,這意味著它的統計屬性會隨著時間改變。

ADF檢定中的假設檢定

ADF檢定使用假設檢定來對時間序列的站性進行推論。以下是這些假設的闡述:

  • 零假設 (H0):時間序列有單根,意即它為非站性。
  • 對立假設 (H1):時間序列沒有單根,意即它為站性。

為了拒絕零假設,並得出時間序列是站性的結論,從ADF檢定中獲得的 p 值必須小於所選的顯著性水平(通常為 5%)。

執行ADF檢定

以下是使用 statsmodels庫在Python中執行ADF檢定的方法:

import pandas as pd
from statsmodels.tsa.stattools import adfuller

# 示例時間序列數據
data = pd.Series([your_time_series_data])

# 執行ADF檢定
result = adfuller(data)

# 提取並顯示結果
adf_statistic = result[0]
p_value = result[1]
used_lag = result[2]
n_obs = result[3]
critical_values = result[4]

print(f'ADF Statistic: {adf_statistic}')
print(f'p-value: {p_value}')
print(f'Used Lag: {used_lag}')
print(f'Number of Observations: {n_obs}')
print('Critical Values:')
for key, value in critical_values.items():
    print(f'   {key}: {value}')

解讀結果

  • ADF 統計量:一個負值,其中更負的值表示對零假設的證據更強。
  • p 值: 若 p 值低於顯著性水平(例如,0.05),則您拒絕零假設,認定時間序列為站性。
  • 臨界值:這些值幫助確定不同信任等級(1%,5%,10%)的閾值,用來與 ADF 統計量進行比較。

範例和結論

考慮一個金融時間序列數據,像是每日股價。應用 ADF 檢定可能會得出 p 值大於0.05,表明非站性。在此情況下,可能需要進行數據轉換建如差分或去趨勢以達到站性,然後再應用進一步的統計模型。

總結來說,ADF 檢定是檢測時間序列站性的重要工具。通過了解並應用此檢定,分析師能更好地為建模做好數據準備,從而確保他們結果的有效性和可靠性。