比特幣和黃金會一起移動嗎?什麼是「假關聯」

這次,我們將解釋稱為「假幣相關」的現象,標題為「比特幣和黃金一起移動?什麼是「虛假相關」?」。

如後所述,「假相關」是對兩個時間序列數據的相關分析,實際上,即使沒有相關也計算出較高的相關係數。

如果您不知道在時間序列數據分析中這種情況很容易發生,那麼您將對比特幣與另一資產之間存在關聯的消息很敏感。

當然,如果新聞是正確的,那就太好了,但是可以說,立即潛入是很危險的,因為不能否認「虛假關聯」的情況。

前幾天,彭博社和Coindesk指出一篇文章,指出「比特幣和黃金」之間的高度相關性,但是因為它是像彭博社這樣的大公司,所以不要對此感到困惑。

這是因為存在將其歸入要說明的「偽相關」的情況。

如果您閱讀本文,您將能夠提高相關性的素養,並從鳥瞰的角度看相關新聞。

首先,我將解釋什麼是時間序列數據。

什麼是時間序列數據?

首先,時間序列數據的特徵是什麼?

與我們假設的「正常」數據有何不同?

時間序列數據是隨時間推移而觀察到的數據,每個時間點只能獲得一個數據。

2014年1月3日只有一個比特幣價格(收盤價)。

此外,在2019年3月2日下午2點僅觀察到一個溫度。在垂直軸的每個時區中獲得的數據和在水平軸的每個時區中獲得的數據通常稱為您看到的K線走勢圖。

(圖1:陶氏平均股價)

另一方面,與時間序列數據相比,可以輕鬆進行統計分析的「常規」數據稱為「橫截面數據」。

該數據可以同時獲得多次。截至2018年1月,東京的家庭數量和人口以及A先生的英語,數學和日語期末考試成績。

另外,諸如面板數據的數據類型根據數據的性質被分類。

關聯分析可有效地用於許多類型的數據,但存在只能通過時間序列數據(尤其是時間序列數據)才能發現的陷阱。

當使用兩個時間序列數據(例如,比特幣價格和陶氏平均股票價格)執行相關性分析時,會出現「在最初不相關的時間序列數據之間存在相關性」的現象。它發生了。

那就是「假關聯」。

什麼是假關聯?

首先,您將看到兩個時間序列數據,它們屬於「假相關」。

下圖顯示了兩個數據,這些數據顯示出較高的相關性,相關係數為0.66。

(尼古拉斯·凱奇(Nicolas Cage)的電影露面和礦池淹水致死:引用tylervigen.com)

一個顯示了尼古拉斯·凱奇(美國演員)的電影露面次數,另一個顯示了因溺水而死的人數的時間序列數據。認為不相關的兩個數據之間的相關性高的情況被認為是「假相關性」。

在兩個數據之間計算出高達0.66的相關係數。

再看一張K線走勢圖。

(街機銷售和美國計算機科學博士學位:引自tylervigen.com)

在美國計算機科學領域內的遊戲廳(遊戲中心)總銷量和博士學位數量的數據。

相關係數高達0.9851,相關分析表明兩個時間序列數據是相關的。

趨勢中是否存在「假相關」的原因?

人們認為這是因為時間序列數據中存在趨勢。

當兩個數據由於各個因素而具有單調上漲趨勢時,即使兩個數據之間沒有相關性,這也是兩個數據以相同方式移動的現象。

如您所見,美國的街機銷售總額和博士學位持有者數量呈上漲趨勢。

儘管沒有關係,但是它以相同的方向上漲,因此數據以相同的方式移動,從而導致較高的相關值。

可能同時具有上漲趨勢的任何數據將與拱廊銷售總額具有高度相關性(例如,諸如全球變暖之類呈上漲趨勢的數據)。

例如,是否像想一對夫妻朝著同一方向走一樣?

實際上,這可能類似於以下現象:雖然彼此無關,但朝同一方向行走的兩個人雖然彼此靠近或在垂直行中依sn,但似乎彼此相關。

我敢肯定,您曾經有過被誤解的經歷,您只是想朝同一個方向走,但卻在您身後(像我一樣)。

模擬分析

實際上,我想通過實際模擬兩個不應該關聯的時間序列數據來查看「假關聯」是否發生。

這很容易,您只需要使用本質上不相關的兩個數據進行相關分析。

為了準備不相關的數據,通過計算機模擬生成隨機數。

由於隨機數是隨機值,因此它們彼此不相關。

首先,生成兩個序列(RW1和RW2)用於隨機遊走。

隨機遊走是採用隨機生成的值的上漲和的數據。簡而言之,它是一組通過將過去生成的隨機數添加到當前隨機數而創建的一組數據。

我們為隨機遊走準備了兩個數據。

(圖2:兩個隨機遊走的時間序列)

由於這兩個數據是隨機行走的,因此數據之間應該沒有相關性。

然而,當實際計算相關時,釋放了足夠高的相關係數0.7443666。

p值也很低,為2.2e-16,這意味著即使在1%的顯著性水平下,p值也是可靠的。

相關係數:0.7443666
p值<2.2e-16

這是什麼意思?如上所述,可以說兩個數據中的每一個都呈上漲趨勢。換句話說,有一個強烈的上漲趨勢(由於添加了隨機值,該趨勢是可能的)。

換句話說,具有趨勢的時間序列數據可能具有如此高的相關性,即使該序列完全不相關(當然也並非總是如此)。

沒關係,但是兩者都向上看並且似乎相關。

我試圖提取並可視化趨勢成分,以查看兩個隨機行走系列之間存在哪種趨勢。

如您所見,兩個數據都有上漲趨勢。

另外,作為試驗,我將相關係數與圖2中的第二個隨機遊走數據以及圖1中的道瓊斯平均股價進行了比較。

可以預期道瓊斯平均股票價格高度相關,因為在目標時期可以看到強勁的上漲趨勢。

不出所料,兩者之間的相關係數很高,為0.808。

相關係數:0.8089145
p值<2.2e-16

當一個明顯的上漲趨勢而另一個明顯的下跌趨勢時,也很容易看到存在很強的逆相關性。

儘管這並不重要,但如果一個下跌,另一個上漲,反之亦然。

找到變化率並消除趨勢

因此,如果兩個時間序列數據中都有明顯的單調趨勢,則相關係數可能會很高(正數或負數)。

為了解決這種「假相關」,僅需消除趨勢。

有多種消除趨勢的方法,但是最快的方法是利用變化率。

變化率(或同比)顯示當前數據與以前的數據相比發生了多少變化。

可替代地,還使用對數差分法。您可以認為對數差異和變化率幾乎相同。

換句話說,應該將數據轉換為數據值從前一時間到當前時間已變化多少的變化率。

我將向您展示將道瓊斯平均股價(圖1)轉換為對數差異序列的數據。

(陶氏平均股價的對數差系列)

這樣,可以刪除之前存在的趨勢分量,並且可以進行關聯,而與趨勢的存在與否無關。

我們將實際上隨機行走的序列轉換為對數差異序列,並嘗試將它們關聯起來。

結果得出結論,相關係數為-0.01043016,不相關。

相關係數:-0.01043016
p值= 0.6877

另外,通過取對數差,也再次獲得了陶氏平均股票價格和上面顯示出高度相關性的隨機遊走系列。

結果得出結論,與-0.00371806沒有相關性。

相關係數:-0.00371806
p值= 0.8861

這是自然的。

如果隨機產生的序列與道瓊斯平均股票價格之間存在相關性,那麼任何東西都相關。

您可能還會看到夏季消耗的水量與陶氏平均股價之間的相關性。

另一方面,如果按對數差異轉換數據並消除趨勢,則可能會擔心相關數據之間的原始相關性會丟失。

讓我們研究一下道瓊斯工業平均股票價格與標準普爾500數據之間的相關性。

這兩個數據幾乎相同,因為計算方法和目標股票不同,但兩者的移動方式與美國股市相同。

首先,讓我們計算不對數據進行轉換並且不刪除趨勢時的相關係數。

然後,出現了非常大的相關係數0.99。

0.99的值非常高,您可以看到它的移動完全相同。道指的平均股價和標準普爾500指數最初是相似的數據,可以說,即使在趨勢之間也獲得了如此高的相關係數。

當然,道瓊斯指數和標準普爾500指數出現這種情況也就不足為奇了。

那麼,在建立對數差異序列之後計算相關係數會發生什麼?

結果是0.96,仍然很高。

這意味著即使趨勢被消除,即使它確實是相關的,相關係數也會很高。

當然,如果美國股票價格上漲,那麼道瓊斯工業平均指數和標準普爾500指數都會上漲,如果下跌,那麼兩者都會下跌。道指的平均股價和標準普爾500指數自然會顯示出類似的走勢。

比特幣和黃金真的相關嗎?

那麼,比特幣和黃金之間的相關性真的很高嗎?還是存在偽造的關聯?

下面顯示的是2014年1月至2019年11月的比特幣和黃金日線圖。

如果它是相關的,則它是相關的;如果不相關,則它似乎是不相關的。特別是,最後的上漲似乎是相關的,但我認為這是坦率的看法,即在整個時期內感覺並不那麼多。

讓我們在不更改數據的情況下計算相關係數。

結果如下

相關係數:0.5624171
p值<2.2e-16

您可以看到相關性相對較高。

此外,我們採用彭博社文章假設的從2018年8月到2019年8月大約一年的相關係數(與彭博社假設的時期不完全匹配) 。

相關係數:0.4737387
p值<2.2e-16

該值幾乎與彭博發布的比特幣和黃金之間的相關係數0.496一致。

因此,可以從該分析預測彭博社將在考慮趨勢的同時執行相關性分析。

將比特幣和黃金數據轉換為對數差異序列並檢查2018年8月至2019年8月同期的相關係數會發生什麼?

相關係數:0.1137891
p值= 0.02951

以此方式,在5%的顯著性水平下識別出約0.11的相關係數。

當然可以識別出相當弱的相關性,但是與趨勢消除之前的相關係數相比,它仍然非常低。

當然,這種分析並非全部正確。

有時應該考慮趨勢進行分析,並且眾所周知,如果使用上述對數差異序列對時間序列數據進行轉換,則會丟失某些數據特徵。

因此,請注意,使用對數差序列的相關係數計算通常不好,並且彭博的相關分析也沒有錯。

您是否想觸摸新聞,同時要記住,比特幣和黃金之間的相關係數不僅是盲目的,而且取決於分析方法,相關係數也容易改變或解釋。

總結

在本文中,我們解釋了即使兩個數據之間存在單調趨勢,「假相關性」也顯示出較高的相關係數。

換句話說,可以說在時間序列數據中可能出現相對較高的相關係數。

如果比特幣與黃金之間的相關性成為熱門話題,或者由於趨勢成分而似乎在以相似方式移動的兩個時間序列數據,那麼不要懷疑,存在意外損失的風險。

因此,如果您得知某項資產與比特幣在國內外具有高度相關性的消息,請不要立即查看這兩種資產之間的相關性,而要關注其他媒體。請檢查一下。

如果有這樣的消息,《加密貨幣時報》研究人員將竭盡全力進行核實。

感謝您閱讀到最後。

資訊來源:由0x資訊編譯自CRYPTO-TIMES。版權歸作者shimada所有,未經許可,不得轉載
提示:投資有風險,入市需謹慎,本資訊不作為投資理財建議。請理性投資,切實提高風險防範意識;如有發現的違法犯罪線索,可積極向有關部門舉報反映。
你可能還喜歡