比特币和黄金会一起移动吗?什么是“假关联”

这次,我们将解释称为“假币相关”的现象,标题为“比特币和黄金一起移动?什么是“虚假相关”?”。

如后所述,“假相关”是对两个时间序列数据的相关分析,实际上,即使没有相关也计算出较高的相关系数。

如果您不知道在时间序列数据分析中这种情况很容易发生,那么您将对比特币与另一资产之间存在关联的消息很敏感。

当然,如果新闻是正确的,那就太好了,但是可以说,立即潜入是很危险的,因为不能否认“虚假关联”的情况。

前几天,彭博社和Coindesk指出一篇文章,指出“比特币和黄金”之间的高度相关性,但是因为它是像彭博社这样的大公司,所以不要对此感到困惑。

这是因为存在将其归入要说明的“伪相关”的情况。

如果您阅读本文,您将能够提高相关性的素养,并从鸟瞰的角度看相关新闻。

首先,我将解释什么是时间序列数据。

什么是时间序列数据?

首先,时间序列数据的特征是什么?

与我们假设的“正常”数据有何不同?

时间序列数据是随时间推移而观察到的数据,每个时间点只能获得一个数据。

2014年1月3日只有一个比特币价格(收盘价)。

此外,在2019年3月2日下午2点仅观察到一个温度。在垂直轴的每个时区中获得的数据和在水平轴的每个时区中获得的数据通常称为您看到的K线走势图。

(图1:陶氏平均股价)

另一方面,与时间序列数据相比,可以轻松进行统计分析的“常规”数据称为“横截面数据”。

该数据可以同时获得多次。截至2018年1月,东京的家庭数量和人口以及A先生的英语,数学和日语期末考试成绩。

另外,诸如面板数据的数据类型根据数据的性质被分类。

关联分析可有效地用于许多类型的数据,但存在只能通过时间序列数据(尤其是时间序列数据)才能发现的陷阱。

当使用两个时间序列数据(例如,比特币价格和陶氏平均股票价格)执行相关性分析时,会出现“在最初不相关的时间序列数据之间存在相关性”的现象。它发生了。

那就是“假关联”。

什么是假关联?

首先,您将看到两个时间序列数据,它们属于“假相关”。

下图显示了两个数据,这些数据显示出较高的相关性,相关系数为0.66。

(尼古拉斯·凯奇(Nicolas Cage)的电影露面和矿池淹水致死:引用tylervigen.com)

一个显示了尼古拉斯·凯奇(美国演员)的电影露面次数,另一个显示了因溺水而死的人数的时间序列数据。认为不相关的两个数据之间的相关性高的情况被认为是“假相关性”。

在两个数据之间计算出高达0.66的相关系数。

再看一张K线走势图。

(街机销售和美国计算机科学博士学位:引自tylervigen.com)

在美国计算机科学领域内的游戏厅(游戏中心)总销量和博士学位数量的数据。

相关系数高达0.9851,相关分析表明两个时间序列数据是相关的。

趋势中是否存在“假相关”的原因?

人们认为这是因为时间序列数据中存在趋势。

当两个数据由于各个因素而具有单调上涨趋势时,即使两个数据之间没有相关性,这也是两个数据以相同方式移动的现象。

如您所见,美国的街机销售总额和博士学位持有者数量呈上涨趋势。

尽管没有关系,但是它以相同的方向上涨,因此数据以相同的方式移动,从而导致较高的相关值。

可能同时具有上涨趋势的任何数据将与拱廊销售总额具有高度相关性(例如,诸如全球变暖之类呈上涨趋势的数据)。

例如,是否像想一对夫妻朝着同一方向走一样?

实际上,这可能类似于以下现象:虽然彼此无关,但朝同一方向行走的两个人虽然彼此靠近或在垂直行中依sn,但似乎彼此相关。

我敢肯定,您曾经有过被误解的经历,您只是想朝同一个方向走,但却在您身后(像我一样)。

仿真分析

实际上,我想通过实际模拟两个不应该关联的时间序列数据来查看“假关联”是否发生。

这很容易,您只需要使用本质上不相关的两个数据进行相关分析。

为了准备不相关的数据,通过计算机模拟生成随机数。

由于随机数是随机值,因此它们彼此不相关。

首先,生成两个序列(RW1和RW2)用于随机游走。

随机游走是采用随机生成的值的上涨和的数据。简而言之,它是一组通过将过去生成的随机数添加到当前随机数而创建的一组数据。

我们为随机游走准备了两个数据。

(图2:两个随机游走的时间序列)

由于这两个数据是随机行走的,因此数据之间应该没有相关性。

然而,当实际计算相关时,释放了足够高的相关系数0.7443666。

p值也很低,为2.2e-16,这意味着即使在1%的显着性水平下,p值也是可靠的。

相关系数:0.7443666
p值<2.2e-16

这是什么意思?如上所述,可以说两个数据中的每一个都呈上涨趋势。换句话说,有一个强烈的上涨趋势(由于添加了随机值,该趋势是可能的)。

换句话说,具有趋势的时间序列数据可能具有如此高的相关性,即使该序列完全不相关(当然也并非总是如此)。

没关系,但是两者都向上看并且似乎相关。

我试图提取并可视化趋势成分,以查看两个随机行走系列之间存在哪种趋势。

如您所见,两个数据都有上涨趋势。

另外,作为试验,我将相关系数与图2中的第二个随机游走数据以及图1中的道琼斯平均股价进行了比较。

可以预期道琼斯平均股票价格高度相关,因为在目标时期可以看到强劲的上涨趋势。

不出所料,两者之间的相关系数很高,为0.808。

相关系数:0.8089145
p值<2.2e-16

当一个明显的上涨趋势而另一个明显的下跌趋势时,也很容易看到存在很强的逆相关性。

尽管这并不重要,但如果一个下跌,另一个上涨,反之亦然。

找到变化率并消除趋势

因此,如果两个时间序列数据中都有明显的单调趋势,则相关系数可能会很高(正数或负数)。

为了解决这种“假相关”,仅需消除趋势。

有多种消除趋势的方法,但是最快的方法是利用变化率。

变化率(或同比)显示当前数据与以前的数据相比发生了多少变化。

可替代地,还使用对数差分法。您可以认为对数差异和变化率几乎相同。

换句话说,应该将数据转换为数据值从前一时间到当前时间已变化多少的变化率。

我将向您展示将道琼斯平均股价(图1)转换为对数差异序列的数据。

(陶氏平均股价的对数差系列)

这样,可以删除之前存在的趋势分量,并且可以进行关联,而与趋势的存在与否无关。

我们将实际上随机行走的序列转换为对数差异序列,并尝试将它们关联起来。

结果得出结论,相关系数为-0.01043016,不相关。

相关系数:-0.01043016
p值= 0.6877

另外,通过取对数差,也再次获得了陶氏平均股票价格和上面显示出高度相关性的随机游走系列。

结果得出结论,与-0.00371806没有相关性。

相关系数:-0.00371806
p值= 0.8861

这是自然的。

如果随机产生的序列与道琼斯平均股票价格之间存在相关性,那么任何东西都相关。

您可能还会看到夏季消耗的水量与陶氏平均股价之间的相关性。

另一方面,如果按对数差异转换数据并消除趋势,则可能会担心相关数据之间的原始相关性会丢失。

让我们研究一下道琼斯工业平均股票价格与标准普尔500数据之间的相关性。

这两个数据几乎相同,因为计算方法和目标股票不同,但两者的移动方式与美国股市相同。

首先,让我们计算不对数据进行转换并且不删除趋势时的相关系数。

然后,出现了非常大的相关系数0.99。

0.99的值非常高,您可以看到它的移动完全相同。道指的平均股价和标准普尔500指数最初是相似的数据,可以说,即使在趋势之间也获得了如此高的相关系数。

当然,道琼斯指数和标准普尔500指数出现这种情况也就不足为奇了。

那么,在建立对数差异序列之后计算相关系数会发生什么?

结果是0.96,仍然很高。

这意味着即使趋势被消除,即使它确实是相关的,相关系数也会很高。

当然,如果美国股票价格上涨,那么道琼斯工业平均指数和标准普尔500指数都会上涨,如果下跌,那么两者都会下跌。道指的平均股价和标准普尔500指数自然会显示出类似的走势。

比特币和黄金真的相关吗?

那么,比特币和黄金之间的相关性真的很高吗?还是存在伪造的关联?

下面显示的是2014年1月至2019年11月的比特币和黄金日线图。

如果它是相关的,则它是相关的;如果不相关,则它似乎是不相关的。特别是,最后的上涨似乎是相关的,但我认为这是坦率的看法,即在整个时期内感觉并不那么多。

让我们在不更改数据的情况下计算相关系数。

结果如下

相关系数:0.5624171
p值<2.2e-16

您可以看到相关性相对较高。

此外,我们采用彭博社文章假设的从2018年8月到2019年8月大约一年的相关系数(与彭博社假设的时期不完全匹配) 。

相关系数:0.4737387
p值<2.2e-16

该值几乎与彭博发布的比特币和黄金之间的相关系数0.496一致。

因此,可以从该分析预测彭博社将在考虑趋势的同时执行相关性分析。

将比特币和黄金数据转换为对数差异序列并检查2018年8月至2019年8月同期的相关系数会发生什么?

相关系数:0.1137891
p值= 0.02951

以此方式,在5%的显着性水平下识别出约0.11的相关系数。

当然可以识别出相当弱的相关性,但是与趋势消除之前的相关系数相比,它仍然非常低。

当然,这种分析并非全部正确。

有时应该考虑趋势进行分析,并且众所周知,如果使用上述对数差异序列对时间序列数据进行转换,则会丢失某些数据特征。

因此,请注意,使用对数差序列的相关系数计算通常不好,并且彭博的相关分析也没有错。

您是否想触摸新闻,同时要记住,比特币和黄金之间的相关系数不仅是盲目的,而且取决于分析方法,相关系数也容易改变或解释。

总结

在本文中,我们解释了即使两个数据之间存在单调趋势,“假相关性”也显示出较高的相关系数。

换句话说,可以说在时间序列数据中可能出现相对较高的相关系数。

如果比特币与黄金之间的相关性成为热门话题,或者由于趋势成分而似乎在以相似方式移动的两个时间序列数据,那么不要怀疑,存在意外损失的风险。

因此,如果您得知某项资产与比特币在国内外具有高度相关性的消息,请不要立即查看这两种资产之间的相关性,而要关注其他媒体。请检查一下。

如果有这样的消息,《加密货币时报》研究人员将竭尽全力进行核实。

感谢您阅读到最后。

资讯来源:由0x资讯编译自CRYPTO-TIMES。版权归作者shimada所有,未经许可,不得转载
提示:投资有风险,入市需谨慎,本资讯不作为投资理财建议。请理性投资,切实提高风险防范意识;如有发现的违法犯罪线索,可积极向有关部门举报反映。
你可能还喜欢