对来自9000万个域的20亿个链接的抓取数据分析,可以一窥当今的网络

网络不仅对从事数字营销工作的人至关重要,而且对每个人都是必不可少的。我们在这一领域的专业人员需要了解网络如何在我们的日常工作中发挥作用。我们还知道,优化客户的网站不仅与他们的网站有关,而且还可以提高他们在网络上的存在感,该网站通过链接与其他网站相连。

为了获得有关Web信息的整体视图,我们需要数据,大量数据。我们定期需要它。有一些组织为此目的提供开放数据,例如Httparchive。它收集并永久存储网络的数字化内容,并将其作为公共数据集提供。第二个示例是Common Crawl,这是一个每个月都会对Web进行爬网的组织。自2011年以来,他们的网络档案馆一直在收集PB级数据。用他们自己的话说,“ Common Crawl是一个501(c)(3)非营利组织,致力于为互联网研究人员,公司和个人提供互联网副本,研究和分析目的的成本。”

在本文中,将对Common Crawl的近期公共数据和指标进行快速数据分析,以简要了解当今网络上发生的事情。

在近9000万台主机的近20亿条边缘上执行了此数据分析。为了本文的目的,术语“边缘”将用作对链接的引用。从一个主机(域)到另一主机(域)的边缘仅在从一个主机到另一主机的至少一个链接时才被计数一次。还要注意,主机的PageRank取决于从其他主机接收的链接数,而不取决于提供给其他主机的链接数。

分配给主机的链接数与主机的子域数之间也存在依赖性。考虑到将近9000万个主机中,从最大数量的主机接收链接的主机是“ googleapis.com”,而向最大数量的主机发送链接的主机是“ blogspot.com”,这并不令人感到意外。拥有最多主机(子域)数量的主机是“ wordpress.com”。

公用Common Crawl数据包括2019年5月,6月和7月的爬网。

对以下三个压缩的Common Crawl文件执行主要数据分析。

  • 域顶点(0.61GB)
  • 域边缘(7.50 GB)
  • 域等级(1.91 GB)

这两个数据集用于有关美国排名前50位的站点的附加数据分析。

  • 雄伟的百万
  • 类似的美国前50名网站

三个压缩文件中提供的Common Crawl数据属于它们最近的域级图。首先,在“域顶点”文件中,有9000万个节点(裸域)。在“域边缘”文件中,有20亿个边缘(链接)。最后,文件“域等级”包含裸域的PageRank和谐波中心度排名。

谐波中心性是一种类似PageRank的中心性度量,用于发现图中节点的重要性。自2017年以来,Common Crawl一直在其爬网策略中使用谐波中心性来通过链接分析确定优先级。此外,在“领域排名”数据中心化,根据领域的谐波中心值而不是根据其PageRank值对领域进行排序。尽管谐波中心度与最终数据集上的PageRank不相关,但在美国排名前50位的站点数据分析中,它与PageRank相关。有一段引人入胜的视频“中心化度度量的现代观点”,其中Paolo Boldi在好莱坞K线走势图上展示了PageRank和谐波中心化度度量的比较。他指出,谐波中心性比PageRank更好地选择了顶部节点。

(本文中使用的所有Common Crawl数据都来自2019年5月,6月和7月。)

通用抓取“域顶点”数据集预览

预览常见爬网“域边缘”数据集

按谐波中心度排序的公共抓取“域等级”数据集的预览

由三个主要的Common Crawl数据集获得的最终数据集的预览;按PageRank排序的“域顶点”,“域边缘”和“域等级”

列名:

  • host_rev:反向的主机名,例如“ google.com”变为“ com.google”
  • n_in_hosts:主机从其接收至少一个链接的其他主机的数量
  • n_out_hosts:主机向其发送至少一个链接的其他主机的数量
  • onicc_pos:主机的谐波中心位置
  • 谐波cval:主机的谐波中心度值
  • pr_pos:主机的PageRank位置
  • pr_val:主机的PageRank值
  • n_hosts:属于该主机的主机(子域)数

Common Crawl最终数据集的统计数据

* link:如果从一台主机到另一台主机至少有一个链接,则视为链接

  • 传入主机数:
    • n_in_hosts的平均值,最小值,最大值= 21.63548751,0,20081619
    • *从最大主机数中接收链接*的反向主机是“ com.googleapis”。
  • 传出主机数:
    • n_out_hosts的平均值,最小值,最大值= 21.63548751,0,7813499
    • *反向发送链接的主机*到最大数量的主机是'com.blogspot'
  • 网页排名
    • pr_val的平均值,最小值,最大值= 1.13303402e-08,0.,0.02084144
  • 谐波中心
    • 平均,最小,最大谐波数= 10034682.46655859,0.,29977668。
  • 主机数(子域)
    • n个主机的平均值,最小值,最大值= 5.04617139,1,7034608
    • *具有最多主机(子域)数量的反向主机为“ com.wordpress”
  • 相关性
    • 相关性(n_in_hosts,n_out_hosts)= 0.11155189
    • 相关性(n_in_hosts,n_hosts)= 0.07653162
    • 相关性(n_out_hosts,n_hosts)= 0.60220516
    • 相关性(n_in_hosts,pr_val)= 0.96545709
    • 相关性(n_out_hosts,pr_val)= 0.08552065
    • 相关性(n_in_hosts,谐波_val)= 0.00527706
    • 相关性(n_out_hosts,谐函数_val)= 0.00440205
    • 相关性(pr_val,谐波_val)= 0.00400214
    • 相关性(pr_val,n_hosts)= 0.05847027
    • 相关(harmoniccc_val,n_hosts)= 0.00042441

相关结果表明,传入主机的数量(n_in_hosts)与PageRank值(pr_val)和传出主机的数量(n_out_hosts)相关,而前者很强,后者很弱。传出主机的数量与主机子域(n_hosts)的数量之间也存在依赖性。

数据可视化:PageRank的分布

下图显示了pr_val值的计数图。它向我们展示了将近9000万台主机上的PageRank分布高度右偏,这意味着大多数主机的PageRank都非常低。

主机数量分布

下图显示了n_hosts(子域)值的计数图。它向我们显示,近9000万台主机的主机(子域)数量分布高度右偏,这意味着大多数主机的子域数量很少。

传入主机数的分布

下图显示了n_in_hosts(传入主机的数量)值的计数图。它向我们展示了这种分布也是右偏的。

传出主机数量的分布

下图显示了n_out_hosts(输出主机的数量)值的计数图。同样,此分布也是右偏的。

谐波中心分布

下图显示了onicc_val列值的计数图。它表明谐和阀值在将近9000万台主机上的分布不是像PageRank或主机分布数那样高度右偏。它不是理想的高斯分布,而是比PageRank和主机数量的分布更具有高斯分布。这种分布是多峰的。

传入主机数量与传出主机数量的散点图

下图显示了x轴上的n_in_hosts和y轴上的n_out_hosts的散点图。这表明传出和传入主机的数量总体上并不直接相互依赖。换句话说,当主机从其他主机接收的链接数量增加时,其到其他主机的传出链接不会增加。当主机没有大量传入主机时,它们可以轻松地链接到其他主机。但是,具有大量传入主机的主机并不那么慷慨。

传入主机数量与PageRank的散点图

下图显示了x轴上的n_in_hosts值和y轴上的主机的pr_val值的散点图。它向我们显示,主机的传入主机数量与其PageRank之间存在相关性。换句话说,链接到主机的主机越多,其PageRank值就越大。

传出主机数量与PageRank的散点图

下图在x轴上显示了n_out_hosts的散点图,在y轴上显示了主机的pr_val值。它向我们显示,传入主机数与PageRank之间的相关性在传出主机数与PageRank之间不存在。

PageRank的散点图和谐波中心点

由于大多数主机的PageRank较低,因此当我们散布绘制主机的PageRank和谐波中心度值时,我们会看到一条垂直线。但是,我们观察到宿主的PageRank值与质量的分离始于它们的谐波中心度值接近1.5e7,而当其谐波中心度值大于1.5e7时加速。

美国排名前50位的网站

从开头获得的最终“通用抓取”数据中心化选择美国排名前50位的数据。为了与Common Crawl最终数据中心化的“ host_rev”列匹配,将其主机反转。例如,“ youtube.com”变为“ com.youtube”。以下是此选择的预览。共有49个站点,而不是50个站点,因为“ Common Crawl”数据中心化不存在“ finance.yahoo.com”,而“ com.yahoo”却存在。

还导入了“雄伟的百万富翁”公共数据集。此文件的预览如下

这两个数据集;合并了“美国通用抓取”数据和指标以及“雄伟百万”数据集在内的美国排名前50位的站点。 refip,refsubnet由反向主机求和。

该最终数据集的预览如下

美国前50大站点最终数据集的统计数据

  • 传入主机数:
    • n_in_hosts的平均值,最小值,最大值= 1565724.63265306、1015、16537551
  • 传出主机数:
    • n_out_hosts的平均值,最小值,最大值= 80812.70833333,28.,2529655
  • 网页排名
    • pr_val的平均值,最小值,最大值= 0.00105891,9.73490741e-07,0.01285745
  • 谐波中心性
    • 平均,最小,最大谐波次数= 18871331.16326531、14605537。,27867704
  • 主机数(子域)
    • n个主机的平均值,最小值,最大值= 36426.79591837,22,1555402

从具有前50个美国站点“常见爬网”数据和“雄伟百万”数据的数据中心化可以看出,创建了成对的指标散点图-pr_val,n_in_hosts,n_out_hosts,harmonicc_val,refips_sum,refsubnets_sum。

此成对散点图向我们显示,美国50个顶级站点的PageRank与该图中使用的所有指标都有一定的相关性,但传出主机的数量(以图例n_out_hosts表示)除外。

这些指标的相关热图下方也可用

结论

对美国排名前50位站点的数据分析显示,传入主机和引用IP地址(refips)的数量与指向目标域(refsubnets)指标的IP网络细分之间存在依存关系。谐波中心性在PageRank,传入主机的数量,主机的refIP和refsubnet之间相关。

在将近9000万的主机等级和20亿的边缘中(边缘是仅对一次链接进行计数的链接,即使单个主机中有很多链接),PageRank与每个主机的传入边缘数之间也有很强的相关性。但是,对于主机的传出边缘数量,我们不能说相同。

在此数据分析中,我们发现子域数量与从一台主机到另一台主机的传出边缘数量之间存在相关性。此WebK线走势图上PageRank的分布高度偏右,这意味着大多数主机的PageRank都非常低。

最终,主要数据分析告诉我们,网络上的大多数域具有较低的PageRank,较低的入站和出站边缘以及较低的主机子域。我们之所以知道这一点,是因为所有这些功能都具有相同的高度右偏的数据分布类型。

PageRank仍然是一种流行且众所周知的中心化度度量。其成功的原因之一是其性能与类似类型的数据分布可媲美域上的边缘分布。

Common Crawl是SEO的宝贵且被忽视的公共数据源。从技术上讲,即使已公开这些巨大数据也不容易。但是,它提供了每三个月一次的“域排名”文件,与原始的每月爬网数据相比,该文件相对易于分析。由于缺乏资源,我们无法自己爬网并计算中心度度量值,但是我们可以利用这一极其有用的资源来分析客户的网站及其竞争对手的排名以及他们在网络上的连接。

本文中表达的观点是来宾作者的观点,不一定是Search Engine Land。此处列出了工作人员作者。

资讯来源:由0x资讯编译自SEARCHENGINELAND,版权归作者Aysun Akarsu所有,未经许可,不得转载
提示:投资有风险,入市需谨慎,本资讯不作为投资理财建议。请理性投资,切实提高风险防范意识;如有发现的违法犯罪线索,可积极向有关部门举报反映。
你可能还喜欢