使用华尔街秘密来降低云基础架构的成本

股票市场投资者通常依赖金融风险理论来帮助他们最大化回报,同时最大限度地减少因市场波动造成的经这些理论有助于投资者保持平衡的投资组合,以确保他们在任何特定时间都不会损失更多的钱。

受这些理论的启发,麻省理工学院的研究人员与微软合作开发了一种“风险意识”数学模型,可以提高全球云计算网络的性能。值得注意的是,云基础设施非常昂贵,并消耗了世界上很多能源。

他们的模型考虑了全球数据中心之间链接的失败概率 – 类似于预测股票的波动性。然后,它运行优化引擎,通过最佳路径分配流量,以最大限度地减少损失,同时最大限度地提高网络的整体使用率。

该模型可以帮助主要的云服务提供商(如微软,亚马逊和谷歌)更好地利用他们的基础设施。传统方法是保持链路空闲以处理由链路故障引起的意外流量变化,这是浪费能量,带宽和其他资源。另一方面,名为TeaVar的新模型保证,对于目标百分比的时间 – 例如99.9% – 网络可以处理所有数据流量,因此不需要保持任何链路空闲。在0.01%的时间内,该模型还使数据尽可能低。

在基于实际数据的实验中,该模型支持三倍的流量吞吐量作为传统的流量工程方法,同时保持相同的高水平网络可用性。本周将在ACM SIGCOMM会议上发表一篇描述模型和结果的论文。

MIT电气工程和计算机科学系的TIBCO职业发展助理教授,计算机研究员,Manya Ghobadi表示,更好的网络利用率可以为服务提供商节省数百万美元,但对消费者的好处将“逐渐减少”。科学与人工智能实验室(CSAIL)。

“拥有更多利用的基础设施不仅有利于云服务 – 它对全世界来说也更好,”Ghobadi说。 “公司不必购买尽可能多的基础设施来向客户销售服务。此外,能够有效利用数据中心资源可以节省云基础设施的大量能源消耗。因此,对用户和环境都有好处同时。”

在纸上加入Ghobadi的是她的学生Jeremy Bogle和Nikhil Bhatia,他们都是CSAIL;微软研究院的Ishai Menache和Nikolaj Bjorner;和希伯来大学的Asaf Valadarsky和Michael Schapira。

在钱上

云服务提供商使用在地下运行的光纤电缆网络,连接不同城市的数据中心。为了路由流量,提供商依靠“流量工程”(TE)软件来最佳地分配数据带宽 – 一次可以传输的数据量 – 通过所有网络路径。

目标是确保全球用户的最大可用性。但是,当某些链路出现意外故障时,由于在施工期间因停电或线路切断导致的光信号质量下跌等原因,这一点具有挑战性。为了保持对故障的稳健性,提供商将许多链路保持在非常低的利用率,等待从被击落的链路吸收全部数据负载。

因此,这是网络可用性和利用率之间的一个棘手的权衡,这将实现更高的数据吞吐量。研究人员说,这就是传统TE方法失败的地方。他们根据各种因素找到最佳路径,但从不量化链路的可靠性。 “他们没有说,'这个链接有更高的启动和运行概率,这意味着你应该在这里发送更多的流量,”Bogle说。 “网络中的大多数链路都在低利用率下运行,并且没有发送尽可能多的流量。”

研究人员设计了一个TE模型,该模型使核心数学适应“风险条件价值”,这是一种量化平均货币损失的风险评估指标。通过投资股票,如果您有一天99%的条件价值风险为50美元,那么当天最坏情况1%情景的预期损失为50美元。但99%的情况下,你会做得更好。该指标用于投资股市 – 这是众所周知难以预测的。

“但数学实际上更适合我们的云基础设施设置,”Ghobadi说。 “大多数情况下,链路故障是由于设备的老化造成的,因此故障概率不会随着时间的推移而发生太大变化。这意味着与股票市场相比,我们的概率更可靠。”

风险意识模型

在网络中,数据带宽份额类似于投入的“资金”,具有不同失败概率的网络设备是“股票”及其变化值的不确定性。使用基础公式,研究人员设计了一种“风险感知”模型,与其财务对应模型一样,保证数据在99.9%的时间内达到目的地,但在最坏情况下的0.1%失败情况下将流量损失保持在最低水平。这允许云提供商调整可用性 – 利用率权衡。

研究人员从微软网络统计了三年的网络信号强度,将其数据中心连接到链路故障的概率分布。输入是图形中的网络拓扑,源 – 目标数据流通过线路(链路)和节点(城市)连接,每个链路分配一个带宽。

通过每15分钟检查每个链路的信号质量来获得失败概率。如果信号质量低于接收阈值,则认为链路故障。任何上述意味着链接已启动并正在运行。由此,模型生成每个链接上涨或下跌的平均时间,并计算每个15分钟时间窗口的每个链接的失败概率 – 或“风险”。从这些数据中,它能够预测风险链接何时会在任何给定的时间窗口失败。

研究人员通过谷歌,IBM,ATT以及遍布全球的其他网络发送的模拟流量对其他TE软件测试了该模型。研究人员根据其发生概率创建了各种故障情景。然后,他们通过网络发送模拟和实际数据需求,并提示他们的模型开始分配带宽。

研究人员的模型保持可靠的链接工作到接近满负荷,同时转向数据清除风险较高的链接。在传统方法中,他们的模型通过网络运行的数据量是其数据的三倍,同时仍然确保所有数据都到达目的地。该代码可在GitHub上免费获得(https://github.com/manyaghobadi/teavar)。

故事来源:

物料 由…提供 麻省理工学院。原作由Rob Matheson撰写。注意:可以根据样式和长度编辑内容。

资讯来源:由0x资讯编译自SCIENCEDAILY,版权归作者所有,未经许可,不得转载
你可能还喜欢