是什么可能导致全国范围的网络中断?

例如今天早些时候的时代华纳网络中断
"互联网地图1024" 来自The Opte Project - 最初来自英文维基百科。根据CC BY 2.5许可授权。

如果你今天早上看了新闻或Twitter——或者因为你的网络出了故障而无法观看——你可能听说过:时代华纳(Time Warner)的互联网服务在东部时间上午4:30左右 发生了重大故障。据《路透社》报道,此次故障影响了美国大部分地区,持续了两个小时。 the outage-tracker DownDetector 创建的地图显示全国范围内都出现了问题。那么,这到底是怎么发生的呢?

《大众科学》与研究网络性能的普渡大学计算机科学家Sonia Fahmy进行了交谈,听取了她对罪魁祸首的猜测。

她推测,时代华纳当时正在更新其路由器用于相互通信和路由信息的软件。“通常,这些中断是由于路由协议造成的,”她说。这是一种基础功能,如果其中存在bug,就可能导致大范围的问题。

“要么是他们升级了某些路由器的软件,并且其中存在某种bug,要么就是人为失误,”她说。为软件更新配置路由器是一项复杂的工作,因此人们会犯错误。

构成互联网最大核心网络——所谓的互联网骨干网——的路由器使用一种叫做边界网关协议(Border Gateway Protocol)的东西来相互告知使用哪些路径来发送信息到正确的目标。Fahmy认为时代华纳可能正在更新其用于实现BGP的软件,而BGP通常是导致重大故障的原因。

“要么是他们升级了某些路由器的软件,并且其中存在某种bug,要么就是人为失误,”Fahmy说。

此次故障的范围之广让Fahmy猜测问题与软件有关,而非硬件。她说,像时代华纳这样的服务提供商在硬件方面有足够的冗余来防止这类大范围问题。一个损坏的路由器或电缆通常只会导致规模较小、区域性的故障。

明显可见的、持续数小时的中断可能变得越来越频繁。Fahmy说,她看到过类似时代华纳这样的报告,每隔一两个月就会发生一次。除了软件问题,公司的路由器似乎也在老化,并且 内存不足——这更多是硬件问题,但也是一个系统性问题。

研究人员正在努力使路由协议不易发生故障。一种有前景的解决方案称为软件定义网络(Software Defined Networking),它允许公司使用一台名为控制器(controller)的机器一次性配置多个路由器。这样,人类专家在配置路由器时出错的可能性就更小了。

 

更多优惠、评测和购买指南

 
Francie Diep 是一位居住在加利福尼亚州圣巴巴拉的科学记者。除了《Popular Science》,她的作品还发表在《Scientific American》、《Smithsonian》及其他刊物上。她对基因、细胞、机器人、档案馆以及互联网上的奇特内容着迷。

© .