本周,主要行业——金融和交通——发生了两次几乎同时发生的基础设施故障。
7月8日(星期三),纽约证券交易所(NYSE)在交易日的大部分时间里突然停运。交易所瘫痪后,网络攻击的猜测几乎立即出现,但纽约证券交易所否认了这一点,并随后澄清说,问题是由网关软件兼容性造成的。
同一天,美国联合航空公司(United Airlines)遭遇了网络崩溃,据他们称,这是由于路由器连接故障导致网络连接 degraded。在59架航班被取消后,网络基本恢复在线。
两者都在数小时内恢复正常,尽管造成了一些损失,但大多数人仍然正常生活。然而,随着网络变得越来越复杂,我们对它们的依赖日益加深,这些事件的发生频率也在增加。
一种新型的自然灾害?
可以说,网络中断正成为世界上最频繁的自然灾害:尽管其结果更多的是不便而非破坏,但它们修复起来很复杂,并且会影响电信、服务提供商、交通、金融,有时甚至包括医疗设备。
那么,是什么导致了这些问题呢?
专注于将更多计算机科学实践引入网络的初创公司 Forward Networks 的 David Erickson 表示,问题不仅仅是人为错误:这是一个日益复杂且不协调的硬件和语言系统。“现在,你们的组织拥有数千甚至数万台移动数据包的设备:路由器、交换机、防火墙——应有尽有,”他告诉《大众科学》,“而这些设备中的每一个都拥有 1,000 到 100 万条甚至更多的规则,这些规则实际上定义了它们如何处理传入和传出的数据包。”
这些设备可以被教会协同工作,但 Erickson 表示,这是一个陡峭的学习曲线。“根本问题在于,主要是人为因素在安装、部署、修复、升级这些设备,等等。因此,一个配置错误很容易导致关键系统崩溃,就像你们在联合航空事件中看到的那样,这丝毫不足为奇。”
这个问题每年都在增加。Erickson 表示,随着时间的推移,这些设备“变得越来越复杂,数量也越来越多,它们单独的复杂性也越来越高,并且不断有新的软件需求被施加在它们身上。”
Erickson 解释说,许多公司没有意识到,它们公司和操作系统的大部分“只差几次软件配置错误就会被关闭或无法访问”。而且,当系统出现故障时,这不仅仅是时间和金钱的难题。他指出了一个关于网络问题的Reddit 帖子,其中一位用户分享了一个轶事:新生儿心脏监护仪被配置在一个无法工作的网络上。
复杂性越多,问题越多
部分问题源于网络是一个相对较新的基础设施。电力和供水等公用事业有更多的安全保障,但网络却没有。
它们会随着时间的推移而变得更糟,不仅是因为新的复杂性,还因为旧问题的突然出现。
开发股票市场信息软件公司 Nanex, LLC 的 Eric Hunsader 解释说,从一开始就存在的问题可能需要一些时间才能显现。“随着产品的发展,一段时间后,唯一剩下的 bug 是那些没人预料到的,而且往往是最难解决的。因此,如果技术越来越复杂,错误越来越少,那么少数几个错误就会非常严重。”
对于纽约证券交易所来说,关闭不一定是个问题,但糟糕的时机可能会造成一场噩梦。“噩梦发生在收盘前一秒,”Hunsader 说。“最容易引起麻烦的时间是 15:59:59。问题在于,收盘价对系统如此重要。你将不得不回滚一切。”他说,交易和期权将不得不回滚,一天最后几分钟的错误可能会导致第二天市场无法开盘。
好消息是,像股市这样容易受恐慌影响的因素,大多数时候不会受到网络问题的影响。Hunsader 说,这对市场没有任何心理影响。如果这是一次攻击,那么,“我认为会有天壤之别,因为我们会认为,如果他们能让一个服务器瘫痪,也许他们能再次做到。或者更糟的是,能够做到而不被发现,或者……最聪明的做法是搜刮系统里的钱。”
航空公司则更敏感:网络中断意味着航班停飞,这会毁掉人们的假期周末,并在几个小时内造成数百万元的损失。但这些问题不像拔掉一个 Netgear 产品背后的电源线那么简单。
测试,测试…
目前,还没有真正有效的方法让网络专家在真空中测试配置。Erickson 说,更改都是提前计划好的,群体共识是评估可能发生情况的唯一可靠估计。一旦部署到生产环境,测试新的系统安排(就像纽约证券交易所或联合航空那样)就是一场与时间的赛跑。“如果你错误地配置了一个当时是核心的设备,那么你拥有多少冗余都没有关系。”
缺乏标准化的语言或实践意味着专家供不应求。Erickson 说,要成为一个完美网络管理员,“你需要能够理解你网络中的所有设备。有大量的供应商,数百甚至数千种设备。”
有人在尝试标准化这些工具吗?并非如此。竞争对手没有动力去合作,因为他们可以通过创新取胜而赚取更多。但市场的现实是,公司在每次升级时并不总是更换所有设备,所以遗留系统和遗留软件将永远是一个问题。
Erickson 说,如果客户不要求,“我们需要某种统一的标准,这样我们才能确信我们的网络始终如我们预期地运行,”那么这种情况就不会发生。
即使有这种愿望,这也是一项艰巨的任务。“要解决这个问题,”Erickson 解释说,“公司必须去与每一个设备进行沟通,并对它们有非常深入的了解。”他说。“这真的很困难。”