

本文最初发表于MIT Press。
1月6日,阿拉斯加航空公司的一架波音737 MAX 9飞机(1282号航班)在从波特兰起飞爬升过程中,飞机结构的一个大部件——一个机身门塞——在飞行中脱落。门塞脱落后,机舱发生剧烈减压,伴随着震耳欲聋的巨响和如同狂风般的气流,将座椅头枕吹离了固定装置。一名坐在裂口前方的青少年的母亲紧紧抱着儿子,因为他的衬衫被撕破并吸入了真空。
令人惊奇的是,这起惊心动魄的事件中无人死亡,但情况非常危险。如果紧邻失效机身部分的座位没有空着,或者安全带指示灯没有亮起,这场事故很可能是致命的。
总的来说,现代喷气式客机的故障是极其罕见的事件,但即使在这种背景下,这次故障也显得不同寻常且令人担忧。虽然对其发生原因的确切解释尚需时日,但初步报告强烈表明,其直接原因是令人震惊的普通:似乎是波音公司或其承包商未能正确固定门塞。发现的门塞似乎缺少关键螺栓,而后续检查据报道发现其他机身上也存在螺栓固定不当的门塞。如果这一理论得到证实,那么真正与众不同之处将是这次故障的极其普通。这是因为当喷气式客机因机械原因发生故障时,其原因往往要复杂得多,也更有趣(至少从工程角度来看)。一起本可以避免的、极其普通的制造或维护错误险些导致航班遇险,这是一种带有不祥预兆的反常现象。
要理解我的意思,最好将这次事件置于背景中,为此,我们需要退后一步,简要思考制造出我们期望的可靠喷气式客机所固有的困难。极高的可靠性是非常困难的,尤其是在复杂技术和严酷环境中运行的系统。这一点很容易理解。但是,它带来的挑战的性质,以及航空业管理这些挑战的方式,都存在广泛的误解。
我们对喷气式客机期望的极高可靠性,所带来的挑战与我们对几乎任何其他系统期望的“正常”可靠性有着根本性的不同。本质上,这是因为设计一个不易频繁发生故障的系统,需要工程师理解它将如何运行——以及如何会失效。工程师不能仅仅等到发生坠机事故才了解其可靠性!实现极高可靠性所需的努力与期望的安全水平并不成正比。(例如,复杂系统的可靠性翻倍所需的努力将超过两倍。)
即使是最详尽的测试和模型,也无法捕捉到喷气式客机在数十亿小时运行中所表现出的真实世界性能的每一个细微之处。
要理解后者之间的关系,可以考虑构建一个可靠性达到99.99%(即每运行10,000小时最多发生一次故障)的系统。为了实现这一点,工程师需要了解系统在这一时期内的行为:它可能面临的外部条件、其众多元件将如何与这些条件相互作用,以及其他许多方面。为此,他们需要抽象——理论、测试、模型——这些能够充分代表真实世界,从而准确捕捉每10,000小时才会发生一次的事件。然而,这种代表性可能具有挑战性,因为现实世界以工程抽象从未能完美重现的方式“混乱”,并且在10,000小时内可能会发生许多意想不到的灾难性事件。不寻常的环境条件可能以出乎意料的方式与材料相互作用,导致其腐蚀或疲劳。模糊的输入组合可能导致关键软件组件崩溃或行为异常。正如老话所说,我们不知道我们不知道什么,所以这些类型的事件很难预料。
现在考虑一下,当系统所需的可靠性从99.99%提高到99.999%时会发生什么。为了达到这个新的基准,工程师需要考虑的事件可能不是每10,000小时发生一次,而是每100,000小时发生一次。以此类推;在“九宫格”中的每一个新小数点,都代表着工程师需要在其抽象中捕捉并在设计中考虑的因素的复杂性呈数量级增长。因此,每一次增量,专家的可靠性计算都有可能被隐藏在他们对系统如何工作的理解中的某个重要因素所推翻:某些属性,或无人想到去测试的 circunstances 的组合。(我曾提议将此类故障称为“理性事故”。部分原因是它们源于理性持有但仍然错误的信念,部分原因是从认识论的角度来看,预期它们的发生是理性的。)
这就是我们应该理解现代喷气式客机可靠性的背景。通过认识论的不确定性和其隐藏的危险来看,过去几十年来民航的安全记录简直令人惊叹。归因于技术故障的客机事故率表明,其关键系统的平均故障间隔时间不是10,000小时,甚至不是100,000小时,而是超过十亿小时。在处理如此长的时间跨度内的故障时,即使是极其罕见的因素也能成为关键的工程考量:只有在特定的月相或星体排列下才会出现的意外相互作用或现象。作为20世纪的工程成就,现代航空旅行的极其普通和乏味,与NASA登陆月球的非凡和戏剧性不相上下。如果说这项成就的荣誉要归功于任何一个组织,那么非波音莫属。
波音及其同行实现如此高可靠性的过程被广泛误解。我们长期以来被灌输要将工程视为一种客观的、受规则支配的过程,航空可靠性也牢固地建立在这种语言之下。因此,现代飞行的惊人平淡无奇似乎是建立在日益详细的工程分析和严格的监管监督之上的:标准、测量和计算。然而,就像香肠和经文一样,当仔细审查其生产环境时,这些正式实践会显得越来越可疑。即使是最详尽的测试和模型,也无法捕捉到喷气式客机在数十亿小时运行中所表现出的真实世界性能的每一个细微之处。虽然严格的分析和监督无疑至关重要,但它们的作用在能够提供喷气式客机所需的可靠性之前就已经大大减弱了。我们可以通过这种方式管理大多数系统的性能,但要突破抽象的极限和不确定性,以达到我们对喷气式客机的期望性能,则需要更多。这正是民航的真正工程挑战所在,也是该行业对新入行者如此困难的原因。
仔细分析,该行业通过利用一系列务实但最终无法量化的实践来实现这一壮举。归根结底,这些归结为从经验中学习的过程。工程师计算并测量了所有可以合理计算和测量的东西,然后他们通过审视那些逃脱了他们的测试和模型的细微见解的故障,逐渐消除了剩余的不确定性。换句话说,他们通过利用故障作为脚手架和指南,随着时间的推移,慢慢地提高了喷气式客机的可靠性。
这个学习过程听起来很简单,但实际上是一项痛苦、昂贵、持续数十年的艰苦工作,其成功取决于几个长期且通常具有挑战性的机构承诺。例如,它需要投入巨资研究行业中的故障和险情,并需要机构愿意接受有缺陷的调查结果(这是组织自然倾向于抵制的)。也许最重要的是,它依赖于对一致且稳定的喷气式客机设计范式的根深蒂固的坚持:愿意大大延迟或完全放弃实施那些纸面上承诺显著竞争优势的诱人创新——新材料、新架构、新技术。
正确固定螺栓是高可靠性工程中最容易实现的目标。
这些至关重要的实践和承诺永远无法完全由第三方立法、审计和执行,因为它们依赖于微妙且必然主观的判断。例如,监管机构可以要求“新”设计比“轻微修改”的现有设计接受更多的审查,但它们永远无法完美定义什么是“轻微修改”。而且,虽然规则可以要求对“安全关键”部件采取特殊预防措施,但特定部件的“关键性”将始终是解释的问题。
这些不可控的实践和解释涉及巨大的经济利益,因此它们形成的文化极其重要。像波音这样的公司(并非有很多公司像波音)做出战略决策的人需要理解他们所做选择的重要性,并且要做到这一点,他们需要能够超越构成现代航空安全讨论框架的、受规则支配的客观性。他们必须认识到,在这个领域,如果说在其他领域很少,仅仅打勾每一个选项是不够的。他们还需要愿意并能够将昂贵、违反直觉的实践置于短期经济激励之上,并向利益相关者证明其决策,而不能诉诸量化严谨性。这使得航空级的可靠性成为一项巨大的管理挑战,同时也成为一项工程挑战。
那么,这种对航空可靠性的理解如何帮助我们理解波音公司近期在737飞机上出现的失误呢?从这个角度来看,门塞事件显得非常不寻常,因为它似乎是一个本可避免的错误。这比表面看起来更奇怪。在喷气式客机制造商出现的罕见故障中,它们几乎总是“理性事故”,其根本原因隐藏在专家测试和模型的那些不确定性之中。如果门塞固定不牢是由于缺少螺栓,那么这次事件就有所不同。正确固定螺栓是高可靠性工程中最容易实现的目标。这是制造商应该通过他们精心制定的规则和监督来发现的,甚至在他们开始“九宫格”的“行进”之前就应该发现的。
我们应该始终谨慎,避免从少量样本中得出大的结论,但如此普通的一次故障,却印证了日益普遍的说法,即波音公司作为一个公司已经逐渐迷失了方向;其文化和优先事项越来越多地被工商管理硕士(MBA)所主导,而不是像过去那样由工程师主导。尤其当这种故障与2019年的737 MAX系列空难(同样源于可避免的设计缺陷)以及“星际客机”(Starliner)太空舱持续的麻烦联系起来看时,情况就更加明显了。
这可能是这次故障的真正意义所在:它所代表的机构文化底层转变。波音公司肯定会解决螺栓丢失或固定不牢的具体问题;如果这种错误再次发生,那将是令人难以置信的。然而,事实上发生了这样的错误,表明这家组织越来越不愿意或无力做出那些奠定了其卓越可靠性历史的昂贵、违反直觉且难以辩护的选择。这些选择总是涉及边缘的、几乎可以忽略不计的方面——因为高空可靠性的一切都关乎边缘——所以其后果会缓慢显现。但其影响是累积且不可阻挡的。一个螺栓固定不牢的公司,不太可能做出在未来几十年内能带来回报的战略决策。
约翰·唐纳(John Downer)是布里斯托大学科学技术研究副教授,以及《理性事故》(Rational Accidents)一书的作者。