伦敦上午 8 点刚过不久,英国政府的网站开始闪烁并消失。
美国大部分地区都在睡觉,但东海岸的一些夜猫子发现他们的迪士尼流媒体服务停滞了。
那些在周日晚间聚会后打电话给 Lyfts 回家的人处境艰难。日常活动逐渐停止。
随着美国东部的觉醒,问题的严重性变得清晰起来。
美国联合航空和达美航空发现其乘客无法使用在线服务。习惯于浏览《纽约时报》早间通讯的通勤者却没有这样做。 Snapchatter 陷入沉默; Reddit 论坛一片寂静。
据 DeepField Networks 称,全球三分之一的在线用户每天都与 Amazon Web Services (AWS) 进行交互:从 Venmo 到 Reddit 到 Ring 等公司都依赖于 AWS 服务器。周一早上,系统瘫痪了,导致互联网的很大一部分崩溃。
网络安全专家詹姆斯·奈特(James Knight)是数字战争公司(Digital Warfare)的高级负责人,该公司帮助公司识别和修复网络漏洞,他表示,这种中断可能发生的事实“令人惊讶”。这也是一个令人不安的迹象,表明我们没有人能够幸免于一种新的混乱。
奈特告诉《每日邮报》:“我的第一个想法是想知道它是如何发生的。显然,某种数据库崩溃了。
据 DeepField Networks 称,全球三分之一的在线用户每天都与 Amazon Web Services (AWS) 进行交互:从 Venmo 到 Reddit 到 Ring 等公司都依赖于 AWS 服务器。周一早上,系统瘫痪了
“令人惊讶的是,有一件事影响了他们的网络,因为通常会有备份和冗余系统同时运行。一个特定的系统出现故障是非常非常令人惊讶的。”
奈特承认,他对这次故障感到困惑,他指出,这将使亚马逊损失数亿美元。
它于东部时间凌晨 3 点 11 分开始。到美国东部时间凌晨 5:01 时,问题已被识别,并在 20 分钟内部署了“修复”。
但该问题仍未得到解决,美国东部时间上午 8:48,亚马逊发布了另一则更新,称正在进行进一步的修复。
网络攻击的幽灵不可避免地被提出,但据奈特称,这不太可能。
他解释说:“像我这样的网络专业人士,或者目前正在关注此事的任何人,都能够看出这是否是一次黑客攻击。这被称为妥协的迹象,IOC。
“我们可能会看到恶意软件签名;某种未经授权的访问;日志中的某些内容显示获得了某种访问权限,或者出现了一些异常流量。这里没有任何东西可以表明这一点。
更重要的是,他说,法律要求亚马逊披露任何黑客行为。
相反,该公司表示,问题源自其位于弗吉尼亚州的站点,即 US-EAST-1 区域。
Knight 表示,他们上一次发生大停机是在 2021 年,这表明了 AWS 系统的实际弹性。但问题一旦发生,可能是毁灭性的。
2024 年 7 月,网络安全公司 CrowdStrike 宕机,造成历史上最大规模的 IT 中断。
故障本身持续了不到 90 分钟,但一些公司花了几天时间才恢复。一家保险公司计算出,这一问题仅给财富 500 强企业造成了超过 50 亿美元的直接损失,其中航空公司和医院受到的打击最为严重。
去年,电信公司 AT&T 多次发现其网络不可用,其中 2 月份发生了一次长达 11 小时的故障,造成的损失尤其严重。
奈特说,这是时代的标志,我们必须学会忍受。
图为:弗吉尼亚州的亚马逊网络服务数据中心
图为:DownDetector 报告的 AWS 中断激增
奈特说,互联网中断是时代的标志,我们必须学会忍受
他说:“我们的生活都在网上,而且这一切即将发生。” “AWS 与谷歌和微软一样,是云计算的黄金标准。因此,AWS 的竞争对手不会沾沾自喜,因为明天这种事就可能发生在他们身上。
“我真的不能批评 AWS。他们反应很好。我不知道是否有人会头晕,但我们会非常认真地对待这件事,我认为他们会吸取教训,以便能够改进。”
然而,考虑到云计算领域的激烈竞争,AWS 不会与竞争对手分享他们的修复程序。
这是否意味着现在的公司一个篮子里的鸡蛋太多了?他们是否应该使用多家云计算公司来分散提供服务?
奈特说理论上可以,但管理起来很困难,而且不一定有帮助。
“AWS 已经分为多个类别,这就是人们将数据保存在云中的原因,”他说。 “他们的一些服务器在一个位置的云中,一些在另一个位置:一些在美国东海岸,一些在西海岸,一些在亚洲,而且分布在各地。”
到美国东部时间周一上午 11 点 43 分,也就是出现第一个麻烦迹象八个多小时后,亚马逊听起来乐观地认为结局即将到来。
该公司表示,“我们已经缩小了影响 AWS 服务的网络连接问题的根源。” “根本原因是负责监控网络负载均衡器运行状况的底层内部子系统。”
他们表示,他们正在故意放慢一些服务“以帮助恢复”,并且仍在“积极致力于缓解措施”。
奈特表示,亚马逊将详细研究问题所在,并从这次中断中吸取教训。
“他们将确定根本原因,”他说。 “然后他们将改进他们的程序。”
他说,他们会“变得更加坚强”,并且会尽一切努力确保这种情况不再发生。
但我们所有人都必须接受的事实是:它会的。下次情况可能会更糟。







