整理|冬梅、核子可乐
近日,全球约有850万台Windows设备在启动过程中遭遇了蓝屏死机(BSoD)问题,影响了全球众多银行、航空公司、广电企业、超市及各类组织机构。这起故障由网络安全供应商CrowdStrike的更新错误引发,导致受影响的PC和服务器离线,并陷入无限重启循环,无法正常运行。值得注意的是,此问题并非微软所造成,而是由第三方软件CrowdStrike所引发的。目前,这款软件被全球许多企业广泛用于Windows PC和服务器的安全保护。
1 全球蓝屏蔓延,尚未完全恢复
故障最初在澳大利亚的银行、航空公司和广电企业中被发现,这些机构报告了大量Windows设备离线的情况。随着欧洲企业陆续开门营业,问题迅速蔓延。英国广播公司Sky News在长达数小时的早间时段内无法播出新闻简报,只能通过提示消息对“此次广播中断”道歉。欧洲最大的航空公司之一瑞安航空也表示,受“第三方”IT问题影响,航班起飞受到了影响。
受影响的Windows设备在启动时会卡在蓝屏中无法继续。
美国联邦航空管理局(FAA)表示,由于通信问题,他们正在向达美航空、联合航空和美国航空等航空公司提供协助。空管局发言人Jeannie Shiffer在采访中解释称,“空管局正在密切关注此次影响美国航空公司IT系统的技术问题。多家航空公司已请求空管局协助其机队停飞,直至问题解决。”
柏林机场也警告称,受“技术问题”影响,航班可能会延误。阿拉斯加的多处911紧急呼叫中心同样受到此问题影响。受IT系统中断影响,印度一家航空公司甚至开始使用手写登机牌。
CrowdStrike公司CEO George Kurtz在X上的帖子中指出:“CrowdStrike正积极与Windows主机上个别内容更新中发现的缺陷,与受影响客户开展合作。Mac与Linux主机不会受到影响,且此次事件不属于安全威胁或者网络攻击。”
CrowdStrike方面还表示,问题已经确定,修复方案也已到位,但设备的修复流程对IT管理员来说较为繁琐。其根本原因似乎是CrowdStrike用于保护Windows机器的内核级驱动程序未能正确更新。虽然CrowdStrike在“Windows主机上广泛报告蓝屏死机”后确定了问题所在并恢复了错误更新,但对于已经受影响的设备似乎并不奏效。
在一篇Reddit帖子中,数百名IT管理员分享了普遍存在的问题,解决方法包括将受影响的Windows机器以安全模式启动、前往CrowdStrike目录并删除系统文件。但对于某些云端服务器,甚至是那些远程部署并使用Windows系统的笔记本电脑,这种操作方式显然难以实现。
一位Reddit发帖者表示,“我们整个公司都陷入了瘫痪”,另一位发帖者则提到,他们70%的笔记本电脑都无法正常开机、始终卡在启动循环中。还有一位Reddit用户用黑色幽默的方式高呼“星期五快乐”。看来对于全球IT管理员来说,这都将是漫长的一天。
屋漏偏逢连夜雨,微软的Microsoft 365应用和服务似乎同样发生问题并导致中断。据称引发问题的根本原因,是“我们Azure后端工作负载的部分配置发生了变更”。
随着故障不断蔓延,George Kurtz于上周五在NBC的“今日”节目中表示,公司对受到影响的人“深表歉意”。
但这个问题显然不是Control+Alt+Delete可以快速解决的:Kurtz警告说,尽管已经部署了修复程序,但“可能还需要一段时间”才能让所有系统恢复正常运行。
据InfoQ了解到,在此故障发生了3天后的今天,全球仍有不少IT系统处于瘫痪状态。
2 微软奇葩解决方案:关机重启15次即可
就在全球仍在应对这波堪称有史以来最严重的IT故障之一的同时,由CrowdStrike更新失败引发的微软操作系统蓝屏死机正在继续扩大影响范围。面对严峻挑战,该如何应对?微软给出的答案却与讽刺喜剧《IT狂人》中的桥段如出一辙——反复关机重启15次即可解决问题。
不少IT人员在Reddit和Hacker News等技术社区平台上吐槽,这种解决方案仿佛是给了又没给。
一位网友表示:“在看到微软给出的解决方案后,是不是只有我一个人回想到了很多年以前我们的父亲母亲不断地敲打老式CRT电视机的侧面,让它显示图像的时光?”
更有网友调侃,“如果多次重启无法解决您的问题,微软建议检查您是否已插入电源。”
也有网友表示,之所以发生这种情况,是因为CrowdStrike内部各部门严重孤立、安全团队和系统工程团队之间沟通不畅导致的。在规模较小的公司,同一个人身兼数职,这种情况不太可能发生,除非他们能力极其低下。
有人对此事故表示了同情,但也认为CrowdStrike的IT人员对于重大更新缺少敬畏心:
另一位网友也对上述观点表示赞同:
就像以往每次IT系统瘫痪时,外界在分析原因时的关注点不只局限在IT部门身上一样,此次故障有网友认为是高层决策者的管理失败造成的。
那么,遭到全球声讨的“蓝屏死机”究竟是怎么回事?
早在1993年,微软第一次在Windows 3.0用户面前展示了蓝屏死机(也称BSOD)设计。从技术角度来讲,蓝屏死机的正式名称应该叫作停止错误,具体指那些会导致Windows操作系统陷入崩溃的严重错误。
Action 1公司联合创始人Mike Walters表示,蓝屏死机问题“通常代表出现了内核层级的冲突或者bug,这类bug特别难以诊断和修复,因为其运行在操作系统的最深处,发生在与硬件的具体交互过程当中。”过去,Windows系统曾经因内存故障以及设备过热等问题诱发过这类停止错误。
微软于2021年7月在Windows 11系统中将蓝屏死机的颜色更改为黑屏,但在同年年底又重新将设计恢复为用户们熟悉的蓝色。
弗吉尼亚大学数据科学学院技术史学家兼副教授马尔·希克斯表示,蓝屏死机已经成为一种文化标志,让几乎所有计算机用户都感到恐惧。
希克斯说:“几乎任何人,无论其计算机水平如何,都知道当你看到传统老式的蓝屏死机时,一定有事情发生了非常严重的问题。”
蓝屏死机只是事件的结果,本轮全球IT中断的根源在于CrowdStrike更新故障。CrowdStrike自身的官方修复建议是手动以安全模式启动计算设备,并通过命令行操作来解决问题。微软方面同样给出了用户支持建议,为受到CrowdStrike bug影响的Azure虚拟机用户提供了官方解决方案。
微软建议反复关机重启,最多15次。
微软表示,其“注意到在多次手动重启虚拟机之后,部分Azure虚拟机可通过CrowdStrike Falcon代理成功完成更新”。因此建议客户尝试以下操作:
使用Azure门户——尝试在受影响的虚拟机上执行“重启”操作。使用Azure CLI或者Azure Shell。请注意,在某些情况下可能需要进行多次重启。Walters同时警告称,“用户通常不需要多次重启,除非还存在其他潜在问题。有时候,如果系统已经多年没有重启,那么重启后可能会在启动阶段引发特定问题。由于重启不正确,数据库在启动后可能无法正常工作,进而导致其他问题。”
对于未受到CrowdStrike问题影响、但仍然面对蓝屏死机问题的用户,微软则提供了以下建议:
“这些错误可能是由硬件和软件问题所引发。如果您在蓝屏错误之前向PC添加了新硬件,请关闭PC、移除该硬件,而后尝试重新启动。如果您在重新启动时遇到问题,可以尝试在安全模式下启动PC。您还可以尝试使用Windows Update以获取最新更新、从其他来源处获取帮助,或者将Windows还原至较早的时间点。”
参考链接:
https://www.php.cn/link/2f7a9c9514d09783e9f4159877dc80ac
https://www.php.cn/link/aaf54da9d9fa052b5d3469f46c5c957c
以上就是微软蓝屏至今仍未完全恢复,官方给出重启 15 次奇葩解决方案!网友:下一步会建议我检查是否插好电源的详细内容,更多请关注php中文网其它相关文章!
电脑蓝屏修复工是一款跨平台全能修复工具,主要解决各种各种常见的蓝屏问题,一键修复电脑蓝屏问题!有需要的小伙伴快来保存下载使用吧!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号