发布于 2026-01-06 3 阅读
0

大崩塌:解读 2024 年 7 月 Crowdstrike 和微软之间的服务中断事件

大崩塌:解读 2024 年 7 月 Crowdstrike 和微软之间的服务中断事件

2024年7月18日,数字世界经历了一场震动。一场影响数百万用户的全球性服务中断,导致微软365、Azure等众多关键服务几乎瘫痪。罪魁祸首竟然是来自网络安全巨头CrowdStrike的一次看似无害的软件更新。

这篇博客深入探讨了此次事件的技术细节,包括究竟出了什么问题、采取了哪些缓解措施以及该事件的全球影响。

程序员的错误引发系统崩溃

此次故障的根本原因在于人为错误:CrowdStrike 开发人员编写的代码中存在漏洞。以下是技术细节的详细说明:

程序员错误:在开发 CrowdStrike Falcon 传感器更新的过程中,引入了一个 C++ 编码错误。

空指针创建:代码创建了一个指针变量 (Obj* obj),旨在引用内存中包含数据的特定对象。然而,由于错误,该指针保持为 NULL,这意味着它没有指向任何有效的内存位置。

缺少空值检查:理想情况下,程序员会在使用指针之前添加检查以确保其不为空。这段错误代码中缺少了这项至关重要的检查。

尝试访问“空”:由于空指针实际上指向内存中的“空”位置,代码试图访问它本应代表的对象中的信息(例如 obj->a 或 obj->b)。这导致尝试从基于空指针值计算出的无效内存地址(例如 0x0 + 4)读取数据。

想象一下这种情况:你记了一张便条提醒自己去买牛奶,但你忘了把它写在任何地方(空指针)。然后,你试图读取这张想象中的便条(访问空指针)——这注定会失败。

内存访问冲突:由于程序试图访问未经授权的内存,Windows 将其识别为潜在的安全威胁。为了保护系统,Windows 强制程序崩溃,导致了臭名昭著的蓝屏死机 (BSOD) 和随后的系统宕机。
本质上,该代码试图从内存中不存在的位置读取数据,触发系统崩溃作为一种安全措施。

缓解措施和复苏之路

虽然起因看似一个简单的错误,但影响却十分深远。值得庆幸的是,CrowdStrike 和微软都迅速做出了反应:

CrowdStrike:承认了该问题,并发布了公开声明以及一个临时解决方案。

微软:与 CrowdStrike 和外部开发人员沟通,加快解决方案的制定。他们还提供技术指导和支持,帮助客户安全恢复。

此次修复采用了 CrowdStrike 提供的解决方案,该方案解决了空指针问题,并防止了进一步的崩溃。此外,微软还在 Windows 消息中心发布了相关说明,指导用户如何在其 Windows 终端上解决此问题。

全球影响

此次网络中断并非局限于某个地区,而是影响了全球用户。关键业务运营、医疗服务、航空公司、证券交易所以及世界各地无数个人都受到了影响。

虽然受影响的用户和地点的确切数量尚不清楚,但有报道称此次故障波及多个大洲,造成了严重的混乱。

Crowdstrike 和微软的这次宕机事件,鲜明地提醒我们,一个看似微不足道的软件漏洞可能会引发连锁反应。它凸显了严格的代码审查的重要性,以及协作在缓解大规模故障中发挥的关键作用。随着数字世界的不断发展,我们也必须不断努力,确保其稳定性和韧性。

参考

封面: https ://timesofindia.indiatimes.com/technology/tech-news/microsoft-acknowledges-it-is-crowdstrike-behind-the-outage-read-what-the-company-said/articleshow/111865989.cms

**帮助我们的客户度过 CrowdStrike 服务中断期:** https://www.nytimes.com/2024/07/19/business/microsoft-outage-cause-azure-crowdstrike.html

微软宕机原因详解:CrowdStrike 是什么?为什么用户会遇到 Windows 蓝屏死机?: https://www.livemint.com/technology/tech-news/blue-screen-of-death-windows-users-face-massive-outage-due-to-new-crowdstrike-update-11721370250881.html

* 也欢迎查看我的其他博客:*

旅游/地理博客
订阅我的频道:
YouTube频道
Instagram:
Destination Hideout

CrowdStrike 是什么?这家公司是导致微软全球宕机事件的核心?:
https://indianexpress.com/article/technology/microsoft-global-outage-satya-nadella-crowdstrike-key-points-9464267/lite/

文章来源:https://dev.to/shishsingh/the-great-fall-decoding-the-crowdstrike-microsoft-outage-of-july-2024-19bo