AWS 再次发生宕机事件,云时代下的我们该如何补救?

CSDN 2021-12-16

云计算awshttps

941 字丨阅读本文需 2 分钟

屋漏偏逢连夜雨。据外媒 ZDnet 报道,美国东部时间上午 10:26 左右,AWS 网络再次开始出现严重的问题。根据 Outages 邮件列表(供 ISP 和网络运营商报告和跟踪重大互联网问题的中央邮件列表)上的报告显示,AWS 托管服务于早晨开始变得“不稳定”。

许多基于 AWS 的业务服务,如双因素身份验证端点安全服务 Duo、视频会议平台 Zoom、消息传递服务 Slack,以及 Hulu、Xbox Live 和 Halo 在内的娱乐服务均受到了不同程度影响。

01 一周前 AWS 的宕机事件

之所以用“再次”,是因为在本月的 7 号,AWS 已经发生了一次大规模的宕机事件,此次宕机事件对亚马逊配送业务造成了严重破坏,以及 Facebook、Coinbase、Robinhood、迪士尼+、Netflix、任天堂等网站纷纷“躺枪”,彼时亚马逊在筛查问题后给出解释称:

绝大部分 AWS 服务和所有客户应用都在其主网络内运行,但它还用一个内部网络托管了基础性的服务,包括监视、内部 DNS 服务等。鉴于其重要性,AWS 用了多个地理位置上隔离的网络设备连接到这个内部网络,大幅扩展网络容量,确保其高可用性。12 月 7 日 7:30 AM PST,主网络的一个自动容量扩展活动意外引发了内部网络客户端的活动,导致了连接激增,连接内部网络和主网络的网络设备出现拥堵,通信延迟,引发了持续的拥堵和性能问题,影响到了团队实时监控的能力,使得他们难以快速识别问题的根源,只能依靠日志判断发生了什么。

亚马逊回应其已采取了行动确保相同的问题不会再次发生。但如今 AWS US-West-1、2 再次发生问题,AWS 虽然迅速发布报告,排查出问题出在美国西部 1 区和 2 区两个区域的互联网连接上,并表示“我们已经解决了影响与 US-WEST-1 区域的互联网连接的问题。区域内的连接不受此事件的影响。问题已得到解决,服务运行正常。”但仍有不少用户反驳道,“它看起来已经稳定了一些,但仍然存在一些 Bug。”

02 宕机原因

如今上云时代,云计算为数字化建设带来的功能性、效率与稳定性不容置喙,不过宕机事件也时有发生,且全球领先的云计算平台也未能幸免。在探究宕机的主要原因时,我们发现主要有以下几种:

宕机无法 100% 避免,我们所能做的就是在日常的操作、开发、使用过程中去降低出错率的同时,也正如微软顾问咨询服务大中华区 Cybersecurity 首席架构师张美波曾建议道:

“虽然云计算技术带来了按需服务、高扩展性、超大规模资源支持等优点,但是同样的,由于云计算平台的用户、应用和数据资源的高度集中,从而在云计算平台出现故障时,会导致更为严重的破坏和影响。

因此强烈建议大家在选择云计算服务平台时,尽量选择更安全的、更具有领先技术的全球领先云计算平台。”

此外,我们也不妨通过数据周期性备份、异地多活部署等方案来为云上数据加一份保险。

本文来自微信公众号 “CSDN”(ID:CSDNnews),作者:屠敏,36氪经授权发布。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:CSDN
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...