阿里云史上最长大规模中断15.5个小时!艾克SEO介绍,12月18日,阿里云在香港出现大规模中断,导致诸多依赖阿里云运行的应用和服务无法使用,造成广泛影响。直至12月19日00:30,这部分OSS服务(单AZ冗余服务)才恢复了对外服务能力。此次香港Region可用区C服务中断事件历时15.5小时,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障,被称为阿里云史上最长大规模中断。

阿里云史上最长大规模中断的原因:
阿里云此次服务中断源于水冷系统出现故障,且长时间无法恢复正常,导致机房温度升高,现场处置不及时又导致触发消防喷淋,部分硬件遇水损坏,另外客户在香港地域新购ECS等管控操作失败,长时间无法扩容。
阿里云史上最长大规模中断的处理过程:
12月18日08:56,监控到香港Region可用区C机房包间通道温控告警,工程师介入应急处理。
此次事故出现的问题包括冷机系统故障恢复时间过长等。由于机房冷却系统缺水进气形成气阻,影响水路循环导致4台主冷机服务异常,启动4台备冷机时因主备共用的水路循环系统气阻导致启动失败。水盘补水后,因机房冷却系统的群控逻辑,无法单台独立启动冷机,手工修改冷机配置,将冷机从群控调整为独立运行后,陆续启动冷机,影响了冷却系统的恢复时长。整个过程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟。
12月19日00:30,这部分OSS服务(单AZ冗余服务)才恢复了对外服务能力。
艾克SEO介绍,云服务中心出现故障非常常见。2022年6月,由于华为云部分区域网络出问题,“同花顺APP崩了”等新闻登上热搜,部分时段出现无法交易,行情等界面出现卡顿现象。在国外,2022年7月,因遭遇极端高温天气,甲骨文和谷歌在伦敦的数据中心也曾因冷却系统出现问题而发生运行故障,导致部分网站瘫痪。
艾克网络科技(ikeseo.cn)是阜阳市一家专业从事网站建设、优化、推广的公司,拥有10年建站设计、seo优化推广的经验,企业建站采用专业的网站模板,利于SEO收录,操作简单,原创设计使用稳定,适合个人、企业网站开发、网站改版、企业官网及小程序制作开发、优化推广。