微软Azure延迟5小时因为管理员睡着了

音频解说

微软透露，在3月底，它花了5个小时才承认影响欧洲客户的长期中断，因为通知客户的任务依赖于一位美国的事件经理，他当时睡着了。

在家工作：生意的前途渺茫

从500强企业到非常小的企业，大多数每个组织都比预言家敢于梦想的人更快地被推入工作的未来。在这个勇敢的新工作世界中，哪些因素将决定失败或成功？

多读书

延误影响了欧洲和英国的客户三天，从世界协调时3月24日上午9点左右开始。然而，在开始的时候，当客户与多余的Azure服务作斗争时，微软错过了10分钟的目标，即广泛地承认问题。

在一次死后，Azure公司的工程主管ChadKimes承认微软“在这次事件中的沟通也是有问题的”，并为这给6136名受影响的客户带来的挫折和困惑道歉。

技术问题本身是由于在流行期间对Azure计算资源的需求激增而造成的虚拟机器容量限制造成的，这导致了21分钟的延迟，影响了微软的管道DevOps服务，以发布针对Azure中Windows和Linux代理的新构建。据基姆斯说，最长的延误是9个小时。

Kimes在谈到沟通问题时说：“问题在于，我们的现场处理程序对于这些类型的事件有差距。”

当事件涉及客户请求失败或性能影响时，我们有自动工具，在DRI（指定的负责个人）和我们所称的PIM（主要事件管理器）中启动事件和循环。他补充说：“PIM通常是负责发布外部通信确认事件的人。”

“管道延迟是通过不同的工具检测到的，目前没有为这些类型的事件呼叫PIM。因此，虽然DRI在理解技术问题和寻找潜在的缓解措施方面很努力，但PIM仍然睡着。只有当PIM在美国东部大约营业时间开始时加入事件桥梁时，事件才最终得到承认。”

微软表示，它正计划改进其现场流程，以“确保管道延迟事件的初始通信与其他事件类型相同的时间安排”。

首页

常识问答

知识问答

精选问答

日常问答

经验问答

优选问答

甄选问答

要闻

生活

消费

经济