OpenStack运营商详细介绍了如何解决崩溃问题

当Meltdown和Spectre CPU安全漏洞于1月3日公开披露时，它们引发了全球IT用户和云运营商之间的一系列活动。在5月24日于不列颠哥伦比亚省温哥华举行的OpenStack峰会上，eWEEK主持的一个小组中，运营商详细介绍了他们如何处理Meltdown补丁以及为何如此耗时。

对于OpenStack，全球最大的运营商都不是CERN，它是大型强子对撞机(LHC)和拥有大约300,000个计算核心的OpenStack云基础架构的所在地。Arne Wiebalck负责CERN OpenStack云的整体操作，当Meltdown和Spectre等漏洞出现时，他有责任做出反应并部署相应的修补程序。

他说：“欧洲核子研究中心通常在寒假期间关闭两周，因此实际上当所有人都不在的时候就知道了这一点。

根据Wiebalck的说法，CERN拥有一支专门负责网络安全的团队。他的运营团队与安全团队进行了协调，以了解需要采取哪些措施来减轻Meltdown和Spectre的风险。

Wiebalck说：“最终实际发生的是我们决定关闭整个云并修补该补丁。”

考虑到CERN的OpenStack云的规模，关闭和打补丁并不是一件容易的事。Wiebalck说，他的团队必须关闭并重新启动30,000多个虚拟机，并告知关闭将要对成千上万的CERN云用户进行。

他说：“我们已经在生产中运行了这种云大约五年了，我认为这是我们第一次必须真正关闭一切。”

Wiebalck表示，CERN并非只是同时关闭所有设备，而是在几天内分阶段执行了修补，关闭和重新启动过程。CERN使用了迭代过程，最初关闭了大约200个虚拟机管理程序，以查看它们是否会回来以及是否存在任何错误。

尽管CERN与大多数大型IT商店一样都使用自动化流程，但在涉及Meltdown和Spectre的修补和重新启动时，Wiebalck表示，它涉及许多人工操作和监视的手动过程。

“是真正的人类。当然，我们实际上有一些工具可以与数百台机器对话，但实际上，实际上是我和我的同事或多或少地手动完成了这项工作，”维巴尔克说。

OpenStack基础架构

Clarke Boylan是OpenStack基础设施项目的项目技术负责人，负责运行用于构建OpenStack软件的系统，该软件在全球的云中使用。像CERN的Wiebalck一样，Boylan必须重新启动大量系统才能修补Meltdown和Spectre。

Boylan表示，OpenStack基础架构团队在员工之间分配了补丁工作，并利用Ansible配置管理技术来确保已安装补丁的内核。

博伊兰说：“我们仍然需要人们仔细观察，以确保服务返回时仍能按预期的方式运行。”

有了Meltdown和Spectre补丁后，人们担心潜在的性能下降问题，这是博伊兰说的，他的团队对此进行了监控。OpenStack基础架构团队的首要任务是尽快部署Linux内核补丁。

更进一步，Boylan指出OpenStack Nova计算项目开发人员在Nova中添加了一项功能，以增强对CPU功能标记的控制，以便云运营商可以限制对CPU较危险部分的访问，并减轻补丁对性能的影响。。

得到教训

对于像Cisco工程师Dave McCowan这样的OpenStack社区中的人(曾是OpenStack Barbican秘密管理项目的前项目技术负责人)，Meltdown and Spectre问题对于云运营商来说是一个很好的教训。

麦考文说：“吸取的教训是为可能发生的事情做计划。” “当您考虑构建云和规划工具时，请知道您可能需要从硬件上修补或替换系统中的任何内容。”

首页

常识问答

知识问答

精选问答

日常问答

经验问答

优选问答

甄选问答

要闻

生活

消费

经济

OpenStack运营商详细介绍了如何解决崩溃问题

猜你喜欢

最新文章