前几天AWS云计算出事故很多人在讨论,还有人整出来了个云震的名词。

不过很幸运,当时对本站所在的ec2没有影响(本站现在是运行在一个免费的ec2 micro上的,存储是一个10G的EBS)。当时我还庆幸,不过看来AWS这次事故还余震不断。

今天早上一起床就收到了监控宝发来的告警,本站无法访问了。第一反应是撞墙了。

但是没过多久,大概2小时以后,收到了亚马逊发来的警告,原文如下。反正就是说我那个EC2所在的硬件出故障了,很快这个EC2主机就将被terminate了。
ec2 notifivation
Terminate就是说那个EC2将从这个世上消失了,所有的数据都没了。

看到这封信,一下子有点慌了神。咱最近也没备份过呀。现在主机连不上,也没办法备份。看来平时并能偷懒,云也确实不牢靠呀。

现在只能登到AWS的EC2 Console上去看看有没有办法了。
虽然很担心,但是通过EC2 Console恢复本站的过程还是很顺利的,整个过程大概不到半小时。
下面是恢复的步骤:
1. 到EC2主机列表,选择还在运行,但是无法访问的EC2主机(H1),从它Launch一个一样配置的EC2主机(H2)。
2. 到EBS管理里,找到H1使用的EBS,做一个快照(S1),再从快照S1,生成一个EBS存储(E1)
3. 回到EC2主机列表,Stop主机H2,把H2使用的EBS存储(E2)detach,然后把E1 attach到H2上
4. 重新开启H2,这时H2本分配了一个新的外部IP(IP1),这时通过IP1已经能访问本站了
5. 最后到DNS提供商的管理界面那里把DNS指向IP1
6. Done,几分钟后监控宝就报告本站恢复了(他们的DNS更新怎么这么快?)。不过你现在可能还无法访问本站,因为DNS服务器的更新是个漫长的过程:(。

经过这次中彩,我对AWS的基础设施还是很满意的,如果这事发生在某托管机房,真不知道后果会是什么样。我们应该相信–未来在云端。

相关文章

    共享到: