黑天鹅寓示着不可预测的重大事件,他们常常带来意料之外的重大冲击,但人们总是视而不见,并习惯于以自己有限的生活经验和不堪一击的信念来解释它们,最终被现实击溃。
——《黑天鹅:如何应对不可预知的未来》
云的稳定可靠不单单是云服务提供商一直致力提升的关键点,也是云化型客户自身业务发展的痛点。黑天鹅事件的频发,值得我们去思考如何在享有云计算技术红利的同时,把握自身业务连续稳定的主动性。
如同世界气象组织发布的十种云类型,“云”这种技术作为企业数字化转型的支撑力量,也趋向于多种形态发展。从私有云、公有云、混合云的部署形态,到多云战略的提出,形态间的边界因“稳定可靠”的共同诉求而弱化。所以,如何结合自身场景,从更广义的多云战略视角通过容灾方案来实现业务的连续稳定,是我们关注的重点。
一、典型多云布局,让业务不再被动
严格意义上的多云战略与混合云的区别,主要在于多云不强调公、私兼备,而是“公、私、混合”形态的组合方案,如用户选择至少两朵不同厂商的公有云。其优势,除了可以利用多个不同云厂商自身的差异化服务,将流量传输到相应的业务云来降低成本外,更可在一家厂商出现如宕机等事故造成业务不可用时,快速将业务切换到另一朵云来保证连续性,即用“多云容灾”的方式诠释“鸡蛋不要放在同一个篮子里”的共识。
进行多云容灾前,需明确业务类型。对于无状态应用,建议从跨云应用双活方案着手,以负载分担的方式强化业务处理能力,并在单点故障时将全部请求进行引流。具体方案可参考华为云技术公众号《如何自助快速搭建“跨云安全容灾系统”》。对于稍复杂的应用,往往需要经验丰富的IT团队进行多云方案的设计与迁移,而依托华为17年容灾实践,我们将通过容灾咨询服务为企业定制容灾方案。
二、云上多点部署,快速实现高可靠
由于人员误操作、硬件故障等因素造成的宕机往往发生在个别可用区内,企业可通过跨AZ容灾策略进行快速规避。不同云厂商对此支持程度不同,以华为云为例,存储容灾服务(SDRS)提供了业界唯一跨AZ RPO=0的容灾能力,保障数据零丢失。容灾端虚拟机正常时无需启动,更节省容灾成本,同时提供的容灾大屏及一键式容灾演练功能让客户实时了解业务可用状态,并让日常演练更加便捷。SDRS服务将于3月30日正式商用,敬请期待。
再进一步,为防范如自然灾害等不可抗力造成的地域性影响,可采用云上两地三中心方案部署,将生产数据中心和容灾中心部署在华为云两个不同Region,并在生产中心采用上述双AZ部署方案。生产站点某AZ故障时,切换到另一个AZ并进行数据库主备切换;当生产站点全体故障时,切换数据库主备状态,并将DNS授权修改为生产站点0%,容灾站点100%。本方案可提供最高程度的业务连续性和数据可用性保证。
谁也不知道,隐藏的暗流何时会变成滔天巨浪。我们畏惧的不是黑天鹅引发的事故,而是没有应对事故的能力。若想在事故发生后仍能掌握主动权,保证业务连续稳定运行,多云战略就应该早日提上议程。
一次次事故为我们敲响警钟,未雨绸缪远比事后亡羊补牢更为重要。