山竹”台风过后,发觉选择数据中心没有想象中那么简单了

来源: IT商业新闻网 2018-09-21 17:07:26

  作者:新天域互联

  超强台风“山竹”刚刚过去4天,香港地区在第一个工作日已陆续复产复业复市。有谁敢相信,“山竹”袭来的当天,香港天文台的10号风球信号整整挂足了10个小时。

  根据香港中华电力当天新闻稿称,其供电系统在“山竹”的袭击下,40万伏特及13万2千伏特架空天线受到严重影响,导致约40000个客户供电中断。在这里新天域互联小编给大家做个小科普,中华电力(中电)负责香港九龙、新界区的电力供应,而港灯电力(港灯)负责香港港岛地区的电力供给,双方分工分明。举个例子来说,位于香港新界区葵兴ITECH TOWER 2的新天域互联数据中心,就只能使用到中电的电路系统。

  图:取自中电官网

  中电一直维持世界级的供电系统,可靠度达 99.999% 以上。如此稳定的可靠度有赖中电输配电网络采用环形配置,为客户提供双重电源。中电更透过设备完善的系统控制中心,以先进技术实时监控各输配电网络的情况,其中包括13,900座变电站以及长达14,500公里的高压电缆。中电完备的系统控制中心及专业的外勤队伍,提供7*24*365紧急服务,确保供电服务日夜无间。

图:取自中电官网

  断电危机

  众所周知,数据中心等电信类设施对稳定电力也有着很高的依赖性,而停电正正是它们的命穴所在。

  据Uptime Institute对全球1000家数据中心运营商和IT从业者进行的数据中心行业调查显示,在2014年,25%至46%的受访者都曾遭受断电对业务造成影响。

  简单列举几个案例如:

  l 2014年7月5日,位于弗罗里达的维基百科数据中心发生断电事故,导致全球范围宕机。

  l 2015年9月20日,亚马逊AWS一个数据中心遭遇停电事故,旗下Netflix,Tinder,Airbnb等应用程序的在线服务受到了影响。

  l 2017年5月27日,英国航空公司从Heathrow和Gatwick起飞的所有航班,原因是机房故障导致其全球运营严重中断。

  l

  数据中心应该怎么预防?如何解决呢?

  数据中心断电预防措施

  数据中心的主要功能,是为它所包含的关键任务应用程序提供稳定的正常运行。根据2016年Ponemon Institute的调查,UPS系统故障仍然是导致计划外数据中心宕机的首要原因。

  硬件方面

  2017年Uptime Institute拉斯维加斯的研讨会上指出,在已公开的停电事故当中,其中62%是由于IT设备服务供应商的问题。而如今“上云”成为大家迫不及待的选择,不仅需要信赖大品牌的能力,还要注重上云的方式和机房的硬件设备,如:机房五大系统的保障、双活机房,服务器、存储等配置情况及品牌;

  l 严格按照数据中心建造标准来建设;

  l 选用可靠的电力系统装置和冷却系统装置等;

  l 异地容灾、异地快照、异地还愿、镜像灾备的准备;

  l 对数据中心设备进行实时监控;

  l 根据专业机构建议对硬件进行合理升级。

  软件方面

  软件硬件双剑合璧才能使服务器发挥最大稳定效用。

  1、可通过DCIM管理软件对供电系统进行智能化管理;

  2、定时进行软件备份,按照既定时间进行数据备份;

  3、确保网络安全,建立运维文档和流程控制;

  人力方面

  Uptime Institute研讨会上同样指出,至少38%的断电情况是人为导致的。那么究竟什么是人为因素呢?以下几点属于管理过失问题:

  l 设计妥协。数据中心一定要按照高等级标准进行数据中心建设,尤其针对供配电系统、制冷系统等关键基础设施产品的应用提出严格要求,始终保证不妥协;

  l 培训预算削减。数据中心的持续稳定运行离不开优质运维人员的全力支援,除了新员工完整的培训流程一定要做好外,老员工的定期培训也是十分有必要,毕竟IT知识日新月异;

  l 裁员。裁员就意味着数据中心没有足够的人员支撑运行,无论是日常维护还是紧急情况处理,这些都需要足够又稳定的人员;

  l 预防性维护。管理者必须对数据中心里的每班当值人员进行充分的紧急情况培训,多模拟安全测试,准备好灾难应急方案;

  l 缺乏专业机房人才。邀请专业人员或公司加入到团队当中,加强高可用的数据中心管理体系;

  l 选择成本最低的供应商。无论是自建机房还是租用托管服务器,企业都必须根据自己实际情况,选择最好的硬件,最好的环境,最好的设备。

  l 定期演练

  断电解决措施

  有时候即便预防措施做齐了,还是会发生断电,这个时候,新天域互联给大家一点建议:

  l 首先在场人员必须先确认停电的线路,停电时刻等信息;

  l 按照灾难应急方案进行,第一时间通知各个相关部门;

  l 对数据中心里的设备进行检查,如服务器、UPS系统、核心系统等等;

  l 对数据中心进行有效的散热处理;

  l 工单记录;

  l 部件检查完毕时,区分优先恢复的步骤实施,确保用电功率情况正常;

  l 启动发电机,检测发电输出电流通断,待发电机运行稳定,按顺序启动制冷系统、主UPS的市电输入、客服系统、备用UPS的市电输入;

  l 发电机启动后,值班同事需将降温系统关闭,逐一检查所以设备是否正常;

  l 派专人现场值守,及时与油品供应商沟通。

  史上最强“山竹”台风来袭,正是考验一个数据中心应变能力,基础设施是否过关的最佳时机。在山竹抵港的十个小时里,新天域互联并未因停电而导致宕机事故的发生,整个数据中心井然有序,服务器持续高效运行,这源于新天域互联所采用的电气系统,冷却系统和备用柴油发电机均为2N冗余,能有效应对停电情况发生;更源于工作人员365天如一日的为用户提供最为高品质的服务。