防范未然让世界早有准备
“数据库被删了、勒索病毒原来这么厉害、英航空大面积延误、鹿晗微博过热导致服务器宕掉了……2017年,媒体公开报道的IT宕机事件原因各异,有传统的病毒攻击,也有明星热度引发的宕机、甚至还有前所未闻的前员工删库跑路事件……”
下面,我们甄选了十大国内外IT宕机事件——防范未然,让世界早有准备!
事件1:今日头条服务器宕机
影响评级:★★
时间:2017.1.6
原因:服务器故障。
持续时间:此后长达30分钟时间内仍未解决。
影响范围:不少用户发现今日头条出现宕机情况,页面刷新不显示,头条号的编辑后台亦无法进入。
警示:做好服务器系统的业务连续性建设。
新闻来源:网易财经>>>
事件2:Gitlab误删数据库
影响评级:★★★★
时间:2017.1.31
原因:Gitlab 遭受DDoS 攻击,导致数据库写入锁定,网站出现不稳定和宕机,在阻止了恶意邮件发送者之后,运维人员开始修复数据库不同步的问题,在修复过程中,错误的在生产环境上执行了数据库目录删除命令,导致300GB数据被删除,Gitlab 被迫下线。
持续时间:18小时的服务中断
影响范围:丢失用户近6小时的数据
警示:加强IT审计,备份和恢复测试
新闻来源:钛媒体>>>
事件3:Instapaper宕机
影响评级:★★
时间:2017.2.9
原因:数据故障是由2014年4月之前创建的RDS实例的2TB文件大小限制造成的,而2014年4月以后创建的实例由ext4文件系统支持,并受6TB文件大小限制。失败的关键系统是我们的MySQL数据库,该数据库作为托管解决方案在Amazon的关系数据库服务(RDS)上运行。
持续时间:2月14日服务才全面恢复
影响范围:用户无法正常访问页面
警示:每月测试MySQL备份,强化应急中断工程团队建设
新闻来源:搜狐CSDN>>>
事件4:百度搜索移动端故障
影响评级:★★
时间:2017.2.28
原因:未给出原因。
持续时间:20:50- 21:25。
影响范围:用户用百度移动端APP无法搜索内容。
警示:需要强化快速恢复服务的能力。
新闻来源:新浪科技>>>
事件5:微软Azure云服务全球大面积故障
影响评级:★★★
时间:2017.3.16
原因:Storage存储问题,一个微软工程团队确认原因为断电导致的存储集群不可用。
持续时间:3月16日6:42-15:37。
影响范围:微软分布在全球各地的28个数据中心里,26个出现了存储故障。部分地区使用 Storage服务的用户在执行服务管理运营操作(比如创建、更新、删除)时,可能会收到报错提醒。其他使用Storage的服务可能也会受到影响。
警示:加强防止大规模数据中心故障发生的制度性工作。
新闻来源:36氪>>>
事件6:Digital Ocean删库宕机
影响评级:★★★
时间:2017.4.5
原因:主数据库被删除了。
持续时间:4小时56分钟。
影响范围:这次故障导致其控制面板和API失灵,因而害得客户无法创建新的虚拟服务器(即所谓的“Droplet”)。
警示:除了对主数据库的访问进行新的限制外,还对网络进行了升级,加快数据库服务器连接的速度。
新闻来源:搜狐云头条>>>
事件7:全球多地爆发“WannaCry”系列勒索病毒
影响评级:★★★★★
时间:2017.5.13
原因:WannaCry利用Windows操作系统445端口存在的漏洞进行传播,并具有自我复制、主动传播的特性。
持续时间:影响一周时间,并有变种病毒。
影响范围:英国、中国、俄罗斯等99个国家在医疗、教育、企业、电信等机构受到影响严重,受感染服务器的关键数据丢失,业务中断。
警示:及时修订系统漏洞,做好关键数据的CDP持续保护。
新闻来源:腾讯科技 >>>
事件8:英国航空航班大面积延误
影响评级:★★★★
时间:2017.5.27
原因:可能是由于将网络系统外包给印度公司造成。
持续时间:超过2天时间。
影响范围:英航在全世界的值机系统和飞行系统都受到影响,呼叫中心和官方网站也无法正常运行,导致航班无法起飞,大量乘客滞留机场,很多人的行李也无法拿到。
警示:机场等重要交通场所需要建立可靠、可控的备份系统,并及时启用备用系统。
新闻来源:界面新闻>>>
事件9:荷兰海牙云主机商verelox前员工删库
影响评级:★★★★★
时间:2017.6.10
原因:一名前任管理员删光了该公司所有客户的数据,并且擦除了大多数服务器上面的内容,客户数据恢复希望渺茫。
持续时间:一周内恢复正常。
影响范围:暂时将verelox网络下线。verelox一直在努力恢复数据,但是这个方法可能恢复不了已丢失的所有数据。
警示:建议更改所有服务器密码,建立数据防删机制。
新闻来源:IDC评述网>>>
https://www.idcps.com/news/20170610/95173.html
事件10:微博因鹿晗微博热度过高宕机
影响评级:★★★
时间:2017.10.8
原因: 由于鹿晗微博热度过高,访问量太大。
持续时间:当天下午2点。
影响范围:微博出现罕见的宕机导致微博客户端访问缓慢。
警示:备份更多的服务器以应对高并发海量访问需求。
新闻来源:IT之家>>>
https://www.ithome.com/html/it/329034.htm
『总结』
IT系统宕机,已经从2015年的责任追究,到2016年的全民认知提升,到今年勒索病毒导致数据丢失的众所周知,全行业对信息系统的安全性的关切提升到新的高度。
与此同时,我们也欣喜看到,除了个别事件由于遭受恶意删库无法恢复,与“2016年国内外宕机事件盘点”相比,2017年的系统宕机事件的恢复时间都有了很大的提升,表明事件故障机构对系统恢复的能力有显著的提高。
防范未然,让世界早有准备!所有信息化浪潮下的组织机构,建立专业、可靠的数据灾备和业务连续性体系不仅仅是规范企业自身的IT建设需求,更是用户在产品质量信得过以外,企业服务信得过方面的又一重要诉求。
为此,我们依旧建议:
建设专业的灾备系统,不要有侥幸心理
|
|
||||||
|
|
||||||
|
|