注册有礼
< 返回资讯中心

阿里云故障运维团队复盘:不该出现这样的错误!

发布人:中嘉和信 发布时间:2018.06.28 来源:中国IDC圈

28日凌晨,阿里云官方微博发布《6月27日阿里云公告声明》,对27日故障原因作出正式回应,称在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

关于复盘故障原因,阿里云作出如下解释:称系工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug.错误代码禁用了部分内部IP,导致部分产品访问链路不通。

以下为公告原文截图:

服务器托管

事件经过如下:

27日下午,有众多网友在微博反馈,称阿里云控制台访问出现故障,后台登录不上,包括图片服务也已经挂掉。阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能也出现访问异常现象,部分用户反馈称手机端和PC端均无法访问。

故障从北京时间27日16:21左右开始,到16:50开始陆续恢复。

“上云”常态化,事故痛点并不能为客户买单

在企业上云的热潮之下,此类事件时有发生。

近年来,云计算产业蓬勃发展,企业上云已成常态。而据美国市场研究机构Synergy Research Group的数据显示,2018年第一季度,阿里巴巴超越IBM成为全球第四大云基础设施及相关服务的提供商。

客观讲,云计算平台并不能做到绝对安全,尤其是这些大企业,一旦发生故障,影响的更是大批客户。从国外亚马逊、谷歌、微软、Salesforce等厂商时不时曝出的一系列宕机、云服务中断事件来看,每次事故的后果都比较严重。除此之外,云运维也是一项复杂的系统工程,需要选择一套好的运维工具来助力云运维更加高效轻松。

目前国内的公有云市场尚在启动阶段,随着更多云服务厂商的入局,云计算市场竞争将更加激烈,与此同时,企业上云步伐也在不断加快,对今天的云计算服务商提出了更高的要求。云服务厂商们需更多做好自身服务,从平台安全、稳定、服务和技术支持等方面为客户做好服务支持,赢得客户信赖。

另外,国内外已诞生了“云保险”业务,早在2013年6月,美国保险公司Liberty Mutual就开始对外提供云计算保险服务。国内方面,2016年9月,云保险2.0版本已发布。今年年初,山东省经信委、财政厅、保监局联合印发了《关于支持首版次高端软件加快推进软件产业创新发展的指导意见》(以下简称《意见》),标志着国内首个云服务保险财政补贴试点工作已正式开启。

在云安全风险方面,目前阿里云给出的政策是100倍故障赔偿。虽说任何技术人员都不可能做到100%无故障发生,但事故痛点并不能成为造成客户损失的由头。尤其是作为大型的云计算厂商们,更是要严于律己,避免故障事件的发生。

中嘉和信成立于2006年,自建康盛数据中心于2016年投入使用,互联网骨干路由万兆高速光纤互联,六线BGP带宽接入,采用动态及多冗余设备链路架构,可按需扩充网络资源!中嘉和信凭借优秀的运营管理团队、经验丰富的客服团队,为用户提供“放心、安心、省心”的服务器托管服务等IDC一站式解决方案,可拨打010-51265666进行咨询,欢迎预约参观机房!

相关文章推荐《网络安全直面的五大威胁

热门新闻

版权所有©2018年北京中嘉和信通信技术有限公司京ICP备09037838号-6京公网安备11010602110005号