沒有挖斷光纖,也不是電力部門問題,更沒有所謂的消防警報延誤搶修時間,經(jīng)過記者多方調(diào)查核實,阿里云在香港中止服務(wù)12小時就是一起由硬件故障引發(fā)、搶修和恢復(fù)嚴(yán)重超時的事故。
沒有挖斷光纖,也不是電力部門問題,更沒有所謂的消防警報延誤搶修時間,經(jīng)過記者多方調(diào)查核實,阿里云在香港中止服務(wù)12小時就是一起由硬件故障引發(fā)、搶修和恢復(fù)嚴(yán)重超時的事故。
這類
數(shù)據(jù)中心的電力事故原本是國內(nèi)外云服務(wù)商普遍面臨的一大問題,但用一位業(yè)內(nèi)資深人士的話來說,“12小時才恢復(fù)實在太久了。應(yīng)該幾分鐘就解決的?!?br />
12小時的超長處理時間,以及過程當(dāng)中阿里云與相關(guān)方陸續(xù)給出的五花八門甚至自相矛盾的解釋,引發(fā)了用戶的不滿和業(yè)內(nèi)的質(zhì)疑,也暴露了阿里云在故障處理和公眾溝通中存在的問題。有部分用戶甚至反應(yīng)15個小時業(yè)務(wù)才恢復(fù)。
事故發(fā)生在6月21日上午9點到10點之間,一些使用阿里云香港數(shù)據(jù)中心的用戶發(fā)現(xiàn)服務(wù)出了問題,此后,阿里云方面通過博客公告稱由于運營商電力問題造成香港機房故障,正在搶修。
此后阿里云的客服給用戶的解釋幾易其口。有用戶告訴財新記者,事故后致電阿里云官方客服,得到的解釋是香港和大陸地區(qū)所連光纜挖斷,但用戶質(zhì)疑“難道只有一條光纜”后,阿里又回復(fù)稱是因為運營商的電力故障。
6月23日,阿里云方面向記者發(fā)來聲明對事故作出說明:6月21日上午9點37分,阿里監(jiān)控系統(tǒng)發(fā)現(xiàn)阿里云香港IDC運營商名氣通機房出現(xiàn)訪問異常,名氣通反饋原因為供電系統(tǒng)故障導(dǎo)致數(shù)據(jù)中心大樓整體斷電,并觸發(fā)消防報警。根據(jù)當(dāng)?shù)氐南酪?guī)定,必須徹底排查隱患并完全消除后,才能獲準(zhǔn)進場做電力搶修。21點22分機房正式恢復(fù)穩(wěn)定供電,阿里立即執(zhí)行既定預(yù)案逐項恢復(fù)服務(wù),21點32分安全防護服務(wù)恢復(fù)正常,各項服務(wù)陸續(xù)恢復(fù),截至23點39分全部服務(wù)恢復(fù)。
按照這份說明,阿里云香港服務(wù)癱瘓12小時主要是因為機房建設(shè)方和運營商名氣通電力故障,阿里云直到電力故障發(fā)生近12個小時后才得以進入機房搶修。從阿里云的解釋來看沒能及時搶修成功是因為整棟大樓都斷電而且無法切換備用電源,并且消防隱患排查耽誤了搶修時間。阿里云只用了10分鐘(21時22 分到21時32分)恢復(fù)了安全防護服務(wù),繼而用了兩個小時恢復(fù)全部服務(wù)。但事實并非如此。
消防警報子虛烏有
一時間,阿里云香港合作伙伴運營商名氣通被推上風(fēng)口浪尖,6月23日下午,名氣通方面經(jīng)財新記者多次詢問發(fā)來了官方回應(yīng),承認電力故障,但只字未提大樓整體斷電,以及消防火警等因素影響。
名氣通稱其香港二號數(shù)據(jù)中心于2015年6月21日上午9點40分,因電力出現(xiàn)故障,導(dǎo)致部分客戶服務(wù)中斷。名氣通第一時間啟動應(yīng)急方案,進行緊急搶修,並于下午2點恢復(fù)部客戶的服務(wù),並于當(dāng)日晚上9點50分,完全恢復(fù)電力供應(yīng),客戶服務(wù)全部回復(fù)正常。
在現(xiàn)場參與搶修的不愿具名人士告訴記者,當(dāng)時并未有火警以及消防等因素干擾,整棟大樓并未斷電,只有部分用戶受影響。“消防封樓因素造成客戶無法進入數(shù)據(jù)中心處理事故是謠傳?!痹撊耸棵鞔_表示。對于事故處理經(jīng)過,他稱:”就是電力故障,名氣通的部分用戶受到影響,阿里云是其中一個,名氣通的數(shù)據(jù)運營團隊第一時間就通知了客戶,最早的客戶10點不到就到了?!比欢?,問什么需要12小時才恢復(fù)電力,該人士稱自己并非工程出身無法回答。
事故責(zé)任雙方對于事故經(jīng)過解釋有出入。記者聯(lián)系了香港消防處,官方給出的回復(fù)稱,為了防止安全隱患,不排除因為故障觸發(fā)消防系統(tǒng)自動斷電。但消防處稱查閱火警記錄后告訴財新記者,21日上午9點到10點半這段時間內(nèi),名氣通機房所在的將軍澳地區(qū)并沒有關(guān)于名氣通二號數(shù)據(jù)中心的記錄。這意味著事故發(fā)生當(dāng)時當(dāng)?shù)貨]有接報火警,也沒有消防處人員到場處理,所謂消防因素延遲了事故處理的說法不成立。
業(yè)內(nèi)人士也向記者分析認為所謂消防因素不合常理。國內(nèi)一運營商在香港數(shù)據(jù)中心工作的人士告訴記者,名氣通二號數(shù)據(jù)中心所在的香港將軍澳產(chǎn)業(yè)村是香港最重要的數(shù)據(jù)中心集中區(qū)域,國內(nèi)運營商、香港地區(qū)多個重要金融機構(gòu)的機房均建設(shè)于此?!跋愀鄯矫嬖谙馈⑴_風(fēng)等各類備災(zāi)上是很注意的,因為消防安全處理造成一個機房十幾個小時不通電很難想象?!彼f。
針對各方質(zhì)疑,阿里云于6月23日傍晚再次致電記者,提供了更多事故細節(jié)。新的說法是:斷電并非整棟大樓,而是機房所在樓層,但因為物業(yè)工作人員考慮到安全問題要求整棟大樓疏散。而阿里云方面到下午14時才得以進入機房配合IDC運營商處理事故。
根據(jù)新說法,阿里云開始搶修和處理事故的時間并非晚上21時22分,而是下午14時,整整提前了七個多小時。
一位國內(nèi)大型互聯(lián)網(wǎng)公司IT基礎(chǔ)設(shè)施技術(shù)的負責(zé)人向記者分析了造成斷電的可能原因。他指出,國內(nèi)互聯(lián)網(wǎng)公司在國內(nèi)的機房就算外部電力全部切斷,也都有備用的柴油發(fā)動機,能夠維持的時間也比較久。在他看來,香港機房斷電最可能的原因是控電設(shè)備故障,接入強的外部直流電源無法實現(xiàn)切換,因而
服務(wù)器大面積斷電,導(dǎo)致服務(wù)器宕機。這類維修耗時較長。另一種可能的原因則是柴油發(fā)電機的供電模組不可用或者故障。
無論哪一類事故原因,斷電12小時在業(yè)內(nèi)都被認為是”太久了“。
CSC首席分析師張廣彬告訴記者,國內(nèi)外對數(shù)據(jù)中心的斷電有基本的5個9標(biāo)準(zhǔn),即一年之內(nèi)99.999%的時間內(nèi)不可以斷電。這意味著全年數(shù)據(jù)中心斷電的時長不能超過5分鐘。
這樣的標(biāo)準(zhǔn)在實際運行中很難達到。據(jù)張廣彬稱,機房斷電是國內(nèi)外云服務(wù)商面臨的一大問題,今年初國內(nèi)另一家云服務(wù)公司青云也曾遇到相關(guān)問題。而國外包括亞馬遜、Facebook等企業(yè)都曾遇到過電力故障。一旦斷電后,有可能對機房的硬件,以及云系統(tǒng)軟件構(gòu)成影響,即使恢復(fù)供電后也需要一定時間處理硬件和軟件故障。在他看來,持續(xù)12小時的斷電是近年來非常嚴(yán)重的事故:”阿里云作為大公司,因為用戶數(shù)量多所以影響范圍也比較大。“
用戶的不滿與阿里云的信任危機
阿里云用戶對此次事故的質(zhì)疑和不滿更多并非來自技術(shù),而是針對阿里云對事實的披露效率和誠信。
阿里云21日上午10點35分在博客上掛出公告稱故障正在搶修,希望用戶測試服務(wù)是否恢復(fù)正常,并電話或者工單反饋。
阿里云后來在給記者的回復(fù)中也稱在與香港名氣通進行深入復(fù)盤,并要求其盡快完成整改,避免此類問題再次發(fā)生。同時已經(jīng)啟動對客戶百倍賠償。阿里云稱:“我們深知賠償不能解決所有問題,我們對造成阿里云香港中斷服務(wù)深表愧疚。
云計算是一個復(fù)雜的系統(tǒng)工程,過程中有著各種艱難險阻。我們將一如既往地努力,消除一切隱患,共同和我們的客戶一起實現(xiàn)云計算夢想。”
然而,在阿里云等論壇上,不少用戶對阿里云的事后處理非常不滿。阿里云的米芽時代創(chuàng)始人童謠告訴財新記者,故障后網(wǎng)站無法訪問,無法切換。而公司對數(shù)據(jù)沒有本地備份和異地備份,業(yè)務(wù)直到晚上11點才恢復(fù)正常:“多次重啟服務(wù)器,嘗試了很多次才可以正常使用,根本沒有無縫銜接。”
童謠告訴財新記者,公司原本使用騰訊云服務(wù),后來覺得阿里云在傳輸穩(wěn)定性等方面更勝一籌就轉(zhuǎn)到了阿里云。但這次事件后,他們開始考慮將部分業(yè)務(wù)再次簽回騰訊云。
實際上,由于云服務(wù)是IT基礎(chǔ)服務(wù),一旦遇到公司提供的是平臺業(yè)務(wù),后續(xù)影響的將是各類普通用戶。周國星在國內(nèi)使用某交易平臺公司的服務(wù)進行比特幣交易,服務(wù)崩潰十幾個小時,交易受阻,損失無法評估。更讓他郁悶的是,阿里云只會賠償平臺,但平臺實際上沒有業(yè)務(wù),無所謂損失,只有他這樣的終端用戶會守著電腦一遍遍刷新幾個小時。在他看來,阿里云這樣大的公司,事故發(fā)生三個小時后才告之設(shè)備故障“很不正?!薄?br />
海外云服務(wù)模式安全么?
實際上,就在阿里云出事故的同時,自媒體人徐家俊也反映自己使用的另一家
虛擬主機商的主機也出現(xiàn)癱瘓。6月23日下午,徐家俊告訴記者目前服務(wù)恢復(fù),但公司未給任何公告以及事件解釋,公司客服方面稱要到6月23日晚間才回郵件告知事故原因。在他看來,
香港主機、機房和云計算服務(wù)出問題并非個例。香港云服務(wù)的安全性值得關(guān)注。
中國的很多互聯(lián)網(wǎng)公司之所以選擇香港數(shù)據(jù)中心,一方面是海外業(yè)務(wù)需求,另一方面是為了繞過內(nèi)地的數(shù)據(jù)備案制度。隨著創(chuàng)業(yè)公司大批涌入,以及互聯(lián)網(wǎng)公司海外業(yè)務(wù)需求,越來越多的公司選擇使用香港云服務(wù)。
前述國內(nèi)運營商人士告訴記者,香港地區(qū)氣候炎熱,且多有臺風(fēng)等災(zāi)害,在數(shù)據(jù)中心選址上并不特別有優(yōu)勢。但香港政府方面對數(shù)據(jù)中心建設(shè)非常支持,很多機房都提供免費的制冷供電,甚至提供兩個電力供應(yīng)商。此外,香港是亞太地區(qū)海底光纜集中交匯地區(qū),通訊覆蓋非常全。基于這樣的基礎(chǔ)設(shè)施,很多主機和數(shù)據(jù)中心建設(shè)商都選擇在香港建機房。
張廣彬告訴記者,因為海外業(yè)務(wù)吃重,美國的互聯(lián)網(wǎng)公司在海外設(shè)立數(shù)據(jù)中心時多選擇自建模式。但中國互聯(lián)網(wǎng)公司的云服務(wù)主要服務(wù)于自身本土業(yè)務(wù),在海外擴張時都采用租用模式,即租用機房和數(shù)據(jù)中心,數(shù)據(jù)中心運營交給合作伙伴,以此控制成本。雖然租用和自建在運營過程中沒有絕對的優(yōu)劣對比,但自建模式的內(nèi)部協(xié)調(diào)效率更高。
在這次事故中,阿里云和名氣通的事故處理都暴露了問題。張廣彬介紹,名氣通作為香港煤氣旗下公司,公司依租靠光纖和煤氣同管道鋪設(shè)在網(wǎng)絡(luò)覆蓋上有優(yōu)勢,國內(nèi)也已經(jīng)建立數(shù)據(jù)中心:”算是有名氣的公司,出這樣的問題還是很讓人意外的?!?br />
租用模式中合作伙伴的能力非常重要。騰訊云的合作伙伴是Equinix。騰訊云方面告訴財新記者對于數(shù)據(jù)中心運營商的選擇有嚴(yán)格要求:包括全球范圍內(nèi)有多個數(shù)據(jù)中心,超過15年的全球運營數(shù)據(jù)中心建設(shè)和運營經(jīng)驗,多年的良好可用性記錄。騰訊方面還強調(diào),對于IT設(shè)備等基礎(chǔ)設(shè)施都實行24小時全年輪班現(xiàn)場支持。但包括阿里和騰訊等在內(nèi),在香港地區(qū)都是單一數(shù)據(jù)中心,目前尚未具備同城備災(zāi)系統(tǒng)。
河南億恩科技股份有限公司(1tcdy.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認定的綜合電信服務(wù)運營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機 24小時售后服務(wù)電話:
0371-60135900
虛擬主機/智能建站 24小時售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報電話:
0371-60135995
服務(wù)熱線:
0371-60135900