解決數(shù)據(jù)中心容量危機的五條經(jīng)驗 |
發(fā)布時間: 2012/9/9 23:35:35 |
2005年,位于太平洋西北的國家實驗室數(shù)據(jù)中心發(fā)生了一些問題。幾乎每個月都有臨時中斷的情況發(fā)生,每次都使數(shù)據(jù)中心宕機幾個小時。國家實驗室數(shù)據(jù)中心服務(wù)經(jīng)理Ralph Wescott表示,企業(yè)購買越來越多的機架服務(wù)器來提高計算資源,現(xiàn)在機架服務(wù)器的價格已經(jīng)很便宜了,在當時還是非常昂貴的。國家實驗中心是由美國能源部管理。在2005年的七月,服務(wù)器空間已經(jīng)達到了它的容量限制。 “集團會買來一個服務(wù)器,然后放到我面前說'嘿,把這個裝上" Wescott 說,“ 但是我已經(jīng)沒有任何空間、電能或制冷(容量)了。如果我再安裝多一個的話,整個空間就會變暗。” Wescott和PNNL在不損害預算的情況下,著手做了一個項目來修補他們的數(shù)據(jù)中心。三年來的每個季度,數(shù)據(jù)中心團隊會花一個周末關(guān)閉服務(wù)器,換掉一些老的服務(wù)器,用一些更高效的運行在天花板上的網(wǎng)絡(luò)線纜取代地板上錯綜復雜的網(wǎng)絡(luò)電纜。新配置可以更有效的在地板下制冷。 結(jié)果呢?PNNL把原來的500臺服務(wù)器運行的500個應(yīng)用轉(zhuǎn)到了在150臺服務(wù)器上運行800個應(yīng)用。 IDC分析公司金融執(zhí)行策略技術(shù)總監(jiān)Joseph Pucciarelli表示,在緊張的經(jīng)濟情況下,解決這些信息技術(shù)項目要求緊控成本。 “這種情況是很常見的,”他說,“公司的投資都是預算好的。當問題出現(xiàn)時,他們看待問題也是以一種受迫的方式來對待。” 以下就是PNNL把數(shù)據(jù)中心從危險的邊緣拉回來的一些經(jīng)驗總結(jié)。 1. 計劃。不要受第一個問題影響。Wescott表示需要解決的就是當數(shù)據(jù)中心每個小問題出現(xiàn)的時候,團隊都會受到影響的習慣,而不是看到體系的問題,就創(chuàng)建一個計劃來創(chuàng)建一個可持續(xù)服務(wù)。除了500臺服務(wù)器,數(shù)據(jù)中心有33000個線纜把服務(wù)器和電能、網(wǎng)絡(luò)和安全系統(tǒng)連接起來。 “我們決定數(shù)據(jù)中心的樣子和它的容量。”他說。 團隊最后總結(jié),當前的軌跡會導致3000個應(yīng)用,并且每個都在它自己的服務(wù)器上運行了10年,F(xiàn)在,數(shù)據(jù)中心有81%的虛擬應(yīng)用——Wescott計劃達到90%。 IDC的Pucciarelli表示公司應(yīng)集中在三個方面來提高容量。減少物理服務(wù)器和虛擬系統(tǒng)上運行的程序可以幫助減少功耗要求,就像這樣做可以使制冷系統(tǒng)更高效,同時也能改善電力分配一樣。他說:“在更新數(shù)據(jù)中心時,那是典型的你應(yīng)該去做的事情。” Pucciarelli遇到了很多僅用兩個或三個更大容量系統(tǒng)取代高達50臺服務(wù)器的公司,這些公司使用虛擬化運行應(yīng)用。 2.監(jiān)控工具。PNNL公司的Wescott表示,數(shù)據(jù)中心經(jīng)理需要一些方法來測量監(jiān)控數(shù)據(jù)中心的狀態(tài),但是所有的都太頻繁了,他們并沒有合適的工具來監(jiān)控。在改變之前,太平洋西北國家實驗室沒有任何方法來測量數(shù)據(jù)中心的高效性。當房間變暗時,就會發(fā)現(xiàn)電力問題;蛘邞{經(jīng)驗?zāi)阋部梢园l(fā)現(xiàn)一些問題。 “如果電力供應(yīng)導致電流太大了,我發(fā)現(xiàn)可能是斷路了。如果它是溫的,那么我知道我們有問題了”他說,“那就證明你需要工具了。” 現(xiàn)在,PNNL在低、中、高點的第四個柜子上都有傳感器,通過傳感器創(chuàng)建一個服務(wù)器空間的三維熱地圖。這些數(shù)據(jù)允許Wescott改變冷卻數(shù)據(jù)中心的方法,在需要的地方可以提高整體的溫度和制冷。 他說:“我認為那會給我節(jié)省很多錢,主要是空調(diào)的磨損什么的。”他還補充到,目前估計數(shù)據(jù)中心在冷卻方面的效率提高了40%。 3.循序漸進。Wescott表示在不影響操作的情況下從根本上重新配置數(shù)據(jù)中心是一個主要問題。管理者強調(diào)逐步采取措施減小故障的發(fā)生,但把決定留給了管理者。 “我給管理部門提供了兩個選擇” Wescott說,“一個是從頭做起,在整個校園花費七天時間;另一個是我們在每個周末斷一次線。” Wescott表示,通過采取小步驟,我們團隊準備一次一排替換數(shù)據(jù)中心。在第一個為期三天的周末,30個人的團隊在數(shù)據(jù)中心花了14個小時,換了一排機架服務(wù)器,并測試了新的配置。很快,數(shù)據(jù)中心變的更可靠,性能也更穩(wěn)定。 他表示,如果管理部門不同意數(shù)據(jù)中心癱瘓,提醒他們有一個癱瘓計劃比突如其來的無計劃的故障要好。 Wescott說:“你不能在船航行在海上時,給船的底部刷油漆,但是如果你永遠都不刷,它就會下沉。” 4.為了長期效益投資。 為了減少冷卻系統(tǒng)的能源要求,Wescott集團評估了節(jié)水裝置,這個節(jié)水裝置是利用水和外面的溫度來冷卻機架服務(wù)器。他們估計使用環(huán)境冷卻系統(tǒng)從長遠看更節(jié)省資金,節(jié)水裝置的冷卻機組價格比預算也高出了10%。Wescott通過與供應(yīng)商協(xié)商,把價格降到了預算內(nèi)。 “他們已經(jīng)付出了很高的代價了”他說。 5.總結(jié)能耗分布 在重建數(shù)據(jù)中心時,找出你不懂的,管理者也需要找出能源消耗的很少或沒有收獲的地方。數(shù)據(jù)中心的瑕疵是ghost和服務(wù)器。 Ghost服務(wù)器是已經(jīng)被部署的,但仍未被使用的機器。他們?nèi)匀恍枰芰,它的核心工作不是幫助?shù)據(jù)中心。一個閑置的服務(wù)器是某人放在辦公室、放在數(shù)據(jù)中心的外面的機器,位于任何數(shù)據(jù)中心人員限制外的。 Wescott表示這樣的服務(wù)器會浪費大量的能量預算。 “那些應(yīng)該每晚關(guān)閉空調(diào)的建筑里面就一直讓他們的閑置服務(wù)器運行著”他說。 自從他開始修改基礎(chǔ)設(shè)施,數(shù)據(jù)中心只有一個單一的計劃外的停機——由于一個極熱的天和一個冷卻系統(tǒng)的失敗——Wescott知道他還沒有完成這項工作,推遲是不可避免的。 “我們已經(jīng)計算好了”他說,“在今后的五年里,因為存儲我將會走出空間(room),并且我很可能會用完那個空間的空間。” 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |