云計(jì)算條件下如何實(shí)現(xiàn)有效資源調(diào)度 |
發(fā)布時(shí)間: 2012/8/7 9:21:20 |
高性能計(jì)算可能會(huì)采取一種不同的、使用密集多核服務(wù)器的方式進(jìn)入云計(jì)算。用戶可以在桌面上就將作業(yè)加到SGE中去。這種資源調(diào)度方式會(huì)接觸可以運(yùn)行虛擬機(jī)的本地資源或者云中資源。這種資源調(diào)度方式可能會(huì)讓HPC實(shí)現(xiàn)寶貴的桌面化。
資源調(diào)度從來(lái)就不是個(gè)誘人的話題。它們是必須要做的事情,但是通常很復(fù)雜而且常常令用戶沮喪、讓系統(tǒng)管理員忙碌。最常見(jiàn)的抱怨是:“為什么我的作業(yè)沒(méi)有運(yùn)行?”問(wèn)題的答案通常依賴于對(duì)一些調(diào)度規(guī)則的解釋,或者干脆說(shuō)已經(jīng)滿負(fù)載,或者在極罕見(jiàn)的情況下稱一個(gè)用戶的程序?qū)е铝嗽搯?wèn)題。 如果你不知道什么是資源的時(shí)刻表,那么接下來(lái)的這幾段必須要看了。這個(gè)名詞是說(shuō),您有很多個(gè)資源、很多個(gè)作業(yè)在排隊(duì),需要列出這些資源以最佳的狀態(tài)工作。一些常見(jiàn)的資源調(diào)度比如SunGird、Engine,Torque/Maui、Moab、PBS、Platform以及PlatformLava。集群是體現(xiàn)資源調(diào)度最好的例子。在一個(gè)128節(jié)點(diǎn)的集群里,每個(gè)計(jì)算節(jié)點(diǎn)有八個(gè)核。大部分的用戶的程序需要1-16個(gè)核來(lái)工作,但是有一些需要256個(gè)核。問(wèn)題就是,給出一個(gè)工作的清單,什么才是這個(gè)集群被充分利用的最佳工作方式? 用戶在提交“作業(yè)”的時(shí)候經(jīng)常通過(guò)一個(gè)腳本(類似于qsub,queuesummit)使得作業(yè)插入到隊(duì)列調(diào)度中去,如果被允許,用戶可以使用類似qstat(queuestatus,隊(duì)列狀態(tài))的腳本來(lái)控制自己的程序,同時(shí)打印出一些讓人困擾的信息,沒(méi)有一個(gè)信息可以回答你“為什么我的作業(yè)沒(méi)有運(yùn)行”(當(dāng)然,這里也提供了這條消息,但是看起來(lái)最簡(jiǎn)單的方式還是給系統(tǒng)管理員發(fā)個(gè)郵件)。 為了使調(diào)度問(wèn)題更棘手一點(diǎn),在某些情況下,我們不知道這些應(yīng)用程序?qū)?huì)運(yùn)行多長(zhǎng)時(shí)間,而且也許有一些其它所需的資源(比如內(nèi)存容量、存儲(chǔ)、處理器類型等)。因此,資源調(diào)度這個(gè)工作并不簡(jiǎn)單,但是對(duì)于集群利用率來(lái)說(shuō)非常重要。實(shí)際上,多核的出現(xiàn)使得內(nèi)核級(jí)調(diào)度工作比以前更加重要(當(dāng)然也更加困難)。在內(nèi)核級(jí),內(nèi)核必須被安排,而且將任務(wù)在核心之間互相轉(zhuǎn)移必須基于緩存。有趣的是,高層次的資源調(diào)度能力已經(jīng)延伸到CPU,控制核心的位置對(duì)獲得最好性能是非常必要的。 為什么資源調(diào)度將會(huì)成為高性能計(jì)算以后新的、很酷的工具?并不是因?yàn)橐环N新的額GUI或者一些其它的神秘的功能。真正的原因是云計(jì)算。但是這并不意味著云將會(huì)很快到處都是,實(shí)際上,資源調(diào)度將會(huì)把云放在合適的地方。 最近,我聽(tīng)到一個(gè)新澤西技術(shù)研究所的DavidPerel使用SunGridEngine(SGE)所做的ApacheHadoop動(dòng)態(tài)資源分配實(shí)驗(yàn)。隨后有一個(gè)深入的研究,有關(guān)SunGridEngine更新的文章。在新的版本里有兩個(gè)誘人的更新,第一個(gè)是云計(jì)算,第二個(gè)則是Hadoop,類似于一種大眾云計(jì)算的東西。 最特別的是,SGE新的版本允許云中的互換,就好像亞馬遜的EC2。作業(yè)被允許,SGE可以控制之間的聯(lián)系。使用EC2的話,用戶需要為應(yīng)用程序構(gòu)建AMI圖像。除此之外,他們還需要提供EC2上的賬戶信息。一旦做到這一點(diǎn),用戶可以講作業(yè)插入隊(duì)列,對(duì)于EC2來(lái)說(shuō),則有了一個(gè)“云爆發(fā)”。 另外一個(gè)新功能是與Hadoop的整合。如果你不知道什么是Hadoop的話,那就Google一下。只是架設(shè)好一個(gè)Hadopp集群并非易事。這是一種不依賴一個(gè)數(shù)據(jù)庫(kù)的強(qiáng)大的搜索模式。通常,地圖搜索減少啟動(dòng)服務(wù)器的數(shù)量,給每個(gè)本地硬盤(pán)驅(qū)動(dòng)器設(shè)置不同的數(shù)據(jù)。SGE已經(jīng)得到增強(qiáng),現(xiàn)在Hadoop作業(yè)可以直接提交。 在這一點(diǎn)上行,云中的高性能計(jì)算是一件喜憂參半的事情。除非你使用一個(gè)特別設(shè)計(jì)的HPC云計(jì)算,就好像Penguin的POD服務(wù),對(duì)HPC性能至關(guān)重要的I/O資源可以多樣化。這可能會(huì)改變。作為單獨(dú)服務(wù)器包含更多內(nèi)核。HPC應(yīng)用調(diào)查顯示,57%的HPC用戶使用32處理器或者更少的核心。這些人證實(shí)了ClusterMoney.net有關(guān)此調(diào)查55%的數(shù)字。當(dāng)云計(jì)算開(kāi)始使用48個(gè)內(nèi)核的服務(wù)器時(shí),可能會(huì)消除一些服務(wù)器到服務(wù)器通信問(wèn)題的形成。 高性能計(jì)算可能會(huì)采取一種不同的、使用密集多核服務(wù)器的方式進(jìn)入云計(jì)算。用戶可以在桌面上就將作業(yè)加到SGE中去。這種資源調(diào)度方式會(huì)接觸可以運(yùn)行虛擬機(jī)的本地資源或者云中資源。這種資源調(diào)度方式可能會(huì)讓HPC實(shí)現(xiàn)寶貴的桌面化。聽(tīng)起來(lái)像網(wǎng)格計(jì)算,但是更簡(jiǎn)單。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |