百度陳尚義:百度新存儲(chǔ)系統(tǒng)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn) |
發(fā)布時(shí)間: 2012/6/22 10:34:02 |
近日,百度技術(shù)委員會(huì)理事長(zhǎng)陳尚義應(yīng)邀出席第四屆中國(guó)云計(jì)算大會(huì)“云計(jì)算與大數(shù)據(jù)專題論壇”。同時(shí)出席論壇的還有電子學(xué)會(huì)名譽(yù)理事長(zhǎng)、原信息產(chǎn)業(yè)部部長(zhǎng)吳基傳,中國(guó)電子學(xué)會(huì)副理事長(zhǎng)劉汝林,北航計(jì)算機(jī)學(xué)院院長(zhǎng)呂衛(wèi)鋒等產(chǎn)業(yè)界高端專家、學(xué)者。
陳尚義在論壇上作題為“百度大數(shù)據(jù)挑戰(zhàn)及應(yīng)對(duì)”的主題演講,從百度的數(shù)據(jù)特點(diǎn)及對(duì)存儲(chǔ)系統(tǒng)的要求出發(fā),介紹了百度存儲(chǔ)系統(tǒng)的先進(jìn)性。 “百度儲(chǔ)存和處理的數(shù)據(jù)主要包括:網(wǎng)頁和超鏈的數(shù)據(jù)量、日志、數(shù)據(jù)倉(cāng)庫、廣告數(shù)據(jù)、UGC(用戶創(chuàng)造的數(shù)據(jù))” 陳尚義紹了百度的數(shù)據(jù)特點(diǎn),并用“海量”和“復(fù)雜”來形容百度數(shù)據(jù)特點(diǎn)。“百度擁有的數(shù)據(jù)總量上百PB,日處理量達(dá)幾十PB,且呈現(xiàn)高速增長(zhǎng)的態(tài)勢(shì)。而且,這些數(shù)據(jù)的特點(diǎn)是,結(jié)構(gòu)化與非結(jié)構(gòu)化并存,系統(tǒng)數(shù)據(jù)對(duì)數(shù)據(jù)一致性要求強(qiáng)弱程度不同,用戶對(duì)數(shù)據(jù)的訪問行為存在不確定性,即在毫無征兆的情況下,對(duì)某些信息進(jìn)行突發(fā)式訪問等。這些特點(diǎn)使得百度要應(yīng)對(duì)復(fù)雜的存儲(chǔ)要求。” 如何應(yīng)對(duì)這樣的挑戰(zhàn),陳尚義通過解析百度的云儲(chǔ)存架構(gòu)及優(yōu)勢(shì),為與會(huì)嘉賓解開了疑惑。其中,陳尚義特別指出,百度對(duì)存儲(chǔ)系統(tǒng)做了全局優(yōu)化,包括針對(duì)訪問模式的優(yōu)化、針對(duì)硬件特性的優(yōu)化、依訪問模式定制硬件、提升單機(jī)性能、與CDN系統(tǒng)實(shí)現(xiàn)更優(yōu)結(jié)合。 “比如,在硬件特性優(yōu)化方面,百度對(duì)單機(jī)的硬件(CPU、內(nèi)存、硬盤、SSD等)進(jìn)行合理配比,以實(shí)現(xiàn)單機(jī)資源的充分利用。”陳尚義解釋說,“又如,在與CDN系統(tǒng)實(shí)現(xiàn)更優(yōu)結(jié)合方面,百度將最常被訪問的數(shù)據(jù)自動(dòng)緩存到距離用戶最近的數(shù)據(jù)中心。” 在介紹百度儲(chǔ)存優(yōu)勢(shì)時(shí),陳尚義還介紹了李彥宏發(fā)明的超鏈分析技術(shù)。“這一技術(shù)早在1999年就被授予了專利,比Google創(chuàng)始人佩奇申請(qǐng)的Pagerank專利還早,是搜索引擎產(chǎn)業(yè)發(fā)展的基石。原中國(guó)計(jì)算機(jī)學(xué)會(huì)理事長(zhǎng)、中國(guó)工程院院士李國(guó)杰先生稱贊‘李彥宏在推動(dòng)計(jì)算技術(shù)和產(chǎn)業(yè)的發(fā)展中做出了可載入史冊(cè)的歷史性貢獻(xiàn)’。” 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |