如何來(lái)應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)? |
發(fā)布時(shí)間: 2012/6/20 20:19:46 |
隨著物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新的互聯(lián)網(wǎng)技術(shù)的發(fā)展,在為人們帶來(lái)便利的同時(shí),也產(chǎn)生了大量的、結(jié)構(gòu)化的非格式化的數(shù)據(jù)。如何通過(guò)數(shù)據(jù)挖掘,從海量數(shù)據(jù)中獲得有用的信息,為用戶提供好的用戶體驗(yàn),增強(qiáng)企業(yè)的競(jìng)爭(zhēng)力,這對(duì)企業(yè)來(lái)說(shuō)是一個(gè)挑戰(zhàn)。
各巨頭的數(shù)據(jù)量級(jí)大曝光
百度威廉·張表示,“數(shù)百PB,每一天需要處理的數(shù)據(jù)是數(shù)十個(gè)TB,許多數(shù)據(jù)要在幾秒鐘之內(nèi)處理,很多數(shù)據(jù)在幾分鐘之內(nèi)要處理,更多的是幾個(gè)小時(shí)之內(nèi)處理就夠了,幾個(gè)小時(shí)處理數(shù)十個(gè)PB的數(shù)據(jù),也是很困難的。所有的策略都是針對(duì)實(shí)時(shí)性和數(shù)據(jù)處理的時(shí)效性理來(lái)做的。互聯(lián)網(wǎng)用戶的需求是更加實(shí)時(shí),如微博、團(tuán)購(gòu)、秒殺等,所以說(shuō)實(shí)時(shí)處理十分重要。”
Yahoo!周軼平談道,“雅虎的云計(jì)算平臺(tái)綜述超過(guò)三萬(wàn)臺(tái)機(jī)器,最大的超過(guò)4000太左右,總存儲(chǔ)容量超過(guò)了100PB。”他表示,雅虎最近放了很多精力在保護(hù)用戶的隱私和數(shù)據(jù)安全性上,歐盟規(guī)定雅虎不能夠存儲(chǔ)用戶的數(shù)據(jù)超過(guò)一百天,雖然不能保存,但是雅虎做很深入的數(shù)據(jù)挖掘,從數(shù)據(jù)瓦局得到一些真正有價(jià)值的信息,并把這些信息保存下來(lái)。
SAP杜濤也介紹了其需要幫助客戶處理的數(shù)據(jù)量的級(jí)別,“SAP作為企業(yè)級(jí)應(yīng)用的提供商,更關(guān)注客戶的數(shù)據(jù)量是多少,這些客戶包括中小型企業(yè)到大型的客戶,其中有數(shù)據(jù)密集型的企業(yè),如電信、金融、政府、零售等等,客戶的數(shù)量級(jí)包括從幾個(gè)TB到數(shù)百個(gè)TB。”同時(shí),SAP自己有一個(gè)很大的數(shù)據(jù)中心,主要是為SAP的客戶提供服務(wù),有三萬(wàn)臺(tái)服務(wù)器,數(shù)據(jù)量大概是15TB并且有越來(lái)越多的客戶的數(shù)據(jù)會(huì)在SAP的數(shù)據(jù)中心。
如何存儲(chǔ)并利用這些海量的數(shù)據(jù)?
如此海量的數(shù)據(jù),如何進(jìn)行存儲(chǔ)、分析、處理?并基于海量數(shù)據(jù)的挖掘,為企業(yè)創(chuàng)造更大的商業(yè)價(jià)值?針對(duì)海量數(shù)據(jù)的挖掘的技術(shù)架構(gòu),幾位專家分別介紹了自己的法寶。
SAP杜濤從兩個(gè)方面介紹SAP的海量數(shù)據(jù)處理方法,“一方面,在SAP的數(shù)據(jù)中心,采用了標(biāo)準(zhǔn)的云計(jì)算所用的虛擬化和分布式存儲(chǔ);另一方面,針對(duì)單獨(dú)的企業(yè),SAP在4月16號(hào)在德國(guó)發(fā)生了內(nèi)存計(jì)算技術(shù)。海量數(shù)據(jù)的讀取和分析,在傳統(tǒng)的架構(gòu)下,基于磁盤(pán)的IO是以毫秒級(jí)來(lái)計(jì)算的,而在內(nèi)存RAM中處理時(shí)間是nm級(jí)的。所以SAP把客戶的數(shù)據(jù)經(jīng)過(guò)壓縮的處理放到內(nèi)存中去,進(jìn)行讀取和分析,把之前在應(yīng)用層的分析放到內(nèi)存里面去做,提升性能,幫助用戶充分利用他們的數(shù)據(jù)。”
Yahoo!的云計(jì)算的體系是以Hadoop為中心的,周軼平介紹到,并從數(shù)據(jù)采集(HDFS)、數(shù)據(jù)存儲(chǔ)和處理、數(shù)據(jù)服務(wù)三個(gè)層面入手,介紹了雅虎的海量數(shù)據(jù)處理的方案。數(shù)據(jù)采集方面,yahoo建立了DataHave負(fù)責(zé)從雅虎遍布全球數(shù)據(jù)中心中的幾十萬(wàn)臺(tái)機(jī)器上實(shí)時(shí)收集數(shù)據(jù),它有2個(gè)干道,主干道負(fù)責(zé)把數(shù)據(jù)以很高的一致性經(jīng)過(guò)各種過(guò)濾清理以后,放到Hadoop的平臺(tái)上。但是這樣的處理方法實(shí)時(shí)性不是很高,為了滿足實(shí)時(shí)性的需求,還有一個(gè)旁道系統(tǒng),能夠在秒級(jí)直接將數(shù)據(jù)源導(dǎo)入到Hadoop上。雅虎的數(shù)據(jù)處理都是基于Hadoop的實(shí)時(shí)的服務(wù),同時(shí)Yahoop還有一套很大的不同業(yè)務(wù)邏輯所需求的服務(wù)系統(tǒng),超過(guò)一半的數(shù)據(jù)處理都是使用HadoopPig數(shù)據(jù)引擎。
百度威廉·張表示,面對(duì)互聯(lián)網(wǎng)的云計(jì)算,大搜索是基于索引的,如何對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)地快速的更新,就需要進(jìn)行一些優(yōu)化。比如說(shuō)根據(jù)數(shù)據(jù)更新的頻率,建立在更新系統(tǒng)快或是更新系統(tǒng)慢的系統(tǒng)之上,根據(jù)地域的登錄跟重要性的登錄把它放到南方或者是北方的機(jī)房里,也就是說(shuō),主要是根據(jù)數(shù)據(jù)的應(yīng)用來(lái)策略。機(jī)器學(xué)習(xí)的算法,內(nèi)存里面的數(shù)據(jù)進(jìn)行高復(fù)雜度的計(jì)算,可能要花費(fèi)很長(zhǎng)的時(shí)間,這在百度的環(huán)境中是不行的,無(wú)論是判斷用戶的需求、從用戶行為中得知需要推薦什么內(nèi)容和什么廣告,這些都需要非常高的時(shí)效性和極規(guī)模的機(jī)器學(xué)習(xí)。
提供最全面的IDC資訊: 提供服務(wù)器托管租用方案; 業(yè)務(wù)代表:億恩柯南 QQ:965171276 電話:0371-63322201 文章摘自:IDC評(píng)述。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |