時下,大數(shù)據(jù)已經(jīng)走出互聯(lián)網(wǎng)行業(yè),在金融、交通、醫(yī)療等眾多傳統(tǒng)行業(yè)得到深入應(yīng)用,然而如果說高校去玩大數(shù)據(jù),聽起來似乎還是不那么“靠譜”——首先,高校很難獲得真實(shí)生產(chǎn)數(shù)據(jù);其次,高校也無法貼近真實(shí)的業(yè)務(wù)。基于以上等眾多原因,高校很難真正地進(jìn)軍大數(shù)據(jù)。
時下,大數(shù)據(jù)已經(jīng)走出互聯(lián)網(wǎng)行業(yè),在金融、交通、醫(yī)療等眾多傳統(tǒng)行業(yè)得到深入應(yīng)用,然而如果說高校去玩大數(shù)據(jù),聽起來似乎還是不那么“靠譜”——首先,高校很難獲得真實(shí)生產(chǎn)數(shù)據(jù);其次,高校也無法貼近真實(shí)的業(yè)務(wù)?;谝陨系缺姸嘣?,高校很難真正地進(jìn)軍大數(shù)據(jù)。然而,在近日的“AMPCamp@China大數(shù)據(jù)訓(xùn)練營”,筆者看到了借助Spark這個大數(shù)據(jù)計算框架,眾多高校已經(jīng)和企業(yè)達(dá)成技術(shù)層面的合作,似乎也獲得了接觸真實(shí)業(yè)務(wù)的契機(jī)。
5月底,在英特爾亞太研發(fā)有限公司的大力支持下,由UC Berkeley發(fā)起的AMPCamp首次在美國本土之外舉辦,落戶中國,圍繞Spark整個生態(tài)圈進(jìn)行了深度的分享。
眾所周知,Spark發(fā)源于UC Berkeley AMPLab,后由Databricks護(hù)航,當(dāng)下已成為大數(shù)據(jù)領(lǐng)域風(fēng)頭最勝的開源計算框架。然而,當(dāng)Michael Franklin在AMPCamp@China上秀出Berkeley當(dāng)下的數(shù)據(jù)分析平臺時,筆者仍然被震撼了,如圖所示,整個架構(gòu)中所有藍(lán)色部分都出自AMPLab之手。在這之外,我們同樣可以讀出,UC Berkeley通過開源技術(shù)已經(jīng)深入大數(shù)據(jù)的實(shí)踐中。那么,通過開源大數(shù)據(jù)技術(shù),其他高校,更關(guān)鍵的是國內(nèi)高校又有什么樣的發(fā)展呢?在活動上,筆者訪問了英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)、南京大學(xué)計算機(jī)科學(xué)與技術(shù)系教授、博導(dǎo)黃宜華以及華東師范大學(xué)計算機(jī)與技術(shù)系教授周傲英。
通過戴金權(quán)了解到,英特爾大數(shù)據(jù)研發(fā)團(tuán)隊是個全球性的團(tuán)隊,遍布中國、美國、印度等多個國家。而值得一提的是,其中80%以上的研發(fā)人員在中國。在開源社區(qū)方面,Intel投入了大量的精力,覆蓋Spark、Hadoop、Hbase、Hive等眾多項目,就2014年來看,英特爾在開源社區(qū)上的貢獻(xiàn)僅次于Cloudera、HortonWorks、雅虎等,總貢獻(xiàn)量排第四位,在不同項目上擁有23位commiter,以及大量的貢獻(xiàn)者。
此外,英特爾從2012年開始就與AMPLab進(jìn)行緊密合作,在Spark落地上投入了大量精力,貢獻(xiàn)僅次于UC Berkeley和Databricks,在如Tachyon等Spark生態(tài)圈組件上也有較強(qiáng)的投入。在高校之外,英特爾與許多互聯(lián)網(wǎng)公司達(dá)成合作,讓Spark落地具體業(yè)務(wù);更與Cloudera等知名大數(shù)據(jù)公司合作,旨在打造新一代的大數(shù)據(jù)分析解決方案。圍繞著大數(shù)據(jù)開源技術(shù),英特爾與開源社區(qū)、工業(yè)界、學(xué)術(shù)界擁有著大量合作。
專訪期間,戴金權(quán)還分享了幾個大家對Spark比較關(guān)注的問題:
MapReduce vs. Spark。Spark可以認(rèn)為是MapReduce的超集,理論上MapReduce能做的,Spark都可以做到,所以今天越來越多的應(yīng)用(特別是新的應(yīng)用),都在從MapReduce的框架向Spark遷移。今天Hadoop MapReduce的最大優(yōu)勢是在于它的成熟度,經(jīng)過了工業(yè)界長時間、在大規(guī)模集群規(guī)模和處理規(guī)模上的驗證,在穩(wěn)定性、運(yùn)維工具等方面有比較好的支持;但是隨著業(yè)界對Spark的越來越多的應(yīng)用,Spark在這方面也在快速改進(jìn)中。
DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理論上來說并沒有本質(zhì)的區(qū)別,事實(shí)上在今天的實(shí)現(xiàn)里,SchemaRDD是DataFrame的type alias。DataFrame是從用戶和Data Scientist的角度,提供對用戶更加友好的接口,并為Spark里的其他模塊(如ML和SparkR)提供更自然的API和抽象。DataFrame在Spark 1.3中是屬于實(shí)驗性質(zhì)的,但隨著Spark 1.4的推出,會得到更多的應(yīng)用(如SparkR的接口就是基于DataFrame的)。
Tungsten。Tungsten的目標(biāo)是提高Spark在現(xiàn)代硬件平臺上的運(yùn)行效率,大多數(shù)的改進(jìn)會在今年(Spark 1.4、1.5、1.6)完成;如在Spark 1.4中,已經(jīng)加入了對DataFrame aggregation操作和對Spark里sort based shuffle的改進(jìn)。
運(yùn)維。正像之前說的,Spark在運(yùn)維工具等方面還有很多工作要做,包括和YARN環(huán)境更好的整合等;同時英特爾也在和一些用戶一起嘗試用container(Docker)來構(gòu)建一些DevOps自動化的框架。
黃宜華表示,PASA實(shí)驗室成立于2009年,是全國高校中最早完全從事大數(shù)據(jù)技術(shù)研究的團(tuán)隊,開展了一系列的技術(shù)研究和應(yīng)用研究工作,有很多國家項目和省部級項目,在業(yè)界有廣泛的合作,包括英特爾、谷歌,現(xiàn)在和微軟亞洲研究院、中興通訊、百度、中科院計算所等國內(nèi)外知名的企業(yè)、研究機(jī)構(gòu)都在大數(shù)據(jù)方面專門進(jìn)行合作研究。近兩年來,PASA更與UC Berkeley AMP實(shí)驗室圍繞Spark展開合作,同時也是Apache Spark和Tachyon的貢獻(xiàn)者。此外,在2011年參與了Intel Hadoop發(fā)行版的學(xué)術(shù)研究合作。
在Spark與Tachyon方面,自2014年,PASA實(shí)驗室和UC Berkeley和英特爾三方開展了新的優(yōu)化和Tachyon系統(tǒng)功能增強(qiáng)的研發(fā)。在這兩個方面,實(shí)驗室目前大概有近20項性能優(yōu)化和功能增強(qiáng)的研究成果和程序模塊,補(bǔ)丁已經(jīng)貢獻(xiàn)到開源的Spark和Tachyon系統(tǒng)里面,在這個里面有一個比較好的成果,實(shí)驗室把Tachyon第一次和Spark結(jié)合得非常緊密,解決了Spark原來基于Java性能比較低的問題,使得現(xiàn)在Spark的計算性能有了顯著提高,這個一個比較重要的貢獻(xiàn)。
在Tachyon工作的基礎(chǔ)上,南大幫UC Berkeley做了Tachyon Perf——內(nèi)存文件系統(tǒng)的性能評測工具,現(xiàn)在已經(jīng)集成到了Tachyon系統(tǒng)里面。在這個工作的基礎(chǔ)上,實(shí)驗室進(jìn)一步做了一個通用的,就是全球第一個通用化的分布式文件系統(tǒng)的評測工具,叫DFS-Perf,可對各種各樣的分布式文件系統(tǒng),對各種負(fù)載進(jìn)行性能評測的工具。
從周傲英了解到,在2012年,華東師范大學(xué)就與SAP合作,從事內(nèi)存計算相關(guān)研發(fā),并成立了云計算和大數(shù)據(jù)研究中心,旨在促進(jìn)學(xué)科交叉,實(shí)現(xiàn)協(xié)同創(chuàng)新,也打造了一個平臺,為不同領(lǐng)域的人提供一個交流的平臺。而隨后,華東師范大學(xué)一直與AMPLab進(jìn)行深入的交流。
專訪期間,周傲英表示,推動IT發(fā)展的一直都不是IT公司。著眼大數(shù)據(jù)與云計算,其發(fā)展與互聯(lián)網(wǎng)公司有著密不可分的關(guān)系。而在這發(fā)展的過程中,擺脫慣性思維帶來的影響至關(guān)重要。短短幾年,許多知名機(jī)構(gòu)就完成了從小型機(jī)、企業(yè)數(shù)據(jù)庫、虛擬化到商用硬件+開源技術(shù)(或自主研發(fā))的轉(zhuǎn)變,其中有些東西是大多人想都不敢想的,更是大多機(jī)構(gòu)不愿意去做的。這是一個充滿機(jī)遇的時代,但是相關(guān)工作者首先要做的就是去想。
在敢想之外,另一個就是應(yīng)用——發(fā)展是創(chuàng)新驅(qū)動的,而創(chuàng)新很顯然是追逐機(jī)構(gòu)的需求。縱觀當(dāng)下,Hadoop、Spark、Docker等熱門技術(shù)無一不是在大環(huán)境中特定的需求所催生的。最后一點(diǎn)就是推廣,而當(dāng)下開源這種方式已經(jīng)被廣泛的證明其有效性,關(guān)鍵的是,它能讓更的人和各行各業(yè)的人參與進(jìn)去。
最后,周傲英說道,談大數(shù)據(jù)領(lǐng)域的技術(shù),其實(shí)很多都是發(fā)展了多年的老技術(shù),比如Deep Learning,之所以現(xiàn)在大紅大紫,其一大部分原因還是歸結(jié)到大數(shù)據(jù)全景圖中的最上層——業(yè)務(wù)應(yīng)用以及變現(xiàn)。因此,系統(tǒng)架構(gòu)師和數(shù)據(jù)科學(xué)家是這個大數(shù)據(jù)時代最需要的兩類人,這類人更多的需要計算機(jī)的知識,而且這類人更多的是需要數(shù)學(xué)的知識,但是首先都要理解應(yīng)用。因此,華東師范大學(xué)希望成立這樣一個學(xué)院,去理解數(shù)據(jù)科學(xué)與工程這樣的學(xué)科,數(shù)據(jù)工程與工程,我們把它當(dāng)成一個學(xué)科,這個學(xué)科到底有什么內(nèi)涵,需要什么樣的知識體系,這正是華東師范大學(xué)正在做的事情。
河南億恩科技股份有限公司(1tcdy.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報電話:
0371-60135995
服務(wù)熱線:
0371-60135900