隨著云計算的快速發(fā)展,“大數(shù)據(jù)”已成為業(yè)界討論最廣泛的關(guān)鍵詞之一,很多企業(yè)已經(jīng)在尋找合適的BI工具來處理不同來源收集到的大數(shù)據(jù),但盡管大家對于大數(shù)據(jù)的意識在提高,但只有少部分的企業(yè)如谷歌Facebook這樣的企業(yè)才能夠真正利用大數(shù)據(jù)挖掘企業(yè)商業(yè)價值。
其實隨著大數(shù)據(jù)時代的來臨,企業(yè)對于大數(shù)據(jù)的理解不應(yīng)僅限于對Apache Hadoop這樣的基礎(chǔ)技術(shù)的了解,企業(yè)應(yīng)該要從基礎(chǔ)設(shè)施角度來了解和保護企業(yè)擁有的大數(shù)據(jù)。因為在未來幾年,我們將會看到那些真正理解大數(shù)據(jù)并能利用大數(shù)據(jù)進行價值挖掘的企業(yè)和不懂得大數(shù)據(jù)價值挖掘企業(yè)之間的差距,真正能夠利用好大數(shù)據(jù)的企業(yè)必然具備強勁有力的競爭優(yōu)勢,從而成為行業(yè)的大佬。
事實上,目前很多企業(yè)都已經(jīng)開始關(guān)注大數(shù)據(jù),廠商也開始大肆介紹自己的大數(shù)據(jù)產(chǎn)品,相關(guān)會議持續(xù)不斷,這也讓我們看到大數(shù)據(jù)知識普及的成功,但這只是從思想工作角度來看的,當(dāng)我們尋找那些真正能挖掘大數(shù)據(jù)商業(yè)價值的企業(yè)時,幾乎寥寥無幾,所以就目前來看,大數(shù)據(jù)價值的挖掘還只是處于初級階段。
未來真正能夠在大數(shù)據(jù)中挖到第一桶金的必然是像Facebook和Google這樣的企業(yè),他們在數(shù)據(jù)管理和數(shù)據(jù)開采方面具備先天的優(yōu)勢,所以有理由相信他們將會引領(lǐng)這個大數(shù)據(jù)時代。除了他們,其他要想在大數(shù)據(jù)時代引領(lǐng)前端的企業(yè)必定是那些行業(yè)里的領(lǐng)導(dǎo)者,因為他們有提早布局以此建立行業(yè)標(biāo)準(zhǔn)的野心。
大數(shù)據(jù)里的語義數(shù)據(jù)模型
大數(shù)據(jù)的數(shù)據(jù)很大一部分屬于非結(jié)構(gòu)化數(shù)據(jù),包括語音、視頻、圖片、文檔、論壇、網(wǎng)頁等,如何才能輕松的操作這些數(shù)據(jù)呢?建立一個語義數(shù)據(jù)層是一個很不錯的方法,你可以從中提取可用數(shù)據(jù)在數(shù)據(jù)庫之上建立一個數(shù)據(jù)語義模型層,以此來幫助你理解地下所有的信息。
從不同來源收集到數(shù)據(jù)之后,企業(yè)要將其放置在一起,然后開始分析、處理這些數(shù)據(jù)。傳統(tǒng)的做法是建立一個數(shù)據(jù)倉庫,將這些收集到的數(shù)據(jù)提取到建立好的數(shù)據(jù)倉庫中并生成報告。但這是一個相當(dāng)耗時的過程,而且還無法靈活進行,每次你要做修改,都必須要回到數(shù)據(jù)倉庫去做修改,相當(dāng)?shù)念^疼。
大數(shù)據(jù)的數(shù)據(jù)容量是如此龐大,我們需要處理一大堆相關(guān)信息,這些信息來源都不同。不同的人對同一個東西的描述也都不一樣,語義技術(shù)就能夠幫助判斷出這些叫法是否講的是同一個事物。例如,有人會叫IBM為“IBM”,有人則稱其為“International Business Machines”,其實說的都是一個公司,其實計算機是很笨的,只有通過這個語義數(shù)據(jù)模型層就能進行很好的判斷。
大數(shù)據(jù)的角色
大數(shù)據(jù)在IT領(lǐng)域到底扮演著什么樣的角色呢?舉個例子來說說這個問題吧。例如,制藥企業(yè)如果想要進入制藥行業(yè)的100強,那么他就必須要抓取上百萬個相關(guān)網(wǎng)頁的數(shù)據(jù),然后進行分析、擦除無用信息最后才能找到有價值的信息。對于一個汽車制造商來說,它需要實時手機那些駕駛在道路上的汽車的信息。
盡管企業(yè)已經(jīng)意識到大數(shù)據(jù)的機制,但卻不知道如何才能從中挖掘到商業(yè)價值。大數(shù)據(jù)就像是一個深入大海底部的大魚網(wǎng),有的金槍魚、大白鯊等精品,但同時也有蝦米、貝殼等價值低的便宜貨。而我們的企業(yè)是大小通吃的,這樣龐大的數(shù)據(jù)如何挖掘價值也就成為了一個頭疼的難題。
大數(shù)據(jù)的安全問題
對于收集到的數(shù)據(jù)的訪問需求,也以為這企業(yè)需要保證這些數(shù)據(jù)的安全性。
很多企業(yè)在數(shù)據(jù)安全方面犯的最大錯誤就是做完架構(gòu)、設(shè)計、開發(fā)等所有工作之后,才開始考慮安全問題,這是非常大的錯誤。所以實數(shù)據(jù)安全性應(yīng)該從開始之初就要考慮安全架構(gòu)問題。
安全架構(gòu)的搭建只是一個方面,為了保證數(shù)據(jù)的安全,建議企業(yè)將數(shù)據(jù)切片進行存儲。因為這樣能夠做到更精確的控制。其實每一塊的數(shù)據(jù)都是企業(yè)的資產(chǎn),在這里可以設(shè)置公司員工對于這個數(shù)據(jù)資產(chǎn)的權(quán)限,如查看、修改、刪除等權(quán)限。當(dāng)然還要對這些數(shù)據(jù)進行加密,這樣一來,就算有人侵入數(shù)據(jù)庫盜用了這個部分的數(shù)據(jù),我們還是比較安全的,因為無上下文的數(shù)據(jù)對于竊取者來說并無多大意義,因為大數(shù)據(jù)的價值密度很低。
這些數(shù)據(jù)應(yīng)該說是具有相當(dāng)大的價值,為何又稱為“毒數(shù)據(jù)”呢?因為一旦這些數(shù)據(jù)流出落入非法份子手上,勢必對企業(yè)和個人造成巨大的損失。
大數(shù)據(jù)里的風(fēng)險管理
在數(shù)據(jù)管理的時候,將所有數(shù)據(jù)放在一個地方是有很大的風(fēng)險的,為了數(shù)據(jù)的安全,數(shù)據(jù)應(yīng)該存儲不同的地方。如數(shù)值數(shù)據(jù)可以存儲在數(shù)據(jù)庫里,非結(jié)構(gòu)化的數(shù)據(jù)則可以存儲在文檔或者表格里。我們看到,增加了這些不同來源的風(fēng)險信息的語義描述,意味著我們可以迅速了解綜合風(fēng)險狀況。
通過語義數(shù)據(jù)模型一個最大的好處就是,在進行修改時,無需回到數(shù)據(jù)最底層進行修改,去重寫遺留系統(tǒng)和數(shù)據(jù)庫語義。因為這個語義數(shù)據(jù)模型是在數(shù)據(jù)之上的,它的破壞性遠小于其他的技術(shù),只要我們?yōu)橐粋來源的數(shù)據(jù)提供一個語義定義,我們就可以直接應(yīng)用到其他來源的數(shù)據(jù)之上。
其實這個技術(shù)并不是為程序員或是數(shù)據(jù)庫管理人員設(shè)計的,而是為業(yè)務(wù)人員設(shè)計。業(yè)務(wù)人員他需要明白這些數(shù)據(jù)對他而言是何意義,他看不懂最底層的數(shù)據(jù)表格,他希望能夠直觀的看到一段時間內(nèi)銷售量與其他因素的關(guān)系,而這些只有通過我們的語義數(shù)據(jù)模型層才能做到。近幾年,IT部門與業(yè)務(wù)部門的界限其實開始漸漸模糊,業(yè)務(wù)部門能夠更好的明確自己的需求,而IT部門也能更好的滿足業(yè)務(wù)部門的需求,雖然還沒達到最佳的狀態(tài),但已經(jīng)超著這個方向在努力了。
談到大數(shù)據(jù),最基本的做法是使用透明數(shù)據(jù)加密法——那就是對所有捕獲到的數(shù)據(jù)都進行加密。這樣能保證企業(yè)的所有數(shù)據(jù)都是經(jīng)過加密的。過去,考慮到成本問題,很多企業(yè)都不愿意這么做,但現(xiàn)在有很多開源的加密方法可供企業(yè)進行選擇。