網(wǎng)站數(shù)據(jù)分析:多維交叉分析(二) |
發(fā)布時(shí)間: 2012/8/17 9:37:12 |
交叉分析的基礎(chǔ) 這里不得不再說一下交叉分析基于的底層基礎(chǔ)數(shù)據(jù)模型,因?yàn)槿绻麤]有設(shè)計(jì)好底層的數(shù)據(jù)模型,上層的交叉分析是很難實(shí)現(xiàn)的,或者多維的交叉受到限制而使分析存在局限性。 從技術(shù)層面來看,交叉分析基于多維模型,數(shù)據(jù)的維度越豐富,所能實(shí)現(xiàn)的交叉也越豐富和靈活,通過各種交叉分析能夠更加有效地發(fā)現(xiàn)問題;但相應(yīng)的,如果要盡可能地豐富各維度的交叉分析,對基層模型的要求也就越高。所以如何設(shè)計(jì)好數(shù)據(jù)的底層模型非常關(guān)鍵,還是引用數(shù)據(jù)立方體與OLAP文中的那個(gè)數(shù)據(jù)立方看個(gè)簡單的例子: 如果一張網(wǎng)站分析的報(bào)表只包含以月度為單位的日期維和相應(yīng)的指標(biāo),那么數(shù)據(jù)的存儲(chǔ)就是每個(gè)月一條記錄,但顯然這種高度聚合的數(shù)據(jù)不利于分析,我們需要構(gòu)建如上圖的數(shù)據(jù)立方體來獲取更加細(xì)節(jié)的數(shù)據(jù)。用數(shù)據(jù)立方來拓展數(shù)據(jù)細(xì)節(jié)有兩種方向,一類是縱深拓展,也就是基于一個(gè)維度的細(xì)分,比如將一個(gè)月細(xì)分到每一天,那么一條記錄將會(huì)被拓展成30條;還有一種是橫向的拓展,就是多個(gè)維度的交叉,就像上面立方中添加了產(chǎn)品維和地域維。這樣存儲(chǔ)的數(shù)據(jù)就從原本單一的時(shí)間維度擴(kuò)展成了時(shí)間、產(chǎn)品和地域三個(gè)維度,也就是三維立方體所能展現(xiàn)的形式,當(dāng)然維度可以繼續(xù)擴(kuò)展,四個(gè)五個(gè)直到N個(gè),理論上都是可行的,這里只要以三個(gè)維度進(jìn)行舉例就可以。對于數(shù)據(jù)存儲(chǔ)而言,橫向的拓展與縱深拓展的影響是一樣的,記錄數(shù)都是以倍乘的方式增長,假設(shè)這里產(chǎn)品維是產(chǎn)品大類,有20個(gè)產(chǎn)品大類,再加上32個(gè)省份或直轄市,那么經(jīng)過縱深和橫向拓展之后,原先每月的1條記錄就變成了: 1 × 30 × 20 × 32 = 19200 而我們在構(gòu)建多維模型的時(shí)候很多維度中包含的數(shù)據(jù)量絕對不像上面例舉的那么小,想象一下網(wǎng)站的商品或者頁面的數(shù)量可能是成百上千甚至成千上萬的,那么一旦以倍乘的形式擴(kuò)展之后,數(shù)據(jù)量就會(huì)一下子劇增。雖然豐富的多維立方能夠給分析帶來便利,但也同時(shí)給數(shù)據(jù)的存儲(chǔ)和查詢帶來的壓力。 所以,更加豐富和靈活的分析需求的實(shí)現(xiàn)基于更加復(fù)雜的多維模型或者數(shù)據(jù)立方,同時(shí)會(huì)帶來更大的系統(tǒng)開銷。Google Analytics很好地權(quán)衡了靈活的數(shù)據(jù)分析與復(fù)雜數(shù)據(jù)模型之間的關(guān)系,這也是Google Analytics強(qiáng)大功能的基本保障,GA的高級(jí)細(xì)分(Advanced Segments)和自定義Dashboard是其他同類免費(fèi)網(wǎng)站分析工具所無法比擬的,這也正是為什么我們將GA劃分到網(wǎng)站數(shù)據(jù)分析工具,而其他的大部分只能算作網(wǎng)站數(shù)據(jù)統(tǒng)計(jì)工具的原因。而GA正是基于其構(gòu)建的強(qiáng)大的底層數(shù)據(jù)模型和高效的數(shù)據(jù)計(jì)算和響應(yīng)能力,使很多分析功能可以得到擴(kuò)展,其中很多就涉及交叉分析,這里截圖了其中的兩個(gè)功能,Secondary Dimension和Pivot: Google Analytics新版本增加了很多令人心動(dòng)的功能,Secondary dimension的功能從老版本得到了延續(xù),上圖在Content模塊的Page報(bào)表中選擇了流量來源作為第二維度,這樣我們就可以查看每個(gè)頁面的流量是從何而來,每個(gè)流量來源在該頁面的數(shù)據(jù)表現(xiàn),同時(shí)可能還可以發(fā)現(xiàn)一些有趣的現(xiàn)象,比如某些頁面的流量基本都是一個(gè)來源帶來的,比如我的博客的某些文章基本都是通過搜索引擎進(jìn)來的,而另外一些文章基本通過直接流量帶來。 在GA的各類報(bào)表中可以在右上角選擇展現(xiàn)的形式,最后的一種就是Pivot,Pivot的形式對表格的表頭進(jìn)行了擴(kuò)展,可以分層次放置另外的維度,如上圖還是使用了頁面與流量來源的交叉,將Source維度放到了指標(biāo)的上方。同時(shí)GA支持在兩個(gè)維度的基礎(chǔ)上最多選擇兩個(gè)度量Metric,我這里選擇了Pageviews和Bounce Rate,來衡量每個(gè)頁面中各類流量來源所帶來的“量”和“質(zhì)”,同樣對于分析非常有價(jià)值。 多維的交叉分析我們在日常中潛移默化地經(jīng)常會(huì)用到,交叉分析對于問題的排查和定位額外有效,所以我們需要想辦法用更好的形式去展現(xiàn)數(shù)據(jù),以便于更有利于進(jìn)行交叉分析,其實(shí)這里介紹的透視表的方式是最常用的,也是比較好用的,但這類方式太少,不知道大家有沒有其他更加有效的交叉分析展現(xiàn)方式。 本文出自:億恩科技【1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |