網站數據分析:多維交叉分析(一) |
發(fā)布時間: 2012/8/17 9:33:42 |
我們在進行數據分析的時候,大部分時間都在使用趨勢分析、比較分析、細分分析這三類方法,但其實還有一個方法我們也會經常使用——交叉分析,尤其是在排查數據異常的問題時,交叉分析就能展現(xiàn)其強大的威力。另外要跟大家說聲抱歉的是博客的更新頻率可能沒有那么頻繁了,但是盡量每個月至少能發(fā)布一篇,希望文章的質量有所保證,還是歡迎大家留言討論,能夠發(fā)起一些有趣的話題,一起拓展在網站數據分析方面的思路。
什么是交叉分析? 交叉分析是指對數據在不同維度進行交叉展現(xiàn),進行多角度結合分析的方法,彌補了獨立維度進行分析沒法發(fā)現(xiàn)的一些問題。 交叉分析以多維模型和數據立方為基礎,也可以認為是一種特殊的細分方式,但跟細分的概念有點差異。細分的方法更多的是基于同一維度的縱深展開,也就是OLAP中的鉆取(Drill-down),比如從月匯總的數據細分來看每天的數據,就是在時間維度上的細分,或者從省份的數據細分查看省份中各城市的數據,是基于地域維的下鉆。交叉分析不再局限于一個維度,就像數據立方體與OLAP文章中的立方體,是基于不同維度的交叉,時間維、地域維和產品維交叉在一起分析每個小立方的數據表現(xiàn),可以通過OLAP的切片(Slice)和切塊(Dice)操作查看例如上海市在3月份的電子產品的銷售情況,這會幫助我們發(fā)現(xiàn)很多在單個維度中無法發(fā)現(xiàn)的問題。所以,交叉分析是基于不同維度橫向地組合交叉,而不是細分在同一維度的縱向展開。 交叉分析的展現(xiàn)形式 交叉分析涉及多維度的組合,雖然圖表和表格都可以進行展現(xiàn),但因為圖表所能表達的數據有限,且比較不容易把多個維度的交叉關系展現(xiàn)出來,在交叉分析中不太常用,通常以表格為主。我們平常在看的表格通常被叫做二維表,一般第一列放置一個維度,如日期,表頭羅列各類指標(其實所有指標也可以被認為是一種特殊的維度——指標維),這樣行列的兩個維就組成了最常見的二維表。二維表可以進行擴展,進而展現(xiàn)更加豐富的維度: 如上圖就是典型的基于表格的多維度交叉分析的布局,在行列中分層次放置多個維度,如果我們只顯示一個指標,那么這里的指標維就沒有顯示的必要了。其實Excel的數據透視表(Pivot Table)就是交叉分析的利器,我在數據的報表和報告這篇文章中提到過數據透視表,這里還是基于那篇文章截圖的原始數據,如果我們將各維度按照上面的布局形式進行展現(xiàn)的話,會是怎么樣的效果: 看起來還不錯,顯示的信息非常豐富,左邊包含了以天為單位時間維和產品維,可以使用展開按鈕進行匯總和展開,就像是細分的操作;上面的表頭部分分兩層羅列了地域維和指標維,Excel的透視表提供了豐富的設置,默認展現(xiàn)基于各個維度的匯總數據,讓我們可以從“總-分”的角度觀察數據,這對數據分析非常有用。假如我們使用上面的透視表進行交叉分析發(fā)現(xiàn)數據是否存在異常? 使用從總體到細節(jié)的分析方法,首先可以從查看每天銷售額和轉化率的匯總數據開始,折疊產品維之后觀察最右側的指標匯總列就可以看到每日匯總數據;如果某一天的銷售額或轉化率出現(xiàn)了大幅的下滑,我們就可以結合各種維度尋找問題的原因,就是基于各種維度的細節(jié)數據,展開產品維觀察當天的哪類產品銷售出現(xiàn)了問題,然后結合地域維的交叉數據,可以定位哪類商品在哪個省份的銷售出現(xiàn)了問題,這樣就有效地將問題定位到了細節(jié)的層面,能夠更好地發(fā)現(xiàn)問題,進而解決問題。所以交叉分析其實正是體現(xiàn)了分析“分而析之”的本意。 上面的方法一般是比較常用的基于問題的分析方法,但我們很少可以一次就定位到問題,往往我們會根據推測多次查詢數據庫或查看Dashboard上的各類報表來定位問題。而結合透視表的交叉分析,我們使用一張報表就快速地定位了問題所在,從總體到細節(jié),邏輯非常清晰,問題的定位也非常準確和到位,所以合理地利用交叉分析可以幫助我們更加高效地排查問題。 本文出自:億恩科技【1tcdy.com】 |