數(shù)據(jù)質量管理:數(shù)據(jù)中心優(yōu)化必修課 |
發(fā)布時間: 2012/8/31 17:20:42 |
數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產,獲取并維護高質量數(shù)據(jù),對高效的IT和業(yè)務運營至關重要。面對復雜度不斷增加的業(yè)務數(shù)據(jù),如何全面保證數(shù)據(jù)質量?借助完備的Informatica數(shù)據(jù)質量平臺,無論何時何地,您都可以在整個企業(yè)內訪問,甄別、清洗、集成、交付可信的數(shù)據(jù),并在第一時間找出并修正藏匿于任意位置、令您的公司動輒花費上百萬的數(shù)據(jù)質量問題。 Informatica的數(shù)據(jù)管理目標 您心目中企業(yè)數(shù)據(jù)的價值幾何?調查顯示,信息的價值平均為企業(yè)價值的37%,可以說,信息已經成為企業(yè)最重要的資產之一,越來越多的企業(yè)更加重視數(shù)據(jù)中心的建設。但有許多因素會導致這些“資產”貶值,比如數(shù)據(jù)的冗余和重復導致信息的不可識別、不可信,信息時效性不強,精確度不夠;結構或非結構數(shù)據(jù)使整合有困難;管理層面的人員變動引發(fā)的影響;數(shù)據(jù)標準不能統(tǒng)一,相關規(guī)范不完善造成對數(shù)據(jù)理解的不充分等等。 Informatica既可以在數(shù)據(jù)架構層面提供信息傳遞、B2B數(shù)據(jù)交換、企業(yè)數(shù)據(jù)集成等一系列的基礎架構解決方案,同時也可為行業(yè)提供數(shù)據(jù)質量管理、主數(shù)據(jù)管理和復雜事件處理等方案,來支撐數(shù)據(jù)中心實現(xiàn)可信、交互、權威的信息資產管理,達成企業(yè)的業(yè)務目標,這也是信息中心建設的一個重點。 數(shù)據(jù)質量管理在數(shù)據(jù)中心建設中是一個完整的生態(tài)鏈。數(shù)據(jù)質量會受到供應商、生產員工、工藝流程以及內部客戶和外部一些系統(tǒng)的影響,同時,從應用和軟件角度方面講,數(shù)據(jù)提供者、軟件開發(fā)集成、質量管控手段等也都會影響到企業(yè)數(shù)據(jù)質量的整體狀況。 從數(shù)據(jù)質量整體框架和方法論上講,首先我們要確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術支撐來達成目標,人、流程、技術三方面缺一不可。而設定最終目標前最重要的一件事是要了解現(xiàn)狀,找出企業(yè)最關注哪些數(shù)據(jù)質量,通過記分卡對現(xiàn)有數(shù)據(jù)進行評估,同時還要進行實時的監(jiān)控,從流程、時間角度發(fā)現(xiàn)數(shù)據(jù)的變化,了解現(xiàn)狀后確定的目標才是可信、可完成的,而不是天方夜譚式的水中月、霧中花。 數(shù)據(jù)質量理論上不是完全可控的,要實現(xiàn)數(shù)據(jù)質量提升,必須要做到指標的可量化,通過量化指標實現(xiàn)質量可控。從技術層面講,要從以下六個角度去考量數(shù)據(jù)質量,也稱為數(shù)據(jù)質量的矩陣,包括:完備性(信息是否填寫全面)、符合性(數(shù)據(jù)是否按照標準格式進行填寫)、一致性(是指內部沖突,同一系統(tǒng)中兩個字段間相關推導和約束關系)、準確性(包括數(shù)據(jù)是否真實有效和數(shù)據(jù)是否及時更新)、唯一性(多條信息是否相同和一致)以及完整性(從約束性和參考性方面考慮,數(shù)據(jù)相互間的參照關系)。當然,企業(yè)是要根據(jù)自己的業(yè)務需求來確定考量數(shù)據(jù)質量的指標或體系,并不一定必須局限在這六個方面。 構建數(shù)據(jù)質量處理流程 一個完整的數(shù)據(jù)質量管理,是人、流程和技術的完美配合,才能達到我們數(shù)據(jù)質量管理的目標。那數(shù)據(jù)質量處理的流程是怎樣的呢?對于數(shù)據(jù)質量的處理,我們把它分成兩大部分,一是面向數(shù)據(jù)質量的分析過程,二是針對分析結果進行增強的過程。先要識別和量化數(shù)據(jù)質量,然后定義數(shù)據(jù)質量和目標,接下來就要交給相關部門設計質量提升的流程,其后就是實現(xiàn)質量提升的流程,把原有低質量數(shù)據(jù)變成高質量數(shù)據(jù),并交付給業(yè)務人員使用。同時,在整個環(huán)境中,還需要有相關的一些監(jiān)控和對比來評估是否達成了目標,決定是否需要進行新一輪的數(shù)據(jù)質量提升。這是一個周而復始、螺旋上升的過程,并不是一蹴而就,一次就可以解決全部問題。 通過Informatica構建數(shù)據(jù)質量管理主要分為四大部分。首先是Analyze andPrfiling,通過對現(xiàn)有數(shù)據(jù)的詳細分析、描繪,來確定怎樣對他進行處理和標準化;第二是Standardise\Cleanse,標準化和清洗更容易讓計算機識別,比如數(shù)據(jù)可以通過什么樣的格式進行限制和約束,進行怎樣的交驗就可以達到數(shù)據(jù)標準的要求,那些信息可以通過數(shù)據(jù)質點或者參考數(shù)據(jù)進行相關的標準化;第三是Match,標準化后要進行相關的數(shù)據(jù)匹配,解決數(shù)據(jù)重復性問題,并保證數(shù)據(jù)的唯一性;第四是Consolidate,將重復數(shù)據(jù)進行合并,最后運用到不同的系統(tǒng)當中。需要注意的是,在整個過程中我們都需要進行相關的監(jiān)控。在我們日常數(shù)據(jù)中心的建設中,也可以對這幾部分進行相關的延展或者精簡來完善我們數(shù)據(jù)質量管理的過程。 這里重點介紹一下Informatica最具特色的模糊匹配技術。在數(shù)據(jù)匹配關聯(lián)中,可以用到不同的匹配關聯(lián)技術,比如在實現(xiàn)數(shù)據(jù)的精確快速匹配時,可以先對數(shù)據(jù)進行預覽,查看兩個數(shù)據(jù)的可匹配度是多少,再進行分析來確定這種匹配是否適用于此種數(shù)據(jù)的匹配過程。如沒有精確匹配來保證匹配率,則可以采用模糊比對的方法,比如下圖中,在人名比對中,可能因為拼音簡、繁體輸入問題造成一個人的數(shù)據(jù)信息不一致,王門騫的“騫”,一個是簡體,一個是繁體,這兩個字在計算機編碼中并不一致,所以他們的名稱并不相等,這時就要對他的名字進行模糊匹配打分,通過結果來分辯數(shù)據(jù)的可信度。比如設定0.8以上的數(shù)據(jù)為可信,那第兩條王門騫就是可信的同一個人,而第二條陳東壁被判定不是同一個人。 現(xiàn)在,很多企業(yè)的數(shù)據(jù)中心,不僅僅只是一個最單純的面向數(shù)據(jù)倉庫的數(shù)據(jù)存儲中心,而是既能支持業(yè)務運營,又支持系統(tǒng)分析,還可進行系統(tǒng)間的整合。在數(shù)據(jù)中心建設中,數(shù)據(jù)質量需要從數(shù)據(jù)源端就開始進行治理,治理到業(yè)務交互的各個過程。包括PowerCenter、Data Quality、MDM Hub、Informatica 9在內的Informatica的數(shù)據(jù)質量工具,可以將所有的業(yè)務邏輯和規(guī)則變成相關的一些服務,由各個業(yè)務前端、各個業(yè)務處理過程中,對數(shù)據(jù)服務進行調用,進行相關的數(shù)據(jù)校驗和數(shù)據(jù)清洗,這就是Informatica數(shù)據(jù)質量平臺為企業(yè)數(shù)據(jù)中心建設所提供的支持和幫助。讓我們可信的數(shù)據(jù)大廈從現(xiàn)在開始構建! 本文出自:億恩科技【1tcdy.com】 |