您現在的位置是:首頁 > 籃球

詳解資料倉庫資料指標資料治理體系建設方法論

  • 由 人生五味 發表于 籃球
  • 2021-11-25
簡介為什麼搭建指標體系1. 衡量業務發展質量指標體系可以反映業務客觀事實,看清業務發展現狀,透過指標對業務質量進行衡量,把控業務發展情況,針對發現的業務問題聚焦解決,促進業務有序增長2. 建立指標因果關係主要明確結果型指標和過程型指標關係,透過

模型的型能組什麼詞

「來源: |企業數字化諮詢 ID:gh_afd51c79091d」

須知

後臺回覆【

技術

】,申請加入

資料分享&

技術交流群

一、資料倉庫

資料倉庫概念

英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫的目的是構建面向分析的整合化資料環境,為企業提供決策支援(Decision Support)。它出於分析性報告和決策支援目的而建立。

資料倉庫本身並不“生產”任何資料,同時自身也不需要“消費”任何的資料,資料來源於外部,並且開放給外部應用,這也是為什麼叫“倉庫”,而不叫“工廠”的原因。

基本特徵

資料倉庫是面向主題的、整合的、非易失的和時變的資料集合,用以支援管理決策。

面向主題:

傳統資料庫中,最大的特點是面向應用進行資料的組織,各個業務系統可能是相互分離的。而資料倉庫則是面向主題的。主題是一個抽象的概念,是較高層次上企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析物件。

整合性:

透過對分散、獨立、異構的資料庫資料進行抽取、清理、轉換和彙總便得到了資料倉庫的資料,這樣保證了資料倉庫內的資料關於整個企業的一致性。

資料倉庫中的綜合資料不能從原有的資料庫系統直接得到。因此在資料進入資料倉庫之前,必然要經過統一與綜合,這一步是資料倉庫建設中最關鍵、最複雜的一步,所要完成的工作有:

要統一源資料中所有矛盾之處,如欄位的同名異義、異名同義、單位不統一、字長不一致,等等。

進行資料綜合和計算。資料倉庫中的資料綜合工作可以在從原有資料庫抽取資料時生成,但許多是在資料倉庫內部生成的,即進入資料倉庫以後進行綜合生成的。

下圖說明一個保險公司綜合資料的簡單處理過程,其中資料倉庫中與“保險” 主題有關的資料來自於多個不同的操作型系統。這些系統內部資料的命名可能不同,資料格式也可能不同。把不同來源的資料儲存到資料倉庫之前,需要去除這些不一致。

詳解資料倉庫資料指標資料治理體系建設方法論

非易失性(不可更新性)

資料倉庫的資料反映的是一段相當長的時間內歷史資料的內容,是不同時點的資料庫快照的集合,以及基於這些快照進行統計、綜合和重組的匯出資料。

資料非易失性主要是針對應用而言。資料倉庫的使用者對資料的操作大多是資料查詢或比較複雜的挖掘,一旦資料進入資料倉庫以後,一般情況下被較長時間保留。資料倉庫中一般有大量的查詢操作,但修改和刪除操作很少。因此,資料經加工和整合進入資料倉庫後是極少更新的,通常只需要定期的載入和更新。

時變性

資料倉庫包含各種粒度的歷史資料。資料倉庫中的資料可能與某個特定日期、星期、月份、季度或者年份有關。資料倉庫的目的是透過分析企業過去一段時間業務的經營狀況,挖掘其中隱藏的模式。雖然資料倉庫的使用者不能修改資料,但並不是說資料倉庫的資料是永遠不變的。分析的結果只能反映過去的情況,當業務變化後,挖掘出的模式會失去時效性。因此資料倉庫的資料需要更新,以適應決策的需要。從這個角度講,資料倉庫建設是一個專案,更是一個過程。資料倉庫的資料隨時間的變化表現在以下幾個方面:

(1) 資料倉庫的資料時限一般要遠遠長於操作型資料的資料時限。

(2) 操作型系統儲存的是當前資料,而資料倉庫中的資料是歷史資料。

(3) 資料倉庫中的資料是按照時間順序追加的,它們都帶有時間屬性。

資料倉庫與資料庫的區別

資料庫與資料倉庫的區別實際講的是 OLTP 與 OLAP 的區別。

操作型處理,叫聯機事務處理 OLTP(On-Line Transaction Processing,),也可以稱面向交易的處理系統,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢、修改。

使用者較為關心操作的響應時間、資料的安全性、完整性和併發支援的使用者數等問題。

傳統的資料庫系統作為資料管理的主要手段,主要用於操作型處理,像Mysql,Oracle等關係型資料庫一般屬於OLTP。

分析型處理,叫聯機分析處理 OLAP(On-Line Analytical Processing)一般針對某些主題的歷史資料進行分析,支援管理決策。

首先要明白,資料倉庫的出現,並不是要取代資料庫。資料庫是面向事務的設計,資料倉庫是面向主題設計的。資料庫一般儲存業務資料,資料倉庫儲存的一般是歷史資料。

資料庫設計是儘量避免冗餘,一般針對某一業務應用進行設計,比如一張簡單的User表,記錄使用者名稱、密碼等簡單資料即可,符合業務應用,但是不符合分析。

資料倉庫在設計是有意引入冗餘,依照分析需求,分析維度、分析指標進行設計。

資料庫是為捕獲資料而設計,資料倉庫是為分析資料而設計。

以銀行業務為例。資料庫是事務系統的資料平臺,客戶在銀行做的每筆交易都會寫入資料庫,被記錄下來,這裡,可以簡單地理解為用資料庫記賬。資料倉庫是分析系統的資料平臺,它從事務系統獲取資料,並做彙總、加工,為決策者提供決策的依據。比如,某銀行某分行一個月發生多少交易,該分行當前存款餘額是多少。如果存款又多,消費交易又多,那麼該地區就有必要設立ATM了。

顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務系統是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求資料庫只能儲存很短一段時間的資料。而分析系統是事後的,它要提供關注時間段內所有的有效資料。這些資料是海量的,彙總計算起來也要慢一些,但是,只要能夠提供有效的分析資料就達到目的了。

資料倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘資料資源、為了決策需要而產生的,它決不是所謂的“大型資料庫”。

資料倉庫分層架構

按照資料流入流出的過程,資料倉庫架構可分為:

源資料、資料倉庫、資料應用

詳解資料倉庫資料指標資料治理體系建設方法論

資料倉庫

資料倉庫的資料來源於不同的源資料,並提供多樣的資料應用,資料自下而上流入資料倉庫後向上層開放應用,而資料倉庫只是中間整合化資料管理的一個平臺。

源資料

:此層資料無任何更改,直接沿用外圍系統資料結構和資料,不對外開放;為臨時儲存層,是介面資料的臨時儲存區域,為後一步的資料處理做準備。

資料倉庫

:也稱為細節層,DW層的資料應該是一致的、準確的、乾淨的資料,即對源系統資料進行了清洗(去除了雜質)後的資料。

資料應用

:前端應用直接讀取的資料來源;根據報表、專題分析需求而計算生成的資料。

資料倉庫從各資料來源獲取資料及在資料倉庫內的資料轉換和流動都可以認為是ETL

(抽取Extra, 轉化Transfer, 裝載Load)

的過程,ETL是資料倉庫的流水線,也可以認為是資料倉庫的血液,它維繫著資料倉庫中資料的新陳代謝,而資料倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩定。

那麼為什麼要資料倉庫進行分層呢?

用空間換時間,透過大量的預處理來提升應用系統的使用者體驗(效率),因此資料倉庫會存在大量冗餘的資料;不分層的話,如果源業務系統的業務規則發生變化將會影響整個資料清洗過程,工作量巨大。

透過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當於把一個複雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每一個步驟的正確性,當資料發生錯誤的時候,往往我們只需要區域性調整某個步驟即可。

資料倉庫元資料的管理

元資料(Meta Date),主要記錄資料倉庫中模型的定義、各層級間的對映關係、監控資料倉庫的資料狀態及ETL的任務執行狀態。

一般會透過元資料資料庫(Metadata Repository)來統一地儲存和管理元資料,其主要目的是使資料倉庫的設計、部署、操作和管理能達成協同和一致。

元資料是資料倉庫管理系統的重要組成部分,元資料管理是企業級資料倉庫中的關鍵元件,貫穿資料倉庫構建的整個過程,直接影響著資料倉庫的構建、使用和維護。

構建資料倉庫的主要步驟之一是ETL。這時元資料將發揮重要的作用,它定義了源資料系統到資料倉庫的對映、資料轉換的規則、資料倉庫的邏輯結構、資料更新的規則、資料匯入歷史記錄以及裝載週期等相關內容。資料抽取和轉換的專家以及資料倉庫管理員正是透過元資料高效地構建資料倉庫。

使用者在使用資料倉庫時,透過元資料訪問資料,明確資料項的含義以及定製報表。

資料倉庫的規模及其複雜性離不開正確的元資料管理,包括增加或移除外部資料來源,改變資料清洗方法,控制出錯的查詢以及安排備份等。

元資料可分為技術元資料和業務元資料。

技術元資料

為開發和管理資料倉庫的IT 人員使用,它描述了與資料倉庫開發、管理和維護相關的資料,包括資料來源資訊、資料轉換描述、資料倉庫模型、資料清洗與更新規則、資料對映和訪問許可權等。而

業務元資料

為管理層和業務分析人員服務,從業務角度描述資料,包括商務術語、資料倉庫中有什麼資料、資料的位置和資料的可用性等,幫助業務人員更好地理解資料倉庫中哪些資料是可用的以及如何使用。

由上可見,元資料不僅定義了資料倉庫中資料的模式、來源、抽取和轉換規則等,而且是整個資料倉庫系統執行的基礎,元資料把資料倉庫系統中各個鬆散的元件聯絡起來,組成了一個有機的整體。

數倉建模方法

資料倉庫的建模方法有很多種,每一種建模方法代表了哲學上的一個觀點,代表了一種歸納、概括世界的一種方法。常見的有

正規化建模法、維度建模法、實體建模法

等,每種方法從本質上將是從不同的角度看待業務中的問題。

1。 正規化建模法(Third Normal Form,3NF)

正規化建模法其實是我們在構建資料模型常用的一個方法,該方法的主要由 Inmon 所提倡,主要解決關係型資料庫的資料儲存,利用的一種技術層面上的方法。目前,我們在關係型資料庫中的建模方法,大部分採用的是三正規化建模法。

正規化 是符合某一種級別的關係模式的集合。構造資料庫必須遵循一定的規則,而在關係型資料庫中這種規則就是正規化,這一過程也被稱為規範化。目前關係資料庫有六種正規化:第一正規化(1NF)、第二正規化(2NF)、第三正規化(3NF)、Boyce-Codd正規化(BCNF)、第四正規化(4NF)和第五正規化(5NF)。

在資料倉庫的模型設計中,一般採用第三正規化。一個符合第三正規化的關係必須具有以下三個條件 :

每個屬性值唯一,不具有多義性 ;

每個非主屬性必須完全依賴於整個主鍵,而非主鍵的一部分 ;

每個非主屬性不能依賴於其他關係中的屬性,因為這樣的話,這種屬性應該歸到其他關係中去。

詳解資料倉庫資料指標資料治理體系建設方法論

正規化建模

根據 Inmon 的觀點,資料倉庫模型的建設方法和業務系統的企業資料模型類似。在業務系統中,企業資料模型決定了資料的來源,而企業資料模型也分為兩個層次,即主題域模型和邏輯模型。同樣,主題域模型可以看成是業務模型的概念模型,而邏輯模型則是域模型在關係型資料庫上的例項化。

2。 維度建模法(Dimensional Modeling)

維度模型是資料倉庫領域另一位大師Ralph Kimall所倡導,他的《資料倉庫工具箱》是資料倉庫工程領域最流行的數倉建模經典。維度建模以分析決策的需求出發構建模型,構建的資料模型為分析需求服務,因此它重點解決使用者如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應效能。

詳解資料倉庫資料指標資料治理體系建設方法論

維度建模

典型的代表是我們比較熟知的星形模型(Star-schema),以及在一些特殊場景下適用的雪花模型(Snow-schema)。

維度建模中比較重要的概念就是 事實表(Fact table)和維度表(Dimension table)。其最簡單的描述就是,按照事實表、維度表來構建資料倉庫、資料集市。

目前在網際網路公司最常用的建模方法就是維度建模,稍後將重點講解

3。 實體建模法(Entity Modeling)

實體建模法並不是資料倉庫建模中常見的一個方法,它來源於哲學的一個流派。從哲學的意義上說,客觀世界應該是可以細分的,客觀世界應該可以分成由一個個實體,以及實體與實體之間的關係組成。那麼我們在資料倉庫的建模過程中完全可以引入這個抽象的方法,將整個業務也可以劃分成一個個的實體,而每個實體之間的關係,以及針對這些關係的說明就是我們資料建模需要做的工作。

雖然實體法粗看起來好像有一些抽象,其實理解起來很容易。即我們可以將任何一個業務過程劃分成 3 個部分,

實體,事件,說明

,如下圖所示:

詳解資料倉庫資料指標資料治理體系建設方法論

實體建模

上圖表述的是一個抽象的含義,如果我們描述一個簡單的事實:“小明開車去學校上學”。以這個業務事實為例,我們可以把“小明”,“學校”看成是一個實體,“上學”描述的是一個業務過程,我們在這裡可以抽象為一個具體“事件”,而“開車去”則可以看成是事件“上學”的一個說明。

維度建模

維度建模是專門應用於分析型資料庫、資料倉庫、資料集市建模的方法。資料集市可以理解為是一種“小型資料倉庫”。

1。 維度建模中表的型別

事實表發生在現實世界中的操作型事件,其所產生的可度量數值,儲存在事實表中。從最低的粒度級別來看,事實錶行對應一個度量事件,反之亦然。

事實表表示對分析主題的度量

。比如一次購買行為我們就可以理解為是一個事實。

詳解資料倉庫資料指標資料治理體系建設方法論

事實與維度

圖中的訂單表就是一個事實表,你可以理解他就是在現實中發生的一次操作型事件,我們每完成一個訂單,就會在訂單中增加一條記錄。事實表的特徵:表裡沒有存放實際的內容,他是一堆主鍵的集合,這些ID分別能對應到維度表中的一條記錄。事實表包含了與各維度表相關聯的外來鍵,可與維度表關聯。事實表的度量通常是數值型別,且記錄數會不斷增加,表資料規模迅速增長。

明細表(寬表)

事實表的資料中,有些屬性共同組成了一個欄位(糅合在一起),比如年月日時分秒構成了時間,當需要根據某一屬性進行分組統計的時候,需要擷取拼接之類的操作,效率極低。如:

詳解資料倉庫資料指標資料治理體系建設方法論

為了分析方便,可以事實表中的一個欄位切割提取多個屬性出來構成新的欄位,因為欄位變多了,所以稱為寬表,原來的成為窄表。

將上述的local_time欄位擴充套件為如下6個欄位:

詳解資料倉庫資料指標資料治理體系建設方法論

又因為寬表的資訊更加清晰明細,所以也可以稱之為明細表。

2.維度表

每個維度表都包含單一的主鍵列。維度表的主鍵可以作為與之關聯的任何事實表的外來鍵,當然,維度錶行的描述環境應與事實錶行完全對應。維度表通常比較寬,是扁平型非規範表,包含大量的低粒度的文字屬性。

維度表示你要對資料進行分析時所用的一個量,比如你要分析產品銷售情況, 你可以選擇按類別來進行分析,或按區域來分析。每個類別就構成一個維度。上圖中的使用者表、商家表、時間表這些都屬於維度表,這些表都有一個唯一的主鍵,然後在表中存放了詳細的資料資訊。

總的說來,在資料倉庫中不需要嚴格遵守規範化設計原則。因為資料倉庫的主導功能就是面向分析,以查詢為主,不涉及資料更新操作。

事實表的設計是以能夠正確記錄歷史資訊為準則,維度表的設計是以能夠以合適的角度來聚合主題內容為準則。

2。 維度建模三種模式

星型模式星形模式(Star Schema)是最常用的維度建模方式。星型模式是以事實表為中心,所有的維度表直接連線在事實表上,像星星一樣。星形模式的維度建模由一個事實表和一組維表成,且具有以下特點:a。 維表只和事實表關聯,維表之間沒有關聯;b。 每個維表主鍵為單列,且該主鍵放置在事實表中,作為兩邊連線的外來鍵;c。 以事實表為核心,維表圍繞核心呈星形分佈;

詳解資料倉庫資料指標資料治理體系建設方法論

雪花模式雪花模式(Snowflake Schema)是對星形模式的擴充套件。雪花模式的維度表可以擁有其他維度表的,雖然這種模型相比星型更規範一些,但是由於這種模型不太容易理解,維護成本比較高,而且效能方面需要關聯多層維表,效能也比星型模型要低。所以一般不是很常用。

詳解資料倉庫資料指標資料治理體系建設方法論

3.星座模式

星座模式是星型模式延伸而來,星型模式是基於一張事實表的,而星座模式是基於多張事實表的,而且共享維度資訊。前面介紹的兩種維度建模方法都是多維表對應單事實表,但在很多時候維度空間內的事實表不止一個,而一個維表也可能被多個事實表用到。在業務發展後期,絕大部分維度建模都採用的是星座模式。

詳解資料倉庫資料指標資料治理體系建設方法論

3。 維度建模過程

我們知道維度建模的表型別有事實表,維度表;模式有星形模型,雪花模型,星座模型這些概念了,但是實際業務中,給了我們一堆資料,我們怎麼拿這些資料進行數倉建設呢,數倉工具箱作者根據自身60多年的實際業務經驗,給我們總結了如下四步,請務必記住!

數倉工具箱中的維度建模四步走:

詳解資料倉庫資料指標資料治理體系建設方法論

維度建模四步走

牢記

以上四步,不管什麼業務,就按照這個步驟來,順序不要搞亂,因為這四步是環環相扣,步步相連。下面詳細拆解下每個步驟怎麼做

1、選擇業務過程

維度建模是緊貼業務的,所以必須以業務為根基進行建模,那麼選擇業務過程,顧名思義就是在整個業務流程中選取我們需要建模的業務,根據運營提供的需求及日後的易擴充套件性等進行選擇業務。比如商城,整個商城流程分為商家端,使用者端,平臺端,運營需求是總訂單量,訂單人數,及使用者的購買情況等,我們選擇業務過程就選擇使用者端的資料,商家及平臺端暫不考慮。業務選擇非常重要,因為後面所有的步驟都是基於此業務資料展開的。

2、宣告粒度

先舉個例子:對於使用者來說,一個使用者有一個身份證號,一個戶籍地址,多個手機號,多張銀行卡,那麼與使用者粒度相同的粒度屬性有身份證粒度,戶籍地址粒度,比使用者粒度更細的粒度有手機號粒度,銀行卡粒度,存在一對一的關係就是相同粒度。為什麼要提相同粒度呢,因為維度建模中要求我們,在同一事實表中,必須具有相同的粒度,同一事實表中不要混用多種不同的粒度,不同的粒度資料建立不同的事實表。並且從給定的業務過程獲取資料時,強烈建議從關注原子粒度開始設計,也就是從最細粒度開始,因為原子粒度能夠承受無法預期的使用者查詢。但是上卷彙總粒度對查詢效能的提升很重要的,所以對於有明確需求的資料,我們建立針對需求的上卷彙總粒度,對需求不明朗的資料我們建立原子粒度。

3、確認維度

維度表是作為業務分析的入口和描述性標識,所以也被稱為資料倉庫的“靈魂”。在一堆的資料中怎麼確認哪些是維度屬性呢,如果該列是對具體值的描述,是一個文字或常量,某一約束和行標識的參與者,此時該屬性往往是維度屬性,數倉工具箱中告訴我們牢牢掌握事實表的粒度,就能將所有可能存在的維度區分開,並且要確保維度表中不能出現重複資料,應使維度主鍵唯一

4、確認事實

事實表是用來度量的,基本上都以數量值表示,事實表中的每行對應一個度量,每行中的資料是一個特定級別的細節資料,稱為粒度。維度建模的核心原則之一是同一事實表中的所有度量必須具有相同的粒度。這樣能確保不會出現重複計算度量的問題。有時候往往不能確定該列資料是事實屬性還是維度屬性。記住最實用的事實就是數值型別和可加類事實。所以可以透過分析該列是否是一種包含多個值並作為計算的參與者的度量,這種情況下該列往往是事實。

實際業務中數倉分層

數倉分層要結合公司業務進行,並且需要清晰明確各層職責,要保證資料層的穩定又要遮蔽對下游影響,一般採用如下分層結構:

詳解資料倉庫資料指標資料治理體系建設方法論

資料分層架構

資料層具體實現

使用四張圖說明每層的具體實現

資料來源層ODS

詳解資料倉庫資料指標資料治理體系建設方法論

資料來源層

資料來源層主要將各個業務資料匯入到大資料平臺,作為業務資料的快照儲存。

資料明細層DW

詳解資料倉庫資料指標資料治理體系建設方法論

資料明細層

事實表中的每行對應一個度量,每行中的資料是一個特定級別的細節資料,稱為粒度。維度建模的核心原則之一是

同一事實表中的所有度量必須具有相同的粒度

。這樣能確保不會出現重複計算度量的問題。

維度表一般都是單一主鍵,少數是聯合主鍵,注意維度表不要出現重複資料,否則和事實表關聯會出現

資料發散

問題。

有時候往往不能確定該列資料是事實屬性還是維度屬性。

記住最實用的事實就是數值型別和可加類事實

。所以可以透過分析該列是否是一種包含多個值並作為計算的參與者的度量,這種情況下該列往往是事實;如果該列是對具體值的描述,是一個文字或常量,某一約束和行標識的參與者,此時該屬性往往是維度屬性。但是還是要結合業務進行最終判斷是維度還是事實。

資料輕度彙總層DM

詳解資料倉庫資料指標資料治理體系建設方法論

資料輕度彙總層

此層命名為輕彙總層,就代表這一層已經開始對資料進行彙總,但是不是完全彙總,只是對相同粒度的資料進行關聯彙總,不同粒度但是有關係的資料也可進行彙總,此時需要將粒度透過聚合等操作進行統一。

資料應用層APP

詳解資料倉庫資料指標資料治理體系建設方法論

資料應用層

資料應用層的表就是提供給使用者使用的,數倉建設到此就接近尾聲了,接下來就根據不同的需求進行不同的取數,如直接進行報表展示,或提供給資料分析的同事所需的資料,或其他的業務支撐。

最後

技術是為業務服務的,業務是為公司創造價值的,離開業務的技術是無意義的。所以數倉的建設與業務是息息相關的,公司的業務不同,數倉的建設也是不同的,只有適合的才是最好的。

二、指標體系

指標體系是什麼?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規範化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。

什麼是指標體系

1. 指標體系定義

指標體系是將零散單點的具有相互聯絡的指標,系統化的組織起來,透過單點看全域性,透過全域性解決單點的問題。它主要由指標和體系兩部分組成。

指標是指將業務單元細分後量化的度量值,它使得業務目標可描述、可度量、可拆解,它是業務和資料的結合,是統計的基礎,也是量化效果的重要依據。

指標主要分為結果型和過程型:

結果型指標:用於衡量使用者發生某個動作後所產生的結果,通常是延後知道的,很難進行干預。結果型指標更多的是監控資料異常,或者是監控某個場景下使用者需求是否被滿足

過程型指標:使用者在做某個動作時候所產生的指標,可以透過某些運營策略來影響這個過程指標,從而影響最終的結果,過程型指標更加關注使用者的需求為什麼被滿足或沒被滿足

體系是由不同的維度組成,而維度是指使用者觀察、思考與表述某事物的“思維角度”,維度是指標體系的核心,沒有維度,單純說指標是沒有任何意義的。

維度主要分為定性維度和定量維度,定性維度,主要是偏文字描述類如城市、性別、職業等;定量維度,主要是數值類描述如收入、年齡等,對定量維度需要做數值分組處理。

2. 指標體系生命週期

生命週期主要包含定義、生產、消費、下線四個階段。針對整個生命週期要持續做指標運維、質量保障,同時為了提高指標資料複用度,降低使用者使用成本需要做對應的資料運營工作。

詳解資料倉庫資料指標資料治理體系建設方法論

3. 綜合使用場景

指標體系主要是結合使用者的業務場景來進行使用,多個不同的指標和維度可以組合起來進行業務的綜合分析,使用者可透過指標的變化看到整體業務的變化,並能夠快速發現問題、定位問題。常用的場景一種是決策分析的場景,透過資料看清業務現狀進行戰略決策支援;另一種是運營分析場景,無論是做使用者運營、產品運營還是活動運營都需要各類指標資料的支撐去看清問題、分析問題和指導解決問題。

為什麼搭建指標體系

1. 衡量業務發展質量

指標體系可以反映業務客觀事實,看清業務發展現狀,透過指標對業務質量進行衡量,把控業務發展情況,針對發現的業務問題聚焦解決,促進業務有序增長

2. 建立指標因果關係

主要明確結果型指標和過程型指標關係,透過結果指標回溯過程指標,找到解決問題的核心原因

3. 指導使用者分析工作

目的建立產品評估體系、活動效果評估體系、智慧運營分析體系

4. 指導基礎資料建設

明確基礎資料建設方向,集中資源,避免過程和結果分析指標資料的遺漏或缺失

5. 指導內容產品建設

結合使用者的業務場景來進行使用,多個不同的指標和維度可以組合起來進行業務的綜合分析,使用者可透過指標的變化看到整體業務的變化,並能夠快速發現問題、定位問題

6. 統一指標消費口徑

企業內統一關鍵指標業務口徑及計算口徑,統一企業業務目標,實現自上而下目標驅動

如何搭建指標體系

指標體系建設的常用方法是透過場景化進行指標體系的搭建,以使用者的視角場景化思考,自上而下業務驅動指標體系建設,所以要在特定場景下做好指標體系建設,需要先選好指標,然後用科學的方法搭建指標體系。

1. 科學方法選指標

選指標常用方法是指標分級方法和OSM模型。

指標分級主要是指標內容縱向的思考,根據企業戰略目標、組織及業務過程進行自上而下的指標分級,對指標進行層層剖析,主要分為三級T1、T2、T3。

T1指標:公司戰略層面指標

用於衡量公司整體目標達成情況的指標,主要是決策類指標,T1指標使用通常服務於公司戰略決策層

T2指標:業務策略層面指標

為達成T1指標的目標,公司會對目標拆解到業務線或事業群,並有針對性做出一系列運營策略,T2指標通常反映的是策略結果屬於支援性指標同時也是業務線或事業群的核心指標。T2指標是T1指標的縱向的路徑拆解,便於T1指標的問題定位,T2指標使用通常服務業務線或事業群

T3指標:業務執行層面指標

T3指標是對T2指標的拆解,用於定位T2指標的問題。T3指標通常也是業務過程中最多的指標。根據各職能部門目標的不同,其關注的指標也各有差異。T3指標的使用通常可以指導一線運營或分析人員開展工作,內容偏過程性指標,可以快速引導一線人員做出相應的動作。

例如:成交率的指標分級

詳解資料倉庫資料指標資料治理體系建設方法論

OSM模型(Obejective,Strategy,Measurement)是指標體系建設過程中輔助確定核心的重要方法,包含業務目標、業務策略、業務度量,是指標內容橫向的思考。

O

使用者使用產品的目標是什麼?產品滿足了使用者的什麼需求?主要從使用者視角和業務視角確定目標,原則是切實可行、易理解、可干預、正向有益

S

為了達成上述目標我採取的策略是什麼?

M

這些策略隨之帶來的資料指標變化有哪些?

以滴滴網約車為例,按照OSM模型,它的指標是什麼樣的?

O:使用者來使用滴滴這個產品,需求和目標是什麼?

使用者需求及目標是便捷、快速打到車,安全到達目的地

那如何讓使用者感受到自己的需求被滿足了呢?

S:滴滴做的策略是:

便捷方面,提供了獨立APP版本、小程式版本,還可以多渠道打到車,例如在高德、微信、支付寶都有打車入口;起始、目的地地圖智慧精準定位;最優路線選擇等

快速方面,針對不同人群不同訴求提供了多品類產品選擇,例如快車、優享、拼車、計程車等業務,根據早晚高峰提高熱點區域運力,減少使用者排隊時間

安全方面,司機准入機制,司機合規機制,司機畫像

M:我們需要針對這些策略去做指標,在這裡面我們的指標分別是結果指標和過程指標:

結果指標:渠道轉化完成率、乘客取消率、供需比、司機服務分

過程指標:渠道發單數、渠道完單數、排隊乘客數、乘客排隊時長、司機好評率、司機接單量、司機取消數等

指標選取之後,下面就是最重要的分析維度選擇了,前面指標體系定義裡講過維度是指標體系的核心,沒有維度,單純說指標是沒有任何意義的。所以維度選擇層面主要透過資料分析視角結合實際分析業務場景來確定。例如城市維度、商圈維度、渠道維度、時間維度、使用者標籤維度等。

2. 用分析模型搭建指標體系

在《精益資料分析》一書中給出了兩套比較常用的指標體系建設方法論,其中一個就是比較有名的海盜指標法,也就是我們經常聽到的AARRR海盜模型。海盜模型是使用者分析的經典模型,它反映了增長是系統性地貫穿於使用者生命週期各個階段的:使用者拉新(Acquisition)、使用者啟用(Activation)、使用者留存(Retention)、商業變現(Revenue)、使用者推薦(Referral)。

AARRR模型

A拉新

透過各種推廣渠道,以各種方式獲取目標使用者,並對各種營銷渠道的效果評估,不斷最佳化投入策略,降低獲客成本。涉及關鍵指標例如新增註冊使用者數、啟用率、註冊轉化率、新客留存率、下載量、安裝量等

A活躍

活躍使用者指真正開始使用了產品提供的價值,我們需要掌握使用者的行為資料,監控產品健康程度。這個模組主要反映使用者進入產品的行為表現,是產品體驗的核心所在。涉及關鍵指標例如DAU/MAU 、日均使用時長、啟動APP時長、啟動APP次數等

R留存

衡量使用者粘性和質量的指標。涉及關鍵指標例如留存率、流失率等

R變現

主要用來衡量產品商業價值。涉及關鍵指標例如生命週期價值(LTV)、客單價、GMV等

R推薦

衡量使用者自傳播程度和口碑情況。涉及關鍵指標例如邀請率、裂變係數等

可以根據實際業務場景,結合使用OSM和AARRR模型,來系統性的選擇不同階段所需要的核心資料指標。

詳解資料倉庫資料指標資料治理體系建設方法論

3. 場景化搭建指標體系

目前階段網際網路業務比較流行的一種通用抽象場景“人、貨、場”,實際就是我們日常所說的使用者、產品、場景,在通俗點講就是誰在什麼場景下使用了什麼產品,不同的商業模式會有不同的組合模式。以滴滴實際場景為例:哪些場景(此處場景定義為終端,如Native,微信,支付寶)的什麼人(乘客)在平臺上使用了哪些貨(平臺業務線,如快車/專車等),進而為評估使用者增長的價值和效果。

“人”的視角

從“人”的視角,我們比較關心的是什麼乘客在什麼時間打的車,排了多長時間,等了多長時間上車,週期內第幾次打車,打車花了多少錢,是否有投訴和取消行為,具體到資料指標主要看發單使用者數、完單使用者數、客單價、週期內完單訂單數、取消訂單數、評價訂單數等。

詳解資料倉庫資料指標資料治理體系建設方法論

“貨”的視角

從“貨”的視角,我們比較關心的就是成交了多少,交易額多少,花了多少,到具體資料指標主要會看GMV、成交率、取消率指標,在進一步會細分到城市、區域,一級品類、二級品類。資料的效果透過目標對比,橫向對比、歷史比較等方式進行分析確定。

詳解資料倉庫資料指標資料治理體系建設方法論

“場”的視角

從“場”的視角,我們比較關心的就是哪個渠道使用者點選量大曝光率大,帶來了多少新使用者,完成多少交易訂單,客單價是多少;或者是哪個活動拉新或促活效果怎麼樣轉化率多少,結合場景資料實際情況制定對應策略。

詳解資料倉庫資料指標資料治理體系建設方法論

以上分別從“人”、“貨”、“場”三個角度進行了資料指標和分析維度的提煉,下面我們把三類指標結合指標分級方法進行分解關聯。

詳解資料倉庫資料指標資料治理體系建設方法論

怎麼管理指標體系

1. 痛點分析

主要從業務、技術、產品三個視角來看:

業務視角

業務分析場景指標、維度不明確;

頻繁的需求變更和反覆迭代,資料報表臃腫,資料參差不齊;

使用者分析具體業務問題找資料、核對確認資料成本較高。

技術視角

指標定義,指標命名混亂,指標不唯一,指標維護口徑不一致;

指標生產,重複建設;資料彙算成本較高;

指標消費,資料出口不統一,重複輸出,輸出口徑不一致;

產品視角

缺乏系統產品化支援從生產到消費資料流沒有系統產品層面打通;

2. 管理目標

技術目標

統一指標和維度管理,指標命名、計算口徑、統計來源唯一, 維度定義規範、維度值一致

業務目標

統一資料出口、場景化覆蓋

產品目標

指標體系管理工具產品化落地;指標體系內容產品化落地支援決策、分析、運營例如決策北極星、智慧運營分析產品等

3. 模型架構

詳解資料倉庫資料指標資料治理體系建設方法論

業務板塊定義原則:業務邏輯層面進行抽象、物理組織架構層面進行細分,可根據實際業務情況進行層級分拆細化,層級分級建議進行最多進行三級分拆,一級細分可公司層面統一規範確定,二級及後續拆分可根據業務線實際業務進行拆分。

例如滴滴出行領域業務邏輯層面兩輪車和四輪車都屬於出行領域可抽象出行業務板塊(level一級),根據物理組織架構層面在進行細分普惠、網約車、計程車、順風車(level二級),後續根據實際業務需求可在細分,網約車可細分獨乘、合乘,普惠可細分單車、企業級。

規範定義

資料域

指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為一個個不拆分的行為事件,在業務過程之下,可以定義指標;維度,是度量的環境,如乘客呼單事件,呼單型別是維度。為了保障整個體系的生命力,資料域是需要抽象提煉,並且長期維護更新的,變動需執行變更流程。

業務過程

指公司的業務活動事件,如呼單、支付都是業務過程。其中,業務過程不可拆分。

時間週期

用來明確統計的時間範圍或者時間點,如最近30天、自然周、截止當日等。

修飾型別

是對修飾詞的一種抽象劃分。修飾型別從屬於某個業務域,如日誌域的訪問終端型別涵蓋APP端、PC端等修飾詞。

修飾詞

指的是統計維度以外指標的業務場景限定抽象,修飾詞屬於一種修飾型別,如在日誌域的訪問終端型別下,有修飾詞APP、PC端等。

度量/原子指標

原子指標和度量含義相同,基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如支付金額。

維度

維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體物件。維度屬於一個數據域,如地理維度(其中包括國家、地區、省市等)、時間維度(其中包括年、季、月、周、日等級別內容)。

維度屬性

維度屬性隸屬於一個維度,如地理維度裡面的國家名稱、國家ID、省份名稱等都屬於維度屬性。

指標分類主要分為原子指標、派生指標、衍生指標

原子指標

基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如呼單量、交易金額

派生指標

是1個原子指標+多個修飾詞(可選)+時間週期,是原子指標業務統計範圍的圈定。派生指標又分以下二種型別:

事務型指標

是指對業務過程進行衡量的指標。例如,呼單量、訂單支付金額,這類指標需要維護原子指標以及修飾詞,在此基礎上建立派生指標。

存量型指標

是指對實體物件(如司機、乘客)某些狀態的統計,例如註冊司機總數、註冊乘客總數,這類指標需要維護原子指標以及修飾詞,在此基礎上建立派生指標,對應的時間週期一般為“歷史截止當前某個時間”。

衍生指標

是在事務性指標和存量型指標的基礎上覆合成的。主要有比率型、比例型、統計型均值。

模型設計

主要採用維度建模方法進行構建,基礎業務明細事實表主要儲存維度屬性集合和度量/原子指標;分析業務彙總事實表按照指標類別(去重指標、非去重指標)分類儲存,非去重指標彙總事實表儲存統計維度集合、原子指標或派生指標,去重指標彙總事實表只儲存分析實體統計標籤集合。

指標體系在數倉物理實現層面主要是結合數倉模型分層架構進行指導建設,滴滴的指標資料主要儲存在DWM層,作為指標的核心管理層。

詳解資料倉庫資料指標資料治理體系建設方法論

指標體系元資料管理

維度管理

包括基礎資訊和技術資訊,由不同角色進行維護管理。

基礎資訊對應維度的業務資訊,由業務管理人員、資料產品或BI分析師維護,主要包括維度名稱、業務定義、業務分類。

技術資訊對應維度的資料資訊,由資料研發維護,主要包括是否有維表(是列舉維度還是有獨立的物理維表)、是否是日期維、對應code英文名稱和中文名稱、對應name英文名稱和中文名稱。如果維度有維度物理表,則需要和對應的維度物理表繫結,設定code和name對應的欄位。如果維度是列舉維,則需要填寫對應的code和name。維度的統一管理,有利於以後資料表的標準化,也便於使用者的查詢使用。

指標管理

包括基礎資訊、技術資訊和衍生資訊,由不同角色進行維護管理。

基礎資訊對應指標的業務資訊,由業務管理人員、資料產品或BI分析師維護,主要包括歸屬資訊(業務板塊、資料域、業務過程),基本資訊(指標名稱、指標英文名稱、指標定義、統計算法說明、指標型別(去重、非去重)),業務場景資訊(分析維度,場景描述);

技術資訊對應指標的物理模型資訊,由資料研發進行維護,主要包括對應物理表及欄位資訊;

衍生資訊對應關聯派生或衍生指標資訊、關聯資料應用和業務場景資訊,便於使用者查詢指標被哪些其它指標和資料應用使用,提供指標血緣分析追查資料來源的能力。

原子指標定義歸屬資訊 + 基本資訊 + 業務場景資訊派生指標定義時間週期 + 修飾詞集合 + 原子指標修飾型別主要包含型別說明、統計算法說明、資料來源(可選)

指標體系建設流程

建模流程

建模流程主要是從業務視角指導工程師對需求場景涉及的指標進行主題抽象,歸類,統一業務術語,減少溝通成本,同時避免後續的指標重複建設。

詳解資料倉庫資料指標資料治理體系建設方法論

分析資料體系是模型架構中彙總事實表的物理集合,業務邏輯層面根據業務分析物件或場景進行指標體系抽象沉澱。滴滴出行主要是根據分析物件進行主題抽象的,例如司機主題、安全主題、體驗主題、城市主題等。指標分類主要是根據實際業務過程進行抽象分類,例如司機交易類指標、司機註冊類指標、司機增長類指標等。基礎資料體系是模型架構中明細事實表和基礎維度表的物理集合,業務邏輯層面根據實際業務場景進行抽象例如司機合規、乘客註冊等,還原業務核心業務過程。

開發流程

開發流程是從技術視角指導工程師進行指標體系生產、運維及質量管控,也是資料產品或資料分析師和數倉研發溝通協調的橋樑。

詳解資料倉庫資料指標資料治理體系建設方法論

指標體系圖譜建設

指標體系圖譜概述

指標體系圖譜也可稱為資料分析圖譜主要是依據實際業務場景抽象業務分析實體,整合梳理實體涉及的業務分類、分析指標和維度的集合。

建設方法:主要是透過業務思維、使用者視角去構建,把業務和資料緊密關聯起來,把指標結構化分類組織

建設目的:

對於使用者:

便於使用者能夠快速定位所需指標和維度,同時透過業務場景化沉澱指標體系,能夠快速觸達使用者資料訴求

對於研發:

利於後續指標生產模型設計、資料內容邊界化、資料體系建設迭代量化和資料資產的落地

詳解資料倉庫資料指標資料治理體系建設方法論

詳解資料倉庫資料指標資料治理體系建設方法論

指標體系產品化

詳解資料倉庫資料指標資料治理體系建設方法論

指標體系涉及的產品集主要是依據其生命週期進行相應建設,透過產品工具打通資料流,實現指標體系統一化、自動化、規範化、流程化管理。因為指標體系建設本質目標是服務業務,實現資料驅動業務價值,所以建設的核心原則是“輕標準、重場景,從管控式到服務式”。透過工具、產品、技術和組織的融合提高使用者使用資料效率,加速業務創新迭代。

其中和指標體系方法論強相關產品就是指標字典工具的落地,其產品的定位及價值:

支撐指標管理規範從方法到落地的工具,自動生成規範指標,解決指標名稱混亂、指標不唯一的問題,消除資料的二義性

統一對外提供標準的指標口徑和元資料資訊

詳解資料倉庫資料指標資料治理體系建設方法論

工具設計流程 (方法論->定義->生產->消費)

詳解資料倉庫資料指標資料治理體系建設方法論

指標定義

詳解資料倉庫資料指標資料治理體系建設方法論

指標生產

這部分整體介紹了指標體系建設方法論和工具產品的建設情況,目前指標字典和開發工具已實現流程打通,與資料消費產品的打通後續會透過DataAPI方式提供資料服務,規劃建設中。

三、資料治理

一、資料治理 治的是“資料”嗎?

資料是指對客觀事件進行記錄並可以鑑別的符號,是對客觀事物的性質、狀態以及相互關係等進行記載的物理符號或這些物理符號的組合。其實在我看來,資料可以分為兩個部分,一是數字,二是文字。數字是沒有意義的抽象符號,資料是有意義的數字。文字表意,數字表量,當兩者結合起來,資料就產生了。

在我們的生活和工作當中,資料無處不在。對企業來講,有很多資料是無關企業重大利益的資料,是沒有治理的必要的。資料治理的物件必須是重要的資料資源,是關乎企業重大商業利益的資料資源,這樣的資料資源可以稱其為“資料資產”。正如北大教授王漢生先生所說:“資料治理不是對“資料”的治理,而是對“資料資產”的治理,是對資料資產所有相關方利益的協調與規範。”

我們需要分開來理解這句話:

①什麼是資料資產?

②資料資產的相關利益方是誰?

③協調與規範什麼?

先說一說什麼是資料資產。

我們說不是所有資料都是資料資產,那到底什麼才是資料資產呢?

《企業會計準則-基本準則》第20條規定:“資產是指企業過去的交易或者事項形成的、由企業擁有或者控制的、預期會給企業帶來經濟利益的資源。” 如果照貓畫虎修改一下,不難獲得一個關於資料資產的定義:“資料資產是指企業過去的交易或者事項形成的,由企業擁有或者控制的,預期會給企業帶來經濟利益的資料資源。”由此可見,資料要成為資料資產,至少要滿足3個核心必要條件:

①資料資產應該是企業的交易或者事項形成的;

②企業擁有或者控制;

③預期會給企業帶來經濟利益。

資料資產的利益相關方是誰?

根據資料資產的定義,資料資產的利益相關方,包括:

①資料的生產者,即透過業務交易或事項產生資料的人或組織。

②資料的擁有或控制者,生產資料的人不一定是擁有資料,就像我們天天上網的各種資料都不歸我們自己所有,而是落在了各個網際網路公司的資料庫中。

③資料價值和經濟利益的收益者。資料治理就是對資料生產者、擁有或控制者,資料價值獲益者的規範和協調。

都什麼是需要協調和規範?

首先是資料的標準化

,定義統一的資料標準,“寫中國字、說普通話”讓資料資產的相關利益方在同一個“頻道”溝通。資料的標準化包含幾個層面:①資料模型標準化。②核心資料實體的標準化(主資料的標準化)。③關鍵指標的標準化。

其次是資料的確權。

資料一旦成為資產,就一定有擁有方,或者實際控制人,可以把他們統稱產權人。與實物不同的是,實物的產權是比較明確的,資料則比較複雜。產品在生產製造過程中,並沒有與消費者交易之前,製造商擁有完全產權。產品生產出來後,消費者透過購買支付相應的貨幣,便擁有了產品的產權。而資料的生產過程就不一樣了,我們的各種上網行為每天都會產生大量的資料,例如:網上購物、瀏覽網頁、使用地圖、評論/評價……。這些資料到底歸誰所有?控制權該如何治理?這是擺在面前的一個難題!我們看到近幾年一些不良商家,利用我們的上網資料,導致安全隱私洩密的事件也層出不窮。希望隨著技術和商業的進步,儘快能夠找到解決方案!

第三是流程的最佳化。

資料治理的兩個目標:一個是提質量,一個是控安全。網際網路資料的確權目前已經是一個世界級難題,做好企業業務流程的最佳化可能會對隱私保護起到一定的作用。透過業務流程最佳化,規範資料從產生、處理、使用到銷燬的整個生命週期,使得資料在各階段、各流程環節安全可控,合規使用。另外,透過一定的流程最佳化,透過對相關流程進行監管,按照資料的質量規則進行資料校驗,符合“垃圾進、垃圾出”的資料採集、處理、儲存原則,提升資料治理,賦能業務應用。

二、資料治理 到底在哪裡治?

資料治理到底應該放在中臺,還是後臺,我個人的理解是:

小資料標準化治理靠人工、大資料預測性分析靠智慧,將兩者結合起來:“人工+智慧”形成了完整的資料治理技術體系。

一個企業的資料治理既離不開小資料的標準化治理,也離不開大資料的預測性分析。

這裡的小資料,是在承載事物實體的資料,例如:人、財、物等,是企業所有業務開展的載體。其實說白了就是主資料管理。對於主資料的治理筆者認為是一個後臺行為,治理核心是“唯一資料來源、統一資料標準”,而要達到這一目標是需要從資料的源頭抓起的,並且需要大量的人為干預,比如:資料標準的制定和落實,資料質量的清洗,資料的申請審批,資料的分發和共享等。從這裡也能夠看出小資料的治理,追求的是標準化、精確化,應該是一個後臺行為。

而在大資料時代,得益於大資料技術的突破,大量的結構化、非結構化、異構化的資料能夠得到儲存、處理、計算和分析,這一方面提升了我們從海量資料中獲取知識和洞見的能力。對於大資料,傳統的一味追求精確的思維受到了挑戰。而對於大資料的治理,允許一定程度上的容錯,反而可以在宏觀層面擁有更好的知識和洞察力。對於大資料的治理更多的是採用AI技術,例如:知識圖譜、語音識別等,對大資料的採集、處理、使用過程加以控制,使其能夠合規使用。所以,大資料的治理放在中臺似乎更為合適。

三、資料治理 到底應該怎麼治?

1、找症狀,明確目標

任何企業實施資料治理都不是為了治理資料而治理資料,其背後都是管理和業務目標的驅動。企業中普遍存在的資料質量問題有:資料不一致、資料重複、資料不準確、資料不完整、資料關係混亂、資料不及時等。

詳解資料倉庫資料指標資料治理體系建設方法論

由於這些資料問題的存在對業務的開展和業務部門之間的溝通造成了較大的困擾,產生了很大的成本;各異構的系統中資料不一致,導致業務系統之間的應用整合無法開展;資料質量差無法支撐資料分析,分析結果與實際偏差較大。然而要實現資料驅動管理、資料驅動業務的目標,沒有高質量的資料支撐是行不通的。

目標:企業實施資料治理的第一步,就是要明確資料治理的目標,理清資料治理的關鍵點。

技術工具:實地調研、高層訪談、組織架構圖。

輸入:企業資料戰略規劃,亟待解決的業務問題,經營發展需求,業務需求等;

輸出:資料治理的初步溝通方案,專案任務書,工作計劃表;

2、理資料,現狀分析

針對企業資料治理所處的內外部環境,從組織、人員、流程、資料四個方面入手,進行資料治理現狀的分析。

詳解資料倉庫資料指標資料治理體系建設方法論

某企業資料治理痛點分析

組織方面:是否有專業的資料治理組織,是否明確崗位職責和分工。

人員方面:資料人才的資源配置情況,包括資料標準化人員、資料建模人員,資料分析人員,資料開發人員等,以及資料人才的佔比情況。

流程方面:資料管理的現狀,是否有歸口管理部門,是否有資料管理的流程、流程各環節的資料控制情況等;

資料方面:梳理資料質量問題列表,例如:資料不一致問題,資料不完整,資料不準確、資料不真實、資料不及時、資料關係混亂,以及資料的隱私與安全問題等。

目標:分析企業資料管理和資料質量的現狀,確定初步資料治理成熟度評估方案。

技術工具:實地訪談、調研表、資料質量問題評議表、關鍵資料識別方法論(例如:主資料特徵識別法);

輸入:需求及現狀調研表、訪談記錄、資料樣本、資料架構、資料管理制度和流程檔案;

輸出:資料問題列表、資料U/C矩陣、資料治理現狀分析報告、資料治理評估方案;

3、資料治理成熟度評估

資料治理成熟度反映了組織進行資料治理所具備的條件和水平,包括元資料管理、資料質量管理、業務流程整合、主資料管理和資訊生命週期管理。

詳解資料倉庫資料指標資料治理體系建設方法論

CMMI DMM資料管理能力成熟度評估模型

資料治理成熟度評估是利用標準的成熟度評估工具結合行業最佳實踐,針對企業的資料治理現狀進行的客觀評價和打分,找到企業資料治理的短板,以便制定切實可行的行動方案。資料治理成熟度結束後形成初步的行動方案,一般包括資料治理戰略,資料治理指標,資料治理規則,資料治理權責。資料治理願景和使命是資料治理的整體目標;資料治理指標定義了資料治理目標的衡量方法;資料治理規則和定義包括與資料相關的政策、標準、合規要求、業務規則和資料定義等;權利和職責規定了由誰來負責制訂資料相關的決策、何時實施、如何實施,以及組織和個人在資料治理策略中該做什麼。

目標:結合業界標準的資料治理成熟度模型,根據企業管理和業務需求進行資料治理成熟的評估,形成初步的資料治理策略和行動路線。

技術工具:資料治理評估模型,例如:DCMM,CMMI DMM,IBM資料治理成熟度評估模型等;

輸入:第2步的輸入以及資料治理評估模型、資料治理評估工具(評估指標、打分表等);

輸出:資料治理評估結果,資料治理策略,初步的行動方案;

4、資料質量問題根因分析

資料治理的目的是解決資料質量問題提升資料質量,從而為資料驅動的數字化企業提供源動力,而提到資料質量問題,做過BI、數倉的同學一定知道,這是一個技術和業務“經常打架”相互推諉的問題。

詳解資料倉庫資料指標資料治理體系建設方法論

某企業資料問題根因分析魚骨圖

產生資料質量問題的原因有很多,有業務方面的、有管理方面的、也有技術方面的,按照80/20法則,80%的問題是由20%的原因造成起的。所以,如果能夠解決這20%的問題,就能得到80%的改進。

目標:分析並找到資料質量問題產生的根本原因,制定行之有效的解決方案;

技術工具:頭腦風暴、5W1H、SWOT、因果(魚刺)圖、帕拉圖等;

詳解資料倉庫資料指標資料治理體系建設方法論

詳解資料倉庫資料指標資料治理體系建設方法論

詳解資料倉庫資料指標資料治理體系建設方法論

關於資料治理的核心領域,詳見筆者之前分享的資料治理框架解讀系列文章。

關於資料治理的支撐體系,詳見筆者之前分享的資料治理成功關鍵要素系列文章。

目標:基於資料質量根因分析、業務影響和實施優先順序評估結果,制定詳細實施方案;

詳解資料倉庫資料指標資料治理體系建設方法論

④實施週期長,在沒有清晰的資料治理目標和範圍約定的情況下,資料治理是一個“無底洞”。所以,在實施資料治理專案之前制定好實施路線圖和詳細的實施方案就顯得格外重要(第6、7步)。

目標:透過對資料治理專案實施過程的進度控制、質量控制和成本控制以實現資料治理的目標;

技術工具:PP(專案計劃)、PMC(專案控制)、IPM(整合專案管理)、RSKM(風險管理)——CMMI過程域;

詳解資料倉庫資料指標資料治理體系建設方法論

③準確性。這個維度主要由各類資料中邏輯的準確性、資料值的準確性、資料頻段和欄位之間的準確性以及資料的精度等內容組成。該準確率同樣包括:月度、每週、每日等準確率指標。

④完整性。此維度主要以單元維度完整性、資料業務維度組合完整性、索引值完整性等不同方面進行核對,是驗證資料質量完整性的主要組成部分,包括月度指標、周指標、日指標資料的完整性等內容。

目標:檢驗各項資料治理指標的落實情況,查漏補缺,夯實資料治理效果;

技術工具:資料治理效果的評價指標體系、各種資料圖表工具;

詳解資料倉庫資料指標資料治理體系建設方法論

詳解資料倉庫資料指標資料治理體系建設方法論

本公眾號所載文章為本公眾號原創或根據網路搜尋編輯整理,文章版權歸原作者所有。因轉載眾多,無法找到真正來源,如標錯來源,或對於文中所使用的圖片,資料,下載連結中所包含的軟體,資料等,如有侵權,請跟我們聯絡刪除,謝謝

福利

積累:

每天學習一篇解決方案,歡迎加入“企業數字化諮詢”知識星球,加入即可獲取其他

5000+

解決方案/報告!

內容:

這是本人精心建立的知識社群,在這裡你將獲得精心整理的企業數字化領域的調研報告、解決方案、方法論、電子書、行業諮詢、行業發展等,其中包括工業網際網路、企業數字化、智慧製造、大資料、工業4。0等領域,預計年度分享數量超過

10000+

份,另外也會購買一些經典的PPT模板供大家使用!

定位:

希望將該知識星球打造為一個大家

樂於探討

頻繁搜尋資料

的行業庫,成為一把企業數字化領域的職業利器!

Top