您現在的位置是:首頁 > 武術

如何進行指標質量治理——指標系統(提質篇)

  • 由 一個數據人的自留地 發表于 武術
  • 2021-09-06
簡介3、限定詞不同,但業務事實相同的兩個指標,描述事實部分的口徑不一致如涉及到 “購買” 這個業務事實的相關指標:白金會員的支付使用者數中,“支付使用者數” 的口徑定義是:統計週期內下單並且成功支付的去重使用者數

指標名稱填什麼

作者介紹

@小風

資料中臺產品負責人;

UBDC全域大資料峰會“燈塔人物”;

擅長埋點模型、指標治理,數倉架構等;

“資料人創作者聯盟”成員。

01

指標質量治理概述

指標質量治理主要分為兩個部分:提質與增效。

可以簡單從字面進行理解,提質就是提升指標質量,主要是針對指標本身而言,保障指標在應用的過程中不會出現歧義、誤解,並且指導數倉的規範化建設,而增效則是增加指標的效益,主要是針對指標與企業的關係而言,讓指標在企業的業務活動中,能更高效、更準確地反映出企業的內在情況與業務問題,為企業的發展方向提供指導。

本文主要是指標提質為主,指標增效部分擇日再續。

02

指標提質的工作主要分為兩個階段

A、面對已存在的、混亂的舊指標現狀,進行全業務的指標梳理與重建;

B、約束新指標需求,規範化指標開發流程。

03

指標提質需要達到的目標

A階段:

1、輸出全域性指標字典:用於相關使用人員檢索、查詢、確認;

2、調整指標的呈現:從數倉欄位到報表、資料產品的功能上,對梳理後的指標進行最佳化、重整;

3、指導數倉的重構:重新規劃數倉分層與資料加工流程。

B階段:

1、制定指標需求稽核流程;

2、輸出指標作業手冊,從指標的變更、動議到方案、執行,制定嚴格的流程;

3、研發指標系統,規範化指標開發流程,並最終將指標落地到指標字典。

04

針對指標進行前提的調研

指標混亂的原因主要有以下 7 個方面(4 個不一致,3 個不清晰):

1、相同指標名稱,口徑不一致

如對於 “新使用者” 的定義:

運營部的口徑是:首次下單並完成支付的使用者。

產品部的口徑是:當日新增註冊的使用者。

兩者描述的是不同的目標使用者群,但由於命名上相同,所以在使用上容易讓人混淆。

2、相同口徑,不同指標名稱

如 “優惠券” 的相關指標:

衡量企業日常經營活動的健康度:優惠券抵扣金額。

衡量市場活動效果:優惠券消耗金額。

兩者都是衡量優惠券抵扣的金額,但由於不同名,所以導致認知上出現了偏差。

3、限定詞不同,但業務事實相同的兩個指標,描述事實部分的口徑不一致

如涉及到 “購買” 這個業務事實的相關指標:

白金會員的支付使用者數中,“支付使用者數” 的口徑定義是:統計週期內下單並且成功支付的去重使用者數。

黃金會員的支付使用者數中,“支付使用者數” 的口徑定義是:統計週期內下單並且支付成功,並排除退單的去重使用者數。

兩者描述的都是 “使用者支付商品訂單” 的這個業務過程,記錄都是 “支付” 這個事實,區別在於,一個限定詞是白金會員,另外一個是黃金會員。但根據一致性原則,雖然這兩個指標不同,但是“支付”這個事實是相同的,所以“支付使用者數”這個指標的業務口徑、計算邏輯應該是一致的。

4、指標口徑與計算邏輯不一致

這個問題的根本是指標的需求方或開發人員對於指標的認識不清晰,導致指標在開發邏輯上產生了錯誤導致。如 “近 7 日 UV” 這個指標:

正確的定義是:最近 7 天內,有登入過的去重使用者數。但是在實際應用場景中,有的會定義成:“7 日日均 UV” 也就是近 7 日,每日的 UV 相加除以 7 取平均值。

這個問題在梳理的過程中是比較難發現的,因為它涉及到計算邏輯跟口徑之間的校準,所以需要更仔細地梳理指標開發邏輯。

5、指標口徑不清晰

部分指標口徑的描述比較籠統,或者部分名詞具有多義性。

如描述籠統的 “關單金額” 的口徑描述是 “關閉訂單的金額”,但關閉訂單會有兩種理解,1 是支付後退款,2 是支付前取消;

名詞多義性的:“地址” 這個維度,有多種涵義,如戶籍地址、常住地地址、IP地址、GPS 地址等;

指標描述不清晰,就會讓使用者產生誤解,所以在記錄的時候,必須對這些容易產生誤解的地方進行標註。

6、指標命名不清晰

在實際的業務操作過程中,因為各業務部門只著眼於自己的業務,沒有進行全域性的設計,所以有很多指標在自己的部門內部使用是沒有問題,但是跟其他部門溝通時就會產生歧義,如 ROI、銷售額、支付人數等。這些詞都是普通名詞(也即原子指標),是沒有一個具體的指稱的,所以必須將這些普通名詞都加上具體指稱的業務物件(也即指標的聚合粒度),變成專有名詞,如:

xx渠道 ROI,或是xx活動 ROI;

xx專題銷售額,或是全平臺銷售額;

xx課程支付人數,或是xx專題支付人數。

除此之外,所有的指標都包含了一定的統計週期,只要涉及到具體的數值,就必然要加上統計週期,所有的指標,也都是在最小粒度上去累加出來的,如近一個月xx專題支付人數,是 sum 了 30 個近一天xx專題支付人數,而近一天xx專題支付人數,是 sum 了 24 個近一小時xx專題支付人數,然後到分、到秒。具體需要聚合到什麼粒度,根據具體的需求來設計,所以上述的指標需要調整成:

近一週xx渠道 ROI;

近一月xx專題銷售額;

近一年xx課程支付人數。

7、指標來源和計算邏輯不清晰

這個問題主要出現在一個指標可以透過多個數據源,不同的計算邏輯分別統計得出。比如:某個課程的銷售額,既可以從課程的角度,對單個課程的銷售金額進行累加;也可以從使用者的角度,對購買過該課程的使用者的子單的支付金額進行計算。

如果指標有多個來源,就需要進行來源統一,否則,如果來源不清楚,一旦指標發生問題,很難去溯源定位。另外,有些指標的計算邏輯比較複雜,僅僅憑藉業務口徑一段描述,使用指標的人還是無法理解這個指標的計算邏輯,這個時候就需要有一些偽碼或者 SQL 描述。

05

具體的實施步驟

1、由資料產品牽頭,各業務線資料分析師輔助,成立攻堅小組,進行全域性指標的梳理;

2、明確梳理計劃,進行全業務的指標收集(以下模版供參考);

如何進行指標質量治理——指標系統(提質篇)

3、對於收集到的指標,進行初步討論去重,口徑相同的進行合併,並與業務方進行確認;

4、將剩餘指標進行歸集,明確主題域、業務過程;

5、區分指標型別,拆分原子指標與派生指標,對於派生指標,要定義統計的實體、業務修飾詞、統計週期等;

如何進行指標質量治理——指標系統(提質篇)

6、輸出全域性統一的指標字典;

7、根據指標字典,拆分出的原子指標、派生指標、主題域、業務修飾詞等內容,指導資料倉庫的重構;

8、進行指標系統的搭建,元件化新指標的開發流程。

如何進行指標質量治理——指標系統(提質篇)

如何進行指標質量治理——指標系統(提質篇)

06

寫在最後

指標提質的最終成果,就是要形成一個包含生產自動化、開發邏輯規範化、口徑一致化的指標系統。它既包含指標的開發工具,可以讓各部門業務人員自行組裝指標,也提供全域性業務口徑一致的指標字典,方便使用人員快速瞭解指標的業務含義和計算邏輯,避免對指標的口徑產生歧義。

Top