很可惜 T 。T 您現在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯系
咨詢如何成為春羽作者請聯系:鳥哥筆記小羽毛(ngbjxym)
作者|明明
為什么想開這個話題,一是因為目前業(yè)內數據產品也基本完成了從0-1的建設工作,但主要集中在數據生產加工和數據應用分析兩側,對于數據管治方向的建設多分散在了包括安全、指標元數據、SLA等在內的各個環(huán)節(jié),缺乏統(tǒng)一的規(guī)劃統(tǒng)籌,筆者認為,數據產品可以分為工具類數據產品、業(yè)務分析類數據產品和管控治理類數據產品三類,而工具類數據產品和業(yè)務分析數據產品市面上也開始趨近飽和,但管控治理類數據產品其實是更高能力要求的一個細分工種,既需要懂工具建設也需要懂數據分析,還需要具備跨多團隊橫向協(xié)調的項目推動能力和策略運營能力;二呢,筆者曾經就做過一次失敗的大治理工作,也做過一次相對成功的安全治理工作,也參與過指標監(jiān)控、安全工具等的建設,所以也想把這其中那的成功和失敗的經驗分享出來供大家參考。
根據筆者的研究,目前業(yè)內數據治理總結起來一共分為兩類,一類是狹義的數據治理,是指數據指標口徑一致性的治理,此類數據治理主要是解決指標口徑的一致性,解決數據“不準”的問題,也由此引申出一些智能數倉、指標元數據工具,比如美團的起源、快手的蓋亞、阿里的dataphin等等;另一類是指廣義的數據治理,是指包括數據指標口徑治理、數據安全治理、數據資源成本治理、數據資產元數據治理、數據產出治理等在內的大治理,此類數據治理是需要綜合解決數據從采集加工到應用分析再到銷毀全生命周期內的口徑、成本、安全、合規(guī)和產出問題,在工具建設上,目前筆者看到的多是分散在數據安全、資產中心、SLA中心等不同的產品領域。
這次筆者就不賣關子了,直接拋觀點,筆者認為,數據治理戰(zhàn)略層面的設計總結就兩點:
第一,數據治理是一個系統(tǒng)性工程。
數據治理主要面對三個問題,一是用戶心智培養(yǎng)問題,二是組織保障問題,三是系統(tǒng)提效問題,所以,單純從組織保障層面發(fā)力會面臨效率和質量不高成本卻奇高的問題,單純從運營機制建設層面發(fā)力會面臨缺乏組織和工具來落地策略的問題,單純從建設工具發(fā)力會面臨缺乏組織抓手且找不到核心使用用戶,需求無法進入正向循環(huán)的問題。以上問題一句話總結就是靠組織無法長期有效,靠運營無法落地實施,靠工具又缺乏用戶和需求持續(xù)跟進,因此,數據治理是一個需要組織保障、運營實施和工具建設三位一體跟進的工作。
第二,數據治理又是一個抓大放小的工程。
世界本質是一個熵增的過程,即任何事物本質是一個自發(fā)的由有序向無序發(fā)展的過程,這個既是人性也是客觀規(guī)律,而數據治理本質是減熵的過程,是建立秩序,因此任何的治理本身是逆人性和逆客觀規(guī)律的,需要源源不斷投入能量(資源)才能維持熵值平衡。但問題就在于,人性天然有建設性和破壞性兩面,想要秩序的存在并維持下去,本身就是需要投入非常大的建設精力和成本的,而且這個成本還不是一成不變的,它是隨著公司資產的累加而增加的,也是會隨著公司戰(zhàn)略、制度和文化的革新變化而變化的,因此,數據治理工程中追求完美主義是不可取的,我們要學會分類分級,學會判斷優(yōu)先級,學會抓大放小,允許有序和無序的并存。
數據治理到底解決什么問題?或者說什么問題的存在才需要數據治理?首先,我們來場景化模擬下數據從誕生到銷毀的一生中遇到的主要問題。
場景1:小明是A視頻公司的策略產品經理,工作職責之一就是分析用戶的特點和行為習慣,從而幫助算法工程師優(yōu)化視頻推薦策略,從而提高用戶對視頻APP的使用黏性。這天,小明抽樣了部分用戶瀏覽行為數據,發(fā)現部分用戶單位時間內視頻切換速率較高,停留時長較短,且點贊和關注數都較少,小明猜測是算法推薦的質量有問題,小明找了算法RD,算法RD卻回復最近視頻推薦的準召率(準確率和召回率)沒有問題,并沒有出現下降,肯定不是算法的問題,是視頻內容質量的問題,或者是抽樣數據的問題。小明很苦惱,為什么數據分析下來,小明覺得用戶對視頻的喜好度是不夠高的,但研發(fā)說準召率卻沒問題,那問題出在哪?
場景2:小紅是B咨詢公司的新來的數據分析師,最近她接到一個任務,需要為客戶的一個市場咨詢報告提供數據分析支持,因此小紅從業(yè)務經理那里了解完需求后,開始從公司數據庫和第三方數據庫獲取數據,但事情卻一波三折,就單單在業(yè)務數據分析的定義上就來回溝通了好幾次,業(yè)務經理告訴小紅她想知道a指標的數據,小紅翻閱了前人關于a指標的統(tǒng)計口徑記錄發(fā)現,a指標居然有不下10個統(tǒng)計口徑,諸如a1字段在x1維度下的聚合、a2字段在x2維度下的聚合等等,到底應該遵循哪個規(guī)范?結果咨詢一堆同學,發(fā)現每一個口徑都有特定的需求背景和定制化規(guī)則,這一通忙活。
場景3:小東是C公司的數據RD,最近他經常半夜被各種數據跑批任務延遲和失敗告警給吵醒,原來是公司最近要迎接618,活動量的爆炸式增長導致業(yè)務數據量的爆炸式增長,而業(yè)務報表的數據統(tǒng)計邏輯和背后的數據源卻沒有及時優(yōu)化,導致集群計算資源不足以支撐暴漲的需求而出現任務延遲或者失敗的情況,這個情況又影響了業(yè)務報表的數據及時展示,影響了公司各業(yè)務KP郵件報表的及時性。
場景4:小陽是D公司的安全運營,最近公司上線了一個新業(yè)務,和已經上線的幾家公司形成了假正經關系,然后他最近經常收到市場情報反饋,競品公司能迅速感知到公司的投放數據和增長數據,到底是哪個環(huán)節(jié)出了問題,為什么競品公司能這么快知道公司核心數據機密,這讓他最近壓力倍增?
分析以上問題,場景1其實是數據指標準確性的問題,場景2的問題主要是數據指標規(guī)范性和唯一性的問題,場景3主要是數據產出及時性的問題,而場景4是數據安全性的問題,以上,筆者認為都屬于數據治理需要解決的問題。
綜上,數據治理的目標主要是解決以下四方面的問題:
1.規(guī)范治理:解決數據完整性、規(guī)范性和唯一性問題
2.SLA治理:解決數據產出及時性問題
3.口徑治理:解決數據指標準確性和口徑一致性問題
4.安全治理:解決數據采集生產應用各環(huán)節(jié)中賬號注冊認證、權限管理、安全審計和隱私保護等安全治理問題
1. 成立數據治理委員會,提供立法和組織保障:
成立治理制度執(zhí)委會,負責研究和出臺相關治理制度和規(guī)范標準,目標是促成公司內各個業(yè)務團隊達成共識,形成統(tǒng)一規(guī)范,避免信息孤島
成立治理產品執(zhí)委會,負責梳理數據各環(huán)節(jié)的需求處理流程和業(yè)務流轉流程,負責各環(huán)節(jié)的治理工具建設,形成可執(zhí)行方案,然后報制度執(zhí)委會推行
成立治理技術執(zhí)委會,負責數據各環(huán)節(jié)的技術定義、模型設計和口徑維護,對數據資產的落庫規(guī)范性和唯一性等負責
成立第三方治理審計監(jiān)察組,負責治理效果的評估、badcase的運營跟進和事后追溯審計
2. 建設數據治理套件,提供工具保障:
建設資產治理中心,目標是為解決數據元信息的完整性、規(guī)范性、唯一性提供技術支持
建設SAL治理中心,目標是為解決數據生產加工任務產出的及時性和任務調度的運維提供技術支持
建設指標治理中心,目標是統(tǒng)一指標定義、指標生產和服務,解決指標口徑一致性和服務的效率問題
建設安全治理之心,目標是為數據安全5A領域)(賬號、認證、授權、審計、隱私保護)的問題提供技術支持
圖1:數據治理流程保障規(guī)劃示意圖
思路:如上圖所示,數據治理流程保障規(guī)劃整體思路參考PDCA循環(huán),即制定詳細規(guī)范方案,然后去驗證并解決問題,接著檢查問題是否真實被根本解決,最后根據反饋再繼續(xù)爹迭代方案,進入下一個循環(huán)。
機制:如上圖所示,數據治理流程保障規(guī)劃整體解決機制上分為三個部分,分別是事前預防,事中監(jiān)控和事后處理。第一部分的目標是盡量將潛在問題在未爆發(fā)前就消滅掉;第二部分的目標是盡量將問題都找出來,減少影響范圍;第三部分的目標是對暴露出的問題進行快速響應和解決,并總結經驗。
整體流程:如上圖所示,數據治理流程保障規(guī)劃整體流程上將以解決數據質量六性問題(唯一性、規(guī)范性、完整性、準確性、及時性、安全性)為目標,按照“規(guī)范建設-質檢審查-發(fā)現問題-評估問題-解決問題-驗收問題”的閉環(huán)流程,貫穿整個事前、事中和事后的環(huán)節(jié)。
具體實施:如上圖所示,數據治理流程保障規(guī)劃的具體實施細則上,會重點依托易龍的“數據治理五大項目模塊”,然后每個模塊都按照“規(guī)范建設-質檢審查-發(fā)現問題-評估問題-解決問題-驗收問題”的閉環(huán)流程進行梳理和規(guī)劃。
① 發(fā)現問題
召回率(覆蓋率)100%
準確率100%
指標釋義:
召回率(覆蓋率):召回率又叫覆蓋率,是指所有真實存在的問題中,系統(tǒng)或者人工檢測出的問題占比。例如一共100條數據,其中20條存在異常,系統(tǒng)報警顯示有30條存在問題,事后被驗證30條報警中真實存在問題的有10條,則召回率(覆蓋率)=10/20*100%=50%。
準確率:是指所有被系統(tǒng)或者人工檢測出的問題中,真實存在問題的占比。例如一共100條數據,其中20條存在異常,系統(tǒng)報警顯示有30條存在問題,事后被驗證30條報警中真實存在問題的有10條,則準確率=10/30*100%=33.3%。
注意: 理論上最理想的狀態(tài)就是一次監(jiān)控任務中,所有問題都被發(fā)現,且所有報警的數據中沒有摻雜虛報情況,也就是召回率達到100%,準確率為100%。但是實際場景中,這樣的理想情況幾乎是不存在的! 過度追求高召回率,監(jiān)控規(guī)則一定會設置的異常簡單,那往往會有很多正常的波動會被系統(tǒng)判定為“異?!?;同理,過度追求高準確率,監(jiān)控規(guī)則一定會設置的異??量蹋亲匀槐粓缶臄祿际谴嬖诋惓5?,準確率100%,但是這樣往往很多異常數據會被監(jiān)控系統(tǒng)給漏掉,漏報率就會異常的高!
因此,優(yōu)秀的監(jiān)控系統(tǒng)都是根據實際場景一直在找尋召回率和準確率間的平衡點。
② 解決問題
響應時長:24小時內響應問題
定位問題:3天內完成問題的定位
解決問題:2周內徹底解決問題
③ 數據通道質量
丟失率<0.1%
重復率<0.1%
延遲率<0.5%
① 唯一性
指標、緯度、模型、庫表、數據、報表的唯一
ID唯一
名稱唯一
定義唯一
加工邏輯唯一
產出渠道唯一
相似的指標、緯度、模型、庫表、報表做減法,減少冗余
② 規(guī)范性
流程規(guī)范
需求→評估→處理→測試→上線→驗收環(huán)節(jié)嚴格執(zhí)行
數據和流程double check
測試、試驗驗證數據質量和流程執(zhí)行情況
日志、庫表、模型、報表、代碼有統(tǒng)一的設計和輸出規(guī)范,信息齊全、分層合理、資源使用合理
③ 完整性
日志、庫表的元信息完善,灰度測試階段只有空值率、異常值占比、分區(qū)缺失等指標合格后方可上線發(fā)布
如圖2和圖3所示,對于重要級別的日志、指標、庫表數據,除了粗粒度的質檢外,還需要每天進行更加嚴格和科學的監(jiān)控,以提前發(fā)現問題并推動解決:
圖2:數據埋點質量監(jiān)控報表
圖3:數據指標準確性監(jiān)控報表
① 完整性(是否缺失或不可用)
日志
丟失率
庫表
丟失率
分區(qū)缺失
信息缺失(0、空值、NULL)
② 準確性
業(yè)務側
相同指標不同報表間建立交叉驗證
相同報表不同指標間建立邏輯驗證
相同報表相同指標建立波動驗證
技術側
埋點間的交叉驗證
多層庫表間相同指標交叉驗證
明細層和統(tǒng)計層建立數據量、行數、計算結果的比對驗證
③ 及時性
日志上報
有效上傳率
延遲率
資源使用
當前占用占比
剩余資源占比
任務調度
完成率
失敗率
延遲率
① 監(jiān)控分級
對業(yè)務的影響度
模型、庫表、報表使用熱度
作業(yè)耗時熱度
故障分級
② 預警分級
藍色預警
黃色預警
紅色預警
③ 報警方式
電話
郵件
短信
企業(yè)微信
① 問題跟蹤處理
問題分發(fā)(按業(yè)務、主題、部門等劃分問題歸屬)
問題跟蹤
問題原因追溯
問題解決排期
問題解決反饋
② 問題驗收
業(yè)務驗收
監(jiān)控系統(tǒng)驗收
③ 定責存檔
事故等級劃分
事故存檔
圖4:數據治理組織保障規(guī)劃示意圖
責任劃分:以“規(guī)范建設-質檢審查-發(fā)現問題-評估問題-解決問題-驗收問題”的閉環(huán)流程為切入點,將“需求規(guī)劃組、模型工程組、質檢監(jiān)控組、審計評估組、數倉工程組、應急響應組”分別配屬到對應的環(huán)節(jié)中去,以提供流程執(zhí)行的組織人力保障。
平臺支持:重點建設埋點管理平臺、元數據管理平臺、質檢監(jiān)控平臺、工單管理平臺,為各流程環(huán)節(jié)中的組織人效提供幫助和支持。
具體實施:如上圖所示,數據應用PM、數據平臺PM和模型工程師將對整個數據治理組織和平臺的健康高效運轉負責,并對其向數據治理委員會匯報。
成立治理制度執(zhí)委會,負責研究和出臺相關治理制度和規(guī)范標準,目標是促成公司內各個業(yè)務團隊達成共識,形成統(tǒng)一規(guī)范,避免信息孤島
成立治理產品執(zhí)委會,負責梳理數據各環(huán)節(jié)的需求處理流程和業(yè)務流轉流程,負責各環(huán)節(jié)的治理工具建設,形成可執(zhí)行方案,然后報制度執(zhí)委會推行
成立治理技術執(zhí)委會,負責數據各環(huán)節(jié)的技術定義、模型設計和口徑維護,對數據資產的落庫規(guī)范性和唯一性等負責
成立第三方治理審計監(jiān)察組,負責治理效果的評估、badcase的運營跟進和事后追溯審計
成立需求規(guī)劃小組,對所有業(yè)務需求的接待和規(guī)范負責
成立模型工程小組,對接數據應用PM,對數據從業(yè)務關聯到技術側的文檔和規(guī)范負責
成立質檢監(jiān)控小組,對數據業(yè)務測試和技術測試的實施負責,對數據上報的質量篩查負責,對數據質量的監(jiān)控負責
成立審計評估小組,對上報的問題評估定級負責,對問題的合理分發(fā)和處理進展負責
成立數倉工程小組,對數倉的規(guī)范建設負責,對問題的修復負責
成立應急響應小組,對緊急高優(yōu)先級的需求快速高質量負責
數據治理項目規(guī)劃地圖橫向一共分為機制、流程保障、細則、責任劃分、工具平臺和各個子項目模塊(包括日志埋點模塊、通道傳輸模塊、內容規(guī)范模塊、加工過程模塊、語義定義模塊)
數據治理項目機制劃分為:事前預防——事中監(jiān)控——事后處理
數據治理項目流程保障劃分為:規(guī)范建設→質檢審查→發(fā)現問題→評估問題→解決問題→驗收問題
圖5:數據治理項目規(guī)劃地圖
本期主要從數據治理的問題分析、治理目標和治理策略進行了闡述,下期起將重點介紹數據治理涉及的相關工具和平臺建設,包括資產治理中心、SLA治理中心、安全治理中心和指標治理中心等,歡迎關注~
-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯想;
5)展現血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯。
6. 傳播封建迷信,主要表現為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現為:
1)以各種夸張、獵奇、不合常理的表現手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)