很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
本人目前在一家在線教育公司擔(dān)任大數(shù)據(jù)營銷產(chǎn)品負責(zé)人,由于一些機緣巧合,我同時負責(zé)了數(shù)據(jù)產(chǎn)品線和營銷CRM產(chǎn)品線,因此給了我更多的機會去思考和實踐如何把數(shù)據(jù)與營銷業(yè)務(wù)深入融合,將大數(shù)據(jù)的勢能賦予營銷平臺,從而實現(xiàn)業(yè)務(wù)的精細化運營和數(shù)據(jù)驅(qū)動。
針對在線教育業(yè)務(wù)場景下的大數(shù)據(jù)營銷平臺實戰(zhàn),我會用一個系列的文章進行系統(tǒng)化闡述。文章可能會涉及:大數(shù)據(jù)平臺搭建、用戶畫像服務(wù)體系、CRM線索動態(tài)評分模型及分配算法、數(shù)據(jù)產(chǎn)品實施推廣方案、客戶數(shù)據(jù)中臺(CDP)等多個方向。
本篇主要來講解如何從0到1構(gòu)建在線教育業(yè)務(wù)場景下的大數(shù)據(jù)平臺。
產(chǎn)品是為了滿足需求,是否需要構(gòu)建大數(shù)據(jù)平臺?以及構(gòu)建什么樣的大數(shù)據(jù)平臺?取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。因此在構(gòu)建大數(shù)據(jù)平臺之前,需要進行充分地調(diào)研,找準問題才能對癥下藥。對企業(yè)數(shù)據(jù)化程度的評估方法,可以參考下圖所示的數(shù)據(jù)管理能力成熟度模型(DMM)。
通過前期的調(diào)研和分析,我們公司當時處于L2等級,面臨的主要數(shù)據(jù)問題如下:
01、數(shù)據(jù)源分散
不利于多數(shù)據(jù)源之間關(guān)聯(lián)分析
不利于數(shù)據(jù)資產(chǎn)價值的進一步挖掘
數(shù)據(jù)孤島嚴重
無統(tǒng)一數(shù)據(jù)平臺、數(shù)據(jù)資源得不到匯總沉淀,數(shù)據(jù)無法高效支撐業(yè)務(wù)
02、數(shù)據(jù)指標不統(tǒng)一
不同業(yè)務(wù)部門分而治之
準確性、權(quán)威性受到質(zhì)疑
不利于公司各業(yè)務(wù)部門KPI考核
指標統(tǒng)計口徑需要標準化
03、數(shù)據(jù)分析效率低
各業(yè)務(wù)部門占用部分精力數(shù)據(jù)分析工作
對于數(shù)據(jù)的需求往往需要從原始數(shù)據(jù)開始
對數(shù)據(jù)分析師的支撐不夠
無成型完整的數(shù)據(jù)分析工具
04、數(shù)據(jù)管理問題
無統(tǒng)一數(shù)據(jù)字典
缺少數(shù)據(jù)地圖
無元數(shù)據(jù)管理
上一部分已經(jīng)對企業(yè)內(nèi)部數(shù)據(jù)問題進行了全面診斷和問題剖析,接下來我們針對這些問題給出解決的架構(gòu)方案和路線圖。
01、數(shù)據(jù)服務(wù)體系藍圖
從業(yè)務(wù)視角給出了如下的數(shù)據(jù)服務(wù)體系藍圖,數(shù)據(jù)服務(wù)體系的規(guī)劃需要滿足三點:數(shù)據(jù)服務(wù)體系需要覆蓋完整的公司業(yè)務(wù)、貫穿業(yè)務(wù)的各個階段、伴隨企業(yè)發(fā)展。
在此數(shù)據(jù)服務(wù)體系中,處于核心環(huán)節(jié)的是數(shù)據(jù)整體建模和數(shù)據(jù)資產(chǎn)管理,也就是我們熟悉的統(tǒng)一化數(shù)倉建設(shè)。結(jié)合在線教育業(yè)務(wù)特點,數(shù)倉建設(shè)需要滿足三個核心數(shù)據(jù)體系建設(shè):
用戶數(shù)據(jù)體系:用戶分析應(yīng)用、用戶標簽、用戶行為數(shù)據(jù),用戶基本信息主數(shù)據(jù)等;
營銷數(shù)據(jù)體系:營銷分析應(yīng)用、營銷分層標簽、渠道特征數(shù)據(jù)、營收轉(zhuǎn)化相關(guān)的主數(shù)據(jù)等;
學(xué)習(xí)數(shù)據(jù)體系:學(xué)習(xí)分析應(yīng)用、學(xué)習(xí)偏好標簽、學(xué)習(xí)行為數(shù)據(jù)、學(xué)習(xí)素材基礎(chǔ)數(shù)據(jù)等。
02、數(shù)據(jù)倉庫架構(gòu)
數(shù)據(jù)倉庫的層次劃分采用業(yè)界通用的層級劃分方式,包括:ODS、DWD、DWS、ADS層,如下圖所示:
1.ODS層
數(shù)據(jù)同步:結(jié)構(gòu)化數(shù)據(jù)增量或全量同步到數(shù)據(jù)倉庫;
結(jié)構(gòu)化:非結(jié)構(gòu)化(日志)結(jié)構(gòu)化處理并存儲到數(shù)據(jù)倉庫;
累積歷史、清洗:根據(jù)數(shù)據(jù)業(yè)務(wù)需求及稽核和審計要求保存歷史數(shù)據(jù)、數(shù)據(jù)清洗;
2.CDM層
組合相關(guān)和相似數(shù)據(jù):采用明細寬表,復(fù)用關(guān)聯(lián)計算,減少數(shù)據(jù)掃描。
公共指標統(tǒng)一加工:基于OneData體系構(gòu)建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計指標;建立邏輯匯總寬表。
建立一致性維度:建立一致的數(shù)據(jù)分析維表,降低數(shù)據(jù)計算口徑不統(tǒng)一的風(fēng)險。
3.ADS層
個性化指標加工:不公用性、復(fù)雜性(指數(shù)型、比值型、排名型等)
基于應(yīng)用的數(shù)據(jù)組裝:大寬表集市、橫表轉(zhuǎn)縱表、趨勢指標串。
03、數(shù)據(jù)處理流程架構(gòu)
數(shù)據(jù)處理流程主要包括源數(shù)據(jù)同步清洗、數(shù)據(jù)處理加工、模型運算和數(shù)據(jù)應(yīng)用。基于在線在線教育公司的業(yè)務(wù)特點,源數(shù)據(jù)主要包括:渠道數(shù)據(jù)、用戶數(shù)據(jù)、交易數(shù)據(jù)、營銷過程數(shù)據(jù)、學(xué)習(xí)數(shù)據(jù)、外部第三方數(shù)據(jù)等。
模型引擎包括離線計算引擎和實時計算引擎兩類,需要滿足算法(或規(guī)則)部署、模型訓(xùn)練和上線、以及對其他業(yè)務(wù)系統(tǒng)提供接口服務(wù)的能力,比如為CRM系統(tǒng)提供多算法的線索實時分配、用戶畫像分層等服務(wù)。在數(shù)據(jù)的匯聚、加工生產(chǎn)、應(yīng)用的全流程中,全生命周期的數(shù)據(jù)治理不能忽視,因為數(shù)據(jù)的準確定、完整性、一致性直接影響業(yè)務(wù)對數(shù)據(jù)系統(tǒng)的可信度。
04、從0到1構(gòu)建大數(shù)據(jù)平臺的Road Map
筆者結(jié)合自身在推進大數(shù)據(jù)平臺建設(shè)過程中的經(jīng)驗,給出以下路線圖供大家參考。
維度建模常見的模型有星型模型、雪花模型和星座模型三種,數(shù)據(jù)倉庫設(shè)計一般采用星型模型。
星型模型是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù)。
事實表:表示對分析主題所屬類型的描述。比如“昨天早上張三在環(huán)球網(wǎng)?;ㄙM1000元購買了一個一建零基礎(chǔ)暢學(xué)班課程”。那么以購買為主題進行分析,可從這段信息中提取三個維度:時間維度(昨天早上),地點維度(環(huán)球網(wǎng)校), 商品維度(一建零基礎(chǔ)暢學(xué)班課程)。通常來說維度表信息比較固定,且數(shù)據(jù)量小。
維度表:表示對分析主題的度量。比如上面那個例子中,1000元就是事實信息。事實表包含了與各維度表相關(guān)聯(lián)的外碼,并通過JOIN方式與維度表關(guān)聯(lián)。事實表的度量通常是數(shù)值類型,且記會不斷增加,表規(guī)模迅速增長錄數(shù)。
02、數(shù)倉表設(shè)計規(guī)范
1.表命名規(guī)范
數(shù)倉各層表命名規(guī)范如下圖所示。
2.字段級規(guī)范
新增指標的命名參考已有字段命名方式,避免出現(xiàn)同一個字段,10個人有10個命名方法。
字段分類包括:明細,維度,指標,時間,代碼,標志位,命名規(guī)范如下:
id結(jié)尾表示編號,部分維度編號對應(yīng)含義需關(guān)聯(lián)數(shù)倉相應(yīng)維度表獲取含義;
name結(jié)尾表示名稱,多與id對應(yīng),解釋其含義,獨立的以name結(jié)尾的字段;
code結(jié)尾表示代碼字段,對應(yīng)含義部分可在文檔直接查看,部分需關(guān)聯(lián)數(shù)倉代碼表獲取;
time結(jié)尾表示時間字段,格式為yyyy-mm-dd hh:mi:ss,從源系統(tǒng)獲取,不作處理;
money結(jié)尾表示金額,都為系統(tǒng)相應(yīng)交易金額;
is_開頭表示標志字段,此字段只有0,1,含義:1是,0否;
除以上規(guī)范字段,其他字段根據(jù)中文含義對應(yīng)生成英文字段,多為一些屬性字段,意義不大。
04、大數(shù)據(jù)平臺技術(shù)架構(gòu)及模塊簡介
在大數(shù)據(jù)平臺的建設(shè)過程中,筆者和公司大數(shù)據(jù)架構(gòu)師共同研究探討后給出的技術(shù)架構(gòu)如下圖所示。
1.安全模塊
作為數(shù)據(jù)平臺來講,保障數(shù)據(jù)安全始終是第一要素。安全體系的建立主要包含以下幾個方面:
(1)數(shù)據(jù)安全規(guī)范、安全等級制定
(2)用戶系統(tǒng)
(3)基礎(chǔ)組件層權(quán)限管理
(4)服務(wù)層權(quán)限管理
(5)用戶認證
(6)秘鑰管理
(7)流程審批
(8)數(shù)據(jù)加密脫敏
(9)審計
2.監(jiān)控模塊
數(shù)據(jù)安全之外,服務(wù)的穩(wěn)定性算是平臺的第二級指標。好的監(jiān)控體系可以幫助預(yù)測風(fēng)險定位問題。例如:
(1)提前預(yù)判磁盤容量
(2)定位內(nèi)存、CPU資源問題
(3)發(fā)現(xiàn)異常任務(wù)
(4)節(jié)點宕機等問題
(5)查看該各服務(wù)負載,評估資源
3.存儲模塊
存儲模塊屬于基礎(chǔ)組件模塊,主要采用hadoop生態(tài)系統(tǒng)的相關(guān)組件。面向不同的應(yīng)用場景選擇一種組件,例如:
hive:離線數(shù)倉
HBase:KV存儲,可用于高度聚合后的固定指標,應(yīng)對有較高并發(fā)請求的場景
Druid:面向OLAP場景,能夠提供亞秒級、較高請求量且需要鉆取能力的OLAP功能
Impala:在數(shù)倉數(shù)據(jù)基礎(chǔ)上提供更高效的查詢分析能力,適合即席查詢場景,但是并不能處理更高的請求量。
4.計算模塊
Yarn做統(tǒng)一資源管理,Spark或者Flink都可以作為統(tǒng)一流、批處理框架。或者階段性允許兩者并存。
5.管理模塊
數(shù)據(jù)治理:數(shù)倉管理數(shù)據(jù)的主要平臺,包括:
(1)元數(shù)據(jù)管理
(2)數(shù)據(jù)質(zhì)量管理
(3)血緣關(guān)系管理
(4)數(shù)據(jù)安全、權(quán)限管理
(5)任務(wù)管理:包含管道任務(wù)、SQL任務(wù)、Shell任務(wù)等形態(tài),數(shù)倉場景中SQL任務(wù)占整體任務(wù)的絕大多數(shù)。
(6)離線任務(wù)管理、調(diào)度:需要基于SQL自動生成任務(wù)之間的依賴關(guān)系,并且按照任務(wù)之間的依賴關(guān)系和優(yōu)先級調(diào)度任務(wù)。
(7)流式任務(wù)管理:流式任務(wù)發(fā)布、監(jiān)控、重啟等操作。
致此,在線教育大數(shù)據(jù)營銷平臺實踐第一篇文章已經(jīng)結(jié)束,下篇文章筆者會闡述在大數(shù)據(jù)平臺建設(shè)的初期,如何將數(shù)據(jù)倉庫和神策分析系統(tǒng)(sa)相結(jié)合來快速滿足運營人員對數(shù)據(jù)分析的需求,開啟數(shù)據(jù)化運營戰(zhàn)略落地的序幕。
?-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)