很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
數(shù)據(jù)中臺炙手可熱,然而很多人并不知道數(shù)據(jù)中臺有什么作用,也不懂為什么人人都在談?wù)摂?shù)據(jù)中臺??傊?em>提到「數(shù)據(jù)中臺」4 個字,很多人都會「不明覺厲」。其實簡單來說,數(shù)據(jù)中臺就是企業(yè)用戶數(shù)據(jù)的鏈接樞紐,數(shù)據(jù)中臺的搭建就是以數(shù)據(jù)創(chuàng)造價值的過程。
那么,本期邀請了有著8年多年數(shù)據(jù)平臺架構(gòu),數(shù)據(jù)管理,數(shù)據(jù)分析經(jīng)驗的王廣老師,就職于某AI藥物設(shè)計公司大數(shù)據(jù)架構(gòu)師,目前帶領(lǐng)公司大數(shù)據(jù)部門進行企業(yè)數(shù)字化轉(zhuǎn)型!
1、數(shù)據(jù)中臺相關(guān)概念
2、數(shù)據(jù)中臺建設(shè)方法論
3、數(shù)據(jù)中臺和數(shù)據(jù)分析的關(guān)系?
4、數(shù)據(jù)中臺的能力項?
為了更好的后面做好小飛象內(nèi)部交流會,需要您幫忙做兩件事情:第一,您想想這次為什么想?yún)⒓舆@一期的交流會,以及希望在交流會中希望收獲到什么?第二,在交流會結(jié)束后,請和我說一下您的收獲和感受。
做一個對世界充滿好奇的人!在分享之前,我們可以先思考幾個問題:
★什么是數(shù)據(jù)中臺? 有什么作用?
★數(shù)據(jù)中臺和業(yè)務(wù)中臺有什么關(guān)系?
★你了解過數(shù)據(jù)中臺在工作中的實際場景么?
這次分享將為大家打開一扇窗,從新的視角去認(rèn)知數(shù)據(jù)分析,能夠重新對數(shù)據(jù)中臺有新的認(rèn)識。在分享的過程中,建議全程認(rèn)真聽,帶著思考來聽(去看),希望通過本次分享,來給大家做一次系統(tǒng)的數(shù)據(jù)分析可視化分享,來解答大家對于可視化的疑點,并給做數(shù)據(jù)分析的人員提供一些思路,有任何問題都可以隨時交流哦!
正式分享
—▼—
▼
1. 什么是數(shù)據(jù)中臺
數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機制。數(shù)據(jù)來自于業(yè)務(wù),并反哺業(yè)務(wù),不斷循環(huán)迭代,實現(xiàn)數(shù)據(jù)可視、可用、可運營。
2. 數(shù)據(jù)中臺的三個核心認(rèn)知
2.1 數(shù)據(jù)中臺需要提升到企業(yè)下一代基礎(chǔ)設(shè)施的高度,進行規(guī)?;度耄?/p>
2.2 數(shù)據(jù)中臺需要全新的數(shù)據(jù)價值觀和方法論,并在其指引下形成平臺級能力;
2.3 數(shù)據(jù)中臺圍繞業(yè)務(wù)、數(shù)據(jù)、分析會衍生出全新人才素養(yǎng)要求,需要盡快啟動人才儲備;
3. 數(shù)據(jù)中臺驅(qū)動模式
以上四種驅(qū)動模式,最優(yōu)的就是業(yè)務(wù)能力驅(qū)動模式。需要業(yè)務(wù)架構(gòu)師和數(shù)據(jù)架構(gòu)師聯(lián)合驅(qū)動,從公司頂層的視角構(gòu)建公司業(yè)務(wù)架構(gòu),從業(yè)務(wù)架構(gòu)到數(shù)據(jù)架構(gòu)從上而下去建設(shè)是最好的。但是這種情況還是比較少的。在國企、央企、政府比較多,因為,采用這種方式的公司,一般它對數(shù)字化轉(zhuǎn)型非常重視。
4. 數(shù)據(jù)中臺推進原則
4.1堅持"業(yè)務(wù)牽引,咨詢、平臺、實施三位一體推進"原則
♦以滿足相關(guān)業(yè)務(wù)應(yīng)用需求為目標(biāo)
♦總體規(guī)劃
♦按需搭建平臺
4.2遵循"橫向規(guī)劃,縱向切入"建設(shè)模式
♦規(guī)劃必須全盤考慮,打通企業(yè)的所有板塊
♦數(shù)據(jù)中臺建設(shè)不可能一蹴而就,需要從業(yè)務(wù)應(yīng)用出發(fā)倒推數(shù)據(jù)需求
♦圍繞單個業(yè)務(wù)場景的閉環(huán)快速搭建數(shù)據(jù)中臺的各種能力
♦按照全景規(guī)劃依次迭代,逐步實現(xiàn)全局?jǐn)?shù)據(jù)中臺
5. 數(shù)據(jù)中臺架構(gòu)原則
5.1 核心紀(jì)律嚴(yán)明
創(chuàng)建新的架構(gòu)范例的目的是要敏捷和創(chuàng)新,但它需要實用的治理。這種平衡是一條需要把握的微妙線。第一條神圣的原則體現(xiàn)了這種平衡。在核心上遵守規(guī)則意味著存儲數(shù)據(jù)的各個層需要按照它們的數(shù)據(jù)管理方法進行結(jié)構(gòu)化。這些層需要有詳細的治理策略,不能留下任何模糊的空間。然而,DataLakeHouse的邊緣,即數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)屏蔽和有助于洞察的層,需要具有靈活性。靈活性并不意味著在方法中亂作一團。這些層仍然由Data LakeHouse的策略管理。但是,它們在創(chuàng)建基于需求的新特性時具有一定的靈活性。在邊緣靈活的一個例子是,將來自Data LakeHous的原始數(shù)據(jù)和來自數(shù)據(jù)服務(wù)層的數(shù)據(jù)倉庫的數(shù)據(jù)混合起來,以創(chuàng)建一個ML模型。這些數(shù)據(jù)集具有不同級別的質(zhì)量分?jǐn)?shù)和屬性。然而,這種靈活性是可以接受的,因為它有利于快速洞察的創(chuàng)建。
5.2 解耦計算和存儲
Data LakeHouse存儲大量的數(shù)據(jù)。它以結(jié)構(gòu)化和非結(jié)構(gòu)化的格式將數(shù)據(jù)存儲在數(shù)據(jù)湖層和服務(wù)層。數(shù)據(jù)需要用不同類型的計算引擎來處理。它可以是基于批處理的計算,也可以是基于流的計算。緊密耦合的計算和存儲層剝離了Data LakeHouse所需的靈活性。解耦計算和存儲也有成本影響——存儲是廉價和持久的,但計算是昂貴和短暫的。它提供了按需旋轉(zhuǎn)計算服務(wù)和根據(jù)需要擴展計算服務(wù)的靈活性,還提供了更好的成本控制和成本可預(yù)測性。EDW和數(shù)據(jù)湖模式面臨的一個關(guān)鍵挑戰(zhàn)是計算和存儲的緊密耦合。無論是否正在使用,都需要分配計算。隨著存儲的增加,計算也需要相應(yīng)地伸縮。云計算平臺提供了解耦計算和存儲的靈活性。
5.3 關(guān)注功能而不是技術(shù)
下一個神圣的原則是關(guān)注組件的功能,而不是它的技術(shù)化身。這一原則體現(xiàn)了靈活性。正如系統(tǒng)上下文圖中所描述的,Data LakeHouse可以滿足很多人的需求。Data LakeHouse的技術(shù)表現(xiàn)形式有大量的技術(shù)選擇。它可以部署在任何云平臺上,甚至可以使用不同類型的選擇在內(nèi)部部署。此外,技術(shù)正在迅速變化。許多新產(chǎn)品都在商業(yè)上或開放源碼世界中發(fā)展,專注于實現(xiàn)特定的功能。讓我們以實時處理為例。Apache Storm是2011年發(fā)布的一款針對實時處理進行了優(yōu)化的產(chǎn)品。Apache Spark在2010年開源,到2013年成為了事實上的流處理引擎。Apache Spark一直在發(fā)展,而Apache Flink現(xiàn)在正在挑戰(zhàn)Apache Spark作為流處理引擎的霸主地位。技術(shù)的發(fā)展是迅速的。然而,功能仍然是相同的流處理。專注于一個組件完成的任務(wù)是至關(guān)重要的。此外,隨著技術(shù)的發(fā)展,我們可以很容易地替換技術(shù)來滿足相同的功能。
5.4 創(chuàng)建模塊化架構(gòu)
模塊化架構(gòu)指的是由可連接的獨立組件組成的任何系統(tǒng)的設(shè)計。模塊化架構(gòu)的美妙之處在于,您可以替換或添加任何部件(模塊),而不會影響系統(tǒng)的其余部分。模塊化架構(gòu)確保了Data LakeHouse架構(gòu)的靈活創(chuàng)建,并且我們可以在不破壞現(xiàn)有功能的情況下無縫添加新功能。例如,假設(shè)將來需要向Data LakeHouse架構(gòu)添加新功能。在這種情況下,可以添加組件,使其遵循與所有其他組件相同的模式。它從數(shù)據(jù)湖層獲取數(shù)據(jù),執(zhí)行其功能,并將數(shù)據(jù)存儲到經(jīng)過處理的數(shù)據(jù)存儲中,以便為其提供服務(wù)。模塊化架構(gòu)原則確保了數(shù)據(jù)保持在核心位置。根據(jù)不同的功能,可以實例化不同的服務(wù)以根據(jù)需要使用數(shù)據(jù)。
5.5 積極開展編碼
防止Data LakeHouse變成沼澤的唯一最重要的原則是在其層內(nèi)進行編目的程度。因此,執(zhí)行主動編目是一個神圣的原則。編目是防止數(shù)據(jù)湖變成數(shù)據(jù)沼澤的關(guān)鍵。勤奮的編目可以確保Data LakeHouse的用戶具有數(shù)據(jù)感知能力。他們應(yīng)該理解存儲在不同生命階段的數(shù)據(jù)的屬性。他們需要理解數(shù)據(jù)轉(zhuǎn)換過程的血緣,從數(shù)據(jù)生成到數(shù)據(jù)消費。需要對Data LakeHouse架構(gòu)的所有組件進行編目,以便使用DataLakeHouse提供整個數(shù)據(jù)生命周期的整體視圖。
6. 常見數(shù)據(jù)問題
♦獨:煙囪系統(tǒng),數(shù)據(jù)孤島嚴(yán)重。重復(fù)開發(fā),成本浪費;
♦斷:數(shù)據(jù)理解與數(shù)據(jù)價值鏈條的斷層;
♦缺:缺標(biāo)準(zhǔn)、缺治理、缺數(shù)據(jù)、缺流程、缺組織、缺制度;
♦難:知數(shù)據(jù)難、要數(shù)據(jù)難、懂?dāng)?shù)據(jù)難、溯源難;
♦臟:數(shù)據(jù)質(zhì)量差;
♦安全:數(shù)據(jù)存在泄漏風(fēng)險
7. 數(shù)據(jù)中臺的業(yè)務(wù)價值和技術(shù)價值
7.1 業(yè)務(wù)價值:從洞察走向賦能業(yè)務(wù)創(chuàng)新,形成核心壁壘
在以客戶為中心的時代,數(shù)據(jù)中臺對數(shù)字化轉(zhuǎn)型具有重要作用,以數(shù)據(jù)中臺為基礎(chǔ)的數(shù)據(jù)系統(tǒng)將位于企業(yè)應(yīng)用的核心,通過數(shù)據(jù)從企業(yè)降本增效、精細化經(jīng)營等方面為企業(yè)帶來巨大收益。具體來說,包含以下三個層面:
◆ 以客戶為中心,用洞察驅(qū)動企業(yè)穩(wěn)健行動
在以客戶為中心的時代,客戶的觀念和行為正在從根本上改變企業(yè)的經(jīng)營方式以及企業(yè)與客戶的互動方式。
數(shù)據(jù)中臺建設(shè)的核心目標(biāo)就是以客戶為中心的持續(xù)規(guī)模化創(chuàng)新,而數(shù)據(jù)中臺的出現(xiàn),將會極大提升數(shù)據(jù)的應(yīng)用能力,將海量數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量數(shù)據(jù)資產(chǎn),為企業(yè)提供更深層的客戶洞察,從而為客戶提供更具個性化和智能化的產(chǎn)品和服務(wù)。
譬如,數(shù)據(jù)中臺能夠匯聚全渠道的數(shù)據(jù),在標(biāo)簽管理、營銷圈人、效果分析等應(yīng)用上實現(xiàn)全域的閉環(huán),優(yōu)化對客戶全生命周期的理解。此外,以數(shù)據(jù)中臺為基礎(chǔ),通過數(shù)據(jù)化運營提升客戶留存、復(fù)購和忠誠度,也得到諸多企業(yè)的認(rèn)可。
◆ 以數(shù)據(jù)為基礎(chǔ),支持大規(guī)模商業(yè)模式創(chuàng)新
只有依托數(shù)據(jù)和算法,將由海量數(shù)據(jù)提煉的洞察轉(zhuǎn)化為行動,才能推動大規(guī)模的商業(yè)創(chuàng)新。數(shù)據(jù)中臺在通過算法將洞察直接轉(zhuǎn)化為行動、實現(xiàn)大規(guī)模商業(yè)創(chuàng)新方面的能力,令人矚目。
另一方面,數(shù)據(jù)無法被業(yè)務(wù)用起來的一個原因是數(shù)據(jù)沒辦法變得可閱讀、易理解。
信息技術(shù)人員不夠懂業(yè)務(wù),而業(yè)務(wù)人員不夠懂?dāng)?shù)據(jù),導(dǎo)致數(shù)據(jù)應(yīng)用到業(yè)務(wù)變得很困難,數(shù)據(jù)中臺需要考慮將信息技術(shù)人員與業(yè)務(wù)人員之間的障礙打破,信息技術(shù)人員將數(shù)據(jù)變成業(yè)務(wù)人員可閱讀、易理解的內(nèi)容,業(yè)務(wù)人員看到內(nèi)容后能夠很快結(jié)合到業(yè)務(wù)中去,這樣才能更好地支撐商業(yè)模式的創(chuàng)新。
此外,數(shù)據(jù)中臺提供標(biāo)準(zhǔn)的數(shù)據(jù)訪問能力,簡化集成復(fù)雜性、促進互操作性等特性也非常受企業(yè)CIO們的青睞。同時,在快速構(gòu)建服務(wù)能力、加快商業(yè)創(chuàng)新、提升業(yè)務(wù)適配等方面,數(shù)據(jù)中臺也將會發(fā)揮重要的作用。
◆ 盤活全量數(shù)據(jù),構(gòu)筑堅實壁壘以持續(xù)領(lǐng)先
在以客戶為中心的時代,只有贏得客戶的企業(yè)才能在競爭中保持優(yōu)勢。企業(yè)能否真正做到“客戶至上”,并不斷提高對客戶的快速響應(yīng)力來滿足客戶的需求,甚至引領(lǐng)市場潮流,持續(xù)推進規(guī)?;瘎?chuàng)新,終將決定企業(yè)能否在充滿挑戰(zhàn)和機遇的市場上發(fā)展壯大,長久保持生命力與競爭力。
7.2 技術(shù)價值:能力多、成本低、應(yīng)用廣
數(shù)字化轉(zhuǎn)型的需求必將催生多元化的數(shù)據(jù)場景,而多元化的數(shù)據(jù)場景將會帶來以下技術(shù)需求,企業(yè)數(shù)據(jù)中臺建設(shè)勢在必行。
◆ 應(yīng)對多數(shù)據(jù)處理的需求
針對不同的數(shù)據(jù)應(yīng)用場景,需要能夠快速應(yīng)對多數(shù)據(jù)處理需求,比如:
要保持原來的報表需求,仍需要保持批量離線計算的能力(Hadoop、Oracle RAC);
針對準(zhǔn)實時的指標(biāo)統(tǒng)計和實時推薦,需要實時流式計算的能力(Storm、Spark Streaming、Flink);
針對決策類業(yè)務(wù)如海量人群的圈人需求和ad-hoc需求,需要即席計算能力(Greenplum、Elasticsearch、Impala);
針對高并發(fā)業(yè)務(wù)場景(如用戶畫像),需要在線計算能力(MySQL、Redis、Oracle)。
因此,企業(yè)需要一個統(tǒng)一的數(shù)據(jù)中臺來滿足離線/實時計算需求、各種查詢需求(實時查詢和ad hoc),同時在將來新數(shù)據(jù)引擎(更快的計算框架,更快的查詢響應(yīng))出現(xiàn)時,又不需要重構(gòu)目前的大數(shù)據(jù)體系。
◆ 豐富標(biāo)簽數(shù)據(jù),降低管理成本
根據(jù)全國信標(biāo)委大數(shù)據(jù)標(biāo)準(zhǔn)工作組發(fā)布的《數(shù)據(jù)管理能力成熟度模型》(DCMM),針對數(shù)據(jù)標(biāo)準(zhǔn)提到的數(shù)據(jù)分類主要有主數(shù)據(jù)、參考數(shù)據(jù)和指標(biāo)數(shù)據(jù),但根據(jù)目前真實的數(shù)據(jù)建設(shè)情況來看,需要對一類數(shù)據(jù)進行定義和分類,譬如標(biāo)簽名為“消費特征”,標(biāo)簽值為“促銷敏感”“貨比三家”“猶豫不決”。
數(shù)據(jù)中臺能對這類標(biāo)簽進行快速定義和有效管理。
◆ 數(shù)據(jù)的價值能體現(xiàn)業(yè)務(wù)系統(tǒng)效果而不僅是準(zhǔn)確度
過去的數(shù)據(jù)應(yīng)用場景主要為報表需求,注重數(shù)據(jù)的準(zhǔn)確性,但在更多數(shù)據(jù)場景下,特別是對于標(biāo)簽數(shù)據(jù)的應(yīng)用,越來越多的數(shù)據(jù)是需要不斷“優(yōu)化”的,數(shù)據(jù)本身沒有準(zhǔn)不準(zhǔn)確之分,比如某個會員是屬于促銷敏感人群,這個數(shù)據(jù)其實更多的說的是概率。
◆ 支持跨主題域訪問數(shù)據(jù)
企業(yè)早期建設(shè)的應(yīng)用數(shù)據(jù)層ADS(傳統(tǒng)數(shù)據(jù)倉庫ODS/DW/ADS)更多是為某個主題域所服務(wù)的,如營銷域、人力資源域、風(fēng)控域,而企業(yè)在數(shù)據(jù)應(yīng)用的時候往往需要打破各個業(yè)務(wù)主題,會從業(yè)務(wù)對象主體出發(fā)來考慮數(shù)據(jù)應(yīng)用,如人(會員、供應(yīng)商、渠道、員工)和物(商品、倉庫、合同),從全域角度設(shè)計完整的面向?qū)ο蟮臄?shù)據(jù)標(biāo)簽體系。
◆ 數(shù)據(jù)可以快速復(fù)用而不僅是復(fù)制
傳統(tǒng)的架構(gòu)中,要將數(shù)據(jù)應(yīng)用到業(yè)務(wù)中,通用的做法都是通過數(shù)據(jù)同步能力,把計算的結(jié)果同步給業(yè)務(wù)系統(tǒng),由業(yè)務(wù)系統(tǒng)自行處理,這會帶來一個數(shù)據(jù)管理問題,即無法獲取數(shù)據(jù)在應(yīng)用場景中的具體價值和熱度,整個數(shù)據(jù)血緣鏈路也是割裂的。
—▼—
1.數(shù)字化轉(zhuǎn)型面臨的問題
利用數(shù)據(jù)中臺,實現(xiàn)數(shù)據(jù)采集、存儲、處理、分析和服務(wù)的統(tǒng)一管理,提高信息和數(shù)據(jù)的響應(yīng)時間,提高經(jīng)營管理工作效率,有利于壓縮開支,降低管理成本,推進數(shù)字化轉(zhuǎn)型發(fā)展。”5步走”解決問題!
?1種戰(zhàn)略行動:把用數(shù)據(jù)中臺驅(qū)動業(yè)務(wù)發(fā)展定位為企業(yè)級戰(zhàn)略,全局謀劃;
?2項保障條件:通過宣導(dǎo)統(tǒng)一組織間的數(shù)據(jù)認(rèn)知,通過流程加速組織變革;
?3條目標(biāo)準(zhǔn)則:將數(shù)據(jù)的可見、可用、可運營3個核心準(zhǔn)則始終貫穿于中臺建設(shè)的全過程,保障建設(shè)在正確軌道上;
?4套建設(shè)內(nèi)容:通過技術(shù)體系、數(shù)據(jù)體系、運營體系建設(shè)保證中臺建設(shè)的全面性和可持續(xù)性;
?5個關(guān)鍵步驟:通過理現(xiàn)狀、立架構(gòu)、建資產(chǎn)、用數(shù)據(jù)、做運營5個關(guān)鍵行動控制中臺建設(shè)關(guān)鍵節(jié)點的質(zhì)量;
—▼—
1.數(shù)據(jù)中臺架構(gòu)圖
2.典型應(yīng)用場景介紹
民生服務(wù)、經(jīng)營決策、風(fēng)險控制、精準(zhǔn)營銷、績效考核
♦場景一:在財務(wù)管理中使用 BI 找到數(shù)據(jù)關(guān)鍵
BI 可以幫用戶獲取外部、本地的各種財務(wù)數(shù)據(jù)。還可以利用拖放可視化工具,完善客戶對財務(wù)狀況的分析。
♦場景二:幫助市場營銷活動管理數(shù)據(jù)
借助 BI,用戶可以監(jiān)控并分析當(dāng)前的市場狀況,從而把營銷資源投入到更有效率的渠道上。
♦場景三:在銷售活動中預(yù)測市場機會,達成業(yè)績目標(biāo),提高利潤
BI 可以幫用戶管理公司的各種銷售渠道。
♦場景四:掌握人力資源的相關(guān)信息
BI能幫用戶收集和監(jiān)測所有重要數(shù)據(jù)。儀表板還能幫用戶追蹤合規(guī)性、人員編制和其他信息,保護公司和員工數(shù)據(jù)。
♦場景五:IT領(lǐng)域提高工作效率
通過BI,用戶可以創(chuàng)建各類儀表板,從而監(jiān)測并分析從 Active Directory 到 Zendesk等各種服務(wù)。如果需要企業(yè)級別的商業(yè)智能解決方案,您還能將它與 SSAS 服務(wù)包無縫集成。
♦場景六:在運維工作中以數(shù)據(jù)為向?qū)?/p>
BI 能夠監(jiān)測包括 Excel表、本地數(shù)據(jù)庫和云服務(wù)等所有來源的數(shù)據(jù),并為用戶的產(chǎn)品、商場績效、申報額分析等發(fā)現(xiàn)新的可能
3.數(shù)據(jù)使用者
一旦數(shù)據(jù)被接入到Data LakeHouse,各種利益相關(guān)方將以原始或轉(zhuǎn)換后的形式使用它。這些利益相關(guān)者將從Data LakeHouse中提取用于特定目的的數(shù)據(jù)。每個消費者都有使用Data LakeHouse的個人動機。一個架構(gòu)良好的Data LakeHouse應(yīng)該能夠滿足每一個涉眾的需求。
讓我們看看一些典型的用戶和系統(tǒng),他們使用來自Data LakeHouse的數(shù)據(jù),如下所示:
♦數(shù)據(jù)科學(xué)家
我們看到使用Data LakeHouse的第一類人是數(shù)據(jù)科學(xué)家,他們從Data LakeHouse中提取數(shù)據(jù),以測試他們可能想要證明或反對的各種假設(shè)。數(shù)據(jù)科學(xué)家研究各種類型的數(shù)據(jù):結(jié)構(gòu)化的、非結(jié)構(gòu)化的、原始的和處理過的。Data LakeHouse需要能夠確保數(shù)據(jù)對于特定用途是容易識別的,用戶必須精通許多編程語言和技術(shù),包括Python、R和結(jié)構(gòu)化查詢語言(SQL), 架構(gòu)需要為這個用戶提供正確的平臺來創(chuàng)建和測試他們的模型。
♦數(shù)據(jù)分析師
使用Data LakeHouse的第二類人是分析師。他們主要是業(yè)務(wù)驅(qū)動的,尋求業(yè)務(wù)問題的答案,并且精通報表工具或基于SQL的語言。他們主要處理處理過的數(shù)據(jù),他們的日常工作包括執(zhí)行業(yè)務(wù)分析。通過查詢、聚合和切片數(shù)據(jù)(主要是清理和處理的數(shù)據(jù))來完成這項任務(wù)。DataLakeHouse應(yīng)該迎合這樣的用戶,為他們提供一個平臺,進行有效和無縫的數(shù)據(jù)分析。
♦管理人員
第三類大量使用Data LakeHouse的人是管理人員,他們需要定期的報表以進行業(yè)務(wù)決策。他們深入研究那些按特定業(yè)務(wù)需求處理過數(shù)據(jù)。他們可能是半技術(shù)通,可能需要一個使用商業(yè)智能(BI)工具創(chuàng)建報表或分析的地方。這些人通常通過報表系統(tǒng)獲取他們所需的報表。
♦報表系統(tǒng)
Data LakeHouse的其他關(guān)鍵用戶是報表系統(tǒng)。報表系統(tǒng)間接地迎合了希望訂閱預(yù)定的、臨時的或自助報表的人員。此外,可能還有其他類型的報表系統(tǒng)是為了監(jiān)管報表。這些系統(tǒng)定期從Data LakeHouse中提取數(shù)據(jù),然后存儲報表以便交付。
♦下游應(yīng)用系統(tǒng)
當(dāng)數(shù)據(jù)從上游應(yīng)用程序接入到Data LakeHouse時,下游應(yīng)用程序也會使用處理過的信息。這些應(yīng)用程序可能是OLTP系統(tǒng),也可能是另一個數(shù)據(jù)倉庫或數(shù)據(jù)湖,其任務(wù)與企業(yè)DataLakeHouse(EDL)不同。通常,用于下游消費的數(shù)據(jù)要么定期從Data LakeHouse中提取,要么使用一種可行的機制將數(shù)據(jù)推送到目的地。
♦基于應(yīng)用程序編程接口(API)的系統(tǒng)
Data LakeHouse還需要能夠以API的形式公開數(shù)據(jù)。DataLakeHouse處理各種類型的數(shù)據(jù),需要服務(wù)于多個內(nèi)部和外部系統(tǒng)。雖然緊密耦合的交付機制可能適用于特定的使用者,但基于API的數(shù)據(jù)使用是一種可伸縮且實用的選擇。此外,基于API的系統(tǒng)還可以公開不屬于組織的外部涉眾所使用的數(shù)據(jù)。
♦數(shù)據(jù)共享系統(tǒng)
數(shù)據(jù)共享系統(tǒng)代表了一種新型的數(shù)據(jù)消費機制。當(dāng)數(shù)據(jù)作為數(shù)據(jù)市場的一部分被消費或共享時,就會使用這種機制。當(dāng)需要就數(shù)據(jù)使用的特定條款達成一致時,也可以使用數(shù)據(jù)共享機制。
—▼—
1.數(shù)據(jù)匯聚整合
隨著業(yè)務(wù)的多元化發(fā)展,企業(yè)內(nèi)部往往有多個信息部門和數(shù)據(jù)中心,大量系統(tǒng)、功能和應(yīng)用重復(fù)建設(shè),存在巨大的數(shù)據(jù)資源、計算資源和人力資源的浪費,同時組織壁壘也導(dǎo)致數(shù)據(jù)孤島的出現(xiàn),使得內(nèi)外部數(shù)據(jù)難以全局規(guī)劃。數(shù)據(jù)匯聚整合主要是從數(shù)據(jù)存儲角度來表述,指將原始數(shù)據(jù)進行集中存放,便于后續(xù)使用的讀取使用。
企業(yè)看中的數(shù)據(jù)整合和管理能力包括(管理簡便、集成與運營、確保訪問權(quán)限、數(shù)據(jù)可用):
♦數(shù)據(jù)豐富和完善:對多樣的數(shù)據(jù)源進行合并和完善;
♦管理簡便:可視化任務(wù)配置以及豐富的監(jiān)控管理功能;
數(shù)據(jù)集成與運營:數(shù)據(jù)中臺能夠接入、轉(zhuǎn)換、寫入或緩存企業(yè)內(nèi)部多種來源的數(shù)據(jù);
♦數(shù)據(jù)目錄與治理:數(shù)據(jù)用戶可以方便的定位所需數(shù)據(jù),理解數(shù)據(jù)(包括技術(shù)/業(yè)務(wù)治理);
♦數(shù)據(jù)安全:確保數(shù)據(jù)的訪問權(quán)限;
♦數(shù)據(jù)可用:數(shù)據(jù)用戶可以簡便、可拓展的訪問異構(gòu)數(shù)據(jù),可用性和易用性高;
♦部署靈活:支持本地部署,以及公有云、私有云、混合云等多種部署方式;
2.數(shù)據(jù)提純加工
企業(yè)需要完整的數(shù)據(jù)資產(chǎn)體系,圍繞著能給業(yè)務(wù)帶來價值的數(shù)據(jù)資產(chǎn)進行建設(shè),推動業(yè)務(wù)數(shù)據(jù)向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化。
企業(yè)看中的數(shù)據(jù)提煉和分析加工能力包括(標(biāo)簽體系、智能的數(shù)據(jù)映射、質(zhì)量保障體系、完善的安全防控):
♦完善的安全訪問控制;
♦完善的數(shù)據(jù)質(zhì)量保障體系;
♦規(guī)范的、緊密結(jié)合業(yè)務(wù)的可拓展標(biāo)簽體系;
♦面向業(yè)務(wù)主體的資產(chǎn)平臺;
♦智能的數(shù)據(jù)映射功能,簡化數(shù)據(jù)資產(chǎn)生成;
3.服務(wù)可視化
多數(shù)企業(yè)期待數(shù)據(jù)中臺提供數(shù)據(jù)化運營平臺,幫助企業(yè)快速實現(xiàn)數(shù)據(jù)資產(chǎn)的可視化分析,提供包括實時流數(shù)據(jù)分析,預(yù)測分析,機器學(xué)習(xí)等更為高級的服務(wù),為企業(yè)數(shù)據(jù)化運營賦能。
企業(yè)看重的資產(chǎn)服務(wù)化能力包括(數(shù)據(jù)可視化服務(wù)、數(shù)據(jù)開發(fā)平臺、AI服務(wù)能力、數(shù)據(jù)分析能力):
♦提供自然語言處理等人工智能服務(wù);
♦提供豐富的數(shù)據(jù)分析功能;
♦提供友好的數(shù)據(jù)可視化服務(wù);
♦便捷、快速的服務(wù)開發(fā)環(huán)境,方便業(yè)務(wù)人員開發(fā)數(shù)據(jù)應(yīng)用;
♦提供實時流數(shù)據(jù)分析;
♦提供預(yù)測分析、機器學(xué)習(xí)等高級服務(wù);
4、價值變現(xiàn)
數(shù)據(jù)中臺通過打通企業(yè)數(shù)據(jù),提供以前單個部門或者單個業(yè)務(wù)單元無法提供的數(shù)據(jù)服務(wù)能力,以實現(xiàn)數(shù)據(jù)的更大價值變現(xiàn)。
企業(yè)看中的業(yè)務(wù)價值變現(xiàn)能力包括(跨部門實現(xiàn)業(yè)務(wù)價值、數(shù)據(jù)應(yīng)用管理、洞察驅(qū)動業(yè)務(wù)的通路、面向場景的數(shù)據(jù)應(yīng)用):
♦提供數(shù)據(jù)應(yīng)用的管理能力;
♦提供數(shù)據(jù)洞察的直接驅(qū)動業(yè)務(wù)行動的通路;
♦提供跨業(yè)務(wù)場景的能力;
♦提供跨部門的普適性業(yè)務(wù)價值能力;
♦提供基于場景的數(shù)據(jù)應(yīng)用(推薦引擎、搜索引擎等);
♦提供業(yè)務(wù)行動效果評估功能;
數(shù)據(jù)中臺是把業(yè)務(wù)生產(chǎn)資料轉(zhuǎn)變?yōu)閿?shù)據(jù)生產(chǎn)力,同時數(shù)據(jù)生產(chǎn)力反哺業(yè)務(wù),不斷迭代循環(huán)的閉環(huán)過程,讓數(shù)據(jù)流通用起來,使數(shù)據(jù)驅(qū)動決策運營,為企業(yè)數(shù)字化轉(zhuǎn)型賦能,為社會數(shù)字經(jīng)濟賦能!
▼
總結(jié)
以上就是本次分享的全部內(nèi)容!數(shù)據(jù)中臺技術(shù)可以實現(xiàn)分析用戶購買行為、分析消費場景、分析用戶購買喜好等業(yè)務(wù)場景化的數(shù)據(jù)分析,打通各業(yè)務(wù)體系和產(chǎn)品線的數(shù)據(jù),進行計算、存儲、加工,形成數(shù)據(jù)產(chǎn)品和服務(wù), 從而真正實現(xiàn)數(shù)據(jù)智能應(yīng)用。數(shù)據(jù)中臺在數(shù)據(jù)可視化分析中起到了十分重要的作用,不管是集中多數(shù)據(jù)源,還是統(tǒng)一數(shù)據(jù)分析口徑、為不同場景預(yù)設(shè)不同的方式以提高數(shù)據(jù)分析效率等,都對企業(yè)信息化、數(shù)據(jù)化運營管理起到十分重要的作用。
然而,我們做數(shù)據(jù)分析到底目的是什么,其實我們的目的并不是就是為了展示出圖表,我們最終的目的是要解決問題,就是發(fā)現(xiàn)問題,解決問題就是發(fā)現(xiàn)業(yè)務(wù)中的問題,然后并去解決。數(shù)據(jù)分析、數(shù)據(jù)中臺涉及很多知識點,不是一次分享能全部了解的。學(xué)貴在行,需要我們在以后的學(xué)習(xí)工作中不斷地積累經(jīng)驗掌握工具,學(xué)以致用。能站在多方角度,發(fā)現(xiàn)問題,分析問題,解決問題,總結(jié)問題。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負(fù)面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)