很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯(lián)系
咨詢如何成為春羽作者請聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
商業(yè)數(shù)據(jù)挖掘是一項涵蓋了商業(yè)問題的提出、數(shù)據(jù)收集和處理、模型構建和應用等多個環(huán)節(jié)的復雜過程。
首先,業(yè)務分析師或客戶提出一個具體的商業(yè)問題,這個問題的提出需要基于對業(yè)務的深入理解和分析。接下來,需要結合企業(yè)或組織的三大資源——高質量的數(shù)據(jù)、業(yè)務知識以及數(shù)據(jù)挖掘軟件,通過數(shù)據(jù)挖掘技術從大量的數(shù)據(jù)中提取出有商業(yè)價值的信息。最后,將這些洞察力嵌入到實際的業(yè)務流程中,用于提升銷售收入或利潤,降低成本,提高運營效率等業(yè)務目標。
為了使數(shù)據(jù)挖掘過程更加規(guī)范化、系統(tǒng)化,出現(xiàn)了一些數(shù)據(jù)挖掘流程模型,CRISP-DM即是其中的一種優(yōu)秀代表。CRISP-DM全稱為CRoss Industry Standard Process for Data Mining(跨行業(yè)數(shù)據(jù)挖掘標準流程),如圖1.2所示,這個流程模型將整個數(shù)據(jù)挖掘過程劃分為六個主要階段:業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、模型建立、模型評估和結果部署。
CRISP-DM強調,數(shù)據(jù)挖掘是一個迭代和探索的過程,六個步驟并不是線性的,而是根據(jù)實際情況靈活進行的。例如,如果在數(shù)據(jù)理解階段發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)無法解決業(yè)務問題,可能需要返回到業(yè)務理解階段重新定義問題;如果在模型建立階段發(fā)現(xiàn)數(shù)據(jù)無法滿足建模需求,可能需要重新進行數(shù)據(jù)準備;如果在模型評估階段發(fā)現(xiàn)模型效果不佳,可能需要返回到業(yè)務理解階段審視問題定義,或者返回到數(shù)據(jù)準備和模型建立階段調整模型。
CRISP-DM流程為企業(yè)提供了一種結構化的方法來進行數(shù)據(jù)挖掘和分析,通過每個階段的專業(yè)處理,能夠有效地從大量數(shù)據(jù)中提取出有價值的信息,支持企業(yè)的決策,提升企業(yè)的競爭優(yōu)勢。
1. 業(yè)務理解
業(yè)務理解階段是CRISP-DM流程中的第一步,這個階段對整個數(shù)據(jù)分析項目至關重要。正確理解和定義業(yè)務問題將極大地影響后續(xù)的工作。此階段的主要目標是對商業(yè)問題進行明確的界定,并評估和組織企業(yè)的內外部資源,使得可以更好地進行后續(xù)的數(shù)據(jù)挖掘任務。在業(yè)務理解階段,我們需要完成以下工作:
● 確定商業(yè)目標
此部分應詳細介紹商業(yè)背景,明確商業(yè)目標,定義達成目標的成功標準。例如,如果是一家電商公司,可能的商業(yè)目標是提高用戶轉化率或減少購物車棄置率。成功標準可能是在一定時間內將轉化率提高到某一特定的百分比。
● 形勢評估
這是對項目當前環(huán)境的全面評估,包括企業(yè)已有資源(如數(shù)據(jù)、人力、技術等)、需求、假定和限制、風險偶然性,以及專業(yè)術語的解釋。此外,還要進行成本收益分析,以確保項目的收益超過成本。
● 確定數(shù)據(jù)挖掘目標
在明確了商業(yè)目標后,需要轉化為數(shù)據(jù)挖掘的目標,這可能涉及到預測某一特定指標,或是發(fā)現(xiàn)潛在的數(shù)據(jù)模式。同時,還需要定義數(shù)據(jù)挖掘的成功標準,例如,模型預測的準確率或召回率達到某一特定水平。
● 制訂項目計劃
根據(jù)前述的信息,制定詳細的項目計劃,包括時間線、責任分配等。此外,還要對可能使用的工具和方法進行評估,例如,可能需要確定使用哪種編程語言,以及是否使用開源庫或是商業(yè)軟件以降低開發(fā)成本。
這個階段的目標是將商業(yè)問題轉化為數(shù)據(jù)科學問題,并確定實施方案。每個步驟都需要深入的業(yè)務理解和交叉學科的知識。在整個過程中,與業(yè)務團隊、數(shù)據(jù)科學團隊和其他相關團隊的緊密溝通是非常重要的。
2. 數(shù)據(jù)理解
數(shù)據(jù)理解階段是CRISP-DM流程的關鍵環(huán)節(jié),主要的任務是對企業(yè)的數(shù)據(jù)資源進行深入的認識和初步清理。這個階段能夠讓分析師對手頭的數(shù)據(jù)有一個全面的了解,為后續(xù)的數(shù)據(jù)準備和模型建立打下堅實的基礎。在這個階段,我們需要完成以下工作
● 收集原始數(shù)據(jù)
首先需要收集原始數(shù)據(jù)。這個過程可能包括從數(shù)據(jù)庫中提取數(shù)據(jù)、獲取第三方數(shù)據(jù)源、或者直接從業(yè)務流程中獲取數(shù)據(jù)等方式。數(shù)據(jù)收集報告應記錄詳細的數(shù)據(jù)收集過程,包括數(shù)據(jù)來源、收集時間、數(shù)據(jù)量、數(shù)據(jù)的類型和格式等信息。
● 數(shù)據(jù)描述
數(shù)據(jù)描述報告主要是對數(shù)據(jù)的基本信息進行描述,包括數(shù)據(jù)的大小、數(shù)據(jù)的字段含義、字段的數(shù)據(jù)類型(如數(shù)值、類別、日期等)、數(shù)據(jù)分布的概況等。這個過程有助于我們了解數(shù)據(jù)的結構和基本特性。
● 探索性分析
數(shù)據(jù)探索性分析是對數(shù)據(jù)進行更深入的分析,包括計算一些統(tǒng)計量(如均值、中位數(shù)、方差等),繪制圖表(如直方圖、散點圖、箱線圖等),檢查數(shù)據(jù)的分布,探索變量之間的關系等。探索性數(shù)據(jù)分析報告應詳細記錄這個過程的結果,包括發(fā)現(xiàn)的數(shù)據(jù)特征、數(shù)據(jù)的異常值、變量間的關系等信息。
● 數(shù)據(jù)質量報告
數(shù)據(jù)質量報告主要評估數(shù)據(jù)的質量,包括數(shù)據(jù)的完整性、準確性、一致性和時效性等。數(shù)據(jù)質量問題可能包括缺失值、重復值、異常值、錯誤的數(shù)據(jù)類型等。數(shù)據(jù)質量報告應明確指出這些問題,并給出解決的建議。
在這個階段,一個重要的原則是:數(shù)據(jù)質量的好壞往往直接影響到數(shù)據(jù)分析的結果。因此,對數(shù)據(jù)進行詳細的理解和初步的清理是非常重要的。
3. 數(shù)據(jù)準備
數(shù)據(jù)準備階段是CRISP-DM流程中非常關鍵的一環(huán),主要是在建立數(shù)據(jù)挖掘模型之前對數(shù)據(jù)的最后準備。在企業(yè)的實際情況中,數(shù)據(jù)往往被存儲在不同的部門、不同的數(shù)據(jù)庫或者數(shù)據(jù)庫中的不同數(shù)據(jù)表中。因此,需要對這些數(shù)據(jù)進行整合和轉換,以生成符合數(shù)據(jù)挖掘需求的數(shù)據(jù)集。在這個階段我們需要完成下面一系列工作:
● 選擇數(shù)據(jù)
在數(shù)據(jù)準備階段,不是所有數(shù)據(jù)都適合數(shù)據(jù)挖掘,因此需要確定哪些數(shù)據(jù)應該包含在數(shù)據(jù)挖掘中,哪些數(shù)據(jù)應該被剔除。這個過程可能涉及到對數(shù)據(jù)的抽樣,基于業(yè)務知識的特征選擇,以及基于統(tǒng)計分析的特征選擇等。
● 數(shù)據(jù)清理
數(shù)據(jù)清理是對數(shù)據(jù)進行質量提升的過程,這可能包括對缺失值的處理(如插值、刪除等)、對異常值的處理(如修正、刪除等)、對重復值的處理等。數(shù)據(jù)清理報告應詳細記錄數(shù)據(jù)清理的過程和結果。
● 數(shù)據(jù)重構
數(shù)據(jù)重構可能涉及到生成新的字段和記錄,例如,根據(jù)已有的數(shù)據(jù)計算出新的特征(如從日期中提取出月份、季節(jié)等)、進行數(shù)據(jù)的離散化或連續(xù)化、進行數(shù)據(jù)的平衡等。
● 整合數(shù)據(jù)
在現(xiàn)實企業(yè)中,數(shù)據(jù)可能被存儲在不同的數(shù)據(jù)庫或數(shù)據(jù)表中,因此需要對這些數(shù)據(jù)進行整合。這可能涉及到數(shù)據(jù)的合并、數(shù)據(jù)的連接等操作。
● 格式化數(shù)據(jù)
最后,需要將數(shù)據(jù)轉化為適合數(shù)據(jù)挖掘的格式。例如,對于定類數(shù)據(jù),可能需要進行獨熱編碼或者啞變量轉換;對于數(shù)值型數(shù)據(jù),可能需要進行標準化或歸一化。
數(shù)據(jù)準備階段的工作量通常占據(jù)了整個數(shù)據(jù)挖掘項目的大部分時間,因為它涉及到的任務復雜并且冗長。然而,高質量的數(shù)據(jù)準備是建立有效模型的關鍵,因此這個階段的工作是非常重要的。
4. 建立模型
建立模型階段是數(shù)據(jù)挖掘工作的核心環(huán)節(jié),其主要任務是選用適當?shù)哪P秃退惴▉戆l(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。數(shù)據(jù)挖掘模型大體上可以分為數(shù)據(jù)描述和匯總、細分、概念描述、分類、預測和相關性分析等。以下是建立模型環(huán)節(jié)的主要工作:
● 選擇建模技術
選擇合適的模型和算法是這個階段的第一步。選擇的過程中,需要考慮模型的假設和要求(如對數(shù)據(jù)的分布有無特定要求,是否需要大量的樣本,計算復雜度等),以及模型的適用范圍。對不同的模型技術進行評估和對比,以確定最合適的建模技術。
● 產生檢驗設計
為了評估模型的性能,需要設計相應的檢驗方案。這可能涉及到數(shù)據(jù)的劃分(如訓練集、驗證集和測試集的劃分),以及評估指標的選擇(如準確率、召回率、AUC等)。檢驗設計應詳細說明如何對模型的性能進行評估。
● 建立模型
在選擇了模型和算法后,需要設定模型的參數(shù),如正則化參數(shù)、決策樹的深度等。然后使用訓練數(shù)據(jù)來建立模型。建立模型的過程應詳細記錄,包括模型的具體形式、使用的參數(shù)、訓練的過程等。模型的適用性概述應說明模型適用的場景和限制。
● 模型評價
建立模型后,需要使用驗證集和測試集來對模型的性能進行評估。模型評價應詳細記錄模型在各項評估指標上的表現(xiàn)。根據(jù)評價的結果,可能需要對模型的參數(shù)進行調整,或者嘗試其他的模型和算法。
這個階段的目標是建立一個既符合業(yè)務需求,又能在數(shù)據(jù)上表現(xiàn)良好的模型。這可能需要反復的嘗試和調整,以及深入的業(yè)務和技術知識。
5. 模型評價
模型評價階段是數(shù)據(jù)挖掘流程中非常關鍵的一步,它的目的是評估模型是否達到了預期的效果,并決定是否將模型投入到實際應用中,或者是否需要對模型進行進一步的優(yōu)化和調整。模型評價通常涉及到技術層面和商業(yè)層面的評估,分別由建模人員和業(yè)務人員來共同完成以下工作:
● 結果評估
這個階段的主要任務是評估數(shù)據(jù)挖掘模型的結果,從技術角度(如準確率、召回率、AUC等評估指標)和商業(yè)角度(如模型對業(yè)務的貢獻、模型的可解釋性、模型的實施成本等)進行全面的評價。結果評估應詳細記錄模型的評估過程和結果,包括模型在各項指標上的表現(xiàn),模型的優(yōu)點和缺點,模型的改進空間等。
● 數(shù)據(jù)挖掘過程回顧
在模型評價階段,也需要回顧整個數(shù)據(jù)挖掘的過程,查找是否存在疏忽和遺漏之處。例如,是否有更好的特征可以使用,是否有更好的模型可以嘗試,數(shù)據(jù)清理和準備的過程是否充分等。數(shù)據(jù)挖掘過程回顧可以幫助我們找到改進的機會,提升模型的性能。
● 確定下一步的工作內容
根據(jù)模型的評估結果和數(shù)據(jù)挖掘過程的回顧,我們需要列出所有可能的行動方案,包括對模型進行優(yōu)化,嘗試新的特征和模型,收集更多的數(shù)據(jù)等。然后,根據(jù)這些方案的預期效果和實施成本,進行決策,確定下一步的工作內容。
模型評價階段的目標是確保模型的質量,提升模型的實用性,為下一步的工作做好決策。
6. 結果部署
結果部署(Deployment)階段是整個數(shù)據(jù)挖掘流程的最終階段,它將數(shù)據(jù)挖掘模型的結果實際應用到業(yè)務中,從而實現(xiàn)數(shù)據(jù)挖掘的商業(yè)價值。這個階段涉及的內容可能會根據(jù)模型的類型和應用場景有所不同,但一般都會涉及到模型的部署、監(jiān)測和維護等環(huán)節(jié)。
● 結果發(fā)布
根據(jù)模型的類型和應用場景,詳細規(guī)劃模型的發(fā)布流程,包括模型的上線時間、上線的環(huán)境、需要的資源等。結果發(fā)布計劃應詳細記錄模型的部署情況,包括部署的過程和結果,以及可能遇到的問題和解決方案。
● 監(jiān)測和維護模型
模型在部署后,需要定期進行監(jiān)測和維護,以確保模型的性能和穩(wěn)定性。隨著商業(yè)環(huán)境的變化,模型的適用性和效果也可能會發(fā)生變化,因此需要建立一套有效的模型監(jiān)測和維護機制。監(jiān)測和維護模型計劃應詳細記錄如何進行模型的監(jiān)測和維護,包括使用的工具和技術,監(jiān)測的指標,維護的策略等。
● 模型交付報告
這份報告應總結整個數(shù)據(jù)挖掘的過程,包括數(shù)據(jù)的收集和準備,模型的建立和評價,模型的部署和監(jiān)測等。報告應詳細記錄模型的性能,模型對業(yè)務的貢獻,以及模型的改進空間等。
部署階段的目標是確保模型能夠順利地投入到實際的業(yè)務中,并通過監(jiān)測和維護,確保模型的持續(xù)效果。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據(jù)《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)