chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥(niǎo)哥筆記小喬”
初創(chuàng)公司根本沒(méi)數(shù)據(jù),增長(zhǎng)黑客能有什么用?
2017-08-08 10:08:00

現(xiàn)在互聯(lián)網(wǎng)上關(guān)于“增長(zhǎng)黑客”的概念很火,它那“四兩撥千斤”、“小投入大收益”的神奇法力令無(wú)數(shù)互聯(lián)網(wǎng)從業(yè)者為之著迷。

一般來(lái)說(shuō),“增長(zhǎng)黑客”主要依賴(lài)于企業(yè)的內(nèi)部數(shù)據(jù)(如企業(yè)自身?yè)碛械匿N(xiāo)售數(shù)據(jù)、用戶(hù)數(shù)據(jù)、頁(yè)面瀏覽數(shù)據(jù)等),以此為依據(jù)進(jìn)行數(shù)據(jù)分析和推廣策略擬定。但是,如果遇到如下幾種情況,“增長(zhǎng)黑客”就捉襟見(jiàn)肘了:

假如一家初創(chuàng)公司,自己剛起步,自身并沒(méi)有還積累數(shù)據(jù),怎么破?

就算有數(shù)據(jù),但自己擁有的數(shù)據(jù)無(wú)論在“質(zhì)”和“量”上都很差,正所謂“garbage in ,garbage out”,這樣的數(shù)據(jù)再怎么分析和挖掘,也難以得到可作為決策依據(jù)的數(shù)據(jù)洞察。

能看到數(shù)量上的變化趨勢(shì),卻無(wú)法精準(zhǔn)的獲悉數(shù)值變動(dòng)的真正原因,比如,近期APP上的活躍度下降不少,從內(nèi)部數(shù)據(jù)上,你只能看到數(shù)量上的減少,但對(duì)于用戶(hù)活躍度下降的真實(shí)動(dòng)因卻無(wú)法準(zhǔn)確判定,只能拍腦袋或者利用過(guò)時(shí)的經(jīng)驗(yàn),無(wú)法讓相關(guān)人信服。


由此,筆者引出了“外部數(shù)據(jù)”這一概念,尤其是“Open Data”這片“數(shù)據(jù)藍(lán)海”,“他山之石,可以攻玉”,從海量的外部數(shù)據(jù)中獲取可以對(duì)自身業(yè)務(wù)起到指導(dǎo)作用和借鑒意義的insight,借助外部環(huán)境數(shù)據(jù)來(lái)優(yōu)化自己。


下圖是本文的行文脈絡(luò):


在談及外部數(shù)據(jù)的重要性之前,讓我們先簡(jiǎn)單的看一看數(shù)據(jù)分析的四種類(lèi)型。

四種常見(jiàn)的數(shù)據(jù)分析類(lèi)型

按數(shù)據(jù)分析對(duì)于決策的價(jià)值高低和處理分析復(fù)雜程度,可將數(shù)據(jù)分析歸為如下圖所示的4種范式:


從上圖可以看到,越遠(yuǎn)離坐標(biāo)原點(diǎn),沿坐標(biāo)軸正向延伸,價(jià)值度就越高,分析處理的難度也就越大。

對(duì)于數(shù)據(jù)分析師而言,“描述型分析”、“診斷型分析”和“預(yù)測(cè)型分析”最為常見(jiàn),而“規(guī)范型分析”涉及比較高深的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)知識(shí),不是我們接下來(lái)討論的重點(diǎn)。

1.1 描述型數(shù)據(jù)分析

描述型分析是用來(lái)概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類(lèi)屬關(guān)系的統(tǒng)計(jì)方法,是上述四類(lèi)中最為常見(jiàn)的數(shù)據(jù)分析類(lèi)型。

通過(guò)統(tǒng)計(jì)處理可以簡(jiǎn)潔地用幾個(gè)統(tǒng)計(jì)值來(lái)表示一組數(shù)據(jù)地集中性(如平均值、中位數(shù)和眾數(shù)等)和離散型(反映數(shù)據(jù)的波動(dòng)性大小,如方差、標(biāo)準(zhǔn)差等)。


1.2 診斷型數(shù)據(jù)分析


在描述型分析的基礎(chǔ)上,數(shù)據(jù)分析師需要進(jìn)一步的鉆取和深入,細(xì)分到特定的時(shí)間維度和空間維度,依據(jù)數(shù)據(jù)的淺層表現(xiàn)和自身的歷史累積經(jīng)驗(yàn)來(lái)判斷現(xiàn)象/問(wèn)題出現(xiàn)的原因。


1.3 預(yù)測(cè)型數(shù)據(jù)分析

預(yù)測(cè)型數(shù)據(jù)分析利用各種高級(jí)統(tǒng)計(jì)學(xué)技術(shù),包括利用預(yù)測(cè)模型,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等技術(shù)來(lái)分析當(dāng)前和歷史的數(shù)據(jù),從而對(duì)未來(lái)或其他不確定的事件進(jìn)行預(yù)測(cè)。


1.4 規(guī)范型數(shù)據(jù)分析


最具價(jià)值和處理復(fù)雜度的當(dāng)屬規(guī)范型分析。

規(guī)范型分析通過(guò) “已經(jīng)發(fā)生什么”、“為什么發(fā)生”和“什么將發(fā)生”,也就是綜合運(yùn)用上述提及的描述型分析、診斷型分析和預(yù)測(cè)型分析,對(duì)潛在用戶(hù)進(jìn)行商品/服務(wù)推薦和決策支持。


對(duì)外部數(shù)據(jù)中的分析很重要

經(jīng)過(guò)上面對(duì)四種數(shù)據(jù)分析類(lèi)型的描述,筆者認(rèn)為現(xiàn)有的基于企業(yè)內(nèi)部數(shù)據(jù)的數(shù)據(jù)分析實(shí)踐存在如下幾類(lèi)特征:

大多數(shù)的數(shù)據(jù)分析僅停留在描述性數(shù)據(jù)分析上,未觸及數(shù)據(jù)深層次的規(guī)律,沒(méi)有最大限度的挖掘數(shù)據(jù)的潛在價(jià)值。

數(shù)據(jù)分析的對(duì)象以結(jié)構(gòu)化的數(shù)值型數(shù)據(jù)為主,而對(duì)非結(jié)構(gòu)化數(shù)據(jù),尤其是文本類(lèi)型的數(shù)據(jù)分析實(shí)踐則較少。

對(duì)內(nèi)部數(shù)據(jù)高度重視,如用戶(hù)增長(zhǎng)數(shù)據(jù),銷(xiāo)售數(shù)據(jù),以及產(chǎn)品相關(guān)指標(biāo)數(shù)據(jù)等,但沒(méi)有和外部數(shù)據(jù)進(jìn)行關(guān)聯(lián),導(dǎo)致分析的結(jié)果片面、孤立和失真,起不到問(wèn)題診斷和決策支撐作用。


由此,我們必須對(duì)企業(yè)之外的外部數(shù)據(jù)引起重視,尤其是外部數(shù)據(jù)中的非結(jié)構(gòu)化文本數(shù)據(jù)。

對(duì)于文本數(shù)據(jù)的重要性,筆者已在之前的文章中有過(guò)詳細(xì)的論述,詳情請(qǐng)參看《數(shù)據(jù)運(yùn)營(yíng) | 數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要!(上)》。

與此同時(shí),非結(jié)構(gòu)化的文本數(shù)據(jù)廣泛存在于社會(huì)化媒體之中,關(guān)于社會(huì)化媒體的相關(guān)介紹,請(qǐng)參看《干貨|如何利用Social Listening從社會(huì)化媒體中“提煉”有價(jià)值的信息?》。

外部數(shù)據(jù)的幾種常見(jiàn)類(lèi)型

外部數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代的產(chǎn)物,隨著移動(dòng)互聯(lián)時(shí)代的興起,外部數(shù)據(jù)的增長(zhǎng)呈現(xiàn)井噴的趨勢(shì)。

各個(gè)領(lǐng)域的外部數(shù)據(jù)從不同角度刻畫(huà)了移動(dòng)互聯(lián)時(shí)代的商業(yè)社會(huì),綜合這些外部數(shù)據(jù),才能俯瞰到一個(gè)“全息式”的互聯(lián)網(wǎng)版圖。

按互聯(lián)網(wǎng)行業(yè)和領(lǐng)域的不同,外部數(shù)據(jù)包括且不限于:

阿里(淘寶和天貓):電商大數(shù)據(jù)

騰訊(微信和QQ):社交網(wǎng)絡(luò)大數(shù)據(jù)

新浪(新浪微博和新浪博客):社交媒體大數(shù)據(jù)

脈脈:職場(chǎng)社交大數(shù)據(jù)

谷歌/百度:搜索大數(shù)據(jù)

優(yōu)酷:影視播放大數(shù)據(jù)

今日頭條:閱讀興趣大數(shù)據(jù)

酷云EYE:收視大數(shù)據(jù)

高德地圖:POI大數(shù)據(jù)

外部數(shù)據(jù)的獲取和采集

隨著互聯(lián)網(wǎng)時(shí)代對(duì)于“Open Data(開(kāi)放數(shù)據(jù))”或“Data Sharing(共享數(shù)據(jù))”的日益倡導(dǎo),很多互聯(lián)網(wǎng)巨頭(部分)開(kāi)放了它們所積累的外部數(shù)據(jù)。

再者一些可以抓取網(wǎng)絡(luò)數(shù)據(jù)的第三方應(yīng)用和編程工具不斷出現(xiàn),使得我們可以以免費(fèi)或付費(fèi)的方式獲得大量外部數(shù)據(jù)(在獲得對(duì)方允許和涉及商業(yè)目的的情況下),最終的形式包括未加工的原始數(shù)據(jù)、系統(tǒng)化的數(shù)據(jù)產(chǎn)品和定制化的數(shù)據(jù)服務(wù)。

以下是一些常見(jiàn)的外部數(shù)據(jù)分析和采集工具:

4.1 指數(shù)查詢(xún)

百度指數(shù)

微指數(shù)


優(yōu)酷指數(shù)

谷歌趨勢(shì)

4.2 爬蟲(chóng)工具

火車(chē)頭

Data Scraping


八爪魚(yú)

4.3 社會(huì)化媒體監(jiān)測(cè)與分析平臺(tái)

新浪微輿情


關(guān)于上述工具的使用介紹,請(qǐng)參考筆者之前的文章《萬(wàn)字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客》《不懂?dāng)?shù)理和編程,如何運(yùn)用免費(fèi)的大數(shù)據(jù)工具獲得行業(yè)洞察?》。

外部數(shù)據(jù)分析的應(yīng)用場(chǎng)景

最先對(duì)外部數(shù)據(jù)高度重視的先行者其實(shí)是政府機(jī)構(gòu),它們利用大數(shù)據(jù)輿情系統(tǒng)進(jìn)行網(wǎng)絡(luò)輿情的監(jiān)測(cè),但隨著大數(shù)據(jù)時(shí)代的向前推進(jìn),外部數(shù)據(jù)的應(yīng)用場(chǎng)景也越來(lái)越多,包括且不限如下方面:

輿情監(jiān)測(cè)

企業(yè)口碑和客戶(hù)滿(mǎn)意度追蹤

企業(yè)競(jìng)爭(zhēng)情報(bào)分析

品牌宣傳、廣告投放及危機(jī)公關(guān)

市場(chǎng)機(jī)會(huì)挖掘、產(chǎn)品技術(shù)開(kāi)發(fā)創(chuàng)意挖掘

行業(yè)趨勢(shì)分析


接下來(lái),筆者將以某互聯(lián)網(wǎng)社區(qū)上近6年的文章數(shù)據(jù)作為實(shí)例,進(jìn)行“360度無(wú)側(cè)漏式”的數(shù)據(jù)分析,來(lái)“示范”下如何對(duì)外部數(shù)據(jù)進(jìn)行挖掘,從中最大限度的“榨取”關(guān)于互聯(lián)網(wǎng)產(chǎn)品、運(yùn)營(yíng)方面的insight。

外部數(shù)據(jù)分析實(shí)操案例

以某互聯(lián)網(wǎng)社區(qū)的文章數(shù)據(jù)分析為例

在筆者下面的“數(shù)據(jù)發(fā)現(xiàn)之旅”中,會(huì)帶著3個(gè)目的,主要是:

通過(guò)該社區(qū)的資訊文章中,發(fā)掘國(guó)內(nèi)互聯(lián)網(wǎng)發(fā)展的一些特征

發(fā)掘互聯(lián)網(wǎng)某些欄目下的熱點(diǎn)及其變動(dòng)趨勢(shì)

給筆者的內(nèi)容創(chuàng)作予以寫(xiě)作風(fēng)格定位和題材選取方面的指導(dǎo)


以下是筆者抓取的數(shù)據(jù)的原始形態(tài),抓取了“標(biāo)題”、“時(shí)間”、“正文”、“閱讀量”、“評(píng)論量”、“收藏量”和“作者”這7個(gè)維度的數(shù)據(jù),抓取時(shí)間區(qū)間是2012.05.17~2017.07.31,文章數(shù)據(jù)共計(jì)33,412條。


然后,筆者對(duì)數(shù)據(jù)進(jìn)行了清洗,主要是“閱讀量”,將“k(1000)“、“萬(wàn)(10000)”、“m(1000000)”變成了相應(yīng)的數(shù)字,便于后續(xù)的數(shù)值計(jì)算和排序。同時(shí),新增3個(gè)維度,即文章所屬的欄目“類(lèi)別”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”。


6.1全局縱覽

6.1.1 各欄目下的文章數(shù)量分布情況

首先,先對(duì)各個(gè)欄目下的文章數(shù)量進(jìn)行基礎(chǔ)性的描述性分析,看看10個(gè)欄目類(lèi)別下的文章數(shù)量分布。


從上面的條狀圖和環(huán)形圖可以看出,“業(yè)界動(dòng)態(tài)”這一欄目下的文章數(shù)量最多,為10,,452篇,占到了文章篇數(shù)總量的31.3%,其次是產(chǎn)品設(shè)計(jì)和產(chǎn)品運(yùn)營(yíng),分別占到了總數(shù)的19.5%和16.87%,反倒是“產(chǎn)品經(jīng)理”下的文章數(shù)量不多。

接下來(lái),筆者統(tǒng)計(jì)了這10各欄目在過(guò)去的6年中的數(shù)量變化情況,如下面的熱力圖所示:


上面的熱力圖中,色塊越深,對(duì)應(yīng)的數(shù)值就越大,越淺則數(shù)值愈小。其中,互聯(lián)網(wǎng)的“業(yè)界動(dòng)態(tài)”一直是文章發(fā)布數(shù)量最多的欄目。

而“產(chǎn)品經(jīng)理”的發(fā)文數(shù)量一路飆升(當(dāng)然2017年還沒(méi)過(guò)完),間接的可知該職位的熱度(關(guān)注和寫(xiě)作偏好)蹭蹭的往上竄,成為“改變世界”、拿著高薪的產(chǎn)品經(jīng)理,是無(wú)數(shù)互聯(lián)網(wǎng)從業(yè)人員夢(mèng)寐以求的工作。與此類(lèi)似的是“產(chǎn)品運(yùn)營(yíng)”欄目,發(fā)文數(shù)量也在穩(wěn)步上升。

另外,“產(chǎn)品設(shè)計(jì)”方面的文章主要集中在2012年,可以看出以“用戶(hù)體驗(yàn)”、“UI設(shè)計(jì)”、“信息架構(gòu)”和“需求規(guī)劃”為主要活動(dòng)的產(chǎn)品設(shè)計(jì)在2012年蓬勃發(fā)展,產(chǎn)生了大量基于實(shí)踐經(jīng)驗(yàn)的干貨文章。

6.1.2 閱讀數(shù)據(jù)分析

現(xiàn)在,筆者從“閱讀量”、“點(diǎn)贊量”、“收藏量”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”這些能反映讀者閱讀偏好的數(shù)據(jù)著手,進(jìn)行由淺入深的挖掘,從中發(fā)現(xiàn)閱讀數(shù)據(jù)中的洞察。

在統(tǒng)計(jì)分析之前,先去掉若干有缺失值的數(shù)據(jù),此時(shí)文本數(shù)據(jù)總量為33,394。

(1)文章數(shù)據(jù)的描述性分析

先對(duì)所有文章的各個(gè)維度進(jìn)行描述性統(tǒng)計(jì)分析,獲得這些數(shù)據(jù)的“初の印象”。


上面的數(shù)據(jù)過(guò)多,為節(jié)省篇幅,筆者僅摘取部分?jǐn)?shù)據(jù)進(jìn)行解讀:

從上表中,筆者發(fā)現(xiàn),單篇文章閱讀量的最大值是2,100,000!閱讀數(shù)高得驚人!在后面的截圖中,小伙伴們可以知曉具體是哪一篇文章如此之高的閱讀熱度。

讀者的評(píng)論熱情不高,絕大部分的文章沒(méi)有評(píng)論,這可以從“平均值”、“中位數(shù)”和“標(biāo)準(zhǔn)差”這3項(xiàng)指標(biāo)中看出。

絕大部分的文章字?jǐn)?shù)不超過(guò)3000,篇幅短小精悍,當(dāng)然大多數(shù)文章都有配圖,寫(xiě)得太長(zhǎng),讀者懶得看。

絕大部分的標(biāo)題字?jǐn)?shù)不超過(guò)20字,太短說(shuō)不清楚,太長(zhǎng)看著招人煩。

(2)文章聚類(lèi)分析

在該部分,筆者選取 “閱讀量”、“收藏量”、“評(píng)論量”、“標(biāo)題字?jǐn)?shù)”這4個(gè)維度作為此次聚類(lèi)分析的特征(Feature),它們共同構(gòu)造了一個(gè)四維空間,每一篇文章因其在這4個(gè)維度上的數(shù)值不同,在四維空間中形成一個(gè)個(gè)的點(diǎn)。

以下是由DBSCAN自動(dòng)聚類(lèi)形成的圖像,因4維空間難以在現(xiàn)實(shí)中呈現(xiàn),故以2維的形式進(jìn)行展示。


從上圖可以看出,此次聚類(lèi)中,有少數(shù)的異常點(diǎn),由上面的描述型分析可知,閱讀量極大的那幾篇文章的“嫌疑”最大,現(xiàn)在在源數(shù)據(jù)中“揪出”它們,游街示眾,然后再“除掉”。


去除掉上述異常點(diǎn)之后的聚類(lèi)圖譜:


從上圖中可以看出,雖然因?yàn)榫S度過(guò)高,不同類(lèi)別簇群存在重合現(xiàn)象,但不同的顏色明顯的將文章類(lèi)別進(jìn)行了區(qū)分,按照“閱讀量”、“收藏量”、“評(píng)論量”、“標(biāo)題字?jǐn)?shù)”這4個(gè)維度進(jìn)行的DBSCAN聚類(lèi)可以分為5個(gè)類(lèi)別。

(3)閱讀量與正文字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)之間的關(guān)聯(lián)分析

接著,筆者分別對(duì)“閱讀量”與“標(biāo)題字?jǐn)?shù)”、“正文字?jǐn)?shù)”做了散點(diǎn)圖分析,以期判斷它們之間是否存在相關(guān)關(guān)系。


從上圖來(lái)看,閱讀量和標(biāo)題字?jǐn)?shù)之間并沒(méi)有明顯的線性相關(guān)性,標(biāo)題字?jǐn)?shù)及其對(duì)應(yīng)數(shù)量的散點(diǎn)分布,近似形成了一條左偏態(tài)的正態(tài)曲線,從圖像上印證了上面的描述性分析,而且更新了我們的認(rèn)知:在10~30這個(gè)“標(biāo)題字?jǐn)?shù)”區(qū)間的文章數(shù)量最多,而標(biāo)題字?jǐn)?shù)過(guò)多未必是好事。


從上圖可以看出,從1000字開(kāi)始,閱讀量和正文字?jǐn)?shù)在大體上呈負(fù)相關(guān)關(guān)系,即文章字?jǐn)?shù)越多,閱讀量越小。由此看來(lái),大家都比較喜歡短平快的“快餐式”閱讀,篇幅太長(zhǎng)的文章看起來(lái)太磨人。

6.1.3 熱門(mén)文章特征分析

一篇文章的“收藏量”能在一定程度上反映讀者對(duì)該文章的價(jià)值度的認(rèn)可,較高的收藏量能代表該文章的質(zhì)量屬于上乘。而從一定數(shù)量的高收藏量文章中,我們又能間接的從中發(fā)掘出讀者的閱讀偏好,進(jìn)而界定讀者群體的某些特征。

在這部分,筆者篩選出收藏量大于1,000的文章,各欄目合計(jì)下來(lái),不多不少,剛好60篇。以下是它們?cè)诟鳈谀肯碌臄?shù)量分布情況:


從上表中,筆者發(fā)現(xiàn)如下信息:

“產(chǎn)品經(jīng)理”欄目下收藏量過(guò)1,000的文章數(shù)量最多,占到半數(shù);

“分析評(píng)測(cè)”下的文章數(shù)量不多,但讀者互動(dòng)最多(平均評(píng)論量為90);

“分析評(píng)測(cè)”、“交互體驗(yàn)”、“業(yè)界動(dòng)態(tài)”、“原型設(shè)計(jì)”入圍的文章數(shù)量不多,但它們的平均閱讀量較高


以上3點(diǎn)僅是從數(shù)值型數(shù)據(jù)上獲得的認(rèn)知,但是這些熱門(mén)文章到底有哪些特征,我們不得而知,由此,筆者統(tǒng)計(jì)了這些熱門(mén)文章的標(biāo)題中的高頻詞,并將其制成關(guān)鍵詞云:


從上面的高頻詞,“Axure”、“干貨”、“工具”、“新人”、“7天”、“速成”等高頻詞可以間接的推測(cè)出,這些文章的主要面向初學(xué)者(按照心理學(xué)上的“投射原理”,讀者其實(shí)也大都是初學(xué)者),以干貨類(lèi)、工具類(lèi)和方法論為主題,并透露出濃厚的“成功學(xué)氣息”(如“速成”、“7天”、“必學(xué)”等詞),具有這類(lèi)標(biāo)題特征的文章,堪稱(chēng)“眼球收割機(jī)”,初學(xué)者合并小白喜聞樂(lè)見(jiàn),最是喜歡。

6.1.4 文本中一線~五線城市提及次數(shù)的地理分布

在該部分,筆者先列出了一個(gè)國(guó)內(nèi)一、二、三、四、五線城市的城市名錄,然后在經(jīng)過(guò)分詞處理的333,94篇文本數(shù)據(jù)中統(tǒng)計(jì)這些城市的提及次數(shù)(不包含簡(jiǎn)稱(chēng)和別稱(chēng))。

最后制成一張反映城市提及次數(shù)的地理分布地圖,進(jìn)而間接的了解各個(gè)城市互聯(lián)網(wǎng)的發(fā)展?fàn)顩r(一般城市的提及跟互聯(lián)網(wǎng)產(chǎn)業(yè)、產(chǎn)品和職位信息掛鉤,能在一定程度上反映該城市互聯(lián)網(wǎng)行業(yè)的發(fā)展態(tài)勢(shì))。

經(jīng)處理,制成的數(shù)據(jù)地圖如下:


上圖反映的結(jié)果比較符合常識(shí),北上深廣杭這些一線城市/互聯(lián)網(wǎng)重鎮(zhèn)的提及次數(shù)最多。其次是成都、天津、重慶、蘇州和青島這些二線城市,再次是哈爾濱、大連。

總結(jié)起來(lái)的一句廢話(huà)就是——互聯(lián)網(wǎng)發(fā)達(dá)的城市主要集中在東南沿海。

上面的數(shù)據(jù)分析大多數(shù)是基于數(shù)值型數(shù)據(jù)的描述性分析,接下來(lái),筆者將利用其中的文本數(shù)據(jù)做深入的文本挖掘。

6.2 針對(duì)“產(chǎn)品運(yùn)營(yíng)&數(shù)據(jù)分析”欄目的專(zhuān)項(xiàng)文本挖掘

因?yàn)楣P者關(guān)注的領(lǐng)域主要是數(shù)據(jù)分析和產(chǎn)品運(yùn)營(yíng),平時(shí)寫(xiě)的文章也大都集中在這兩塊,所以筆者把這兩個(gè)板塊的數(shù)據(jù)單獨(dú)拎出來(lái),從文本挖掘角度,做一系列由淺入深的數(shù)據(jù)分析。

6.2.1 高頻詞匯TOP200

首先是文本挖掘中最常規(guī)的高頻詞分析,筆者從中獲取了TOP200詞匯。


可以看到,大部分是跟“運(yùn)營(yíng)”息息相關(guān)的詞匯,比如“用戶(hù)”、“運(yùn)營(yíng)”、“內(nèi)容”、“APP”、“營(yíng)銷(xiāo)”、“微信”等詞匯。

單獨(dú)看其中的高頻詞TOP30,可以發(fā)現(xiàn),這些詞大部分跟新媒體運(yùn)營(yíng)(“內(nèi)容”、“微信”、“微博”、“文章”等)、用戶(hù)(“用戶(hù)”、“粉絲”、“需求”、“社群”、“客戶(hù)”、“消費(fèi)者”等)有關(guān)系。


將這TOP200高頻詞制成關(guān)鍵詞云,直觀的看到其中重要的信息。


6.2.2 Bicluster文本聚類(lèi)分析

剛才筆者提到了基于關(guān)鍵詞歸納主題的做法,在上面的高頻詞中,這種主題特征不甚明顯,因而筆者采用更強(qiáng)有力的Bicluster文本聚類(lèi)分析,從“數(shù)據(jù)分析&產(chǎn)品運(yùn)營(yíng)”的數(shù)千篇文章中“析出”若干“子主題”,并進(jìn)行“發(fā)布年份”&“主題構(gòu)成”之間的關(guān)聯(lián)分析。

基于譜聯(lián)合聚類(lèi)算法(Spectral Co-clusteringalgorithm)的文檔聚類(lèi),這部分的原理涉及到艱深的數(shù)學(xué)和算法知識(shí),可能會(huì)引起小伙伴們的閱讀不適感,如果是這樣,請(qǐng)快速跳過(guò),直接看后面的操作和結(jié)果。

先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類(lèi)算法(Spectral Co-clusteringalgorithm)進(jìn)行雙聚類(lèi)(Biclusters)。

所得到的“文檔-詞匯”雙聚類(lèi)(Biclusters)會(huì)把某些文檔子集中的常用詞匯聚集在一起,由若干個(gè)關(guān)鍵詞構(gòu)成某個(gè)主題。

正式分析之前,先對(duì)保存在Excel中的文本數(shù)據(jù)做一定的預(yù)處理,使用“乾坤大挪移”,將Excel中的文本數(shù)據(jù)按年份一條條的歸到不同的文件夾下面,具體步驟如下圖所示:


做好預(yù)處理后,進(jìn)行正式的Bicluster文本聚類(lèi),結(jié)果如下:


上面的分析結(jié)果中,Bicluster1的話(huà)題區(qū)分度不明顯,且僅包含2個(gè)文檔和16個(gè)關(guān)鍵詞,所以排除掉這個(gè)主題,僅留下其他5個(gè)主題,排除噪聲,從這些子話(huà)題中的主要關(guān)鍵詞來(lái)歸納其要旨。

為了看得更清楚,筆者將這些數(shù)據(jù)整理成二維表格的形式:


從上表可以看出,“數(shù)據(jù)分析&產(chǎn)品運(yùn)營(yíng)”下的子話(huà)題中,涉及“新媒體運(yùn)營(yíng)”的內(nèi)容最多,占到文檔總量的35.62%,其次是“APP運(yùn)營(yíng)”和“智能硬件”方面的話(huà)題,分別占到文檔總量的23.72%和19.6%。而“數(shù)據(jù)分析”話(huà)題下的文檔數(shù)最少。

將子話(huà)題和年份進(jìn)行交叉分析,可以從中了解到各個(gè)子話(huà)題在各年份的信息分布量,從某種意義上講,也就是話(huà)題熱度。


從上表可以看到,“智能硬件”的子話(huà)題在2012和2013年的熱度最高,而“APP運(yùn)營(yíng)”和“數(shù)據(jù)分析”在2016和2017年開(kāi)始火了起來(lái),而“新媒體運(yùn)營(yíng)”在近3年也是風(fēng)光無(wú)限。

而單獨(dú)從2016年來(lái)看,除了“智能硬件”方面的話(huà)題不火外,其他三個(gè)話(huà)題均有較高的熱度,達(dá)到了近5年來(lái)熱度峰值,看來(lái)2016年是個(gè)特殊的年份。

總體上,除了“智能硬件”這個(gè)子話(huà)題外,其他3個(gè)子話(huà)題熱度都呈現(xiàn)出不斷上升的趨勢(shì),當(dāng)然,筆者假設(shè)2017年的4個(gè)月過(guò)完的時(shí)候還是如此。

6.2.3 基于“數(shù)據(jù)分析&產(chǎn)品運(yùn)營(yíng)”語(yǔ)境下的關(guān)聯(lián)詞分析

接下來(lái)進(jìn)行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進(jìn)行詞向量模型訓(xùn)練,然后用來(lái)進(jìn)行關(guān)聯(lián)詞分析。

Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個(gè)個(gè)詞向量(WordVector),以使這些詞匯在便于被計(jì)算機(jī)識(shí)別和分析的同時(shí),還具有語(yǔ)義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。

類(lèi)似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂(lè)頌2>》、《以<大秦帝國(guó)之崛起>為例,來(lái)談大數(shù)據(jù)輿情分析和文本挖掘》。

由此,通過(guò)Word2vec,我們可以查找到在“數(shù)據(jù)分析&產(chǎn)品運(yùn)營(yíng)”語(yǔ)境下的各個(gè)詞匯的關(guān)聯(lián)詞。

先看看筆者最關(guān)心的“數(shù)據(jù)分析”,在“數(shù)據(jù)分析&產(chǎn)品運(yùn)營(yíng)”語(yǔ)境下有哪些詞與之關(guān)聯(lián)度最高,這里采用的method是’predict_output_word’,也就是把“數(shù)據(jù)分析”單個(gè)詞當(dāng)做語(yǔ)境,預(yù)測(cè)在“數(shù)據(jù)分析”語(yǔ)境下的關(guān)聯(lián)詞。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)


在這種情況下,“數(shù)據(jù)分析”與自身的關(guān)聯(lián)度不是1了,因?yàn)樗赡茉谝欢卧?huà)里出現(xiàn)兩次。

后面關(guān)聯(lián)度較高的詞匯依次是“統(tǒng)計(jì)分析”、“數(shù)據(jù)挖掘”、“BI”、“Excel”等,從其中的幾個(gè)數(shù)據(jù)工具(Growing IO、神策和友盟等)來(lái)看,廠家的品宣軟文做的還是蠻好的。

再來(lái)看看“數(shù)據(jù)挖掘”+“運(yùn)營(yíng)”下的關(guān)聯(lián)詞有哪些,這次采用的method是’most_similar’,結(jié)果如下:


結(jié)果顯示,這2個(gè)詞的組合得到的關(guān)聯(lián)詞,除了“數(shù)據(jù)分析”外,還有“精細(xì)化”、“BI”、“統(tǒng)計(jì)分析”、“(用戶(hù))畫(huà)像”、“數(shù)據(jù)模型”、“指標(biāo)體系”、“產(chǎn)品策劃”等關(guān)鍵詞,它們是數(shù)據(jù)運(yùn)營(yíng)中涉及較多的概念。

下面是“pm”和“運(yùn)營(yíng)”的共同關(guān)聯(lián)詞,它們能較好的說(shuō)明運(yùn)營(yíng)和產(chǎn)品之間的存在的某些“公共關(guān)系”。


本來(lái),這兩個(gè)職位由于跟進(jìn)流程多,涉及面廣,需要干各種“雜活”,因而很多產(chǎn)品或運(yùn)營(yíng)抱怨自己就是 “打雜”的。

近一段時(shí)間,互聯(lián)網(wǎng)界某些專(zhuān)家適時(shí)造出“全棧產(chǎn)品”和“全棧運(yùn)營(yíng)”這兩個(gè)新概念,認(rèn)為必須在這兩個(gè)崗位上掌握更多的“斜杠”技能,熟諳相關(guān)領(lǐng)域的各個(gè)“工種”,最好精通各個(gè)流程。

要做好這兩個(gè)“非技術(shù)”的崗位,很多方面不僅要“略懂”,還要扮演“多面手”的角色,比如“技術(shù)開(kāi)發(fā)”、“產(chǎn)品策劃”等,如此才能在實(shí)際工作中“獨(dú)當(dāng)一面”。

接下來(lái),筆者從中挑選出出90個(gè)跟“數(shù)據(jù)分析”具有較高關(guān)聯(lián)度的詞匯,看哪些詞匯在該語(yǔ)境下中提及次數(shù)最多,以及這些詞之間的共現(xiàn)關(guān)系(Co-occurrence Relation),通過(guò)詞匯鏈接關(guān)系的多寡,找到重要性程度最高的詞匯。


從字體大小來(lái)看, “數(shù)據(jù)”、“數(shù)據(jù)分析”、“運(yùn)營(yíng)”、“數(shù)據(jù)挖掘”“數(shù)據(jù)庫(kù)”、“預(yù)測(cè)”等詞鏈接的詞匯最多,它們的重要性程度在這90個(gè)詞匯中的重要性程度最高。

從顏色上來(lái)看,這90個(gè)詞根據(jù)“關(guān)系親疏(共現(xiàn)關(guān)系)”聚集為5個(gè)社群(Community),最為突出的是3個(gè)社群,分別是:

橙色系的“SPSS”和“SAS”,數(shù)據(jù)分析工具類(lèi);

紫色系的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“數(shù)據(jù)挖掘”等,數(shù)據(jù)分析相關(guān)重要的概念;

綠色系的“營(yíng)銷(xiāo)”、“社會(huì)化媒體”、“監(jiān)測(cè)”等,品牌營(yíng)銷(xiāo)類(lèi)。


其中,“社會(huì)化媒體”與“營(yíng)銷(xiāo)”之間的線條最為明顯,代表它們之間有很強(qiáng)的關(guān)聯(lián)度---因?yàn)樯鐣?huì)化媒體正式營(yíng)銷(xiāo)活動(dòng)的載體,營(yíng)銷(xiāo)活動(dòng)必須在各類(lèi)社會(huì)化媒體(微信、微博、頭條號(hào)等)實(shí)施。

6.2.4 Lexical dispersion plot(詞匯分散圖)

接下來(lái),筆者想了解“產(chǎn)品運(yùn)營(yíng)&數(shù)據(jù)分析”欄目中的某些詞在2012.05~2017.07之間的數(shù)量分布情況,以及它們出現(xiàn)的位置信息(the location of a word in the text),這時(shí)可以利用Lexicaldispersion plot(詞匯分散圖)進(jìn)行分析,它可以揭示某個(gè)詞匯在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。

筆者先將待分析的文本按時(shí)間順序進(jìn)行排列,分詞后再進(jìn)行Lexicaldispersion plot分析。因此,文本字?jǐn)?shù)的累積增長(zhǎng)方向與時(shí)間正向推移的方向一致。圖中縱軸表示詞匯,橫軸是文本字?jǐn)?shù),是累加的;黑色豎線表示該詞匯在文本中被提及一次,對(duì)應(yīng)橫軸能看到它所處的位置信息,空白則表示無(wú)提及。


從上圖可以看出,在近4,500,000詞匯量的文本中,“運(yùn)營(yíng)”、“微博”和“電商”在近6年里的提及次數(shù)極高,中間的間隙較少,貫穿始終,它們是作家談?wù)撟疃嗟娜齻€(gè)詞匯/話(huà)題。像“新媒體”、“微信公眾號(hào)”、“用戶(hù)運(yùn)營(yíng)”、“社群”等詞匯,在頭兩年的提及熱度不高,但后來(lái)居上,提及量呈現(xiàn)逐漸上漲的趨勢(shì)。

而“BI”、“CRM”在近六年內(nèi)呈零星分布,提及量較少,在“產(chǎn)品運(yùn)營(yíng)&數(shù)據(jù)分析”欄目中屬于冷門(mén)話(huà)題。

6.2.5 利用DTM模型(Dynamic Topic Models )分析主題下的熱點(diǎn)變遷

上面的分析是針對(duì)某個(gè)詞匯的時(shí)間動(dòng)態(tài)分析,這里筆者要分析的是某個(gè)話(huà)題隨時(shí)間的變遷情況(This implements topics that change over time)。

筆者運(yùn)用的模型是DTM模型 (Dynamic Topic Models ),它是“概率主題模型”家族中的一員,用于對(duì)語(yǔ)料庫(kù)中主題演變進(jìn)行建模。

它基于這樣的假設(shè):

蘊(yùn)含時(shí)間因素的主題,盡管它包含的關(guān)鍵詞會(huì)隨著時(shí)間的變化而產(chǎn)生相應(yīng)的變化,但它如構(gòu)成要素不斷更新?lián)Q代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主題下的開(kāi)端和末尾中的主題詞沒(méi)有一個(gè)是相同的,但還是原先的主題,保留有相同的語(yǔ)境。(By having a time-basedelement to topics, context is preserved while key-words may change.)

首先,從“產(chǎn)品運(yùn)營(yíng)&數(shù)據(jù)分析”中“解析”出如下6個(gè)子話(huà)題,它們是“運(yùn)營(yíng)”、“商業(yè)模式”、“流量運(yùn)營(yíng)&數(shù)據(jù)分析”、“品牌營(yíng)銷(xiāo)&數(shù)據(jù)分析”、“電商運(yùn)營(yíng)”和“內(nèi)容運(yùn)營(yíng)”,如下表所示:


筆者對(duì)Topic2,也就是“流量運(yùn)營(yíng)&數(shù)據(jù)分析”在2012.05~2017.07間的話(huà)題變遷情況感興趣,于是將這6年間出現(xiàn)的主題詞重新整合,制成下面的熱力圖:


上圖中縱軸是主題詞,橫軸是年份,顏色由淺入深代表數(shù)值的由小到大。從中可以明顯的看出,“流量運(yùn)營(yíng)&數(shù)據(jù)分析”子話(huà)題下的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“運(yùn)營(yíng)”和“業(yè)務(wù)”在該話(huà)題中始終處于“核心地位”,保持較高且穩(wěn)定的word_prob值。

而“渠道”、“游戲”、“互金”在近3年的word_prob值有了較大的提升,說(shuō)明社區(qū)的作者在近期比較關(guān)注這3個(gè)主題詞所代表的領(lǐng)域,間接表明它們?cè)诨ヂ?lián)網(wǎng)中的話(huà)題熱度呈現(xiàn)上升趨勢(shì)。

6.2.6 利用ATM模型(Author-TopicModel)分析作家寫(xiě)作主題分布

在這個(gè)版塊,筆者想了解“人人都是產(chǎn)品經(jīng)理”上作家的寫(xiě)作主題,分析某些牛X作家喜歡寫(xiě)哪方面的文章(比如“產(chǎn)品運(yùn)營(yíng)”、“數(shù)據(jù)分析”、“新媒體運(yùn)營(yíng)”等)寫(xiě)作了啥,主題相似度的作者有哪些。

為此,筆者采用了ATM模型進(jìn)行分析,注意,這不是自動(dòng)取款機(jī)的縮寫(xiě),而是author-topic model:

ATM模型(author-topic model)也是“概率主題模型”家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對(duì)某個(gè)語(yǔ)料庫(kù)中作者的寫(xiě)作主題進(jìn)行分析,找出某個(gè)作家的寫(xiě)作主題傾向,以及找到具有同樣寫(xiě)作傾向的作家,它是一種新穎的主題探索方式。

首先,先從文本中“析出”若干主題,經(jīng)過(guò)探索,10個(gè)主題的區(qū)分度正好。根據(jù)各個(gè)主題下的主題詞特征,筆者將這10個(gè)主題歸納為 :“行業(yè)動(dòng)態(tài)”、“電商運(yùn)營(yíng)”、“商業(yè)模式”、“產(chǎn)品運(yùn)營(yíng)”、“社交媒體”、“互金產(chǎn)品”、“數(shù)據(jù)運(yùn)營(yíng)”、“用戶(hù)研究”、“產(chǎn)品設(shè)計(jì)”和“新媒體運(yùn)營(yíng)”。


同時(shí),在數(shù)據(jù)處理的過(guò)程中,模型建立了作者(author)、主題(topic)及文檔(document)之間的映射關(guān)聯(lián)關(guān)系,以dict的形式保存數(shù)據(jù)。


模型訓(xùn)練完畢,先看看筆者自己的寫(xiě)作主題分布吧。值得注意的是,這里的文檔數(shù)據(jù)經(jīng)過(guò)甄選,并不是全部的文檔數(shù)據(jù),因此數(shù)量會(huì)少于網(wǎng)站上所看到的文章數(shù)。


上面的“Docs”中的元素是文章對(duì)應(yīng)的文檔ID編號(hào)按照時(shí)間順序排列的,“Topics”中的元素有兩列,一列代表主題,一列代表主題的權(quán)重大小。

很明顯,筆者的寫(xiě)作主題主要集中在“數(shù)據(jù)運(yùn)營(yíng)”、“新媒體運(yùn)營(yíng)”和“用戶(hù)研究”這3個(gè)主題上,有些直接從標(biāo)題即可看出,有些“潛藏”在文章的正文論述之中。


再看看運(yùn)營(yíng)大神韓敘的寫(xiě)作主題分布,很明顯,他側(cè)重于寫(xiě)產(chǎn)品運(yùn)營(yíng)方面的干貨文章,而且寫(xiě)作主題很明確。


再看看另一位專(zhuān)欄作家類(lèi)類(lèi)的寫(xiě)作主題分布,他傾向于寫(xiě)產(chǎn)品運(yùn)營(yíng)、用戶(hù)研究和社交媒體方面的文章,看過(guò)他文章的人都知道,他尤其擅長(zhǎng)基于社區(qū)的用戶(hù)運(yùn)營(yíng)。


再看看另一位運(yùn)營(yíng)大神---張亮,也就是“互聯(lián)網(wǎng)運(yùn)營(yíng)第一書(shū)”《從零開(kāi)始做運(yùn)營(yíng)》的作者張亮,他的寫(xiě)作主題跟類(lèi)類(lèi)幾近一致,也是產(chǎn)品運(yùn)營(yíng)、用戶(hù)研究和社交媒體方面的干貨分享。


接下來(lái),根據(jù)上述作者的寫(xiě)作主題分布,筆者找出與他們寫(xiě)作相似度最高的作家,為保持準(zhǔn)確度,筆者有一個(gè)限制條件---發(fā)文數(shù)量不小于3篇。

結(jié)果以表格的形式展示,主要的維度有“作者(Author)”、“相似度得分(Score)”和“文檔數(shù)量(Size)”。以下是“韓敘”“類(lèi)類(lèi)有話(huà)說(shuō)”和“張亮-leo”的相似作者名單TOP10,限于篇幅,筆者就不做過(guò)多分析了。


6.2.7 LSI相似標(biāo)題索引


最后,筆者想通過(guò)文章標(biāo)題之間的語(yǔ)義相似關(guān)系來(lái)找到相同主題的文章,而這種語(yǔ)義相關(guān)性不僅僅是字面上的(不包含相同的詞匯,但其中的詞含義相近)。利過(guò)LSI(Latent Semantic Index,潛在語(yǔ)義索引)就可以做到這一點(diǎn)。

通過(guò)“詞袋模型(bag-of-words)”將語(yǔ)句映射到特定的Vector Space Model (VSM)中,比較語(yǔ)句向量化后的余弦?jiàn)A角值(介于0-1之間),值越大,就代表相似度越高。詳細(xì)的原理推導(dǎo),小伙伴們可以自行Google腦補(bǔ)。

從標(biāo)題中找出主題相似的文章,檢索感興趣的內(nèi)容,不僅僅是通過(guò)關(guān)鍵詞檢索,潛在語(yǔ)義分析。

在這里,筆者先后對(duì)如下三篇文章進(jìn)行LSI語(yǔ)義索引:

當(dāng)數(shù)據(jù)分析遭遇心理動(dòng)力學(xué):用戶(hù)深層次的情感需求浮出水面(萬(wàn)字長(zhǎng)文,附實(shí)例分析)
萬(wàn)字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”
數(shù)據(jù)運(yùn)營(yíng)實(shí)操 | 如何用聚類(lèi)分析進(jìn)行企業(yè)公眾號(hào)的內(nèi)容優(yōu)化


結(jié)果顯示如下:


從上面的索引結(jié)果可以看到,搜尋到的語(yǔ)句和原語(yǔ)句之間即使沒(méi)有包含相同的詞匯,但語(yǔ)義上是相關(guān)的,分別從屬于4“用戶(hù)研究”、“運(yùn)營(yíng)實(shí)操根據(jù)”和“內(nèi)容運(yùn)營(yíng)”這三個(gè)話(huà)題。

筆者通過(guò)這種文本相似度索引,就可以找到自己感興趣的內(nèi)容,進(jìn)行更進(jìn)一步的文本挖掘。

結(jié)語(yǔ)

限于篇幅,上述許多模型的用途/使用場(chǎng)景,筆者并未展開(kāi)詳說(shuō),比如Lexical Dispersion Plot、Bicluster文本聚類(lèi)和DTM模型可以預(yù)測(cè)詞匯和主題的熱度,從而為寫(xiě)作選材和熱點(diǎn)追蹤提供參考。

而LSI相似文本索引和ATM模型可以在內(nèi)容創(chuàng)作中進(jìn)行競(jìng)品分析,找到與筆者寫(xiě)作主題相近的作家和內(nèi)容進(jìn)行針對(duì)性的分析,知己知彼,做好自己的寫(xiě)作風(fēng)格定位。

拿筆者的分析實(shí)踐為例,在“數(shù)據(jù)分析”欄目中,采用上述分析手段,筆者發(fā)現(xiàn)相關(guān)文章大都是理論型和設(shè)想型的論述,缺少真實(shí)的數(shù)據(jù)分析實(shí)例支撐,真正投入到實(shí)際工作中的效果也未可知。

同時(shí),很多是常規(guī)的、基礎(chǔ)性的數(shù)值型分析,介紹的工具則是Excel、SQL、SPSS,難以滿(mǎn)足當(dāng)今大數(shù)據(jù)背景下的數(shù)據(jù)分析實(shí)踐。

因此,筆者的寫(xiě)作風(fēng)格傾向于“少許理論+實(shí)操”,盡量少扯“看起來(lái)對(duì)、看過(guò)就忘”的理論,在數(shù)據(jù)分析工具和方法的使用上盡量做到多樣化,實(shí)例分析不為得出具體的結(jié)論,重在開(kāi)拓讀者的數(shù)據(jù)分析思路,授人以漁。

最后,透過(guò)上面的外部數(shù)據(jù)分析實(shí)例,筆者想闡明如下3點(diǎn):

要厘清不同數(shù)據(jù)類(lèi)型的特征,如本例中的數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)以及從中抽取的關(guān)系型數(shù)據(jù),對(duì)其采用合適的分析思路和挖掘方法;

數(shù)據(jù)分析的方法要盡可能的多樣化,如本例中采用了多種分析方法和模型,如交叉分析、高頻詞分析、關(guān)鍵信息抽取、詞匯分散圖分析和ATM模型等;

在分析層次上,以業(yè)務(wù)邏輯為軸線,由淺入深,由簡(jiǎn)入繁,由表及里,既有描述型的統(tǒng)計(jì)分析,也有診斷型的數(shù)據(jù)挖掘,還有基于演變規(guī)律(如動(dòng)態(tài)主題模型)的預(yù)測(cè)型分析。

數(shù)據(jù)來(lái)源及參考資料:

1.Kemal Eren, An introduction to biclustering

http://www.kemaleren.com/an-introduction-to-biclustering.html

2.Ofir Pele and MichaelWerman, A linear time histogram metric for improved SIFT matching,2008.

3.Matt Kusner et al. From Embeddings To Document Distances,2015.

4.Michal Rosen-Zvi, Thomas Griffiths et al. The Author-Topic Modelfor Authors and Documents

5.David Hall et al. Studying the Historyof Ideas Using Topic Models

6. D.Blei and J. Lafferty. Dynamic topicmodels. In Proceedings of the 23rd International Conference on MachineLearning, 2006.


作者:蘇格蘭折耳喵
來(lái)源:PMCAFF
本文來(lái)源于公眾號(hào)
蘇格蘭折耳喵,轉(zhuǎn)載請(qǐng)聯(lián)系作者并注明來(lái)源。
運(yùn)營(yíng)那些事兒
分享到朋友圈
收藏
收藏
評(píng)分

綜合評(píng)分:

我的評(píng)分
Xinstall 15天會(huì)員特權(quán)
Xinstall是專(zhuān)業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來(lái)源、裂變拉新統(tǒng)計(jì)、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計(jì)、APP地推與CPS/CPA歸屬統(tǒng)計(jì)等方面。
20羽毛
立即兌換
一書(shū)一課30天會(huì)員體驗(yàn)卡
領(lǐng)30天VIP會(huì)員,110+門(mén)職場(chǎng)大課,250+本精讀好書(shū)免費(fèi)學(xué)!助你提升職場(chǎng)力!
20羽毛
立即兌換
順豐同城急送全國(guó)通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時(shí)送全城的即時(shí)快送服務(wù),專(zhuān)業(yè)安全,準(zhǔn)時(shí)送達(dá)!
30羽毛
立即兌換
運(yùn)營(yíng)那些事兒
運(yùn)營(yíng)那些事兒
發(fā)表文章49310
確認(rèn)要消耗 羽毛購(gòu)買(mǎi)
初創(chuàng)公司根本沒(méi)數(shù)據(jù),增長(zhǎng)黑客能有什么用?嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶(hù)創(chuàng)造的內(nèi)容、維護(hù)開(kāi)放、真實(shí)、專(zhuān)業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶(hù)和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶(hù)創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對(duì)憲法所確定的基本原則;
    2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
    4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
    5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
    6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
    7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
    8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
    10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
    11)通過(guò)網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶(hù)及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
    2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
    3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來(lái)激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
    6)謾罵:以不文明的語(yǔ)言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
    7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類(lèi)的攻擊;
    8)威脅:許諾以不良的后果來(lái)迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶(hù)體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣(mài)產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶(hù)點(diǎn)擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購(gòu)買(mǎi)或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營(yíng)銷(xiāo)內(nèi)容,如通過(guò)偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷(xiāo);
    8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話(huà)的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。


5. 不實(shí)信息,主要表現(xiàn)為:
    1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
    2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過(guò)頭像、用戶(hù)名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治??;
    2)求推薦算命看相大師;
    3)針對(duì)具體風(fēng)水等問(wèn)題進(jìn)行求助或咨詢(xún);
    4)問(wèn)自己或他人的八字、六爻、星盤(pán)、手相、面相、五行缺失,包括通過(guò)占卜方法問(wèn)婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;


7. 文章標(biāo)題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來(lái)誘導(dǎo)用戶(hù);
    2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
    3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂(lè)等行為
    4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
    5)通過(guò)「蹭熱點(diǎn)」、制造話(huà)題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
    4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過(guò)主動(dòng)發(fā)現(xiàn)和接受用戶(hù)舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶(hù)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶(hù)違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過(guò)作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。


三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶(hù)對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過(guò)「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對(duì)了
+5羽毛
下一次認(rèn)真讀哦
成功推薦給其他人
+ 10羽毛
評(píng)論成功且進(jìn)入審核!審核通過(guò)后,您將獲得10羽毛的獎(jiǎng)勵(lì)。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接