chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥(niǎo)哥筆記小喬”
【干貨收藏】以虎嗅網(wǎng)4W篇文章為例,展現(xiàn)數(shù)據(jù)分析全流程
2018-02-26 14:27:11


之前在八月份寫(xiě)過(guò)一篇針對(duì)外部數(shù)據(jù)分析的文章,《作為一個(gè)合格的“增長(zhǎng)黑客”,你還得重視外部數(shù)據(jù)的分析!》,一部分讀者向筆者反映,說(shuō)對(duì)外部數(shù)據(jù)的分析跳出了原有的只針對(duì)企業(yè)內(nèi)部數(shù)據(jù)分析(用戶數(shù)據(jù)、銷售數(shù)據(jù)、流量數(shù)據(jù)等)的窠臼,往往能給產(chǎn)品、運(yùn)營(yíng)、營(yíng)銷帶來(lái)意想不到的啟迪,為數(shù)據(jù)化驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)打開(kāi)了一扇窗…

 

鑒于此種情況,筆者將繼續(xù)對(duì)另一個(gè)案例進(jìn)行從數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析再到數(shù)據(jù)可視化的全流程分析,力求條理清晰的展現(xiàn)外部數(shù)據(jù)分析的強(qiáng)大威力。以下是本文的寫(xiě)作框架:



1  分析背景


1.1 分析原理---為什么選擇分析虎嗅網(wǎng)


在現(xiàn)今數(shù)據(jù)爆炸、信息質(zhì)量良莠不齊的互聯(lián)網(wǎng)時(shí)代,我們無(wú)時(shí)無(wú)刻不身處在互聯(lián)網(wǎng)社會(huì)化媒體的“信息洪流”之中,因而無(wú)可避免的被它上面泛濫的信息所“裹挾”,也就是說(shuō),社會(huì)化媒體上的信息對(duì)現(xiàn)實(shí)世界中的每個(gè)人都有重大影響,社會(huì)化媒體是我們間接了解現(xiàn)實(shí)客觀世界和主觀世界的一面窗戶,我們每時(shí)每刻都在受到它的影響。關(guān)于“社會(huì)化媒體”方面的內(nèi)容,請(qǐng)參看《干貨|如何利用Social Listening從社會(huì)化媒體中“提煉”有價(jià)值的信息?》,以下內(nèi)容也摘自該文:




 

 

綜合上述兩類情形,可以得出這樣的結(jié)論,透過(guò)社會(huì)化媒體,我們可以觀察現(xiàn)實(shí)世界:



 

由此,社會(huì)化媒體是現(xiàn)實(shí)主客觀世界的一面鏡子,而它也會(huì)進(jìn)一步影響人們的行為,如果我們對(duì)該領(lǐng)域中的優(yōu)質(zhì)媒體所發(fā)布的信息進(jìn)行分析,除了可以了解該領(lǐng)域的發(fā)展進(jìn)程和現(xiàn)狀,還可以對(duì)該領(lǐng)域的人群行為進(jìn)行一定程度的預(yù)判。


鑒于此種情況,作為互聯(lián)網(wǎng)從業(yè)者的筆者想分析一下互聯(lián)網(wǎng)行業(yè)的一些現(xiàn)狀,第一步是找到在互聯(lián)網(wǎng)界有著重要影響力媒體,上次分析的是“人人都是產(chǎn)品經(jīng)理”(請(qǐng)參看《 干貨|作為一個(gè)合格的“增長(zhǎng)黑客”,你還得重視外部數(shù)據(jù)的分析!》),這次筆者想到的是虎嗅網(wǎng)。


虎嗅網(wǎng)創(chuàng)辦于2012年5月,是一個(gè)聚合優(yōu)質(zhì)創(chuàng)新信息與人群的新媒體平臺(tái)。該平臺(tái)專注于貢獻(xiàn)原創(chuàng)、深度、犀利優(yōu)質(zhì)的商業(yè)資訊,圍繞創(chuàng)新創(chuàng)業(yè)的觀點(diǎn)進(jìn)行剖析與交流。虎嗅網(wǎng)的核心,是關(guān)注互聯(lián)網(wǎng)及傳統(tǒng)產(chǎn)業(yè)的融合、一系列明星公司(包括公眾公司與創(chuàng)業(yè)型企業(yè))的起落軌跡、產(chǎn)業(yè)潮汐的動(dòng)力與趨勢(shì)。


因此,對(duì)該平臺(tái)上的發(fā)布內(nèi)容進(jìn)行分析,對(duì)于研究互聯(lián)網(wǎng)的發(fā)展進(jìn)程和現(xiàn)狀有一定的實(shí)際價(jià)值。


1.2 本文的分析目的


筆者在本項(xiàng)目中的分析目的主要有4個(gè):


(1)對(duì)虎嗅網(wǎng)內(nèi)容運(yùn)營(yíng)方面的若干分析,主要是對(duì)發(fā)文量、收藏量、評(píng)論量等方面的描述性分析;


(2)通過(guò)文本分析,對(duì)互聯(lián)網(wǎng)行業(yè)的一些人、企業(yè)和細(xì)分領(lǐng)域進(jìn)行趣味性的分析;


(3)展現(xiàn)文本挖掘在數(shù)據(jù)分析領(lǐng)域的實(shí)用價(jià)值;


(4)將雜蕪無(wú)序的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行可視化,展現(xiàn)數(shù)據(jù)之美。


1.3 分析方法---分析工具和分析類型


本文中,筆者使用的數(shù)據(jù)分析工具如下:


Python3.5.2(編程語(yǔ)言)

Gensim(詞向量、主題模型)

Scikit-Learn(聚類和分類)

Keras(深度學(xué)習(xí)框架)

Tensorflow(深度學(xué)習(xí)框架)

Jieba(分詞和關(guān)鍵詞提取)

Excel(可視化)

Seaborn(可視化)

新浪微輿情(情緒語(yǔ)義分析)

Bokeh(可視化)

Gephi(網(wǎng)絡(luò)可視化)

Plotly(可視化)


使用上述數(shù)據(jù)分析工具,筆者將進(jìn)行2類數(shù)據(jù)分析:第一類是較為傳統(tǒng)的、針對(duì)數(shù)值型數(shù)據(jù)的描述下統(tǒng)計(jì)分析,如閱讀量、收藏量等在時(shí)間維度上的分布;另一類是本文的重頭戲---深層次的文本挖掘,包括關(guān)鍵詞提取、文章內(nèi)容LDA主題模型分析、詞向量/關(guān)聯(lián)詞分析、DTM模型、ATM模型、詞匯分散圖和詞聚類分析。



2 數(shù)據(jù)采集和文本預(yù)處理


2.1 數(shù)據(jù)采集


筆者使用爬蟲(chóng)采集了來(lái)自虎嗅網(wǎng)主頁(yè)的文章(并不是全部的文章,但展示在主頁(yè)的信息是主編精挑細(xì)選的,很具代表性),數(shù)據(jù)采集的時(shí)間區(qū)間為2012.05~2017.11,共計(jì)41,121篇。采集的字段為文章標(biāo)題、發(fā)布時(shí)間、收藏量、評(píng)論量、正文內(nèi)容、作者名稱、作者自我簡(jiǎn)介、作者發(fā)文量,然后筆者人工提取4個(gè)特征,主要是時(shí)間特征(時(shí)點(diǎn)和周幾)和內(nèi)容長(zhǎng)度特征(標(biāo)題字?jǐn)?shù)和文章字?jǐn)?shù)),最終得到的數(shù)據(jù)如下圖所示:   



2.2 數(shù)據(jù)預(yù)處理


數(shù)據(jù)分析/挖掘領(lǐng)域有一條金科玉律:“Garbage in, Garbage out”,做好數(shù)據(jù)預(yù)處理,對(duì)于取得理想的分析結(jié)果來(lái)說(shuō)是至關(guān)重要的。本文的數(shù)據(jù)規(guī)整主要是對(duì)文本數(shù)據(jù)進(jìn)行清洗,處理的條目如下:


(1)   文本分詞


要進(jìn)行文本挖掘,分詞是最為關(guān)鍵的一步,它直接影響后續(xù)的分析結(jié)果。筆者使用jieba來(lái)對(duì)文本進(jìn)行分詞處理,它有3類分詞模式,即全模式、精確模式、搜索引擎模式:


  • 精確模式:試圖將句子最精確地切開(kāi),適合文本分析;

  • 全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非??欤遣荒芙鉀Q歧義;

  • 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。


現(xiàn)以“新浪微輿情專注于社會(huì)化大數(shù)據(jù)的場(chǎng)景化應(yīng)用”為例,3種分詞模式的結(jié)果如下:


【全模式】: 新浪/ 微輿情/ 新浪微輿情/ 專注/于/ 社會(huì)化/ 大數(shù)據(jù)/ 社會(huì)化大數(shù)據(jù)/ 的/ 場(chǎng)景化/ 應(yīng)用

【精確模式】: 新浪微輿情/ 專注/于/ 社會(huì)化大數(shù)據(jù)/ 的/ 場(chǎng)景化/ 應(yīng)用

【搜索引擎模式】:新浪,微輿情,新浪微輿情,專注,于,社會(huì)化,大數(shù)據(jù),社會(huì)化大數(shù)據(jù),的,場(chǎng)景化,應(yīng)用


為了避免歧義和切出符合預(yù)期效果的詞匯,筆者采取的是精確(分詞)模式。


(2)   去停用詞


這里的去停用詞包括以下三類:


標(biāo)點(diǎn)符號(hào):, 。! /、*+-

特殊符號(hào):?????????????▲?等

無(wú)意義的虛詞:“the”、“a”、“an”、“that”、“你”、“我”、“他們”、“想要”、“打開(kāi)”、“可以”等


(3)   去掉高頻詞、稀有詞和計(jì)算Bigrams


去掉高頻詞、稀有詞是針對(duì)后續(xù)的主題模型(LDA、ATM)時(shí)使用的,主要是為了排除對(duì)區(qū)隔主題意義不大的詞匯,最終得到類似于停用詞的效果。


Bigrams是為了自動(dòng)探測(cè)出文本中的新詞,基于詞匯之間的共現(xiàn)關(guān)系---如果兩個(gè)詞經(jīng)常一起毗鄰出現(xiàn),那么這兩個(gè)詞可以結(jié)合成一個(gè)新詞,比如“數(shù)據(jù)”、“產(chǎn)品經(jīng)理”經(jīng)常一起出現(xiàn)在不同的段落里,那么,“數(shù)據(jù)_產(chǎn)品經(jīng)理”則是二者合成出來(lái)的新詞,只不過(guò)二者之間包含著下劃線。


 

3 描述性分析


該部分中,筆者主要對(duì)數(shù)值型數(shù)據(jù)進(jìn)行描述性的統(tǒng)計(jì)分析,它屬于較為常規(guī)的數(shù)據(jù)分析,能揭示出一些問(wèn)題,做到知其然,關(guān)于數(shù)據(jù)分析的4種類型,詳情請(qǐng)參看《干貨|作為一個(gè)合格的“增長(zhǎng)黑客”,你還得重視外部數(shù)據(jù)的分析!》的第一部分。


3.1 發(fā)文數(shù)量、評(píng)論量和收藏量的變化走勢(shì)


從下圖可以看出,在2012.05~2017.11期間,以季度為單位,主頁(yè)的發(fā)文數(shù)量起伏波動(dòng)不大,在均值1800上下波動(dòng),進(jìn)入2016年后,發(fā)文數(shù)量有明顯提升。


此外,一頭(2012年第二季)一尾(2017年第四季)因?yàn)闆](méi)有統(tǒng)計(jì)完全,所以發(fā)文數(shù)量較小。



 

 

下圖則是該時(shí)間段內(nèi)收藏量和評(píng)論量的變化情況,評(píng)論量的變化不慍不火,起伏不大,但收藏量一直在攀升中,尤其是在2017年的第二季達(dá)到峰值。收藏量在一定程度上反映了文章的干貨程度和價(jià)值性,讀者認(rèn)為有價(jià)值的文章才會(huì)去保留和收藏,反復(fù)閱讀,含英咀華,這說(shuō)明虎嗅的文章質(zhì)量在不斷提高,或讀者的數(shù)量在增長(zhǎng)。




 

 

3.2 發(fā)文時(shí)間規(guī)律分析


筆者從時(shí)間維度里提取出“周”和“時(shí)段”的信息,也就是開(kāi)題提到的“人工特征”的提取,現(xiàn)在做文章分布數(shù)量的在“周”和“時(shí)”上的交叉分析,得到下圖:



 

 

 

上圖是一個(gè)熱力圖,色塊顏色上的由暖到冷表征數(shù)值的由大變小。很明顯的可以看到,中間有一個(gè)顏色很明顯的區(qū)域,即由“6時(shí)~19時(shí)”和“周一~周五”圍成的矩形,也就是說(shuō),發(fā)文時(shí)間主要集中在工作日的白天。另外,周一到周五期間,6時(shí)~7時(shí)這個(gè)時(shí)間段是發(fā)文的高峰,說(shuō)明虎嗅的內(nèi)容運(yùn)營(yíng)人員傾向于在工作日的清晨發(fā)布文章,這也符合它的人群定位---TMT領(lǐng)域從業(yè)、創(chuàng)業(yè)者、投資人,他們中的許多人有晨讀的習(xí)慣,喜歡在趕地鐵、坐公交的過(guò)程中閱讀虎嗅訊息。發(fā)文高峰還有9時(shí)-11時(shí)這個(gè)高峰,是為了提前應(yīng)對(duì)讀者午休時(shí)間的閱讀,還有17時(shí)~18時(shí),提前應(yīng)對(duì)讀者下班時(shí)間的閱讀。


3.3 相關(guān)性分析


筆者一直很好奇,文章的評(píng)論量、收藏量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)是否存在統(tǒng)計(jì)學(xué)意義上的相關(guān)性關(guān)系?;诖?,筆者繪制出能反映上述變量關(guān)系的兩張圖。


首先,筆者做出了標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)和評(píng)論量之間的氣泡圖(圓形的氣泡被六角星替代,但本質(zhì)上還是氣泡圖)。



 

 

 

上圖中,橫軸是文章字?jǐn)?shù),縱軸是標(biāo)題字?jǐn)?shù),評(píng)論數(shù)大小由六角星的大小和顏色所反映,顏色越暖,數(shù)值越大,五角星越大,數(shù)值越大。從這張圖可以看出,文章評(píng)論量較大的文章,絕大部分分布于由文章字?jǐn)?shù)6000字、標(biāo)題字?jǐn)?shù)20字所構(gòu)成的區(qū)域內(nèi)。虎嗅網(wǎng)上的商業(yè)資訊文章大都具有原創(chuàng)、深度的特點(diǎn),文章篇幅中長(zhǎng),意味著能把事情背后的來(lái)龍去脈論述清楚,而且標(biāo)題要能夠吸引人,引發(fā)讀者的大量閱讀,合適長(zhǎng)度標(biāo)題和正文篇幅才能做到這一點(diǎn)。



接下來(lái),筆者將收藏量、評(píng)論量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)繪制成一張3D立體圖,X軸和Y軸分別為標(biāo)題字?jǐn)?shù)和正文字?jǐn)?shù),Z軸為收藏量和評(píng)論量所構(gòu)成的平面,通過(guò)旋轉(zhuǎn)這個(gè)3維的Surface圖,我們可以發(fā)現(xiàn)收藏量、評(píng)論量和標(biāo)題字?jǐn)?shù)、文章字?jǐn)?shù)之間的相關(guān)關(guān)系。



 

注意,上圖的數(shù)值表示和前面幾張圖一樣,顏色上的由暖到冷表示數(shù)值的由大到小,通過(guò)旋轉(zhuǎn)各維度的截面,可以看到在正文字?jǐn)?shù)5000字以內(nèi)、標(biāo)題字?jǐn)?shù)15字左右的收藏量和評(píng)論量形成的截面出現(xiàn)“華山式”陡峰,因而這里的收藏量和評(píng)論量最大。


3.4 城市提及分析


在這里,筆者通過(guò)構(gòu)建一個(gè)包含全國(guó)1~5線城市的詞表,提取出經(jīng)過(guò)預(yù)處理后的文本中的城市名稱,根據(jù)提及頻次的大小,繪制出一張反映城市提及頻次的地理分布地圖,進(jìn)而間接地了解各個(gè)城市互聯(lián)網(wǎng)的發(fā)展?fàn)顩r(一般城市的提及跟互聯(lián)網(wǎng)產(chǎn)業(yè)、產(chǎn)品和職位信息掛鉤,能在一定程度上反映該城市互聯(lián)網(wǎng)行業(yè)的發(fā)展態(tài)勢(shì))。

 

 



 

上圖反映的結(jié)果比較符合常識(shí),北上深廣杭這些一線城市的提及次數(shù)最多,它們是互聯(lián)網(wǎng)行業(yè)發(fā)展的重鎮(zhèn)。值得注意的是,長(zhǎng)三角地區(qū)的大塊區(qū)域(長(zhǎng)江三角洲城市群,它包含上海,江蘇省的南京、無(wú)錫、常州、蘇州、南通、鹽城、揚(yáng)州、鎮(zhèn)江、泰州,浙江省的杭州、寧波、嘉興、湖州、紹興、金華、舟山、臺(tái)州,安徽省的合肥、蕪湖、馬鞍山、銅陵、安慶、滁州、池州、宣城)呈現(xiàn)出較高的熱度值,直接說(shuō)明這些城市在虎嗅網(wǎng)各類資訊文章中的提及次數(shù)較多,結(jié)合國(guó)家政策和地區(qū)因素,可以這樣理解地圖中反映的這個(gè)事實(shí):


長(zhǎng)三角城市群是“一帶一路”與長(zhǎng)江經(jīng)濟(jì)帶的重要交匯地帶,在中國(guó)國(guó)家現(xiàn)代化建設(shè)大局和全方位開(kāi)放格局中具有舉足輕重的戰(zhàn)略地位。中國(guó)參與國(guó)際競(jìng)爭(zhēng)的重要平臺(tái)、經(jīng)濟(jì)社會(huì)發(fā)展的重要引擎,是長(zhǎng)江經(jīng)濟(jì)帶的引領(lǐng)發(fā)展區(qū),是中國(guó)城鎮(zhèn)化基礎(chǔ)最好的地區(qū)之一。


接下來(lái),筆者將抽取文本中城市之間的共現(xiàn)關(guān)系,也就是城市之間兩兩同時(shí)出現(xiàn)的頻率,在一定程度上反映出城市間經(jīng)濟(jì)、文化、政策等方面的相關(guān)關(guān)系,共現(xiàn)頻次越高,說(shuō)明二者之間的聯(lián)系緊密程度越高,抽取出的結(jié)果如下表所示:



 

 

 

將上述結(jié)果繪制成如下動(dòng)態(tài)的流向圖:



 

 

由于虎嗅網(wǎng)上的文章大多涉及創(chuàng)業(yè)、政策、商業(yè)方面的內(nèi)容,因而這種城市之間的共現(xiàn)關(guān)系反映出城際間在資源、人員或者行業(yè)方面的關(guān)聯(lián)關(guān)系,本動(dòng)態(tài)圖中,主要反映的是北上廣深杭(網(wǎng)絡(luò)中的樞紐節(jié)點(diǎn))之間的相互流動(dòng)關(guān)系和這幾個(gè)一線城市向中西部城市的單向流動(dòng)情形。流動(dòng)量大、交錯(cuò)密集的區(qū)域無(wú)疑是中國(guó)最發(fā)達(dá)的3個(gè)城市群和其他幾個(gè)新興的城市群:


京津冀城市群

長(zhǎng)江三角洲城市群

珠江三角洲城市群

中原城市群

成渝城市群

長(zhǎng)江中游城市群


上面的數(shù)據(jù)分析是基于數(shù)值型數(shù)據(jù)的描述性分析,接下來(lái),筆者將進(jìn)行更為深入的文本挖掘。



4 文本挖掘


數(shù)據(jù)挖掘是從有結(jié)構(gòu)的數(shù)據(jù)庫(kù)中鑒別出有效的、新穎的、可能有用的并最終可理解的模式;而文本挖掘(在文本數(shù)據(jù)庫(kù)也稱為文本數(shù)據(jù)挖掘或者知識(shí)發(fā)現(xiàn))是從大量非結(jié)構(gòu)的數(shù)據(jù)中提煉出模式,也就是有用的信息或知識(shí)的半自動(dòng)化過(guò)程。關(guān)于文本挖掘方面的相關(guān)知識(shí),請(qǐng)參看《數(shù)據(jù)運(yùn)營(yíng)|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>》、《在運(yùn)營(yíng)中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》。


本文的文本挖掘部分主要涉及高頻詞統(tǒng)計(jì)/關(guān)鍵詞提取/關(guān)鍵詞云、文章標(biāo)題聚類、文章內(nèi)容聚類、文章內(nèi)容LDA主題模型分析、詞向量/關(guān)聯(lián)詞分析、ATM模型、詞匯分散圖和詞聚類分析。


4.1 關(guān)鍵詞提取


對(duì)于關(guān)鍵詞提取,筆者沒(méi)有采取詞頻統(tǒng)計(jì)的方法,因?yàn)樵~頻統(tǒng)計(jì)的邏輯是:一個(gè)詞在文章中出現(xiàn)的次數(shù)越多,則它就越重要。因而,筆者采用的是TF-IDF(termfrequency–inverse document frequency)的關(guān)鍵詞提取方法:


它用以評(píng)估一字/詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度,字/詞的重要性會(huì)隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。


由此可見(jiàn),在提取某段文本的關(guān)鍵信息時(shí),關(guān)鍵詞提取較詞頻統(tǒng)計(jì)更為可取,能提取出對(duì)某段文本具有重要意義的關(guān)鍵詞。


下面是筆者利用jieba在經(jīng)預(yù)處理后的、近400MB的語(yǔ)料中抽取出的TOP100關(guān)鍵詞。



 

 

 

從宏觀角度來(lái)看,從上面可以明顯的識(shí)別出3類關(guān)鍵詞:


公司品牌類:虎嗅網(wǎng)、蘋(píng)果、騰訊、蘋(píng)果、小米等;

行業(yè)領(lǐng)域類:行業(yè)、電商、游戲、投資、廣告、人工智能、智能手機(jī)等;

創(chuàng)業(yè)、商業(yè)模式類:模式、創(chuàng)新、業(yè)務(wù)、運(yùn)營(yíng)、流量、員工等。


從微觀角度來(lái)看,居于首要位置的是“用戶”,互聯(lián)網(wǎng)從業(yè)者放在嘴邊的是“用戶為王”、“用戶至上”和“以用戶為中心”,然后是“平臺(tái)”和“企業(yè)”。


筆者選取TOP500關(guān)鍵詞來(lái)繪制關(guān)鍵詞云。因?yàn)榛⑿岬拿謥?lái)源于英國(guó)當(dāng)代詩(shī)人Siegfried Sassoon的著名詩(shī)句“In me the tigersniffs the rose(心有猛虎,細(xì)嗅薔薇),所以詞云以“虎嗅薔薇”為背景,找不到合適的虎嗅薔薇的畫(huà)面,于是用它的近親貓作為替代,詞云如下:



 

 

4.2 LDA主題模型分析


剛才針對(duì)關(guān)鍵詞的分類較為粗略,且人為劃分,難免有失偏頗,達(dá)不到全面的效果。因此,筆者采用LDA主題模型來(lái)發(fā)現(xiàn)該語(yǔ)料中的潛在主題。關(guān)于LDA主題模型的相關(guān)原理,請(qǐng)參看《【干貨】用大數(shù)據(jù)文本挖掘,來(lái)洞察“共享單車”的行業(yè)現(xiàn)狀及走勢(shì)》的第4部分。


一般情況下,筆者將主題的數(shù)量設(shè)定為10個(gè),經(jīng)過(guò)數(shù)小時(shí)的運(yùn)行,得到如下結(jié)果:



 

可以看出,經(jīng)過(guò)文本預(yù)處理后的語(yǔ)料比較純凈,通過(guò)每個(gè)主題下的“主題詞”,可以很容易的從這10個(gè)簇群中辨析出若干主題,不過(guò),其中3個(gè)主題存在雜糅的情況(每個(gè)topic下包含2個(gè)主題),但這不影響筆者的后續(xù)分析,主題分類如下表所示:




 

 

電商&O2O: 該主題包含2個(gè)部分,即各大電商平臺(tái)(淘寶、京東等)上的零售;O2O(Online線上網(wǎng)店Offline線下消費(fèi)),商家通過(guò)免費(fèi)開(kāi)網(wǎng)店將商家信息、商品信息等展現(xiàn)給消費(fèi)者,消費(fèi)者在線上進(jìn)行篩選服務(wù),并支付,線下進(jìn)行消費(fèi)驗(yàn)證和消費(fèi)體驗(yàn)。


巨頭戰(zhàn)略:主要是國(guó)內(nèi)BAT三家的營(yíng)收、融資、并購(gòu),以及涉足互聯(lián)網(wǎng)新領(lǐng)域方面的資訊。


用戶&社交:主要涉及用戶和社會(huì)化媒體(微博、QQ、微信、直播平臺(tái)等)方面的資訊。


創(chuàng)業(yè):涉及創(chuàng)業(yè)人、創(chuàng)新模式、創(chuàng)業(yè)公司等一切關(guān)于創(chuàng)業(yè)的話題,令筆者印象最為深刻的是創(chuàng)業(yè)維艱。


人工智能:進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,各類線上數(shù)據(jù)的不斷積累和硬件技術(shù)的突飛猛進(jìn),大數(shù)據(jù)時(shí)代已然來(lái)臨,隨之而來(lái)的還有人工智能,該領(lǐng)域是時(shí)下國(guó)內(nèi)外IT巨頭角逐的焦點(diǎn)。


智能手機(jī):智能手機(jī)的普及是移動(dòng)互聯(lián)網(wǎng)時(shí)代興起的催化劑之一,2012年以來(lái),“東風(fēng)(國(guó)內(nèi)智能手機(jī)企業(yè))”逐漸壓倒“西風(fēng)(國(guó)外智能手機(jī)企業(yè))”,國(guó)產(chǎn)智能手機(jī)品牌整體崛起,蘋(píng)果、小米和錘子的每一次手機(jī)發(fā)布會(huì)總能在互聯(lián)網(wǎng)界引起一片熱議。


影視娛樂(lè):影視文化產(chǎn)業(yè)作為政策力挺、利潤(rùn)巨大的行業(yè),吸引著無(wú)數(shù)資本的目光。在金融資本與電影產(chǎn)業(yè)碰撞出“火花”的背后,是中國(guó)影視消費(fèi)市場(chǎng)的快速崛起。國(guó)外好萊塢大片的不斷引進(jìn)和票房屢創(chuàng)新高,直接刺激著國(guó)內(nèi)影視從業(yè)者提升自身的編劇和制片水平,由此誕生了一大批影視佳作,如近三年來(lái)的《夏洛特?zé)馈?、《湄公河行?dòng)》、《戰(zhàn)狼2》。


互聯(lián)網(wǎng)金融:互聯(lián)網(wǎng)金融(ITFIN)是指?jìng)鹘y(tǒng)金融機(jī)構(gòu)與互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)和信息通信技術(shù)實(shí)現(xiàn)資金融通、支付、投資和信息中介服務(wù)的新型金融業(yè)務(wù)模式。2011年以來(lái)至今,互聯(lián)網(wǎng)金融所經(jīng)歷的是突飛猛進(jìn)的實(shí)質(zhì)性的金融業(yè)務(wù)發(fā)展階段,在這個(gè)過(guò)程中,國(guó)內(nèi)互聯(lián)網(wǎng)金融呈現(xiàn)出多種多樣的業(yè)務(wù)模式和運(yùn)行機(jī)制。該主題下,第三個(gè)主題詞“樂(lè)視”赫然在目,從2014年年底賈躍亭宣布樂(lè)視“SEE計(jì)劃“到2017年10月中旬,樂(lè)視網(wǎng)巨虧16億,賈躍亭財(cái)富縮水400億也不到3年,“眼看他起朱樓,眼看他宴賓客…“


無(wú)人駕駛:無(wú)人駕駛是通過(guò)人工智能系統(tǒng)實(shí)現(xiàn)無(wú)人駕駛的智能汽車,它在本世紀(jì)尤其是近5年呈現(xiàn)出接近實(shí)用化的趨勢(shì),比如,谷歌自動(dòng)駕駛汽車于2012年5月獲得了美國(guó)首個(gè)自動(dòng)駕駛車輛許可證,現(xiàn)在特斯拉的無(wú)人駕駛汽車已經(jīng)在市場(chǎng)上在銷售。隨著技術(shù)上和硬件上的不斷進(jìn)步,它日趨成熟,成為國(guó)內(nèi)互聯(lián)網(wǎng)巨頭的都想要摘得的桂冠。


游戲&IP:網(wǎng)絡(luò)游戲被指是除了互聯(lián)網(wǎng)金融之外撈金指數(shù)最強(qiáng)勁的互聯(lián)網(wǎng)行業(yè),從最近"王者榮耀"成都主創(chuàng)團(tuán)隊(duì)年終獎(jiǎng)事件的引爆就能看出端倪,更不用說(shuō)時(shí)下的流行語(yǔ)“吃雞”了;同時(shí),隨著互聯(lián)網(wǎng)IP產(chǎn)業(yè)的不斷深化發(fā)展,體育、娛樂(lè)、文學(xué)等領(lǐng)域?qū)Π鏅?quán)和IP的重視程度越來(lái)越高,當(dāng)下的互聯(lián)網(wǎng)+時(shí)代,IP更是呈現(xiàn)了多元化的發(fā)展形勢(shì)。


以下是上述各個(gè)話題在這4W多篇文章中的占比情況,可以明顯的看出,虎嗅首頁(yè)上的文章對(duì)互聯(lián)網(wǎng)行業(yè)各大巨頭的行業(yè)動(dòng)向報(bào)道較多,其次是不斷崛起的影視娛樂(lè),除了無(wú)人駕駛方面的報(bào)道偏少以外,其他主題方面的文章的報(bào)道量差異不大,比較均衡。



 

 

 

再次是各主題的文章數(shù)量在時(shí)間上的變化情況:



 

上圖中,我們可以明顯的看出“巨頭戰(zhàn)略”這一話題的首頁(yè)發(fā)文量始終維持在一個(gè)較高的水平,其次是“人工智能”的話題,它在虎嗅網(wǎng)主頁(yè)2013年第一季度出現(xiàn)一個(gè)報(bào)道小高潮。值得注意的是,“互聯(lián)網(wǎng)金融”在2014年第3個(gè)季度的報(bào)道量較大,從中可以獲悉這個(gè)階段的互聯(lián)網(wǎng)金融正處于一個(gè)爆發(fā)的階段,這個(gè)時(shí)段互金行業(yè)的重大事件有:小米投資積木盒子進(jìn)軍互聯(lián)網(wǎng)金融(9.10)、京東發(fā)布消費(fèi)金融戰(zhàn)略(9.24)、螞蟻金服集團(tuán)成立(10.16),以及整個(gè)2014年是“眾籌元年”,P2P步入洗牌季、以及央行密集令直指監(jiān)管互聯(lián)網(wǎng)金融,這些事件或政策都足以引發(fā)互聯(lián)網(wǎng)界人士的熱議,造成這一時(shí)段聲量的驟然升起。


4.3 情緒分析&LDA主題模型交叉分析


結(jié)合上述LDA主題模型分析的結(jié)果,筆者使用新浪微輿情的情緒語(yǔ)義分析模型(該模型有6類情緒,即喜悅、憤怒、悲傷、驚奇、恐懼和中性),對(duì)這些文章的標(biāo)題進(jìn)行情緒分析,得出各個(gè)文章的情緒標(biāo)簽,處理結(jié)果如下表所示:


(右擊查看大圖)

 

將主題和情緒維度進(jìn)行交叉分析,得出下圖:



 

 

 

從上圖中可以看出,各個(gè)主題下的標(biāo)題的情緒以中性為主,凸顯作者和官方的客觀和中立態(tài)度,但是在現(xiàn)今標(biāo)題黨橫行和全民重口味的時(shí)代,擬標(biāo)題上的過(guò)分中立也意味著平淡無(wú)奇,難以觸發(fā)讀者的閱讀行為,正所謂“有性格的品牌,有情緒的營(yíng)銷”,能成功挑起讀者情緒的作者絕對(duì)是高手,所以,在上圖中除了中性情緒外,居于第二位的是憤怒,狂撕狂懟,點(diǎn)燃讀者的情緒;再次是悲傷,在現(xiàn)實(shí)生活中,傷感總能引起同情與共鳴。


4.4 ATM模型


在這個(gè)部分,筆者想了解“虎嗅網(wǎng)上各個(gè)作家的寫(xiě)作主題,分析某些牛X作家喜歡寫(xiě)哪方面的文章(比如“行業(yè)洞察”、“爆品營(yíng)銷”、“新媒體運(yùn)營(yíng)”等),以及寫(xiě)作主題類似的作者有哪些。


為此,筆者采用了ATM模型進(jìn)行分析,注意,這不是自動(dòng)取款機(jī)的縮寫(xiě),而是author-topicmodel:


ATM模型(author-topic model)也是“概率主題模型”家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對(duì)某個(gè)語(yǔ)料庫(kù)中作者的寫(xiě)作主題進(jìn)行分析,找出某個(gè)作家的寫(xiě)作主題傾向,以及找到具有同樣寫(xiě)作傾向的作家,它是一種新穎的主題探索方式。


首先,筆者去除若干發(fā)布文章數(shù)為1的作者,再?gòu)奈谋局小拔龀觥比舾芍黝},因?yàn)槲谋緮?shù)量有刪減,所以跟之前的主題劃分不太一致。根據(jù)各個(gè)主題下的主題詞特征,筆者將這10個(gè)主題歸納為 :“行業(yè)新聞”、“智能手機(jī)”、“創(chuàng)業(yè)&投融資”、“互聯(lián)網(wǎng)金融”、“新媒體&營(yíng)銷”、“影視娛樂(lè)”、“人工智能”、“社會(huì)化媒體”、“投融資&并購(gòu)”和“電商零售”。



 

 

接下來(lái),筆者將會(huì)對(duì)一些自己感興趣的作者的寫(xiě)作主題及其相關(guān)作者進(jìn)行一定的分析。


首先是錘子科技的創(chuàng)始人羅永浩,筆者一直認(rèn)為他是一個(gè)奇人,之前看到他在虎嗅網(wǎng)上有署名文章,所以想看他在虎嗅網(wǎng)上寫(xiě)了啥:



 

從老羅的寫(xiě)作主題及其概率分布來(lái)看,他比較傾向于寫(xiě)創(chuàng)業(yè)、融資、智能手機(jī)和新媒體營(yíng)銷方面的文章,這個(gè)比較符合大眾認(rèn)知,因?yàn)樯拼蚯閼雅频睦狭_喜歡談創(chuàng)業(yè)、談自己對(duì)于手機(jī)的理解,而且由于自己鮮明的個(gè)性和犀利的語(yǔ)言,他常常在為自己的錘子品牌代言。


根據(jù)文檔ID,筆者找到了他發(fā)布的這幾篇文章:



 

單看標(biāo)題,ATM模型還是蠻聰明的,能從老羅的文章中學(xué)習(xí)到了他的寫(xiě)作主題。


接下來(lái)是寫(xiě)作主題與老羅相近的虎嗅網(wǎng)作家,他們的發(fā)布文章數(shù)大于3篇:



 

接下來(lái)是虎嗅自己的媒體,主頁(yè)上發(fā)文量破萬(wàn),所涉及的寫(xiě)作主題集中在“行業(yè)新聞”、“智能手機(jī)”和“新媒體&營(yíng)銷”:



 

與其寫(xiě)作主題類似的作者除了一些個(gè)人自媒體人,還包括一些媒體,如環(huán)球網(wǎng)、財(cái)富中文網(wǎng)、彭博商業(yè)周刊等。從前面的分析中可以推測(cè)出,他們?cè)谏鲜?個(gè)話題上的發(fā)文量也比較大。



 

在這10,189篇文章里,筆者按文檔ID隨機(jī)抽取出其中的若干篇文章的標(biāo)題,粗略驗(yàn)證下。然后,把這些標(biāo)題繪制成獨(dú)角獸形狀的詞云。

 



 

 

由上面的標(biāo)題及其關(guān)鍵詞云,預(yù)測(cè)的主題還是比較合理的。


再看看另外兩個(gè)筆者比較感興趣的自媒體---混沌大學(xué)和21世紀(jì)經(jīng)濟(jì)報(bào)道。




 

 

從上面2個(gè)圖可以看出,混沌大學(xué)關(guān)注的領(lǐng)域主要是“創(chuàng)業(yè)&投融資”、“新媒體&營(yíng)銷”方面的話題,偏向于為創(chuàng)業(yè)者提供創(chuàng)業(yè)相關(guān)的技能;而21世紀(jì)經(jīng)濟(jì)報(bào)道則更青睞“投融資&并購(gòu)”、“行業(yè)新聞”和“智能手機(jī)”方面的話題,這比較符合該媒體的報(bào)道風(fēng)格---分析國(guó)際形式、透視中國(guó)經(jīng)濟(jì)、觀察行業(yè)動(dòng)態(tài)和引導(dǎo)良性發(fā)展,有效地反映世界經(jīng)濟(jì)格局及變化,跟蹤報(bào)道中國(guó)企業(yè)界的動(dòng)態(tài)與發(fā)展。


4.5 詞匯分散圖


接下來(lái),筆者想了解虎嗅網(wǎng)主頁(yè)這4W+文章中的某些詞匯在2012.05~2017.11之間的數(shù)量分布和他們的位置信息(the locationof a word in the text),這時(shí)可以利用Lexical dispersion plot(詞匯分散圖)進(jìn)行分析,它可以揭示某個(gè)詞匯在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。


筆者先將待分析的文本按時(shí)間順序進(jìn)行排列,分詞后再進(jìn)行Lexical DispersionPlot分析。因此,文本字?jǐn)?shù)的累積增長(zhǎng)方向與時(shí)間正向推移的方向一致。圖中縱軸表示詞匯,橫軸是文本字?jǐn)?shù),是累加的;藍(lán)色豎線表示該詞匯在文本中被提及一次,對(duì)應(yīng)橫軸能看到它所處的位置信息,空白則表示無(wú)提及。藍(lán)色豎線的密集程度及起位置代表了該詞匯在某一階段的提及頻次和所在年月。


從上面的關(guān)鍵詞和主題詞中,筆者挑揀出14個(gè)詞匯進(jìn)行分析,結(jié)果如下:



 

從上圖中可以看出,“智能手機(jī)”、“移動(dòng)支付”、“O2O”和“云計(jì)算”這4個(gè)詞在近6年的熱度居高不下,提及頻次很高,在條柱上幾近飽和。相較之下,“互聯(lián)網(wǎng)教育”、“3D打印”、“在線直播”這些在虎嗅網(wǎng)上的報(bào)道量不大,從始至終只是零零星星的有些提及。


值得注意的是,“共享單車”在后期提及次數(shù)顯著增加,而且是爆發(fā)式的出現(xiàn),這與共享單車出現(xiàn)比較吻合,關(guān)于共享單車方面的數(shù)據(jù)分析,請(qǐng)參看《【干貨】用大數(shù)據(jù)文本挖掘,來(lái)洞察“共享單車”的行業(yè)現(xiàn)狀及走勢(shì)》。


4.6 詞向量/關(guān)聯(lián)詞分析---當(dāng)我們談?wù)揦X時(shí) 我們?cè)谡務(wù)撌裁?/span>


基于深度神經(jīng)網(wǎng)絡(luò)的詞向量能從大量未標(biāo)注的普通文本數(shù)據(jù)中無(wú)監(jiān)督地學(xué)習(xí)出詞向量,這些詞向量包含了詞匯與詞匯之間的語(yǔ)義關(guān)系,正如現(xiàn)實(shí)世界中的“物以類聚,類以群分”一樣,詞匯可以由它們身邊的詞匯來(lái)定義(Words can be defined by the company they keep)。


從原理上講,基于詞嵌入的Word2vec是指把一個(gè)維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個(gè)維數(shù)低得多的連續(xù)向量空間中,每個(gè)單詞或詞組被映射為實(shí)數(shù)域上的向量。把每個(gè)單詞變成一個(gè)向量,目的還是為了方便計(jì)算,比如“求單詞A的同義詞”,就可以通過(guò)“求與單詞A在cos距離下最相似的向量”來(lái)做到。


接下來(lái),通過(guò)Word2vec,筆者查找出自己感興趣的若干詞匯的關(guān)聯(lián)詞,從而在虎嗅網(wǎng)的這個(gè)獨(dú)特語(yǔ)境下去解讀它們。


由此,筆者依次對(duì)“百度”、“人工智能”、“褚時(shí)健”和“羅振宇”這幾個(gè)關(guān)鍵詞進(jìn)行關(guān)聯(lián)詞分析。



 

 

出來(lái)的都是與百度相關(guān)的詞匯,不是百度的產(chǎn)品、公司,就是百度的CEO和管理者,“搜索”二字變相的出現(xiàn)了很多次,它是百度起家的一大法寶。



 

與“AI”相關(guān)的詞匯也是很好的解釋了人工智能的細(xì)分領(lǐng)域和目前比較火的幾個(gè)應(yīng)用場(chǎng)景。



 

與褚時(shí)健一樣,相關(guān)詞中前幾位名人(牛根生、胡雪巖、魯冠球、王永慶和宗慶后)也是名噪一時(shí)的商業(yè)精英,“老爺子”、“褚老”、“橙王”是外界對(duì)其的尊稱。有意思的是,褚老也有一些政治人物(毛主席和蔣委員長(zhǎng))那樣的英雄氣概,其人其事大有“東隅已逝,桑榆非晚”、“待從頭,收拾舊山河”的豁達(dá)精神和樂(lè)觀主義!



 

再就是資深媒體人和傳播專家羅振宇了,“知識(shí)變現(xiàn)”的踐行者,他的許多見(jiàn)解都能顛覆群眾原有的觀念。與羅胖相類似的人還有申音(互聯(lián)網(wǎng)真人秀《怪杰》的創(chuàng)始人和策劃人,羅振宇的創(chuàng)業(yè)伙伴)、吳曉波(吳曉波頻道和社群的創(chuàng)始人)、Papi醬(知名搞笑網(wǎng)紅)、馬東(現(xiàn)“奇葩說(shuō)”主持人)、李翔(得到APP上《李翔商業(yè)內(nèi)參》的推出者)、姬十三(果殼網(wǎng)創(chuàng)始人)、李笑來(lái)(財(cái)務(wù)自由知名布道者)、吳伯凡(詞沒(méi)切全,《21世紀(jì)商業(yè)評(píng)論》發(fā)行人,作品有《冬吳相對(duì)論》和《伯凡日知錄》)…


4.7 對(duì)互聯(lián)網(wǎng)百?gòu)?qiáng)公司旗下品牌的詞聚類與詞分類


2016年互聯(lián)網(wǎng)百?gòu)?qiáng)企業(yè)的互聯(lián)網(wǎng)業(yè)務(wù)收入總規(guī)模達(dá)到1.07萬(wàn)億元,首次突破萬(wàn)億大關(guān),同比增長(zhǎng)46.8%,帶動(dòng)信息消費(fèi)增長(zhǎng)8.73%。數(shù)據(jù)顯示,互聯(lián)網(wǎng)領(lǐng)域龍頭企業(yè)效應(yīng)越來(lái)越明顯,對(duì)他們的研究分析能幫助我們更好的了解中國(guó)互聯(lián)網(wǎng)行業(yè)的發(fā)展概況和未來(lái)方向。


筆者在這里選取2016年入選的互聯(lián)網(wǎng)百?gòu)?qiáng)企業(yè),名單如下:



 

 

對(duì)于上述百?gòu)?qiáng)互聯(lián)網(wǎng)公司的旗下品牌名錄,筆者利用上面訓(xùn)練出來(lái)的詞向量模型,用來(lái)進(jìn)行下面的詞聚類和詞分類。


4.7.1 詞聚類


運(yùn)用基于Word2Vec(詞向量)的K-Means聚類,充分考慮了詞匯之間的語(yǔ)義關(guān)系,將余弦?jiàn)A角值較小的詞匯聚集在一起,形成簇群。下圖是高維詞向量壓縮到2維空間的可視化呈現(xiàn):

 

 



 

筆者將詞向量模型中所包含的所有詞匯劃定為300個(gè)類別,看看這種設(shè)定下的品牌聚類效果如何。分析結(jié)果和規(guī)整如下所示:




 

 

從上述結(jié)果來(lái)看,有些分類是比較好理解的,如途風(fēng)(網(wǎng))和驢媽媽旅游網(wǎng),都是做旅游的,人人貸、陸金所和拍拍貸是搞互金的,這些詞匯是在“行業(yè)的語(yǔ)境”里出現(xiàn)的次數(shù)較多,基于同義關(guān)系聚類在一起,同屬一個(gè)行業(yè)。但其中大多數(shù)的聚類不是按行業(yè)來(lái)的,而是其他的語(yǔ)境中出現(xiàn),且看下面這兩段話:


第一波人口紅利是從2011年開(kāi)始的,這波人口是原來(lái)核心的三億重度互聯(lián)網(wǎng)網(wǎng)民,或者簡(jiǎn)單地說(shuō),是那個(gè)年代去買小米手機(jī)和iPhone的這波用戶,當(dāng)然也包括三星。他們是一二線城市里邊比較偏年輕的這些人口。所以你看包括我們自己投資的美圖、知乎、今日頭條、小米都是跟著這波人口起來(lái)的。


第二波人口是從2013年、2014年開(kāi)始發(fā)生的,這波人口是什么?這波人口實(shí)際上是移動(dòng)互聯(lián)網(wǎng)往三四線城市下沉造成的人口紅利,是二三四線城市里面比較年輕的人口。大家簡(jiǎn)單想一下買OPPO、ViVO手機(jī)的人。這波紅利帶來(lái)了包括快手、映客等一系列的興起,包括微博的二次崛起。


上面加粗加黑的品牌雖然不同屬一個(gè)行業(yè),但都出現(xiàn)在“移動(dòng)互聯(lián)網(wǎng)的人口紅利”的語(yǔ)境中,所以單從這個(gè)語(yǔ)境來(lái)說(shuō),它們可以聚為一類。


所以,上述的聚類可能是由于各類詞匯出現(xiàn)在不同的語(yǔ)境中,深挖的話,或許能發(fā)現(xiàn)到若干有趣的線索。篇幅所限,這個(gè)就留給有好奇心的讀者來(lái)完成吧。


4.7.2 詞分類


在這里,筆者還是利用之前訓(xùn)練得出的詞向量,通過(guò)基于CNN( ConvolutionalNeural Networks,卷積神經(jīng)網(wǎng)絡(luò))做文本分類,用來(lái)預(yù)測(cè)。CNN的具體原理太過(guò)復(fù)雜,筆者在這里不做贅述,感興趣的小伙伴可以查閱后面的參考資料。



 

 

由于文本分類(Text Classification)跟上面的文本聚類(Text Cluster)在機(jī)器學(xué)習(xí)中分屬不同的任務(wù),前者是有監(jiān)督的學(xué)習(xí)(所有訓(xùn)練數(shù)據(jù)都有標(biāo)簽),后者是無(wú)監(jiān)督的學(xué)習(xí)(數(shù)據(jù)沒(méi)有標(biāo)簽),因而,筆者在正式的文本分類任務(wù)開(kāi)始前,先用有標(biāo)注的語(yǔ)料訓(xùn)練模型,再來(lái)預(yù)測(cè)后續(xù)的未知的文本。


在這里,筆者根據(jù)互聯(lián)網(wǎng)企業(yè)所屬細(xì)分領(lǐng)域的不同,劃分為17個(gè)類別,每個(gè)類別只有很少的標(biāo)注語(yǔ)料參與訓(xùn)練,也就是幾個(gè)詞罷了。對(duì),你沒(méi)看錯(cuò),借助外部語(yǔ)義信息(之前訓(xùn)練好的詞向量模型,已經(jīng)包含有大量的語(yǔ)義信息),你只需要少許的標(biāo)注語(yǔ)料就可以完成分類模型的訓(xùn)練。



 

接著,筆者用之前未出現(xiàn)在訓(xùn)練語(yǔ)料中的詞來(lái)檢驗(yàn)效果,出來(lái)的結(jié)果是類別標(biāo)簽及其對(duì)應(yīng)的概率,概率值大的類別是品牌最有可能從屬的細(xì)分領(lǐng)域。結(jié)果如下圖所示:




 

 

 

 

上述的結(jié)果都符合大家的基本認(rèn)知,小規(guī)模測(cè)試下,準(zhǔn)確率尚可,最后來(lái)一個(gè)難度大一點(diǎn)的,國(guó)外一家筆者從未知曉的互聯(lián)網(wǎng)公司:



 

通過(guò)Google,筆者了解到Waze是以色列一家做眾包導(dǎo)航地圖的科技公司。前一段時(shí)間火了一把,被Google 10億美元收購(gòu)了。其產(chǎn)品雖然沒(méi)有Google地圖那樣強(qiáng)大的衛(wèi)星圖片作支撐,但是可以向用戶社區(qū)提供有關(guān)交通狀況、交通事故以及測(cè)速區(qū)等實(shí)時(shí)信息(地圖彈幕即視感)。“眾包”和“實(shí)時(shí)信息”分別對(duì)應(yīng)“共享經(jīng)濟(jì)”和“即時(shí)通訊”,比較符合預(yù)測(cè)標(biāo)簽所表征的內(nèi)涵,能在一定程度上預(yù)測(cè)出該企業(yè)的業(yè)務(wù)屬性。


4.8 互聯(lián)網(wǎng)百?gòu)?qiáng)公司的共現(xiàn)分析


上面所做的關(guān)于互聯(lián)網(wǎng)百?gòu)?qiáng)公司的聚類分析和分類分析,看起來(lái)是“黑匣子”,其內(nèi)在的機(jī)理,我們不太容易理解。接下來(lái),筆者將基于“圖論”來(lái)做品牌共現(xiàn)分析,從網(wǎng)絡(luò)的角度來(lái)分析百?gòu)?qiáng)企業(yè)品牌之間的關(guān)聯(lián)關(guān)系。


提取出上述百?gòu)?qiáng)企業(yè)品牌的相互共現(xiàn)關(guān)系,形成如下的社交網(wǎng)絡(luò)圖:



 

上圖中,每個(gè)節(jié)點(diǎn)代表一個(gè)人物,線條粗細(xì)代表品牌與品牌之間的強(qiáng)弱鏈接關(guān)系,相同顏色的節(jié)點(diǎn)表示它們(在某種條件下)同屬于一類。節(jié)點(diǎn)及字體的大小表示品牌在網(wǎng)絡(luò)中的影響力大小,也就是“Betweenness Centrality(中介核心性),”學(xué)術(shù)的說(shuō)法是“兩個(gè)非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對(duì)這兩個(gè)非鄰接成員的相互作用具有某種控制和制約作用”。說(shuō)人話就是,更大的影響力就意味著該品牌鏈接了更多的合作機(jī)會(huì)和資源,以及涉足更多的互聯(lián)網(wǎng)領(lǐng)域。


先看里面影響力TOP10,依次是騰訊、微信、百度、QQ、阿里巴巴、淘寶、京東、小米、網(wǎng)易和新浪微博,“騰訊系”在10強(qiáng)里占據(jù)了3個(gè)席位,實(shí)力強(qiáng)大,可見(jiàn)一斑。


再看由顏色區(qū)分出的6個(gè)簇群:


淡藍(lán)系:騰訊、微信、百度、QQ、網(wǎng)易、搜狐…

洋紅系:阿里巴巴、淘寶、京東、新浪微博、天貓…

深綠系:小米、多看、MIUI、天翼閱讀…

淺綠系:樂(lè)居、房天下

明黃系:人人貸、拍拍貸

黃橙系:汽車之家、易車網(wǎng)、易湃


上述的分類,大部分是好理解的,? 淺綠系(樂(lè)居、房天下)是做房產(chǎn)的,明黃系(人人貸、拍拍貸)是搞互聯(lián)網(wǎng)P2P金融的,而黃橙系(汽車之家、易車網(wǎng)、易湃)是互聯(lián)網(wǎng)汽車領(lǐng)域的品牌。


值得注意的是,深綠系的小米、多看、MIUI、天翼閱讀,以小米為中心MIUI是小米的產(chǎn)品,多看(閱讀)已經(jīng)被小米收購(gòu),天翼閱讀一度是小米捆綁的閱讀軟件,然而,蝸牛游戲就跟前幾個(gè)不同,有一篇文章的標(biāo)題是這樣的:“蝸牛發(fā)布移動(dòng)戰(zhàn)略,石海:不做小米第二”,它是小米在移動(dòng)游戲領(lǐng)域的對(duì)手…


此外,淡藍(lán)系(騰訊、微信、百度、QQ、網(wǎng)易、搜狐等)和洋紅系(阿里巴巴、淘寶、京東、新浪微博、天貓等)這兩個(gè)簇群中,品牌與品牌之間的關(guān)系就比較復(fù)雜了,子母公司、兄弟品牌、跨界合作、競(jìng)對(duì)關(guān)系、跨界競(jìng)爭(zhēng)、融資及兼并,上述情況,在這兩類簇群中或可兼而有之。


結(jié)語(yǔ)


在本文的文本挖掘部分,涉及到人工智能/AI這塊的內(nèi)容---關(guān)鍵詞提取、LDA主題模型、ATM模型屬于機(jī)器學(xué)習(xí),情緒分析、詞向量、詞聚類和詞分類涉及到深度學(xué)習(xí)方面的知識(shí),這些都是AI 在數(shù)據(jù)分析中的真實(shí)運(yùn)用。


此外,本文是探索性質(zhì)的數(shù)據(jù)分析干貨文,不是數(shù)據(jù)分析報(bào)告,重在啟迪思路,授人以漁,得出具體的結(jié)論不是本文的目的,對(duì)結(jié)果的分析分散在各個(gè)部分,“文末結(jié)論控”不喜勿噴。

 

參考資料:

1.數(shù)據(jù)來(lái)源:虎嗅網(wǎng)主頁(yè),2012.05-2017.11

2.蘇格蘭折耳喵,《數(shù)據(jù)運(yùn)營(yíng)|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要!(上)》

3.蘇格蘭折耳喵,《在運(yùn)營(yíng)中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》

4.蘇格蘭折耳喵,《干貨|如何利用Social Listening從社會(huì)化媒體中“提煉”有價(jià)值的信息?》

5.蘇格蘭折耳喵,《干貨|作為一個(gè)合格的“增長(zhǎng)黑客”,你還得重視外部數(shù)據(jù)的分析!》

6.蘇格蘭折耳喵,《以《大秦帝國(guó)之崛起》為例,來(lái)談大數(shù)據(jù)輿情分析和文本挖掘》

7.蘇格蘭折耳喵,《【干貨】用大數(shù)據(jù)文本挖掘,來(lái)洞察“共享單車”的行業(yè)現(xiàn)狀及走勢(shì)》

8.Word2vec維基百科詞條,https://en.wikipedia.org/wiki/Word2vec

9.“工信部發(fā)2016年中國(guó)互聯(lián)網(wǎng)企業(yè)100強(qiáng)名單”,http://tech.163.com/16/0712/18/BRPTFD6E00097U7R.html

10.宗成慶,《自然語(yǔ)言理解:(06)詞法分析與詞性標(biāo)注》,中科院

11.UnderstandingConvolutional Neural Networks for NLP ,http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp

12.Yoon Kim,Convolutional Neural Networks for Sentence Classification

13. Hoffman, Blei, Bach. 2010. Online learning for LatentDirichlet Allocation

14.TomasMikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

15.TomasMikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. DistributedRepresentations of Words and Phrases and their Compositionality. In Proceedingsof NIPS, 2013.



作者: 蘇格蘭折耳喵

來(lái)源:運(yùn)營(yíng)喵是怎樣煉成的(ID:yymzylc)

本文為作者授權(quán)鳥(niǎo)哥筆記發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系作者并注明出處。

 

運(yùn)營(yíng)那些事兒
分享到朋友圈
收藏
收藏
評(píng)分

綜合評(píng)分:

我的評(píng)分
Xinstall 15天會(huì)員特權(quán)
Xinstall是專業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來(lái)源、裂變拉新統(tǒng)計(jì)、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計(jì)、APP地推與CPS/CPA歸屬統(tǒng)計(jì)等方面。
20羽毛
立即兌換
一書(shū)一課30天會(huì)員體驗(yàn)卡
領(lǐng)30天VIP會(huì)員,110+門職場(chǎng)大課,250+本精讀好書(shū)免費(fèi)學(xué)!助你提升職場(chǎng)力!
20羽毛
立即兌換
順豐同城急送全國(guó)通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時(shí)送全城的即時(shí)快送服務(wù),專業(yè)安全,準(zhǔn)時(shí)送達(dá)!
30羽毛
立即兌換
運(yùn)營(yíng)那些事兒
運(yùn)營(yíng)那些事兒
發(fā)表文章43451
確認(rèn)要消耗 羽毛購(gòu)買
【干貨收藏】以虎嗅網(wǎng)4W篇文章為例,展現(xiàn)數(shù)據(jù)分析全流程嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開(kāi)放、真實(shí)、專業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對(duì)憲法所確定的基本原則;
    2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
    4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
    5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
    6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
    7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
    8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
    10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
    11)通過(guò)網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
    2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
    3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來(lái)激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
    6)謾罵:以不文明的語(yǔ)言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
    7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來(lái)迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點(diǎn)擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購(gòu)買或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營(yíng)銷內(nèi)容,如通過(guò)偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷;
    8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。


5. 不實(shí)信息,主要表現(xiàn)為:
    1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
    2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過(guò)頭像、用戶名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治??;
    2)求推薦算命看相大師;
    3)針對(duì)具體風(fēng)水等問(wèn)題進(jìn)行求助或咨詢;
    4)問(wèn)自己或他人的八字、六爻、星盤(pán)、手相、面相、五行缺失,包括通過(guò)占卜方法問(wèn)婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;


7. 文章標(biāo)題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來(lái)誘導(dǎo)用戶;
    2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
    3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂(lè)等行為
    4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
    5)通過(guò)「蹭熱點(diǎn)」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
    4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過(guò)主動(dòng)發(fā)現(xiàn)和接受用戶舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過(guò)作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。


三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過(guò)「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對(duì)了
+5羽毛
下一次認(rèn)真讀哦
成功推薦給其他人
+ 10羽毛
評(píng)論成功且進(jìn)入審核!審核通過(guò)后,您將獲得10羽毛的獎(jiǎng)勵(lì)。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接