chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
大數(shù)據(jù)報告:百萬知乎用戶分析
2017-07-28 13:24:31

最近用 python 爬蟲抓取了知乎用戶個人資料(公開信息),去重之后有300+萬條記錄,為了得到這些數(shù)據(jù),還不小心跑崩了一臺服務(wù)器…… 當(dāng)然主要是配置太低。

手頭有了數(shù)據(jù)也不能閑著,于是就有了這篇分析報告,這篇報告做了一些淺顯的數(shù)據(jù)分析,主要目的是練練手,大家看個熱鬧,高手勿笑。

數(shù)據(jù)量:3,289,329 人。
數(shù)據(jù)采集工具:分布式 python 爬蟲
分析工具:ElasticSearch + Kibana
分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。

注意

以下所有分析結(jié)果都基于我抓取到的這300萬用戶的個人信息,非權(quán)威分析,僅供參考。
數(shù)據(jù)抓取時間為2017年7月份,用戶數(shù)據(jù)會隨著時間推移而變化,所以該報告具有一定時效性。
知乎的用戶個人資料很大程度上是不完整的,因為用戶有權(quán)只填寫部分信息,所以后面分析的時候會篩掉對應(yīng)指標為空的用戶。


下面讓我們看看知乎用戶分布中有哪些有趣的現(xiàn)象。

知乎的男女比例?

首先來看看知乎用戶的男女比例,以當(dāng)前樣本數(shù)據(jù)統(tǒng)計的結(jié)果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)


藍色為男生,紅色為女生。具體數(shù)據(jù)為:
男生:1,202,234 人,占 51.55%。
女生:1,129,874 人,占 48.45%。

知乎用戶都是哪里人?

再來看看全國(全球?)都有哪些地方的人在玩知乎:


由上圖可以看到,知乎用戶中一線城市用戶占較大的比重,北上廣深皆在詞云的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):


知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。

你可能發(fā)現(xiàn)了Y坐標里每座城市的用戶數(shù)并不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現(xiàn)用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。

知乎的職業(yè)分布?

以下顯示知乎主流職業(yè),同樣根據(jù)知乎用戶個人信息里填寫的職業(yè)為準:


由上圖可以看到,知乎用戶中學(xué)生用戶占據(jù)多數(shù),其它的比如產(chǎn)品經(jīng)理、程序員、運營、HR數(shù)量也不少。我們看一下具體的排名(前十名):


由上圖可以看到,知乎用戶中“學(xué)生”的比重獨占鰲頭,我們把“學(xué)生”去掉,來看看正經(jīng)些的知乎職業(yè)排名

去除學(xué)生后,知乎主流職業(yè)比重從大到小依次是(前十名):產(chǎn)品經(jīng)理、自由職業(yè)、程序員、工程師、設(shè)計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯(lián)網(wǎng)公司的常見職位外,教師和律師用戶在知乎中也占據(jù)不小的比重。

下面我們結(jié)合 性別居住地 來分析一下知乎的主流職業(yè)。

知乎主流職業(yè)的性別分布:


上面這張餅圖的內(nèi)圈表示各主流職業(yè)在前十名中所占的比重,外圈表示該職業(yè)從業(yè)者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:


同樣藍色代表男性,紅色代表女性,從左到右的職業(yè)在知乎中的數(shù)量依次下降??梢钥吹?,知乎大部分主流職業(yè)中主要為男性占主導(dǎo)。前 10 名的主流職業(yè)中有 8 個職業(yè)的男性從業(yè)者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設(shè)計師 男女比例差距最小,看來設(shè)計師從業(yè)人員男女比例較為均衡。其它的,比如產(chǎn)品經(jīng)理、自由職業(yè)者、律師中,均為男性從業(yè)者多于女性。而前 10 名剩下的 2 個職業(yè)——教師、人力資源(HR)——女性從業(yè)者要多于男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那么夸張,但女性也遠遠多于男性(也許是因為男性教師不怎么上知乎?)。

看完了知乎各職業(yè)的性別分布,我們再用一張熱力圖來觀察知乎主流職業(yè)(前五名)在各個地區(qū)的分布情況,顏色越深,代表該職業(yè)在該地區(qū)的人數(shù)越多:


這里我為了展示方便,去掉了產(chǎn)品經(jīng)理,你只需要知道產(chǎn)品經(jīng)理在各地人數(shù)都是最多的…… 不明白知乎上怎么這么多產(chǎn)品經(jīng)理,可能是為了方便宣傳他們的產(chǎn)品?

從上圖可以看出,知乎各主流職業(yè)大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業(yè),程序員分布最多的城市依次是:北京、上海、廣州、杭州、廈門。北京占得比重最大,簡直綠的發(fā)黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設(shè)計師分布最多的城市依次是:北京、上海、杭州、深圳、武漢。設(shè)計師的地區(qū)分布比較平均,各個城市都有一定數(shù)量。

知乎的高校用戶

知乎中學(xué)生用戶占很大的比重,我們來看看他們都來自哪些學(xué)校!詞云中字體越大,表示所占比重越大。


我們再列出詳細的比重排名:


以上展示的結(jié)果不一定準確,可能有很大一部分學(xué)生用戶沒有填寫自己的學(xué)校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學(xué)、武漢大學(xué)、華中科技大學(xué)、中山大學(xué)、北京大學(xué)、上海交通大學(xué)、復(fù)旦大學(xué)、南京大學(xué)、四川大學(xué)、清華大學(xué)。

既然分析到學(xué)校了,我們順便看看各高校的男女比例,嘿嘿。


發(fā)現(xiàn)一個有意思的現(xiàn)象,各高校大部分都是男生在玩知乎……

再看一下哪些高校在知乎獲得的贊數(shù)最多


第一是同濟大學(xué),土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學(xué),軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程尸培訓(xùn)基地,恩???這是什么鬼(黑人問號);繼續(xù)往后看,恩……??家里蹲大學(xué)???。∵€有一個蘭州大學(xué),牛肉面工藝專業(yè)???WHAT????!
知乎大佬都這么調(diào)皮嗎……

這個圖似乎不太準,大家忽略就好……

我們再來看看各地區(qū)有哪些高校是知乎重度用戶,顏色越深代表該學(xué)校的知乎用戶越多


北京玩知乎最多的高校依次是:北京大學(xué)、北京郵電大學(xué)、中國傳媒大學(xué)、中國人民大學(xué)、清華大學(xué)。
上海玩知乎最多的高校依次是:上海交通大學(xué)、復(fù)旦大學(xué)、同濟大學(xué)、上海大學(xué)、上海財經(jīng)大學(xué)。
杭州玩知乎最多的高校依次是:浙江大學(xué)、浙江工業(yè)大學(xué)、杭州電子科技大學(xué)、浙江大學(xué),計算機科學(xué)、浙江大學(xué),軟件工程。浙江大學(xué)是重度用戶啊……
成都玩知乎最多的高校依次是:電子科技大學(xué)、四川大學(xué)、西南交通大學(xué)、電子科技大學(xué),軟件工程、四川師范大學(xué)。
廣州玩知乎最多的高校依次是:中山大學(xué)(SYSU)、華南理工大學(xué)(SCUT)、華南農(nóng)業(yè)大學(xué)(SCAU)、廣東外語外貿(mào)大學(xué)、廣東工業(yè)大學(xué)。


我們再來看一下知乎各高校用戶的活躍程度,按每個學(xué)校用戶回答問題的總數(shù)排名:

排名依次是:武漢大學(xué)、浙江大學(xué)、中山大學(xué)、華南理工大學(xué)、北京大學(xué)、華中科技大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、西北農(nóng)林科技大學(xué)
好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。

知乎贊數(shù)最多的100位大V

下圖中詞云的字越大,表示收到的贊數(shù)越多:


我們再來一張直方圖,配合著看:


張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數(shù)前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。

知乎關(guān)注者最多的100位大V

下圖詞云的字越大,表示關(guān)注者越多,看看有沒有你熟悉的大V 呢?:


同樣我們配合著一張直方圖來看:


知乎關(guān)注人數(shù)最多的前10位大V依次是:張佳瑋、李開復(fù)、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關(guān)注者數(shù)量極多。關(guān)注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現(xiàn)在已經(jīng)有138萬粉絲。關(guān)注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。

知乎回答問題最多的100位大V

這些大V在知乎很活躍…… 下圖詞云文字越大,表示回答問題數(shù)量越多。


具體的排名為:


知乎回答問題數(shù)最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一只襪子、四海之內(nèi)、M3小蘑菇、kun yu、白貓轉(zhuǎn)轉(zhuǎn)風(fēng)、yskin、肛里拉出個電鋸。微軟的工作貌似很閑,看輪子哥(vczh)整天刷知乎……

我們再來加上這幾位用戶在知乎的獲得的贊數(shù),看看“回答問題的數(shù)量”和“獲得的贊數(shù)”之間有沒有什么聯(lián)系:


由上圖我們可以粗略的得出結(jié)論,回答問題的數(shù)量和獲得贊數(shù)的關(guān)系沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數(shù)量和獲贊數(shù)基本持平,榜單前十名的其它用戶獲得贊數(shù)雖然也不少,但和他們回答問題數(shù)量的排名比起來,還不在一個量級上。這從側(cè)面也說明了一個問題,回答問題的質(zhì)量更加重要,某些高質(zhì)量的會更容易吸引用戶點贊。

知乎參加live最多的100位大V

我們再來看一個有意思的統(tǒng)計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似于直播的問答形式,大V開一場 live,分享他所在領(lǐng)域的知識,用戶買門票參與 live,是一種知識變現(xiàn)的方式)


再來看看他們最多參加過多少場 live:


最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。

尾聲

以上,便是以知乎300萬用戶個人資料為樣本,做出的簡單數(shù)據(jù)分析。

作者:囈語_yiyu
來源:簡書
http://www.jianshu.com/p/6815e9553aba
本文來源于簡書,轉(zhuǎn)載請聯(lián)系作者并注明來源。
運營那些事兒
分享到朋友圈
收藏
收藏
評分

綜合評分:

我的評分
Xinstall 15天會員特權(quán)
Xinstall是專業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。
20羽毛
立即兌換
一書一課30天會員體驗卡
領(lǐng)30天VIP會員,110+門職場大課,250+本精讀好書免費學(xué)!助你提升職場力!
20羽毛
立即兌換
順豐同城急送全國通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時送全城的即時快送服務(wù),專業(yè)安全,準時送達!
30羽毛
立即兌換
運營那些事兒
運營那些事兒
發(fā)表文章43451
確認要消耗 羽毛購買
大數(shù)據(jù)報告:百萬知乎用戶分析嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對憲法所確定的基本原則;
    2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
    4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
    5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
    6)破壞國家宗教政策,宣揚邪教和封建迷信;
    7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
    8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
    10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
    11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動成果;
    2)誹謗:捏造、散布虛假事實,損害他人名譽;
    3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
    6)謾罵:以不文明的語言對他人進行負面評價;
    7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
    8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚低俗、庸俗、媚俗內(nèi)容。


5. 不實信息,主要表現(xiàn)為:
    1)可能存在事實性錯誤或者造謠等內(nèi)容;
    2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
    2)求推薦算命看相大師;
    3)針對具體風(fēng)水等問題進行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;


7. 文章標題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
    2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
    3)使用夸張標題,內(nèi)容與標題嚴重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
    5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭行為的;
    4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。


三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接