本來默默劃船,在交流會上談個性化推薦都不惹人注意的今日頭條,毫無置疑現(xiàn)在已經被整個BAT圍剿,內容領域的企業(yè)不自覺把今日頭條當做競爭對手,非內容領域的互聯(lián)網公司也都想來分一杯內容的羹,一夜間,互聯(lián)網遍地都是feed流,不談內容推薦算法都不好意思上桌了。
筆者有幸從0到1規(guī)劃頭條產品,想把自己的實操經驗分享出來,如果對感興趣的朋友有幫助自然開心,更希望得到業(yè)界大佬的批評和指正,畢竟一個人摸索前進,還是很危險的。
1.明確定位
經常使用閱讀產品很大的感受是大平臺很容易出現(xiàn)資訊沒深度,垂直的內容資訊只在某幾個如科技,互聯(lián)網等幾個領域做的還不錯,我當時的設想是有沒有可能做行業(yè)內深度資訊,尤其是一開始切入那些并未互聯(lián)網化過深的行業(yè),通過一個行業(yè)的試點,形成行業(yè)頭條,在沉淀優(yōu)質行業(yè)知識的同時,以最低成本去復制到其他行業(yè)。
思考了挺久之后開始和老板匯報了,省去10000字具體說服過程,最終同意了,因為團隊某公司與一個傳統(tǒng)行業(yè)A有交集,所以一開始的切入行業(yè)就是行業(yè)A了,下面開始具體執(zhí)行了,看著一共10多個技術人員,我陷入了深思……
劣勢簡直不要太明顯:
我要開始作死地做頭條產品了……
2. 頭條產品整體設計
我開始從三個層面去搭建產品,底層類型標簽層,中層數(shù)據抓取分析層,頂層業(yè)務應用層。
底層類型標簽層
底層根據具體行業(yè)進行梳理,本來這個過程應該產品和具體行業(yè)從業(yè)人員配合梳理,但是礙于資源有限,那就我來吧,肯定不足夠詳盡,但是一開始可以先跑起來。
底層類型標簽層分為類型和標簽,類型有層級性,數(shù)據庫預留到7級,實際梳理到3級就差不多了,如行業(yè)A,A公司是一個一級類型,A行業(yè)制造公司是二級分類,具體制造公司名稱是3級類型,每個類型獨立建表,每個表里關聯(lián)海量標簽到類型上,如行業(yè)A技術這個類型里我們找到行業(yè)A技術術語詞典,刪選后就作為標簽關聯(lián)到A技術這個類型下面,類型數(shù)最后梳理了600多,標簽數(shù)量有10萬多,數(shù)據庫預留狀態(tài)位,可以視情況進行啟用關閉。
中層數(shù)據抓取分析層
數(shù)據抓取分析層分為爬蟲部署,內容來源處理,數(shù)據歸類。
1、爬蟲部署
我以一個技術外行的角度把爬蟲分為兩類,一類是不定向爬蟲,都是一個個單獨網站,這種技術消耗較大,需挨個處理,如各個A行業(yè)公司的官網新聞中心和行業(yè)A平臺網站,需單獨處理,另一類定向爬蟲,主要是有搜索功能的大資訊平臺,如今日頭條等,代碼可復用,寫好之后我直接建了一張表,專門放搜索爬蟲的關鍵詞,一堆關鍵詞一套代碼就可以實現(xiàn),輸入進去就把含有這些關鍵詞的新聞抓取出來了,現(xiàn)在這張表關鍵詞也有700多了,爬取來的內容量實在太大,建議用mongedb處理。
2、內容來源處理
數(shù)據過來后先進行來源梳理,劃分優(yōu)質來源和垃圾來源,提升優(yōu)質來源內容的權重,優(yōu)質來源主要是各公司官網,垃圾來源是指對具體行業(yè)而言,大量無意義的內容來自同一個來源,那么將他認定為垃圾來源,比如一個叫xx說車的來源在建筑行業(yè)被認定為垃圾來源,但是將來復制到汽車這個領域的時候,就不再是垃圾來源了,垃圾來源是一個長期的活,現(xiàn)在大概700多了,大部分垃圾來源是今日頭條的頭條號。
3、數(shù)據歸類
過濾完垃圾源之后,就開始數(shù)據歸類了,本質上是將新聞內容歸到我們建立的一個個類型上,因為做行業(yè)資訊,希望一開始數(shù)據準度較高,我當時想了兩種方案,第一種是將類型根據自己關聯(lián)的海量標簽按權重建立一個個模型,所有抓取來的文章做全文的分詞處理,大量文章統(tǒng)計詞頻,每篇文章所有分詞就有一個總的頻率值,和類型模型比對,取相關性較高的,另一種就是把類型下面所屬的標簽和所有篩選過垃圾源的文章比對,含有標簽的文章歸到所屬類型下面,含有同一類型標簽越多,說明該文章相關性越高,為了快速上線就用第二種方案,但是相對,精度就差了一些,當然隨著人工的介入,篩出一系列垃圾源,類型和標簽維護工作的持續(xù),內容準度好了一些。
頂層業(yè)務應用層
業(yè)務展現(xiàn)層主要是梳理目標用戶感興趣的關鍵詞,將這些關鍵詞關聯(lián)到類型標簽層的類型,這樣,用戶訂閱關鍵詞之后就可以看到這個關鍵詞所屬的內容,前臺現(xiàn)在以及上線2個產品,一個訂閱平臺,行業(yè)頭條,與之配套的是后臺管理中心。
1、訂閱平臺
訂閱平臺半封閉,面向行業(yè)A企業(yè)用戶和行業(yè)A自媒體從業(yè)者,釋放出他們感興趣的關鍵詞,內容準度更高,企業(yè)用戶訂閱關鍵詞,可以看到相關的資訊,看到平臺具有的能力后,有欲望定制更多關鍵詞,后臺審核后繼續(xù)部署爬蟲,推送數(shù)據給用戶,同時記錄用戶的所有行為數(shù)據。
2、行業(yè)頭條
行業(yè)頭條完全開放,面向準行業(yè)從業(yè)者以及泛行業(yè)愛好者,釋放出更多關鍵詞,但是較訂閱平臺,內容質量稍差,但是目標用戶較廣,所以寄希望記錄用戶的所有行為數(shù)據(如評論,閱讀量,換一批事件,關注關鍵詞等),得到用戶反饋,建立用戶畫像,以達到根據不同用戶畫像推薦關鍵詞的效果,為真正的推薦做準備。
3、后臺管理中心
含有新聞管理,來源管理(優(yōu)質來源,垃圾來源),類型/標簽管理,用戶行為管理,推送管理,關鍵詞審核排期管理,評論搜索管理等,具體就不再詳述了,有機會再詳細介紹,簡單的把產品框架梳理了一張圖,和上面的論述結合起來,可能更方便理解。

(注:侵權必究)
3. 致同行
不要動不動就要再造個今日頭條,如果你的體驗和算法做不到比他強百分之五十以上,正面硬剛基本沒戲,找準自己的切入點,認清自己的優(yōu)勢;
內容推薦從來都很危險,如果用戶不需要的時候推薦,除非做到讓用戶驚喜,否則就是減分,用戶一定要用的產品,用戶只能忍著,可有可無的產品,極有可能被用戶卸載,這點做公眾號的朋友肯定深有感觸,每次推送內容都怕掉粉。
因為對搜索一直比較有興趣,所以簡單闡述一下自己對輸入法產品想做內容的建議吧。
用戶有自己了解資訊的需求:
- 主動獲?。篟SS抓?。╣oogle訂閱),關注/訂閱(即刻)
- 被動獲取:平臺推薦(傳統(tǒng)門戶,新聞網站),垂直類媒體資訊(36K,虎嗅等,最近馮大輝的readhub),個性化推薦(頭條,一點資訊)
這一類需求競爭極其大,還有一類是基于特定場景下,對資訊的了解訴求。
比如找工作時,想了解某家公司;吃飯時,想了解附近餐館的情況。
這一類訴求特別長尾,目前多是怎么被滿足的呢?
主動搜索,到百度,知乎等平臺搜索,但得到想要的資訊路徑很長,比如你和朋友吃飯,你想知道附近有哪些好館子,搜到的代價就就極高這種場景大量發(fā)生在哪里?聊天和查詢的時候!這正是我覺得輸入法切入資訊的機會,具體來講:
- 當和別人聊天說要跳槽,談的某家公司,輸入法輸入時有個提示(如顏色變化等)能方便的推送公司的最新資訊;
- 和男朋友說要買趙麗穎同款,男朋友能方便看到這些商品的資訊;
這些訴求的背后數(shù)據,詞匯出現(xiàn)的頻率,輸入法公司應該有足夠的積累,大可根據詞頻做內容準備,當用戶在輸入東西的時候,給用戶一個意外的驚喜,來達到資訊推薦的目的,希望有從事輸入法這塊的朋友能給予指導吧。
本文系作者:
運營那些事兒
授權發(fā)表,鳥哥筆記平臺僅提供信息存儲空間服務。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》
如對文章、圖片、字體等版權有疑問,請點擊
反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)