流量作弊彌漫在互聯(lián)網(wǎng)廣告行業(yè)中,已經(jīng)成為公開的秘密。
黑格爾的哲學(xué)命題”存在即合理“,往往被人濫用,其原意是“合理即合符某種規(guī)律”,通過黑格爾辯證法,不存在不變的東西,這個命題也可以解釋成“凡是存在的,都是應(yīng)該會滅亡的”。 不知道虛假流量什么時候會滅亡,那時這篇文章就失去意義了,不過既然這篇文章現(xiàn)在存在,那么就是合理的(rational)。
今天的話題集中在移動流量作弊上面,作弊(反作弊)形式和技術(shù)與PC作弊不盡相同。PC的用戶標(biāo)識通常使用瀏覽器的Cookie;而移動的標(biāo)識通常是IDFA(蘋果),Google Ads ID(海外Android),IMEI(國內(nèi)Android)。移動App有更多信號(機會)辨別真?zhèn)危琍C瀏覽器的限制會比較多。
這篇文章就膚淺介紹一下虛假流量后的一些潛規(guī)律,很多分析都很淺顯,因此叫做淺潛規(guī)則。
1. 虛假流量的術(shù)語
本文聊的作弊流量,有好多種說法,側(cè)重點也不盡相同。
作弊流量(Fraud Traffic) :大白話,容易明白,就是騙人的流量
非人為流量(No-Human Traffic ): 這種流量特指一些Bot流量,機器模擬的;對于一些劫持的流量,有些灰色地帶,因此不夠準(zhǔn)確。
非激勵正常流量(No-Incentive Traffic):有些流量雖然是人為流量,但常常是由某種誘惑而來(例如不合理頁面設(shè)計,獎券,紅包,游戲點卡等),因此激勵流量通常轉(zhuǎn)化效果比較差。
無效流量(Invalid Traffic) :為了規(guī)避過于敏感的作弊(Fraud)而使用的術(shù)語,這樣不容易得罪人,無效流量中既有故意為之,也有無意為之的。
異常流量(Abnormal Traffic) :類似于無效流量,強調(diào)流量的異常性。
這些術(shù)語之間并沒有太多包含關(guān)系(或沒必要嚴(yán)格細分),更多的是用在不同的場景和角色。例如,有些研發(fā)人員關(guān)注No-Human Traffic(Bot Traffic) ;有些效果監(jiān)測的公司更加關(guān)注計費的流量,因此愿意使用invalid traffic;早期,這些流量都稱為Fraud Traffic,因此作弊流量也是一種常用說法。
2. 移動廣告的業(yè)務(wù)模式圖:
有錢的就地方就是作弊,常在河邊走,哪有不濕鞋?看看錢是如何流動的就可以理解其中利益關(guān)系。錢流的上游是付錢的主,下游的機構(gòu)總想放大收入,那么在付錢主的所能容忍范圍內(nèi)最大化收入就是各個環(huán)節(jié)優(yōu)化的目標(biāo)。這是一個在限制條件下,單優(yōu)化目標(biāo)的問題。
常見流量作弊的動機:
1.媒體:制造虛假流量,提升收入
2.廣告代理/銷售:運營虛假流量,保證合同,提升收入
3.交易平臺:對虛假Supply審查不嚴(yán)格,提升收入
4.用戶:為獲得激勵(紅包,點卡等)而產(chǎn)生低(無)效果流量
5.廣告主:惡意消耗競爭對手的預(yù)算
3. 移動廣告目前的虛假流量比例
由于虛假流量過于復(fù)雜和敏感,大家在報數(shù)的時候都是非常謹(jǐn)慎小心的。盡管如此,最后大家報的數(shù)字千差萬別,因此無法考證各個數(shù)據(jù)的置信度,大家參考一下就好。
1.ANA( Association of National Advertisers): “聲譽差的交易平臺作弊流量達到25-50%,聲譽好的通常低于10%”。
2.AppFlyer:2016年,AppLift的報告指出34%的移動流量為有風(fēng)險的虛假流量(Risk of fraud, 22%可疑,12%高風(fēng)險) 。Android虛假流量比例大于iOS,系統(tǒng)版本約高,虛假比例越低。
2.秒針:2016年垂直網(wǎng)站與網(wǎng)盟媒體異常流量占比最高。其中,垂直類媒體曝光異常大幅增至 24.93%,點擊異常中網(wǎng)盟類媒體最為明顯,占比高達 71.07%。
3.AdMaster :2016年全年無效流量整體占比為30.2%;下半年出現(xiàn)小幅度惡化現(xiàn)象,無效流量增加3.7%;
4.移動虛假流量的分類
虛假流量有很多種分類,各種分類都會有灰色的領(lǐng)域,下面我試圖用作弊的基本原理方式來分類,而且主要是針對移動的場景。更加全面和系統(tǒng)的分類,可以參考劉鵬老師的《互聯(lián)網(wǎng)廣告作弊十八般武藝》。
另外一種分類可以按照設(shè)備和人為的四象限分類
5. 移動反虛假流量的模型
在討論如何對付移動虛假流量的方法之前,我們先看看移動作弊的一些主要黑技術(shù),做到知己知彼。
移動作弊中涉及很多黑技術(shù),其中包括一下一些:
模擬器:BlueStacks, AndyWin, GenyMotion
Spoofer: 不斷的修改機器的IP , IMEI, MAC等
Proxy: 網(wǎng)關(guān),修改ISP, IP, UA , 設(shè)備類型等
蘋果: 沒有模擬器,主要通過硬件和軟件模擬
激勵流量(incent Traffic ): 真實人流量,但是轉(zhuǎn)化率差的流量
...
對于如何防范移動虛假流量,這確實是一個復(fù)雜的問題。并非沒有防范作弊的高端技術(shù),也不是因為這個問題不夠嚴(yán)重,最主要的原因有三個。
精準(zhǔn)打擊反作弊的成本比較高
各種玩家的利益分配原因
作弊者的受益高和風(fēng)險低,大部分情況下,作弊者不會受到任何懲罰。
例如,最近友盟+在法院起訴某家App刷量公司,理由是影響了友盟統(tǒng)計計算的正確性和公正性。目前法院并沒有判定,我也不得知其訴訟的合理性。打個比方,有一個刷墻公司把路上所有廣告牌都刷成某家公司,然后有一個品牌影響力排名公司去控告這個刷墻公司,嚴(yán)重影響了它的品牌排名公正性。總感覺這個邏輯,不算太對。我也確實非常討厭App刷量公司,但是從哪個角度去批判和懲罰他們,確實值得法律法規(guī)上更多的討論。
不聊倫理和法規(guī),聊聊技術(shù)吧,我覺得技術(shù)上可以按照如下模型來對付虛假流量,這里特指移動端。
硬件:手機擁有更多的硬件信息,因此通過硬件信息進行虛假流量的防范,可以防范通過非手機(即Bot,服務(wù)器等)的虛假流量。雖然,現(xiàn)在手機系統(tǒng)提供了有一些標(biāo)準(zhǔn)函數(shù)可以獲得硬件信息,例如IMEI,MAC等,但這些函數(shù)很容易被一些通用軟件工具所攻破。另外,這個硬件標(biāo)識的信息,也無法在服務(wù)器端得到有效校驗。因此,在虛假流量的斗爭中,第一步往往就是識別流量的來源,是真實手機,還是模擬器,服務(wù)器模擬等工具。
規(guī)則策略:規(guī)則往往是最簡單有效的防范機制,例如,對于第一次訪問全新流量,將虛假流量的可能性設(shè)置為高。對于每天多余X次的有規(guī)律訪問,堅決抵制等等。規(guī)則有很多很多,不斷的增加,修改,發(fā)展到最后,規(guī)則的匹配次序也成了一門藝術(shù)了。對于一些初級的造假者,往往會落到這些規(guī)則中。
機器學(xué)習(xí):機器學(xué)習(xí)就是通過一些訓(xùn)練數(shù)據(jù)集合訓(xùn)練出一個分類器,對于一些特征,訓(xùn)練出一些權(quán)重信息,而后用于流量的分類識別上。做虛假識別的團隊很多時候在這個方向會越做越深,使用更多的特征,使用更多數(shù)據(jù),使用更加及時的數(shù)據(jù),嘗試更多的模型。這個領(lǐng)域工作很“苦”,做嚴(yán)格了,收入可能受影像,做寬松了,廣告主投訴ROI下降,這種平衡有點里外不是人。
智勇雙全:有些作弊并非一定通過死板的技術(shù)手段完成的,其實有很多五花八門的方法。舉例來說,通過加大對于媒體的懲罰力度,可以提高媒體的作弊成本,從而降低作弊率。另外,還有一種有趣的反作弊方法,叫做Honey Ad(有時也叫Bluff Ad),這些廣告有些特點(例如,預(yù)期點擊率很低),通過觀察點擊率是否和預(yù)期一樣,可以判斷流量是否是機器流量(機器流量無法判斷這些廣告的貼點)。
6 識別虛假流量的技術(shù)流派
這一部分主要是集中在通過機器學(xué)習(xí)的辦法辨識虛假流量的技術(shù),有一大部分內(nèi)容可以在相關(guān)的論文中找到。
6.1 分類方法
大部分算法工程師在處理虛假流量都是從分類技術(shù)開始的,構(gòu)造一個分類器,找各種各樣的特征,找到一些虛假流量的(例如轉(zhuǎn)化率異常)訓(xùn)練數(shù)據(jù)。這種方法對于對于虛假流量的樣本非常依賴,不同的樣本很容易訓(xùn)練出不同的模型,容易過渡擬合。 對于新的虛假流量模式,不容易及時發(fā)現(xiàn)。
常見的有邏輯回歸和貝葉斯方法,可以參考如下論文
《Measuring and Fingerprinting Click-Spam in Ad Networks》Vacha Dave etc.
6.2異常檢查(Anomaly-Based Detection)
學(xué)術(shù)上有很多論文,討論通過聚類的方案識別異常流量,在移動端,可以通過跟蹤某一個用戶標(biāo)識的歷史行為,各種上網(wǎng)行為,廣告請求行為,瀏覽行為,特別是跨媒體的使用情況,以辨別這個流量是否是正常手機的使用軌跡。
基于歷史信息和行業(yè)平均水平進行異常分析
基于時間的變化,發(fā)現(xiàn)一些突變點
這一技術(shù)在金融和交易的反欺詐,用的非常多,技術(shù)也非常繁多
常用方法可以聚類,分類或者內(nèi)容分析;
《Using Co-Visitation Networks For Classifying Non-Intentional Traffic》 Ori Stitelman et al. Dstillery 2013.
6.3 APP的廣告作弊的自動化檢查
市面上有很多APP,那些APP是制作虛假流量的來源?有沒有什么自動的檢查方法? 微軟有一篇論文就是介紹這方面的工作,通過自動運行APP,分析APP的廣告情況:太多廣告,廣告大小過小,重疊廣告等等。
2014,《DECAF: Detecting and Characterizing Ad Fraud in Mobile Apps》
6.4. 審計(Audit)
審計是一種傳統(tǒng)的反欺詐方法,也是有效的,對于調(diào)查一些刷量問題也是有直接幫助的。
當(dāng)有些在某些媒體(publisher) 點擊發(fā)生點擊
廣告平臺/廣告主向媒體發(fā)送一些審計的請求,確認(rèn)之前受到的點擊的有效性(時間點,基本信息),而后進行對比。
6.5 偽廣告驗證(Honey Ads)
廣告平臺發(fā)送一些小比例的廣告,例如一些信息提示,按道理,這些提示內(nèi)容并沒有讓用戶Click的意圖。
如果這些偽廣告的點擊率,仍然很高,像其它的廣告點擊率一樣高,說明這些流量有問題。
6.6 設(shè)備ID的真?zhèn)伪鎰e
在移動設(shè)備上,對于設(shè)備ID的辨別可以極大的幫助識別虛假流量。有兩件事需要確認(rèn),第一,這個ID是有效的ID,第二,這個廣告請求確實是來自這個ID所在的設(shè)備。
移動設(shè)備ID也比較多,國內(nèi)安卓以IMEI的MD5/SHA256為主;IMEI通常也會帶有制造商的一些基礎(chǔ)信息?!?/font>
如何確定這個ID是來源于真實的設(shè)備,這就需要利用硬件的技術(shù),或則通過歷史數(shù)據(jù)的一些分析來看。例如有一個IMEI ,請求的IP來源忽悠不定,上午的IP在鄭州,下午在杭州和南寧等,或則不熟悉的地方,那么這些廣告請求中,通常有虛假的成分。因此,對ID進行辨別,對常見ID可以采用輔助的技術(shù)進行識別,包括訪問頻率,IP范圍,瀏覽行為,搜索行為,APP事情情況等等,訪問時間等,而且可以通過數(shù)據(jù)鏈的方式來判定請求的真實性。
6.7 分享一些反欺詐的論文
這里推薦老東家的一篇論文,《Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft》,這篇文章介紹了微軟2014年之前的一些心路總結(jié),從RuleBitmap 到 Model Fighting,如何定義Metric (Value per Click)。我有幸與部分作者一起工作,期間真心感到反欺詐的工作的無冕之艱辛。
我收集了一些Papers,有興趣的同學(xué)可以到我的主頁上下載
http://www.ouyangchen.com/download
7 反作弊技術(shù)公司
1) Integral Ad Science
2009年成立的反作弊公司,保護品牌安全等,這家公司和尼爾森有很多合作, 詳情可見integralads.com
2. Solve Media
專業(yè)提供CAPTCHA( "Completely Automated Public Turing test to tell Computers and Humans Apart")的服務(wù),也就是驗證是否是人操作,而不是機器訪問。
3.Double Verify
主要從事視頻的可見性的檢測,它和Facebook和Youtube都有合作,經(jīng)過MRC的認(rèn)真。
4. Forensiq
專業(yè)處理虛假流量的技術(shù)公司,在投前,投中,投后都能夠提供解決方案。
8.最后不得不說的話
打擊異常流量,是一件苦勞總是多于功勞的事情,處理不利常常遭到廣告主的投訴以及平臺的信譽度下降,如果過于激進,廣告主消耗可能會顯著減少,交易平臺流水也會減少。反欺詐算法的同學(xué)通常需要保守各種算法規(guī)則的秘密,很多時候,一些新的規(guī)則上線,也不能大肆宣揚,只能暗中觀察效果,與非正常流量開始一波又一波的拉鋸戰(zhàn)斗。
最后,為長期打擊反欺詐的同學(xué)鼓掌加油!
作者:歐陽辰
來源:互聯(lián)居
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)