很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
本文3860字左右,閱讀時間10min.
最近接連溫習了幾本數(shù)據(jù)相關的書,作為數(shù)學系畢業(yè)的學生,雖然畢業(yè)多年都無緣從事數(shù)據(jù)相關的職業(yè),基礎的理論知識也基本化整為零,但我對數(shù)據(jù)一直都蠻感興趣的,在此也想分享下我的一些看法。
一家公司宣布3003人持有該公司的股份,每人平均持有660股。
乍一看,優(yōu)秀優(yōu)秀。
別急著鼓掌,這個令人驚嘆的數(shù)據(jù)背后還有另一信息沒有透露:“公司累計200萬股股票,其中三大股東的股份占了3/4,而剩下的3000人總共持有的股份只占1/4“。
同樣的,之前民間盛傳的騰訊人均月薪7.18萬,看起來是否也頗為可疑?
首先,這數(shù)據(jù)精確得讓人吃驚;其次,未加說明的平均數(shù)都是耍流氓;最后,即便你做了大樣本調查,可收入作為敏感信息,免不了參雜虛報和瞞報的情況,可信度也要大打折扣。這種話題作為媒體的噱頭聽聽就好,當真了可是要傷心的。
但事實上,人容易為數(shù)據(jù)癡迷。
學生的能力不好評估,但考試成績和學位證書可以佐證,于是家長們爭先恐后地幫孩子報了補習班;了解一個陌生人很難,但朋友圈和Facebook提供了一個渠道,于是我們都執(zhí)著于在網(wǎng)上塑造一個理想人設。
看吧,我們一直置身于大數(shù)據(jù)的熱潮中。
我的大學朋友基本上都在從事大數(shù)據(jù)計算相關的職業(yè),平常我們閑聊時,或多或少會感嘆大數(shù)據(jù)給我們帶來的雙刃劍。在充斥數(shù)據(jù)和算法的年代,究竟是數(shù)據(jù)為我,還是我為數(shù)據(jù)?數(shù)據(jù)是不是就等于我們自己?這個命題太大,我只能隨波逐流。
今天主要是想認真探討下,這么多年來,你我曾經(jīng)陷入的數(shù)據(jù)陷阱以及我們能采取的行動。
一、數(shù)據(jù)會說謊?
大數(shù)據(jù)是個好工具,尤其到了現(xiàn)在,它早已被放大了光環(huán),給我們帶來了諸多便利。你瀏覽過什么,對什么感興趣,推薦算法總是能精準地匹配你的口味(或者說,大數(shù)據(jù)定義了你的口味)。
當然,唱衰大數(shù)據(jù)的人也不少:“數(shù)據(jù)只是證實了顯而易見的事實?!辈簧偃藢Υ瞬恍家活?。
然而,我最近看到的幾個案例,都不止一次地讓我啼笑皆非:數(shù)據(jù)一次又一次地證明了很多我們想當然的推測跟真實是不相符的。
你可能會認為,在暴力電影放映后的當天,那些有攻擊性的年輕人會更易怒,犯罪率鐵定會上升。但事實上,有經(jīng)濟學家通過數(shù)據(jù)分析,在電影結束后到次日的凌晨,犯罪率持續(xù)在下降。一方面暴力電影讓潛在的暴力人群離開了街頭,另一方面由于影院幾乎不供應酒類飲品,減少了酒精有關的犯罪活動。
大數(shù)據(jù)為人我們提供了一個新維度的視角,覆蓋面較單一的意會更廣,讓我們對世界的認知也更立體了。
也正是因為如此,我在看一些調研報告的時候發(fā)現(xiàn),這把雙刃劍的另一面,終于還是現(xiàn)出了他的真面目。
1、相關性而非因果性
大數(shù)據(jù)顯示,某地某時段起飛了多少只白天鵝,據(jù)此推斷天鵝都是白的。
這顯然太扯了,但你敢拍著胸脯保證自己沒掉過這類圈套嗎?
甚至有些時候,如果我們無法證明自己想要證明的東西,下意識地就會展示一些其他東西,并假裝他們是一樣的。畢竟現(xiàn)在統(tǒng)計數(shù)據(jù)讓人目不暇接,幾乎沒人會察覺到其中的差別,不是嗎?
說到這我也不得不反思,我難道沒有過嗎?掀開這層遮羞布,坦白說,不少情況下當我試圖爭取更多的權益和話語權時,不自覺地也使了這樣的把戲。
運用“看似相關的數(shù)據(jù)”作為論據(jù),要么是無心之失,要么就是慣用伎倆。
學生時代當我還對數(shù)學建模競賽上心時,考題要求預測一個數(shù)值變化趨勢,我當時就默默發(fā)現(xiàn)了一個“秘密”,即:給你一組數(shù)據(jù),你可以使用任一種范式去找到一個看似好使的指標,但換一組數(shù)據(jù),這個指標就失靈了。變量太多,你能試驗的樣本太少,于是你很容易發(fā)現(xiàn)這種假相關性,更別提你想基于這個相關性去推導因果性了。
退一步來說,即便我們通過一個人平常訪問網(wǎng)站的內(nèi)容,監(jiān)察到他有了犯罪的沖動,那到底是抓他還是不抓他?如果我們不能保證自己是正義的,那么我們也不會在意自己是否邪惡。
有些人很擅長利用現(xiàn)有數(shù)據(jù)去預估接下來的數(shù)據(jù)變化,可能是多維度的觀察,也可能是有了足夠的數(shù)據(jù)樣本。但是,數(shù)據(jù)會變,我們會變,如果你迷信數(shù)據(jù)而忽視本質,那么大數(shù)據(jù)就不能用于預測,只能預測有意會的預測。
重申一遍,大數(shù)據(jù)只能提供相關性,而非因果性。具有純粹因果關系的事情很少,因為現(xiàn)在事物間的聯(lián)系變得越來越復雜,影響因素有很多。真正的數(shù)據(jù)是工具,而非結論或原因。
2、數(shù)據(jù)太“薄”
人們總會錯誤地認為無論樣本數(shù)量多么少,都能反映種族的特征。
我在讀達萊爾·哈夫的《統(tǒng)計數(shù)據(jù)會說謊》時,書中提到一個經(jīng)典的醫(yī)療實驗:
一個地區(qū)的450名兒童注射了小兒麻痹癥疫苗,另有680名兒童作為對照沒有接受注射。不久之后,該地區(qū)出現(xiàn)了傳染病。注射過疫苗的兒童中沒有一個患上小兒麻痹癥。
看到這,你可能要給出小兒麻痹疫苗的有效性的結論了。
但,這個實驗還有后續(xù)。事實上,對照組中也沒有兒童患病!
縱觀小兒麻痹癥的發(fā)病率,本來就比較低,這么大規(guī)模的群體中只可能出現(xiàn)兩例患病者。因此,從一開始這個實驗就注定毫無意義。如果想獲得任何有意義的結論,實驗組需要用比這個群體多15~20倍的兒童做樣本。
事實上,我們現(xiàn)在看到的很多市場調研報告,里面不乏通過小樣本去給出均值結論的例子,比如我前兩天看的90后消費人群分析:
“84%的90后有理財習慣“;
“34%的90后已購房“;
“60%以上的90后將消費貸用于基本生活和休閑“……
然后我翻了下數(shù)據(jù)來源,樣本是5000人,挺多的是不是?而90后據(jù)最新數(shù)據(jù)研究已有3.62億……
只有試驗的樣本數(shù)目足夠龐大,平均數(shù)定律才是一個有用的描述或猜測。
二、看穿數(shù)據(jù)的真相
如果說前文展現(xiàn)的是目前普遍存在的數(shù)據(jù)行騙手段,那么接下來我們一起來試著看下如何去看穿數(shù)據(jù)的真相,避免被一些似是而非的東西所迷惑。畢竟“騙子”都已經(jīng)熟練掌握了這些詭計,老實人又怎能不學點防御之術呢?
《統(tǒng)計數(shù)據(jù)會說謊》里給我提供了一個很好的思路,下次當我們接觸到一些數(shù)據(jù)時,不妨提出4個問題試試:
1、是誰這么說,他怎么知道?
這個結論怎么來的?找到有意識和無意識的偏差。
比如你在機場分發(fā)消費問卷調查,那你可能就犯了選擇誤差,因為坐飛機的人相對而言比一般人更富裕些,消費水平自然會高一些。
又或者,你發(fā)現(xiàn)某個屋子里人均身高偏高,然后打開門一看,姚明坐那呢。你選擇的樣本里有過高或過低的數(shù)據(jù),樣本不平均,就會出現(xiàn)這類錯誤。
當然還有一種可能,你為了使自己拿到有利的結論,選對自己有利的數(shù)據(jù),改變衡量的標準,再使用不恰當?shù)臏y算方式。比如明明是中位數(shù)更能說明問題,卻使用了均值來計算,最后再用“平均數(shù)”來掩蓋事實真相。
這些你能想到的伎倆,別人當然也能。
2、漏掉了什么?
在我們閱讀分析報告時,大多數(shù)情況下我們無法得知樣本中包含了多少案例。能看到的就是一張張繪制完美的圖表,配上鏗鏘有力的結論,看起來多么令人信服。
然而,如果缺乏可信的測算方式,比如概率誤差、標準誤差的檢驗,那么可信度就要大打折扣了。
尤其要留心那些未加說明的平均數(shù),因為無論在什么時候,均值和中位數(shù)都有著本質的差別。
一份報告曾指出“過去25年內(nèi)因癌癥死亡的人數(shù)大幅增長”,很嚇人對不對?
但我們都知道,以前那些“原因不明”的病癥現(xiàn)在都被確診為癌癥,這是其一;此外尸體解剖更加頻繁,診斷也就更為確切;現(xiàn)在人均壽命延長,因此更多人會活到容易患癌癥的年齡。最后,報告給出的數(shù)據(jù)應該是死亡總人數(shù)而非死亡率——畢竟現(xiàn)在的人口總數(shù)比以前要多。
3、偷換概念了嗎?
搞亂因果關系,拿詞義做文章,都是偷換概念的方式。
早在前幾年,人們普遍認為女博士的婚育年齡普遍較學歷較低的女性會更大,女博士里的剩女比例也更高。后來“剩女”一詞被人詬病后,現(xiàn)在被冠以“單身貴族”的頭銜,聽起來似乎還蠻前衛(wèi)的?
這算是很明顯的偷換概念了,本質上想傳達的觀點并沒有變化。而更多時候,在更為專業(yè)的領域,遇到偷換概念的場合,你我可能并不能一眼識別。
4、這是否合乎情理?
那么,究竟要怎樣做才能不被毫無意義的結論愚弄?你總不能指望每個人都成為統(tǒng)計學家,親自分析數(shù)據(jù)吧?
反其道而行,你要去捕捉?jīng)]有被透露的數(shù)據(jù),留心這部分的數(shù)據(jù),就能看穿這種別有用心的手段。
此外,截止到目前為止的趨勢或許是事實,但未來的趨勢不過是我們的猜測。你不能拿現(xiàn)有的趨勢直接去臆測未來的趨勢,畢竟所有的事情不會一成不變。
比如說現(xiàn)在有個新聞是這么報道的:在大霧天氣的一周內(nèi),某地區(qū)的死亡人數(shù)猛增至2800人……
仔細想下,這一周內(nèi)死亡率比平時高這么多難道不是例外嗎?所有的事情都處在變化之中。往下看,隨后幾周情況如何?死亡率降至平均水平以下,是否意味著大霧中死去的人本來就已不久于人世?
看吧,這個數(shù)據(jù)的確讓人印象深刻,但由于沒有其他數(shù)據(jù)可以對比,所以這個數(shù)據(jù)也變得沒什么意義。
三、數(shù)據(jù)是把雙刃劍
寫這篇文有點殺敵一萬自損八千的感覺,前文提到的數(shù)據(jù)陷阱,無論是假相關性、亂因果性,還是拿著薄數(shù)據(jù)去佐證對自己有利的觀點,這些我曾經(jīng)陷入的圈套,同樣也在某些時刻成為了我“行騙“的工具。
究竟要怎么去用數(shù)據(jù)呢?我已許久沒系統(tǒng)性地做過數(shù)據(jù)挖掘和統(tǒng)計分析,但我相信大數(shù)據(jù)廣闊的應用前景,也在大數(shù)據(jù)給出的相關性規(guī)律里獲益匪淺。我也在反思,在數(shù)據(jù)至上的時代,我是不是過少地發(fā)現(xiàn)它的局限性,過分地依賴它給的結論。
至于那些拿大數(shù)據(jù)用以評判個人、組織乃至社會,特別是關乎人性抉擇、生殺進退的大事,我們是否又能接受這些冰冷的數(shù)據(jù)澆滅人情的熱度?
一起拭目以待吧。
再次強推最近讀完的這三本書,給了我對于數(shù)據(jù)和認知上更多的啟發(fā):
賽思·斯蒂芬斯:《人人都在說謊:**的數(shù)據(jù)真相》
斯科特·佩奇《多樣性紅利》
達萊爾·哈夫《統(tǒng)計數(shù)據(jù)會說謊》
歡迎長按二維碼關注“健壯的大姐姐”,如果你有一點點共鳴的話歡迎點贊、“在看”或是分享給更多的朋友。
感謝閱讀,鞠躬。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內(nèi)容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權歸屬本網(wǎng)站所有)