很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請(qǐng)把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會(huì)有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒?qǐng)聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
本文的目的是為主成分分析(PCA)提供一個(gè)完整且簡(jiǎn)單的解釋,特別是其運(yùn)作方式,以增進(jìn)大家對(duì)該分析法的理解并加以利用,而不必具有強(qiáng)大的數(shù)學(xué)背景。
PCA實(shí)際上是網(wǎng)上廣泛提及的一種方法,很多文章都有涉及。但是,只有極少數(shù)文章能直接切入主題,并在不過(guò)多鉆研技術(shù)細(xì)節(jié)的前提下解釋PCA的工作原理以及“為什么”。這就是這篇文章的目的:以更簡(jiǎn)單的方式解釋主成分分析法。
在開始解釋之前,本文提供了PCA在每一步驟的運(yùn)作原理的邏輯解釋,簡(jiǎn)化了其背后的數(shù)學(xué)概念,如標(biāo)準(zhǔn)化,協(xié)方差,特征向量和特征值,而暫未關(guān)注如何運(yùn)算的問題。
什么是PCA?
PCA是一種常用于減少大數(shù)據(jù)集維數(shù)的降維方法,把大變量集轉(zhuǎn)換為仍包含大變量集中大部分信息的較小變量集。
減少數(shù)據(jù)集的變量數(shù)量,自然是以犧牲精度為代價(jià)的,降維的好處是以略低的精度換取簡(jiǎn)便。因?yàn)檩^小的數(shù)據(jù)集更易于探索和可視化,并且使機(jī)器學(xué)習(xí)算法更容易和更快地分析數(shù)據(jù),而不需處理無(wú)關(guān)變量。
總而言之,PCA的概念很簡(jiǎn)單——減少數(shù)據(jù)集的變量數(shù)量,同時(shí)保留盡可能多的信息。
逐步解釋
第1步:標(biāo)準(zhǔn)化
這一步的目的是把輸入數(shù)據(jù)集變量的范圍標(biāo)準(zhǔn)化,以使它們中的每一個(gè)均可大致成比例地分析。
更具體地說(shuō),在使用PCA之前必須標(biāo)準(zhǔn)化數(shù)據(jù)的原因是PCA對(duì)初始變量的方差非常敏感。也就是說(shuō),如果初始變量的范圍之間存在較大差異,那么范圍較大的變量將占據(jù)范圍較小的變量(例如,范圍介于0和100之間的變量將占據(jù)0到1之間的變量),這將導(dǎo)致主成分的偏差。因此,將數(shù)據(jù)轉(zhuǎn)換為可比較的比例可避免此問題。
在數(shù)學(xué)上,這一步可以通過(guò)減去平均值,再除以每個(gè)變量值的標(biāo)準(zhǔn)偏差來(lái)完成。
只要標(biāo)準(zhǔn)化完成后,所有變量都將轉(zhuǎn)換為相同的范圍[0,1]。
第2步:協(xié)方差矩陣計(jì)算
這一步的目的是:了解輸入數(shù)據(jù)集的變量是如何相對(duì)于平均值變化的?;蛘邠Q句話說(shuō),是為了查看它們之間是否存在任何關(guān)系。因?yàn)橛袝r(shí)候,變量間高度相關(guān)是因?yàn)樗鼈儼罅康男畔?。因此,為了識(shí)別這些相關(guān)性,我們進(jìn)行協(xié)方差矩陣計(jì)算。
協(xié)方差矩陣是p×p對(duì)稱矩陣(其中p是維數(shù)),其所有可能的初始變量與相關(guān)聯(lián)的協(xié)方差作為條目。例如,對(duì)于具有3個(gè)變量x,y和z的三維數(shù)據(jù)集,協(xié)方差矩陣是以下的3×3矩陣:
由于變量與其自身的協(xié)方差是其方差(Cov(a,a)= Var(a)),因此在主對(duì)角線(左上角到右下角)中,實(shí)際上有每個(gè)起始變量的方差。并且由于協(xié)方差是可交換的(Cov(a,b)= Cov(b,a)),協(xié)方差矩陣的條目相對(duì)于主對(duì)角線是對(duì)稱的,這意味著上三角形部分和下三角形部分是相等的。
作為矩陣條目的協(xié)方差告訴我們變量之間的相關(guān)性是什么呢?
協(xié)方差的重要標(biāo)志如下:
· 如果為正,則兩個(gè)變量同時(shí)增加或減少(相關(guān))
· 如果為負(fù),則一個(gè)減少,另一個(gè)增加(不相關(guān))
好了,現(xiàn)在我們知道協(xié)方差矩陣只不過(guò)是一個(gè)表,匯總了所有可能配對(duì)的變量間相關(guān)性。讓我們繼續(xù)下一步。
第3步:計(jì)算協(xié)方差矩陣的特征向量和特征值,用以識(shí)別主成分
特征向量和特征值都是線性代數(shù)概念,需要從協(xié)方差矩陣計(jì)算得出,以便確定數(shù)據(jù)的主成分。開始解釋這些概念之前,讓我們首先理解主成分的含義。
主成分是由初始變量的線性組合或混合構(gòu)成的新變量。該組合中新變量(如主成分)之間彼此不相關(guān),且大部分初始變量都被壓縮進(jìn)首個(gè)成分中。所以,10維數(shù)據(jù)會(huì)顯示10個(gè)主成分,但是PCA試圖在第一個(gè)成分中得到盡可能多的信息,然后在第二個(gè)成分中得到盡可能多的剩余信息,以此類推。
例如,假設(shè)你有一個(gè)10維數(shù)據(jù),你最終將得到的內(nèi)容如下面的屏幕圖所示,其中第一個(gè)主成分包含原始數(shù)據(jù)集的大部分信息,而最后一個(gè)主成分只包含其中的很少部分。因此,以這種方式組織信息,可以在不丟失太多信息的情況下減少維度,而這需要丟棄攜帶較少信息的成分。
要認(rèn)識(shí)到一件重要的事情是,既然新變量被構(gòu)造為初始變量的線性組合,它們將更加難以解釋,并且對(duì)我們沒有任何實(shí)際意義。
從幾何學(xué)上講,主成分代表了解釋最大方差量的數(shù)據(jù)方向,也就是說(shuō),它們是捕獲數(shù)據(jù)中大部分信息的線。在這里,方差和信息間的關(guān)系是,線所承載的方差越大,數(shù)據(jù)點(diǎn)沿著它的分散也越大,沿著線的散點(diǎn)越多,它所攜帶的信息也越多。簡(jiǎn)單地說(shuō),只要把主成分看作是提供最佳角度來(lái)觀察和評(píng)估數(shù)據(jù)的新軸,這樣觀測(cè)結(jié)果之間的差異就會(huì)更明顯。
PCA如何構(gòu)建主成分?
由于主成分的數(shù)量,如同數(shù)據(jù)中存在的變量一樣多,因此主成分根據(jù)第一主成分占數(shù)據(jù)集中最大可能方差的方式進(jìn)行構(gòu)造。例如,假設(shè)我們的數(shù)據(jù)集的散點(diǎn)圖如下所示,可以猜出第一個(gè)主成分嗎?是的,就是大致與紫色標(biāo)記匹配的線。因?yàn)樗┻^(guò)原點(diǎn),并且它是點(diǎn)(紅點(diǎn))的投影最分散的線?;蛘邚臄?shù)學(xué)上來(lái)講,它是方差最大化的線(從投影點(diǎn)(紅點(diǎn))到原點(diǎn)的平方距離的平均值)。
第二主成分以相同的方式計(jì)算,條件是它與第一主成分并不相關(guān)(即垂直),并且它占第二高方差。
直到計(jì)算出p個(gè)主成分?jǐn)?shù)量,等于原始變量數(shù)。
現(xiàn)在我們理解了主成分的含義,讓我們回到特征向量和特征值。首先,你需要知道的是它們總是成對(duì)出現(xiàn),因此每個(gè)特征向量都有一個(gè)特征值,它們的數(shù)量等于數(shù)據(jù)的維數(shù)。例如,對(duì)于三維數(shù)據(jù)集,存在3個(gè)變量,因此存在3個(gè)具有對(duì)應(yīng)特征值的特征向量。
不用多說(shuō),上面解釋的所有“魔法”都是特征向量和特征值,因?yàn)閰f(xié)方差矩陣的特征向量實(shí)際上是方差最多的軸的方向(或最多的信息),我們稱之為主成分。并且,特征值只是附加到特征向量上的系數(shù),它們給出了每個(gè)主成分中攜帶的方差量。
通過(guò)特征值的順序?qū)μ卣飨蛄窟M(jìn)行排序,從最高到最低,你就得到了按重要性排序的主成分。
舉例:
假設(shè)我們的數(shù)據(jù)集是2維的,有2個(gè)變量x,y,并且協(xié)方差矩陣的特征向量和特征值如下:
如果我們按降序?qū)μ卣髦颠M(jìn)行排序,則得到λ1>λ2,這意味著與第一主成分(PC1)對(duì)應(yīng)的特征向量是v1,而與第二成分(PC2)對(duì)應(yīng)的特征向量是v2。
在有了主成分之后,為了計(jì)算每個(gè)成分所占的方差(信息)百分比,我們將每個(gè)成分的特征值除以特征值的總和。如果我們把這個(gè)計(jì)算法應(yīng)用到上面的例子中,我們會(huì)發(fā)現(xiàn),PC1和PC2分別攜帶了96%和4%的數(shù)據(jù)方差。
第4步:特征向量
正如我們?cè)谏弦徊街兴吹降?,?jì)算特征向量并按其特征值依降序排列,使我們能夠按重要性順序找到主成分。在這個(gè)步驟中我們要做的,是選擇保留所有成分還是丟棄那些重要性較低的成分(低特征值),并與其他成分形成一個(gè)向量矩陣,我們稱之為特征向量。
因此,特征向量只是一個(gè)矩陣,其中包含我們決定保留的成分的特征向量作為列。這是降維的第一步,因?yàn)槿绻覀冞x擇只保留n個(gè)特征向量(分量)中的p個(gè),則最終數(shù)據(jù)集將只有p維。
舉例:
接著上一步的例子,我們可以用v1或v2向量來(lái)形成一個(gè)特征向量。
或者丟棄重要性較小的向量v2,僅用v1形成一個(gè)特征向量。
丟棄特征向量v2將使維數(shù)減少1,并且將導(dǎo)致最終數(shù)據(jù)集中的信息丟失。 但鑒于v2僅攜帶4%的信息,因此損失并不重要,我們?nèi)詫碛衯1所攜帶的96%的信息。
因此,正如我們?cè)诶又锌吹降哪菢?,你可以選擇是保留所有成分還是丟棄不重要的成分,具體取決于你要查找的內(nèi)容。如果你不追求降維,只是想利用不相關(guān)的新變量(主成分)描述你的數(shù)據(jù),則不需要保留重要性較次的成分。
最后一步:沿主成分軸重新繪制數(shù)據(jù)
在前面的步驟中,除了標(biāo)準(zhǔn)化之外,你不需要更改任何數(shù)據(jù),只需選擇主成分,形成特征向量,但輸入數(shù)據(jù)集時(shí)要始終與原始軸統(tǒng)一(即初始變量)。
這一步,也是最后一步,目標(biāo)是使用協(xié)方差矩陣的特征向量去形成新特征向量,將數(shù)據(jù)從原始軸重新定位到由主成分軸中(因此稱為主成分分析)。這可以通過(guò)將原始數(shù)據(jù)集的轉(zhuǎn)置乘以特征向量的轉(zhuǎn)置來(lái)完成。
本文為作者獨(dú)立觀點(diǎn),不代表鳥哥筆記立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對(duì)文章、圖片、字體等版權(quán)有疑問,請(qǐng)點(diǎn)擊 反饋舉報(bào)
我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開放、真實(shí)、專業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對(duì)憲法所確定的基本原則;
2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
11)通過(guò)網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來(lái)激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
6)謾罵:以不文明的語(yǔ)言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來(lái)迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點(diǎn)擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購(gòu)買或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營(yíng)銷內(nèi)容,如通過(guò)偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷;
8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。
5. 不實(shí)信息,主要表現(xiàn)為:
1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過(guò)頭像、用戶名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對(duì)具體風(fēng)水等問題進(jìn)行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過(guò)占卜方法問婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來(lái)誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
5)通過(guò)「蹭熱點(diǎn)」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過(guò)主動(dòng)發(fā)現(xiàn)和接受用戶舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過(guò)作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。
三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過(guò)「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)