很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
2021年剛剛結束,小毛的便利店整體銷量還不錯,年末盤點時發(fā)現(xiàn)由于某種熱銷飲料庫存大約缺少100箱,導致流失了部分營業(yè)額,因此小毛希望通過對歷史年份銷售數(shù)據(jù)的整理,對2022年進貨量和銷售額進行預測,合理制定2022年度購銷計劃,使2022年營業(yè)額邁向更高的臺階。小毛看著滿眼的銷售數(shù)據(jù)陷入了沉思……
在上面案例中,小毛的問題是通過歷史銷售數(shù)據(jù)來預測未來銷售數(shù)據(jù),在統(tǒng)計學領域,可以使用時間序列分析來解答他的問題。時間序列簡單的說就是各時間點上形成的數(shù)值序列,通過觀察歷史數(shù)據(jù)的變化規(guī)律預測未來的值。在這里需要強調(diào)一點的是,時間序列分析并不是關于時間的回歸,它主要是研究自身的變化規(guī)律的。接下來,筆者就跟你淺談一下時間序列分析。
01 時間序列分析的定義
1.1 概念
首先,時間序列定義為在一定時間間隔內(nèi)按時間順序測量的某個數(shù)量。時間序列分析是指將歷史數(shù)據(jù)分解為四部分來看——趨勢、周期、時期和不穩(wěn)定因素,然后綜合這些因素,提出預測。時間序列分為平穩(wěn)序列和非平穩(wěn)序列兩大類。平穩(wěn)序列是不存在趨勢只存在隨機性的序列,非平穩(wěn)序列則是包含趨勢、季節(jié)性和隨機性的序列。
從最廣泛的形式來說,時間序列分析是關于推斷過去一系列數(shù)據(jù)點發(fā)生了什么,并試圖預測未來會發(fā)生什么。時間序列分析試圖了解過去并預測未來。
1.2 分類
通常,時間序列通常包含以下類型:
1、趨勢-趨勢是時間序列中一致的方向性運動。這些趨勢將是確定性的或隨機的。時間序列在長時間內(nèi)呈現(xiàn)出來的長期上升或下降的變動;
2、季節(jié)性變化-許多時間序列都包含季節(jié)性變化。在代表業(yè)務銷售或氣候水平的系列中尤其如此。我們經(jīng)??吹缴唐返募竟?jié)性變化,特別是那些與生長季節(jié)或年度溫度變化有關的商品(例如天然氣)。
3、序列依賴性-時間序列(尤其是金融序列)最重要的特征之一就是序列相關性。當時間上相互靠近的時間序列觀測值傾向于相互關聯(lián)時,就會發(fā)生這種情況。
02 時間序列分析的步驟
時間序列預測的步驟是:
在開始平穩(wěn)性檢驗步驟之前,我首先想和大家分享的是平穩(wěn)性檢驗的目的。平穩(wěn)性檢驗為了確定沒有隨機趨勢或確定趨勢,否則將會產(chǎn)生“偽回歸”問題.偽回歸是說,有時數(shù)據(jù)的高度相關僅僅是因為二者同時隨時間有向上或向下的變動趨勢, 并沒有真正聯(lián)系.這樣數(shù)據(jù)中的趨勢項,季節(jié)項等無法消除, 從而在殘差分析中無法準確進行分析。
2.1 平穩(wěn)性檢驗
(一)圖示法
平穩(wěn)性指的是期望不變,方差恒定,協(xié)方差不隨時間改變,協(xié)方差只依賴于K這個時間跨度,不依賴于時間點t本身。
給定這些假設前提的目的是便于后續(xù)技術上的處理。根據(jù)時序圖粗略來判斷序列是否平穩(wěn),平穩(wěn)時序圖的特征為圍繞均值不斷波動,而非平穩(wěn)時序圖表現(xiàn)為在不同時間段具有不同的均值。圖a為平穩(wěn)時序圖,圖b為非平穩(wěn)時序圖。
然而僅依靠圖像判斷時間序列的平穩(wěn)性,肯定是不精確的,因此需要進行單位根檢驗(DF檢驗和ADF檢驗)進一步判斷。
(二)單位根檢驗
1、DF檢驗
(原假設 H0:序存在單位根 ,即參數(shù)δ=0)
檢驗時間序列的平穩(wěn)性,一般可通過檢驗帶有截距項的一階自回歸模型:
對上式可通過進行普通最小二乘法的t檢驗完成(t檢驗的原假設:H0:βj=0。即若P值<0.05,則拒絕原假設,證明δ≠0,序列平穩(wěn)。
2、ADF檢驗
因DF檢驗假設ut為白噪聲,序列為一階自回歸的模型,但實際上隨機干擾項并非為白噪聲序列,且序列并非為一階自回歸生成,因此用普通最小二乘法進行估計的t統(tǒng)計量會受到無關參數(shù)的影響,導致DF檢驗無效。如果時間序列包含有明顯的隨時間變化的某種趨勢,DF檢驗必須保證能夠剔除這種趨勢,否則時間趨勢的成分會進入ut,導致ut非白噪聲序列,進而偏離了最初的假設。因此形成了ADF檢驗。ADF檢驗是由下面3個模型完成:
其中t為時間變量,代表序列隨時間變化的趨勢。
模型的檢驗原理同DF檢驗,即t檢驗;檢驗順序為(3)、(2)、(1);三個模型全部檢驗通過,才能證明該序列是平穩(wěn)時間序列。
2.2 時間序列常見的三種模型
序列通過平穩(wěn)性檢驗后,就可以建立時間序列模型了,當序列不平穩(wěn)時,對序列進行差分或者取對數(shù)處理。對時序數(shù)據(jù)進行差分處理,例如在R語言的“diff”函數(shù)可確定(P值<0.05,則拒絕原假設,序列不存在單位根,經(jīng)1階差分后,序列平穩(wěn))。
對一個時間序列預處理后檢驗出該序列為平穩(wěn)時間序列說明該模型有提取信息的價值,就要進行下一步的模型建立來擬合該模型然后做出預測。下面介紹擬合時間序列的三個重要模型。
(一)AR(p)模型
自回歸模型(Autoregressive model,簡稱AR模型),用同一變數(shù)例如x的之前各期,亦即x1至xt-1來預測本期xt的表現(xiàn),并假設它們?yōu)橐淮尉€性關系。因為這是從回歸分析中的線性回歸發(fā)展而來,只是不用x預測y,而是用x預測 x(自己);所以叫做自回歸。
AR(p)模型簡記形式如下:
其中p為自回歸階數(shù)。Φ0=0稱為中心化AR(p)模型。p階自回歸模型的自相關系數(shù)拖尾,偏自相關系數(shù)p階截尾。
(二)MA(q)模型
MA模型(moving average model)移動平均模型,簡記形式如下:
其中q為移動平均的階數(shù)。q階移動平均模型自相關系數(shù)q階截尾,偏自相關系數(shù)拖尾。
(三)ARMA(p,q)模型
自回歸滑動平均模型(Autoregressive moving average model,簡稱:ARMA模型)。是研究時間序列的重要方法,由自回歸模型(簡稱AR模型)與移動平均模型(簡稱MA模型)為基礎“混合”構成。它比AR模型法與MA模型法估計更精確,但其參數(shù)估算比較繁瑣。ARMA(p,q)模型簡記形式如下:
當q=0時,ARMA(p,q)模型就退化成了AR(p)模型;
當p=0時,ARMA(p,q)模型就退化成了MA(q)模型;
ARMA(p,q)模型具有自相關系數(shù)不截尾,偏自相關系數(shù)也不截尾的性質(zhì)。
2.3 模型的選擇與定階
了解了時間序列的三種常見模型后,應該如何選擇模型并確定模型的階數(shù)呢?通常使用ACF與PACF圖判定法。
說到時間序列分析,一定離不開自相關函數(shù)(auto-correlation function,ACF)和偏自相關函數(shù)(Partial auto-correlation function,PACF),ACF可以提供具有滯后值的任何序列的自相關值。簡單來說,它描述了該序列的當前值與其過去的值之間的相關程度。時間序列可以包含趨勢,季節(jié)性,周期性和殘差等成分。ACF在尋找相關性時會考慮所有這些成分。直觀上來說,ACF 描述了一個觀測值和另一個觀測值之間的自相關,包括直接和間接的相關性信息。
PACF可以提供殘差(在去除了之前的滯后已經(jīng)解釋的影響之后仍然存在)與下一個滯后值的相關性。因此,如果殘差中有任何可以由下一個滯后建模的隱藏信息,我們可能會獲得良好的相關性,并且在建模時我們會將下一個滯后作為特征。
討論完兩個重要函數(shù)后,就成功了一半,接下來就是選擇模型和確定階數(shù)了,由此引入兩個詞:截尾和拖尾。截尾是指時間序列的自相關函數(shù)(ACF)或偏自相關函數(shù)(PACF)在大于某個常數(shù)k后快速趨于0為k階截尾;拖尾是ACF或PACF始終有非零取值,不會在k大于某個常數(shù)后就恒等于零(或在0附近隨機波動)。趨于0在實際分析過程中通常被處理為在2倍標準差之內(nèi)。
以上面兩張圖為例,ACF拖尾,PACF一階截尾,因此可以選擇AR(1)模型進行擬合,說到模型擬合,各位統(tǒng)計學前輩早已為我們總結好以下規(guī)律:
2.4 模型的確定與檢驗
通過以上內(nèi)容,大家對時間序列的三種模型有了初步了解。那么應該如何確定最優(yōu)模型呢?通常有以下幾點:
(1)同一種模型,在盡可能描述數(shù)據(jù)信息的前提下選擇低階模型,階數(shù)越高,模型會越復雜
(2)高階AR(p)、MA(q)模型與較低階ARMA(p,q)模型之間選擇較低階ARMA(p,q)模型
(3)合適模型的殘差應滿足均值為零的正態(tài)分布,而且任何滯后階數(shù)的殘差相關系數(shù)都為零。
接下來分享的是殘差檢驗的方法:
方法一:通過繪制正態(tài)分布的QQ來檢驗:圖像近似為過原點的一條直線,則殘差服從正態(tài)分布且均值為零。該步驟可通過R語言的“qqnormt”函數(shù)實現(xiàn)。如下圖:
方法二:通過R語言的“Box.test”函數(shù)實現(xiàn)該檢驗,若P>0.05,接受原假設,即任何滯后階數(shù)的殘差都不相關,殘差檢驗通過。
03 示例分享
回到開頭的例子,當小毛同學拿到數(shù)據(jù)后首先應該繪制銷售額隨時間變化的曲線,觀察數(shù)據(jù)的整體趨勢,如果有季節(jié)性趨勢,應該利用差分或者移動平均的方法消除季節(jié)因素,接下來在消除增長趨勢,然后利用單位根檢驗來檢驗數(shù)據(jù)的平穩(wěn)性,最后利用數(shù)據(jù)的ACF和PACF函數(shù)確定階數(shù)和模型。其實在這一步有一種偷懶的辦法就是利用R語言中的auto.arima”函數(shù)可自動篩選出p,q,但還是希望大家能夠了解背后的邏輯。模型確定好之后可以利用R語言中的forecast函數(shù)預測未來N期的銷量,至此小毛的預測工作終于可以告一段落了。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權歸屬本網(wǎng)站所有)