導航:首頁 > 研究方法 > 時間序列分析高階統計量方法

時間序列分析高階統計量方法

發布時間:2022-04-23 02:31:07

㈠ 時間序列分析法的具體演算法

用隨機過程理論和數理統計學方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題。由於在多數問題中,隨機數據是依時間先後排成序列的,故稱為時間序列。它包括一般統計分析(如自相關分析、譜分析等),統計模型的建立與推斷,以及關於隨機序列的最優預測、控制和濾波等內容。經典的統計分析都假定數據序列具有獨立性,而時間序列分析則著重研究數據序列的相互依賴關系。後者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。例如,用x(t)表示某地區第t個月的降雨量,{x(t),t=1,2,…}是一時間序列。對t=1,2,…,T,記錄到逐月的降雨量數據x(1),x(2),…,x(T),稱為長度為T的樣本序列。依此即可使用時間序列分析方法,對未來各月的雨量x(T+l)(l=1,2,…)進行預報。時間序列分析在第二次世界大戰前就已應用於經濟預測。二次大戰中和戰後,在軍事科學、空間科學和工業自動化等部門的應用更加廣泛。
就數學方法而言,平穩隨機序列(見平穩過程)的統計分析,在理論上的發展比較成熟,從而構成時間序列分析的基礎。 一個時間序列可看成各種周期擾動的疊加,頻域分析就是確定各周期的振動能量的分配,這種分配稱為「譜」,或「功率譜」。因此頻域分析又稱譜分析。譜分析中的一個重要統計量是 ,稱為序列的周期圖。當序列含有確定性的周期分量時,通過I(ω)的極大值點尋找這些分量的周期,是譜分析的重要內容之一。在按月記錄的降雨量序列中,序列x(t)就可視為含有以12為周期的確定分量,所以序列x(t)可以表示為 ,它的周期圖I(ω)處有明顯的極大值。
當平穩序列的譜分布函數F(λ)具有譜密度ƒ(λ)(即功率譜)時,可用(2π)-1I(λ)去估計ƒ(λ),它是ƒ(λ)的漸近無偏估計。如欲求ƒ(λ)的相合估計(見點估計),可用I(ω)的適當的平滑值去估計ƒ(λ),常用的方法為譜窗估計即取ƒ(λ)的估計弮(λ)為 ,式中wt(ω)稱為譜窗函數。譜窗估計是實際應用中的重要方法之一。譜分布F(λ)本身的一種相合估計可由I(ω)的積分直接獲得,即 。研究以上各種估計量的統計性質,改進估計方法,是譜分析的重要內容。 如果時間序列x(t)可表示為確定性分量φ(t)與隨機性分量ω(t)之和,根據樣本值x(1),x(2),…,x(T)來估計φ(t)及分析ω(t)的統計規律,屬於時間序列分析中的回歸分析問題。它與經典回歸分析不同的地方是,ω(t)一般不是獨立同分布的,因而在此必須涉及較多的隨機過程知識。當φ(t)為有限個已知函數的未知線性組合時,即 ,式中ω(t)是均值為零的平穩序列,α1,α2,…,αs是未知參數,φ1(t),φ2(t),…,φs(t)是已知的函數,上式稱為線性回歸模型,它的統計分析已被研究得比較深入。前面敘述的降雨量一例,便可用此類模型描述。回歸分析的內容包括:當ω(t)的統計規律已知時,對參數α1,α2,…,αs進行估計,預測x(T+l)之值;當ω(t)的統計規律未知時,既要估計上述參數,又要對ω(t)進行統計分析,如譜分析、模型分析等。在這些內容中,一個重要的課題是:在相當廣泛的情況下,證明 α1,α2,…,αs的最小二乘估計,與其線性最小方差無偏估計一樣,具有相合性和漸近正態分布性質。最小二乘估計姙j(1≤j≤s)不涉及ω(t)的統計相關結構,是由數據x(1),x(2),…,x(T)直接算出,由此還可得(t)進行時間序列分析中的各種統計分析,以代替對ω(t)的分析。在理論上也已證明,在適當的條件下,這樣的替代具有滿意的漸近性質。由於ω(t)的真值不能直接量測,這些理論結果顯然有重要的實際意義。這方面的研究仍在不斷發展。
時間序列分析中的最優預測、控制與濾波等方面的內容見平穩過程條。多維時間序列分析的研究有所進展,並應用到工業生產自動化及經濟分析中。此外非線性模型統計分析及非參數統計分析等方面也逐漸引起人們的注意。

㈡ 常用統計分析方法有哪些

1、對比分析法

對比分析法指通過指標的對比來反映事物數量上的變化,屬於統計分析中常用的方法。常見的對比有橫向對比和縱向對比。

橫向對比指的是不同事物在固定時間上的對比,例如,不同等級的用戶在同一時間購買商品的價格對比,不同商品在同一時間的銷量、利潤率等的對比。

縱向對比指的是同一事物在時間維度上的變化,例如,環比、同比和定基比,也就是本月銷售額與上月銷售額的對比,本年度1月份銷售額與上一年度1月份銷售額的對比,本年度每月銷售額分別與上一年度平均銷售額的對比等。利用對比分析法可以對數據規模大小、水平高低、速度快慢等做出有效的判斷和評價。

2、分組分析法

分組分析法是指根據數據的性質、特徵,按照一定的指標,將數據總體劃分為不同的部分,分析其內部結構和相互關系,從而了解事物的發展規律。

根據指標的性質,分組分析法分為屬性指標分組和數量指標分組。所謂屬性指標代表的是事物的性質、特徵等,如姓名、性別、文化程度等,這些指標無法進行運算;而數據指標代表的數據能夠進行運算,如人的年齡、工資收入等。分組分析法一般都和對比分析法結合使用。

3、預測分析法

預測分析法主要基於當前的數據,對未來的數據變化趨勢進行判斷和預測。預測分析一般分為兩種:一種是基於時間序列的預測,例如,依據以往的銷售業績,預測未來3個月的銷售額;另一種是回歸類預測,即根據指標之間相互影響的因果關系進行預測,例如,根據用戶網頁瀏覽行為,預測用戶可能購買的商品。

4、漏斗分析法

漏斗分析法也叫流程分析法,它的主要目的是專注於某個事件在重要環節上的轉化率,在互聯網行業的應用較普遍。比如,對於信用卡申請的流程,用戶從瀏覽卡片信息,到填寫信用卡資料、提交申請、銀行審核與批卡。

最後用戶激活並使用信用卡,中間有很多重要的環節,每個環節的用戶量都是越來越少的,從而形成一個漏斗。使用漏斗分析法,能使業務方關注各個環節的轉化率,並加以監控和管理,當某個環節的轉換率發生異常時,可以有針對性地優化流程,採取適當的措施來提升業務指標。

5、AB測試分析法

AB 測試分析法其實是一種對比分析法,但它側重於對比A、B兩組結構相似的樣本,並基於樣本指標值來分析各自的差異。

例如,對於某個App的同一功能,設計了不同的樣式風格和頁面布局,將兩種風格的頁面隨機分配給使用者,最後根據用戶在該頁面的瀏覽轉化率來評估不同樣式的優劣,了解用戶的喜好,從而進一步優化產品。

除此之外,要想做好數據分析,讀者還需掌握一定的數學基礎,例如,基本統計量的概念(均值、方差、眾數、中位數等),分散性和變異性的度量指標(極差、四分位數、四分位距、百分位數等),數據分布(幾何分布、二項分布等),以及概率論基礎、統計抽樣、置信區間和假設檢驗等內容,通過相關指標和概念的應用,讓數據分析結果更具專業性。

㈢ 年限比較少的時間序列分析用什麼方法

時間序列分析
編輯

時間序列分析(Time series analysis)是一種動態數據處理的統計方法。該方法基於隨機過程理論和數理統計學方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題。
目錄
1簡介
2參考
3組成要素
4基本步驟
5主要用途
▪ 系統描述
▪ 系統分析
▪ 預測未來
▪ 決策和控制
6具體演算法
1簡介編輯
它包括一般統計分析(如自相關分析,譜分析等),統計模型的建立與推斷,以及關於時間序列的最優預測、控制與濾波等內容。經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列的互相依賴關系。後者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。例如,記錄了某地區第一個月,第二個月,……,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。
隨著計算機的相關軟體的開發,數學知識不再是空談理論,時間序列分析主要是建立在數理統計等知識之上,應用相關數理知識在相關方面的應用等。
2參考編輯
參考自:科學技術方法大辭典
時間序列是按時間順序的一組數字序列。時間序列分析就是利用這組數列,應用數理統計方法加以處理,以預測未來事物的發展。時間序列分析是定量預測方法之一,它的基本原理:一是承認事物發展的延續性。應用過去數據,就能推測事物的發展趨勢。二是考慮到事物發展的隨機性。任何事物發展都可能受偶然因素影響,為此要利用統計分析中加權平均法對歷史數據進行處理。該方法簡單易行,便於掌握,但准確性差,一般只適用於短期預測。時間序列預測一般反映三種實際變化規律:趨勢變化、周期性變化、隨機性變化。
時間序列分析是根據系統觀測得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法。它一般採用曲線擬合和參數估計方法(如非線性最小二乘法)進行。時間序列分析常用在國民經濟宏觀控制、區域綜合發展規劃、企業經營管理、市場潛量預測、氣象預報、水文預報、地震前兆預報、農作物病蟲災害預報、環境污染控制、生態平衡、天文學和海洋學等方面。
3組成要素編輯
一個時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
趨勢:是時間序列在長時期內呈現出來的持續向上或持續向下的變動。
季節變動:是時間序列在一年內重復出現的周期性波動。它是諸如氣候條件、生產條件、節假日或人們的風俗習慣等各種因素影響的結果。
循環波動:是時間序列呈現出得非固定長度的周期性變動。循環波動的周期可能會持續一段時間,但與趨勢不同,它不是朝著單一方向的持續變動,而是漲落相同的交替波動。
不規則波動:是時間序列中除去趨勢、季節變動和周期波動之後的隨機波動。不規則波動通常總是夾雜在時間序列中,致使時間序列產生一種波浪形或震盪式的變動。只含有隨機波動的序列也稱為平穩序列。
4基本步驟編輯
時間序列建模基本步驟是:
①用觀測、調查、統計、抽樣等方法取得被觀測系統時間序列動態數據。
②根據動態數據作相關圖,進行相關分析,求自相關函數。相關圖能顯示出變化的趨勢和周期,並能發現跳點和拐點。跳點是指與其他數據不一致的觀測值。如果跳點是正確的觀測值,在建模時應考慮進去,如果是反常現象,則應把跳點調整到期望值。拐點則是指時間序列從上升趨勢突然變為下降趨勢的點。如果存在拐點,則在建模時必須用不同的模型去分段擬合該時間序列,例如採用門限回歸模型。
③辨識合適的隨機模型,進行曲線擬合,即用通用隨機模型去擬合時間序列的觀測數據。對於短的或簡單的時間序列,可用趨勢模型和季節模型加上誤差來進行擬合。對於平穩時間序列,可用通用ARMA模型(自回歸滑動平均模型)及其特殊情況的自回歸模型、滑動平均模型或組合-ARMA模型等來進行擬合。當觀測值多於50個時一般都採用ARMA模型。對於非平穩時間序列則要先將觀測到的時間序列進行差分運算,化為平穩時間序列,再用適當模型去擬合這個差分序列。
5主要用途編輯
系統描述
根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述。
系統分析
當觀測值取自兩個以上變數時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產生的機理。
預測未來
一般用ARMA模型擬合時間序列,預測該時間序列未來值。
決策和控制
根據時間序列模型可調整輸入變數使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制。
6具體演算法編輯
用隨機過程理論和數理統計學方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題。由於在多數問題中,隨機數據是依時間先後排成序列的,故稱為時間序列。它包括一般統計分析(如自相關分析、譜分析等),統計模型的建立與推斷,以及關於隨機序列的最優預測、控制和濾波等內容。經典的統計分析都假定數據序列具有獨立性,而時間序列分析則著重研究數據序列的相互依賴關系。後者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。例如,用x(t)表示某地區第t個月的降雨量,{x(t),t=1,2,…}是一時間序列。對t=1,2,…,T,記錄到逐月的降雨量數據x(1),x(2),…,x(T),稱為長度為T的樣本序列。依此即可使用時間序列分析方法,對未來各月的雨量x(T+l)(l=1,2,…)進行預報。時間序列分析在第二次世界大戰前就已應用於經濟預測。二次大戰中和戰後,在軍事科學、空間科學和工業自動化等部門的應用更加廣泛。
就數學方法而言,平穩隨機序列(見平穩過程)的統計分析,在理論上的發展比較成熟,從而構成時間序列分析的基礎。
頻域分析 一個時間序列可看成各種周期擾動的疊加,頻域分析就是確定各周期的振動能量的分配,這種分配稱為「譜」,或「功率譜」。因此頻域分析又稱譜分析。譜分析中的一個重要統計量是 ,稱為序列的周期圖。當序列含有確定性的周期分量時,通過I(ω)的極大值點尋找這些分量的周期

公式
,是譜分析的重要內容之一。在按月記錄的降雨量序列中,序列x(t)就可視為含有以12為周期的確定分量,所以序列x(t)可以表示為 ,它的周期圖I(ω)處有明顯的極大值。
當平穩序列的譜分布函數F(λ)具有譜密度ƒ(λ)(即功率譜)時,

公式
可用(2π)-1I(λ)去估計ƒ(λ),它是ƒ(λ)的漸近無偏估計。如欲求ƒ(λ)的相合估計(見點估計),可用I(ω)的適當的平滑值去估計ƒ(λ),常用的方法為譜窗估計即取ƒ(λ)的估計弮(λ)為 ,式中wt(ω)稱為譜窗函數。譜窗估計是實際應用中的重要方法之一。譜分布F(λ)本身的一種相合估計可由I(ω)的積分直接獲得,即 。研究以上各種估計量的統計性質,改進估計方法,是譜分析的重要內容。

公式
時域分析 它的目的在於確定序列在不同時刻取值的相互依賴關系,或者說,確定序列的相關結構。這種結構是用序列的自相關函0,1,…)來描述的,為序列的自協方差函數值,m=Ex(t)是平穩序列的均值。常常採用下列諸

公式
式給出m,γ(k),ρ(k)的估計: ,通(k)了解序列的相關結構,稱為自相關分析。研究它們的強、弱相合性及其漸近分布等問題,是相關分析中的基本問題。

公式
模型分析 20世紀70年代以來,應用最廣泛的時間序列模型是平穩自回歸-滑動平均模型 (簡稱ARMA模型)。其形狀為: 式中ε(t)是均值為零、方差為σ2的獨立同分布的隨機序列;和σ2為模型的參數,它們滿足: 對一切|z|≤1的復數z成立。p和q是模型的階

公式
數,為非負整數。特別當q=0時,上述模型稱為自回歸模型;當p=0時, 稱為滑動平均模型。根據x(t)的樣本值估計這些參數和階數,就是對這種模型的統計分析的內容。對

公式
於滿足ARMA模型的平穩序列,其線性最優預測與控制等問題都有較簡捷的解決方法,尤其是自回歸模型,使用更為方便。G.U.尤爾在1925~1930年間就提出了平穩自回歸

公式
的概念。1943年,Η.Β.曼和Α.瓦爾德發表了關於這種模型的統計方法及其漸近性質的一些理論結果。一般ARMA模型的統計分析研究,則是20世紀60年代後才發展起來

公式
的。特別是關於p,q值的估計及其漸近理論,出現得更晚些。除ARMA模型之外,還有其他的模型分析的研究,其中以線性模型的研究較為成熟,而且都與ARMA模型分析有密切關系。

公式

公式
回歸分析 如果時間序列x(t)可表示為確定性分量φ(t)與隨機性分量ω(t)之和,根據樣本值x(1),x(2),…,x(T)來估計φ(t)及分析ω(t)的統計規律,屬於時間序列分析中的回歸分析問題。它與經典回歸分析不同的地方是,ω(t)一般不

公式
是獨立同分布的,因而在此必須涉及較多的隨機過程知識。當φ(t)為有限個已知函數的未知線性組合時,即 ,式中ω(t)是均值為零的平穩序列,α1,α2,…,αs是未知參數,φ1(t),φ2(t),…,φs(t)是已知的函數,上式稱為線性回歸模型,它的統計分析已被研究得比較深入。前面敘述的降雨量一例,便可用此類模型描述。回歸分析的內容包括:當ω(t)的統計規律已知時,對參數α1,α2,…,αs進行估計,預測x(T+l)之值;當ω(t)的統計規律未知時,既要估計上述參數,又要對ω(t)

公式
進行統計分析,如譜分析、模型分析等。在這些內容中,一個重要的課題是:在相當廣泛的情況下,證明 α1,α2,…,αs的最小二乘估計,與其線性最小方差無偏估計一樣,具有相合性和漸近正態分布性質。最小二乘估計姙j(1≤j≤s)不涉及ω(t)的統計相關結構,是由數據x(1),x(2),…,x(T)直接算出,由此還可得公式(t)
公式
進行時間序列分析中的各種統計分析,以代替對ω(t)的分析。在理論上也已證明,在適當的條件下,這樣的替代具有滿意的漸近性質。由於ω(t)的真值不能直接量測,這些理論結果顯然有重要的實際意義。這方面的研究仍在不斷發展。
時間序列分析中的最優預測、控制與濾波等方面的內容見平穩過程條。近年來多維時間序列分析的研究有所進展,並應用到工業生產自動化及經濟分析中。此外非線性模型統計分析及非參數統計分析等方面也逐漸引起人們的注意。

㈣ 時間序列的種類

一、絕對數時間序列

1、時期序列:由時期總量指標排列而成的時間序列 。

時期序列的主要特點有:

1)、序列中的指標數值具有可加性。

2)、序列中每個指標數值的大小與其所反映的時期長短有直接聯系。

3)、序列中每個指標數值通常是通過連續不斷登記匯總取得的。

2、時點序列:由時點總量指標排列而成的時間序列

時點序列的主要特點有:

1)、序列中的指標數值不具可加性。

2)、序列中每個指標數值的大小與其間隔時間的長短沒有直接聯系。

3)、序列中每個指標數值通常是通過定期的一次登記取得的。

二、相對數時間序列

把一系列同種相對數指標按時間先後順序排列而成的時間序列叫做相對數時間序列。

三、平均數時間序列

平均數時間序列是指由一系列同類平均指標按時間先後順序排列的時間序列。

(4)時間序列分析高階統計量方法擴展閱讀

時間序列數據變動存在著規律性與不規律性

時間序列中的每個觀察值大小,是影響變化的各種不同因素在同一時刻發生作用的綜合結果。從這些影響因素發生作用的大小和方向變化的時間特性來看,這些因素造成的時間序列數據的變動分為四種類型。

1、趨勢性:某個變數隨著時間進展或自變數變化,呈現一種比較緩慢而長期的持續上升、下降、停留的同性質變動趨向,但變動幅度可能不相等。

2、周期性:某因素由於外部影響隨著自然季節的交替出現高峰與低谷的規律。

3、隨機性:個別為隨機變動,整體呈統計規律。

4、綜合性:實際變化情況是幾種變動的疊加或組合。預測時設法過濾除去不規則變動,突出反映趨勢性和周期性變動。

怎麼利用svm對時間序列進行建模

SVM理論是在統計學習理論的基礎上發展起來的,由於統計學習理論和SVM方法對有限樣本情況下模式識別中的一些根本性的問題進行了系統的理論研究,很大程度上解決了以往的機器學習中模型的選擇與過學習問題、非線性和維數災難、局部極小點問題等。應用SVM進行回歸預測的步驟具體如下:
1)實驗規模的選取,決定訓練集的數量、測試集的數量,以及兩者的比例;2)預測參數的選取;3)對實驗數據進行規范化處理;4)核函數的確定;5)核函數參數的確定。其中參數的選擇對SVM的性能來說是十分重要的,對於本文的核函數使用RBF核函數,對於RBF核函數,SVM參數包括折衷參數C、核寬度C和不敏感參數E。目前SVM方法的參數、核函數的參數選擇,在國際上都還沒有形成統一的模式,也就是說最優SVM演算法參數選擇還只能是憑借經驗、實驗對比、大范圍的搜尋和交叉檢驗等進行尋優。實際應用中經常為了方便,主觀設定一個較小的正數作為E的取值,本文首先在C和C的一定范圍內取多個值來訓練,定下各個參數取值的大概范圍,然後利用留一法來具體選定參數值
股價時間序列的SVM模型最高階確定
股價數據是一個時間序列,從時間序列的特徵分析得知,股價具有時滯、後效性,當天的股價不僅還與當天各種特徵有關,還與前幾天的股價及特徵相關,所以有必要把前幾天的股價和特徵作為自變數來考慮。最高階確定基本原理是從低階開始對系統建模,然後逐步增加模型的階數,並用F檢驗對這些模型進行判別來確定最高階n,這樣才能更客觀反映股票價格的時滯特性。具體操作步驟如下:假定一多輸入單輸出回歸模型有N個樣本、一個因變數(股價)、m- 1個自變數(特徵),由低階到高階遞推地採用SVM模型去擬合系統(這兒的拓階就是把昨天股價當做自變數,對特徵同時拓階),並依次對相鄰兩個SVM模型採用F檢驗的方法判斷模型階次增加是否合適[ 7]。對相鄰兩模型SVM ( n)和SVM ( n+ 1)而言,有統計量Fi為:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服從自由度分別為m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分別為SVR ( n)和QSVR( n+1)的剩餘離差平方和,若Fi< F(?,m, N-m n- (m-1) ),則SVM (n )模型是合適的;反之,繼續拓展階數。
前向浮動特徵篩選
經過上述模型最高階數的確定後,雖然確定了階數為n的SVM模型,即n個特徵,但其中某些特徵對模型的預測精度有不利影響,本文採用基於SVM和留一法的前向浮動特徵特徵篩選演算法選擇對提高預測精度有利影響的特徵。令B= {xj: j=1,2,,, k}表示特徵全集, Am表示由B中的m個特徵組成的特徵子集,評價函數MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文採用的前向浮動特徵篩選演算法如下[9]:1)設置m =0, A0為空集,利用前向特徵篩選方法尋找兩個特徵組成特徵子集Am(m =2);2)使用前向特徵篩選方法從未選擇的特徵子集(B -Am)中選擇特徵xm +1,得到子集Am+1;3)如果迭代次數達到預設值則退出,否則執行4);4)選擇特徵子集Am+1中最不重要的特徵。如果xm+1是最不重要的特徵即對任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那麼令m = m +1,返回2) (由於xm+1是最不重要的特徵,所以無需從Am中排除原有的特徵);如果最不重要的特徵是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,設置Am= A'm,J (Am) = J (A'm), ,返回2),否則轉向步驟5);5)在特徵子集A'm中尋找最不重要的特徵xs,如果MSE (A'm- xs)EM SE (Am-1),那麼設置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那麼A'm從中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,設置Am= A'm, MSE (Am) = MSE (A'm)返回2),否則轉向5)。最後選擇的特徵用於後續建模預測。
預測評價指標及參比模型
訓練結果評估階段是對訓練得出的模型推廣能力進行驗證,所謂推廣能力是指經訓練後的模型對未在訓練集中出現的樣本做出正確反應的能力。為了評價本文模型的優劣,選擇BPANN、多變數自回歸時間序列模型( CAR)和沒有進行拓階和特徵篩選的SVM作為參比模型。採用均方誤差(mean squared error, MSE)和平均絕對誤差百分率(mean ab-solute percentage error, MAPE)作為評價指標。MSE和MAP定義如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi為真值, y^i為預測值, n為預測樣本數。如果得出M SE, MAPE結果較小,則說明該評估模型的推廣能力強,或泛化能力強,否則就說明其推廣能力較差

㈥ 張賢達的研究概況

[1] 音頻信號的盲分離與半盲分離研究 國際合作 2002年9月至今
[2] 未來移動通信系統關鍵理論與技術研究 國家自然科學基金重大項目 2004年1月至今
[3] 特徵提取的Monte-Carlo方法及其在盲信號分離與盲多用戶檢測中的應用 國家自然科學基金 2004年1月至今
[4] 基於高分辯雷達的目標特徵提取和識別技術研究 航天支撐技術基金項目 2004年1月至今 [1] 張賢達. 現代信號處理(第二版). 清華大學出版社,2002
[2] 張賢達,保錚. 通信信號處理. 國防工業出版社,2000
[3] 張賢達,保錚. 非平穩信號分析與處理. 國防工業出版社,1998
[4] 張賢達. 信號處理中的線性代數. 科學出版社,1997
[5] 張賢達. 時間序列分析--高階統計量方法. 清華大學出版社,1996
[6] 張賢達. 現代信號處理. 清華大學出版社,1995
[7] Xiao-Long Zhu, Xian-Da Zhang, Ji-Ming Ye. Natural gradient-based recursive least- squares algorithm for adaptive blind source separation. Science in China, Series F,vol.47, pp.55-65, 2004.
[8] Feng DZ, Zhang XD, Bao Z.. Neural network learning for principal component analysis: A multistage decomposition approach. Chinese J Electronics,vol.13, No.1, 1-7, 2004.
[9] Chen JF, Zhang XD, Wu YT. An algorithm for joint estimating range, DOA and frequency of near-field sources. Chinese J Electronics,vol.13, No.1, 19-23, 2004.
[10] Heng Yang and Xian-Da Zhang. A fast maximum likelihood sequence decoding method for multi-carrier DS-CDMA using frequency spread coding. IEEE Transactions on Wireless Communications,vol.3, no.3, pp.770-780, May, 2004.
[11] Shun-Tian Lou and Xian-Da Zhang. Fuzzy-based learning rate determination for blind source separation. IEEE Transactions on Fuzzy Systems,vol.11, no.3, pp.375-383, June 2003.
[12] Xi-Kai Zhao and Xian-Da Zhang. Peak-to-average power ratio analysis in multicarrier DS-CDMA. IEEE Transactions on Vehicular Technology,vol.52, no.3, pp.561-568, May 2003.
[13] Zhang Xianda, Zhu Xiaolong, Bao Zheng. Grading learning for blind source separation. Science in China, Series F,vol.46, no.1, 31-44, 2003.
[14] Da-Zheng Feng, Xian-Da Zhang, Zheng Bao. An efficient multistage decomposition approach for independent components. Signal Processing,vol.83, no.1, p.181-197, 2003
[15] Peng-Long Shui, Zheng Bao, Xian-Da Zhang. Two-channel adaptive biorthogonal filterbanks. Signal Processing,vol.82, no.6, pp.881-893, Jun 2002.
[16] 張賢達,朱孝龍,保錚. 基於分階段學習的盲信號分離. 中國科學(E輯),vol.32, no.5, pp.693-703, 2002.
[17] Xian-Da Zhang and Wei Wei. Blind adaptive multiuser detection based on Kalman filtering. IEEE Transactions on Signal Processing,vol.50, no.1, pp.87-95, Jan. 2002.
[18] Xiao-Long Zhu and Xian-Da Zhang. Adaptive RLS algorithm for blind source separation using a natural gradient. IEEE Signal Processing Letters,vol.9, no.12, 432-435, Dec. 2002.
[19] Yu Shi and Xian-Da Zhang. A Gabor atom network for signal classification with application in radar target recognition. IEEE Transactions on Signal Processing,vol.49, no.12, pp.2994-3004, Dec. 2001.
[20] Xian-Da Zhang, Yu Shi and Zheng Bao. A new feature using selected bispectra for signal classification with application in radar target recognition. IEEE Transactions on Signal Processing,vol.49, no.9, pp.1875-1885, Sept. 2001.
[21] Peng-Lang Shui, Zheng Bao and Xian-Da Zhang. M-band compactly supported orthogonal symmetric interpolating scaling functions. IEEE Transactions on Signal Processing,vol.49, no.8, pp.1704-1713, Aug. 2001.
[22] Yang-Wang Fang, Li-Cheng Jiao, Xian-Da Zhang and Jin Pan. On the convergence of Volterra filter equalizers using a Pth-order inverse approach. IEEE Transactions on Signal Processing,vol.49, no.8, pp.1734-1744, Aug. 2001.
[23] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. Cross-associative neural network for SVD of non-squared data matrix in signal processing. IEEE Transactions on Neural Networks,vol.12, no.5, pp.1215-1221, Sept. 2001.
[24] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. A bi-iteration instrumental variable noise-subspace tracking algorithm. Signal Processing,vol.81, pp.2215-2221, 2001.
[25] Da-Zheng Feng, He-Qing Zhang, Xian-Da Zhang and Zheng Bao. An extended recursive least-squares algorithm. Signal Processing,vol.81, no.5, pp.1075-1081, 2001.
[26] Xi-Kai Zhao, Xian-Da Zhang. Performance analysis on a class of inverse filter criteria for blind deconvolution. Chinese Journal of Electronics,10 (4): 435-438, Oct. 2001.
[27] Lei Zhou, Xiao-Bo Zhou, Xian-Da Zhang. Pilot symbol assisted channel estimation based on fuzzy system. Chinese Journal of Electronics,9 (4): 442-444 Oct. 2000.
[28] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. Modified RLS algorithm for unbiased estimation of FIR system with input and output noise. Electronics Letters, vol.36, no.3, pp.273-274, 2000.
[29] Yu Shi and Xian-Da Zhang. Kalman-filtering-based angular velocity estimation using infrared attitude information of spacecraft. Optical Engineering,vol.39, no.2, pp.551-557, 2000.
[30] Xiang Yu and Xian-Da Zhang. A new blind identification method for DS-CDMA systems with antenna array under multipath fading. IEEE J. on Selected Areas in Communications,vol.17, no.12, pp.2154-2161, Dec. 1999.
[31] Xian-Da Zhang, Yu Song and Yan-Da Li. Adaptive Identification of Nonminimum Phase ARMA Models Using Higher-Order Cumulants alone. IEEE Transactions on Signal Processing,vol.44, pp.1285-1288, 1996.
[32] Chuang Bai Xiao, Xian-Da Zhang and Yan-Da Li. A method for AR order determination of an ARMA process. IEEE Transactions on Signal Processing,vol.44, pp.2900-2903, 1996.
[33] Xian-Da Zhang and Ying-Chang Liang. Prefiltering-based ESPRIT for estimating parameters of sinusoids in non-Gaussian ARMA noise. IEEE Transactions on Signal Processing,vol.43, pp.349-353, 1995.
[34] Xian-Da Zhang and Yuan-Sheng Zhang. FIR System Identification Using Higher-Order Cumulants alone. IEEE Transactions on Signal Processing,vol.42, pp.2854-2858, 1994.
[35] Xian-Da Zhang and Yan-Da Li. Harmonic retrieval in mixed Gaussian and non-Gaussian ARMA noises. IEEE Transactions on Signal Processing,vol.42, pp.3539-3543, 1994.
[36] Xian-Da Zhang, Ying-Chang Liang and Yan-Da Li. A hybrid approach to harmonic retrieval in non-Gaussian noise. IEEE Transactions on Information Theory,vol.40, pp.1220-1226, 1994.
[37] Xian-Da Zhang and Yuan-Sheng Zhang. Determination of the MA order of an ARMA process Using Sample Correlations. IEEE Transactions on Signal Processing,vol.41, pp.2277-2280, 1993.
[38] Xian-Da Zhang and Yuan-Sheng Zhang. Singular Value Decomposition-based MA order Determination of non-Gaussian ARMA models. IEEE Transactions on Signal Processing,vol.41, pp.2657-2664, 1993.
[39] Xian-Da Zhang and Yan-Li Zhou. A novel recursive approach to estimating MA parameters of causal ARMA models from cumulants. IEEE Transactions on Signal Processing,vol.40, pp.2870-2873, 1992.
[40] Xian-Da Zhang and Jie Cheng. High resolution two-dimensional ARMA spectral estimation. IEEE Transactions on Signal Processing,vol.39, pp.765-770, 1991.
[41] Xian-Da Zhang. On the estimation of two-dimensional moving average parameters. IEEE Transactions on Automatic Control,vol.36, pp.1196-1199, 1991.
[42] Xian-Da Zhang. Two-dimensional harmonic retrieval and its time-domain analysis technique. IEEE Transactions on Information Theory,vol.37, 1185-1188, 1991.
[43] Xian-Da Zhang and Da-Yong Cui. Performance analysis of Kimura and Honoki』s hybrid approach to 2-D spectral estimation. IEEE Transactions on, Speech, Signal Processing,vol.38, pp.191-193, 1990.
[44] Xian-Da Zhang and Hiroshi Takeda. An approach to time series analysis and ARMA spectral estimation. IEEE Transactions on Acoustics, Speech, Signal Processing,vol.35, pp.1303-1313, 1987.
[45] Xian-Da Zhang and Hiroshi Takeda. An order recursive generalized least-squares algorithm for system identification. IEEE Transactions on Automatic Control,vol.30, pp.1224-1227, 1985.

㈦ 對時間序列的分析方法有哪幾種

1、 時間序列 取自某一個隨機過程,如果此隨機過程的隨機特徵不隨時間變化,則我們稱過程是平穩的;假如該隨機過程的隨機特徵隨時間變化,則稱過程是非平穩的。 2、 寬平穩時間序列的定義:設時間序列 ,對於任意的 , 和 ,滿足: 則稱 寬平穩。 3、Box-Jenkins方法是一種理論較為完善的統計預測方法。他們的工作為實際工作者提供了對時間序列進行分析、預測,以及對ARMA模型識別、估計和診斷的系統方法。使ARMA模型的建立有了一套完整、正規、結構化的建模方法,並且具有統計上的完善性和牢固的理論基礎。 4、ARMA模型三種基本形式:自回歸模型(AR:Auto-regressive),移動平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressive Moving-Average)。 (1) 自回歸模型AR(p):如果時間序列 滿足 其中 是獨立同分布的隨機變數序列,且滿足: , 則稱時間序列 服從p階自回歸模型。或者記為 。 平穩條件:滯後運算元多項式 的根均在單位圓外,即 的根大於1。 (2) 移動平均模型MA(q):如果時間序列 滿足 則稱時間序列 服從q階移動平均模型。或者記為 。 平穩條件:任何條件下都平穩。 (3) ARMA(p,q)模型:如果時間序列 滿足 則稱時間序列 服從(p,q)階自回歸移動平均模型。或者記為 。 特殊情況:q=0,模型即為AR(p),p=0, 模型即為MA(q)。 二、時間序列的自相關分析 1、自相關分析法是進行時間序列分析的有效方法,它簡單易行、較為直觀,根據繪制的自相關分析圖和偏自相關分析圖,我們可以初步地識別平穩序列的模型類型和模型階數。利用自相關分析法可以測定時間序列的隨機性和平穩性,以及時間序列的季節性。 2、自相關函數的定義:滯後期為k的自協方差函數為: ,則 的自相關函數為: ,其中 。當序列平穩時,自相關函數可寫為: 。 3、 樣本自相關函數為: ,其中 ,它可以說明不同時期的數據之間的相關程度,其取值范圍在-1到1之間,值越接近於1,說明時間序列的自相關程度越高。 4、 樣本的偏自相關函數: 其中, 。 5、 時間序列的隨機性,是指時間序列各項之間沒有相關關系的特徵。使用自相關分析圖判斷時間序列的隨機性,一般給出如下准則: ①若時間序列的自相關函數基本上都落入置信區間,則該時間序列具有隨機性; ②若較多自相關函數落在置信區間之外,則認為該時間序列不具有隨機性。 6、 判斷時間序列是否平穩,是一項很重要的工作。運用自相關分析圖判定時間序列平穩性的准則是:①若時間序列的自相關函數 在k>3時都落入置信區間,且逐漸趨於零,則該時間序列具有平穩性;②若時間序列的自相關函數更多地落在置信區間外面,則該時間序列就不具有平穩性。 7、 ARMA模型的自相關分析 AR(p)模型的偏自相關函數 是以p步截尾的,自相關函數拖尾。MA(q)模型的自相關函數具有q步截尾性,偏自相關函數拖尾。這兩個性質可以分別用來識別自回歸模型和移動平均模型的階數。ARMA(p,q)模型的自相關函數和偏相關函數都是拖尾的。 三、單位根檢驗和協整檢驗 1、單位根檢驗 ①利用迪基—福勒檢驗( Dickey-Fuller Test)和菲利普斯—佩榮檢驗(Philips-Perron Test),我們也可以測定時間序列的隨機性,這是在計量經濟學中非常重要的兩種單位根檢驗方法,與前者不同的事,後一個檢驗方法主要應用於一階自回歸模型的殘差不是白雜訊,而且存在自相關的情況。 ②隨機游動 如果在一個隨機過程中, 的每一次變化均來自於一個均值為零的獨立同分布,即隨機過程 滿足: , ,其中 獨立同分布,並且: , 稱這個隨機過程是隨機游動。它是一個非平穩過程。 ③單位根過程 設隨機過程 滿足: , ,其中 , 為一個平穩過程並且 ,,。 2、協整關系 如果兩個或多個非平穩的時間序列,其某個現性組合後的序列呈平穩性,這樣的時間序列間就被稱為有協整關系存在。這是一個很重要的概念,我們利用Engle-Granger兩步協整檢驗法和J 很高興回答樓主的問題 如有錯誤請見諒

㈧ 時域分析的統計量有哪些舉例說明

一種互聯網宏觀流量異常檢測方法(2007-11-7 10:37)

摘要:網路流量異常指網路中流量不規則地顯著變化。網路短暫擁塞、分布式拒絕服務攻擊、大范圍掃描等本地事件或者網路路由異常等全局事件都能夠引起網路的異常。網路異常的檢測和分析對於網路安全應急響應部門非常重要,但是宏觀流量異常檢測需要從大量高維的富含雜訊的數據中提取和解釋異常模式,因此變得很困難。文章提出一種分析網路異常的通用方法,該方法運用主成分分析手段將高維空間劃分為對應正常和異常網路行為的子空間,並將流量向量影射在正常子空間中,使用基於距離的度量來檢測宏觀網路流量異常事件。

公共互聯網正在社會生活的各個領域發揮著越來越重要的作用,與此同時,由互聯網的開放性和應用系統的復雜性所帶來的安全風險也隨之增多。2006年,國家計算機網路應急技術處理協調中心(CNCERT/CC)共接收26 476件非掃描類網路安全事件報告,與2005年相比增加2倍,超過2003—2005年3年的總和。2006年,CNCERT/CC利用部署的863-917網路安全監測平台,抽樣監測發現中國大陸地區約4.5萬個IP地址的主機被植入木馬,與2005年同期相比增加1倍;約有1千多萬個IP地址的主機被植入僵屍程序,被境外約1.6萬個主機進行控制。

黑客利用木馬、僵屍網路等技術操縱數萬甚至上百萬台被入侵的計算機,釋放惡意代碼、發送垃圾郵件,並實施分布式拒絕服務攻擊,這對包括骨幹網在內的整個互聯網網路帶來嚴重的威脅。由數萬台機器同時發起的分布式拒絕服務攻擊能夠在短時間內耗盡城域網甚至骨幹網的帶寬,從而造成局部的互聯網崩潰。由於政府、金融、證券、能源、海關等重要信息系統的諸多業務依賴互聯網開展,互聯網骨幹網路的崩潰不僅會帶來巨額的商業損失,還會嚴重威脅國家安全。據不完全統計,2001年7月19日爆發的紅色代碼蠕蟲病毒造成的損失估計超過20億美元;2001年9月18日爆發的Nimda蠕蟲病毒造成的經濟損失超過26億美元;2003年1月爆發的SQL Slammer蠕蟲病毒造成經濟損失超過12億美元。

針對目前互聯網宏觀網路安全需求,本文研究並提出一種宏觀網路流量異常檢測方法,能夠在骨幹網路層面對流量異常進行分析,在大規模安全事件爆發時進行快速有效的監測,從而為網路防禦贏得時間。

1 網路流量異常檢測研究現狀

在骨幹網路層面進行宏觀網路流量異常檢測時,巨大流量的實時處理和未知攻擊的檢測給傳統入侵檢測技術帶來了很大的挑戰。在流量異常檢測方面,國內外的學術機構和企業不斷探討並提出了多種檢測方法[1]。

經典的流量監測方法是基於閾值基線的檢測方法,這種方法通過對歷史數據的分析建立正常的參考基線范圍,一旦超出此范圍就判斷為異常,它的特點是簡單、計算復雜度小,適用於實時檢測,然而它作為一種實用的檢測手段時,需要結合網路流量的特點進行修正和改進。另一種常用的方法是基於統計的檢測,如一般似然比(GLR)檢測方法[2],它考慮兩個相鄰的時間窗口以及由這兩個窗口構成的合並窗口,每個窗口都用自回歸模型擬合,並計算各窗口序列殘差的聯合似然比,然後與某個預先設定的閾值T 進行比較,當超過閾值T 時,則窗口邊界被認定為異常點。這種檢測方法對於流量的突變檢測比較有效,但是由於它的閾值不是自動選取,並且當異常持續長度超過窗口長度時,該方法將出現部分失效。統計學模型在流量異常檢測中具有廣闊的研究前景,不同的統計學建模方式能夠產生不同的檢測方法。

最近有許多學者研究了基於變換域進行流量異常檢測的方法[3],基於變換域的方法通常將時域的流量信號變換到頻域或者小波域,然後依據變換後的空間特徵進行異常監測。P. Barford等人[4]將小波分析理論運用於流量異常檢測,並給出了基於其理論的4類異常結果,但該方法的計算過於復雜,不適於在高速骨幹網上進行實時檢測。

Lakhina等人[5-6]利用主成分分析方法(PCA),將源和目標之間的數據流高維結構空間進行PCA分解,歸結到3個主成分上,以3個新的復合變數來重構網路流的特徵,並以此發展出一套檢測方法。此外還有一些其他的監測方法[7],例如基於Markov模型的網路狀態轉換概率檢測方法,將每種類型的事件定義為系統狀態,通過過程轉換模型來描述所預測的正常的網路特徵,當到來的流量特徵與期望特徵產生偏差時進行報警。又如LERAD檢測[8],它是基於網路安全特徵的檢測,這種方法通過學習得到流量屬性之間的正常的關聯規則,然後建立正常的規則集,在實際檢測中對流量進行規則匹配,對違反規則的流量進行告警。這種方法能夠對發生異常的地址進行定位,並對異常的程度進行量化。但學習需要大量正常模式下的純凈數據,這在實際的網路中並不容易實現。

隨著宏觀網路異常流量檢測成為網路安全的技術熱點,一些廠商紛紛推出了電信級的異常流量檢測產品,如Arbor公司的Peakflow、GenieNRM公司的GenieNTG 2100、NetScout公司的nGenius等。國外一些研究機構在政府資助下,開始部署宏觀網路異常監測的項目,並取得了較好的成績,如美國研究機構CERT建立了SiLK和AirCERT項目,澳大利亞啟動了NMAC流量監測系統等項目。

針對宏觀網路異常流量監測的需要,CNCERT/CC部署運行863-917網路安全監測平台,採用分布式的架構,能夠通過多點對骨幹網路實現流量監測,通過分析協議、地址、埠、包長、流量、時序等信息,達到對中國互聯網宏觀運行狀態的監測。本文基於863-917網路安全監測平台獲取流量信息,構成監測矩陣,矩陣的行向量由源地址數量、目的地址數量、傳輸控制協議(TCP)位元組數、TCP報文數、數據報協議(UDP)位元組數、UDP報文數、其他流量位元組數、其他流量報文書、WEB流量位元組數、WEB流量報文數、TOP10個源IP占總位元組比例、TOP10個源IP占總報文數比例、TOP10個目的IP占總位元組數比例、TOP10個目的IP占總報文數比例14個部分組成,系統每5分鍾產生一個行向量,觀測窗口為6小時,從而形成了一個72×14的數量矩陣。由於在這14個觀測向量之間存在著一定的相關性,這使得利用較少的變數反映原來變數的信息成為可能。本項目採用了主成份分析法對觀測數據進行數據降維和特徵提取,下面對該演算法的工作原理進行介紹。

2 主成分分析技術

主成分分析是一種坐標變換的方法,將給定數據集的點映射到一個新軸上面,這些新軸稱為主成分。主成分在代數學上是p 個隨機變數X 1, X 2……X p 的一系列的線性組合,在幾何學中這些現線性組合代表選取一個新的坐標系,它是以X 1,X 2……X p 為坐標軸的原來坐標系旋轉得到。新坐標軸代表數據變異性最大的方向,並且提供對於協方差結果的一個較為簡單但更精練的刻畫。主成分只是依賴於X 1,X 2……X p 的協方差矩陣,它是通過一組變數的幾個線性組合來解釋這些變數的協方差結構,通常用於高維數據的解釋和數據的壓縮。通常p 個成分能夠完全地再現全系統的變異性,但是大部分的變異性常常能夠只用少量k 個主成分就能夠說明,在這種情況下,這k 個主成分中所包含的信息和那p 個原變數做包含的幾乎一樣多,於是可以使用k 個主成分來代替原來p 個初始的變數,並且由對p 個變數的n 次測量結果所組成的原始數據集合,能夠被壓縮成為對於k 個主成分的n 次測量結果進行分析。

運用主成分分析的方法常常能夠揭示出一些先前不曾預料的關系,因而能夠對於數據給出一些不同尋常的解釋。當使用零均值的數據進行處理時,每一個主成分指向了變化最大的方向。主軸以變化量的大小為序,一個主成分捕捉到在一個軸向上最大變化的方向,另一個主成分捕捉到在正交方向上的另一個變化。

設隨機向量X '=[X 1,X 1……X p ]有協方差矩陣∑,其特徵值λ1≥λ2……λp≥0。考慮線性組合:

Y1 =a 1 'X =a 11X 1+a 12X 2……a 1pX p

Y2 =a 2 'X =a 21X 1+a 22X 2……a 2pX p

……

Yp =a p'X =a p 1X 1+a p 2X 2……a p pX p

從而得到:

Var (Yi )=a i' ∑a i ,(i =1,2……p )

Cov (Yi ,Yk )=a i '∑a k ,(i ,k =1,2……p )

主成分就是那些不相關的Y 的線性組合,它們能夠使得方差盡可能大。第一主成分是有最大方差的線性組合,也即它能夠使得Var (Yi )=a i' ∑a i 最大化。我們只是關注有單位長度的系數向量,因此我們定義:

第1主成分=線性組合a 1'X,在

a1'a 1=1時,它能夠使得Var (a1 'X )最大;

第2主成分=線性組合a 2 'X,在

a2'a 2=1和Cov(a 1 'X,a 2 'X )=0時,它能夠使得Var (a 2 'X )最大;

第i 個主成分=線性組合a i'X,在

a1'a 1=1和Cov(a i'X,a k'X )=0(k<i )時,它能夠使得Var (a i'X )最大。

由此可知主成分都是不相關的,它們的方差等於協方差矩陣的特徵值。總方差中屬於第k個主成分(被第k個主成分所解釋)的比例為:

如果總方差相當大的部分歸屬於第1個、第2個或者前幾個成分,而p較大的時候,那麼前幾個主成分就能夠取代原來的p個變數來對於原有的數據矩陣進行解釋,而且信息損失不多。在本項目中,對於一個包含14個特徵的矩陣進行主成分分析可知,特徵的最大變化基本上能夠被2到3個主成分捕捉到,這種主成分變化曲線的陡降特性構成了劃分正常子空間和異常子空間的基礎。

3 異常檢測演算法

本項目的異常流量檢測過程分為3個階段:建模階段、檢測階段和評估階段。下面對每個階段的演算法進行詳細的介紹。

3.1 建模階段

本項目採用滑動時間窗口建模,將當前時刻前的72個樣本作為建模空間,這72個樣本的數據構成了一個數據矩陣X。在試驗中,矩陣的行向量由14個元素構成。

主成份分為正常主成分和異常主成份,它們分別代表了網路中的正常流量和異常流量,二者的區別主要體現在變化趨勢上。正常主成份隨時間的變化較為平緩,呈現出明顯的周期性;異常主成份隨時間的變化幅度較大,呈現出較強的突發性。根據采樣數據,判斷正常主成分的演算法是:

依據主成分和采樣數據計算出第一主成分變數,求第一主成分變數這72個數值的均值μ1和方差σ1,找出第一主成分變數中偏離均值最大的元素,判斷其偏離均值的程度是否超過了3σ1。如果第一主成分變數的最大偏離超過了閾值,取第一主成份為正常主成分,其他主成份均為異常主成分,取主成份轉換矩陣U =[L 1];如果最大偏離未超過閾值,轉入判斷第下一主成分,最後取得U =[L 1……L i -1]。第一主成份具有較強的周期性,隨後的主成份的周期性漸弱,突發性漸強,這也體現了網路中正常流量和異常流量的差別。

在得到主成份轉換矩陣U後,針對每一個采樣數據Sk =xk 1,xk 2……xk p ),將其主成份投影到p維空間進行重建,重建後的向量為:

Tk =UU T (Sk -X )T

計算該采樣數據重建前與重建後向量之間的歐氏距離,稱之為殘差:

dk =||Sk -Tk ||

根據采樣數據,我們分別計算72次采樣數據的殘差,然後求其均值μd 和標准差σd 。轉換矩陣U、殘差均值μd 、殘差標准差σd 是我們構造的網路流量模型,也是進行流量異常檢測的前提條件。

3.2 檢測階段

在通過建模得到網路流量模型後,對於新的觀測向量N,(n 1,n 2……np ),採用與建模階段類似的分析方法,將其中心化:

Nd =N -X

然後將中心化後的向量投影到p維空間重建,並計算殘差:

Td =UUTNdT

d =||Nd -Td ||

如果該觀測值正常,則重建前與重建後向量應該非常相似,計算出的殘差d 應該很小;如果觀測值代表的流量與建模時發生了明顯變化,則計算出的殘差值會較大。本項目利用如下演算法對殘差進行量化:

3.3 評估階段

評估階段的任務是根據當前觀測向量的量化值q (d ),判斷網路流量是否正常。根據經驗,如果|q (d )|<5,網路基本正常;如果5≤|q (d )|<10,網路輕度異常;如果10≤|q (d )|,網路重度異常。

4 實驗結果分析

利用863-917網路安全監測平台,對北京電信骨幹網流量進行持續監測,我們提取6小時的觀測數據,由於篇幅所限,我們給出圖1—4的時間序列曲線。由圖1—4可知單獨利用任何一個曲線都難以判定異常,而利用本演算法可以容易地標定異常發生的時間。本演算法計算結果如圖5所示,異常發生時間在圖5中標出。我們利用863-917平台的回溯功能對於異常發生時間進行進一步的分析,發現在標出的異常時刻,一個大規模的僵屍網路對網外的3個IP地址發起了大規模的拒絕服務攻擊。

5 結束語

本文提出一種基於主成分分析的方法來劃分子空間,分析和發現網路中的異常事件。本方法能夠准確快速地標定異常發生的時間點,從而幫助網路安全應急響應部門及時發現宏觀網路的流量異常狀況,為迅速解決網路異常贏得時間。試驗表明,我們採用的14個特徵構成的分析矩陣具有較好的識別准確率和分析效率,我們接下來將會繼續尋找更具有代表性的特徵來構成數據矩陣,並研究更好的特徵矩陣構造方法來進一步提高此方法的識別率,並將本方法推廣到短時分析中。

6 參考文獻

[1] XU K, ZHANG Z L, BHATTACHARYYA S. Profiling Internet backbone traffic: Behavior models and applications [C]// Proceedings of ACM SIGCOMM, Aug 22- 25, 2005, Philadelphia, PA, USA. New York, NY,USA:ACM,2005:169-180.

[2] HAWKINS D M, QQUI P, KANG C W. The change point model for statistical process control [J]. Journal of Quality Technology,2003, 35(4).

[3] THOTTAN M, JI C. Anomaly detection in IP networks [J]. IEEE Transactions on Signal Processing, 2003, 51 )8):2191-2204.

[4] BARFORD P, KLINE J, PLONKA D, et al. A signal analysis of network traffic anomalies [C]//Proceedings of ACM SIGCOMM Intemet Measurement Workshop (IMW 2002), Nov 6-8, 2002, Marseilles, France. New York, NY,USA:ACM, 2002:71-82.

[5] LAKHINA A, CROVELLA M, DIOT C. Mining anomalies using traffic feature distributions [C]// Proceedings of SIGCOMM, Aug 22-25, 2005, Philadelphia, PA, USA. New York, NY,USA: ACM, 2005: 217-228.

[6] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies [C]// Proceedings of ACM SIGCOMM, Aug 30 - Sep 3, 2004, Portland, OR, USA. New York, NY,USA: ACM, 2004: 219-230.

[7] SCHWELLER R, GUPTA A, PARSONS E, et al. Reversible sketches for efficient and accurate change detection over network data streams [C]//Proceedings of ACM SIGCOMM Internet Measurement Conference (IMC』04), Oct 25-27, 2004, Taormina, Sicily, Italy. New York, NY,USA: ACM, 2004:207-212.

[8] MAHONEY M V, CHAN P K. Learning rules for anomaly detection of hostile network traffic [C]// Proceedings of International Conference on Data Mining (ICDM』03), Nov 19-22, Melbourne, FL, USA . Los Alamitos, CA, USA: IEEE Computer Society, 2003:601-604.

㈨ 什麼是高階統計量

高階統計量的定義與性質
§1.1 准備知識的分布函數為,則稱為的特徵函數.其中為概率密度函數. 離散情況: * 特徵函數是概率密度的付里葉變換. 例:設~,則特徵函數為 令,則 根據公式:,則若,則.
2.多維隨機變數的特徵函數 設隨機變數聯合概率分布函數為,則聯合特徵函數為 令,,則 矩陣形式 或 標量形式 其中,為聯合概率密度函數. 例:設維高斯隨機變數為 , 的概率密度為 的特徵函數為 矩陣形式 其中,, 標量形式
3.隨機變數的第二特徵函數 定義:特徵函數的對數為第二特徵函數為 (1)單變數高斯隨機過程的第二特徵函數 (2)多變數情形
§1.2 高階矩與高階累積量的定義
1.單個隨機變數情形 高階矩定義 隨機變數的階矩定義為 顯然,.隨機變數的階中心矩定義為 (1) 由式(1)可見,,,. 若存在,則的特徵函數可按泰勒級數展開,即(2) 並且與的階導數之間的關系為
(2)高階累積量定義 的第二特徵函數按泰勒級數展開,有(3) 並且與的階導數之間的關系為 稱為隨機變數的階累積量,實際上由及的連續性,存在,使時,,故第二特徵函數對有意義且單值(只考慮對數函數的主值),的前階導數在處存在,故也存在.

㈩ clementine時間序列怎麼分析

5.2 基本描述分析
基本描述分析是數據分析的基礎,通常對數值型變數進行描述分析,涉及數據的集中趨勢和離散程度。描述集中趨勢的描述性統計量一般有均值、中位數和眾數;描述離散程度的描述性統計量一般有方差、標准差和極差。
5.2.1 計算基本描述統計量
在流中添加「Statistics」節點,打開設置面板。在「檢查」中用戶可以選擇要進行統計的變數如下;然後在「統計量」中可以選擇可統計的描述性統計量有哪些;在「相關」中可以設置與哪些變數進行簡單相關分析(即求得Pearson簡單相關系數)。
Clementine數據基本分析(一)

在「相關設置」中可以設置相關分析的一些參數如下。
Clementine數據基本分析(一)
下圖為得到的相關分析及其它描述性統計分析的結果:
Clementine數據基本分析(一)
還可以生成符合要求的Filter。在Generate工具中,可以根據需要設置一定的相關性條件,然後生成Filter,這個功能很重要。
5.2.2 繪制散點圖
除了進行描述性統計分析外,還可以生成散點圖查看數據間的要關性,添加節點「Plot」並打開設置面板。「X欄位」中選擇X軸變數;「Y欄位」中選擇Y軸變數。Overlay為交疊欄位,你可以在Color、Size或Shape中選擇Overlay欄位即流失欄位,從而在散點圖中實現相應效果。
「面板」表示可以繪制多個不同散點圖反映Overlay變數;「動畫」表示以動畫方式顯示多張散點圖。
交疊欄位類型選項:
無:表示不擬合回歸直線;
平滑器(Smoother):表示採用LOESS(Locally weighted iterative robust least squares regression)方法,擬合樣本數據的回歸線並顯示;
函數(Function):表示自德輸入一個回歸議程,回歸線也顯示。
Clementine數據基本分析(一)

結果如下:
Clementine數據基本分析(一)

5.4 兩分類變數相關性的研究
兩分類變數的相關性研究在實踐中有廣泛應用。做DataMining,對數據的類型應該極為敏感,幾乎任何的統計分析或者數據挖掘,都要涉及這樣一個問題:是分類型變數還是數值型變數。同理,前面我們使用相關和回歸兩個思維來對數值型變數的相關性進行了探討,其中涉及到許多描述性統計量,既有描述數據集中趨勢的,也有描述數據離散程度的。也涉及到散點圖等圖形。下面,我們將涉足分類變數。分類變數中最有名的分析,莫過於列聯分析,但我們一開始並不介紹它。
一般分析分為圖形分析和數值分析,不止於兩分類變數
5.4.1兩分類變數相關性的圖形分析
一、條形圖
將「Distribution」節點添加到流上。Distribution提供了兩種輸入欄位的途徑。「選定欄位」選中,我們可以自定義哪些分類型欄位可以進入;「所有標志」選中,則前面「Type」節點中的所有分類型欄位都會進入分析。這里我們自定義「套餐類型」為我們的描述欄位,然後在交疊欄位中設置為「流失」。一般情況下,目標變數恆為交疊欄位。」按「比例尺」表示將把頻數最多的取值對應的條設置為最長,然後其它的條都會按比例設置,這樣能更加清晰地看到不同取值的頻數的差異;「按顏色標准化」,選中表示所有的條形都會被設置為相同長度,然後不同顏色比例表示目標變數取值不同時的情況,但「按顏色標准化」後,我們就不能比較不同取值下頻數的差異了。
Clementine數據基本分析(一)
Clementine數據基本分析(一)

二、Web圖
Web圖的力量在沈浩老師挖挖雙色球案例中得到充分的體現。Web圖為我們提供了兩種分類比較模型,一是計算兩兩分類變數間的相關性,一是計算多個分類變數對一個分類變數的相關性。將「Web」節點添加到流上,打開設置面板。
網路:選中表示系統將計算兩兩分類變數間的相關性,在下面會讓用戶自定義進行兩兩分析的欄位;
導向網路:選中表示系統將計算多個分類變數對一個分類變數的相關性,選中後會讓用戶自定義分析變數和目標變數;
僅顯示真值標志:選中表示僅顯示「流失」取值為「Yes」的網路,我們往往不進行這樣的選擇;
得到如下的結果圖。在結果圖中,系統在標尺上有默認的兩個邊界,如圖中為44和250,則表示Web圖中最細線表示有頻數44個,最粗線表示含頻數250個。得到的Web圖取值呈上下結構,其中下面的「Yes」和「No」是流失的兩個取值,而上面的四個點是套餐類型的四個取值。其中,線條粗細程度代表著相關性程度。
Clementine數據基本分析(一)
Clementine數據基本分析(一)

5.4.2
兩分類變數相關性的數值分析
一、計算兩分類變數的列聯表
以上我們通過兩種圖——Web圖和條形圖——對兩分類變數的相關性進行了圖形分析,除此之外,我們還可以對其進行數值分析。數值分析指的就是列聯分析及相應的卡方分析。這里,我們使用的兩分類變數仍然來自於電信客戶數據的兩個欄位:套餐類型與客戶是否流失。
將Output卡中的「Matrix」節點添加到流中,打開設置面板。Matrix為我們提供了幾種選擇欄位的方式。
Slected:選中表示自定義列聯表的行變數和列變數。我們在Rows中選擇「套餐類型」,在Columns中選擇「流失」。
All Flags:選中表示將對所有Flag型變數進行列聯表分析,生成多個列聯表。
Include Missing Values:選中表示即使取值為缺失值,也被列入相關的頻數內。列聯表分析的是多個分類變數間的相關性,統計的就自然是頻數了。如果想把含缺失值的樣本剔除出去,也可以通過Data Audit節點進行相關操作。
Cell Contents:Table-tabulations表示列聯表各單元格(Cell)中統計的是樣本的頻數,一般的列聯表都是進行頻數統計;Function表示列聯表各單元格為指定變數的分類描述統計量,應該地Field中指定相關變數,描述統計量也可以自定義選擇。
打開Appearance面板,我們簡要介紹一下其中的功能設置。
Highlight top:表示頻數最高的若干項數據以紅字顯示,具體的數額可以在後面設置;
Highlight bottom:表示頻數最低的若干項數據以顯示,具體的數額可以在後面設置;
Cross-tabulation cell contents:
Counts:表示顯示觀測頻數;Excepted Values:表示顯示期望頻數;Resials:表示顯示殘差;Percentage Of row:表示計算行百分比;Percentage of column:表示計算列百分比;Percentage Of Total:表示計算總百分比。注意這三個百分比的不同表示及不同意義。
Clementine數據基本分析(一)

Clementine數據基本分析(一)
二、行列變數的相關性分析
通過對以上數據的分析,我們知道套餐類型與客戶流失具有關聯性,那麼,這種關聯性是此數據的偶然結果呢,還是總體即有這種關聯性呢?從統計學上講,這種分類變數間的關聯性,是由於樣本抽取過程中的隨機誤差導致的呢,還是系統本身固有的屬性呢?
為此,我們需要對此關聯性做檢驗,這就涉及到我們要提到的卡方檢驗。卡方檢驗是統計學中經典假設檢驗的組成部分,由統計學之父卡爾·皮爾遜發明,被稱為20世紀最有革命性的十大發明之一。
卡方檢驗分四步:
1、提出零假設:這里的零假設是行變數與列變數獨立。
2、選擇和計算檢驗統計量,即Pearson卡方統計量,其數學公式這里不再提起。有關卡方檢驗的問題,我們會在後面的統計部分詳細展開,我們在這里需要提一下,卡方公式中涉及到列聯表的行數和列數,頻數的觀測值和期望值。
那麼,什麼是期望頻數(Expected Count)呢?期望頻數指的是行列變數互相不相關的情況下的頻數的均勻分布。求期望頻數的方法非常簡單,我們也將在後面有關統計學的部分中詳細提到,此處略去不計。
卡方統計量的大小與兩個因素有關。一題名聯表的單元格子數;二是觀測頻數與期望頻數間的總差值。當列聯表確定的時候,列聯表的格子數亦確定,此時卡方統計量只與預測頻數與期望頻數間的總差值有關。當預測頻數與期望頻數總差值越大時,卡方統計量越大,表明行列變數的相關性越強;當預測頻數與期望頻數總差值越小時,卡方統計量越小,表明行列變數的相關性越弱。
那麼,如果進一步描述此卡方統計量的意義呢?卡方統計量近似服從卡方分布,故我們決定用一定的自由度和一定的顯著性水平來框定卡方統計量的閾值。
第三步,確定顯著性水平和臨界值
顯著性水平一般取0.05或0.01;卡方統計量服從(行數-1)*(列數-1)個自由度的卡方分布。因此,在行列數目和顯著性水平確定的情況下,卡方臨界值是可唯一確定的。
第四步,結論和決策
這一部分理解起來有些艱難,但對統計學的學生來說相當簡單,即可以計算出相應卡方統計量的概率,如果小於顯著性水平則拒絕原假設;反之,則不能拒絕原假設。這是非常常用的一種方法,即通過概率的方法。當然你也可以通過臨界值的方法來做,即由行列數和顯著性水平確定唯一的臨界值,然後由軟體計算出卡方統計量,比較二者。如果卡方統計量大於臨界值,則行列變數有相關性;否則沒有相關性。

閱讀全文

與時間序列分析高階統計量方法相關的資料

熱點內容
迷你世界創造節中如何找到新的登錄方法 瀏覽:995
csdn數組的常用方法 瀏覽:499
中考化學最愛考的鑒別方法 瀏覽:681
在水裡的物體浮起來的方法有哪些 瀏覽:825
快速學做烘焙的方法 瀏覽:418
彩鉛畫眼睛的方法視頻 瀏覽:869
抖音賬號快速貼標簽的三個方法 瀏覽:581
三角小窗安裝方法 瀏覽:720
座套卡扣使用方法 瀏覽:406
治理人類不要用極端的方法出自哪裡 瀏覽:534
工作井與隧道連接處加固方法 瀏覽:561
錦鯉常見病及治療方法 瀏覽:286
肌酐高治療方法 瀏覽:50
哪些科學方法可以減肥 瀏覽:75
疼經最簡單的止痛方法 瀏覽:419
制備伯胺通常用什麼方法 瀏覽:417
男人哄你的最佳方法 瀏覽:464
壓力補償滴頭使用方法 瀏覽:381
嬰兒不吃奶的最佳治療方法 瀏覽:413
54o十37一43的簡便方法 瀏覽:83