㈠ 时间序列分析法的具体算法
用随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在多数问题中,随机数据是依时间先后排成序列的,故称为时间序列。它包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量,{x(t),t=1,2,…}是一时间序列。对t=1,2,…,T,记录到逐月的降雨量数据x(1),x(2),…,x(T),称为长度为T的样本序列。依此即可使用时间序列分析方法,对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后,在军事科学、空间科学和工业自动化等部门的应用更加广泛。
就数学方法而言,平稳随机序列(见平稳过程)的统计分析,在理论上的发展比较成熟,从而构成时间序列分析的基础。 一个时间序列可看成各种周期扰动的叠加,频域分析就是确定各周期的振动能量的分配,这种分配称为“谱”,或“功率谱”。因此频域分析又称谱分析。谱分析中的一个重要统计量是 ,称为序列的周期图。当序列含有确定性的周期分量时,通过I(ω)的极大值点寻找这些分量的周期,是谱分析的重要内容之一。在按月记录的降雨量序列中,序列x(t)就可视为含有以12为周期的确定分量,所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。
当平稳序列的谱分布函数F(λ)具有谱密度ƒ(λ)(即功率谱)时,可用(2π)-1I(λ)去估计ƒ(λ),它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计(见点估计),可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得,即 。研究以上各种估计量的统计性质,改进估计方法,是谱分析的重要内容。 如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和,根据样本值x(1),x(2),…,x(T)来估计φ(t)及分析ω(t)的统计规律,属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是,ω(t)一般不是独立同分布的,因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时,即 ,式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型,它的统计分析已被研究得比较深入。前面叙述的降雨量一例,便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时,对参数α1,α2,…,αs进行估计,预测x(T+l)之值;当ω(t)的统计规律未知时,既要估计上述参数,又要对ω(t)进行统计分析,如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下,证明 α1,α2,…,αs的最小二乘估计,与其线性最小方差无偏估计一样,具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构,是由数据x(1),x(2),…,x(T)直接算出,由此还可得(t)进行时间序列分析中的各种统计分析,以代替对ω(t)的分析。在理论上也已证明,在适当的条件下,这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测,这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。
时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。多维时间序列分析的研究有所进展,并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。
㈡ 常用统计分析方法有哪些
1、对比分析法
对比分析法指通过指标的对比来反映事物数量上的变化,属于统计分析中常用的方法。常见的对比有横向对比和纵向对比。
横向对比指的是不同事物在固定时间上的对比,例如,不同等级的用户在同一时间购买商品的价格对比,不同商品在同一时间的销量、利润率等的对比。
纵向对比指的是同一事物在时间维度上的变化,例如,环比、同比和定基比,也就是本月销售额与上月销售额的对比,本年度1月份销售额与上一年度1月份销售额的对比,本年度每月销售额分别与上一年度平均销售额的对比等。利用对比分析法可以对数据规模大小、水平高低、速度快慢等做出有效的判断和评价。
2、分组分析法
分组分析法是指根据数据的性质、特征,按照一定的指标,将数据总体划分为不同的部分,分析其内部结构和相互关系,从而了解事物的发展规律。
根据指标的性质,分组分析法分为属性指标分组和数量指标分组。所谓属性指标代表的是事物的性质、特征等,如姓名、性别、文化程度等,这些指标无法进行运算;而数据指标代表的数据能够进行运算,如人的年龄、工资收入等。分组分析法一般都和对比分析法结合使用。
3、预测分析法
预测分析法主要基于当前的数据,对未来的数据变化趋势进行判断和预测。预测分析一般分为两种:一种是基于时间序列的预测,例如,依据以往的销售业绩,预测未来3个月的销售额;另一种是回归类预测,即根据指标之间相互影响的因果关系进行预测,例如,根据用户网页浏览行为,预测用户可能购买的商品。
4、漏斗分析法
漏斗分析法也叫流程分析法,它的主要目的是专注于某个事件在重要环节上的转化率,在互联网行业的应用较普遍。比如,对于信用卡申请的流程,用户从浏览卡片信息,到填写信用卡资料、提交申请、银行审核与批卡。
最后用户激活并使用信用卡,中间有很多重要的环节,每个环节的用户量都是越来越少的,从而形成一个漏斗。使用漏斗分析法,能使业务方关注各个环节的转化率,并加以监控和管理,当某个环节的转换率发生异常时,可以有针对性地优化流程,采取适当的措施来提升业务指标。
5、AB测试分析法
AB 测试分析法其实是一种对比分析法,但它侧重于对比A、B两组结构相似的样本,并基于样本指标值来分析各自的差异。
例如,对于某个App的同一功能,设计了不同的样式风格和页面布局,将两种风格的页面随机分配给使用者,最后根据用户在该页面的浏览转化率来评估不同样式的优劣,了解用户的喜好,从而进一步优化产品。
除此之外,要想做好数据分析,读者还需掌握一定的数学基础,例如,基本统计量的概念(均值、方差、众数、中位数等),分散性和变异性的度量指标(极差、四分位数、四分位距、百分位数等),数据分布(几何分布、二项分布等),以及概率论基础、统计抽样、置信区间和假设检验等内容,通过相关指标和概念的应用,让数据分析结果更具专业性。
㈢ 年限比较少的时间序列分析用什么方法
时间序列分析
编辑
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
目录
1简介
2参考
3组成要素
4基本步骤
5主要用途
▪ 系统描述
▪ 系统分析
▪ 预测未来
▪ 决策和控制
6具体算法
1简介编辑
它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关数理知识在相关方面的应用等。
2参考编辑
参考自:科学技术方法大辞典
时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展。时间序列分析是定量预测方法之一,它的基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行,便于掌握,但准确性差,一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
3组成要素编辑
一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
趋势:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
季节变动:是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
循环波动:是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
不规则波动:是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
4基本步骤编辑
时间序列建模基本步骤是:
①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
②根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。
③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
5主要用途编辑
系统描述
根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。
系统分析
当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。
预测未来
一般用ARMA模型拟合时间序列,预测该时间序列未来值。
决策和控制
根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
6具体算法编辑
用随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在多数问题中,随机数据是依时间先后排成序列的,故称为时间序列。它包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量,{x(t),t=1,2,…}是一时间序列。对t=1,2,…,T,记录到逐月的降雨量数据x(1),x(2),…,x(T),称为长度为T的样本序列。依此即可使用时间序列分析方法,对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后,在军事科学、空间科学和工业自动化等部门的应用更加广泛。
就数学方法而言,平稳随机序列(见平稳过程)的统计分析,在理论上的发展比较成熟,从而构成时间序列分析的基础。
频域分析 一个时间序列可看成各种周期扰动的叠加,频域分析就是确定各周期的振动能量的分配,这种分配称为“谱”,或“功率谱”。因此频域分析又称谱分析。谱分析中的一个重要统计量是 ,称为序列的周期图。当序列含有确定性的周期分量时,通过I(ω)的极大值点寻找这些分量的周期
公式
,是谱分析的重要内容之一。在按月记录的降雨量序列中,序列x(t)就可视为含有以12为周期的确定分量,所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。
当平稳序列的谱分布函数F(λ)具有谱密度ƒ(λ)(即功率谱)时,
公式
可用(2π)-1I(λ)去估计ƒ(λ),它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计(见点估计),可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得,即 。研究以上各种估计量的统计性质,改进估计方法,是谱分析的重要内容。
公式
时域分析 它的目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。这种结构是用序列的自相关函0,1,…)来描述的,为序列的自协方差函数值,m=Ex(t)是平稳序列的均值。常常采用下列诸
公式
式给出m,γ(k),ρ(k)的估计: ,通(k)了解序列的相关结构,称为自相关分析。研究它们的强、弱相合性及其渐近分布等问题,是相关分析中的基本问题。
公式
模型分析 20世纪70年代以来,应用最广泛的时间序列模型是平稳自回归-滑动平均模型 (简称ARMA模型)。其形状为: 式中ε(t)是均值为零、方差为σ2的独立同分布的随机序列;和σ2为模型的参数,它们满足: 对一切|z|≤1的复数z成立。p和q是模型的阶
公式
数,为非负整数。特别当q=0时,上述模型称为自回归模型;当p=0时, 称为滑动平均模型。根据x(t)的样本值估计这些参数和阶数,就是对这种模型的统计分析的内容。对
公式
于满足ARMA模型的平稳序列,其线性最优预测与控制等问题都有较简捷的解决方法,尤其是自回归模型,使用更为方便。G.U.尤尔在1925~1930年间就提出了平稳自回归
公式
的概念。1943年,Η.Β.曼和Α.瓦尔德发表了关于这种模型的统计方法及其渐近性质的一些理论结果。一般ARMA模型的统计分析研究,则是20世纪60年代后才发展起来
公式
的。特别是关于p,q值的估计及其渐近理论,出现得更晚些。除ARMA模型之外,还有其他的模型分析的研究,其中以线性模型的研究较为成熟,而且都与ARMA模型分析有密切关系。
公式
公式
回归分析 如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和,根据样本值x(1),x(2),…,x(T)来估计φ(t)及分析ω(t)的统计规律,属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是,ω(t)一般不
公式
是独立同分布的,因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时,即 ,式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型,它的统计分析已被研究得比较深入。前面叙述的降雨量一例,便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时,对参数α1,α2,…,αs进行估计,预测x(T+l)之值;当ω(t)的统计规律未知时,既要估计上述参数,又要对ω(t)
公式
进行统计分析,如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下,证明 α1,α2,…,αs的最小二乘估计,与其线性最小方差无偏估计一样,具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构,是由数据x(1),x(2),…,x(T)直接算出,由此还可得公式(t)
公式
进行时间序列分析中的各种统计分析,以代替对ω(t)的分析。在理论上也已证明,在适当的条件下,这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测,这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。
时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。近年来多维时间序列分析的研究有所进展,并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。
㈣ 时间序列的种类
一、绝对数时间序列
1、时期序列:由时期总量指标排列而成的时间序列 。
时期序列的主要特点有:
1)、序列中的指标数值具有可加性。
2)、序列中每个指标数值的大小与其所反映的时期长短有直接联系。
3)、序列中每个指标数值通常是通过连续不断登记汇总取得的。
2、时点序列:由时点总量指标排列而成的时间序列
时点序列的主要特点有:
1)、序列中的指标数值不具可加性。
2)、序列中每个指标数值的大小与其间隔时间的长短没有直接联系。
3)、序列中每个指标数值通常是通过定期的一次登记取得的。
二、相对数时间序列
把一系列同种相对数指标按时间先后顺序排列而成的时间序列叫做相对数时间序列。
三、平均数时间序列
平均数时间序列是指由一系列同类平均指标按时间先后顺序排列的时间序列。
(4)时间序列分析高阶统计量方法扩展阅读
时间序列数据变动存在着规律性与不规律性
时间序列中的每个观察值大小,是影响变化的各种不同因素在同一时刻发生作用的综合结果。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。
1、趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。
2、周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。
3、随机性:个别为随机变动,整体呈统计规律。
4、综合性:实际变化情况是几种变动的叠加或组合。预测时设法过滤除去不规则变动,突出反映趋势性和周期性变动。
㈤ 怎么利用svm对时间序列进行建模
SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:
1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在国际上都还没有形成统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值
股价时间序列的SVM模型最高阶确定
股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。最高阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定最高阶n,这样才能更客观反映股票价格的时滞特性。具体操作步骤如下:假定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离差平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。
前向浮动特征筛选
经过上述模型最高阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。最后选择的特征用于后续建模预测。
预测评价指标及参比模型
训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误差(mean squared error, MSE)和平均绝对误差百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较差
㈥ 张贤达的研究概况
[1] 音频信号的盲分离与半盲分离研究 国际合作 2002年9月至今
[2] 未来移动通信系统关键理论与技术研究 国家自然科学基金重大项目 2004年1月至今
[3] 特征提取的Monte-Carlo方法及其在盲信号分离与盲多用户检测中的应用 国家自然科学基金 2004年1月至今
[4] 基于高分辩雷达的目标特征提取和识别技术研究 航天支撑技术基金项目 2004年1月至今 [1] 张贤达. 现代信号处理(第二版). 清华大学出版社,2002
[2] 张贤达,保铮. 通信信号处理. 国防工业出版社,2000
[3] 张贤达,保铮. 非平稳信号分析与处理. 国防工业出版社,1998
[4] 张贤达. 信号处理中的线性代数. 科学出版社,1997
[5] 张贤达. 时间序列分析--高阶统计量方法. 清华大学出版社,1996
[6] 张贤达. 现代信号处理. 清华大学出版社,1995
[7] Xiao-Long Zhu, Xian-Da Zhang, Ji-Ming Ye. Natural gradient-based recursive least- squares algorithm for adaptive blind source separation. Science in China, Series F,vol.47, pp.55-65, 2004.
[8] Feng DZ, Zhang XD, Bao Z.. Neural network learning for principal component analysis: A multistage decomposition approach. Chinese J Electronics,vol.13, No.1, 1-7, 2004.
[9] Chen JF, Zhang XD, Wu YT. An algorithm for joint estimating range, DOA and frequency of near-field sources. Chinese J Electronics,vol.13, No.1, 19-23, 2004.
[10] Heng Yang and Xian-Da Zhang. A fast maximum likelihood sequence decoding method for multi-carrier DS-CDMA using frequency spread coding. IEEE Transactions on Wireless Communications,vol.3, no.3, pp.770-780, May, 2004.
[11] Shun-Tian Lou and Xian-Da Zhang. Fuzzy-based learning rate determination for blind source separation. IEEE Transactions on Fuzzy Systems,vol.11, no.3, pp.375-383, June 2003.
[12] Xi-Kai Zhao and Xian-Da Zhang. Peak-to-average power ratio analysis in multicarrier DS-CDMA. IEEE Transactions on Vehicular Technology,vol.52, no.3, pp.561-568, May 2003.
[13] Zhang Xianda, Zhu Xiaolong, Bao Zheng. Grading learning for blind source separation. Science in China, Series F,vol.46, no.1, 31-44, 2003.
[14] Da-Zheng Feng, Xian-Da Zhang, Zheng Bao. An efficient multistage decomposition approach for independent components. Signal Processing,vol.83, no.1, p.181-197, 2003
[15] Peng-Long Shui, Zheng Bao, Xian-Da Zhang. Two-channel adaptive biorthogonal filterbanks. Signal Processing,vol.82, no.6, pp.881-893, Jun 2002.
[16] 张贤达,朱孝龙,保铮. 基于分阶段学习的盲信号分离. 中国科学(E辑),vol.32, no.5, pp.693-703, 2002.
[17] Xian-Da Zhang and Wei Wei. Blind adaptive multiuser detection based on Kalman filtering. IEEE Transactions on Signal Processing,vol.50, no.1, pp.87-95, Jan. 2002.
[18] Xiao-Long Zhu and Xian-Da Zhang. Adaptive RLS algorithm for blind source separation using a natural gradient. IEEE Signal Processing Letters,vol.9, no.12, 432-435, Dec. 2002.
[19] Yu Shi and Xian-Da Zhang. A Gabor atom network for signal classification with application in radar target recognition. IEEE Transactions on Signal Processing,vol.49, no.12, pp.2994-3004, Dec. 2001.
[20] Xian-Da Zhang, Yu Shi and Zheng Bao. A new feature using selected bispectra for signal classification with application in radar target recognition. IEEE Transactions on Signal Processing,vol.49, no.9, pp.1875-1885, Sept. 2001.
[21] Peng-Lang Shui, Zheng Bao and Xian-Da Zhang. M-band compactly supported orthogonal symmetric interpolating scaling functions. IEEE Transactions on Signal Processing,vol.49, no.8, pp.1704-1713, Aug. 2001.
[22] Yang-Wang Fang, Li-Cheng Jiao, Xian-Da Zhang and Jin Pan. On the convergence of Volterra filter equalizers using a Pth-order inverse approach. IEEE Transactions on Signal Processing,vol.49, no.8, pp.1734-1744, Aug. 2001.
[23] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. Cross-associative neural network for SVD of non-squared data matrix in signal processing. IEEE Transactions on Neural Networks,vol.12, no.5, pp.1215-1221, Sept. 2001.
[24] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. A bi-iteration instrumental variable noise-subspace tracking algorithm. Signal Processing,vol.81, pp.2215-2221, 2001.
[25] Da-Zheng Feng, He-Qing Zhang, Xian-Da Zhang and Zheng Bao. An extended recursive least-squares algorithm. Signal Processing,vol.81, no.5, pp.1075-1081, 2001.
[26] Xi-Kai Zhao, Xian-Da Zhang. Performance analysis on a class of inverse filter criteria for blind deconvolution. Chinese Journal of Electronics,10 (4): 435-438, Oct. 2001.
[27] Lei Zhou, Xiao-Bo Zhou, Xian-Da Zhang. Pilot symbol assisted channel estimation based on fuzzy system. Chinese Journal of Electronics,9 (4): 442-444 Oct. 2000.
[28] Da-Zheng Feng, Zheng Bao and Xian-Da Zhang. Modified RLS algorithm for unbiased estimation of FIR system with input and output noise. Electronics Letters, vol.36, no.3, pp.273-274, 2000.
[29] Yu Shi and Xian-Da Zhang. Kalman-filtering-based angular velocity estimation using infrared attitude information of spacecraft. Optical Engineering,vol.39, no.2, pp.551-557, 2000.
[30] Xiang Yu and Xian-Da Zhang. A new blind identification method for DS-CDMA systems with antenna array under multipath fading. IEEE J. on Selected Areas in Communications,vol.17, no.12, pp.2154-2161, Dec. 1999.
[31] Xian-Da Zhang, Yu Song and Yan-Da Li. Adaptive Identification of Nonminimum Phase ARMA Models Using Higher-Order Cumulants alone. IEEE Transactions on Signal Processing,vol.44, pp.1285-1288, 1996.
[32] Chuang Bai Xiao, Xian-Da Zhang and Yan-Da Li. A method for AR order determination of an ARMA process. IEEE Transactions on Signal Processing,vol.44, pp.2900-2903, 1996.
[33] Xian-Da Zhang and Ying-Chang Liang. Prefiltering-based ESPRIT for estimating parameters of sinusoids in non-Gaussian ARMA noise. IEEE Transactions on Signal Processing,vol.43, pp.349-353, 1995.
[34] Xian-Da Zhang and Yuan-Sheng Zhang. FIR System Identification Using Higher-Order Cumulants alone. IEEE Transactions on Signal Processing,vol.42, pp.2854-2858, 1994.
[35] Xian-Da Zhang and Yan-Da Li. Harmonic retrieval in mixed Gaussian and non-Gaussian ARMA noises. IEEE Transactions on Signal Processing,vol.42, pp.3539-3543, 1994.
[36] Xian-Da Zhang, Ying-Chang Liang and Yan-Da Li. A hybrid approach to harmonic retrieval in non-Gaussian noise. IEEE Transactions on Information Theory,vol.40, pp.1220-1226, 1994.
[37] Xian-Da Zhang and Yuan-Sheng Zhang. Determination of the MA order of an ARMA process Using Sample Correlations. IEEE Transactions on Signal Processing,vol.41, pp.2277-2280, 1993.
[38] Xian-Da Zhang and Yuan-Sheng Zhang. Singular Value Decomposition-based MA order Determination of non-Gaussian ARMA models. IEEE Transactions on Signal Processing,vol.41, pp.2657-2664, 1993.
[39] Xian-Da Zhang and Yan-Li Zhou. A novel recursive approach to estimating MA parameters of causal ARMA models from cumulants. IEEE Transactions on Signal Processing,vol.40, pp.2870-2873, 1992.
[40] Xian-Da Zhang and Jie Cheng. High resolution two-dimensional ARMA spectral estimation. IEEE Transactions on Signal Processing,vol.39, pp.765-770, 1991.
[41] Xian-Da Zhang. On the estimation of two-dimensional moving average parameters. IEEE Transactions on Automatic Control,vol.36, pp.1196-1199, 1991.
[42] Xian-Da Zhang. Two-dimensional harmonic retrieval and its time-domain analysis technique. IEEE Transactions on Information Theory,vol.37, 1185-1188, 1991.
[43] Xian-Da Zhang and Da-Yong Cui. Performance analysis of Kimura and Honoki’s hybrid approach to 2-D spectral estimation. IEEE Transactions on, Speech, Signal Processing,vol.38, pp.191-193, 1990.
[44] Xian-Da Zhang and Hiroshi Takeda. An approach to time series analysis and ARMA spectral estimation. IEEE Transactions on Acoustics, Speech, Signal Processing,vol.35, pp.1303-1313, 1987.
[45] Xian-Da Zhang and Hiroshi Takeda. An order recursive generalized least-squares algorithm for system identification. IEEE Transactions on Automatic Control,vol.30, pp.1224-1227, 1985.
㈦ 对时间序列的分析方法有哪几种
1、 时间序列 取自某一个随机过程,如果此随机过程的随机特征不随时间变化,则我们称过程是平稳的;假如该随机过程的随机特征随时间变化,则称过程是非平稳的。 2、 宽平稳时间序列的定义:设时间序列 ,对于任意的 , 和 ,满足: 则称 宽平稳。 3、Box-Jenkins方法是一种理论较为完善的统计预测方法。他们的工作为实际工作者提供了对时间序列进行分析、预测,以及对ARMA模型识别、估计和诊断的系统方法。使ARMA模型的建立有了一套完整、正规、结构化的建模方法,并且具有统计上的完善性和牢固的理论基础。 4、ARMA模型三种基本形式:自回归模型(AR:Auto-regressive),移动平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressive Moving-Average)。 (1) 自回归模型AR(p):如果时间序列 满足 其中 是独立同分布的随机变量序列,且满足: , 则称时间序列 服从p阶自回归模型。或者记为 。 平稳条件:滞后算子多项式 的根均在单位圆外,即 的根大于1。 (2) 移动平均模型MA(q):如果时间序列 满足 则称时间序列 服从q阶移动平均模型。或者记为 。 平稳条件:任何条件下都平稳。 (3) ARMA(p,q)模型:如果时间序列 满足 则称时间序列 服从(p,q)阶自回归移动平均模型。或者记为 。 特殊情况:q=0,模型即为AR(p),p=0, 模型即为MA(q)。 二、时间序列的自相关分析 1、自相关分析法是进行时间序列分析的有效方法,它简单易行、较为直观,根据绘制的自相关分析图和偏自相关分析图,我们可以初步地识别平稳序列的模型类型和模型阶数。利用自相关分析法可以测定时间序列的随机性和平稳性,以及时间序列的季节性。 2、自相关函数的定义:滞后期为k的自协方差函数为: ,则 的自相关函数为: ,其中 。当序列平稳时,自相关函数可写为: 。 3、 样本自相关函数为: ,其中 ,它可以说明不同时期的数据之间的相关程度,其取值范围在-1到1之间,值越接近于1,说明时间序列的自相关程度越高。 4、 样本的偏自相关函数: 其中, 。 5、 时间序列的随机性,是指时间序列各项之间没有相关关系的特征。使用自相关分析图判断时间序列的随机性,一般给出如下准则: ①若时间序列的自相关函数基本上都落入置信区间,则该时间序列具有随机性; ②若较多自相关函数落在置信区间之外,则认为该时间序列不具有随机性。 6、 判断时间序列是否平稳,是一项很重要的工作。运用自相关分析图判定时间序列平稳性的准则是:①若时间序列的自相关函数 在k>3时都落入置信区间,且逐渐趋于零,则该时间序列具有平稳性;②若时间序列的自相关函数更多地落在置信区间外面,则该时间序列就不具有平稳性。 7、 ARMA模型的自相关分析 AR(p)模型的偏自相关函数 是以p步截尾的,自相关函数拖尾。MA(q)模型的自相关函数具有q步截尾性,偏自相关函数拖尾。这两个性质可以分别用来识别自回归模型和移动平均模型的阶数。ARMA(p,q)模型的自相关函数和偏相关函数都是拖尾的。 三、单位根检验和协整检验 1、单位根检验 ①利用迪基—福勒检验( Dickey-Fuller Test)和菲利普斯—佩荣检验(Philips-Perron Test),我们也可以测定时间序列的随机性,这是在计量经济学中非常重要的两种单位根检验方法,与前者不同的事,后一个检验方法主要应用于一阶自回归模型的残差不是白噪声,而且存在自相关的情况。 ②随机游动 如果在一个随机过程中, 的每一次变化均来自于一个均值为零的独立同分布,即随机过程 满足: , ,其中 独立同分布,并且: , 称这个随机过程是随机游动。它是一个非平稳过程。 ③单位根过程 设随机过程 满足: , ,其中 , 为一个平稳过程并且 ,,。 2、协整关系 如果两个或多个非平稳的时间序列,其某个现性组合后的序列呈平稳性,这样的时间序列间就被称为有协整关系存在。这是一个很重要的概念,我们利用Engle-Granger两步协整检验法和J 很高兴回答楼主的问题 如有错误请见谅
㈧ 时域分析的统计量有哪些举例说明
一种互联网宏观流量异常检测方法(2007-11-7 10:37)
摘要:网络流量异常指网络中流量不规则地显着变化。网络短暂拥塞、分布式拒绝服务攻击、大范围扫描等本地事件或者网络路由异常等全局事件都能够引起网络的异常。网络异常的检测和分析对于网络安全应急响应部门非常重要,但是宏观流量异常检测需要从大量高维的富含噪声的数据中提取和解释异常模式,因此变得很困难。文章提出一种分析网络异常的通用方法,该方法运用主成分分析手段将高维空间划分为对应正常和异常网络行为的子空间,并将流量向量影射在正常子空间中,使用基于距离的度量来检测宏观网络流量异常事件。
公共互联网正在社会生活的各个领域发挥着越来越重要的作用,与此同时,由互联网的开放性和应用系统的复杂性所带来的安全风险也随之增多。2006年,国家计算机网络应急技术处理协调中心(CNCERT/CC)共接收26 476件非扫描类网络安全事件报告,与2005年相比增加2倍,超过2003—2005年3年的总和。2006年,CNCERT/CC利用部署的863-917网络安全监测平台,抽样监测发现中国大陆地区约4.5万个IP地址的主机被植入木马,与2005年同期相比增加1倍;约有1千多万个IP地址的主机被植入僵尸程序,被境外约1.6万个主机进行控制。
黑客利用木马、僵尸网络等技术操纵数万甚至上百万台被入侵的计算机,释放恶意代码、发送垃圾邮件,并实施分布式拒绝服务攻击,这对包括骨干网在内的整个互联网网络带来严重的威胁。由数万台机器同时发起的分布式拒绝服务攻击能够在短时间内耗尽城域网甚至骨干网的带宽,从而造成局部的互联网崩溃。由于政府、金融、证券、能源、海关等重要信息系统的诸多业务依赖互联网开展,互联网骨干网络的崩溃不仅会带来巨额的商业损失,还会严重威胁国家安全。据不完全统计,2001年7月19日爆发的红色代码蠕虫病毒造成的损失估计超过20亿美元;2001年9月18日爆发的Nimda蠕虫病毒造成的经济损失超过26亿美元;2003年1月爆发的SQL Slammer蠕虫病毒造成经济损失超过12亿美元。
针对目前互联网宏观网络安全需求,本文研究并提出一种宏观网络流量异常检测方法,能够在骨干网络层面对流量异常进行分析,在大规模安全事件爆发时进行快速有效的监测,从而为网络防御赢得时间。
1 网络流量异常检测研究现状
在骨干网络层面进行宏观网络流量异常检测时,巨大流量的实时处理和未知攻击的检测给传统入侵检测技术带来了很大的挑战。在流量异常检测方面,国内外的学术机构和企业不断探讨并提出了多种检测方法[1]。
经典的流量监测方法是基于阈值基线的检测方法,这种方法通过对历史数据的分析建立正常的参考基线范围,一旦超出此范围就判断为异常,它的特点是简单、计算复杂度小,适用于实时检测,然而它作为一种实用的检测手段时,需要结合网络流量的特点进行修正和改进。另一种常用的方法是基于统计的检测,如一般似然比(GLR)检测方法[2],它考虑两个相邻的时间窗口以及由这两个窗口构成的合并窗口,每个窗口都用自回归模型拟合,并计算各窗口序列残差的联合似然比,然后与某个预先设定的阈值T 进行比较,当超过阈值T 时,则窗口边界被认定为异常点。这种检测方法对于流量的突变检测比较有效,但是由于它的阈值不是自动选取,并且当异常持续长度超过窗口长度时,该方法将出现部分失效。统计学模型在流量异常检测中具有广阔的研究前景,不同的统计学建模方式能够产生不同的检测方法。
最近有许多学者研究了基于变换域进行流量异常检测的方法[3],基于变换域的方法通常将时域的流量信号变换到频域或者小波域,然后依据变换后的空间特征进行异常监测。P. Barford等人[4]将小波分析理论运用于流量异常检测,并给出了基于其理论的4类异常结果,但该方法的计算过于复杂,不适于在高速骨干网上进行实时检测。
Lakhina等人[5-6]利用主成分分析方法(PCA),将源和目标之间的数据流高维结构空间进行PCA分解,归结到3个主成分上,以3个新的复合变量来重构网络流的特征,并以此发展出一套检测方法。此外还有一些其他的监测方法[7],例如基于Markov模型的网络状态转换概率检测方法,将每种类型的事件定义为系统状态,通过过程转换模型来描述所预测的正常的网络特征,当到来的流量特征与期望特征产生偏差时进行报警。又如LERAD检测[8],它是基于网络安全特征的检测,这种方法通过学习得到流量属性之间的正常的关联规则,然后建立正常的规则集,在实际检测中对流量进行规则匹配,对违反规则的流量进行告警。这种方法能够对发生异常的地址进行定位,并对异常的程度进行量化。但学习需要大量正常模式下的纯净数据,这在实际的网络中并不容易实现。
随着宏观网络异常流量检测成为网络安全的技术热点,一些厂商纷纷推出了电信级的异常流量检测产品,如Arbor公司的Peakflow、GenieNRM公司的GenieNTG 2100、NetScout公司的nGenius等。国外一些研究机构在政府资助下,开始部署宏观网络异常监测的项目,并取得了较好的成绩,如美国研究机构CERT建立了SiLK和AirCERT项目,澳大利亚启动了NMAC流量监测系统等项目。
针对宏观网络异常流量监测的需要,CNCERT/CC部署运行863-917网络安全监测平台,采用分布式的架构,能够通过多点对骨干网络实现流量监测,通过分析协议、地址、端口、包长、流量、时序等信息,达到对中国互联网宏观运行状态的监测。本文基于863-917网络安全监测平台获取流量信息,构成监测矩阵,矩阵的行向量由源地址数量、目的地址数量、传输控制协议(TCP)字节数、TCP报文数、数据报协议(UDP)字节数、UDP报文数、其他流量字节数、其他流量报文书、WEB流量字节数、WEB流量报文数、TOP10个源IP占总字节比例、TOP10个源IP占总报文数比例、TOP10个目的IP占总字节数比例、TOP10个目的IP占总报文数比例14个部分组成,系统每5分钟产生一个行向量,观测窗口为6小时,从而形成了一个72×14的数量矩阵。由于在这14个观测向量之间存在着一定的相关性,这使得利用较少的变量反映原来变量的信息成为可能。本项目采用了主成份分析法对观测数据进行数据降维和特征提取,下面对该算法的工作原理进行介绍。
2 主成分分析技术
主成分分析是一种坐标变换的方法,将给定数据集的点映射到一个新轴上面,这些新轴称为主成分。主成分在代数学上是p 个随机变量X 1, X 2……X p 的一系列的线性组合,在几何学中这些现线性组合代表选取一个新的坐标系,它是以X 1,X 2……X p 为坐标轴的原来坐标系旋转得到。新坐标轴代表数据变异性最大的方向,并且提供对于协方差结果的一个较为简单但更精练的刻画。主成分只是依赖于X 1,X 2……X p 的协方差矩阵,它是通过一组变量的几个线性组合来解释这些变量的协方差结构,通常用于高维数据的解释和数据的压缩。通常p 个成分能够完全地再现全系统的变异性,但是大部分的变异性常常能够只用少量k 个主成分就能够说明,在这种情况下,这k 个主成分中所包含的信息和那p 个原变量做包含的几乎一样多,于是可以使用k 个主成分来代替原来p 个初始的变量,并且由对p 个变量的n 次测量结果所组成的原始数据集合,能够被压缩成为对于k 个主成分的n 次测量结果进行分析。
运用主成分分析的方法常常能够揭示出一些先前不曾预料的关系,因而能够对于数据给出一些不同寻常的解释。当使用零均值的数据进行处理时,每一个主成分指向了变化最大的方向。主轴以变化量的大小为序,一个主成分捕捉到在一个轴向上最大变化的方向,另一个主成分捕捉到在正交方向上的另一个变化。
设随机向量X '=[X 1,X 1……X p ]有协方差矩阵∑,其特征值λ1≥λ2……λp≥0。考虑线性组合:
Y1 =a 1 'X =a 11X 1+a 12X 2……a 1pX p
Y2 =a 2 'X =a 21X 1+a 22X 2……a 2pX p
……
Yp =a p'X =a p 1X 1+a p 2X 2……a p pX p
从而得到:
Var (Yi )=a i' ∑a i ,(i =1,2……p )
Cov (Yi ,Yk )=a i '∑a k ,(i ,k =1,2……p )
主成分就是那些不相关的Y 的线性组合,它们能够使得方差尽可能大。第一主成分是有最大方差的线性组合,也即它能够使得Var (Yi )=a i' ∑a i 最大化。我们只是关注有单位长度的系数向量,因此我们定义:
第1主成分=线性组合a 1'X,在
a1'a 1=1时,它能够使得Var (a1 'X )最大;
第2主成分=线性组合a 2 'X,在
a2'a 2=1和Cov(a 1 'X,a 2 'X )=0时,它能够使得Var (a 2 'X )最大;
第i 个主成分=线性组合a i'X,在
a1'a 1=1和Cov(a i'X,a k'X )=0(k<i )时,它能够使得Var (a i'X )最大。
由此可知主成分都是不相关的,它们的方差等于协方差矩阵的特征值。总方差中属于第k个主成分(被第k个主成分所解释)的比例为:
如果总方差相当大的部分归属于第1个、第2个或者前几个成分,而p较大的时候,那么前几个主成分就能够取代原来的p个变量来对于原有的数据矩阵进行解释,而且信息损失不多。在本项目中,对于一个包含14个特征的矩阵进行主成分分析可知,特征的最大变化基本上能够被2到3个主成分捕捉到,这种主成分变化曲线的陡降特性构成了划分正常子空间和异常子空间的基础。
3 异常检测算法
本项目的异常流量检测过程分为3个阶段:建模阶段、检测阶段和评估阶段。下面对每个阶段的算法进行详细的介绍。
3.1 建模阶段
本项目采用滑动时间窗口建模,将当前时刻前的72个样本作为建模空间,这72个样本的数据构成了一个数据矩阵X。在试验中,矩阵的行向量由14个元素构成。
主成份分为正常主成分和异常主成份,它们分别代表了网络中的正常流量和异常流量,二者的区别主要体现在变化趋势上。正常主成份随时间的变化较为平缓,呈现出明显的周期性;异常主成份随时间的变化幅度较大,呈现出较强的突发性。根据采样数据,判断正常主成分的算法是:
依据主成分和采样数据计算出第一主成分变量,求第一主成分变量这72个数值的均值μ1和方差σ1,找出第一主成分变量中偏离均值最大的元素,判断其偏离均值的程度是否超过了3σ1。如果第一主成分变量的最大偏离超过了阈值,取第一主成份为正常主成分,其他主成份均为异常主成分,取主成份转换矩阵U =[L 1];如果最大偏离未超过阈值,转入判断第下一主成分,最后取得U =[L 1……L i -1]。第一主成份具有较强的周期性,随后的主成份的周期性渐弱,突发性渐强,这也体现了网络中正常流量和异常流量的差别。
在得到主成份转换矩阵U后,针对每一个采样数据Sk =xk 1,xk 2……xk p ),将其主成份投影到p维空间进行重建,重建后的向量为:
Tk =UU T (Sk -X )T
计算该采样数据重建前与重建后向量之间的欧氏距离,称之为残差:
dk =||Sk -Tk ||
根据采样数据,我们分别计算72次采样数据的残差,然后求其均值μd 和标准差σd 。转换矩阵U、残差均值μd 、残差标准差σd 是我们构造的网络流量模型,也是进行流量异常检测的前提条件。
3.2 检测阶段
在通过建模得到网络流量模型后,对于新的观测向量N,(n 1,n 2……np ),采用与建模阶段类似的分析方法,将其中心化:
Nd =N -X
然后将中心化后的向量投影到p维空间重建,并计算残差:
Td =UUTNdT
d =||Nd -Td ||
如果该观测值正常,则重建前与重建后向量应该非常相似,计算出的残差d 应该很小;如果观测值代表的流量与建模时发生了明显变化,则计算出的残差值会较大。本项目利用如下算法对残差进行量化:
3.3 评估阶段
评估阶段的任务是根据当前观测向量的量化值q (d ),判断网络流量是否正常。根据经验,如果|q (d )|<5,网络基本正常;如果5≤|q (d )|<10,网络轻度异常;如果10≤|q (d )|,网络重度异常。
4 实验结果分析
利用863-917网络安全监测平台,对北京电信骨干网流量进行持续监测,我们提取6小时的观测数据,由于篇幅所限,我们给出图1—4的时间序列曲线。由图1—4可知单独利用任何一个曲线都难以判定异常,而利用本算法可以容易地标定异常发生的时间。本算法计算结果如图5所示,异常发生时间在图5中标出。我们利用863-917平台的回溯功能对于异常发生时间进行进一步的分析,发现在标出的异常时刻,一个大规模的僵尸网络对网外的3个IP地址发起了大规模的拒绝服务攻击。
5 结束语
本文提出一种基于主成分分析的方法来划分子空间,分析和发现网络中的异常事件。本方法能够准确快速地标定异常发生的时间点,从而帮助网络安全应急响应部门及时发现宏观网络的流量异常状况,为迅速解决网络异常赢得时间。试验表明,我们采用的14个特征构成的分析矩阵具有较好的识别准确率和分析效率,我们接下来将会继续寻找更具有代表性的特征来构成数据矩阵,并研究更好的特征矩阵构造方法来进一步提高此方法的识别率,并将本方法推广到短时分析中。
6 参考文献
[1] XU K, ZHANG Z L, BHATTACHARYYA S. Profiling Internet backbone traffic: Behavior models and applications [C]// Proceedings of ACM SIGCOMM, Aug 22- 25, 2005, Philadelphia, PA, USA. New York, NY,USA:ACM,2005:169-180.
[2] HAWKINS D M, QQUI P, KANG C W. The change point model for statistical process control [J]. Journal of Quality Technology,2003, 35(4).
[3] THOTTAN M, JI C. Anomaly detection in IP networks [J]. IEEE Transactions on Signal Processing, 2003, 51 )8):2191-2204.
[4] BARFORD P, KLINE J, PLONKA D, et al. A signal analysis of network traffic anomalies [C]//Proceedings of ACM SIGCOMM Intemet Measurement Workshop (IMW 2002), Nov 6-8, 2002, Marseilles, France. New York, NY,USA:ACM, 2002:71-82.
[5] LAKHINA A, CROVELLA M, DIOT C. Mining anomalies using traffic feature distributions [C]// Proceedings of SIGCOMM, Aug 22-25, 2005, Philadelphia, PA, USA. New York, NY,USA: ACM, 2005: 217-228.
[6] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies [C]// Proceedings of ACM SIGCOMM, Aug 30 - Sep 3, 2004, Portland, OR, USA. New York, NY,USA: ACM, 2004: 219-230.
[7] SCHWELLER R, GUPTA A, PARSONS E, et al. Reversible sketches for efficient and accurate change detection over network data streams [C]//Proceedings of ACM SIGCOMM Internet Measurement Conference (IMC’04), Oct 25-27, 2004, Taormina, Sicily, Italy. New York, NY,USA: ACM, 2004:207-212.
[8] MAHONEY M V, CHAN P K. Learning rules for anomaly detection of hostile network traffic [C]// Proceedings of International Conference on Data Mining (ICDM’03), Nov 19-22, Melbourne, FL, USA . Los Alamitos, CA, USA: IEEE Computer Society, 2003:601-604.
㈨ 什么是高阶统计量
高阶统计量的定义与性质
§1.1 准备知识的分布函数为,则称为的特征函数.其中为概率密度函数. 离散情况: * 特征函数是概率密度的付里叶变换. 例:设~,则特征函数为 令,则 根据公式:,则若,则.
2.多维随机变量的特征函数 设随机变量联合概率分布函数为,则联合特征函数为 令,,则 矩阵形式 或 标量形式 其中,为联合概率密度函数. 例:设维高斯随机变量为 , 的概率密度为 的特征函数为 矩阵形式 其中,, 标量形式
3.随机变量的第二特征函数 定义:特征函数的对数为第二特征函数为 (1)单变量高斯随机过程的第二特征函数 (2)多变量情形
§1.2 高阶矩与高阶累积量的定义
1.单个随机变量情形 高阶矩定义 随机变量的阶矩定义为 显然,.随机变量的阶中心矩定义为 (1) 由式(1)可见,,,. 若存在,则的特征函数可按泰勒级数展开,即(2) 并且与的阶导数之间的关系为
(2)高阶累积量定义 的第二特征函数按泰勒级数展开,有(3) 并且与的阶导数之间的关系为 称为随机变量的阶累积量,实际上由及的连续性,存在,使时,,故第二特征函数对有意义且单值(只考虑对数函数的主值),的前阶导数在处存在,故也存在.
㈩ clementine时间序列怎么分析
5.2 基本描述分析
基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。
5.2.1 计算基本描述统计量
在流中添加“Statistics”节点,打开设置面板。在“检查”中用户可以选择要进行统计的变量如下;然后在“统计量”中可以选择可统计的描述性统计量有哪些;在“相关”中可以设置与哪些变量进行简单相关分析(即求得Pearson简单相关系数)。
Clementine数据基本分析(一)
在“相关设置”中可以设置相关分析的一些参数如下。
Clementine数据基本分析(一)
下图为得到的相关分析及其它描述性统计分析的结果:
Clementine数据基本分析(一)
还可以生成符合要求的Filter。在Generate工具中,可以根据需要设置一定的相关性条件,然后生成Filter,这个功能很重要。
5.2.2 绘制散点图
除了进行描述性统计分析外,还可以生成散点图查看数据间的要关性,添加节点“Plot”并打开设置面板。“X字段”中选择X轴变量;“Y字段”中选择Y轴变量。Overlay为交叠字段,你可以在Color、Size或Shape中选择Overlay字段即流失字段,从而在散点图中实现相应效果。
“面板”表示可以绘制多个不同散点图反映Overlay变量;“动画”表示以动画方式显示多张散点图。
交叠字段类型选项:
无:表示不拟合回归直线;
平滑器(Smoother):表示采用LOESS(Locally weighted iterative robust least squares regression)方法,拟合样本数据的回归线并显示;
函数(Function):表示自德输入一个回归议程,回归线也显示。
Clementine数据基本分析(一)
结果如下:
Clementine数据基本分析(一)
5.4 两分类变量相关性的研究
两分类变量的相关性研究在实践中有广泛应用。做DataMining,对数据的类型应该极为敏感,几乎任何的统计分析或者数据挖掘,都要涉及这样一个问题:是分类型变量还是数值型变量。同理,前面我们使用相关和回归两个思维来对数值型变量的相关性进行了探讨,其中涉及到许多描述性统计量,既有描述数据集中趋势的,也有描述数据离散程度的。也涉及到散点图等图形。下面,我们将涉足分类变量。分类变量中最有名的分析,莫过于列联分析,但我们一开始并不介绍它。
一般分析分为图形分析和数值分析,不止于两分类变量
5.4.1两分类变量相关性的图形分析
一、条形图
将“Distribution”节点添加到流上。Distribution提供了两种输入字段的途径。“选定字段”选中,我们可以自定义哪些分类型字段可以进入;“所有标志”选中,则前面“Type”节点中的所有分类型字段都会进入分析。这里我们自定义“套餐类型”为我们的描述字段,然后在交叠字段中设置为“流失”。一般情况下,目标变量恒为交叠字段。”按“比例尺”表示将把频数最多的取值对应的条设置为最长,然后其它的条都会按比例设置,这样能更加清晰地看到不同取值的频数的差异;“按颜色标准化”,选中表示所有的条形都会被设置为相同长度,然后不同颜色比例表示目标变量取值不同时的情况,但“按颜色标准化”后,我们就不能比较不同取值下频数的差异了。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
二、Web图
Web图的力量在沈浩老师挖挖双色球案例中得到充分的体现。Web图为我们提供了两种分类比较模型,一是计算两两分类变量间的相关性,一是计算多个分类变量对一个分类变量的相关性。将“Web”节点添加到流上,打开设置面板。
网络:选中表示系统将计算两两分类变量间的相关性,在下面会让用户自定义进行两两分析的字段;
导向网络:选中表示系统将计算多个分类变量对一个分类变量的相关性,选中后会让用户自定义分析变量和目标变量;
仅显示真值标志:选中表示仅显示“流失”取值为“Yes”的网络,我们往往不进行这样的选择;
得到如下的结果图。在结果图中,系统在标尺上有默认的两个边界,如图中为44和250,则表示Web图中最细线表示有频数44个,最粗线表示含频数250个。得到的Web图取值呈上下结构,其中下面的“Yes”和“No”是流失的两个取值,而上面的四个点是套餐类型的四个取值。其中,线条粗细程度代表着相关性程度。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
5.4.2
两分类变量相关性的数值分析
一、计算两分类变量的列联表
以上我们通过两种图——Web图和条形图——对两分类变量的相关性进行了图形分析,除此之外,我们还可以对其进行数值分析。数值分析指的就是列联分析及相应的卡方分析。这里,我们使用的两分类变量仍然来自于电信客户数据的两个字段:套餐类型与客户是否流失。
将Output卡中的“Matrix”节点添加到流中,打开设置面板。Matrix为我们提供了几种选择字段的方式。
Slected:选中表示自定义列联表的行变量和列变量。我们在Rows中选择“套餐类型”,在Columns中选择“流失”。
All Flags:选中表示将对所有Flag型变量进行列联表分析,生成多个列联表。
Include Missing Values:选中表示即使取值为缺失值,也被列入相关的频数内。列联表分析的是多个分类变量间的相关性,统计的就自然是频数了。如果想把含缺失值的样本剔除出去,也可以通过Data Audit节点进行相关操作。
Cell Contents:Table-tabulations表示列联表各单元格(Cell)中统计的是样本的频数,一般的列联表都是进行频数统计;Function表示列联表各单元格为指定变量的分类描述统计量,应该地Field中指定相关变量,描述统计量也可以自定义选择。
打开Appearance面板,我们简要介绍一下其中的功能设置。
Highlight top:表示频数最高的若干项数据以红字显示,具体的数额可以在后面设置;
Highlight bottom:表示频数最低的若干项数据以显示,具体的数额可以在后面设置;
Cross-tabulation cell contents:
Counts:表示显示观测频数;Excepted Values:表示显示期望频数;Resials:表示显示残差;Percentage Of row:表示计算行百分比;Percentage of column:表示计算列百分比;Percentage Of Total:表示计算总百分比。注意这三个百分比的不同表示及不同意义。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
二、行列变量的相关性分析
通过对以上数据的分析,我们知道套餐类型与客户流失具有关联性,那么,这种关联性是此数据的偶然结果呢,还是总体即有这种关联性呢?从统计学上讲,这种分类变量间的关联性,是由于样本抽取过程中的随机误差导致的呢,还是系统本身固有的属性呢?
为此,我们需要对此关联性做检验,这就涉及到我们要提到的卡方检验。卡方检验是统计学中经典假设检验的组成部分,由统计学之父卡尔·皮尔逊发明,被称为20世纪最有革命性的十大发明之一。
卡方检验分四步:
1、提出零假设:这里的零假设是行变量与列变量独立。
2、选择和计算检验统计量,即Pearson卡方统计量,其数学公式这里不再提起。有关卡方检验的问题,我们会在后面的统计部分详细展开,我们在这里需要提一下,卡方公式中涉及到列联表的行数和列数,频数的观测值和期望值。
那么,什么是期望频数(Expected Count)呢?期望频数指的是行列变量互相不相关的情况下的频数的均匀分布。求期望频数的方法非常简单,我们也将在后面有关统计学的部分中详细提到,此处略去不计。
卡方统计量的大小与两个因素有关。一题名联表的单元格子数;二是观测频数与期望频数间的总差值。当列联表确定的时候,列联表的格子数亦确定,此时卡方统计量只与预测频数与期望频数间的总差值有关。当预测频数与期望频数总差值越大时,卡方统计量越大,表明行列变量的相关性越强;当预测频数与期望频数总差值越小时,卡方统计量越小,表明行列变量的相关性越弱。
那么,如果进一步描述此卡方统计量的意义呢?卡方统计量近似服从卡方分布,故我们决定用一定的自由度和一定的显着性水平来框定卡方统计量的阈值。
第三步,确定显着性水平和临界值
显着性水平一般取0.05或0.01;卡方统计量服从(行数-1)*(列数-1)个自由度的卡方分布。因此,在行列数目和显着性水平确定的情况下,卡方临界值是可唯一确定的。
第四步,结论和决策
这一部分理解起来有些艰难,但对统计学的学生来说相当简单,即可以计算出相应卡方统计量的概率,如果小于显着性水平则拒绝原假设;反之,则不能拒绝原假设。这是非常常用的一种方法,即通过概率的方法。当然你也可以通过临界值的方法来做,即由行列数和显着性水平确定唯一的临界值,然后由软件计算出卡方统计量,比较二者。如果卡方统计量大于临界值,则行列变量有相关性;否则没有相关性。