Ⅰ 如何理解主成分分析法 (PCA)
什么是主成分分析法
主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信息量中 比例较 大的主成分来分析 事物 的一种方法 。 主成分在变差信息量中的比例越大 , 它在综合评价 中的作用就越大
思想: 整体思想就是化繁为简,抓住问题关键,也就是降维思想。当然,既然是抓住关键,那么自然就是以牺牲精度为代价。
解决问题: 因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。 在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。
人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。为了尽可能的减少冗余和噪音,一般情况可以从相关变量中选择一个,或者把几个相关变量综合为一个变量作为代表,用少数变量来代表所有变量。
原理: 因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究 ,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。 这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。
形象理解
比如,某学籍数据,有两列 M 和 F ,其中M 列的取值是如果学生为男性,则取值为 1 如果为女性,则取值为 0 。F 列,如果为男性则取值为 0 否则取值为一。 由这两种关系可以知道,这两列数据是强相关的。只要保留一列,就能够完全还原另外一列。 当然,不要局限于数据删除,还有数据转换,删除可以理解为在此方法中的一种方式。
当然,上述情况在真实数据中是不可能出现的。这里只是借此介绍一下这种思维。真实情况中, 我们需要考虑删除哪一列信息可以使得损失最小?或者是通过变换数据就能使得损失信息更小?又如何度量信息的丢失量?原始数据的处理降维有哪些步骤?
坐标示例:
我们来看下面这张图,这是一个椭圆的点阵。椭圆上面有一个长轴和一个短轴。现在我们要表示点阵的主要变化趋势,就可以以长短轴(或者平行于长短轴)构建新的坐标系。在极端的情况下,短轴变成了一个点,那么长轴就能代表这个点阵的趋势和特点。这样,一个二维数据,就变成了一维。
基础知识储备
内积与投影:
内积运算,将两个向量映射为一个实数。其几何意义就是 向量 A ,在向量 B 的投影长度。(下图是以二维向量为例,多维空间依然是如此。)
上式中,B 为单位向量
基 :
同样以上图 B为例,B向量为(3,2)其表示的其实为在 X 轴的投影值为3 ,在Y轴的投影值 为 2 。这其实加入了一个隐含信息,就是本坐标轴 分别是以 X Y轴为方向的单位向量。这里的 X Y 轴其实就是我们所提到的 基。只不过一般默认为 (1,0)和(0,1)
所以呢,要描述一组向量,首先是要确定一组基。然后求这个向量在这组基中的投影即可。对基的要求是线性无关,并不一定非要正交。但是因为正交基有较好的性质,所以一般情况我们都是用正交基。
基变换
上面我们了解了基的原理。如果同样把(3,2)放到新基里面描述,那就是把向量和新基相乘即可。
如果是在描述中,有多个基呢?那就是与基阵相乘。
如何实现降维
上面的思路,我们都清楚了。那么我们如何通过基变换来降维呢?这里我们来举个例子。假设我们有一个矩阵如下。
为了处理方面,我们现在把每个字段都减去字段平均值,那么就变成了如下所示
表示在坐标上如下图
那么,我们现在想用一维坐标来表示,而且要求尽可能的保留原来的信息,我们需要如何选择方向(基)呢?(二维降一维)
思路就是,希望投影后的值尽可能的分散,避免重合。
协方差:
在概率论与统计学中,协方差用于衡量两个随机变量的联合变化程度。而方差则是协方差的一种特殊情况,即变量与自身的协方差。
期望:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。比如骰子的期望值为 1* 1/6 +2*1/6 + …+ 6*1/6 = 3.5
协方差公式为:
其中,E(X) = u E(Y) = v
协方差表示的是两个变量的总体的误差 ,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的,那么二者之间的协方差就是0
流程和步骤
第一步:标准化
把输入数据集变量的范围标准化,以使它们中的每一个均可以大致成比例的分析。简单说,就是要把存在较大差异的数据转变为可比较的数据。比如把 0-100 的变量转化为 0-1 的变量。这一步一般可以通过减去平均值,再除以每个变量值的标准差来完成。标准差公式如下
那么常用的标准化指标变量公式可为
第二步:协方差矩阵计算
这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。
协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目。
好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性。下面就是计算协方差矩阵的特征向量和特征值,以筛选主要成分。
第三步:计算协方差矩阵的特征向量和特征值,用以识别主成分
特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义
主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。
例如,假设你有一个10维数据,你最终将得到的内容如下面的屏幕图所示,其中第一个主成分包含原始数据集的大部分信息,而最后一个主成分只包含其中的很少部分。因此,以这种方式组织信息,可以在不丢失太多信息的情况下减少维度,而这需要丢弃携带较少信息的成分。
在这里,方差和信息间的关系是,线所承载的方差越大,数据点沿着它的分散也越大,沿着线的散点越多,它所携带的信息也越多。简单地说,只要把主成分看作是提供最佳角度来观察和评估数据的新轴,这样观测结果之间的差异就会更明显。
协方差矩阵的特征向量实际上是方差最多的轴的方向(或最多的信息),我们称之为主成分。通过特征值的顺序对特征向量进行排序,从最高到最低,你就得到了按重要性排序的主成分。
第四步:特征向量
正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。
因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。
第五步:沿主成分轴重新绘制数据
在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。
这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。
优缺点
优点:化繁为简,降低了计算量。
缺点:一定程度上损失了精度。并且只能处理“线性问题”,这是一种线性降维技术、
总结
假设我们拿到了一份数据集,有m个样本,每个样本由n个特征(变量)来描述,那么我们可以按照以下的步骤进行降维:
1、将数据集中的每个样本作为列向量,按列排列构成一个n行m列的矩阵;
2、将矩阵的每一个行向量(每个变量)都减去该行向量的均值,从而使得新行向量的均值为0,得到新的数据集矩阵X;
3、求X的协方差矩阵,并求出协方差矩阵的特征值λ和单位特征向量e;
4、按照特征值从大到小的顺序,将单位特征向量排列成矩阵,得到转换矩阵P,并按PX计算出主成分矩阵;
5、用特征值计算方差贡献率和方差累计贡献率,取方差累计贡献率超过85%的前k个主成分,或者想降至特定的k维,直接取前k个主成分。
参考文章: https://blog.csdn.net/Murray_/article/details/79945148
参考文章: https://www.cnblogs.com/Luv-GEM/p/10765574.html
参考文章: https://www.ssffx.com/wangzhanjianshe/40715.html
Ⅱ 主成分分析法和聚类分析法的区别
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。 在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
R型聚类分析是对变量进行分类处理,Q型聚类分析是对样本进行分类处理。
R型聚类分析的主要作用是: 1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Ⅲ 分析物质成分有什么方法
分析物质成分方法:主成分分析是一种综合评价方法。它比较了样品的相对位置,比较了样品的优缺点,缺口和原因。方向不积极,没有正确的结论。因此,在分析中,必须转发指标体系中的强度逆指数和中等指数。
主成分分析的理论和计算较为成熟,但主成分分析的应用尚未达到解决实际问题的成熟状态。
根据总结,一些用户在应用主成分分析方法进行综合评价时有以下10个问题。
1、原始数据不正,有什么影响?如何转发?
2、原始变量是否意味着主成分的平方和不是1对?
3、主成分分析的主成分正交旋转后会发生什么?
4、回归计算是否需要主成分分析的主要成分?
5、主成分分析和正交因子分析吗?
6、何时进行主成分分析?
7、主成分分析有时会丢失一些原始变量的原因是什么?
8、如何命名主成分并维护原始变量和多个主成分之间的内在关系?
9、前m个主成分仍然是多因素,客观上只使用综合主成分进行综合分析?
10、综合评价结果,如何深入了解决策相关程度?
主成分分析服务范围
1、产品开发或改进:一般分析,比较分析,特殊需求分析。
2、质量控制:供应商评估,内部控制检查。
3、工业诊断:异物分析,失效分析,副产物分析。
4、了解成分:(溶剂,表面活性剂,树脂,主成分)定性和定量分析,名称
5、组分定量或验证,未知重复,无机定性定量,橡胶和塑料主成分表征等。
Ⅳ 因子分析法和主成分分析法的区别与联系是什么
联系:因子分析法和主成分分析法都是统计分析方法,都要对变量标准化,并找出相关矩阵。区别:在主成分分析中,最终确定的新变量是原始变量的线性组合,因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系。
1.因子分析法通过正交变换,将一组可能具有相关性的变量转换为一组线性不相关的变量,称为主成分。它主要用于市场研究领域。在市场研究中,研究人员关注一些研究指标的整合或组合。这些概念通常通过分数来衡量。人口学、数量地理学、分子动力学模拟、数学建模、数学分析等学科。因子分析和主成分分析都是统计分析方法,都需要对变量进行标准化,找出相关矩阵。
2.因子分析可以在许多变量中发现隐藏的代表性因素。主成分分析的原理是尝试将原始变量重新组合成一组新的独立综合变量。因子分析在主成分分析的基础上增加了一个旋转函数。这种轮换的目的是更容易地命名和解释因素的含义。如果研究的重点是指标与分析项目之间的对应关系,或者想要对得到的指标进行命名,建议使用因子分析。
3.主成分分析法是根据实际需要,尽量选取尽可能少的求和变量,以反映原始变量的信息。这种统计方法称为主成分分析或主成分分析,这也是一种处理降维的数学方法。主成分分析试图用一套新的不相关的综合指标取代原有指标。因子分析是社会研究的有力工具,但它不能确定一项研究中有多少因素。当研究中选择的变量发生变化时,因素的数量也会发生变化。
拓展资料:霍特林将这种方法推广到随机向量的情况。信息的大小通常由方差或方差的平方和来衡量。因子分析最早由英国心理学家C.E.斯皮尔曼提出。他发现学生在不同科目的成绩之间有一定的相关性。一门学科成绩好的学生往往在其他学科成绩更好,因此他推测是否有一些潜在的共同因素或一些一般的智力条件影响学生的学业成绩。
Ⅳ 因子分析法和主成分分析法的区别与联系
一、方式不同:
1、因子分析法:
通过从变量群中提取共性因子
2、主成分分析法:
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
二、应用不同:
1、因子分析法:
主要应用于市场调研领域,在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的。
2、主成分分析法:
人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用。
三、联系:
因子分析法和主成分分析法都是统计分析方法,都要对变量标准化,并找出相关矩阵。
(5)主成分分析方法属于什么分析方法扩展阅读
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
因子分析法最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。
Ⅵ 主成分分析(PCA)
主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。
统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。
主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。
方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行
假设 是m维随机变量,其均值是
,
协方差矩阵是
考虑到m维随机变量 到m维随机变量 的线性变换
其中
由随机变量的性质可知
总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件
设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是
的第k主成分的方差是
即协方差矩阵 的第k个特征值
首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的
求第一主成分就是求解最优化问题
定义拉格朗日函数
其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得
因此 是 的特征值, 是对应的单位特征向量。于是目标函数
假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值
接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大
求第二主成分需参求解约束最优化问题
定义拉格朗日函数
其中 对应拉格朗日乘子。对 求偏导,并令其为0,得
将方程左则乘以 有
此式前两项为0,且 ,导出 ,因此式成为
由此, 是 的特征值, 是对应的特征向量,于是目标函数为
假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,
按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。
主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。
对任意正整数 ,考虑正交线性变换
其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为
则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。
这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。
以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。
第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作
k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比
通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。
k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作
计算公式如下:
其中, 是随机变量 的方差,即协方差矩阵 的对角元素。
在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1
设 为随机变量, 为第i个随机变量, ,令
其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。
在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。
使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:
其中
样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。
传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法
给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析
给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分
对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解
式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到
定义一个新的 矩阵
的每一列均值为0,
即 等于X的协方差矩阵
主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。
假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现
Ⅶ 什么是主成分分析方法
什么是主成分分析方法
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标.
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术.它是一个线性变换.这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.
Ⅷ pca主成分分析是什么
主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。
它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。
1、将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分。
2、C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
3、以此类推,找到第三主成分,第四主成分……第p个主成分。p个随机变量可以有p个主成分。
主成分分析经常用于减少数据集的维数,同时保留数据集当中对方差贡献最大的特征。这是通过保留低维主成分,忽略高维主成分做到的。这样低维成分往往能够保留住数据的最重要部分。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。
使用统计方法计算PCA
以下是使用统计方法计算PCA的详细说明。但是请注意,如果利用奇异值分解(使用标准的软件)效果会更好。
我们的目标是把一个给定的具有M维的数据集X变换成具有较小维度L的数据集Y。现在要求的就是矩阵Y,Y是矩阵XKarhunen–Loève变换。
Ⅸ 主成分分析法适用于哪些问题
主成分分析法适用于变量间有较强相关性的数据,若原始数据相关性弱,则起不到很好的降维作用,降维后,存在少量信息丢失,不可能包含100%原始数据。
主成分分析是一种统计方法,即通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形。
Ⅹ 主成分分析法(PCA)
3.2.2.1 技术原理
主成分分析方法(PCA)是常用的数据降维方法,应用于多变量大样本的统计分析当中,大量的统计数据能够提供丰富的信息,利于进行规律探索,但同时增加了其他非主要因素的干扰和问题分析的复杂性,增加了工作量,影响分析结果的精确程度,因此利用主成分分析的降维方法,对所收集的资料作全面的分析,减少分析指标的同时,尽量减少原指标包含信息的损失,把多个变量(指标)化为少数几个可以反映原来多个变量的大部分信息的综合指标。
主成分分析法的建立,假设xi1,xi2,…,xim是i个样品的m个原有变量,是均值为零、标准差为1的标准化变量,概化为p个综合指标F1,F2,…,Fp,则主成分可由原始变量线性表示:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
计算主成分模型中的各个成分载荷。通过对主成分和成分载荷的数据处理产生主成分分析结论。
3.2.2.2 方法流程
1)首先对数据进行标准化,消除不同量纲对数据的影响,标准化可采用极值法
图3.3 方法流程图
2)根据标准化数据求出方差矩阵;
3)求出共变量矩阵的特征根和特征变量,根据特征根,确定主成分;
4)结合专业知识和各主成分所蕴藏的信息给予恰当的解释,并充分运用其来判断样品的特性。
3.2.2.3 适用范围
主成分分析不能作为一个模型来描述,它只是通常的变量变换,主成分分析中主成分的个数和变量个数p相同,是将主成分表示为原始变量的线性组合,它是将一组具有相关关系的变量变换为一组互不相关的变量。适用于对具有相关性的多指标进行降维,寻求主要影响因素的统计问题。