A. 地质因子分析
矿液的运移总是从高压向低压方向流动,温度一般也是由高变低。矿液自深部上升时,由于温度、应力逐渐降低和成矿物质不断地析出,溶液的成分和浓度也在不断变化。因此,沿着矿液通路各地段形成的矿化类型与矿化强度也是不断变化的。通过R型聚类分析,求得矿化指示元素之间的关系。结合矿化原生带分带性将成矿元素分组,分别求出各组元素矿化地质因子F1、F2、F3、F4。选其中方差贡献最大的地质因子,研究矿化过程中不同温度、压力环境,从而作为研究矿液运移特征的基本指标。
因子得分是地质因子在样品上的取值。因子得分绝对值较高,该地质因子代表的地质条件(如成矿温度、压力环境)在样品上反映就越明显。为此,将每个样品的因子得分投到矿区各中段取样位置图上,得到矿化组合带,即可借此确定矿液入口、矿液运移的具体路径及流向。
图3.51 长闹塘断裂纵剖面F1、F2因子得分分布图
(据江祝伟等)
江祝伟等研究认为个旧松树脚矿田6号东锡矿床长闹塘断裂,纵剖面F1与F2因子得分分布图(图3.51)显示矿液在导矿断裂中的主要运移通道具有定位性与定向性,高值区都在y坐标3200~3400线之间。F1极大值处于920m标高,靠近3200线,F2极大值位于720m高程,靠近3400线。二者形成由下而上、由北东向南西斜向错位。代表Sn、Cu矿化的较高温压条件下的矿化因子与代表铅、锌矿化的较低温压条件下的矿化因子的矿化元素组合带分带明显,反映矿液运移的主要通道在y坐标3400~3200线之间,且沿长闹塘断裂,由深部向浅部,从北东向南西运移。两个因子得分极大值较小,分别为—18.5与+10,表明两种不同的矿化元素组合带在长闹塘断裂中相对较弱;加之极大值错距大,说明矿化元素组合带分带宽,反映矿液在导矿构造中流速较大。
图3.52 6号东矿床不同中段平面F1与F2因子得分分布图
(据江祝伟等)
1—断层;2—矿体;3—F1因子得分等值线;4—F2因子得分等值线
不同方向剖面和不同标高中段F1、F2因子得分分布不同(图3.52),显示矿床范围内矿液主要为由下而上的运移特征,并有一些主要的矿液入口。矿液运移主要通道及运移方向主要受2号断裂控制。3200线东西向剖面中995m中段与1045中段较低温压条件下的矿化元素组合带高值区相对较高温压条件下矿化元素组合带高值区由6400线向西错位,表明矿液自东向西流动;950中段x=6400,y=3200处为矿液主要入口处,矿液从该处进入矿床后,向西注入近东西向容矿构造;870m与920m中段,两类矿化元素组合带高值区在平面上局部错位,870m中较低温压条件下,矿化元素组合带相对较高温压条件下的组合带由南东向北西错位,而920m中段前者都相对后者由北西向南东错位,反映矿液运移路径的复杂性和回流特征。
B. 因子分析的基本步骤
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析:
(1)计算相关系数矩阵Correlation Matrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。
(2)计算反映象相关矩阵Anti-image correlation matrix
反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与方法(1)中最后所述理由相同,一般少采用此方法
(3)巴特利特球度检验Bartlett test of sphericity
Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显着水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显着性水平很大(如0.10以上)可能表明数据不适宜于因子分析。
(4)KMO(Kaiser-Meyer-OklinMeasure of Smapling Adequacy)
KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。
C. 因子分析概念
在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测并收集大量数据,以便分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在的相关性增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,产生错误的结论。因此需要找到一个合理的方法,在减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此用较少的指标分别综合存在于各变量中的各类信息,这少数几个综合指标彼此不相关,即所代表的信息是不重叠的,通常称为因子,因子分析法因此得名。因此,因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法(于志钧等,1984;赵旭东,1992;陆明德,1991)。
因子分析方法由Spearman在19世纪初研究心理学问题时提出,1957年由Krumbein引入地质学,后来Imbrie对因子分析在地质学中的应用和发展做了大量工作。
因子分析可以从以下几个方面为地质研究提供帮助:①压缩原始数据。因子分析为众多复杂的地质数据精简提供了一种数学算法,它能在数量上大大精简原始数据但又不损失数据中包含的成因信息,这样就有利于地质人员进行综合分析。②指示成因推理方向。因子分析能够把庞杂纷乱的原始数据按成因上的联系进行归纳、整理、精炼和分类,理出几条客观的成因线索,为地质人员提供逻辑推理方向,启发思考相应的成因结论。③分解叠加的地质过程。现实中观测到的地质现象往往是多种成因过程叠加的产物,因子分析提供了一个分解叠加过程而识别每个单一地质过程的手段。
鉴于上述原因,因子分析在地学领域的应用十分广泛,已有效地应用于沉积盆地蚀源区的研究、沉积物的粒度分析、沉积相研究、地层分析、古环境与古生态的研究、石油及天然气成因研究、油田水化学研究、有机地球化学研究及石油、天然气化探资料分析等各个方面(曾溅辉等,2002;张俊,2005;陈科贵等,2006)。
D. 什么是因子分析法
因子分析法是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得分就是因子得分。
因子分析在市场调研中有着广泛的应用,主要包括:
(1)消费者习惯和态度研究(U&A)
(2) 品牌形象和特性研究
(3)服务质量调查
(4) 个性测试
(5)形象调查
(6) 市场划分识别
(7)顾客、产品和行为分类
在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。
E. 怎样用spss做因子分析
可以使用在线spss平台SPSSAU进行分析,因子分析用于探索定量数据可以浓缩为几个方面(因子),每个方面(因子)和题项对应关系。因子分析步骤:
1、选择进阶方法>>因子
3、点击开始分析
因子分析通常有三个步骤:第一步是判断是否适合进行因子分析;第二步是因子与题项对应关系判断;第三步是因子命名。
第一步:判断是否进行因子分析,判断标准为KMO值大于0.6;
第二步:因子与题项对应关系判断。如因子与题项对应关系与预期严重不符则可考虑对题项进行删除
第三步:在第二步删除掉不合理题项后,并且确认因子与题项对应关系良好后,则可结合因子与题项对应关系,对因子进行命名。
F. 质因子的算法
求因子和的方法:
sqrt( n ) 太慢,可以用一下DP的思想,
把质因子分析出来 ai^x,
那么 再乘 一个 ai+1 ,因子和就增加了原来的 ai+1 倍
如果这个质因子是2次幂,那么还得增加原来那一层的 (ai+1)^2倍
速度因该是质因子的指数的和,但是受到求质因子速度的制约
36:
0: 1
1: 2 4 =( 1*2,1*2^2 ) sum = 1+(2)+(4); //2*2
2: 3 6 12 , 9 18 36 sum = 1+2+4+ (3+6+12) + (9+18+26)
也就是说,如果我们知道了一层的sum,那么就可以推出下一层的sum
知道了一个数的因子和,就可以推知他的质数倍^x 的那个数的因子的和,
DP来解决这道题,对于数 x,把它除尽一个质数,那么x/a^k = y
那么 y 就是上一层的那个sum
而对于x,存在 x = (1+a+a^2+a^3..a^k)*y
上面这个方法要 100 s, 题目要求不是求因子和,所以如果有质数在 [a,b] 内,那么最大的质数就是answer
主要的函数:
cal (x) 求 x 的因子和
int cal(int a) //计算 a 的因子和
{
int i;
int last,now;// sum
last = 1;now = 0;
int x;// 因子的^x 与前一阶段
int t = a;
for ( i=0;primes[ i ] <= a;i++ )
{
if ( a%primes[ i ] == 0 )
{
x = last;
now = last;
while ( a %primes[ i ] == 0 )
{
// printf(%d can div %d :, a ,primes[i] );//debug
a /= primes[i];
x *= primes[ i ];
now += x;
// printf(now: %d x: %d
,now,x);//debug
}
// printf(now: %d last: %d
,now,last);//debug
last = now;
}
}
return last - t;
// printf(answer is %d
,last);
}
第二个DP虽然TLE,但是有思考价值,求很多数的因子和时,也许能用的到
void work2()
{
int i,j;
dp[ 1 ] = 1;
int temp;
for ( i=2;i<=1000000;i++ )
{
for ( j=0; primes[ j ]<=i;j++ ) //寻找上一层
if ( i % primes[ j ] == 0 )
break;
int i2 = i;
temp = 1;//求前面那个系数
while ( i2 % primes[ j ] == 0 )
{
temp = temp* primes[ j ] + 1;
i2 /= primes[ j ];
}
int last = dp [ i2 ];
dp [ i ] = temp* last;
// printf(dp[ %d ] = %d
,i,dp[i]);
if (i%1000 == 0) cout<<i<<endl;//debug
}
}
G. 进行因子分析的前提条件是各变量之间应该怎么做
进行因子分析的前提条件是,各变量之间应该低度相关。
因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量。因此因子分析的首要前提就是各个变量之间应该具有一定的相关度,不要求相关度过高,只是低度相关
比如,如果要测量学生的学习积极性,课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应。在这里,学习积极性与学习成绩是无法直接用一个测度测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地把握。
换句话说,这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征,或者是它的一部分。在这里,表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因,而表征是果,比如学习积极性是课堂参与程度的一个主要决定因素。
(7)质因子分析的方法扩展阅读
因子分析的应用
在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得分就是因子得分。
因子分析在市场调研中有着广泛的应用,主要包括:
1、消费者习惯和态度研究(U&A)
2、品牌形象和特性研究
3、服务质量调查
4、个性测试
5、形象调查
6、市场划分识别
7、顾客、产品和行为分类
参考资料来源:网络—因子分析
H. 因子分析法的分析步骤
因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。
(i)因子分析常常有以下四个基本步骤:
⑴确认待分析的原变量是否适合作因子分析。
⑵构造因子变量。
⑶利用旋转方法使因子变量更具有可解释性。
⑷计算因子变量得分。
(ii)因子分析的计算过程:
⑴将原始数据标准化,以消除变量间在数量级和量纲上的不同。
⑵求标准化数据的相关矩阵;
⑶求相关矩阵的特征值和特征向量;
⑷计算方差贡献率与累积方差贡献率;
⑸确定因子:
设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;
⑹因子旋转:
若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
⑺用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
⑻综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此处wi为旋转前或旋转后因子的方差贡献率。
⑼得分排序:利用综合得分可以得到得分名次。
在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:
· 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。
· 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。
· 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。
如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
I. 成分分析法和因子分析法的主要区别
主成分分析和因子分析有十大区别:
1.原理不同:成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
2.线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
3.假设条件不同:成分分析不需要有假设(assumptions), 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
4.求解方法不同:成分分析方法从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况); 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
5.主成分和因子的变化不同:成分分析当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的; 因子分析:因子不是固定的,可以旋转得到不同的因子。
6.因子数量与主成分的数量:成分分析主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。 因子分析:因子个数需要分析者指定(SPSS和sas根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;
7.解释重点不同:成分分析重点在于解释个变量的总方差, 因子分析:则把重点放在解释各变量之间的协方差。
8.算法上的不同:成分分析协方差矩阵的对角元素是变量的方差; 因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)
9.优点不同:因子分析可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据; 主成分分析: 第一:如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析; 第二:通过计算综合主成分函数得分,对客观经济现象进行科学评价; 第三:它在应用上侧重于信息贡献影响力综合评价。 第四:应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维;
10.应用场景不同:成分分析可以用于系统运营状态做出评估,一般是将多个指标综合成一个变量,即将多维问题降维至一维,这样才能方便排序评估; 此外还可以应用于经济效益、经济发展水平、经济发展竞争力、生活水平、生活质量的评价研究上; 主成分还可以用于和回归分析相结合,进行主成分回归分析,甚至可以利用主成分分析进行挑选变量,选择少数变量再进行进一步的研究。 一般情况下主成分用于探索性分析,很少单独使用,用主成分来分析数据,可以让我们对数据有一个大致的了解。
文章来于成分分析:http://www.femtoanalysis.com,转载请注明出处
J. 因子分析法的优缺点
它的优缺点是相对主成分分析法而言的
因子分析法与主成分分析法都属于因素分析法,都基于统计分析方法,但两者有较大的区别:主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合;而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。通过对上述内容的学习,可以看出因子分析法和主成分分析法的主要区别为:
(1)主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合,原始观察变量在两种情况下所处的位置不同。
(2)主成分分析中,新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同,它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量,再按总方差误差的允许值大小,来选定q个(q<p)主成分;而因子分析法是要构造一个模型,将问题的为数众多的变量减少为几个新因子,新因子变量数m小于原始变量数P,从而构造成一个结构简单的模型。可以认为,因子分析法是主成分分析法的发展。
(3)主成分分析中,经正交变换的变量系数是相关矩阵R的特征向量的相应元素;而因子分析模型的变量系数取自因子负荷量,即。因子负荷量矩阵A与相关矩阵R满足以下关系:
其中,U为R的特征向量。
在考虑有残余项ε时,可设包含εi的矩阵ρ为误差项,则有R
−
AAT
=
ρ。
在因子分析中,残余项应只在ρ的对角元素项中,因特殊项只属于原变量项,因此,的选择应以ρ的非对角元素的方差最小为原则。而在主成分分析中,选择原则是使舍弃成分所对应的方差项累积值不超过规定值,或者说被舍弃项各对角要素的自乘和为最小,这两者是不通的。