常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。
1、聚类分析(Cluster Analysis)
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
2、因子分析(Factor Analysis)
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。
3、相关分析(Correlation Analysis)
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。
4、对应分析(Correspondence Analysis)
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
5、回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,?,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
6、方差分析(ANOVA/Analysis of Variance)
又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显着性检验。由于各种因素的影响,研究所得的数据呈现波动状。
想了解更多关于数据分析的信息,推荐到CDA数据认证中心看看,CDA(Certified Data Analyst),即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。
❷ 因子分析概念
在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测并收集大量数据,以便分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在的相关性增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,产生错误的结论。因此需要找到一个合理的方法,在减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此用较少的指标分别综合存在于各变量中的各类信息,这少数几个综合指标彼此不相关,即所代表的信息是不重叠的,通常称为因子,因子分析法因此得名。因此,因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法(于志钧等,1984;赵旭东,1992;陆明德,1991)。
因子分析方法由Spearman在19世纪初研究心理学问题时提出,1957年由Krumbein引入地质学,后来Imbrie对因子分析在地质学中的应用和发展做了大量工作。
因子分析可以从以下几个方面为地质研究提供帮助:①压缩原始数据。因子分析为众多复杂的地质数据精简提供了一种数学算法,它能在数量上大大精简原始数据但又不损失数据中包含的成因信息,这样就有利于地质人员进行综合分析。②指示成因推理方向。因子分析能够把庞杂纷乱的原始数据按成因上的联系进行归纳、整理、精炼和分类,理出几条客观的成因线索,为地质人员提供逻辑推理方向,启发思考相应的成因结论。③分解叠加的地质过程。现实中观测到的地质现象往往是多种成因过程叠加的产物,因子分析提供了一个分解叠加过程而识别每个单一地质过程的手段。
鉴于上述原因,因子分析在地学领域的应用十分广泛,已有效地应用于沉积盆地蚀源区的研究、沉积物的粒度分析、沉积相研究、地层分析、古环境与古生态的研究、石油及天然气成因研究、油田水化学研究、有机地球化学研究及石油、天然气化探资料分析等各个方面(曾溅辉等,2002;张俊,2005;陈科贵等,2006)。
❸ 因子分析的基本步骤
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析:
(1)计算相关系数矩阵Correlation Matrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。
(2)计算反映象相关矩阵Anti-image correlation matrix
反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与方法(1)中最后所述理由相同,一般少采用此方法
(3)巴特利特球度检验Bartlett test of sphericity
Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显着水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显着性水平很大(如0.10以上)可能表明数据不适宜于因子分析。
(4)KMO(Kaiser-Meyer-OklinMeasure of Smapling Adequacy)
KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。
❹ 什么是因子分析法
因子分析法是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得分就是因子得分。
因子分析在市场调研中有着广泛的应用,主要包括:
(1)消费者习惯和态度研究(U&A)
(2) 品牌形象和特性研究
(3)服务质量调查
(4) 个性测试
(5)形象调查
(6) 市场划分识别
(7)顾客、产品和行为分类
在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。
❺ 什么是多因子选股
多因子模型是一类重要的选股模型,它的优点是能够综合很多信息最后得出一个选股结果。多因子模型的表现相对米说也比较稳定,因为在不同的市场情况下,总有一些因子会发挥作用。因此,在量化投资界,不同的投盗者和研究者都开发了很多不同的多因子模型。各种多因子模型核心的区别一是在因子的选取上,二是在如何用多因子综合得到一个最终的判断。
一般而言,多因子选股模型有两种判断方法,一是打分法,二是回归法。
打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权重加权得到一个总分,根据总分再对股票进行筛选。打分法根据加权方法的不同又可以分为静态加权和动态加权。打分法的优点是相对比较稳健,不容易受到极端值的影响。
回归法就是用过去的股票的收益率对多因子进行回归。得到一个回归方程,然后把最新的因子值代入回归方程得到一个对未来股票收益的预判,最后以此为依据进行选股。回归法的优点是能够比较及时地调整股票对各因子的敏感性,而且不同的股对不同的因子的敏感性也可以不同。回归法的缺点是容易受到极端值的影晌,在股票对因子敏感度变化较大的市场情况下效果也比较差。
❻ 因子分析方法
因子分析是一种多变量化简技术,目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性较低,每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。其分析方法有很多种,最常用的有两种:一是主成分分析方法;另外一种是一般因子分析法。通常所说的因子分析指的就是一般因子分析法,它通过原始变量的方差去构造因子,一般情况下,因子的数量总是要少于变量的数量。所以对于一般因子分析而言,如何正确解释因子将会比主成分分析更困难。
因子分析一般可以分成四步:
考察变量之间的相关性,判断是否要进行因子分析;
进行分析,按一定的标准确定提取的因子数目,一般要求特征值大于1;
考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式;
计算出因子得分等中间指标,供进一步分析使用。
利用因子分析,可以把搜集到的比较杂乱的原始数据进行压缩,找出最重要的因子,并对其按照成因归类、整理,从中找出几条主线,帮助分析充满度的主要控制因素。
本研究中共统计岩性圈闭354个,参与统计分析和计算的圈闭有249个。由于其中的落空圈闭无法参与因子分析及充满度预测模型的建立,因此实际参与分析和预测的岩性油气藏为222个。初步地质分析后,选取平均孔隙度,%;平均渗透率,10-3μm2;排烃强度,104t/km2;与排烃中心的平面距离,km;与排烃中心的垂直距离,m;地层压力系数;砂体厚度,m;砂体面积,km2;有机质丰度,%;围岩厚度,m;平均埋深,m;共11个地质参数进行因子分析。
本研究按不同的成藏体系进行,建立其充满度预测模型并进行回代验证。同一成藏体系内的岩性油气藏的生、储、盖、圈、运、保等成藏条件相互影响、相互制约,关系密切,将同一成藏体系中的岩性油气藏又分别划分为构造-岩性、透镜体油气藏进行预测。
❼ 量化选股策略是什么多因子模型是什么
量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为,研究表明,板块、行业轮动在机构投资者的交易中最为获利的盈利模式是基于行业层面进行周期性和防御性的轮动配置,这也是机构投资者最普遍采用的策略。此外,周期性股票在扩张性货币政策时期表现较好,而在紧缩环境下则支持非周期性行业。行业收益差在扩张性政策和紧缩性政策下具有显着的差异。
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。多因子模型相对来说比较稳定,因为在不同市场条件下,总有一些因子会发挥作用。
❽ 多因子排序选址技术
层次分析法(Analytic Hierachy Process,简称AHP法)是由T.L Saaty于20世纪70年代中期研究出来的。层次分析法作为一种将定性问题转化为定量计算的系统分析与决策方法,特别适用于那些难以完全用定量进行分析的复杂问题,具有简洁、灵活、实用等特点。
1.选址评价指标体系构成
场地选址是深部咸水层CO2地质封存工程的第一步,也是最关键的一步。CO2地质封存场地选址受到自然地理、气象水文、地形地貌、地质构造、储盖层组合及其物性、社会经济、源汇匹配、交通运输以及工程技术条件等诸多因素制约。尽管如此,可将其归纳为选址技术、安全性、经济适宜性和地面地质-社会环境条件4个方面建立层次分析结构的选址评价指标体系(表6-20)。
表6-20 深部咸水层CO2地质封存多因子排序法选址指标体系
2.基于层次分析(AHP)的多因子排序选址评价方法
多因子排序选址方法的主要思路是把层次分析法(AHP)计算出的客观权重加入到距离综合评价中去,距离综合评价是通过描述被评价对象的多个指标进行的,如果把指标看成坐标上的变量,则在几何上形成一个高维空间(刘爱芳等,2009)。
从几何角度看,每个被评价对象是由反映它的多个指标值在该空间决定的一个点,决策即方案选择问题就变成了对这些点进行排序和评价,为便于比较分析,一个自然的想法就是首先在空间确定出参考点,如最优点和最劣点,然后计算各个评价对象与参考点的距离,与最优点越近越好,与最劣点越远越好(杨建平等,2007)。
在综合影响深部咸水层CO2地质封存选址的60余项因素的基础上,建立的层次结构评价指标体系和计算的评价指标权重。评价方法的具体步骤如下:
(1)确定评价矩阵。构造原始的指标矩阵X=(Xij)m×n,其中m为评价个体的数目,n为评价因素的数目。取n个因素的指标矩阵为X=(X1,…,Xn)。
(2)层次分析法计算客观权重(刘俊娥等,2005;焦娜,2008)。决策者对每个因素的相对重要性进行比较,全部的比较值aij(i,j=1,…,n)组成一个成对比较矩阵A:
中国二氧化碳地质封存选址指南研究
对互反矩阵A按行求几何平均值:
中国二氧化碳地质封存选址指南研究
将 归一化:
中国二氧化碳地质封存选址指南研究
计算矩阵A的最大特征值的近似值λ:
中国二氧化碳地质封存选址指南研究
计算互反矩阵A的一致性指标CI及一致性比率CR,检验其一致性。当CR<0.1时,认为A通过一致性检验。
计算得权重向量:ω=(ω1,…,ω4)。
(3)指标同向化。如果指标矩阵n个因素中有逆指标(即越小越好的指标)和适度指标,就要首先进行指标同向化处理,将其转化为正指标,最简单的方法是,对于逆指标,取:
中国二氧化碳地质封存选址指南研究
得矩阵:
中国二氧化碳地质封存选址指南研究
(4)对评价矩阵X′进行无量纲化处理,化为标准矩阵Y′=(Y′1,…,Y′n)。进行无量纲化处理得到新的指标矩阵Y′=(y′ij)m×n。其中:
中国二氧化碳地质封存选址指南研究
(5)确定加权数据矩阵。由层次分析法确定出的权重ω,对Y′的各行数值进行加权平均,得y1j,…,ymj,由此确定加权矩阵Y:
中国二氧化碳地质封存选址指南研究
(6)确定理想样本和负理想样本。由于各因素已经正向化,可以用所有样本中各因素的最大值构成理想样本,用各指标的最小值构成负理想样本,分别用 表示。
(7)计算每个评价对象与理想样本和负理想样本的距离。
样本点到最优点的距离:
中国二氧化碳地质封存选址指南研究
样本点到最劣点的距离:
中国二氧化碳地质封存选址指南研究
(8)计算评价对象与最优样本相对接近度。相对接近度越大,表明评价对象与理想样本的相对距离越小,评价结果越好。计算公式为:
中国二氧化碳地质封存选址指南研究
Ci的值越高,评价值越好。(0≤Ci≤1)
(9)排序。根据接近度Ci的大小可以进行各评价对象的排序,即Ci越大,相应评价对象的评价结果越好(陈荣等,2006)。