A. 16种常用的数据分析方法汇总
一、描述统计
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
1)U验 使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;
C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
A 虽然是连续数据,但总体分布形态未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
四、列联表分析
用于分析离散变量或定型变量之间是否存在相关。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
五、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估计值的差值要艰从正态分布
B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等
八、聚类分析
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法 :适用于大样本的样本聚类
3)其他聚类法 :两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
2、与聚类分析区别
1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;
以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于
适用于多类判别。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
十、主成分分析
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到済理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测,将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
十三、生存分析
用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法
1、包含内容:
1)描述生存过程,即研究生存时间的分布规律
2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较
3)分析危险因素,即研究危险因素对生存过程的影响
4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。
2、方法:
1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论
2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。
A 乘积极限法(PL法)
B 寿命表法(LT法)
3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法
4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律
十四、典型相关分析
相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。
典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。
十五、R0C分析
R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线
用途:
1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力
用途
2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;
3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。
十六、其他分析方法
多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。
B. spss分析方法-判别分析(转载)
判别分析是在分组已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 下面我们主要从下面四个方面来解说:
[if !supportLineBreakNewLine]
[endif]
实际应用
理论思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析结果
[if !supportLineBreakNewLine]
[endif]
一、实际应用
判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。
在实际生活中,判别分析也被广泛用于预测事物的类别归属。
[if !supportLineBreakNewLine]
[endif]
企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。或是根据各成分含量指标,判断白酒的品牌或水果的产地等。
除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。
[if !supportLineBreakNewLine]
[endif]
二、理论思想
判别分析首先需要对研究的对象进行分类,然后选择若干对观测对象能够较全面描述的变量,接着按照一定的判别标准建立一个或多个判别函数,使用研究对象的大量资料确定判别函数中的待定系数来计算判别指标。对一个未确定类别的个案只要将其代入判别函数就可以判断它属于哪一类总体。
[if !supportLineBreakNewLine]
[endif]
常用的判别分析方法有距离判别法、费舍尔判别法和贝叶斯判别法。
[if !supportLineBreakNewLine]
[endif]
费舍尔判别法:
费舍尔判别法利用投影的方法使多维问题简化为一维问题来处理。其通过建立线性判别函数计算出各个观测量在各典型变量维度上的坐标并得出样本距离各个类中心的距离,以此作为分类依据。
[if !supportLineBreakNewLine]
[endif]
贝叶斯判别法:
贝叶斯判别法通过计算待判定样品属于每个总体的条件概率并将样本归为条件概率最大的组。其主要思想如下:首先利用样本所属分类的先验概率通过贝叶斯法则求出样本所属分类后验概率,并依据该后验概率分布作出统计推断。
[if !supportLineBreakNewLine]
[endif]
距离判别法:
距离判别思想是根据各样品与各母体之间的距离远近作出判别的。其通过建立关于各母体的距离判别函数式,得出各样品与各母体之间的距离值,判别样品属于距离值最小的那个母体。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
一般判别分析法的思路:
首先建立判别函数;
然后通过已知所属分类的观测量确定判别函数中的待定系数;
最后通过该判别函数对未知分类的观测量进行归类。
逐步判别分析法的思路: 逐步判别分析分为两步
首先根据自变量和因变量的相关性对自变量进行筛选,
然后使用选定的变量进行判别分析。
逐步判别分析是在判别分析的基础上采用有进有出的办法,把判别能力强的变量引入判别式的同时,将判别能力最差的变量别除。最终在判别式中只保留数量不多而判别能力强的变量。
数据条件:
[if !supportLists]§ [endif]用户使用的分组变量必须含有有限数目的不同类别,且编码为整数。名义自变量必须被重新编码为哑元变量或对比变量。
[if !supportLists]§ [endif]个案独立的
[if !supportLists]§ [endif]预测变量应有多变量正态分布,组内方差-协方差矩阵在组中应等同。
[if !supportLists]§ [endif]组成员身份假设为互斥的(不存在属于多个组的个案),且全体为穷举的(所有个案均是组成员)。如果组成员身份为真正的分类变量时,则此过程最有效;如果组成员身份基于连续变量的值(如高智商与低智商),则用户需要考虑使用线性回归以利用由连续变量本身提供的更为丰富的信息。
一般判别分析案例:
[if !supportLineBreakNewLine]
[endif]
题目:以下3种不同种类豇豆豆荚的质量、宽度和长度的统计表,每种类型都为20个样本,共60个样本。根据不同种类豇豆豆荚的特征,建立鉴别不同种类豇豆的判别方程。
一、数据输入
[if !vml]
[endif]
二、操作步骤 1、进入SPSS,打开相关数据文件,选择“分析”|“分类 ”|“判别式”命令2、选择进行判别分析的变量。在“判别分析”对话框的左侧列表框中,选择“类型”进入“分组变量”列表框。单击“定义范围”按钮,在“最小值”和“最大值”中分别输入1和3,单击“继续”按钮返回“判别分析”对话框。分别选择“质量”“宽度”“长度”3个变量进入“自变量”列表框,选中“使用步进法”单选按钮。
[if !vml]
[endif]
3、设置判别分析的统计输出结果。
单击“判别分析”对话框中的“统计”按钮。在“函数系数”选项组中,选中“费希尔”和“未标准化”复选框;在“矩阵”选项组中,选中“组内协方差”复选框。设置完毕后,单击“继续”按钮返回“判别分析”对话框。
[if !vml]
[endif]
4、设置输出到数据编辑窗口的结果。单击“保存”按钮,选中“预测组成员”复选框。
[if !vml]
[endif]
5、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
[if !supportLineBreakNewLine]
[endif]
四、结果分析
1、组统计量表可以看出,每一种豇豆豆荚的质量、宽度和长度的均值和标准差,也可以知道总样本的均值和标准差。
[if !vml]
[endif]2、汇聚的组内矩阵表可以知道,各因素之间的协方差和相关系数。可以发现,各因素之间的相关性都较小,因此在判别方程中不需要剔除变量。
[if !vml]
[endif]
3
、输入和删除变量情况统计表可以知道,第一步纳入的变量是质量,到第三步所有变量全部纳入,且从显着性值均为0可以看出,逐步判别没有剔除变量。
[if !vml]
[endif]
4、典型判别方程的特征值可以知道,特征根数为2,其中第一个特征根为77.318,能够解释所有变异的89.4%。
[if !vml]
[endif]
5、判别方程的有效性检验可以看出,显着性均为0,因此两个典型方程的判别能力都是显着的。
[if !vml]
[endif]
6、标准化的典型判别方程可以知道,本例中的两个标准化的典型判别方程表达式分别为:Y1=0.681*质量-0.674*宽度+0.612*长度Y2=0.363*质量+0.777*宽度+0.302*长度
[if !vml]
[endif]
7、未标准化的典型判别方程可以知道,本例中的两个未标准化的典型判别方程表达式为:Y1=-11.528+0.210*质量-1.950*宽度+0.186*长度Y2=-15.935+0.112*质量+2.246*宽度+0.092*长度
[if !vml]
[endif]
8、贝叶斯的费希尔线性判别方程可以得到3个分类方程。在这里我们只写出第一个分类方程。Y1=-90.708+2.557*质量+18.166*宽度+1.922*长度[if !vml]
[endif]9、判别分析在数据编辑窗口的输出结果新产生的变量记录是每一样品的判别分类结果,可以看出,样品判别分类结果与实际类别是一致的。
[if !vml]
[endif]
分析结论:
[if !supportLineBreakNewLine]
[endif]
通过判别分析可以知道,在本案例中,3种豇豆豆荚的样品判别分类结果与实际类别是一致的。另外,我们可以得到不同的判别方程,分别包括标准化的典型判别方程、未标准化的典型判别方程和贝叶斯的费希尔线性判别方程,方程的表达式见上面的结果分析。
[if !supportLineBreakNewLine]
[endif]
参考案例数据:
[if !supportLineBreakNewLine]
[endif]
【1】spss统计分析与行业应用案例详解(第四版) 杨维忠,张甜,王国平 清华大学出版社
(获取更多知识,前往gz号程式解说)
原文来自https://mp.weixin.qq.com/s/Yapg-5jwMK6cITG_FZsfVA
C. 常用的数据分时方法中判别分析根据判别标准不同可以分为什么
1、聚类分析
又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术, 把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性。根据分类对象的不同分为样品聚类和变量聚类。
2、判别分析
是一种进行统计判别和分组的技术手段。根据一定量案例的一个分组变量和相应的其他多元变量的已知信息, 确定分组与其他多元变量之间的数量关系, 建立判别函数, 然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。
判别分析中的因变量或判别准则是定类变量, 而自变量或预测变量基本上是定距变量。依据判别类型的多少与方法不同, 分为多类判别和逐级判别。判别分析的过程是通过建立自变量的线性组合(或其他非线性函数), 使之能最佳地区分因变量的各个类别。
二、聚类分析与判别分析的区别
1、基本思想不同
( 1) 聚类分析的基本思想
我们所研究的样品或指标( 变量) 之间存在程度不同的相似性( 亲疏关系) , 于是根据一批样品的多个观测指标, 具体找出一些能够度量样品或指标之间相似程度的统计量, 以这些统计量作为划分类型的依据。把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。
( 2) 判别分析的基本思想
对已知分类的数据建立由数值指标构成的分类规则即判别函数, 然后把这样的规则应用到未知分类的样本去分类。由基本思想可知, 在聚类分析中, 所有样品或个体所属类别是未知的, 类别的个数一般也是未知的, 分析的依据就是原始数据, 没有任何事先的有关类别的信息可参考。
D. 利用测井资料判别油水层时几种判别分析方法的判别效果比较
目前测井解释中多采用线性判别分析方法(贝叶斯意义下的线性判别或费歇意义下的线性判别)判别油气水层,并取得了一些好的效果,但同时也发现线性判别在不少情况下判别效果不够理想。因此,选择适当的判别方法以提高判别的准确率,仍是一个需要继续探索的问题。 在江汉油田测井站关唯同志的大力协助下,我们收集了钟市地区一批资料作样品,分别用贝叶斯二次判别及贝叶斯与费歇线性判别进行了油水层判别归类,考查和分析了儿种判别分析的判别效果,取得了一些初步认识。一、贝叶斯线性判别和二次到别效果的分析比较 1、原理和方法简述 设有G个类(总体)x,,xZ,……x。;第L类(L二1,2,……G)有NL个样品,每个样品有P个观测指标。现以xj、L(L=1,2,…,G,K=1,2一,N:;j二l,2,…,P)表示第L类第K个样品第j个指标观测值。又设各样品都是相互独立的正态随机向量,于是有第L个总体(L=1,2,…,G)XL服从均向量为卜‘、协方差矩阵为三L的多元正态分布N(卜L,艺L),即 xL~N(协L,万L)(IJ=1,2,…,G) 若有一来自某类的新样品X二(x,,xZ,…xp)产,则可以根据贝叶斯公式算出X归于第(本文共计10页)
E. 判别分析的应用
在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显着,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
应用范围
1)信息丢失
2)直接的信息得不到
3)预报
4)破坏性实验
假设条件
1)分组类型在两种以上,且组间样本在判别值上差别明显。
2)组内样本数不得少于两个,并且样本数量比变量起码多两个。
3)所确定的判别变量不能是其他判别变量的线性组合。
4)各组样本的协方差矩阵相等。
5)各判别变量之间具有多元正态分布。
6)样品量应在所使用的自变量个数的10~20倍以上时,建立的判别函数才比较稳定;而自变量个数在8~10之间时,函数的判别效果才能比较理想。当然,在实际工作中判别函数的自变量个数往往会超过10个,但应该注意的是,自变量的个数多并不代表效果好
spss操作:“分析”~“分类”~“判别”~进入判别分析主对话框。
这里有容易引起歧义的二个变量,最上面的为分组变量。对分组变量的了解需要联系判别分析的原理以及适用范围。因为判别分析是已知分类数目的情况下,进行分析,这个已知的分类数目就是这个分组变量。其实,一般分析步骤中,都是先进行聚类分析,聚类之后得到的分类结果就是这个分组变量,然后再选择这个分组变量,进行分析。也就是,聚类分析是母亲,母亲的孩子就是判别分析。得到的判别函数就是预测想要知道的个案究竟属于哪一类。另一个变量就是选择变量,它位于主对话框的最下面。这个选择变量在回归分析相应的对话框中也有,意思就是选择你需要的变量,这个变量可以为数据窗口的一个整个变量,也可以利用子设置“值”进行选择,所以,它的名字叫做选择变量。
“统计量”子对话框:“描述性”栏,包括“均值”“单变量ANOVA”“BoxsM”
需要特别说明,以后只要见到ANOVA这个单词,它的意思就是方差分析,也就是进一步输出方差分析表,其中最重要的就是P值也就是Sig值。
BoxsM复选框:指的是输出对组协方差矩阵的等同性检验的检验结果。也就是对各类协方差矩阵相等的假设进行检验。
“函数系数”栏:其实就是将判别函数系数进行设置。包括“费雪”和“未标准化”。费雪指的是对每一类给出一组系数,并且给出该组中判别分数最大的观测量。
“矩阵”栏:都是复选框,对应相应的矩阵也就是在结果表中的四种数阵。“组内相关”“组内协方差”“分组协方差”“总体协方差”这个都是计算机自动计算,人工计算是不可能完成的任务。
“分类”子对话框:本文也提到过先验概率,先验概率就是已知一部分信息,来了解未知信息也就是后验概率。
“所有组相等”也就是如果分为几类,这所有的类中的先验概率都相等。
“根据组大小计算”各类先验概率按照和各类样本量呈正比。
“使用协方差矩阵”栏:是二个单选框。“在组内”指使用合并组内协方差矩阵进行分析
“分组”指使用各组协方差矩阵进行分析。
“输出”栏~“个案结果”:对每一个观测量输出判别分数,也就是选定变量的个案的分进哪个组的资格得分。实际类,预测类,也就是根据判别得分计算的古今对比。实际类就是目前实际上分为几类,预测类就是过去对未来预测,它们一对比,就可以知道过去和现在差别在哪里。附属选项“将个案限制在”在后面的小矩形框中输入观测量数,含义为仅输出设置的观测量结果,当个案也就是观测量太多,可以用此法。
“摘要表”输出分类小结,给出正确和错分的观测量数,和错判率。
“不考虑该个案时的分类”这个根据字面就可以理解,不赘述。
“图”栏:“合并组”生成一张包括各类的散点图,该散点图根据前两个判别函数得到,如果只有一个判别函数,则生成直方图。
“分组”复选框:有几类就有几张散点图,和上面一样,如果只有一个判别函数,就生成直方图。
“区域图”复选框:将观测量分到各组中去的区域图。此图将一张图的平面划分出类数,相同的区域,每一类占据一个区,各类的均值在各区中用星号标出,如果仅有一个判别函数,即没有此图。
“保存”子对话框:这个设置是非常重要的,并且特别直观,只要选择,就可以在数据窗口生成相应的新变量。这个新变量分别是:“预测组成员”这个预测组成员是根据判别分数,以及后验概率最大的预测分类。也就是,每个个案的预测分类。
“判别得分”这个根据名字就可以理解。该分数=没有标准化的判别系数×自变量的值+一个常数。每次运行判别过程都给出一组表明判别分数的新变量。有几个判别函数就建立几个判别函数减1的新变量。新变量名称词头为dis-。
举例:1 医学实践中根据各种化验结果,疾病症状等判断病人患有什么疾病。
2 体育人才选拔根据运动员的体形,运动成绩,生理指标,心理素质指标判断是否继续培养。
3 动植物分类
判别分析最主要的分析目的:得到判别函数,对未知个案进行预测分类。
“组成员概率”表示观测量属于哪一类的概率,有几类,就给出几类概率值,新变量默认名为dis预测分类数-判别概率,例如有三类,二个判别函数,则新变量名称可以为dis1-1,dis2-1,dis3-1,dis3-2以此类推。
逐步判别分析:只要在主对话框中选择“使用步进式方法”,就可以筛选变量,同时,方法对话框将激活。
“方法”对话框中“标准”栏的设置和线性回归的一样,不赘述。
“方法”栏:原则就是,负面指标越小越好,正面指标越大越好。负面指标是wilks lambda和未解释方差,正面指标是马氏距离,最小F值,Raos V。马氏距离在回归中越大代表这个个案为影响点可能越大,也就是,只有这个个案为影响点,它越重要,越对判别函数影响越大,把它挑出来,也就是马氏距离最大。
结果:1 sig值小于0.05,说明可以继续分析,函数具有判别作用,也就是有统计学意义。
2 数据窗口对话框,将在“保存”子对话框设置的新变量和在主对话框的分组变量进行对比,每个个案被分到哪类,以及判别得分,都一目了然。
3 根据输出表中的系数,可以写出判别函数,进行以后的预测。
F. 判别分析方法
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
G. 判别分析(Fisher判别方法)
20210308 未完更新中
为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。
Fisher判别分析的基本思想 :选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本 类内 离差平方和尽可能小,而使各样本 类间 的离差平方和尽可能大。
①设已知有两个类 和 ,在已知的数据中, 类有 个个体, 类有 个个体,即:
注意:个体 为列向量,列向量的元素为不同特征的具体数值。如,小明身高180,体重70,可以设小明这个个体为
②计算两个类的 均值 :
③计算两个类的 类内离差平方和 矩阵:
总的离差阵为
类间离差阵为
④设需要找的投影向量为 ,将所有的个体 投影到 方向上,则可以得到投影后的结果为 ,即:
第一类个体在 方向上的投影结果为: ;
第二类个体在 方向上的投影结果为: ;
⑤计算投影后两类的均值与类内离差平方和矩阵
总离差:
类间方差:
⑥要使得在新的(投影后)数据空间中,数据的分离性能最好,即要使得两个类的类内距离最小,类间距离最大,建立目标函数 ,希望找到合适的投影向量 ,使得目标函数 达到最大。
采用Lagrange乘数法求解。令分母等于非零常数,即:
定义lagrange函数为
对 求偏导得
又矩阵 与 是对称矩阵,因此,上式可化简为
令 ,有
记上式得解为 ,则
继续化简有:
两边同时左乘 得:
因此, 即为矩阵 的最大特征值对应的特征向量
又
故
又 为一标量,因此
记
则
而标量 并不会影响 的投影方向。
综上所述, 的解为
H. 判别分析的建立方法
建立判别函数的方法一般由四种:全模型法、向前选择法、向后选择法和逐步选择法。
1)全模型法是指将用户指定的全部变量作为判别函数的自变量,而不管该变量是否对研究对象显着或对判别函数的贡献大小。此方法适用于对研究对象的各变量有全面认识的情况。如果未加选择的使用全变量进行分析,则可能产生较大的偏差。
2)向前选择法是从判别模型中没有变量开始,每一步把一个队判别模型的判断能力贡献最大的变量引入模型,直到没有被引入模型的变量都不符合进入模型的条件时,变量引入过程结束。当希望较多变量留在判别函数中时,使用向前选择法。
3)向后选择法与向前选择法完全相反。它是把用户所有指定的变量建立一个全模型。每一步把一个对模型的判断能力贡献最小的变量剔除模型,知道模型中的所用变量都不符合留在模型中的条件时,剔除工作结束。在希望较少的变量留在判别函数中时,使用向后选择法。
4)逐步选择法是一种选择最能反映类间差异的变量子集,建立判别函数的方法。它是从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献最大的变量加入到模型中,同时也检查在模型中是否存在“由于新变量的引入而对判别贡献变得不太显着”的 变量,如果有,则将其从模型中出,以此类推,直到模型中的所有变量都符合引入模型的条件,而模型外所有变量都不符合引入模型的条件为之,则整个过程结束。
I. 常用的判别分析方法有哪些
按照习惯大类分成化学分析法,电化学分析法和仪器分析法
1.化学分析里面包括滴定法(氧化还原滴定,酸碱滴定,络合滴定等),重量分析法等等
2.电化学分析里面包括循环伏安,极谱,电解等等方法
3.仪器分析就更多了,紫外可见分光光度法(UV-Vis),原子发射光谱法,色谱法(包括气相色谱GC,高效液相色谱HPLC),毛细管电泳(CE),核磁共振(NMR),X粉末多晶衍射(XRD),质谱(MS)等等
J. 常用的主流数据统计分析方法:2.判别分析
a. 目的 :识别一个个体所属类别
b. 适用 :被解释对象是非度量变量(nonmetric),解释变量是度量变量;分组类型2组以上,每组样品>1。
c. 应用 :归类、预测
d. 判别分析与聚类分析 :
i. 聚类分析前,我们并不知道应该分几类,分类工作;
ii. 判别分析时,样品的分类已事先确定,需要利用训练样 本建立判别准则,对新样品所属类别进行判定,归类工作。
a. 假设1:每一个判别变量(解释变量)不能是其他判别变量的线性组合。避免多重共线性问题。
b. 假设2:如果采用线性判别函数,还要求各组变量协方差矩阵相等----线性判别函数使用起来最方便、在实际 中使用最广。
c. 假设3:各判别变量遵从多元正态分布,可精确的计算 显着性检验值和归属概率,不然计算概率不准。
协方差相等/协方差不等
协方差相等/协方差不等
优点 :
i. 距离判别只要求知道总体的特征量(即参数)---均值和协差阵,不涉及总体的分布类型.
ii. 当参数未知时,就用样本均值和 样本协差阵来估计.
iii. 距离判别方法简单,结论明确,是很实用的方法.
ii. 缺点
i. 该判别法与各总体出现的机会大小(先验概率)完全无关
ii. 判别方法没有考虑错判造成的损失,这是不合理的.
v. 贝叶斯判别 的基本思想
i. 假定对研究对象已经有了一定的认识,这种认识可以用 先验概率 来描述,当取得样本后,就可以利用 样本来修正 已有的 先验概率分布,得到 后验概率 分布,再通过后验概率分布进 行各种统计推断。
ii. 贝叶斯判别属于 概率判别法。
iii. 判别准则:
i. 个体归属某类的概率(后验概率)最大
ii. 错判总平均损失最小为标准。
vi. 贝叶斯判别的后验概率最大
i. 贝叶斯(Bayes)判别要变量服从 正态分布 类型。
ii. 、贝叶斯(Bayes)判别的判别准则是以个体归属某类的概率最大或 错判总平均损失 最小为标准。弥补了 距离判别和费歇(Fisher)判别的缺点。
5.1费歇(Fisher)判别核心思想 :
i. 通过多维数据投影到一维度直线上,将k组m维数据投影到 某一个方向,使得投影后组与组之间尽可能地分开。而衡量组 与组之间是否分开的方法借助于一元方差分析的思想
ii. 费歇(Fisher)判别是一种确定性判别。
5.2费歇(Fisher)判别小结 :
i. 费歇(Fisher)判别对判别变量的分布类型并无要求, 而贝叶斯(Bayes)判别要变量服从正态分布类型。因此, Fisher类判别较Bayes类判别简单一些。
ii. 当两个总体时,若它们的协方差矩阵相同,则距离判 别和Fisher判别等价。 当变量服从正态分布时,它们还 和Bayes判别等价。
iii. 与距离判别一样,费歇判别与各总体出现的机会大小 (先验概率)完全无关;也没有考虑错判造成的损失。
如何从m个变量中挑选出对区分k个总体有显 着判别能力的变量,来建立判别函数,用以判别归类。
1.忽略主要的指标;
凡是具有筛选变量能力的判别方法统称为逐步判别法。
i. 保留判别能力显着的变量
ii. 剔除判别能力不显着的变量
i. 逐步筛选变量
i. 根据各变量对区分k个总体的判别能力的大小,利用向 前选入、向后剔除或逐步筛选的方法来选择区分k个总体的 最佳变量子集。
ii. 判别归类
i. 对已选出变量子集,使用三大判别方法(距离判别、 Bayes判别、Fisher判别)对样品进行判别归类。