A. 想问下,聚类分析,判别分析,因子分析,主成分分析和对应分析各自的使用条件是什么
聚类分析一般是用来描述变量或者样品之间相似性的方法,事先是不知道有多少中类别的。
判别分析是事先知道了有哪些类别,而且有相应的分类数据,那么可以通过已知的分析数据建立一个分类的规则,那么给出一个或多个未知类的数据就可以通过建立的规则对其进行分析,判别其到底是属于哪个类别的。因此
因子分析、主成分分析、对应分析与上面两种分析方法有很大的不同。
主成分分析是通过已给的变量或者样品找到少于其变量个数或者样品个数的几个公共因子,这些公共因子所能代表的含义能够最大限度的解释所有的变量或样品。其实可以理解为当我想分析一些变量时,这些变量的个数太多,分析起来有点复杂,那么可以通过主成分分析对变量的个数进行降维,通过找到的少数几个综合变量(公共因子)来分析的话会使问题变得简单、明了。
而因子分析其实相当于是主成分分析的逆过程,即用找到的公共因子来解释变量。不过寻找公共因子的方法有多种,不只是有主成分方法,还有主轴因子发、极大似然法等。不过可以通过了解主成分分析的过程来理解因子分析的过程。
对应分析其实就是分别对变量和样品做因子分析,通过一张二维图展现两个因子分析的结果而已,方便我们分析变量间、样品间或者变量和样品间的相关性。
上面说的是这几种不同分析的的用法,或者说是目的,那么如果要了解他们的使用条件的话,需要从他们的使用目的进行分析。
聚类分析一般比较适用于变量(样品)存在相关性的情况,如果所有变量(样品)均不相关的话,那么聚类的结果将会非常差。
判别分析适用于分类数据的分析,及存在某一个变量描述的是样品属于哪个类。
主成分分析、因子分析和对应分析对数据一般没有过分的要求,由于均是通过降维的方式来进行分析,所有都要求变量存在一定的相关性。
而对应分析最适用的数据是列联表数据,对于定距尺度和定比例尺度的数据也有一定的适用性,只需要将数据看做成频数即可。但是在做对应分析时,无论是列联表数据、定距尺度数据还是定比例尺度都需要将其数据转化成频率的形式才能分析。其实spss软件都是自动帮助使用者自动转化了。
受本人水品所限,了解的主要就这么多,如有差错的地方还望及时指正。谢谢。