Ⅰ 相关性分析有哪几种方法
在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。
一、离散与离散变量之间的相关性
1、卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
(1)假设,多个变量之间不相关
(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。
2、信息增益 和 信息增益率
在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
信息熵,就是一个随机变量的不确定性程度。
条件熵,就是在一个条件下,随机变量的不确定性。
(1)信息增益:熵 - 条件熵
在一个条件下,信息不确定性减少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。
(2)信息增益率
假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、连续与连续变量之间的相关性
1、协方差
协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
2、线性相关系数
也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。
r=cov(X,Y)/(D(X)D(Y))
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
三、连续与离散变量之间的相关性
1、连续变量离散化
将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
2、箱形图
使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。
Ⅱ 两个变量关系研究中常用的方法有哪些
两个变量关系研究中常用的方法有很多。
它包括方差分析、 典型相关分析、判别分析、对数线性方程、对数线性模型等。
Ⅲ 分析两个变量间关系的统计分析方法有哪些
1、把多个问题合并成一个潜在变量,再分析两个潜在变量之间的关系。2、合并方法可用加总法,也可用均值法。
Ⅳ 如何实现两变量之间的相关性分析
1、首先,大家平时理解的变量是单纬的,而不是你说的多维的.因此,对spss而言,X1、X2、X3、Y1、Y2、Y3分别是6个变量.
2、spss的相关性分析中可以分别统计这6个变量间的相关性.通过他们之间相关性的计算,你或许可以得到你所说的X与Y之间的相关性,但这种相关性只是你推测的定性描述而已,是不能定量描述的.
3、主成分分析,目的是将分析对象的多个维度简化为少数几个维度,方便分析,这样做的前提是维度很多且其中的多个维度之间有较强的相关性.而不是你想象的可以把X1、X2、X3降维成一个变量,因为只有三个维度,已经很少了,这三个维度可以做降维分析的可能性几乎没有.
4、回归分析,只有一个因变量,可以有多个自变量,最终算得因变量与自变量间的回归关系.
估计你只是自己想象了一个例子,实际中一般是不会有这样的分析案例的.
Ⅳ 如何分析两个变量之间的关系应该用何种统计学方法
(1)相关分析,研究现象之间是否存在某种依存关系
(2)回归分析,确定两种或两种以上变量间相互依赖的定量关系