㈠ 濡备綍鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁镄勭浉鍏虫э纻
鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁镄勭浉鍏虫фラゅ备笅锛
1銆佺涓姝ワ纴鐢佃剳瀹夎SPSS杞浠鍖咃纴链濂戒娇鐢ㄦ渶鏂扮増链锛屽姛鑳芥瘆杈冮绨鍏ㄣ傛墦寮SPSS杞浠讹纴瀵煎叆浣犻渶瑕佸垎鏋愮殑鏁版嵁锛岃繖閲屼互excel鏁版嵁涓轰緥瀛愩备緷娆$偣鍑汇愭枃浠躲-銆愭墦寮銆-銆愭暟鎹銆戙
杩欐牱灏卞畬鎴愪简鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁镄勭浉鍏虫с
㈡ 简述变量间的相关分析有哪些方法
《变量间的相关关系》的主要内容为采用定性和定量相结合的方法研究变量之间的相关关系,主要研究线性相关关系.主要概念有“相关关系”、“散点图”、“回归直线和回归直线方程”、“相关系数”等。
变量之间除了函数关系外,还有相关关系。
例:
(1)商品销售收入与广告支出经费之间的关系
(2)粮食产量与施肥量之间的关系
(3)人体内脂肪含量与年龄之间的关系 不同点:函数关系是一种确定的关系;而 相关关系是一种非确定关系。
分类
按相关的形式分为线性相关和非线性相关
1、一种现象的一个数值和另一现象相应的数值在指教坐标系中确定为一个点,称为线性相关。
2、按影响因素的多少分为单相关和复相关
3、如果研究的是一个结果标志同某一因素标志相关,就称单相关。
4、如果分析若干因素标志对结果标志的影响,称为复相关或多元相关。
以上内容参考:网络-相关分析
㈢ SPSS常用的相关性分析方法解析(转载)
相关性分析旨在分析两组数据之间是否相互影响,彼此是否独立的变动。SPSS内部提供了多种分析数据相关性的方法:卡方检验(Chi-SquareTest),Pearson相关系数计算,Spearman相关系数计算和Kendall的tau-b(K)相关系数计算。这四种分析方法适用于不同的数据类型,下面向大家介绍常用的SPSS相关性分析方法。
1.卡方检验(Chi-SquareTest)
卡方检验(Chi-SquareTest)是由Pearson提出的一种统计方法,在一定的置信水平和自由度下,通过比较卡方统计量和卡方分布函数概率值,判断实际概率与期望概率是否吻合,进而分析两个分类变量的相关性。
卡方检验(Chi-SquareTest)适用于不服从正态分布的数据,两组变量是无序的。使用SPSS进行卡方检验的操作方法,大家可以登录SPSS中文网站进行学习,这里仅作原理性的介绍。如图1是某种药物单独使用和药物与放疗同时使用时,治疗是否有效的卡方检验结果。
图1某地某种疾病发病人数统计
个案处理摘要显示了有效数据和无效数据的数量。VAR00001*VAR00002交叉表显示各变量对应的频数,VAR00001列1代表单独使用药物,2代表药物与放疗同时使用,VAR00002行1代表有疗效的人数,2代表无疗效的人数。
行列变量为各为二组,自由度为(2-1)×(2-1)=1,Pearsonχ2值为22.475,显着性数值为0.000小于0.05,有显着性差异,不能接受无关假设,即单独使用药物与药物放疗同时进行有显着性差异。
2.Pearson相关系数计算
Pearson相关系数用于评估两组数据是否符合线性关系,不能用于符合曲线关系的数据,线性相关越强,Pearson相关系数就越接近1(线性递增)或-1(线性递减)。图2为一组数据的线性相关性检验,可以看出,Peason相关系数0.984,表明两者有较强的线性相关性,一般认为<0.3无相关性,0.3~0.7弱相关性,>0.7较强的相关性。
图2Pearson检验结果
3.Spearman相关系数计算
Spearman相关系数适用于不满足线性关系,且不满足正态分布的数据,如图3所示,实际这是两组随机产生的数据,用Spearman相关系数计算时,结果为0.257,<0.3无相关性,与Pearson相关系数类似,<0.3不相关,0.3~0.7为弱相关,>0.7为强相关。
图3Spearman相关系数计算
4.Kendall的tau-b(K)相关系数计算
进行Kendall的tau-b(K)相关分析,需要满足下列3个条件:
1.两个变量是有序分类变量;
2.两个变量相对应的研究对象是一定的。
例如调查工资与学历之间的关系,两个变量学历和收入都是等级变量,符合条件1;两个变量均对应同一研究对象:一个区域内的所有工作的成年人。符合条件2。收入等级分别为1高收入,2中收入,3低收入,学历等级分别为1高学历,2中等学历,3低学历。结果分析如图4所示。相关系数为0.480,有弱的相关性。
图4Kendalltau-b系数计算
对于不同种类的数据,应采用不同的统计方法进行相关性分析,SPSS内置了丰富的统计计算功能,可以充分满足不同统计数据的使用需求。
㈣ 怎样分析数据的相关性
在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。
一、离散与离散变量之间的相关性
1、卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
(1)假设燃改,多个变量之间不相关
(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。
2、信息增益 和 信息增益率
在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
信息熵,就是一个随机变量的不确定性程度。
条件熵,就是在一个条件下,随机变量的不确定性。
(1)信息增益:熵 - 条件熵
在一个条件下,信息不确定性减少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益蔽段宴越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。
(2)信息增益率
假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、连续与连续变量之间的相关性
1、协方差
协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
协方差只能对宏银两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
2、线性相关系数
也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。
r=cov(X,Y)/(D(X)D(Y))
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
三、连续与离散变量之间的相关性
1、连续变量离散化
将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
2、箱形图
使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。