㈠ 统计数据类型与对应的相关性分析方法
统计数据类型与对应的相关性分析方法
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。定类变量之间的相关系数,只能以变量值的次数来计算,常用λ系数法;2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。定序变量的相关性测量常用Gamma系数法和Spearman系数法;3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。定距变量的相关性测量常用Pearson系数法;4.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
㈡ 二、定类与定序变量分析
一、定类数据统计 指标
1. 频 数:落在各类别中的数据个数
2. 比 例:某一类别数据占全部数据的比值
3. 百分比:将对比的基数作为100而计算的比值
4. 比 率:不同类别数值的比值
实现
5、列联表:二个定类变量进行交叉统计
例子:用python实现会员等级与性别的列联表交叉统计分析
实现:利用pd.crosstab()
二、定序数据统计 指标
一、分组
三种分组
方法
实现
㈢ spss中定类变量对定序变量怎么进行相关分析
一般定类数据和定序数据间的相关用二列相关或者列联相关,二列相关用于二分数据,列联相关不限于二分数据。二列相关可以直接用积差相关的操作来完成,其实一般的各种相关作为积差相关的特列,其实公式和积差相关的是等价的,也就是无论是定序还是二分变量与连续变量的相关,都可以用积差相关的操作做,结果一样的。
列联相关的公式:
如果是定类数据之间,可以用phi系数、四格相关等
席皮尔曼相关系数为0.389**,代表这个相关系数是0.389,**代表该系数在0.01水平显着(*是0.05水平,***是0.001水平),sig是具体的显着性水平。
㈣ 请教关于定序变量定类变量的回归分析问题
1# cecilia_xjm 1. 考察自变量对是否就业的影响,可以采用logistic回归分析。
2. 你的收入是有序的分类变量,如果是多分类的话,建议你把收入合并成两分类的,用logistic回归分析来筛选影响收入水平的可能影响因素。如果是实际的收入金额的话,可以尝试一下多重线性回归。
logistic回归分析在spss中可以很容易的实现。在analyze——regression里面,具体的操作,可以参考一下相关的工具书。