① 数据分析中的变量分类
数据分析中的变量分类
数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。
变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法:
按基本描述划分【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转化为特定含义的数字。
定性变量可以再细分为:
有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢
无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量 二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。 多分类变量是指两个以上类别,如血型分为A、B、AB、O
【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。
定量变量可以再细分连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。
离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。
按照精确描述划分【定类变量】
测量事物类别或属性,各类支架没有顺序或等级,实际上也就是上面说的无序分类变量,所包含的数据信息很少,只能计算频数和频率,是最低层次的一种变量
【定序变量】
测量事物之间的等级或顺序,就是上述的有序分类变量,由于它的变量值可以是数值型或字符型,并且可以反映等级之间的优劣,除了可以计算频数和频率之外,还可以计算累计频率,因此数据包含的信息多于定类变量。
【定距变量】
测量事物的类别或顺序之间的间距,它不但具有定类和定序变量的特点,还能计算类别之间的差距,可以进行加减运算,数据包含的信息高于前两种
【定比变量】 测量事物类别比值,和定距变量相比,它不但可以进行加减运算,还可以进行乘除运算,包含的数据信息最多,是最高级的变量。
上面这四种变量可以从浅到深精确的描述事物,四种变量级别从低到高,高层次变量可以向低层次转化,代价是损失部分数据信息,但是低层次变量无法向高层次转化,这会得出错误结果。
按照变量的取值划分前面两种分类方法都是从变量对事物的描述角度出发进行分类,一旦对事物描述确定下来,那么变量的取值也就相应确定下来了,比如定性变量的取值只能是某属性下的计数,比如人数、客户数等,因此只能取特定的值,数值是离散的。而定量变量可以取某属性下的任意值,变量值即可连续也可离散,比如身高、体重、销售额等。连续型数值和离散型数值的分析方法是不同的,因此从统计学角度,又经常划分为连续型变量和定性变量(分类变量)
关于变量的类型及取值方法,可以归纳为下表
以上是小编为大家分享的关于数据分析中的变量分类的相关内容,更多信息可以关注环球青藤分享更多干货
② 在spss软件中区分变量的度量
SPSSAU在每个分析方法页面都标注了适合该分析方法的数据类型,并区分了X/Y。可以根据分析方法选择页面快速选择出适合自己数据的方法,结合spssau的智能文字分析,快速完成分析。
可以登录SPSSAU官网查看更多信息。
③ 基础统计学(2) 集中趋势和分散度的测量
mode(众数):
集合中数量出现最多的数,一般用于用于定类变量和定序变量测量
一个集合中可能会有多个众数
median(中位数):
数量为奇数的集合中的元素顺序排列,排在中间的数;
数量为偶数的集合中的元素顺序排列,排在中间的2个数的和除以2
mean(平均数):
什么时候用哪种方法来测量集合的集中趋势呢? 根据测量级别
分类变量:
使用mode(众数)
定量变量:
使用median(中位数)或mean(平均数).
如果集合中有影响数值的异常值(特别大或特别小),或者是偏态分布,使用median(中位数)
其他时候用平均数
这些指标是用来测量数据离散情况
range(范围误差): 最大值(max) - 最小值(min)
interquartile(四分距): IQR = Q3-Q1
这里还涉及到异常值的计算,小于某值的数据(特别小的数据),大于某值的数据(特别大的数据)
小值的临界点 Q1 - 1.5*(IQR) , 小于该值的数被当做异常值(统计时忽略)
大值的临界点Q3 + 1.5*(IQR), 大于该值的数被当做异常值(统计时忽略)
box plot(箱型图):
箱型图很好的描述了数据的集中性、离散度以及异常值
Variance(方差):
Standard deviation(标准差): 表示数据与平均值的平均距离
方差和标准差同样是用来测量数据的可变度的,他们数值越大,离散度、变化度就越大。
某个数与平均数的差有多少个标准差就是这个数的Z分数(Z-scores)
集合中所有数据的Z-scores之和为0
贝尔曲线(正态)分布图:
上图特征:
若向右倾斜(右侧大量异常数据),或左倾斜(左侧大量异常数据)分布图满足以下特点
Z-score是对变量的一种标准化。让我们很容易地观察一个数据是 普遍 的还是 异常 的.
变量的测量方法有哪些:
1.绘制散点图2.计算相关系数:对不同类型的变量数据,应采用不同的相关系数来度量。
⑤ 分类变量离散趋势的测量方法主要有哪些
极差(Range)
极差组数据值(xmax)与值(xmin)差通用 R 表示
于总体数据言极差变量变化范围或幅度故称全距
组距数列极差≈高组限-低组限
优缺点:计算简便、含义直观、容易理解未考虑数据间布情况能充说明全部数据差异程度
四位差
第3四位数(Q3)与第1四位数(Q1)差用Qd表示计算公式:
实质两端各掉四数据极差表示占全部数据半间数据离散程度
四位差越表示数据离散程度越
定程度极差种改进避免极端值干扰数据差异反映仍充
四位差种顺序统计量适用于定序数据定量数据尤其用位数测度数据集趋势.
平均差——各数据与其均值离差绝值算术平均数反映各数据与其均值平均差距通A.D表示平均差含义清晰能全面反映数据离散程度取离差绝值进行平均数处理够便数性质优
差(Variance)概念计算
差各数据与其均值离差平算术平均数.
标准差比差更容易理解社经济现象统计析标准差比差应用更普遍经用作测度数据与均值差距标准尺度
离散系数极差、四位差、平均差或标准差等变异指标与算术平均数比率相数形式表示变异程度
极差与算术平均数比极差系数
平均差与算术平均数比平均差系数
用离散系数标准差计算称标准差系数:
离散系数说明数据离散程度其平均数代表性差;反亦.