‘壹’ 数据分析之描述性分析
SPSS的模块按功能可以分为三部分:描述性分析、推断性分析、探索性分析。 1.描述性分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性分析是对数据进一步分析的基础。 2.推断性分析是研究如何根据样本数据来推断总体样本数量特征,它是在对样本数据进行描述统计分析的基础上,对研究总体的数量特征做出推断。常见的分析方法有假设检验、相关分析、回归分析、时间序列分析等方法。 3.探索性分析主要是通过一些分析方法从大量的数据中发现未知且有价值信息的过程,它不受研究假设和分析模型的限制,尽可能地寻找变量之间的关联性。常见的分析方法有聚类分析、因子分析、对应分析等方法。频率分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征,以便我们队数据的分布特征形成初步的认识,才能发现隐含在数据背后的信息,为后续数据分析提供方向和依据。 频率分析包括分类变量的频率分析和连续变量的频率分析。在SPSS里都采用频率表来做频率分析。对于连续变量数据的分析,描述的统计量包括百分位值、集中趋势、离散趋势和数据分布特征。 1.百分位值 百分位值主要用于对连续变量数据离散程度的测量,常用的百分位值是四分位数。它是将变量中的数据从小到大排序后,用三个数据点将数据分为四等份,与这三个点相对应的数值称为四分位数。由于是等分整个数据,这三个数据点分别位于数据的25%(第一四分位数)、50%(第二四分位数,也就是常用的中位数)和75%(第三四分位数)的位置。 2.集中趋势 集中趋势反映了数据向其中心值聚集的程度,是对数据一般水平的概括性度量,主要通过平均值、中位数和众数来表示。 3.离散趋势 离散趋势反映了数据远离中心值的程度,是衡量集中趋势值对整个数据的代表程度。数据的离散度越大,说明集中趋势值的代表性越低;反之,数据的离散程度越接近于0,说明集中趋势值的代表性越高。数据的离散程度主要通过范围、标准差和方差来表示。 4.分布特征 对于连续变量,在样本量较大的情况下,研究若你有会提出假设,认为数据应当服从某种分布,每种分布都可以采用一系列的指标来描述数据离散分布的程度。在图形的显示上,对于分类数据,如果需要了解数据分布,则可以选择条形图;如果需要了解数据结构,则选择饼图;而对于连续数据,选择直方图。 条形图和直方图的区别: (1)条形图用于展示分类数据,直方图用于展示连续数据; (2)条形图是用条形的长度表示各类别频数的多少,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距; (3)直方图分组数据具有连续性,所以直方图的各矩形通常是连续排列的,而条形图表示分类数据,则是分开排列; 描述分析与频率分析的不同之处在于: (1)描述分析提供的统计量仅适用于连续变量,频率分析既可用于分析连续变量,也可用于分析分类变量; (2)描述分析无相应统计图绘制输出,并且提供计算的统计量也相对较少。 但在描述性分析里可以进行Z标准化。 交叉表示一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如求和、平均值、计数等。交叉表分析是用于分析两个或两个以上分类变量之间的关联关系,以交叉表格的形式进行分类变量间关系的对比分析。它的原理是从数据的不同角度综合进行分组细分,以进一步了解数据的构成、分布特征,它是描述分析常用方法之一。类似于EXcel的数据透视表。 频率分析、描述分析都是对单个变量进行分析,交叉表可以对多个变量在不同取值情况下的数据分布情况进行分析。从而进一步分析变量之间的相互影响和关系。 在SPSS里,多选题也称为多重响应集,意为使用多个变量记录答案,其中每个个案可以给出多个答案。 多选题数据录入的方式有两种:二分法和多重分类法。 (1)二分法:把每一个相应选项定义为一个变量,每一个变量值均做这样的定义——“0”代表未选,“1”代表选中,即对于被调查者选中的选项录入1,对未选的选项录入0。 (2)多重分类法:事先定义录入的数值,比如1,2,3,4,5分别代表选项A、B、C、D、E,并且根据多选题限选的项数确定应录入的变量个数。例如限选3项,那么需要设立3个变量,如果调查者在该题选ACD,则在3个变量下分别录入1、3、4。 在通常情况下,如果多选题没有限定选项个数,并且选项个数不多时,可以采用二分法录入。如果对选项的个数加以限定,则改用多重分类法进行录入。 常见的表格类型有叠加表、交叉表和嵌套表。 (1)叠加表 同一张表中有多个同类变量的描述分析结果,可以简单地理解为对每个变量分别做同样的分析,然后将结果拼接在一起。 (2)交叉表 它是一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如计数、百分比、求和、平均值等。 (3)嵌套表 它是指多个变量放置在同一个表格维度中,也就是说,分析维度是由两个及以上变量的各种类别组合而成的。嵌套表主要应用在需要展现较多的统计指标时,能够使结果更为美观和紧凑。 我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw‘贰’ 心理学实验设计问题:2×2×3混合实验设计分析方法
分析多个变量的关系一般使用ANOVA(ANalysis Of VAriance)
分析每一个变量的个体作用(main effect)时,对比其他变量控制相同的那几组
分析两个或三个变量的相互作用(interaction)时,参考下面的
2x2x3
A
B
C
AxB
AxC
BxC
AxBxC
可以使用一些软件辅助,比如SSPS,用ANOVA去对比组内和组件差异
‘叁’ 统计分析方法 有哪些统计分析方法
1、描述统计。描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
(1)缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。
(2)正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
2、假设检验
(1)参数检验。参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。U验 使用条件:当样本含量n较大时,样本值符合正态分布。T检验 使用条件:当样本含量n较小时,样本值符合正态分布。单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
(2)非参数检验。非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。虽然是连续数据,但总体分布形态未知或者非正态;体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
3、信度分析
检査测量的可信度,例如调查问卷的真实性。分类:
(1)外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
(2)内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
4、列联表分析。用于分析离散变量或定型变量之间是否存在相关。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
5、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
(1)单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
(2)复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
(3)偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
6、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
(1)单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
(2)多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
(3)多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
(4)协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
‘肆’ SPSS-描述性分析
step1:单击【文件】-【打开】-【数据】,弹出【打开数据】对话框。在左上角的【查找范围】找到文件所在位置,下方【文件类型】右早岩侍侧下拉菜单中根据文件类型选择对应的类型。本文导入的是CSV文件,如下图1-1,单击【打开】,进入【文本导入向导】对话框。
step2:在弹出的【文本导入向导-第1/6步】对话框中(图1-2),观察一下各变量间的安排方式,单击【下一步】。step3:在弹出的【文本导入向导-第2/6步】对话框中,根据本例变量的安排方式选择【分隔】,文件开头是否包含变量名称选择【否】,如图1-3,单击【下一步】。step4:在弹出的【文本导入向导-第3/6步】对话框中,进行个案设置,保持默认设置即可,单击【下一步】,如图1-4。step5:在弹出的【文本导入向导-第4/6步】对话框中,SPSS根据导入数据特点,自动勾选【制表符】分隔符,如图1-5,单击【下一步】。
step6:在弹出的【文本导入向导-第5/6步】对话框中,选中【数据预览】下的变量列,然后依次分别设置【变量名称】和数据格式。单击【下一步】;在弹出的【文本导入向导-第6/6步】对话框中,可根据需要,选择是否保存刚才设置过的格式或者获得导入过程的语法,单击【完成】,就成功导入SPSS了。
step1:单击【转换】-【计算变量】,弹出【计算变量】对话框。在左上角的【目标变量】中输入计划生成的变量‘AGE’,在右侧【函数组】下拉菜单中找到所需的函数,本例中选择‘抽取日期’,在【函数和特殊变量】下选择‘Xdate.Year’,右上方【数字表达式】框中输入‘2020-XDATE.YEAR(BIRTHDAY)’,如图2-1,单击【确定】。返回‘数据视图’,可以看到生成了行的一列变量‘AGE’,如图2-2。
step1:单击【数据】-【标识重复个案】,弹出【标识重复个案对话框】,将变量'USERID'移到右侧框中,单击【确定】。此后可以看到‘数据视图’中多了变量——‘最后一个基本个案’,其中1代表非重复数据枣敬,0代表重复数据,选中此列,鼠标右击,在弹出的菜单中选择【升序排列】,可以看到最小值也为1,说明不存在重复项。由于该列变量在陆吵分析时无用,可以删除。
step1:单击【分析】 -【描述统计】-【描述】,打开【 描述性】对话框,将‘AGE’变量移到右侧 【变量】框中,勾选下方的【将标准化得分另存为变量(Z)】,如图3-3,单击【确定】。返回‘数据视图’,看到多出变量‘ZAG’,本例中ZAG的绝对值大于2的视为异常值(将±2δ 以外的数据视为异常值),如图3-4。
step2:单击【分析】 -【描述统计】-【探索】,打开【 探索】对话框,将‘ZAGE’变量移到右侧 【因变量列表】框中,勾选下方的【统计量】,如图3-5,单击【确定】。输出图3-6,根据图3-6中统计量可知:样本总计101535个,有效值共计32075个,存在缺失值;极大值和极小值的绝对值大于2,存在异常值。
step3:单击【数据】 -【选择个案】,打开【 选择个案】对话框,勾选右侧【选择】下的【如果条件满足(C)】项,如图3-7,【输出】下方根据需要勾选,本例勾选【过了掉未选定的个案】,单击【如果(I)...】,进入【选择个案:if】对话框。在公式框中输入‘ABS(ZAGE) <= 2&AGE ~= 0’,将缺失值和异常值过滤掉。如图3-8.此后可以看到‘数据视图’中多了变量——‘filter_$,其中1代表被选择,0代表未被选择。如图3-9.
step1:分组前,先查看一下筛选后的数据情况,单击【分析】-【描述统计】-【频率】,进入【频率】对话框,将‘AGE’移到中间变量框中,点击右侧【统计量】,选择【众数】、【最小值】、【最大值】,点击【继续】如图3-10;点击【图表】,勾选【直方图】,见图3-11,点击【继续】,单击【确定】。从输出结果可以看到,有效值有30201个,年龄最小18岁,最大59岁,同年龄人数最多的是33岁;年龄分布基本服从正态分布。
step2:单击【转换】 -【重新编码为不同变量】,打开【 重新编码为其他变量】对话框,将‘AGE’变量移到中间框中,在右侧【输出变量】-【名称】下输入‘AGE_GROUPS’,点击【更改】,如图3-13。点击【旧值和新值】,进入【 重新编码为其他变量:旧值和新值】,将年龄划分为不同的范围,每个年龄段赋予一个新值,如50岁以上的人,在左下角【范围,从值到最高】下输入50,【新值】下输入4,点击【添加】,如图3-14,单击【继续】,返回原对话框,单击【确定】。进入‘数据视图’界面,生成一列变量‘AGE_GROUPS’,如图3-15.
step3:单击【数据】 -【定义变量属性】,打开【 定义变量属性】对话框将‘AGE_GROUPS’变量移到【要扫描的变量】中,如图3-16,单击【继续】,在【标签】列中输入自定义标签,如图3-17。返回‘数据视图’,单击右上角标签转换按钮,变量值标签发生了改变,如图3-18.
step1:单击【分析】 -【表】-【设定表】,进入【设定表格】对话框,依次将性别和年龄分组变量移到行,结果如图4-1,点击【类别位置】下的下拉菜单,选择【列中的行标签】(图4-2);再依次选中表中的‘AGE_GROUPS'和'SEX',单击鼠标右键,在弹出的子菜单中,见图4-3,取消【显示变量标签】前的勾选。点击【定义】下的【摘要与统计】,进入【摘要与统计】对话框,在该对话框中,将左侧【统计量】下的’列N%’和’行N%’移到右侧【显示】中。见图4-4,单击【应用选择】,返回【设定表格】对话框。
step2:选中表中的‘AGE_GROUPS',点击【定义】下的【分类和总计】,进入【分类和总计】对话框,选中30~39岁标签,单击【添加小计】,在弹出的【定义小计】对话框中输入‘中青年’,将18~39岁的用户定义为中青年,同样方法,设置40~59岁的为中老年,见图4-4,单击【应用】,返回【设定表格】对话框,单击【确定】。
step1:选中输出的表格,鼠标右键,在弹出的子菜单中选择【导出】,见图4-5,进入【导出输入】对话框,在左侧文档类型下拉子菜单中选择想要输出的文件类型,中间【浏览】选择文件保存位置,如图4-6,单击【确定】
行N%数据体现了在不同年龄段下的男女人数比例:随着年龄段增大,女性占比逐渐降低。中青年群体中,男女占比基本持平,分别为49.5%和50.5%,而中老年群体,男性占比远高于女性,分别为62.2%和37.8%。列N%数据体现了在不同性别下,各年龄段的用户人数比例。男性用户中,人数占比由高到低的年龄段依次是30~39岁(43.2%),40~49岁(28.4%),18~29岁(15.3%)和50岁以上(13.1%)。而女性用户中,人数占比由高到低年龄段依次是30~39岁(48.5%),18~29岁(21.8%),40~49岁(20.9%)和50岁以上(8.8%)。 由此可见,女性用户相比男性用户总体更加趋向年轻,18~39岁的女性用户占了女性总用户的70%以上,而30~49岁的男性用户占了男性总用户的70%以上。