导航:首页 > 研究方法 > 四分类统计分析方法

四分类统计分析方法

发布时间:2022-07-16 15:26:16

‘壹’ 统计方法分类

1、计量资料的统计方法。

分析计量资料的统计分析方法可分为参数检验法和非参数检验法。

参数检验法主要为t检验和方差分析(ANOVA,即F检验)等,两组间均数比较时常用t检验和u检验,两组以上均数比较时常用方差分析;非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的t检验和成组设计资料的t检验;当两个小样本比较时要求两总体分布为正态分布且方差齐性,若不能满足以上要求,宜用非参数方法(秩和检验)。方差分析可用于两个以上样本均数的比较,应用该方法时,要求各个样本是相互独立的随机样本,各样本来自正态总体且各处理组总体方差齐性。根据设计类型不同,方差分析中又包含了多种不同的方法。对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析。

2、计数资料的统计方法。

计数资料的统计方法主要针对四格表和R×C表利用检验进行分析。四格表资料:组间比较用检验或u检验,若不能满足检验:当计数资料呈配对设计时,获得的四格表为配对四格表,其用到的检验公式和校正公式可参考书籍。R×C表可以分为双向无序,单向有序、双向有序属性相同和双向有序属性不同四类,不同类的行列表根据其研究目的,其选择的方法也不一样。

3、等级资料的统计方法。

等级资料(有序变量)是对性质和类别的等级进行分组,再清点每组观察单位个数所得到的资料。在临床医学资料中,常遇到一些定性指标,如临床疗效的评价、疾病的临床分期、病症严重程度的临床分级等,对这些指标常采用分成若干个等级然后分类计数的办法来解决它的量化问题,这样的资料统计上称为等级资料。

‘贰’ 简述统计资料的分类,分别叙述各类资料常用的统计分析方法有哪些

目前,不少医学论文中的统计分析存在较多的问题。有报道,经两位专家审稿认为可以发表的稿件中,其统计学误用率为90%-95%。为帮助广大医务工作者提高统计分析水平,本文将介绍医学论文中常用统计分析方法的选择原则及应用过程中的注意事项。 1.t 检验
t检验是英国统计学家W.S.Gosset 1908年根据t分布原理建立起来的一种假设检验方法,常用于计量资料中两个小样本均数的比较。理论上,t检验的应用条件是要求样本来自正态分布的总体,两样本均数比较时,还要求两总体方差相等。但在实际工作中,与上述条件略有偏离,只要其分布为单峰且近似正态分布,也可应用

‘叁’ 统计分析方法有哪些


统计分析方法有以下:
1、描述性统计分析方法。描述性统计分析方法是指运用制表和分类和图形概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
2、相关分析方法。相关分析方法是研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
3、方差分析方法。方差分析是用来分析一项实验的影响因素与相应变量的关系,同时考虑多个影响因素之间的关系。
4、列联表分析方法。列联表分析是用于分析离散变量或定型变量之间是否存在相关。
5、主成分分析方法。主成分分析方法是将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。

‘肆’ 常用统计分析方法

数据分析师针对不同业务问题可以制作各种具体的数据模型去分析问题,运用各种分析方法去探索数据,这里介绍最常用的三种分析方法,希望可以对您的工作有一定的的帮助

文中可视化图表均使用DataFocus数据分析工具制作。

1.相关分析

相关分析显示变量如何与另一个变量相关。例如,它显示了计件工资是否会带来更高的生产率。

2.回归分析

回归分析是对一个变量值与另一个变量值之间差异的定量预测。回归模拟依赖变量和解释变量之间的关系,这些变量通常绘制在散点图上。您还可以使用回归线来显示这些关系是强还是弱。

另请注意,散点图上的异常值非常重要。例如,外围数据点可能代表公司最关键供应商或畅销产品的输入。但是,回归线的性质通常会让您忽略这些异常值。

3.假设检验

假设检验是基于某些假设并从样本到人口的数理统计中的统计分析方法。主要是为了解决问题的需要,对整体研究提出一些假设。通常,比较两个统计数据集,或者将通过采样获得的数据集与来自理想化模型的合成数据集进行比较。提出了两个数据集之间统计关系的假设,并将其用作理想化零假设的替代方案。建议两个数据集之间没有关系。

在掌握了数据分析的基本图形和分析方法之后,数据分析师认为有一点需要注意:“在没有确认如何表达你想要解决的问题之前,不要开始进行数据分析。”简而言之,如果您无法解释您试图用数据分析解决的业务问题,那么没有数据分析可以解决问题。

‘伍’ 常见的数据统计方法有什么

常见的数据统计方法有:表格、折线统计图、条形统计图、扇形统计图。举一个例子来具体分说明一下,比如说:我在淘宝开了个童装店,为了方便统计每半个月的销售额,现在用以上这四种统计方法来演示一下。

1.表格就是通过画格子的方式来统计数据,在这里可以画三行横线,得到两条细长的格子,再把这两行均匀的分为15个上下格子。横一为日期,横二为销售额,半个月下来都填进去就一目了然。

2.折线是通过画点,把15天的销售额都连成一条折线,通过上下起伏来看波动的数据。先画一“L”形,横线作日期,竖线作销售额,销售额可以自己写一个数,一直往上数与数之间相差一样。均匀的把横竖线分为15份,每个日期对应多少销售额,就在“L”的半框里,以对应的日期和销售画横线和竖线,交叉的位置取一点。然后每天如此,再用直线连接这15个点,就能清楚的看到这半个月哪一天销售最好,哪一天销售垫底。

3.条形统计图作出的是条状的数据统计图,和折线统计图一样,画“L”,横为日期竖为销售额。只不过这里不画点点,画倒立的长方形,然后通过高高低低的条形图来分析半个月的销售额。

4.扇形统计图就是把一个圆形,平均分为15份,一个月下来把所有的日销售额加起来,用当天的数据除以总数,乘以百分数。每一分里写上日期和当天销售额占总数的百分比,用这个百分数来统计半个月的数据。每个图的做法都不一样,但表达的意思都是同样的,这就是日常生活中最常见的几种数据统计。

‘陆’ 常用的统计方法

常用的数据统计方法与工具

统计方法:

1、聚类分析(Cluster Analysis)
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。
因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反复法。
3、相关分析(Correlation Analysis)
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
4、对应分析(Correspondence Analysis)
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
5、回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
6、方差分析(ANOVA/Analysis of Variance)
又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显着性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显着影响的变量。这个 还需要具体问题具体分析。

统计工具:

一、 SAS统计软件

SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入近12亿美元。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。 在国际上, SAS被誉为数据统计分析的标准软件。SAS系统是一个模块组合式结构的软件系统,共有三十多个功能模块。SAS是用汇编语言编写而成的,通常使用SAS 需要编写程序, 比较适合统计专业人员使,而对于非统计专业人员学习SAS比较困难。SAS最新版为9.0版。网址:http://www.sas.com/。

SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的创业产品—统计分析系统部分,由于具有强大的数据分析能力,一直是业界中比较着名的应用软件,在数据处理方法和统计分析领域,被誉为国际上的标准软件和最具权威的优秀统计软件包,SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。

SAS系统是一个组合的软件系统,它由多个功能模块配合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理着用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除了可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序比较方便地进行。

SAS系统具有比较灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS /FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。

SAS提供的绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

目前SAS软件对Windows和Unix两种平台都提供支持,最新版本分别为8.X和6.X。与以往的版本比较,6.X版的SAS系统除了在功能和性能方面得到增加和提高外,GUI界面也进一步加强。在6.12版中,SAS系统增加了一个PC平台和三个新的UNIX平台,使SAS系统这一支持多硬件厂商,跨平台的大家族又增加了新成员。SAS 6.12的另一个显着特征是通过对ODBC、OLE和MailAPIs等业界标准的支持,大大加强了SAS系统和其它软件厂商的应用系统之间相互操作的能力,为各应用系统之间的信息共享和交流奠定了坚实的基础。

虽然在我国SAS的逐步应用还是近几年的事,但是随着计算机应用的普及和信息事业的不断发展,越来越多的单位采用了SAS软件。尤其在教育、科研领域等大型机构,SAS软件已成为专业研究人员实用的进行统计分析的标准软件。

然而,由于SAS系统是从大型机上的系统发展而来,其操作至今仍以编程为主,人机对话界面不太友好,系统地学习和掌握SAS,需要花费一定的精力。而对大多数实际部门工作者而言,需要掌握的仅是如何利用统计分析软件来解决自己的实际问题,因此往往会与大型SAS软件系统失之交臂。但不管怎样,SAS作为专业统计分析软件中的巨无霸,现在鲜有软件在规模系列上与之抗衡。

二、 SPSS统计软件

SPSS是英文Statistical package for the social science 的缩写,翻译成汉语是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制,1975年在芝加哥组建SPSS总部。SPSS系统特点是操作比较方便,统计方法比较齐全,绘制图形、表格较有方便,输出结果比较直观。SPSS是用FORTRAN语言编写而成。适合进行从事社会学调查中的数据分析处理。最新版为13.0版。网址:http://www.spss.com/。

SPSS原名社会科学统计软件包,现已改名为统计解决方案服务软件。是世界着名的统计分析软件之一。

20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了 SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一套统计分析软件微机版本 SPSS/PC+,开创了SPSS微机系列产品的先河,从而确立了个人用户市场第一的地位。

同时SPSS公司推行本土化策略,目前已推出9个语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据深入分析、使用灵活方便、功能设计齐全等方面给予了高度的评价与称赞。目前已经在国内广泛流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要是掌握一定的 Windows操作技能,粗通统计分析原理,就可以使用该软件进行各种数据分析,为实际工作服务。

SPSS for Windows是一个组合式软件包,目前已经开发出SPSS12版本,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种统计图形和地图。

SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种操作系统的计算机上,最新的版采用 DAA(Distributed Analysis Architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,领先于诸多竞争对手。

方便易用是SPSS for Windows的主要优点,同时也是SPSS不够全面的原因所在。

三、 BMDP统计软件

BMDP是英文Biomedical computer programs 的缩写,翻译成汉语是生物医学计算程序,美国加州大学于1961年研制,是世界上最早的统计分析软件。特点是统计方法齐全,功能强大。但1991年的 7.0版后没有新的版本推出,使用不太普及,最后被SPSS公司收购。

四、 Stata统计软件

Stata统计软件由美国计算机资源中心(Computer Resource Center)1985年研制。 特点是采用命令操作,程序容量较小,统计分析方法较齐全,计算结果的输出形式简洁,绘出的图形精美。不足之处是数据的兼容性差,占内存空间较大,数据管理功能需要加强。最新版为8.0版。网址:http://www.stata.com/。

五、 EPINFO软件

EPINFO是英文Statistics program for epidemiology on microcomputer 的缩写,翻译成汉语是流行病学统计程序。美国疾病控制中心CDC和WHO共同研制,为完全免费软件。特点是数据录入非常直观,操作方便,并有一定的统计功能,但方法比较简单,主要应用于流行病学领域中的数据录入和管理工作。最新版为Epidata 2.0版及EPINFO2000版。

六、 Minitab

Minitab由美国宾州大学研制。其特点是简单易懂,很方便进行试验设计及质量控制功能。在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根据没有SPSS的份。最新版本为14.0版,网址:http://www.minitab.com/。

七、 Statistica

Statistica为一套完整的统计资料分析、图表、资料管理、应用程式发展系统;美国StatSoft公司开发。能提供使用者所有需要的统计及制图程序,制图功能强大,能够在图表视窗中显示各种统计分析和作图技术。

八、 SPLM统计软件

SPLM是英文Statistical program for linear modeling 的缩写,翻译成汉语是线性模型拟合统计软件程序。1988年由解放军第四医学大学统计教研室研制。系统特点是采用线性模型的方法,实现各种统计方法的计算。统计方法比较齐全,功能比较强大。SPLM采用FORTRAN语言编写完成。但1999年推出3.0版后无新的产品推出。

九、 CHISS统计软件

CHISS 是英文Chinese High Intellectualized Statistical Software的缩写,翻译成汉语是中华高智统计软件, 由北京元义堂科技公司研制,解放军总医院、首都医科大学、中国中医研究院等参加协作完成。1997年开始研发,2001年推出第一版。CHISS是一套具有数据信息管理、图形制作和数据分析的强大功能,并具有一定智能化的中文统计分析软件。CHISS的主要特点是操作简单直观,输出结果简洁。既可以采用光标点菜单式也可采用编写程序来完成各种任务。CHISS用C++语言、 FORTRAN语言和delphi 开发集成,采用模块组合式结构,已开发十个模块。 CHISS可以用于各类学校、科研所等从事统计学的教学和科研工作。最新版为CHISS2004版。网址:http://www.chiss.cn。

十、 SASD统计软件

SASD是英文package for Statistical analysis of stochastic data 的缩写,翻译成汉语是随机数据统计分析程序包。它是由中国科学院计算中心研制。系统特点是以FORTRAN源程序形式向用户提供大量的子程序可供用户进行二次开发,统计方法比较齐全,功能比较强大。SASD采用FORTRAN语言编写完成,比较适合从事统计专业人员使用。但无新版推出。

十一、 PEMS统计软件

PEMS是英文package for encyclopaedia of medical statistics汉语是中国医学网络全书-医学统计学软件包。它以<中国医学网络全书>一书为蓝本,开发的一套统计软件。系统特点是实现各种统计方法的计算。统计方法比较齐全,功能比较强大。PEMS采用TURBOC和TURBOBASIC语言编写完成,比较适合从事医学工作的非统计专业人员使用。最新版为PEMS3.0版。网址:http://www.pems888.com/。

十二、 EXCEL电子表格与统计功能

EXCEL电子表格是Microsoft公司推出的Office系列产品之一,是一个功能强大的电子表格软件。特点是对表格的管理和统计图制作功能强大,容易操作。Excel的数据分析插件XLSTAT,也能进行数据统计分析,但不足的是运算速度慢,统计方法不全。

十三、 DAS统计软件

DAS是英文Drug and Statistics的缩写,翻译成汉语是药理学计算软件,由孙瑞元等开发。特点是内容涵盖基础药理学、临床药理学,药学,医学统计学。能多种处理结果同时显现。EXCEL平台使用方便,智能化,图表直接插入文档。网址:http://www.drugchina.net/。

十四、 SDAS统计软件

DAS是英文Statisticaldesign and analysis system的缩写,翻译成汉语是统计设计和分析系统。1992年由解放军总医院医学统计教研室开发。特点是窗口操作,操作方便,图表简明,与国内医学统计学教材一致。但只有DOS版,1995年后没新的版本。

十五、 Nosa统计软件

Nosa是非典型数据分析系统,1999年由解放军四军医大学医学统计教研室夏结来教授开发。特点是采用广义线性模型建模,从数据录入与管理、统计分析、绘图,到结果管理嵌入了当代数据处理技术。但只有DOS系统下使用。

十六 S-PLUS(此部分摘自厂家的软件宣传资料)

Insightful公司是世界着名的商务智能软件提供商,产品涵盖分析统计、数据挖掘、知识获取、决策支持等多个领域。公司总部设在美国西雅图。

S-PLUS作为一个工业数据分析工具与数据分析应用开发平台,在各行各业已经有较长的使用历史。并曾获得着名的“美国计算机协会优秀软件奖。

S-PLUS提供了方便、灵活、交互、可视化的操作环境,帮助您找出数据之间的关系和趋势,让您做出更好地决策。在科学研究、市场营销、产品研发、质量保证、财务分析、金融证券、资料统计等各个方面,S-PLUS都有广泛的应用。

S-PLUS有流畅、直观的操作界面,广泛的输入输出功能,不论您的数据在何处、数据的格式如何,都可以轻松地存取,生成的结果可以以任意格式进行输出 (图形、文档、表格、网页)。特别是:S-PLUS的操作界面与Microsoft Office完全一致,用鼠标轻松点击,就可以把S-PLUS 的分析结果嵌入到Word文档和PowerPoint文档中;S-PLUS与Excel无缝集成,您可以在S-PLUS 环境中随意操作Excel数据,也可以在Excel环境中使用S-PLUS功能,无需花时间在Excel及S-PLUS之间,将数据来回转换;S- PLUS可以在Internet环境中进行数据分析和结果发布。

S-PLUS领先于业界的探索式图形技术,使得您可以直观地展现隐藏在数据中的关系和趋势,不致迷失在简单的统计数值及文字报表中。S-PLUS提供超过80种的二维和三维图形库,您可以轻松修改每一层图形的细节,包括线条、颜色、字体等,产生您想要的图形。

S-PLUS提供超过4200种统计分析函数,包含了传统和现代的统计分析、数据挖掘、预测分析的算法。软件所有的分析功能都是向导式的,使您轻松完成数据的分析任务。S-PLUS的开放性,允许您自己开发新的算法,集成到S-PLUS软件中。您也可以从S-PLUS网站或者其它统计网站上免费下载算法,集成到S-PLUS软件中。

通过S-PLUS的脚本语言,可以记录和存储分析过程;或者,用鼠标拖拉对象(如按钮、菜单等等)到命令窗口,会立即产生相应的执行指令;反之,拖拉指令到工具列上,会产生相应的功能按钮。使得您的分析过程可以进行存储、共享和重复执行,大大减少您的重复工作量。

S-PLUS还提供强大的编程语言——S语言,您可以使用它来开发专门适合于您的个性化系统,也可以建立企业级的应用系统。而且,S-PLUS几乎可以集成到其它任何系统中,如:在Unix系统上,S-PLUS的CONNECT/Java接口,可以让S-PLUS集成到Java程序中。在Windows系统上,S-PLUS的CONNECT/C++接口,可以在您开发的C++程序内使用全部的S-PLUS分析方法。另外S-PLUS的DDE及OLE接口,可以让您集成S-PLUS到其他Windows应用程序中,允许您从Excel或Visual Basic应用程序中执行S-PLUS功能。

‘柒’ 统计学中的分类方法

介绍
理解不同的数据类型,是探索性数据分析(Exploratory Data Analysis,EDA)所需的关键预备知识,同时也有助于你选择正确的可视化方法。你可以将数据类型看成归类不同类型变量的方式。我们将讨论主要的变量类型,以及相应的示例。有时我们会称其为测量尺度(measurement scale)。

类别数据

类别数据(categrorical data)表示特性,例如一个人的性别,所说的语言,等等。类别数据同样可以使用数值(例如:1表示雌性,0表示雄性)。

名目数据

名目值(nominal value)指用于标记变量的定性离散单元。你可以直接把它们想象成“标签”。注意名目数据是无序的。因此,如果你改变名目值的顺序,其语义并不会改变。下面是一些名目特征的例子:

性别:雌性、雄性。
语言:英语、法语、德语、西班牙语。
上面的性别特征也被称为“二分(dichotomous)”值,因为它只包含两个类别。

次序数据

次序值(ordinal value)指离散、有序的定性单元。除了有序之外,它几乎和名目数据一样。例如,教育背景可以用次序值来表示:

初中
高中
大学
研究生
注意,其实初中、高中之间的差别,和高中、大学之间的差别,是不一样的。这是次序数据的主要限制,次序值之间的差别是未知的。因此,次序值通常用于衡量非数值特征,例如愉悦程度、客户满意度。

数值数据
离散数据

离散数据(discrete data)的值是不同而分散的,换句话说,只能接受一些特定值。这类数据无法测量但可以计数。它基本上用来表示可以分类的信息。例如,抛100次硬币正面向上的次数。

你可以通过以下两个问题检查你处理的是否是离散数据:你可以对其计数吗?它可以被切分成越来越小的部分吗?

相反,如果数据可以测量但无法计数,那就是连续数据。

连续数据

连续数据(continuous data)表示测量。例如身高。

连续数据可以分为等距数据(interval data)和等比数据(ratio data)。

等距值指间隔相等的有序单元,也就是说,等距变量包含有序数值,并且我们知道这些数值之间的间隔。例如,用等距数据表示温度:

-10
-5
0
+5
+10
+15
等距值的问题在于,它们没有“真正的零”。拿上面的例子来说,0度不是绝对零度。另外,我们可以加减等距值,而不能乘除等距值或计算比率。由于没有“真正的零”,无法应用许多描述统计学或推论统计学的方法。

等比值具有等距值的所有特性,同时也有绝对的零。因此,不仅可以加减,还可以乘除。高度、重量、长度、绝对温度等都属于等比值。

数据类型为什么重要?
数据类型是一个非常重要的概念,因为统计学方法只能应用于特定的数据类型。你需要使用不同的方式分析连续数据和类别数据。因此,理解你处理的数据的类型,让你能够选择正确的分析方法。

下面我们将重新查看上面提到的每种数据类型,了解它们可以应用什么样的统计学方法。为了理解我们将讨论的一些性质,你需要对描述性统计学有所了解。如果你对此不熟悉,可以先看下我写的描述性统计学介绍。

统计学方法
名目数据

处理名目数据时,你通过下述方式收集信息:

频数 在一段时间内或整个数据集中出现的次数。
比例 频数除以所有事件的频数之和,即可得到比例。
百分比 我想这无需解释了吧。
众数 出现次数最多,也就是频数最高的数据。
可视化方法 你可以使用饼图或直方图可视化名目数据。
统计学常用数据类型
左:饼图;右:直方图

次序数据

当你处理次序数据时,你可以使用以上用于名目数据的方法,不过,除此之外,你还可以使用一些额外的工具。也就是说,你可以使用频数、比例、百分比、众数概括次序数据,也可以使用饼图、直方图可视化次序数据。除此之外,你还可以使用:

百分位数 计算由小到大排列的次序数据的累计百分位,某一百分位对应的数据值就称为这一百分位的百分位数。百分位数可以用来描述数据的离散趋势。
中位数 即第50百分位数,它将数据分为相等的上下两部分。中位数可以用来描述数据的中间趋势。例如,如果我们用次序数据表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位数为大杯(也就是说,真正的中杯是大杯)。
四分位距 第75百分位数与第25百分位数之差即为四分位距。四分位距可以简要概述数据的离散趋势。
连续数据

大多数统计学方法都可以用于连续数据。你可以使用百分位数、中位数、四分位距、均值、众数、标准差、区间。

你可以使用矩形图或箱形图可视化连续数据。从矩形图上可以看到分布的中间趋势、离散程度、形态和峰态。注意,矩形图不体现离散值,因此我们有时使用箱形图。

‘捌’ 分类统计的常用方法

常用的统计方法:1、计量资料的统计方法:分析计量资料的统计分析方法可分为参数检验法和非参数检验法;2、计数资料的统计方法:计数资料的统计方法主要针对四格表和R×C表利用检验进行分析;3、等级资料的统计方法:等级资料(有序变量)是对性质和类别的等级进行分组,再清点每组观察单位个数所得到的资料。统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一 个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。

阅读全文

与四分类统计分析方法相关的资料

热点内容
bbs的使用方法 浏览:980
mac版优酷下载的视频在哪里设置方法 浏览:361
苹果7扬声器哪里设置方法 浏览:197
河北美术计算方法有哪些 浏览:816
新风管风量计算方法 浏览:427
电灯遥控器电池安装方法 浏览:600
金珠的检测方法 浏览:328
水波的计算方法 浏览:591
木耳怎么保存方法 浏览:650
论文常见的问题以及解决方法 浏览:73
拔自己的牙有什么方法 浏览:129
电脑裁线机操作方法 浏览:522
水泵叶轮外圆磨损的修理方法如何 浏览:97
文竹的养殖方法大全图片 浏览:29
hiv快速检测方法及应用 浏览:397
教学设计的方法和技巧初中美术 浏览:201
单腿独立站不稳怎么破方法来了 浏览:590
电脑wps打表的方法 浏览:543
皮肤皮炎治疗方法 浏览:623
如何让脚踝扭伤的方法 浏览:423