㈠ 问卷调查所能用的统计方法有哪些
1. 调查的样本量太小,计算出的结论可靠性不高。
例如看到一些研究生的论文,只发了几十份问卷调查表,就根据统计到的百分比写下十分肯定的结论。其实,是有问题的。
例如:调查“你对××活动喜欢的程度”,调查了45人。调查结果:非常喜欢2人,喜欢5人,一般10人,不太喜欢13人,不喜欢15人。作者统计出:喜欢和非常喜欢的共7人占调查人数45人的15.5%,不太喜欢和不喜欢的共28人,占62.2%。并根据15.5%和62.2%来进一步写结论。
但是,他忽略了调查的样本计算出率以后,还应该计算率的标准误和置信区间。如本例喜欢率为15.5%。还应该计算率的标准误Sp。
_________ _________________
本例,喜欢率的标准误 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按样本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根据喜欢率15.5 %、标准误5.39 % 和t0.05的值,可计算出:
95% 置信区间:15.5±2.02×5.39=4.6%~26.4%。(置信区间上下限的差值高达21.8%)。
95% 置信区间的含义是,如果用样本的喜欢率15.5%来估计总体的喜欢率时,有95%的可能是在4.6%~26.4%的区间之间。这样高达21.8%的区间意味着15.5%是不太可信的。
但是,如果扩大样本量到450人,4500人,而统计出的喜欢率也是15.5%。由于调查的样本量扩大了,标准误 Sp会缩小,计算出的95% 置信区间也就缩小为12.2%~18.8%和14.4%~16.6%。这时用样本率估计总体率时,上下限的差值很接近15.5%,才是可信的。
2. 调查数据的统计分析过于简单。
目前看到的调查数据统计分析大都比较简单。只是计算各个问卷指标的百分比,如上面举例的喜欢率15.5%等等。
要避免统计分析过于简单,首先,在做调查表设计时,就事先要考虑好调查数据的统计分析方法。例如同样是调查“你对××活动喜欢的程度”,除了要扩大调查样本量外,在调查表中增加调查性别和年龄。这样就可以采用一种较为复杂的方法——交叉分析。交叉分析是分析“年龄”、 “性别”和“对××活动喜欢程度”三个变量之间的关系。假设不分类统计时,喜欢率是15.5%。交叉分析后就会发现由于性别的不同,年龄段的不同喜欢率是不同的。
例如:2005年国民体质监测问卷调查中,对“睡眠时间”的统计分析,如果只是简单地计算某市成年男子2473人的问卷,只能统计出:睡眠6小时以下的人为13.4%,睡眠6~9小时的73.6%,睡眠9小时以上的13%。但是,如果增加年龄因素,分年龄段进行统计就可以看到,各年龄段的百分比是不同的(统计表略)。利用分年龄段的百分比还可以画出折线图(图略)。从图上更可以清楚的显示出:随着年龄增加,睡眠时间逐渐减少的趋势。
上述统计分析方法比较简单。但是,仅靠简单的统计方法来处理问卷调查数据是十分可惜的,因为大量的数据信息还没有充分利用。所以,设计问卷时,就应该注意到,让收集到的调查数据能做多因素统计分析(如:回归分析,因子分析等)。下面是我帮助或指导有关单位做过的统计分析实例:
例1:2005年国民体质监测的调查问卷内容中,包括了各人的文化程度,职业,工作、生活和体育锻炼等方面的许多问题。为了分析这些调查内容和各人的体质有什么关系,找出哪些因素对体质的好坏特别有关?在进行统计分析时,就需要把体质监测的指标和问卷调查的内容联系起来进行统计。
在成年组调查问卷内容中可进行计算的12个问题是:受教育程度,职业,平均每周工作时间,平均每天睡眠时间,睡眠质量,平均每天步行时间,平均每天坐姿活动时间,吸烟状况,运动感受,平均每周锻炼次数,平均每次锻炼时间,坚持锻炼时间。把这些作为X1, X2, ……X12,再把每个人体质监测中的体质总分作为Y,就可以进行逐步回归分析计算。
某省成年男甲组4242人的数据用逐步回归分析计算结果是:从12个指标中依次选出了X 1 (受教育程度),X12 (坚持锻炼时间), X10(平均每周锻炼次数),X7(平均每天坐姿活动时间) 4个指标。得到回归方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12 F=101.92 (P<0.01)
复相关系数 R= 0.296
根据回归方程的系数就可以知道:受教育程度高,平均每周锻炼次数多,坚持锻炼时间长,平均每天坐姿活动时间少的人体质总分就高。反之就低。而这个结论只做一般的调查表百分比统计,是得不到的。
例2:某市开展《超重与肥胖人群运动与营养综合干预实验研究》12周后,对参加者进行了问卷调查,内容有:每天进餐情况(分为:五分饱,八分饱,十分饱),每周快走次数(分为:3次以下,3次,4次,5次及以上),每次快走时间(分为:30分钟以内,30~60分钟,60~90分钟,90分钟以上),每次快走距离(分为:3公里以下,3~4公里,5公里及以上)等。
如果仅统计各个问卷内容的百分比,只能计算出如:每次快走时间30分钟以内的29人占22.1%,30~60分钟的47人占35.9%,60~90分钟的19人占14.5%,90分钟以上的36人占27.5% 等等,这样的统计结果并不能说明什么问题。更无法分析出哪些是对减肥有效果的因素。
但是,把问卷调查的内容与参加12周实验后各人体重下降值联系起来统计,情况就不同了。如可以分别计算出:每周快走次数、每次快走时间等指标与体重下降值的相关系数。当计算出以上指标都和体重下降值呈中度或低度相关时,还可以进一步用回归分析的方法计算出标准回归系数或偏回归平方和来分析各指标对体重下降的作用大小。
本例有131人参加实验,为了用数学表达式来描述:饮食、运动量和降体重的关系。把调查表内容转换成数字后,选择了X1(每天进餐情况)、X2(每周快走次数)、X3(每次快走距离)与Y(体重下降值)计算出三元回归方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
复相关系数 R = 0.4966
从回归方程可以看到,在吃八分饱的情况下,增加每周快走次数和每次快走距离,降体重的效果更好。
可见,当采用了多元回归分析方法后,可以充分利用调查表里的信息从而获得比简单的统计百分比更多的研究结果。
例3:某市对学生体质下降原因进行调研时,设计的调查表内容包括:学生、家长、学校等方面30多项指标。为了分析调查的各指标对学生身体素质影响的主次关系,从调查表中选出可进行因子分析计算的26个指标进行了R型因子分析计算。
R型因子分析通过计算,可找出控制着所有指标的几个主要因素。计算后,原来的许多指标重新组合成较少的几个新的综合指标──公因子。这些公因子相互独立而且反映了原来指标的绝大部分信息。通过R型因子分析的结果,可以看出哪些指标是同一类的,每一个指标以哪一公因子为主,其他公因子所占比例如何,从而分析该指标的特点。还可根据贡献率较大的几个公因子中所包括的指标,来分析出各指标的主次关系。
对3699名中学生的调查数据作R型因子分析计算后,从贡献率最大的5个公因子所包括的调查指标看,归入第1公因子的7个指标,都和参加体育活动有关,因此把第一公因子命名为体育活动因子,归入第2公因子的2个指标,是反映学生家长文化水平的学历,归入第3公因子的2个指标,是反映学生是否关心自己体质、健康的指标,归入第4公因子的2个指标,是反映学校是否关心和组织学生体育活动的指标,归入第5公因子的2个指标,是反映学生家长对体育运动的态度的指标。
从而可以分析出,对学生体质影响最大的第一因素是学生参加体育活动的情况,第二因素是家长的文化水平高低,第三因素是学生自己是否关心自己的体质、健康情况。第四因素是学校是否关心和组织学生参加体育活动,第五因素是家长是否喜爱体育活动是否支持学生参加体育活动。
因子分析的优点在于用一个或少数几个综合指标概括原始数据中尽量多的信息,它能够实现对问题的高度概括,并揭示出一般的特征和规律。本例通过因子分析的统计方法,从学生填在26个调查问卷中的信息,分析出了对学生体质影响的几个主要因素。
㈡ 关于量表的描述统计
可以比较,这是典型的单样本t检验的应用,t检验是专门用于均值检验的统计方法,而单样本t检验又是专门用于将变量均值和固定数值作比较的检验方法(对于这个大凡统计教材都有介绍)。
一般用spss进行分析即可,在菜单中选择 分析——均值比较——单样本t检验,然后在弹出的对话框中将需要与3做比较的项目选入t检验框,再设定检验值为数字3,然后OK,即可得出结果。
结果看t值与sig值,若sig<0.05,表明所选项目的均值与3具有显着差异,如果你要说这个结论是基于什么统计学依据,那自然是小概率法则咯,所有经典统计学的假设检验都是依据这个,设定t检验的拒绝域为0.05,(项目均值-3)应该是来自标准正态分布的随机数,那么在这个分布中抽样一次最有可能是抽到分布靠中间的数值,即靠近均值的数(很好理解,就如同随便抽一次彩票基本不可能中大奖),可以认为一次抽样基本不可能抽到位于分布尾端0.05百分位上的数,如果抽到,更合理的推断是你检验的值并不是来自于你原先假设的分布,而是另一个分布,所以当项目均值-3的t检验结果的sig值超出原先假定的0.05拒绝域时,认为该项目均值应当本来是大于3或者小于3才合理。
最后提一下,这个不属于描述统计,这已经是推断统计的范畴了
㈢ 谁知道刘凤斌的中医健康量表使用方法
1.1 量表的研制原则
1.1.1 目的和构想 ①目的是按照国际病人报告的结局指标的定义和内涵,以中华文化为背景、以中医理论为指导研制既具有中国文化特色又能反映中医健康内涵的中医健康状况量表。②量表理论结构构想由精力、疼痛、大便、小便、睡眠、情绪、饮食、体质八个方面直接反映健康内涵[4]。每个方面应符合中医理论,不背弃PRO的含义。③量表应简明扼要,具有较强的实用性、科学性和可操作性。作为普适性量表,适用于一般人群和各种慢性病。④量表为自评式,各条目有4个等级回答选项。
1.1.2 条目的要求 ①根据方面发展条目,一个条目只明确地反映一个问题,条目叙述的语言简洁、明了,避免模棱两可,等级分明,容易判别。②条目应通俗易懂,便于理解和操作,每个被调查者均能对条目做出评价。
1.2 研究小组的建立
参照国际量表研制模式和设计方法[5,6],成立研究小组,由中医、统计和生存质量专家共同组成,共同组织和领导以后的量表发展、考核工作。
1.3 条目池的形成
1.3.1 理论结构模型的建立 研究小组根据PRO的概念内涵,结合中国文化特色、中医理论关于健康的认识和相关研究经验[7],在对专家调查的基础上,提出了中医健康状况量表应包括精力、疼痛、大便、小便、睡眠、情绪、饮食、体质八个方面。
1.3.2 条目池的产生 条目主要由以下三个方面获取:①以病人为中心提出条目。选择了不同病种患者(内科慢性疾病)30例和健康人30例,分别由他们根据自己对健康认识的经验和体会提出健康应该包括哪些方面和条目,再由课题组成员根据中医理论和临床实际对提出的条目进行整理修改、综合和拆分,形成条目。②以 SF-36为基础改造条目。SF-36 是国际着名的健康状况量表,我们把SF-36条目和一些背景材料,提供给有关中医专家,请中医专家们提出中医健康量表应该具备的条目。从中医角度来看SF-36量表缺了什么?请中医专家补充中医认为重要的,而此量表未反映的条目。专家意见表收集后,逐条讨论各个专家的意见,发现专家在讨论健康方面和条目时,完全按照中医健康理论应包含的方面给出条目,认为SF-36不能反映中医健康内涵,从而舍弃了以SF-36为基础改造的条目。③根据理论模型提出条目。研究小组广泛参考中医健康状况的内涵,通过认真阅读中医有关理论和临床专业书,根据PRO的概念及其构成,提出条目,并逐条进行认真讨论、修改、删除和补充。将以上三方面来源的条目整理后,发往北京、银川、成都、广州、郑州等地相关中医专家(不同年龄和职称结构)收集意见, 76个中医专家对条目作了重要性评分,并提出了修改意见。将中医专家反馈回来的重要性评分结果作统计分析,计算得分值的均数、标准差、中位数和四分位数间距等统计指标,将均数或中位数得分较低的条目剔除,修改后作为量表初稿,计有40个条目。结合中医理论和临床实际情况,经专家逐条讨论将每个条目回答选项根据临床表现的不同程度分为4级。如有关精神的条目分级为:精神饱满、精神欠佳、精神疲倦、精神极差4个等级;关于头晕的条目分级为无头晕、轻微头晕,可坚持日常工作和活动、头晕,不能行走、头晕,不能站立4个等级。
1.4 调查量表的确定
1.4.1 小范围测试(语言调试)和条目再改造 选择50位文化程度中等的健康人和患者(内科慢性疾病),用量表初稿进行小范围测试,健康人及患者填写量表后,针对其填写内容进行详细询问,主要考评无论是健康人还是患者是否能回答条目?是否理解条目?如何理解条目?其理解是否与我们设计的内容一致?等等。删除或修改了难于理解或不同患者理解相差较大的条目。
1.4.2 初步调查量表 量表初稿语言测试完成后,进一步对条目进行分析比较、讨论、修改,整理制成预调查量表,保留了35个条目作为初步调查量表,其中包括:精神、目光、反应、体力、记忆力、疲倦、气促、头晕、疼痛程度、疼痛频度、食欲、饭量、口干、口苦、口淡、大便干、大便次数、大便稀、大便烂、大便不畅、放屁、小便黄、夜尿多、小便不畅、难以入睡、睡不安宁、多梦、易感冒、手脚心发热、怕冷、体重减轻、心烦、急躁、心神不宁、情绪低落。
1.5 临床调查
1.5.1 临床调查的实施 2004年~2006年间用初步调查量表在广东省和宁夏自治区随机选择300名(100名健康人、100名门诊病人和100名住院病人)受试者进行调查,病种以慢性疾病为主;采用自测量表的形式;文化层次要求调查对象能够独立完成量表填写;招聘调查员,要求具有认真和诚实的品格;起草调查员指南和实施手册,进行调查员培训;调查员以医生身份出现,逐一访问受试者,作简要说明,请他们逐次填完量表。同时发放WHOQOL-100、SF-36、CH-QOL,最后回收问卷273份,回收率91%。
1.5.2 被调查者一般情况 273例调查对象中,年龄18 ~ 65岁(平均39.6岁,S=14.1),分为18 ~ 39岁和40 ~ 65岁两组。宁夏101例,广东172例;男性137例,女性136例;健康人80例,门诊患者91例,住院患者102例;初高中文化者123例,中专以上文化者150例;农村户口这43例,县镇66例,城市169例。完全健康者76例,有病并稳定者56例,有病并正在治疗者139例。
1.6 统计学方法
统计分析借助SPSS 11.0、SAS 8.1和EQS 6.1(结构方程分析) 软件包完成。条目筛选用离散趋势法、方差分析、证实性因子分析、相关系数、克朗巴赫系数法等统计分析方法。量表的考核用证实性因子分析、克朗巴赫系数法和方差分析。
2 结果
2.1 条目分析
按照量表研制的一套程序和方法,对预调查量表的条目进行筛选。包括条目的困难度、反应度分析等,结果显示患者基本上能够理解和独自完成量表。具有较适宜的难易度和较好反应度,没有出现天花板(全部打最高分)或地板效应(全部打最低分)。
2.2 筛选条目结果
采用不同统计分析方法进一步筛选条目。①离散趋势法(变异系数法)。该方法是从敏感性角度挑选指标,生存质量测定中,可直接用标准差来反映离散趋势。但若各条目计分值不呈正态分布则应先作变量变换使之成为正态分布。计算各条目的标准差(各条目量纲相同,直接用标准差来比较变异度),挑选标准差最大的3个指标,结果选出22个条目。②方差分析。该方法也是从敏感性角度挑选指标。以P < 0.05为标准,最终选出27个条目。③证实性因子分析。从量表的结构角度筛选条目,首先计算方面的CFI,然后与去掉方面中的任一条目后的CFI进行比较,如果某条目去掉后CFI有较大上升,则说明该条目的存在有降低该方面有负面影响,应该去掉,反之则保留。最后保留22个条目。④方面总分与条目的相关系数。通过计算方面总分,计算各条目与总分的相关系数,以0.5为界,若相关系数高于0.5者,表明该条目贡献比较大,否则删除。最后保留23个条目。⑤克朗巴赫系数法。从内部一致性的角度对条目进行筛选。首先计算某一方面总的Cronbach′s α系数,然后与去掉其中任一条目后的Cronbach′s α系数进行比较,如果某条目去掉后Cronbach′s α系数有较大上升,则说明该条目的存在有降低该方面内部一致性的作用,应该去掉,反之则保留。最终保留22条。从以上条目筛选的统计分析结果可以看出,5种不同的方法筛选出的条目不尽相同,被4种以上方法筛选掉的条目包括2,3,21,24,31等5个条目。
2.3 量表的考核
通过对保留的30个条目的量表结构的证实性因子分析结果显示CFI=0.919,证明其具有良好的结构效度。精力、疼痛、饮食、大便、小便、睡眠、情绪、体质8个方面的克朗巴赫系数分别为0.8102、0.8298、0.7885、 0.6331、 0.5253、 0.8161、 0.8701、0.5638,可见除在大、小便和体质方面的克朗巴赫系数稍差外,其它六个方面均体现了较好的信度。健康人与门诊患者和住院患者的8个方面方差分析表明P值均 < 0.01,说明了量表具有区分健康者与门诊和住院患者之间病情差别的能力。
2.4 正式调查量表
根据统计分析和量表考核的结果最终确立量表的结构模型为:方面反映健康状况,即本量表的结构为中医健康状况直接由精力、疼痛、大便、小便、睡眠、情绪 饮食、体质八个方面来反映,保留了30个条目。其中精力6条、疼痛2条、饮食5条、大便5条、小便2条、睡眠3条、体质3条、情绪4条,形成中医健康状况量表正式版
㈣ 量表的评价主要包括什么和什么两方面
科研实务 | 量表的信度评价(案例实操)
AideEdit艾德护理
2019年08月15日
编者按
对于已有的量表,如何评价一个量表的好坏?通过哪些指标来说明量表是否可靠?量表的评价主要包括两个方面内容:①信度(reliability),反映量表是否稳定;②效度(validity)反映量表是否准确。
今天先来讲解一下什么是信度。信度,反映量表的一致性和稳定性。即在不同的主试者、评分者、时间、情境或使用类似的问题,其所得的分数是否一致。主要反映了测量误差所造成的影响有多大。常用的信度评价指标有:重测信度、复本信度、内部一致性方法(分半信度、克朗巴赫系数)
重测信度
重测信度是指用同一份量表,对同一群受访者,在两次不同的时间进行调查,根据两次测量结果,计算相关系数,以此来评估测量信度。
重测的间隔时间一般视工具用途来决定间隔时间。重测信度的缺点是:①易受练习与记忆的影响;②某些题目的性质因重测而改变,如推理题变成记忆题;③无法复制相同的情境而产生的误差。
注意
重测信度的度量:相关系数,如果①资料为连续资料,且符合正态分布,通常采用Pearson相关系数;②资料不满足正态分布,或者为有序资料,通常采用Spearman相关系数。
具体JMP软件操作步骤如下:
该资料为连续性资料,符合正态分布,采用Pearson相关性分析:Pearson相关系数为0.94.提示两次重复测量的相关性很强,重测信度好。
分半信度
分半信度是指将量表的题目分成两部分分半计分,根据受试者在两半题项上所得分数,计算两者的相关系数。如果实际中很难做到重测,可采用该方法评价信度。
如何分半?
分半一般有两种方法,①随机分半:采用随机数字法,将量表的问题随机分为两部分。如有30个条目,可随机产生30个随机数字,随机数字1-15所对应的条目昨晚一部分,所及数字16-30所对应的数字作为另一部分。②奇偶分半:根据条目的奇偶数分半,1、3、5.....作为一部分,2、4、6.....作为另一部分。
具体JMP软件操作步骤如下:
新增一列“随机分组”,其值只有0和1,各占50%。再选择“表”——“拆分”。
随机分组作为拆分依据;合计作为拆分的列。
新产生的数据,即随机分为两部分的量表得分。
对新产生的两个变量质性相关分析即可。(选择“分析”——“多元”)
克朗巴赫系数
克朗巴赫系数是实际中最常用的一个信度指标。克朗巴赫系数相当于是把所有的分半信度求一个平均值。一次分半信度有时如果分的不合适,可能计算的结果不一定合理,比如两组方差相差较大,等等。把所有的分半信度都计算出来,再求其平均值,这就是克朗巴赫系数,因而其结果更为合理。
克朗巴赫系数评价标准(Devellis,1991)
克朗巴赫系数与条目数有关,一般条目越多,系数越大。具体JMP软件操作步骤见(科研实务 | 量表条目的筛选(案例实操))#清风计划#
㈤ 数据分析中有哪些筛选关键因素的方法
很多朋友还没有接触过大数据分析方案,认为其仅仅算是个愿景而非现实——毕竟能够证明其可行性与实际效果的案例确实相对有限。但可以肯定的是,实时数据流中包含着大量重要价值,足以帮助企业及人员在未来的工作中达成更为理想的结果。那么,那些领域需要实时的数据分析呢?
㈥ 问卷统计分析方法,如何进行调查问卷统计分析
第一,定性分析法
定性分析是调研工作中的一种探索性分析方法。定性分析方法是先要对问题进行定位,对问题进行深层次的认识和理解。这种方法一般只适用于专业人员,因为这种方法是要对调研的问题有深入的了解和较高的专业水平。
第二,定量分析法
定量分析首先要对问卷进行数量化,利用量化后的数据对资料进行分析。这里涉及到两个方面:一是简单的定量分析;二是复杂的定量分析。
1.简单的定量分析是对调查问卷进行一些相对比较得单的数据分析,最常用的有百分比、频数、平均数分析法。
2.复杂定量分析法
复杂定量分析是相对于简单的定量分析而言的,由于在问卷中的变量较多,不是简单的一个或两个,而是多个,这时就需要用复杂的分析方法,复杂分析方法又分为多元分析和聚类分析。
多元分析是通过分析数据由表到里,由外到内的一种分析方法,通过变量之间的规律变化而从中找出一定的规律性。
聚类分析是根据一定的规则把应答者进行划分成为相对类似的群组,然后把群组进行具体的分析。
无论采用哪种方法对问卷进行分析,我们首先需要掌握好问卷的信度问题,如查问卷的可信度低,那么用哪一种方法进行分析都是徒劳的。
㈦ 方积干的已发表论文
[1]黄玮俊 李彩霞 拉布 周雁 黎培兴 胡彬 普布卓玛 格桑卓嘎 方积乾 王一鸣.藏族人群15号染色体中心粒区域基因的高精度连锁不平衡和单体型图谱及其与汉族人群的比较[J].科学通报,2006,51(3):283~
[2]王蓓 高海莲 刘雪琴 郝元涛 冯桂兰 方积乾.WHO生存质量量表老年模块在我国前列腺增生症患者中的适用性研究[J].中华护理杂志,2006,41(8):687~
[3]凌莉 刘军 韩璐 唐广心 方积乾.广州市农村流动人口卫生服务需求与利用分析[J].华南预防医学,2006,32(2):1~
[4]王心旺 方积乾.广东省居民健康、伤残、死亡三者间的量效关系研究[J].中国老年学杂志,2006,26(4):445~
[5]郝元涛 方积乾 宋心远 朱淑明 吴少敏.非线性因子分析模型参数估计研究[J].中国卫生统计,2006,23(2):108~
[6]王心旺 方积乾.基于混合正态模型的糖尿病住院病人医疗保险设计[J].中国卫生统计,2006,23(2):118~
[7]李彩霞 黎培兴 方积乾.传递不平衡的对称性检验的适用性[J].中国卫生统计,2006,23(1):16~
[8]颜杰 相丽驰 方积乾.灰色预测模型及SAS实现[J].中国卫生统计,2006,23(1):75~
[9]何春 方积乾.极大似然估计和拟极大似然估计模拟之比较[J].广东工业大学学报,2006,23(1):114~
[10]郝元涛 方积乾 Power MJ 吴少敏 朱淑明.WHO生存质量评估简表的等价性评价[J].中国心理卫生杂志,2006,20(2):71~
[11]刘清海 方积乾.医学期刊统计学误用现状、趋势与对策[J].中国科技期刊研究,2006,17(4):549~
[12]赵利 刘凤斌 梁国辉 陈金泉 方积乾.中华生存质量量表的信度和效度[J].中国临床康复,2006,10(8):1~
[13]王心旺 方积乾.基于分类风险模型的最优奖惩系统设计及在特定疾病保险中的应用[J].中国自然医学杂志,2006,8(3):185~
[14]麦劲壮 李河 方积乾 刘小清 饶栩栩.Meta分析中失安全系数的估计[J].循证医学,2006,6(5):297~
[15]李彩霞 黎培兴 方积乾.家系数据紧密连锁位点的单体型频率估计[J].中山大学学报:自然科学版,2005,44(3):9~
[16]凌莉 刘军 韩璐 唐广心 方积乾.广州市流动人口的卫生服务需求与利用[J].中华预防医学杂志,2005,39(6):395~
[17]王心旺 杨哲 方积乾.广东省卫生行业科学研究与试验发展投入产出效益分析[J].广州医学院学报,2005,33(1):9~
[18]万崇华 方积乾 汤学良 张灿珍 卢玉波 孟琼 高丽.SF-36量表用于肝癌患者生活质量测定的效果评价[J].肿瘤,2005,25(5):492~
[19]李彩霞 黎培兴 关永源 方积乾.离子通道的混合密度参数估计与状态判别[J].数理统计与管理,2005,24(6):62~
[20]颜杰 党容 方积乾.配对设计两组多分类频数分布的比较方法[J].中国卫生统计,2005,22(5):306~
[21]颜杰 谢薇 方积乾.SPSS中随机抽样的精确实现[J].中国卫生统计,2005,22(4):255~
[22]匡莉 方积乾 徐淑一.医院规模经济与成本函数研究进展[J].国外医学:卫生经济分册,2005,22(3):111~
[23]金华 方积乾.多维协变量具有测量误差的结构回归模型[J].生物数学学报,2005,20(1):77~
[24]刘清海 方积乾.医学论文统计学报告指南的综述与思考[J].中国科技期刊研究,2005,16(4):448~
[25]黄玮俊 李彩霞 陈素琴 孙健冬 周雁 方积乾 王一鸣.中国汉族人群15号染色体中心粒区域5个基因的高精度单倍型及单倍型域构建[J].科学通报,2004,49(7):649~
[26]李彩霞 黎培兴 关永源 方积乾.单离子通道潜在信号的马氏距离判别[J].中山大学学报:自然科学版,2004,43(3):111~
[27]王心旺 刘淑霞 方积乾.健康期望寿命的综合评价[J].广州医学院学报,2004,32(4):29~
[28]王心旺 杨哲 方积乾.糖尿病保险费精算模型研究[J].广州医学院学报,2004,32(3):7~
[29]王心旺 杨哲 方积乾.广东省居民6种疾病负担研究[J].广州医学院学报,2004,32(2):21~
[30]杜勇 李幼姬 李彩霞 郭辉 JosephCKLeung ManFLam 杨念生 黄锋先 方积乾 PatrickHMaxweⅡ 黎嘉能 王一鸣.Uteroglobin基因G38A多态性与IgA肾病相关关系[J].中山大学学报:医学科学版,2004,25(3):200~
[31]赵利 陈金泉 梁国辉 刘凤斌 方积乾.因子分析法在生存质量测定量表研制中的应用[J].中国中西医结合杂志,2004,24(11):965~
[32]郝元涛 孙希凤 方积乾 吴少敏 朱淑明.量表条目筛选的统计学方法研究[J].中国卫生统计,2004,21(4):209~
[33]何春 方积乾.多维平均处理效应极大似然估计的模拟研究[J].广东工业大学学报,2004,21(4):97~
[34]颜杰 李彩霞 曾芳芳 方积乾.如何控制SAS结果的输出[J].中国卫生统计,2004,21(2):119~
[35]张晋昕 方积乾 凌莉 陈雄飞 党容.基于预报效果的ARIMA模型筛选[J].中国卫生统计,2004,21(1):6~
[36]颜杰 李彩霞 方积乾 丁守銮.完全随机设计两组t检验与秩和检验的功效比较[J].中国卫生统计,2004,21(1):10~
[37]刘颜 李一明 伍友春 方积乾.深圳市居民对社区卫生服务需求及相关因素研究[J].中国初级卫生保健,2004,18(10):41~
[38]孙希凤 郝元涛 方积乾.老年人生存质量量表条目的初步筛选[J].中国心理卫生杂志,2004,18(7):455~
[39]李彩霞 黎培兴 关永源 方积乾.单离子通道潜在信号的阈值[J].数理医药学杂志,2004,17(4):294~
[40]刘凤斌 方积乾 王建华.中医药临床疗效评价的探讨[J].中药新药与临床药理,2004,15(4):290~
[41]刘颜 李一明 伍友春 方积乾.深圳市居民对社区卫生服务的认识程度及影响因素研究[J].中国行为医学科学,2004,13(5):576~
[42]赵利 刘凤斌 梁国辉 方积乾 林丽珠 陈金泉.中华生存质量量表的理论结构模型研制探讨[J].中国临床康复,2004,8(16):3132~
[43]金华 何春 方积乾.可交换条件下的结构回归模型[J].中山大学学报:自然科学版,2003,42(3):4~
[44]黎培兴 李彩霞 方积乾 关永源.单离子通道的隐马氏模型与状态的还原[J].中山大学学报:自然科学版,2003,42(2):9~
[45]方积乾 宇传华.第十三讲 如何处理随访资料[J].中华预防医学杂志,2003,37(1):63~
[46]王心旺 杨哲 刘淑霞 方积乾.广东省居民健康期望寿命研究[J].中山大学学报:医学科学版,2003,24(3):F002~
[47]王心旺 方积乾.健康-疾病负担测量与医疗保险精算方法研究[J].中山大学学报论丛,2003,23(6):1~
[48]凌莉 方积乾.三级医院病人就诊流向探讨[J].中国医院管理,2003,23(3):11~
[49]孙希凤 方积乾.老年人生存质量的影响因素[J].中华老年医学杂志,2003,22(8):508~
[50]陈雄飞 董晓梅 汪宁 方积乾.多因子共线性的主成分logistic回归分析[J].中国卫生统计,2003,20(4):212~
[51]郝元涛 方积乾.证实性因子分析在量表等价性评价中的应用研究[J].中国卫生统计,2003,20(3):130~
[52]张晋昕 方积乾 赵晓华 陈雄飞 凌莉.医学时间序列谱分析中的日历因素及修正方法[J].中华医院管理杂志,2003,19(11):690~
[53]倪涛洋 黎黎 刘颜 方积乾 关永源.时间序列数据记忆性的判别方法[J].生物数学学报,2003,18(4):502~
[54]何春 方积乾.可交换条件下多维结构回归模型总体平均处理效应的估计[J].生物数学学报,2003,18(3):321~
[55]许宗利 方淯靖 方积乾.多元性状同胞对连锁分析方法及其在原发性高血压基因定位数据中的应用[J].生物数学学报,2003,18(2):176~
[56]许宗利 方积乾.一般家系二分类性状的贝叶斯连锁分析方法[J].生物数学学报,2003,18(1):15~
[57]郝元涛 方积乾.生存质量测定量表等价性评价研究[J].中国行为医学科学,2003,12(3):338~
[58]郝元涛 方积乾.结构方程模型及其在医学中的应用研究[J].中国医院统计,2003,10(4):240~
[59]方积乾 王显红.骨密度测量的统计质量控制[J].中国骨质疏松杂志,2003,9(3):273~
[60]许宗利 方积乾.适宜于连锁分析文献的Meta分析方法[J].中华预防医学杂志,2002,36(3):196~
[61]刘凤斌 方积乾.医学教育与生存质量[J].现代预防医学,2002,29(2):206~
[62]周旭毓 方积乾.Gibbs岳样在HBV、HCV感染与肝癌关系的病例—对照研究meta分析中的应用[J].中山医科大学学报,2002,23(3):165~
[63]凌莉 方积乾.调整资源结构后医院的成本效益评价[J].中国卫生统计,2002,19(4):214~
[64]周旭毓 方积乾.Meta分析中随机效应模型的Gibbs抽样及其应用[J].中国卫生统计,2002,19(4):204~
[65]方积乾 周凤琼 等.试论医院服务质量的评价与保障[J].中华医院管理杂志,2002,18(10):630~
[66]凌莉 方积乾.卫生资源供给结构调整的方法学研究[J].中华医院管理杂志,2002,18(6):351~
[67]郑迎东 方积乾.含有重度缺失的多维时间序列补缺方法及其在环境监测中的应用[J].中国公共卫生,2002,18(1):118~
[68]凌莉 方积乾.世界卫生资源配置模式探讨[J].卫生软科学,2002,16(2):34~
[69]方积乾 柳青.我国恶性肿瘤筛查的问题与对策[J].中国肿瘤,2002,11(1):10~
[70]凌莉 方积乾.病人就诊流向及医疗费用的变化[J].中国医院统计,2002,9(4):219~
[71]宇传华 方积乾.骨质疏松症临床试验设计的统计学要点及相关问题[J].中国骨质疏松杂志,2002,8(2):183~
[72]周旭毓 方积乾.Meta分析的常见偏倚[J].循证医学,2002,2(4):216~
[73]方积乾.肿瘤筛查之我见[J].抗癌,2002,(2):32~
[74]高桂明 方积乾 等.肿瘤发病人数估计的分层捕获—再捕获方法[J].中华流行病学杂志,2001,22(3):223~
[75]金华 方积乾.因果推断中的混杂控制[J].生物数学学报,2001,16(3):362~
[76]郑迎东 方积乾.空气污染与健康时间序列资料的传递函数模型的识别和建立[J].数理医药学杂志,2001,14(4):292~
[77]方积乾 郝元涛.生存质量研究的设计与实施[J].中国肿瘤,2001,10(2):69~
[78]郝元涛 方积乾.生存质量研究资料的统计分析[J].中国肿瘤,2001,10(2):72~
[79]凌莉 方积乾.肿瘤发病和死亡资料的时间趋势分析[J].中国肿瘤,2001,10(1):24~
[80]凌莉 方积乾 等.骨密度检测质量控制研究[J].中国骨质疏松杂志,2001,7(3):281~
[81]许宗利 方积乾.连锁分析研究的Meta分析方法[J].生命科学研究,2001,5(4):308~
[82]杨哲 方积乾.广东省卫生人力供需现状评价[J].中国卫生统计,2000,17(4):224~
[83]万崇华 方积乾.纵向资料分析的衍生变量法及其在生命质量资料分析中的应用[J].中华医院管理杂志,2000,16(4):255~
[84]秦学军 方积乾.随机漂移亚群体等位基因频率分布的假定及在DNA指纹数据中?…[J].生物数学学报,2000,15(2):227~
[85]金华 方积乾.空气污染对小学生肺功能水平的个体效应估计[J].数理医药学杂志,2000,13(4):330~
[86]万崇华 方积乾 等.FLIC量表用于肝癌患者生命质量测定的对比研究[J].中国行为医学科学,2000,9(5):321~
[87]万崇华 方积乾.WHOQOL—100量表用于药物成瘾者生命质量测定的对比研究[J].中国行为医学科学,2000,9(4):241~
[88]方积乾 万崇华.生存质量研究概况与测定量表[J].现代康复,2000,4(8):1123~
[89]郝元涛 方积乾.世界卫生组织生存质量测定量表中文版介绍及其使用说明[J].现代康复,2000,4(8):1127~
[90]凌莉 方积乾 刘颜 柳青 汤泽群 傅承主 杨哲 张寿生.卫生资源配置的区域分类标志值测算方法[J].中国卫生资源,2000,3(2):85~
[91]杨哲 张寿生 汤泽群 傅承主 方积乾 柳青 凌莉 刘颜.广东省卫生人力供需现状评价[J].中国卫生资源,2000,3(1):13~
[92]万崇华 方积乾.生存质量作为时变协变量的Cox回归分析及应用[J].中华预防医学杂志,1999,33(3):143~
[93]洪明晃 方积乾.试论肿瘤“早诊方法”的流行病学与临床意义[J].中华肿瘤杂志,1999,21(1):73~
[94]方积乾 张敏瑞.医学论文中常见统计错误及其纠正[J].中山医科大学学报,1999,20(4):314~
[95]万崇华 方积乾.纵向生命质量资料分析的Markov过程法及其应用[J].中华流行病学杂志,1999,20(3):162~
[96]赵会仁 方积乾.细胞膜K离子通道的动力学模型的参数估计[J].锦州医学院学报,1999,20(1):27~
[97]方积乾 刘向明.离子通道门控动力学研究[J].中山医科大学学报,1999,20(1):9~
[98]万崇华 方积乾.纵向资料的裂区设计方差分析法及其在吸毒者生命质量评价中的应用[J].数理统计与管理,1999,18(1):1~
[99]林爱华 方积乾.两地孕产妇产前检查方案的成本效果比较[J].中国卫生统计,1999,16(3):157~
[100]方积乾 郝元涛.世界卫生组织生活质量量表中文版的信度与效度[J].中国心理卫生杂志,1999,13(4):203~
[101]刘颜 方积乾.农村初级卫生保健的信息管理[J].医学信息(云南),1999,12(8):30~
[102]孙晓武 方积乾.测量误差非线性职业暴露效应模型参数估计的MCMC方法[J].数理医药学杂志,1999,12(2):110~
[103]林爱华 方积乾.两地孕产妇产前检查方案的成本效果比较[J].中国医院统计,1999,6(3):148~
[104]杨哲 方积乾.广东省医院床位供需现状评价[J].中国卫生事业管理,1999,(12):638~
[105]洪明晃 方积乾.肿瘤的分层分析和分层治疗[J].中华肿瘤杂志,1998,20(5):373~
[106]洪明晃 方积乾.应用无复发生存率和无远处转移生存率进行肿瘤预后的评价:附411例鼻咽癌…[J].癌症,1998,17(2):118~
[107]秦学军 方积乾.随机漂移亚群体的两种模拟结果的比较[J].生物数学学报,1998,13(3):354~
[108]刘向明 方积乾.PC12细胞钾离子通道门控动力学随机建模与参数估计(Ⅰ)[J].生物数学学报,1998,13(3):372~
[109]秦学军 方积乾.亚群体DNA指纹结构的模拟及参数估计[J].数理医药学杂志,1998,11(3):229~
[110]万崇华 方积乾.MOS SF—36量表用于药物成瘾者生命质量测定的对比研究[J].中国行为医学科学,1998,7(4):260~
[111]万崇华 方积乾.肝癌患者生存质量测定量表的制定与考评[J].中国行为医学科学,1998,7(3):170~
[112]万崇华 方积乾.同一时点生命质量资料分析的TOPSIS法[J].中国医院统计,1998,5(3):134~
[113]洪明晃 方积乾.无复发生存率和无转移生存率在肿瘤研究中的作用[J].中华肿瘤杂志,1997,19(3):239~
[114]方积乾 柳青.医学研究生统计课程综合改革探讨[J].中国卫生统计,1997,14(6):55~
[115]柳青 方积乾.鼻咽癌疾病自然史的随机模型研究[J].中国卫生统计,1997,14(4):12~
[116]史明丽 方积乾.模糊综合评价法在社区人群生存质量评价中的应用[J].中国卫生统计,1997,14(4):28~
[117]万崇华 方积乾.药物成瘾者生存质量测定量表的制定及其考评[J].中国行为医学科学,1997,6(3):169~
[118]方积乾 刘向明 刘士光 胡性本.离子通道门控动力学的随机建模[J].自然杂志,1997,(2):86~
[119]傅承主 方积乾.鼻咽癌筛查资料中无发病数据的分析方法探讨[J].中国卫生统计,1996,13(6):32~
[120]方积乾 廖瑞端.成对相依资料的回归方法[J].中国卫生统计,1996,13(4):1~
[121]刘向明 方积乾.离子通道开放状态检测法的计算机模拟研究(Ⅰ)[J].生物数学学报,1996,11(2):60~
[122]方积乾 陈和年.医学研究中logistic回归模型的正确应用(二)[J].中国卫生统计,1993,10(5):61~
[123]方积乾 陈和年.医学研究中logistic回归模型的正确应用(一)[J].中国卫生统计,1993,10(4):54~
㈧ 卫生统计学学习指导与习题集的作者简介
方积乾教授,1939年7月6日生于上海,祖籍浙江镇海。1961年获复旦大学数学学士学位,1982年至1985年在加利福尼亚大学伯克利分校,师从蒋庆琅教授,研究生命现象的随机过程模型,获生物统计学博士。1985年在北京医科大学由讲师直接提升为教授。1991年至今,中山医科大学(现为中山大学)公共卫生学院教授、主任、博士导师。国际生物统计学会中国组负责人;中国卫生统计学会副会长、广东省卫生统计学会会长。
曾在英国肯特大学、澳大利亚国立大学讲学,1993以来,任香港中文大学兼职教授。
二、主要着述
曾主编国家规划教材《数理统计方法》和《高等数学》,主编第一本医学计算机中文专着《电子计算机及其在医学中的应用》,主编的医学研究生教材《医学统计学与电脑实验》被列为教育部推荐教材,主编的《现代医学统计学》受华夏英才基金资助,并由人民卫生出版社(2002)、InternationalSciencePress(2003)分别以中英文出版,主编的全国统编教材《卫生统计学(第五版)》于2003年由人民卫生出版社出版。
三、主要成果
序贯判别分析方法和多状态生存分析的成果曾获北京市和卫生部科技进步奖。曾先后主持国家自然科学基金课题《生命现象的随机模型》和《离子通道门控动力学研究》、博士点基金课题《多状态模型的Bootstrap研究》和《生存质量资料的统计分析方法》、国家“七五”攻关课题《适应于肿瘤预防研究的生物统计学理论与技术》(卫生部科技进步奖)、广东省自然科学基金课题《细胞膜单离子通道的门控动力系统研究》和《空气污染对健康损害的研究》以及与世界卫生组织合作课题《中国人生存质量的测定与应用》(国家统计局科研成果二等奖)等。现正主持国家自然科学基金课题《复杂性状基因定位数据连锁分析方法的研究》。
四、已发表论文
[1]黄玮俊李彩霞拉布周雁黎培兴胡彬普布卓玛格桑卓嘎方积乾王一鸣.藏族人群15号染色体中心粒区域基因的高精度连锁不平衡和单体型图谱及其与汉族人群的比较[J].科学通报,2006,51(3):283~
[2]王蓓高海莲刘雪琴郝元涛冯桂兰方积乾.WHO生存质量量表老年模块在我国前列腺增生症患者中的适用性研究[J].中华护理杂志,2006,41(8):687~
[3]凌莉刘军韩璐唐广心方积乾.广州市农村流动人口卫生服务需求与利用分析[J].华南预防医学,2006,32(2):1~
[4]王心旺方积乾.广东省居民健康、伤残、死亡三者间的量效关系研究[J].中国老年学杂志,2006,26(4):445~
[5]郝元涛方积乾宋心远朱淑明吴少敏.非线性因子分析模型参数估计研究[J].中国卫生统计,2006,23(2):108~
[6]王心旺方积乾.基于混合正态模型的糖尿病住院病人医疗保险设计[J].中国卫生统计,2006,23(2):118~
[7]李彩霞黎培兴方积乾.传递不平衡的对称性检验的适用性[J].中国卫生统计,2006,23(1):16~
[8]颜杰相丽驰方积乾.灰色预测模型及SAS实现[J].中国卫生统计,2006,23(1):75~
[9]何春方积乾.极大似然估计和拟极大似然估计模拟之比较[J].广东工业大学学报,2006,23(1):114~
[10]郝元涛方积乾PowerMJ吴少敏朱淑明.WHO生存质量评估简表的等价性评价[J].中国心理卫生杂志,2006,20(2):71~
[11]刘清海方积乾.医学期刊统计学误用现状、趋势与对策[J].中国科技期刊研究,2006,17(4):549~
[12]赵利刘凤斌梁国辉陈金泉方积乾.中华生存质量量表的信度和效度[J].中国临床康复,2006,10(8):1~
[13]王心旺方积乾.基于分类风险模型的最优奖惩系统设计及在特定疾病保险中的应用[J].中国自然医学杂志,2006,8(3):185~
[14]麦劲壮李河方积乾刘小清饶栩栩.Meta分析中失安全系数的估计[J].循证医学,2006,6(5):297~
[15]李彩霞黎培兴方积乾.家系数据紧密连锁位点的单体型频率估计[J].中山大学学报:自然科学版,2005,44(3):9~
[16]凌莉刘军韩璐唐广心方积乾.广州市流动人口的卫生服务需求与利用[J].中华预防医学杂志,2005,39(6):395~
[17]王心旺杨哲方积乾.广东省卫生行业科学研究与试验发展投入产出效益分析[J].广州医学院学报,2005,33(1):9~
[18]万崇华方积乾汤学良张灿珍卢玉波孟琼高丽.SF-36量表用于肝癌患者生活质量测定的效果评价[J].肿瘤,2005,25(5):492~
[19]李彩霞黎培兴关永源方积乾.离子通道的混合密度参数估计与状态判别[J].数理统计与管理,2005,24(6):62~
[20]颜杰党容方积乾.配对设计两组多分类频数分布的比较方法[J].中国卫生统计,2005,22(5):306~
[21]颜杰谢薇方积乾.SPSS中随机抽样的精确实现[J].中国卫生统计,2005,22(4):255~
[22]匡莉方积乾徐淑一.医院规模经济与成本函数研究进展[J].国外医学:卫生经济分册,2005,22(3):111~
[23]金华方积乾.多维协变量具有测量误差的结构回归模型[J].生物数学学报,2005,20(1):77~
[24]刘清海方积乾.医学论文统计学报告指南的综述与思考[J].中国科技期刊研究,2005,16(4):448~
[25]黄玮俊李彩霞陈素琴孙健冬周雁方积乾王一鸣.中国汉族人群15号染色体中心粒区域5个基因的高精度单倍型及单倍型域构建[J].科学通报,2004,49(7):649~
[26]李彩霞黎培兴关永源方积乾.单离子通道潜在信号的马氏距离判别[J].中山大学学报:自然科学版,2004,43(3):111~
[27]王心旺刘淑霞方积乾.健康期望寿命的综合评价[J].广州医学院学报,2004,32(4):29~
[28]王心旺杨哲方积乾.糖尿病保险费精算模型研究[J].广州医学院学报,2004,32(3):7~
[29]王心旺杨哲方积乾.广东省居民6种疾病负担研究[J].广州医学院学报,2004,32(2):21~
[30]杜勇李幼姬李彩霞郭辉JosephCKLeungManFLam杨念生黄锋先方积乾PatrickHMaxweⅡ黎嘉能王一鸣.Uteroglobin基因G38A多态性与IgA肾病相关关系[J].中山大学学报:医学科学版,2004,25(3):200~
[31]赵利陈金泉梁国辉刘凤斌方积乾.因子分析法在生存质量测定量表研制中的应用[J].中国中西医结合杂志,2004,24(11):965~
[32]郝元涛孙希凤方积乾吴少敏朱淑明.量表条目筛选的统计学方法研究[J].中国卫生统计,2004,21(4):209~
[33]何春方积乾.多维平均处理效应极大似然估计的模拟研究[J].广东工业大学学报,2004,21(4):97~
[34]颜杰李彩霞曾芳芳方积乾.如何控制SAS结果的输出[J].中国卫生统计,2004,21(2):119~
[35]张晋昕方积乾凌莉陈雄飞党容.基于预报效果的ARIMA模型筛选[J].中国卫生统计,2004,21(1):6~
[36]颜杰李彩霞方积乾丁守銮.完全随机设计两组t检验与秩和检验的功效比较[J].中国卫生统计,2004,21(1):10~
[37]刘颜李一明伍友春方积乾.深圳市居民对社区卫生服务需求及相关因素研究[J].中国初级卫生保健,2004,18(10):41~
[38]孙希凤郝元涛方积乾.老年人生存质量量表条目的初步筛选[J].中国心理卫生杂志,2004,18(7):455~
[39]李彩霞黎培兴关永源方积乾.单离子通道潜在信号的阈值[J].数理医药学杂志,2004,17(4):294~
[40]刘凤斌方积乾王建华.中医药临床疗效评价的探讨[J].中药新药与临床药理,2004,15(4):290~
[41]刘颜李一明伍友春方积乾.深圳市居民对社区卫生服务的认识程度及影响因素研究[J].中国行为医学科学,2004,13(5):576~
[42]赵利刘凤斌梁国辉方积乾林丽珠陈金泉.中华生存质量量表的理论结构模型研制探讨[J].中国临床康复,2004,8(16):3132~
[43]金华何春方积乾.可交换条件下的结构回归模型[J].中山大学学报:自然科学版,2003,42(3):4~
[44]黎培兴李彩霞方积乾关永源.单离子通道的隐马氏模型与状态的还原[J].中山大学学报:自然科学版,2003,42(2):9~
[45]方积乾宇传华.第十三讲如何处理随访资料[J].中华预防医学杂志,2003,37(1):63~
[46]王心旺杨哲刘淑霞方积乾.广东省居民健康期望寿命研究[J].中山大学学报:医学科学版,2003,24(3):F002~
[47]王心旺方积乾.健康-疾病负担测量与医疗保险精算方法研究[J].中山大学学报论丛,2003,23(6):1~
[48]凌莉方积乾.三级医院病人就诊流向探讨[J].中国医院管理,2003,23(3):11~
[49]孙希凤方积乾.老年人生存质量的影响因素[J].中华老年医学杂志,2003,22(8):508~
[50]陈雄飞董晓梅汪宁方积乾.多因子共线性的主成分logistic回归分析[J].中国卫生统计,2003,20(4):212~
[51]郝元涛方积乾.证实性因子分析在量表等价性评价中的应用研究[J].中国卫生统计,2003,20(3):130~
[52]张晋昕方积乾赵晓华陈雄飞凌莉.医学时间序列谱分析中的日历因素及修正方法[J].中华医院管理杂志,2003,19(11):690~
[53]倪涛洋黎黎刘颜方积乾关永源.时间序列数据记忆性的判别方法[J].生物数学学报,2003,18(4):502~
[54]何春方积乾.可交换条件下多维结构回归模型总体平均处理效应的估计[J].生物数学学报,2003,18(3):321~
[55]许宗利方淯靖方积乾.多元性状同胞对连锁分析方法及其在原发性高血压基因定位数据中的应用[J].生物数学学报,2003,18(2):176~
[56]许宗利方积乾.一般家系二分类性状的贝叶斯连锁分析方法[J].生物数学学报,2003,18(1):15~
[57]郝元涛方积乾.生存质量测定量表等价性评价研究[J].中国行为医学科学,2003,12(3):338~
[58]郝元涛方积乾.结构方程模型及其在医学中的应用研究[J].中国医院统计,2003,10(4):240~
[59]方积乾王显红.骨密度测量的统计质量控制[J].中国骨质疏松杂志,2003,9(3):273~
[60]许宗利方积乾.适宜于连锁分析文献的Meta分析方法[J].中华预防医学杂志,2002,36(3):196~
[61]刘凤斌方积乾.医学教育与生存质量[J].现代预防医学,2002,29(2):206~
[62]周旭毓方积乾.Gibbs岳样在HBV、HCV感染与肝癌关系的病例—对照研究meta分析中的应用[J].中山医科大学学报,2002,23(3):165~
[63]凌莉方积乾.调整资源结构后医院的成本效益评价[J].中国卫生统计,2002,19(4):214~
[64]周旭毓方积乾.Meta分析中随机效应模型的Gibbs抽样及其应用[J].中国卫生统计,2002,19(4):204~
[65]方积乾周凤琼等.试论医院服务质量的评价与保障[J].中华医院管理杂志,2002,18(10):630~
[66]凌莉方积乾.卫生资源供给结构调整的方法学研究[J].中华医院管理杂志,2002,18(6):351~
[67]郑迎东方积乾.含有重度缺失的多维时间序列补缺方法及其在环境监测中的应用[J].中国公共卫生,2002,18(1):118~
[68]凌莉方积乾.世界卫生资源配置模式探讨[J].卫生软科学,2002,16(2):34~
[69]方积乾柳青.我国恶性肿瘤筛查的问题与对策[J].中国肿瘤,2002,11(1):10~
[70]凌莉方积乾.病人就诊流向及医疗费用的变化[J].中国医院统计,2002,9(4):219~
[71]宇传华方积乾.骨质疏松症临床试验设计的统计学要点及相关问题[J].中国骨质疏松杂志,2002,8(2):183~
[72]周旭毓方积乾.Meta分析的常见偏倚[J].循证医学,2002,2(4):216~
[73]方积乾.肿瘤筛查之我见[J].抗癌,2002,(2):32~
[74]高桂明方积干等.肿瘤发病人数估计的分层捕获—再捕获方法[J].中华流行病学杂志,2001,22(3):223~
[75]金华方积乾.因果推断中的混杂控制[J].生物数学学报,2001,16(3):362~
[76]郑迎东方积乾.空气污染与健康时间序列资料的传递函数模型的识别和建立[J].数理医药学杂志,2001,14(4):292~
[77]方积乾郝元涛.生存质量研究的设计与实施[J].中国肿瘤,2001,10(2):69~
[78]郝元涛方积乾.生存质量研究资料的统计分析[J].中国肿瘤,2001,10(2):72~
[79]凌莉方积乾.肿瘤发病和死亡资料的时间趋势分析[J].中国肿瘤,2001,10(1):24~
[80]凌莉方积干等.骨密度检测质量控制研究[J].中国骨质疏松杂志,2001,7(3):281~
[81]许宗利方积乾.连锁分析研究的Meta分析方法[J].生命科学研究,2001,5(4):308~
[82]杨哲方积乾.广东省卫生人力供需现状评价[J].中国卫生统计,2000,17(4):224~
[83]万崇华方积乾.纵向资料分析的衍生变量法及其在生命质量资料分析中的应用[J].中华医院管理杂志,2000,16(4):255~
[84]秦学军方积乾.随机漂移亚群体等位基因频率分布的假定及在DNA指纹数据中?…[J].生物数学学报,2000,15(2):227~
[85]金华方积乾.空气污染对小学生肺功能水平的个体效应估计[J].数理医药学杂志,2000,13(4):330~
[86]万崇华方积干等.FLIC量表用于肝癌患者生命质量测定的对比研究[J].中国行为医学科学,2000,9(5):321~
[87]万崇华方积乾.WHOQOL—100量表用于药物成瘾者生命质量测定的对比研究[J].中国行为医学科学,2000,9(4):241~
[88]方积乾万崇华.生存质量研究概况与测定量表[J].现代康复,2000,4(8):1123~
[89]郝元涛方积乾.世界卫生组织生存质量测定量表中文版介绍及其使用说明[J].现代康复,2000,4(8):1127~
[90]凌莉方积乾刘颜柳青汤泽群傅承主杨哲张寿生.卫生资源配置的区域分类标志值测算方法[J].中国卫生资源,2000,3(2):85~
[91]杨哲张寿生汤泽群傅承主方积乾柳青凌莉刘颜.广东省卫生人力供需现状评价[J].中国卫生资源,2000,3(1):13~
[92]万崇华方积乾.生存质量作为时变协变量的Cox回归分析及应用[J].中华预防医学杂志,1999,33(3):143~
[93]洪明晃方积乾.试论肿瘤“早诊方法”的流行病学与临床意义[J].中华肿瘤杂志,1999,21(1):73~
[94]方积乾张敏瑞.近期医学论文中常见统计错误及其纠正[J].中山医科大学学报,1999,20(4):314~
[95]万崇华方积乾.纵向生命质量资料分析的Markov过程法及其应用[J].中华流行病学杂志,1999,20(3):162~
[96]赵会仁方积乾.细胞膜K离子通道的动力学模型的参数估计[J].锦州医学院学报,1999,20(1):27~
[97]方积乾刘向明.离子通道门控动力学研究[J].中山医科大学学报,1999,20(1):9~
[98]万崇华方积乾.纵向资料的裂区设计方差分析法及其在吸毒者生命质量评价中的应用[J].数理统计与管理,1999,18(1):1~
[99]林爱华方积乾.两地孕产妇产前检查方案的成本效果比较[J].中国卫生统计,1999,16(3):157~
[100]方积乾郝元涛.世界卫生组织生活质量量表中文版的信度与效度[J].中国心理卫生杂志,1999,13(4):203~
[101]刘颜方积乾.农村初级卫生保健的信息管理[J].医学信息(云南),1999,12(8):30~
[102]孙晓武方积乾.测量误差非线性职业暴露效应模型参数估计的MCMC方法[J].数理医药学杂志,1999,12(2):110~
[103]林爱华方积乾.两地孕产妇产前检查方案的成本效果比较[J].中国医院统计,1999,6(3):148~
[104]杨哲方积乾.广东省医院床位供需现状评价[J].中国卫生事业管理,1999,(12):638~
[105]洪明晃方积乾.肿瘤的分层分析和分层治疗[J].中华肿瘤杂志,1998,20(5):373~
[106]洪明晃方积乾.应用无复发生存率和无远处转移生存率进行肿瘤预后的评价:附411例鼻咽癌…[J].癌症,1998,17(2):118~
[107]秦学军方积乾.随机漂移亚群体的两种模拟结果的比较[J].生物数学学报,1998,13(3):354~
[108]刘向明方积乾.PC12细胞钾离子通道门控动力学随机建模与参数估计(Ⅰ)[J].生物数学学报,1998,13(3):372~
[109]秦学军方积乾.亚群体DNA指纹结构的模拟及参数估计[J].数理医药学杂志,1998,11(3):229~
[110]万崇华方积乾.MOSSF—36量表用于药物成瘾者生命质量测定的对比研究[J].中国行为医学科学,1998,7(4):260~
[111]万崇华方积乾.肝癌患者生存质量测定量表的制定与考评[J].中国行为医学科学,1998,7(3):170~
[112]万崇华方积乾.同一时点生命质量资料分析的TOPSIS法[J].中国医院统计,1998,5(3):134~
[113]洪明晃方积乾.无复发生存率和无转移生存率在肿瘤研究中的作用[J].中华肿瘤杂志,1997,19(3):239~
[114]方积乾柳青.医学研究生统计课程综合改革探讨[J].中国卫生统计,1997,14(6):55~
[115]柳青方积乾.鼻咽癌疾病自然史的随机模型研究[J].中国卫生统计,1997,14(4):12~
[116]史明丽方积乾.模糊综合评价法在社区人群生存质量评价中的应用[J].中国卫生统计,1997,14(4):28~
[117]万崇华方积乾.药物成瘾者生存质量测定量表的制定及其考评[J].中国行为医学科学,1997,6(3):169~
[118]方积乾刘向明刘士光胡性本.离子通道门控动力学的随机建模[J].自然杂志,1997,(2):86~
[119]傅承主方积乾.鼻咽癌筛查资料中无发病数据的分析方法探讨[J].中国卫生统计,1996,13(6):32~
[120]方积乾廖瑞端.成对相依资料的回归方法[J].中国卫生统计,1996,13(4):1~
[121]刘向明方积乾.离子通道开放状态检测法的计算机模拟研究(Ⅰ)[J].生物数学学报,1996,11(2):60~
[122]方积乾陈和年.医学研究中logistic回归模型的正确应用(二)[J].中国卫生统计,1993,10(5):61~
[123]方积乾陈和年.医学研究中logistic回归模型的正确应用(一)[J].中国卫生统计,1993,10(4):54~
㈨ 统计学方法有哪些
一、描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?
离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
相关分析:相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。
例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。
推论统计:
推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显着性差异。例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显着高于初中毕业生组的成绩,二者在0.01水平上具有显着性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”
其中,如果用EXCEL 来求描述统计。其方法是:工具-加载宏-勾选"分析工具库",然后关闭Excel然后重新打开,工具菜单就会出现"数据分析"。描述统计是“数据分析”内一个子菜单,在做的时候,记得要把方格输入正确。最好直接点选。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;
C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
A 虽然是连续数据,但总体分布形态未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
介绍:信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
方法:(1)重测信度法编辑:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。
(2)复本信度法编辑:让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。
(3)折半信度法编辑:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。
(4)α信度系数法编辑:Cronbach
α信度系数是目前最常用的信度系数,其公式为:
α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。
总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
四、列联表分析
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
简介:一般,若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。
列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
用于分析离散变量或定型变量之间是否存在相关。
列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)
为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。
需要注意:
若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显着性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
五、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估计值的差值要艰从正态分布
B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
• 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
• 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等
八、聚类分析
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
定义:
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster
analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification
analysis) ,后者是有监督的学习。
变量类型:定类变量、定量(离散和连续)变量
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法:适用于大样本的样本聚类
3)其他聚类法:两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
2、与聚类分析区别
1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;
以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于
适用于多类判别。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
十、主成分分析
介绍:主成分分析(Principal
Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。
原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
缺点: 1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到治理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测,将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个:其一是时间,其二是与时间相对应的变量水平。实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。
时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,不规则变动。
时间序列预测法的应用:
系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;
系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;
预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;
决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
特点:
假定事物的过去趋势会延伸到未来;
预测所依据的数据具有不规则性;
撇开了市场发展之间的因果关系。
①时间序列分析预测法是根据市场过去的变化趋势预测未来的发展,它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果,而事物的未来又是现实的延伸,事物的过去和未来是有联系的。市场预测的时间序列分析法,正是根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。市场预测中,事物的过去会同样延续到未来,其意思是说,市场未来不会发生突然跳跃式变化,而是渐进变化的。
时间序列分析预测法的哲学依据,是唯物辩证法中的基本观点,即认为一切事物都是发展变化的,事物的发展变化在时间上具有连续性,市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。
需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。因此,在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平,不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展,它还会出现一些新的特点。因此,在时间序列分析预测中,决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点,新表现,并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律,又符合其现实表现的可靠的预测结果。
②时间序列分析预测法突出了时间因素在预测中的作用,暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置,没有时间序列,就没有这一方法的存在。虽然,预测对象的发展变化是受很多因素影响的。但是,运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。因此,为了求得能反映市场未来发展变化的精确预测值,在运用时间序列分析法进行预测时,必须将量的分析方法和质的分析方法结合起来,从质的方面充分研究各种因素与市场的关系,在充分分析研究影响市场变化的各种因素的基础上确定预测值。
需要指出的是,时间序列预测法因突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物,尤其是经济现象,在一个较长时间内发生外界因素变化的可能性加大,它们对市场经济现象必定要产生重大影响。如果出现这种情况,进行预测时,只考虑时间因素不考虑外界因素对预测对象的影响,其预测结果就会与实际状况严重不符。