A. 样本量太小 无显着差异 怎么办
增加样本的数量
改善样本的选取方式
改变事先确定的前提
B. 样本数量少,需要哪些统计量来证明结果的正确性
1、 根据数理统计学的最少样本法则 可以得出 n》k+1 (k为解释变量的个数,n为样本数)。
2、 如果要有效估计参数 可以根据有效样本得出 n》30或者n》3*(k+1)。
只看你要多大的精度 如果精度随着样本数的增加而增加
C. 如何使用统计学方法降低样本抽样数量以及如何抽样
两个样方的比较试验,采用配对试验设计。
多个样方的比较试验,可采用卡丁方试验设计或正交试验设计。
D. 几种常见的缺失数据插补方法
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法是用个案剔除法(listwise
deletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失值所占比例比较小的话,这一方法十分有效。至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。然而,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
(二)均值替换法(Mean Imputation)
在变量十分重要而所缺失的数据量又较为庞大的时候,个案剔除法就遇到了困难,因为许多有用的数据也同时被剔除。围绕着这一问题,研究者尝试了各种各样的办法。其中的一个方法是均值替换法(mean
imputation)。我们将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。但这种方法会产生有偏估计,所以并不被推崇。均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。
(三)热卡填充法(Hotdecking)
对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。与前述几种插补方法比较,该方法利用了数据库中尽量多的信息,而且一些统计软件(如Stata)也已经能够直接执行该功能。但该方法也有诸多弊端,第一,这虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估算技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。NORM统计软件可以较为简便地操作该方法
E. 数据比较少时候用什么统计方法比较好
统计数据比较多的时候可用普通的数学上的平均法,次数比较少的时候可用首尾折半法!
anova 有多种anova , One-way ANOVA , 两组数据 Factorial ANOVA, 测试不同的方法对数据的影响 Repeated measures ANOVA, 测试数据的环境是否相同 Multivariate analysis of variance (MANOVA 多因子变量 数据的分布形态是正态分布,
具体看书
F. spss统计中类别的样本量少怎么办
用spss计算样本量的步骤如下:
1、一般来说,样本数据是水平排列的,spss软件要求数据垂直排列,所以可以直接粘贴原始水平数据,在excel中可以快速转换成垂直数据,避免了繁琐和错误的手工数据输入。
2、复制excel垂直数据粘贴到spss软件数据输入区的第一列。之后选择,双击“变量视图”更改数据格式。
3、设置数据后,在工具栏中选择“分析-描述统计-探索”。调用explore对话框。
4、然后,将区间估计值选择到“因变量列表”(本例中为权重),点击“统计”按钮,调出“探索:统计”对话框。再次选中“说明”以设置置信区间。
5、最后,完成之后单击继续后点击确定按钮,即可以得到结果。
G. 病例对照研究中,如果很难获得足够多的病例组样本,如何提高统计学效率
病例对照研究的功效也叫做把握度,可以解释为拒绝无效假设的能力,一般认为一项研究中其应在75%以上。样本量如果过小就会降低把握度,即功效降低,如果达不到标准结果也就不可信。因此样本量是进行病例对照研究设计中必须考虑的问题。当然样本量也不是越大越好,样本量过大常会影响调查工作的质量,增加负担、费用。
病例对照研究中的配比主要出于研究效率的考虑,配比不能直接控制混杂因素,但提高了控制混杂因素的效率,即使得分层分析更有效率。然而,如果配比因素与暴露有联系,配比不仅没有控制混杂作用,还能引入新的混杂。配比因素若与暴露无关,则会导致配比过头,降低研究效率。
楼主之所以会产生这样的困惑,是因为他认为必须对某些因素进行配比,仅仅觉得应当如此,即使知道配比可能损伤研究效率(例如有些病例找不到合适的配比对照不得不舍弃掉;配比带来的每个研究对象统计效率的提高有时可能抵不过实施配比设计所需的花费),但是还是怕没有配比会削弱研究的可信度。其实,有偏倚的或严重无效率的设计还谈得上什么可信度呢。
1、可比性问题,是流行病学研究中的重要问题。
在病例-对照研究中,确实对照的选择往往比病历的选择更复杂、更困难,可以考虑选用同一或多个医疗机构中诊断的其他病历,或社区人口中的非病例或健康人群,或病例的配偶、同胞、亲戚、同学或同事等。这样就可扩大对照的入选范围,控制非研究因素的影响,增强两组的可比性。
H. 如何处理统计过程中的数据缺失
处理不完备数据集的方法主要有以下三大类: (一)删除元组
也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个
属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的,类标号(假设是分类任务)缺少时
通常使用。然而,这种方法却有很大的局限性。它是以减少历史数据来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏
在这些对象中的信息。在信息表中本来包含的对象很少的情况下,删除少量对象就足以严重影响到信息表信息的客观性和结果的正
确性;当每个属性空值的百分比变化很大时,它的性能非常差。因此,当遗漏数据所占比例较大,特别当遗漏数据非随机分布时, 这种方法可能导致数据发生偏离,从而引出错误的结论。 (二)数据补齐
这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来
对一个空值进行填充,譬如用其余属性的平均值来进行补充等。数据挖掘中常用的有以下几种补齐方法:
(1)人工填写(filling manually)
由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时, 当数据规模很大、空值很多的时候,该方法是不可行的。
(2)特殊值填充(Treating Missing Attribute values as Special values) 将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的
概念,可能导致严重的数据偏离,一般不推荐使用。 (3)平均值填充(Mean/Mode Completer)
将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值
的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多
的值(即出现频率最高的值)来补齐该缺失的属性值。另外有一种与其相似的方法叫条件平均值填充法(Conditional Mean
Completer)。在该方法中,缺失属性值的补齐同样是靠该属性在其他对象中的取值求平均得到,但不同的是用于求平均的值并不是
从信息表所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。这两种数据的补齐方法,其基本的出发点都是一样的
,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推 测缺失值。
(4)热卡填充(Hot deck imputation,或就近补齐)
对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不
同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺 点在于难以定义相似标准,主观因素较多。 (5)K最近距离邻法(K-means clustering)
先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
(6)使用所有可能的值填充(Assigning All Possible values of the Attribute) 这种方法是用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值
较多时,其计算的代价很大,可能的测试方案很多。另有一种方法,填补遗漏属性值的原则是一样的,不同的只是从决策相同的对
象中尝试所有的属性值的可能情况,而不是根据信息表中所有对象进行尝试,这样能够在一定程度上减小原方法的代价。 (7)组合完整化方法(Combinatorial Completer)
这种方法是用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是
以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。另一
种称为条件组合完整化方法(Conditional Combinatorial Complete),填补遗漏属性值的原则是一样的,不同的只是从决策相同
的对象中尝试所有的属性值的可能情况,而不是根据信息表中所有对象进行尝试。条件组合完整化方法能够在一定程度上减小组合
完整化方法的代价。在信息表包含不完整数据较多的情况下,可能的测试方案将巨增。
(8)回归(Regression)
基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值
来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。 (9)期望值最大化方法(Expectation maximization,EM)
EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法[43]。在每一迭代循环过程中交替执行两个步
骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函
数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M
步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也 不是很快,并且计算很复杂。
(10)多重填补(Multiple Imputation,MI)
多重填补方法分为三个步骤:①为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来
填补数据集中的缺失值,产生若干个完整数据集合。②每个填补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自
各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为
随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。 (11)C4.5方法
通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另
一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。
就几种基于统计的方法而言,删除元组法和平均值法差于hot deck、EM和MI;回归是比较好的一种方法,但仍比不上hot
deck和EM;EM缺少MI包含的不确定成分。值得注意的是,这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适
于处理无监督学习的问题,而对有监督学习来说,情况就不尽相同了。譬如,你可以删除包含空值的对象用完整的数据集来进行训
练,但预测时你却不能忽略包含空值的对象。另外,C4.5和使用所有可能的值填充方法也有较好的补齐效果,人工填写和特殊值填 充则是一般不推荐使用的。
补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,在对不完备信息进行补齐处理的同时,我们或多
或少地改变了原始的信息系统。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许
多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。这就是第三种方法:
混 沌 论 坛 希望可以帮助到你~望采纳哦~谢谢~
I. 统计学高手请帮忙,样本数小用什么统计方法及统计的结果
样本小的话,就不能用统计方法了吧。
但是也能大概知道下情况吧。 B组的成活较高,
可以再根据猜想进一步收集数据吧。
各样本数在100以上,可以用mANOVA吧, 就是比较各项指标的均值