1. 统计学问题:计算置信区间!!急急急!!!要具体步骤啊!!谢谢了啊!!!
该题目应该是总体成数的区间估计问题
解凯族答: 已知n=200,p=140/200=0.7,又已知1-α=0.95,则根据t分布表,与置信水平95%相对应的
t=2.14
于是△p= t * 根号下 p(1-p)/n=2.14 * 根号下0.7*0.3/200=6.93%
所以,由于这种原因离开该企业的人员的真正比例构造95%的置信区间为:
p-△p<=p<=p+△p
即:70%-6.93%<=p<=70%+6.93%
也即:63.07%<=p<=76.93%
故由于这种原因离开该企业的人员的搭孙竖真正比例构造95%的置信区间为(63.07%,76.93%)
因为统计公式符号不方便打上,开根号的地方我用汉字代替了
希望对你有帮助!知大
2. 统计推断(区间估计)
一、置信区间的估计
1.统计推断:统计推断是基于样本统计量对总体参数给出统计学结论
2.常用方法:置信区间估计和假设检验
3.95%置信度的含义: 100次抽样结果的100个95%置信区间中,平均而言有95个置信区间包含了真实的总体均数。置信度常用C表示
二、置信区间
(1)已知σ时μ的置信区间
1.样本量为n的简单随机抽样数据,估计总体均数μ的置信区间,当总体分布服从正态分布时,样本均数μ服从
2.对于一个观察到的样本,μ的置信度为C的置信区间为 ,其中 为μ的估计值, 为误差范围
3. 和C的关系为C越大则 越大
(2)置信区间的误差范围
1. 高置信度是指结果准确性高,误差范围小是指结果精确性高
2. 减小置信斗郑孝区间误差范围 的方法:
①选择较低的置信度,从而得到更小的
②选择更大的样本量n;
③减小σ
三、置信区间与样本量
1.合理的样本设计应在进行数据收集前先确定好 统计推断方法 ,确定足够的样本量可使得后期置信区间的误差范围较小。
2.根据置信区间误差范围计丛吵算公式,计算简单随机抽样的样本量:
3.实际应用中,样本量大小的选择,除上述公式计算结果外,还应考虑其他因素,如数据收集过程中所花费的成本等,确保研究方案实施的可行性。
4.严谨的设计通常会事先假定一个 无应答率 ,并以此校正样本量的计算。
四、注意事项
1.公式不适用于所有抽样方法,不同的抽样方法需要采用不同估计公式。
2. 公式适用条件
(1)数据必须来自相应总体的简单随机抽样;
(2)个体间相互独立;
(3)事先假定总体标准差已知,实际研究中很可能无法得到总体标准差。
3.选用统计方法前需对数据进行探索性分析, 检查异常值以及数据是否服从正态分布;
4. 统计分析无法拯救糟糕的数据;
5. 实际操作中的问题(如无应答与失访)会给抽样研究带来额外的误差,这些误差空稿可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所反映;
6. 统计推断的概率是指该方法重复进行的正确频率,但并不知道某一次结果的正确性。
3. 简单的统计学例题中,区间估计的α/2值27.488是怎么得来的急谢谢
2.5%分位是-1.96,97.5%分位是1.96的是正态分布。这题chisq=(n-1)S^2 / sigma^2服从卡方分布,要用卡方分布的分布分位数表,用不上正态分布的分布分位数表。
思路是在H0的情况下,每个糖果服从正态分布,方差是sigma,观察到比2.5%分位(6.262)更小的chisq值或者比97.5%分位(27.488)更大的chisq值是极端情况唤渣友,极端情况发生的和槐概率是5%,这个5%不是固定的,可以根据题目或者研究的要求来决定。
chisq的置信区间是2.5%分位(6.262)到97.5%分位(27.488)。然后由chisq=(n-1)S^2 / sigma^2反解sigma=S*sqrt(n-1)/sqrt(chisq),把chisq的2.5%分位(6.262)和梁绝97.5%分位(27.488)分别带进去,得到sigma的置信区间,就是图上涂黄那块。
27.488是自由度=15的卡方分布的97.5%分位
α^2原谅我没看见?
4. 区间估计——置信区间
你可能需要参考这篇文章
抽样与抽样分布——中心极限分布、点估计
1. 区间估计
1.1 区间估计
总体参数估计的一个区间,确信该区间将参数值纳入其中。
区间估计的形式:点估计±边际误差
1.2 置信区间
区间估计中,由样本估计量构造出的总体参数在一定置信水平下的估计区间。
区间的最小值是置信下限,区间的最大值是置信上限。
1.3 置信水平/置信度/置信系数
假定抽取100个样本,构造100个置信区间,这100个置信区间中有95%的区间包含了总体参数的真值,5%没包含,95%被称为置信水平。
如果将构造置信区间的步骤兄迟重复多次,置信区间中包含总体参数真值的次数所占比例称为置信水平。
2. 总体均值的区间估计
2.1 总体均值的区间估计:σ已知
对置信区间的理解,要注意:
(1)总体参数的真值是固定的,样本构造的区间是不固定的,置信区间是一个随机区间,会因样本的不同而变化,而且不是所有的区间都包含总体参数。
一个特定的区间总是“包含”和“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。
置信水平知识告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。
(2)使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确的区间,
2.2 总体均值的区间估计:σ未知
2.3 样本容量确定
令E代表希望达到的边际误差
得到下面的结论
总体均值区间估计中的样本容量
σ已知,直接用上面的式子计算。
σ未知,橘历可以根据以下任一方法确定:
(1)根据以前研究中的数据计算总体标准差的估计值作圆尘搜为σ的计划值
(2)利用实验研究,选取一个初始样本,以初始样本的标准差作为σ的计划值。
2.4 总结
在绝大部分应用中n≥30已经够大。如果总体服从或者近似服从正态分布,可以利用更小的样本容量。
对于σ未知,如果总体的分布严重偏斜或者包含异常点,将样本容量增加到n≥50。
3. 总体比率的区间估计
3.1 总体比率的区间估计
3.2 样本容量的确定
令E代表希望达到的边际误差
得到下面的结论
总体比率区间估计中的样本容量
可选择如下方法确定计划值p*
(1)用以前相同或类似样本的样本比率代替
(2)利用实验性研究,选取一个初始样本,以该样本的样本比率作为计划值
(3)使用判断或最优猜测作为计划值
(4)如果上述方法均不适用,则去计划值p*=0.5
5. 统计学题目——总体比例区间估计的
置空举信区间敬亏梁为(亮运0.1618,0.2382)
6. 统计学第四课:参数估计
参数估计是在样本统计量概率分布的基础上,根据样本信息,推断总体参数。总体参数用θ表示,用于估计参数的统计量用θ上加一个 ^ 表示,θ^也称为 估计量 ,根据一个具体的样本计算出来的估计量的数值成为 估计值 。
方法有两种:点估计、区间估计。
点估计指的是用估计量的某个取值,作为总体参数θ的估计值。比如用样本均值作为总体均值的估计值,用样本比例作为总体比例的估计值等等。再比如,某个产品的样本良品率是97%,将97%作为这一批产品的良品率。
所以你可以看到,点估计的估计可靠性一般,因为依赖于估计量的可靠性,估计量的可靠性是有其抽样分布的标准误来衡量的。这么一来,无法说出点估计值与总体参数的真实值接近程度,我们就需要找其他的解决办法,比如围绕估计值构造一个总体参数的区间。
区间估计是在点估计的基础上得到总体参数的一个估计区间,通常区间是由样本统计量±估计误差得来。进行区间估计时,根据样本梁乱统计量的抽样分布,可以对统计量与筒体参数的接近程度给出一个概率度量。
实际情况,样本均值已知总体均值未知,我们求的就是总体均值。可以理解为,总体均值在样本均值的两侧对称分布,所吵渣孝以我们可以利用标准误估计总体均值在多少个标准误内可以作为总体均值的置信区间。
置信区间说的就是,在区间估计中,由于样本估计量构造出的总体参数在一定置信水平下的估计区间。其中最小值成为区间下限,最大值成为区间上限。我们有哪个百分数将区间划分成100份,95%称为置信水平(也就是距离样本均值±1.96个标准误的距离),在这个置信区间中包含总体参数真值次数所占的比例是置信水平,或成为置信度、置信系数。
-置信区间告诉我们在多次估计得到的区间中,大概有多少个区间包含参数的真值;
-实际运用中过宽的区间意义不大,过窄区间容易漏掉真值;
总体参数真值固定,样本区间数量不固定;
用于估计总体参数的估计量θ^有很多,什么样的估计量算比较好的呢?
无偏性说的是:估计量抽样分布的期望值=被估计的总体参数。现在有所选估计量的θ^, 总体参数θ,如果E(θ^ )=θ,则θ^是θ的无偏估计量。
有效性指的是估计量的方差大小。表示了估计量接近总体参数的程度,同一个总体的无偏估计量有非常多个,离散最小的则是最好的。
【例】
从均值为0、方差为1的总体抽取10000个样本量为10的样本:
1)计算样本均值方差和样本中位数方差;
2)进行无偏性和有效性度量模拟;
通过上面的例子的结果可以看出:
通过上面的例子的结果可以看出:
一致性指的是随着样本量无限增大,统计量会最终收敛于所估总体的参数内。也就是说,大样本的估计量更加接近总体参数。
通过上面的例子的结果可以看出:
研究总体时,推断总体均值的统计量就是样本均值,研究两个总体时,关心的参数是两个总体均值的差值,用于推断的统计量则是两个样本的均值之差。
在对一个总体均值进行区间升稿估计时,需要考虑抽取样本的总体是否是正态分布、总体方差是否已知、用于估计的样本是否为大样本(n≥30)还是小样本。
总体均值的置信区间都是由样本均值甲减估计误差得到的。所以估计误差有两部分组成:点估计的标准误、估计所要求的的置信水平为(1-α)时,统计量分布两侧面积各位α/2时的分位数值。因此,总体均值在(1-α)置信水平下的置信区间可以表达为:
样本均值 ±(分位数 * 样本均值的标准误)
由中心极限定理可知,样本均值近似服从期望值为μ,方差为σ^2/n的正态分布。样本均值标准化后得服从标准正态分布,z=(x拔-μ)/(σ/开方n)~N(0,1)。
若总体标准差σ已知,标准化时使用σ;
若σ未知,则用样本标准差s代替。
因此,可以有正态分布构建总体均值在(1-α)置信水平下的置信区间为:
当总体方差未知时,上述公式的σ替换成s,这是总体均值μ在(1-α)置信水平下的置信区间为:
在小样本情形下(n<30),对总体均值的估计都是建立在总体服从正态分布的假设前提下。
设有两个总体均值μ1、μ2。从两个总体中分别抽取样本量为n1、n2的两个随机样本。均值为x1拔、x2拔。
估计两个总体均值之差的点估计量显然是两个样本的均值之差,也就是(μ1-μ2)=(x1拔-x2拔)
估计原理与一个总体均值的区间估计类似。两个总体均值之差在(1-α)的置信水平下的置信区间可以表示为:
如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,这就是 独立样本 。
如果两个样本都为大样本,那么两个样本均值之差近似服从期望值为(μ1-μ2)、方差为(σ1^ 2/n1+σ2^ 2/n2)的正态分布,两个样本均值之差经过标准化后侧服从标准正态分布:
【例】
研究男女的工资差异,选取男女工资各40人的随机工资样本,建立男女平均工资之差的95%置信区间。
当两个样本都是独立小样本时,估计两个总体均值之差需要假设两个总体都服从正态分布。
【例】
如果有两组方法进行组装产品,分别记录同样的12个工人分别组装,得到两个方法各12个组装时间。假定组装时间都是服从正态分布的,计算:
1)如果两个总体方差相等,方法的样本均值差,在95%的置信区间是多少?
2)如果两个总体方差不等,方法的样本均值差,在90%的置信区间是多少?
用两个独立样本估计两个总体均值之差时有独立的弊端,比如偶尔会将某些不不好的参数抽样到一起,这时候,两个样本的对比会显得不公平。配对样本估计就是解决这类问题:也就是一个样本中的数据与两一个样本中的数据相对应,这样的数据通常是对同一个体所做的前后两次的测量。比如,前指定某10个人用第一种工具组装产品,再让这10个人用第二种工具组装产品,得到两种工具组装产品的总工时数据,这就是配对数据。
使用配对样本进行估计时,在大样本条件下,两个总体均值之差μd=μ1-μ2,在(1-α)置信水平下的置信区间为:
其中,d表示两个配对数据的差值,d拔表示个差值的均值,σd表示各个差值的标准差,当总体σd未知时,可用样本差值sˇd来替代。
在小样本情形下,假定两个总体各观察值的配对差服从正态分布,两个总体均值之差μd=μ1-μ2,在(1-α)置信水平下的置信区间为:
两个总体之差的估计需要考虑样本来那个的大虾,如果两个样本量都非常大,可以采用传统的估计方法,如果两个样本量是中等大小或者比较小,,需要对样本量和实验成功次数做出修正以改进估计的区间。
两个总体比例之差的区间估计原理与一个总体比例的区间估计相同。
估计中体方差是,首先假定总体服从正态分布,其原理与总体均值和总体比例的区间估计不同,不再是点估计量±估计误差。因为样本方差的抽样分布服从自由度为(n-1)的x^2 分布构造总体方差的置信区间,由于x^2不是对称分布,无法由点估计值±估计误差的大总体方差的置信区间。
比较两个总体方差的问题,一般由于两个样本店额方差服从了F(n1-1,n2-1)分布,因此可以用F分布来构造两个总体方差比的置信区间。
7. 【高分】求李沛良《社会研究的统计应用》计算题及答案,要详细解答过程。
上位机CAN卡到是经常出问题。。。。。最后发现,当CAN—L和CAN—H短路后,can卡就失灵了
8. 抽样平均误差的详解
抽样推断的一般概念
抽样推断是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性作出具有一定可靠程度的估计判断。抽样推断具有这些特点: 它是由部分推算整体的一种认识方法;它是建立在随机取样的基础上。它是运用概率估计的方法;抽样推断的误差可以事先计算并加以控制。
抽样推断的主要内容为:参数估计和假设检验 。
抽样的基本概念
1、全及总体和样本总体
全及总体是我们所要研究的对象,而样本总体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写英文字母n来表示。随着样本容量的增大,样本对总体的代表性越来越高,并且当样本单位数足够多时,样本平均数愈接近总体平均数。
如果说对于一次抽样调查,全及总体是唯一确定的,那么样本总体就不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。
2、全及指标和抽样指标
根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为全及指标。常用的全及指标有总体平均数(或总体成数)、总体标准差(或总体方差 )。
由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标称为统计量(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差 )。
对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。
3、样本容量和样本个数
样本容量是指一个样本所包含的单位数。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。
4、重复抽样和不重复抽样
抽样误差
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。因此,又
称为随机误差,它不包括登记误差,也不包括系统性误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。
1、抽样平均误差。抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。平均误差大,说明样本指标对总体指标的代表性低;反之,则迹塌高 。
2、抽样极限误差。抽样极限则说明样本指标对总体指标的代表性高。其次,平均误差还说明样本指标与总体指标差别的一般范围。这个范围实际上就是抽样极限误差。
抽样平均误差的计算:
重复抽样:
不重复抽样: 误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。它是由抽样指标变动可允许伏州带的上限或下限与总体指标之差的绝对值求得的。
由于总体平均数和总体成数是未知的,它要靠实测的抽样平均数成数来估计。因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内。
基于理论上的要求,抽样极限误差需要用抽样平均误差 或 为标准单位来衡量。即把极限误差 △x或 △p相应除以 或 ,得出相对的误差程度t倍,t称为抽样误差的概率度。于是有:
抽样估计方法
抽样估计缺芦就是利用实际调查计算的样本指标值来估计相应的总体指标数值。抽样估计有点估计和区间估计两种
参数点估计的基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。点估计的优良标准是无偏性、一致性和有效性。
抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率有多大。
参数区间估计的基本特点:
根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。
总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。总体参数区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。
区间估计的内容包括总体平均数和总体成数的估计。
例1、某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下: 考试成绩 学生人数 60以下 10 60-70 20 70-80 22 80-90 40 90-100 8 试以95.45%的可靠性估计该校学生英语考试的平均成绩的范围及该校学生成绩在80分以上的学生所占的比重的范围。
解:(1)该校学生英语考试的平均成绩的范围:
σ=11.377
△x = tμx=2×1.1377=2.2754
该校学生考试的平均成绩的区间范围是:
x - △x≤X≤ x+△x
76.6-2.2754≤X≤76.6+2.2754
74.32≤X≤78.89
(2)该校学生成绩在80分以上的学生所占的比重的范围
△p=tμp=2×0.04996=0.09992
80分以上学生所占的比重的范围:
P=p±△p=0.48±0.09992
0.3801≤P≤0.5799
在95.45%概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%—57.99%之间。
这是在简单抽样条件下进行区间估计的例题。从上面的解法中,我们可以总结出这一类计算题的基本做法:先计算出样本指标,然后根据所给条件(重复抽样或不重复抽样)进行抽样平均误差的计算,抽样极限误差的计算,最后根据样本指标和极限误差进行区间估计。
例2、从某年级学生中按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为78.75分,样本标准差为12.13分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?
解:n=40 x=78.56 σ=12.13 t=2
(1)
μx=12.13/sqrt(40)=1.92
△x = tμx=2×1.92=3.84
全年级学生考试成绩的区间范围是:
x - △x≤X≤ x+△x
78.56-3.84≤X≤78.56+3.84
74.91≤X≤82.59
(2)将误差缩小一半,应抽取的学生数为: (人)
n=(12.13*2/1.92)^2=160
抽样组织形式
常用的抽样组织形式有:简单随机抽样、类型抽样、等距抽样和整群抽样。
通俗的讲抽样误差就是指样本指标与全及总体指标之间的绝对误差。在进行抽样检查时不可避免会产生抽样误差,因为从总体中随机抽取的样本,其结构不可能和总体完全一致。例如样本平均数与总体平均数之差| x − X |(注:x与X上都还有一横代表平均数,这里打不出来),样本成数与总体成数之差 | p − P | 。虽然抽样误差不可避免,但可以运用大数定律的数学公式加以精确地计算,确定它具体的数量界限,并可通过抽样设计加以控制。
9. 如何在SPSS中实现总体方差的区间估计
问该高校英语水平与全省大学生是否基本一致?设α=0.05
♦ 打开SPSS,建立数据文件:“大学生四级英语测验桐简卖.sav”咐逗。这里,研究变量为:
分数。
♦ 选择区间局逗估计选项,方法如下: 选择菜单【分析】—>【描述统计】—>【探
索】” ,打开【探索】对话框。