‘壹’ 标化率怎么算
率的标准化法,就是在一个指定的标准构成条件下进行率的对比的方法。当我们对两个频率指标进行比较时,应该注意这两组(或两组以上)对象内部构成是否存在差别足以影响分析结果,如果存在的话,可应用标准化法加以校正。这种经标准化校正后的率,称为标准化率,简称标化率(standardized rate)。率的标准化法有直接法的间接法。试以年龄别的标准化法介绍如下。
表20-3 某年甲乙两厂石棉工的石棉肺发病比较
年龄组(岁) 甲厂 乙厂
接触人数 病人数 发病率(‰) 接触人数 病人数 发病率(‰)
<45 400 4 10.0 800 10 12.5
≥45 600 18 30.0 200 10 50.0
合计 1000 22 22.0 1000 20 20.0
如果观察人群中各组年龄别发病(或死亡)率已知,计算时就利用一组标准人口构成比来调整,求出标化率。现以表20-3资料示范演算:
该表资料若按年龄分组比较,则甲厂的两组年龄别发病率均低于乙厂,但是总发病率(合计)却高于乙厂,显然这是两厂接触粉尘作业工人年龄构成差异很大的原故,应该进行标化后再比较。具体步骤如下:
(一)将标准人口构成的各年龄组人数(本例题是以两厂同年龄组人数相加作为共同标准构成)乘上原来相应年龄组的发病率,得出两厂各年龄组按标准人口计算的预期发病数(见表20-4第4栏和第6栏)。
(二)分别把各年龄组按标准人口计算的预期发病数相加,得出按标准人口计算的预期总发病人数,再除以标准总人口数,即得标化发病率。
表20-4 甲乙两厂石棉肺发病率标化演算和比较
年龄组(岁)(1) 标准人口数(2) 甲厂 乙厂
发病率(‰)(3) 预期发病数(4)=(2)(3) 发病率(‰)(5) 预期发病数(6)=(2)(5)
<45 1200 10.0 12 12.5 15
≥45 800 30.0 24 50.0 40
合计 2000 18.0* 36 27.5* 55
*甲厂标化发病率:36/2000×1000‰=18.0‰
**乙厂标化发病率:55/2000×1000‰=27.5‰
通过上述直接法标化后,消除了两厂人口年龄构成差别的影响,得出甲厂石棉肺标化发病率比乙厂低,这就和原来的年龄别发病率的比较一致了。
二、间接法
如果在观察人群中,不知道各年龄组的发病(或死亡)率,而是利用标准人口的年龄别率与观察人群中相对年龄组人数相乘,求出年龄组预期发病(或死亡)人数的总的预期数,再与实际数相比,得出标化发病(或死亡)比[(standardized incidence ratio,SIR)或(standardized mortality ratio,SMR)];最后乘以标准人口总发病(或总死亡)率,得出该人群的标化发病(或死亡)率。该计算法就称间接法。其计算式为:
标化发病比(SIR)=实际观察发病人数/预期发病人数
或 标化死亡比(SMR)=实际观察死亡人数/预期死亡人数 公式(20.4a)
或 标化发病率=标准人口发病率×SIR
标化死亡率=标准人口发病率×SMr 公式(20.4b)
现仍以上述资料为例。设作者仅查得某年甲厂新发石棉肺22例,乙厂20例,并查明两厂原健康接触粉尘工人的年龄构成,但各年龄组的发病率不明,只好采用间接法求标化率。设已知全省石棉工业中,<45岁石棉工人石棉肺发病率为1‰,45岁及以上者发病率为2‰;总发病率为1.5‰,将此资料作为标准人口发病率以推算甲、乙两厂预期发病数,间接推算两厂标化发病率。详见表20-5和计算步骤如下。
表20-5 甲乙两厂石棉工年龄标化发病率比较
年龄组(岁)(1) 标准人口发病率(‰) 甲厂 乙厂
接触人数(3) 预期发病数(4)=(2)×(3) 发病率(‰)(5) 预期发病数(6)=(2)×(5)
<45 1.0 400 0.4 800 0.8
≥45 2.0 600 1.2 200 0.4
合计 1.5 1000 1.6 1000 1.2
(一)推算各年龄组预期发病数[上表:(4)=(2)×(3),(6)=(2)×(5)]。如
甲厂<45岁组预期发病数=1‰×400=0.4
乙厂<45岁组预期发病数=1‰×800=0.8
余类推,并合计得甲厂预期发病人数为0.4+1.2=1.6
乙厂预期发病人数为0.8+0.4=1.2
(二)推算标化发病比(SIR),按公式(20.4a)
甲厂石棉肺标化发病比=22/1.6=13.8
乙厂石棉标化发病比=20/1.2=16.7
(三)推算标化发病率,按公式(20.4b)
甲厂石棉肺标化发病率=1.5 ‰×13.8=20.7‰
乙厂石棉肺标化发病率=1.5‰×16.7=25.05‰
从上述资料可以看出,不同标准化演算结果有所不同,但其趋势是一致的。如本例用两种标准分法算得的标化率,都是甲厂低乙厂。比较如表20-6。
至于选用那种标化法较好,主要决定于手头掌握资料的情况而定。一般认为直接法是以标准人群年龄中别人数为基准,分母大,所以比较稳定;而间接法用的是标准人群年龄别的发病率,分母是各厂的接触人数,数量相对少而不稳定。
表20-6 不同计算法的标化率比较
单位 粗发病率(‰) 直接法标化率(‰) 间接法标化率(‰)
甲厂 18.0 18.0 20.7
乙厂 20.0 27.5 25.1
三、标准的选择
选择一个标准构成的原则一般是:
(一)可以另选一具有代表性、内部构成相对稳定的较大人群作为构成标准。例如应用全国人口普查算得的人口构成为标准(包括年龄构成或年龄别死亡率等)。
(二)可以将两组资料内部构成的各相应小组人数相加,成为两组共同标准。上述两厂比较就阳用此法构成标准。
(三)可以任选要比较的两组资料中任何一组的内部构成,作为两组的共同标准。
一般大面积的流行病学调查,常选用全国人口或全省(区)人口构成作为标准。举例示范如下:
例20.4某研究单位比较甲、乙两县食管癌死亡率如表20-7。
表20-7 甲乙两县食管癌死亡率(1/10万)比较
年龄(岁) 甲县 乙县
人口数(2) 人口构成比(3) 食管癌死亡率(4) 食管癌死亡率(5) 人口数(6) 人口构成比(7) 食管癌死亡数(8) 食管癌死亡率(9)
0~ 378977 0.6589 2 0.5 282762 0.6520 1 0.4
30~ 63436 0.1103 11 17.3 39443 0.0909 4 10.1
40~ 54910 0.0955 55 100.2 40488 0.0934 29 71.6
50~ 41970 0.0730 151 359.8 33309 0.0768 99 297.2
60~ 25060 0.0436 163 650.4 23167 0.0534 122 526.6
70~ 10780 0.0187 70 649.4 14548 0.0335 98 673.6
合计 575133 1.0000 452 78.6 433717 1.0000 353 81.4
资料中乙县食管癌粗死亡率(81.4/10万)高于甲县(78.6/10万);但从年龄别死亡率看,甲县多数都高于乙县;而两县人口的年龄构成很不一致,应该进行标化后再评比。因以上资料已知年龄组的食管癌粗死亡率,故可采取直接法进行标化。作者以我国1964年第二次人口普查结果的年龄构成比作为标准,计算如表20-8。
下面摘录1982年整理的全国1981年人口普查的人口构成表,提供标化参考(表20-9)。
标化率可以纠正因两组资料的内部构成不同算出的粗率可能产生的错觉;然而要了解这两个标化率之间的差别是否有显着意义,还应考虑抽样误差问题和进行差别的显着性检验。直接法标化时,可应用“内部构成不同的两个率的差别显着性检验”中加权x2检验法(Cochran法)的原理。读者可参考预防医学专业用的医学统计方法教材。
表20-8 应用标准人口构成比推算标准化食管癌死亡率(1/10万)
组数(i)(1) 年龄(岁)(2) 标准人口构成比(Ni/N)(3) 甲县 乙县
原食管癌死亡率(P1)(4) 分配食管癌死亡率(Ni/N×Pi)(5)=(3)(4) 原食管癌死亡率(P1)(6) 分配食管癌死亡率(Ni/N×Pi)(7)=(3)(6)
1 0~ 0.6559 0.5 0.3 0.4 0.3
2 30~ 0.1020 17.3 1.8 10.1 1.0
3 40~ 0.0946 100.2 9.5 71.6 6.8
4 50~ 0.0746 359.8 26.8 297.2 22.2
5 60~ 0.0478 650.4 31.1 526.6 25.2
6 70~ 0.0251 649.4 16.3 673.6 16.9
合计 1.0000 — 85.8 — 72.4
*该例计算法已将标准人口年龄构成化成构成比,乘以原相应的食管癌死亡率后,即得各年龄组的分配食管癌死亡率
表20-9 1981年我国人口年龄、性别构成(%)
年龄组(岁) 男 女 合计
0~ 4.879 4.554 9.433
5~ 5.681 5.350 11.031
10~ 6.758 6.372 13.130
15~ 6.355 6.132 12.487
20~ 3.773 3.634 7.407
25~ 4.756 4.464 9.220
30~ 3.778 3.489 7.267
35~ 2.846 2.556 5.402
40~ 2.573 2.252 4.825
45~ 2.497 2.224 4.721
50~ 2.145 1.921 4.066
55~ 1.742 1.634 3.376
60~ 1.366 1.360 2.726
66~ 1.013 1.105 2.118
70~ 0.640 0.788 1.428
75~ 0.349 0.510 0.859
80及以上 0.175 0.328 0.503
合计 51.326 48.673 100.00
‘贰’ 数据标准化的几种方法
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
一、Min-max 标准化
min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为:
新数据=(原数据-极小值)/(极大值-极小值)
二、z-score 标准化
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。
z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
spss默认的标准化方法就是z-score标准化。
用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。步骤如下:1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;2.进行标准化处理:zij=(xij-xi)/si其中:zij为标准化后的变量值;xij为实际变量值。3.将逆指标前的正负号对调。标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、Decimal scaling小数定标标准化
这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:
x'=x/(10^j)
其中,j是满足条件的最小整数。
例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。
注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。
除了上面提到的数据标准化外还有对数Logistic模式、模糊量化模式等等:
对数Logistic模式:新数据=1/(1+e^(-原数据))
模糊量化模式:新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ] X为原数据
‘叁’ 常见的数据标准化方法和其公式以及优缺点
一、直线型无量纲化方法:又包括阀值法、指数法、标准化方法、比重法。二、折线型无量纲化方法:凸折线型法、凹折线型法、三折线型法。三、曲线型无量纲化方法 。目前常见的无量纲化处理方法主要有极值化、标准化、均值化以及标准差化方法,而最常使用的是标准化方法。但标准化方法处理后的各指标均值都为0,标准差都为1,它只反映了各指标之间的相互影响,在无量纲化的同时也抹杀了各指标之间变异程度上的差异,因此,标准化方法并不适用于多指标的综合评价中。而经过均值化方法处理的各指标数据构成的协方差矩阵既可以反映原始数据中各指标变异程度上的差异,也包含各指标相互影响程度差异的信息。四、数据标准化的方法: 1、对变量的离差标准化离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即 x’ik=[xik -Min (xk)]/Rk 经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。 有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。 2,对变量的标准差标准化标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ik = (xik - )/sk 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。 3,先对事例进行标准差标准化,再对变量进行标准差标准化第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即 x’ik = (xik - )/si 第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’’ik = (x’ik - ’k)/s’k 使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。 4,先对变量、后对事例、再对变量的标准差标准化这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ik = (xik - )/sk 第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即 x’’ik = (x’ik - ’i)/s’i 第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’’’ik = (x’’ik - ’’k)/s’’k 进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。
‘肆’ 01标准化公式
01标准化公式:
( 年龄 -16) / (78-16)
方法/步骤1:
我们以“用户明细”数据为例进行介绍,对用户的年龄进行 0-1 标准化计算处理,得到一个“标准化值”变量。
方法/步骤2:
打开“用户明细.sav”数据文件,单击【转换】菜单,选择【计算变量】,弹出【计算变量】对话框。
方法/步骤3:
在【计算变量】对话框中,在【数字表达式】框中输入公式“( 年龄 -16) / (78-16)”,这样就完成了公式的编写
方法/步骤4:
在【目标变量】框中,输入变量名称“标准化值”,如图 2-36 所示,并在【类型与标签】功能中设置类型为“数值”,如图 2-37 所示。单击【继续】按钮,返回【计算变量】对话框,单击【确定】按钮,就新增了一个“标准化值”变量。
‘伍’ 什么是率的标准化直接发和间接法是什么
一、率的标准化
要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法.
标准化法的基本思想,就是采用统一的标准(统一的内部构成)医学教育`网搜集整理计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较.
标准化率的主要计算方法有直接法和间接法两种.
二、直接标准化法的计算方法
当已知所比较资料各组率Pi,可选用直接法计算标化率.
三、间接标准化死亡比的计算方法
当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率.
‘陆’ 数据标准化有几种方法
方法一:规范化方法
也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。
方法二:正规化方法
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
spss默认的标准化方法就是z-score标准化。
用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。