『壹』 標化率怎麼算
率的標准化法,就是在一個指定的標准構成條件下進行率的對比的方法。當我們對兩個頻率指標進行比較時,應該注意這兩組(或兩組以上)對象內部構成是否存在差別足以影響分析結果,如果存在的話,可應用標准化法加以校正。這種經標准化校正後的率,稱為標准化率,簡稱標化率(standardized rate)。率的標准化法有直接法的間接法。試以年齡別的標准化法介紹如下。
表20-3 某年甲乙兩廠石棉工的石棉肺發病比較
年齡組(歲) 甲廠 乙廠
接觸人數 病人數 發病率(‰) 接觸人數 病人數 發病率(‰)
<45 400 4 10.0 800 10 12.5
≥45 600 18 30.0 200 10 50.0
合計 1000 22 22.0 1000 20 20.0
如果觀察人群中各組年齡別發病(或死亡)率已知,計算時就利用一組標准人口構成比來調整,求出標化率。現以表20-3資料示範演算:
該表資料若按年齡分組比較,則甲廠的兩組年齡別發病率均低於乙廠,但是總發病率(合計)卻高於乙廠,顯然這是兩廠接觸粉塵作業工人年齡構成差異很大的原故,應該進行標化後再比較。具體步驟如下:
(一)將標准人口構成的各年齡組人數(本例題是以兩廠同年齡組人數相加作為共同標准構成)乘上原來相應年齡組的發病率,得出兩廠各年齡組按標准人口計算的預期發病數(見表20-4第4欄和第6欄)。
(二)分別把各年齡組按標准人口計算的預期發病數相加,得出按標准人口計算的預期總發病人數,再除以標准總人口數,即得標化發病率。
表20-4 甲乙兩廠石棉肺發病率標化演算和比較
年齡組(歲)(1) 標准人口數(2) 甲廠 乙廠
發病率(‰)(3) 預期發病數(4)=(2)(3) 發病率(‰)(5) 預期發病數(6)=(2)(5)
<45 1200 10.0 12 12.5 15
≥45 800 30.0 24 50.0 40
合計 2000 18.0* 36 27.5* 55
*甲廠標化發病率:36/2000×1000‰=18.0‰
**乙廠標化發病率:55/2000×1000‰=27.5‰
通過上述直接法標化後,消除了兩廠人口年齡構成差別的影響,得出甲廠石棉肺標化發病率比乙廠低,這就和原來的年齡別發病率的比較一致了。
二、間接法
如果在觀察人群中,不知道各年齡組的發病(或死亡)率,而是利用標准人口的年齡別率與觀察人群中相對年齡組人數相乘,求出年齡組預期發病(或死亡)人數的總的預期數,再與實際數相比,得出標化發病(或死亡)比[(standardized incidence ratio,SIR)或(standardized mortality ratio,SMR)];最後乘以標准人口總發病(或總死亡)率,得出該人群的標化發病(或死亡)率。該計演算法就稱間接法。其計算式為:
標化發病比(SIR)=實際觀察發病人數/預期發病人數
或 標化死亡比(SMR)=實際觀察死亡人數/預期死亡人數 公式(20.4a)
或 標化發病率=標准人口發病率×SIR
標化死亡率=標准人口發病率×SMr 公式(20.4b)
現仍以上述資料為例。設作者僅查得某年甲廠新發石棉肺22例,乙廠20例,並查明兩廠原健康接觸粉塵工人的年齡構成,但各年齡組的發病率不明,只好採用間接法求標化率。設已知全省石棉工業中,<45歲石棉工人石棉肺發病率為1‰,45歲及以上者發病率為2‰;總發病率為1.5‰,將此資料作為標准人口發病率以推算甲、乙兩廠預期發病數,間接推算兩廠標化發病率。詳見表20-5和計算步驟如下。
表20-5 甲乙兩廠石棉工年齡標化發病率比較
年齡組(歲)(1) 標准人口發病率(‰) 甲廠 乙廠
接觸人數(3) 預期發病數(4)=(2)×(3) 發病率(‰)(5) 預期發病數(6)=(2)×(5)
<45 1.0 400 0.4 800 0.8
≥45 2.0 600 1.2 200 0.4
合計 1.5 1000 1.6 1000 1.2
(一)推算各年齡組預期發病數[上表:(4)=(2)×(3),(6)=(2)×(5)]。如
甲廠<45歲組預期發病數=1‰×400=0.4
乙廠<45歲組預期發病數=1‰×800=0.8
余類推,並合計得甲廠預期發病人數為0.4+1.2=1.6
乙廠預期發病人數為0.8+0.4=1.2
(二)推算標化發病比(SIR),按公式(20.4a)
甲廠石棉肺標化發病比=22/1.6=13.8
乙廠石棉標化發病比=20/1.2=16.7
(三)推算標化發病率,按公式(20.4b)
甲廠石棉肺標化發病率=1.5 ‰×13.8=20.7‰
乙廠石棉肺標化發病率=1.5‰×16.7=25.05‰
從上述資料可以看出,不同標准化演算結果有所不同,但其趨勢是一致的。如本例用兩種標准分法算得的標化率,都是甲廠低乙廠。比較如表20-6。
至於選用那種標化法較好,主要決定於手頭掌握資料的情況而定。一般認為直接法是以標准人群年齡中別人數為基準,分母大,所以比較穩定;而間接法用的是標准人群年齡別的發病率,分母是各廠的接觸人數,數量相對少而不穩定。
表20-6 不同計演算法的標化率比較
單位 粗發病率(‰) 直接法標化率(‰) 間接法標化率(‰)
甲廠 18.0 18.0 20.7
乙廠 20.0 27.5 25.1
三、標準的選擇
選擇一個標准構成的原則一般是:
(一)可以另選一具有代表性、內部構成相對穩定的較大人群作為構成標准。例如應用全國人口普查算得的人口構成為標准(包括年齡構成或年齡別死亡率等)。
(二)可以將兩組資料內部構成的各相應小組人數相加,成為兩組共同標准。上述兩廠比較就陽用此法構成標准。
(三)可以任選要比較的兩組資料中任何一組的內部構成,作為兩組的共同標准。
一般大面積的流行病學調查,常選用全國人口或全省(區)人口構成作為標准。舉例示範如下:
例20.4某研究單位比較甲、乙兩縣食管癌死亡率如表20-7。
表20-7 甲乙兩縣食管癌死亡率(1/10萬)比較
年齡(歲) 甲縣 乙縣
人口數(2) 人口構成比(3) 食管癌死亡率(4) 食管癌死亡率(5) 人口數(6) 人口構成比(7) 食管癌死亡數(8) 食管癌死亡率(9)
0~ 378977 0.6589 2 0.5 282762 0.6520 1 0.4
30~ 63436 0.1103 11 17.3 39443 0.0909 4 10.1
40~ 54910 0.0955 55 100.2 40488 0.0934 29 71.6
50~ 41970 0.0730 151 359.8 33309 0.0768 99 297.2
60~ 25060 0.0436 163 650.4 23167 0.0534 122 526.6
70~ 10780 0.0187 70 649.4 14548 0.0335 98 673.6
合計 575133 1.0000 452 78.6 433717 1.0000 353 81.4
資料中乙縣食管癌粗死亡率(81.4/10萬)高於甲縣(78.6/10萬);但從年齡別死亡率看,甲縣多數都高於乙縣;而兩縣人口的年齡構成很不一致,應該進行標化後再評比。因以上資料已知年齡組的食管癌粗死亡率,故可採取直接法進行標化。作者以我國1964年第二次人口普查結果的年齡構成比作為標准,計算如表20-8。
下面摘錄1982年整理的全國1981年人口普查的人口構成表,提供標化參考(表20-9)。
標化率可以糾正因兩組資料的內部構成不同算出的粗率可能產生的錯覺;然而要了解這兩個標化率之間的差別是否有顯著意義,還應考慮抽樣誤差問題和進行差別的顯著性檢驗。直接法標化時,可應用「內部構成不同的兩個率的差別顯著性檢驗」中加權x2檢驗法(Cochran法)的原理。讀者可參考預防醫學專業用的醫學統計方法教材。
表20-8 應用標准人口構成比推算標准化食管癌死亡率(1/10萬)
組數(i)(1) 年齡(歲)(2) 標准人口構成比(Ni/N)(3) 甲縣 乙縣
原食管癌死亡率(P1)(4) 分配食管癌死亡率(Ni/N×Pi)(5)=(3)(4) 原食管癌死亡率(P1)(6) 分配食管癌死亡率(Ni/N×Pi)(7)=(3)(6)
1 0~ 0.6559 0.5 0.3 0.4 0.3
2 30~ 0.1020 17.3 1.8 10.1 1.0
3 40~ 0.0946 100.2 9.5 71.6 6.8
4 50~ 0.0746 359.8 26.8 297.2 22.2
5 60~ 0.0478 650.4 31.1 526.6 25.2
6 70~ 0.0251 649.4 16.3 673.6 16.9
合計 1.0000 — 85.8 — 72.4
*該例計演算法已將標准人口年齡構成化成構成比,乘以原相應的食管癌死亡率後,即得各年齡組的分配食管癌死亡率
表20-9 1981年我國人口年齡、性別構成(%)
年齡組(歲) 男 女 合計
0~ 4.879 4.554 9.433
5~ 5.681 5.350 11.031
10~ 6.758 6.372 13.130
15~ 6.355 6.132 12.487
20~ 3.773 3.634 7.407
25~ 4.756 4.464 9.220
30~ 3.778 3.489 7.267
35~ 2.846 2.556 5.402
40~ 2.573 2.252 4.825
45~ 2.497 2.224 4.721
50~ 2.145 1.921 4.066
55~ 1.742 1.634 3.376
60~ 1.366 1.360 2.726
66~ 1.013 1.105 2.118
70~ 0.640 0.788 1.428
75~ 0.349 0.510 0.859
80及以上 0.175 0.328 0.503
合計 51.326 48.673 100.00
『貳』 數據標准化的幾種方法
在數據分析之前,我們通常需要先將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標准化
min-max標准化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標准化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標准化
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x'。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標准差
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。步驟如下:1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;2.進行標准化處理:zij=(xij-xi)/si其中:zij為標准化後的變數值;xij為實際變數值。3.將逆指標前的正負號對調。標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
三、Decimal scaling小數定標標准化
這種方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標准化到x'的計算方法是:
x'=x/(10^j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被規范化為-0.986。
注意,標准化會對原始數據做出改變,因此需要保存所使用的標准化方法的參數,以便對後續的數據進行統一的標准化。
除了上面提到的數據標准化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據
『叄』 常見的數據標准化方法和其公式以及優缺點
一、直線型無量綱化方法:又包括閥值法、指數法、標准化方法、比重法。二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法。三、曲線型無量綱化方法 。目前常見的無量綱化處理方法主要有極值化、標准化、均值化以及標准差化方法,而最常使用的是標准化方法。但標准化方法處理後的各指標均值都為0,標准差都為1,它只反映了各指標之間的相互影響,在無量綱化的同時也抹殺了各指標之間變異程度上的差異,因此,標准化方法並不適用於多指標的綜合評價中。而經過均值化方法處理的各指標數據構成的協方差矩陣既可以反映原始數據中各指標變異程度上的差異,也包含各指標相互影響程度差異的信息。四、數據標准化的方法: 1、對變數的離差標准化離差標准化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。即 x』ik=[xik -Min (xk)]/Rk 經過離差標准化後,各種變數的觀察值的數值范圍都將在〔0,1〕之間,並且經標准化的數據都是沒有單位的純數量。離差標准化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。 有一些關系系數(例如絕對值指數尺度)在定義時就已經要求對數據進行離差標准化,但有些關系系數的計算公式卻沒有這樣要求,當選用這類關系系數前,不妨先對數據進行標准化,看看分析的結果是否為有意義的變化。 2,對變數的標准差標准化標准差標准化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 經過標准差標准化後,各變數將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的平均數為0,標准差為1。經標准化的數據都是沒有單位的純數量。對變數進行的標准差標准化可以消除量綱(單位)影響和變數自身變異的影響。但有人認為經過這種標准化後,原來數值較大的的觀察值對分類結果的影響仍然占明顯的優勢,應該進一步消除大小因子的影響。盡管如此,它還是當前用得最多的數據標准化方法。 3,先對事例進行標准差標准化,再對變數進行標准差標准化第一步,先對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』ik = (xik - )/si 第二步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』ik = (x』ik - 』k)/s』k 使用這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。 4,先對變數、後對事例、再對變數的標准差標准化這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:第一步,先對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 第二步,後對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』』ik = (x』ik - 』i)/s』i 第三步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』』ik = (x』』ik - 』』k)/s』』k 進行了前兩步之後,還要進行第三步的原因,主要是為了計算的方便。
『肆』 01標准化公式
01標准化公式:
( 年齡 -16) / (78-16)
方法/步驟1:
我們以「用戶明細」數據為例進行介紹,對用戶的年齡進行 0-1 標准化計算處理,得到一個「標准化值」變數。
方法/步驟2:
打開「用戶明細.sav」數據文件,單擊【轉換】菜單,選擇【計算變數】,彈出【計算變數】對話框。
方法/步驟3:
在【計算變數】對話框中,在【數字表達式】框中輸入公式「( 年齡 -16) / (78-16)」,這樣就完成了公式的編寫
方法/步驟4:
在【目標變數】框中,輸入變數名稱「標准化值」,如圖 2-36 所示,並在【類型與標簽】功能中設置類型為「數值」,如圖 2-37 所示。單擊【繼續】按鈕,返回【計算變數】對話框,單擊【確定】按鈕,就新增了一個「標准化值」變數。
『伍』 什麼是率的標准化直接發和間接法是什麼
一、率的標准化
要比較兩個總率時,發現兩組資料的內部構成(如年齡、性別構成等)存在明顯不同,而且影響到了總率的結果,這時就不宜再直接比較總率,而應考慮採用標准化法.
標准化法的基本思想,就是採用統一的標准(統一的內部構成)醫學教育`網搜集整理計算出消除內部構成不同影響後的標准化率(調整率),然後再進行比較.
標准化率的主要計算方法有直接法和間接法兩種.
二、直接標准化法的計算方法
當已知所比較資料各組率Pi,可選用直接法計算標化率.
三、間接標准化死亡比的計算方法
當所比較的資料已知各自某現象總發生數r及各分組觀察單位數時,宜採用間接法計算標化率.
『陸』 數據標准化有幾種方法
方法一:規范化方法
也叫離差標准化,是對原始數據的線性變換,使結果映射到[0,1]區間。
方法二:正規化方法
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x』。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。
步驟如下:
1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;
2.進行標准化處理:
zij=(xij-xi)/si
其中:zij為標准化後的變數值;xij為實際變數值。
3.將逆指標前的正負號對調。
標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。