『壹』 生存曲線(三):統計分析方法這么多,到底選哪個
前面花了兩期內容,討論了如何使用軟體(包括GraphPad Prism、SPSS和Origin)繪制生存曲線。
生存曲線只是數據呈現的方式之一,其核心必須是統計結果。涉及統計,就不可避免地需要選擇使用哪種統計方法。有時,你的數據沒有統計意義,還真得回頭看看統計方法是否選擇正確了。
打開SPSS統計軟體,錄好數據後,點擊生存分析,我們會發現軟體中有4種可供使用的統計方法,此時到底該選擇哪個呢?
本期主要以SPSS統計分析為例進行討論,畢竟這個屬於專業的統計軟體,更加全面。
① 壽命表法
SPSS軟體官方解釋是這樣描述的: 用從每個區間估計的概率估計在不同時間點發生該事件的整體概率。 「壽命表的基本概念是將觀察區間劃分為較小的時間區間。對於每個區間,使用所有觀察至少該時長的人員計算該區間內發生終端事件的概率。 然後使用從每個區間估計的概率估計在不同時間點發生該事件的整體概率。」
上來就整這么一段話,估計打擊有點懵。
舉個例子。 假如一個臨床實驗需要隨訪2000人的生存時間(按月計算),此時會出現兩個問題。第一,我們很難做到及時、有效地隨訪每一位病人,不可能每個月都去問病人是否還活著?第二,如此大量的數據,我們在最終統計時,如果挨個錄入,費時費力,極易出錯。
別急,壽命表法為我們提供了有力幫助。
壽命表法本質是通過人為劃分時間區間的方式,以頻數方式呈現數據,採用加權法進行生存率分析的方法。注意, 此時的時間變數是不連續的。
例如上面的例子,我們可以人為劃分時間區間為3個月,那麼只要病人死亡發生在這個3個月內,都將其歸入此區間,極大地減輕了隨訪難度。同時,以頻數的方式呈現數據,無論多少個病人,只要其死亡時間在這個區間,頻數就是多少,不用再細分每個死亡患者的具體死亡時間,可降低整理數據的難度。
因此,壽命表法適用於臨床研究中的終點事件無法被有效、及時隨訪和大樣本數據的生存分析。
② Kaplan-Meier法(又稱乘積極限法)
SPSS官方解釋又說了: Kaplan-Meier法與壽命表法的關鍵區別在於時間變數為連續變數,狀態變數可以是分類變數或連續變數,因子和層次變數應為分類變數。
基於此,我們反推一下,可發現Kaplan-Meier法的要求需要時間變數為連續狀態,就是說需要我們獲取完整的、精確的生存資料。 Kaplan-Meier法本質是一個生存時間函數。
再舉個例子,動物實驗過程中,我們非常容易控制是動物數量、品系、性別的一致性,同時也冷非常准確及時地獲取動物生存時間。有時,前腳剛出動物房,管理員就來電話說動物死了,這效率,杠杠的。此外,動物實驗涉及的樣本量一般不會特別大,就算一組動物20隻,分5組,也才100隻。
因此,Kaplan-Meier法比較適合動物實驗這種小樣本量的、觀測記錄較為完整的數據類或者大樣本但未劃分時間段的數據。
③ Cox 回歸分析
SPSS官方解釋貼心指出: Cox 回歸數據分析時,其時間變數應是定量變數,但狀態變數可以是分類或連續變數。
Cox回歸分析本質是多因素分析,與之對應的上面的單因素分析(Kaplan-Meier法)。
理想狀態下,我們非常希望有且只有1個因素影響生存率,便於我們更好地評價治療作用。但現實往往不如人願。臨床研究中,經常會出現多個因素影響患者生存率,如果簡單地套用單因素分析法,非常容易得出錯誤的研究結論。因此,我們必須要做Cox回歸分析,充分評價觀測因素以外的其它因素在患者生存率上回帶來多大的影響。
舉個例子。 評價新葯和市售葯治療糖尿病時患者的生存率差異。我們都知道很多糖尿病患者都存在心梗、腦梗的風險,這些風險發生時均會導致患者死亡,必然影響我們最終的研究結論。此時即可採用Cox分析法。
重點來了。 盡管Cox回歸分析看起來很符合實際操作情況,但是Cox回歸分析也稱為 Cox 比例風險模型 。
SPSS廣泛統計中強調: 觀察值應是獨立的, 風險比應是時間恆定值 ;即,各個個案風險的比率不應隨時間變化。後一個假設稱為Cox 比例風險模型。
什麼叫等比例風險? 預後因素對死亡風險的作用強度隨著時間的變化需保持一致。
即,假設A、B兩組糖尿病患者,分別給予新葯和市售葯,隨訪5年生存率。第1年A組風險死亡率是6%,B組是3%。第2年A組風險死亡率是10%,B組需為5%。此時才剛剛滿足Cox風回歸分析的前提。
驗證是否為等比例風險的方法大致分兩類。分類變數採用K-M生存曲線法查看是否存在交叉(若不交叉,則說明等比例風險);連續型變數採用殘差散點圖來判定(P>0.05表示)。(圖例來自網路,侵刪)
(K-M生存曲線法)
(殘差散點圖)
有人又會說了,這要求忒嚴格了吧,如果不是等比例風險呢?見下方。
④ Cox 依時協變數分析
若判定後發現不是等比例風險,說明影響影響因素在隨著時間發生變化,此時可能需要採用帶依時協變數的 Cox 過程。
感覺越說越遠了......懵了嗎朋友們
『貳』 如何用spss計算五年生存率
SPSS是一款比較常用的數據統計軟體,今天就來教大家如何用spss計算五年生存率。
1、首先打開一份數據,因為之前是縱排的,先通過行列互換變為橫排方便觀察。
『叄』 16種常用的數據分析方法匯總
一、描述統計
描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
A 雖然是連續數據,但總體分布形態未知或者非正態;
B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
三、信度分析
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯表分析
用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
五、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。
1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布
B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數作為統計量衡量相似度,相關系數、列聯系數等
2、方法分類:
1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類
2)逐步聚類法 :適用於大樣本的樣本聚類
3)其他聚類法 :兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用於兩類判別;
以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於
適用於多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;
十、主成分分析
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息 。
十一、因子分析
一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到済理多個原始變數內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變數個數
2)通過對變數間相關關系探測,將原始變數進行分類
十二、時間序列分析
動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
十三、生存分析
用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法
1、包含內容:
1)描述生存過程,即研究生存時間的分布規律
2)比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較
3)分析危險因素,即研究危險因素對生存過程的影響
4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。
2、方法:
1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論
2)非參數檢驗:檢驗分組變數各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。
A 乘積極限法(PL法)
B 壽命表法(LT法)
3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法
4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更准確地分析確定變數之間的變化規律
十四、典型相關分析
相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。
典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變數與另一組變數之間單變數的多重線性相關性研究轉化為對少數幾對綜合變數之間的簡單線性相關性的研究,並且這少數幾對變數所包含的線性相關性的信息幾乎覆蓋了原變數組所包含的全部相應信息。
十五、R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線
用途:
1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力
用途
2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的准確性就越高;
3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的准確性。
十六、其他分析方法
多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網路、系統方程、蒙特卡洛模擬等。
『肆』 常見的數據統計方法
這里有幾個技巧,大家可以學習一下:
1、統計分析方法
2、數據透視表
學會這幾點,你才能真正成為數據分析高手。
技巧1:統計分析方法
對於很多職場新人來說,看到這樣一張數據表格,完全不知道如何下手,沒有分析的方向。
不知道要從哪些角度,去分析這些數據,這是因為他們還沒有學習具體的統計分析方法。
只要你能掌握一些有用的統計方法,就可以輕松的找到分析方向。
常用的統計方法有兩個:分組對比法和交叉分析法。接下來,我們就對這兩種方法進行具體的講解。
1、 分組對比法
我們經常會遇到數據量很多的表格,我們只要看到這種數據量很多的表格,就會頭大,不知道該怎麼下手。
這時候,我們就需要按照數據分組的規則,按照時間、地點、任務、產品類型等原則,對數據進行分組,可以有效地減少數據量,讓數據變得清晰。
分組之後,我們就可以對數據進行匯總計算了。常見的方法是通過求和、平均值、百分比、技術等方式,把相同類別的數據,匯總成一個數據,減少數據量。
2、 交叉分析法
如果想要統計出某個部門在某個月份的銷售總額,我們就需要對這些表格進行匯總計算,並列出二維表,如下圖所示。
這種二維表的製作,如果我們採用一般的分類匯總方法,過程十分繁瑣,所以我們需要學習另一個神器——數據透視表。
技巧2:數據透視表
點擊【插入】選項卡中的【數據透視表】,打開對話框,確定選區,點擊確定
然後就可以在新的工作表中看到數據透視表視圖,只需要拖動表格欄位到【行】【列】【值】中,就可以得到相應的數據統計表格。
總結:
常用分析方法:分組對比法,減少數據量,讓數據變得更加清晰;交叉分析法,用二維表形式,快速查詢數據。
數據透視表:可以擺脫公式,快速完成數據統計,你需要熟練掌握數據透視表的方法才能玩出更多的花樣。
『伍』 《SPSS統計分析從入門到精通》pdf下載在線閱讀,求百度網盤雲資源
《SPSS統計分析從入門到精通》(杜強)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:
書名:SPSS統計分析從入門到精通
作者:杜強
豆瓣評分:7.3
出版社:人民郵電出版社
出版年份:2009-3
頁數:580
內容簡介:
《SPSS統計分析從入門到精通》基於SPSS個人版本SPSS 15.0 for Windows編寫,致力於使讀者全面了解SPSS,了解和學習如何使用SPSS進行數據融合、數據分析、結果展示等工作,《SPSS統計分析從入門到精通》介紹的是SPSS的窗口和對話框操作方式,著重於SPSS分析軟體的實際應用。全書25章,分4個部分。第1-3章重點講解了數據和文件的管理操作,以及SPSS系統環境的設置。第4-18章主要介紹各種統計分析方法及其對應SPSS過程的操作方式,包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、生存分析、時間序列分析、多重響應分析等幾大類。第19章介紹各種統計圖形的生成和編輯。第20-25章列舉了用SPSS處理多種行業數據的案例,包括:上市公司財務數據分析、影響匯率的因素分析、多因素試驗設計等多方面的應用。
『陸』 《統計學方法與數據分析引論(上下)》pdf下載在線閱讀全文,求百度網盤雲資源
《統計學方法與數據分析引論(上下)》([美] R.L.奧特(R.Lyamn Ott))電子書網盤下載免費在線閱讀
鏈接: https://pan..com/s/1d1n-ODf73ydyh7Lc2FDO5w
書名:統計學方法與數據分析引論(上下)
作者:[美] R.L.奧特(R.Lyamn Ott)
譯者:張忠占
豆瓣評分:8.8
出版社:科學出版社
出版年份:2003年6月
頁數:1304
內容簡介:
本書據Duxbury Press第5版譯出。內容分為8個部分,共20章,分上下兩冊。各章均有大量習題。作者使用實例來引入主題,並把統計概念和實際問題聯系在一起進行講解,介紹了統計數據的收集和分析過程,討論了如何解釋數據分析的結果,並專門講述了如何寫數據分析報告。
『柒』 16種常用的數據分析方法-生存分析
探究變數之間的關系是數據挖掘中的一個基本分析內容,對於常規的離散型或者連續型變數,有很多的方法可以用於挖掘其中的關系,比如線性回歸,邏輯回歸等等。然而有一類數據非常的特殊,用回歸分析等常用手段出處理這類數據並不合適,這類數據就是生存數據。
常規數據在表示時,只需要一個值,比如患者的血壓,性別等數據,不是連續型就是離散型;生存數據則有兩個值,第一個是生存時間,可以看做是一個連續型的變數,第二個是生存事件,可以看做是離散型的變數。
比如分析治療後的患者生存情況,在觀測期間,可以看到不同患者的存活時間,這個值就是生存時間,而有些患者可能在觀察期內出現死亡,復發等情況,死亡或者復發則稱之為事件。
生存分析是既考慮結果又考慮生存時間的一種統計方法,並可充分利用截尾數據所提供的不完全信息,對生存時間的分布特徵進行描述,對影響生存時間的主要因素進行分析。
生存資料分析
生存分析就是針對生存資料的分析。所謂生存資料就是描述壽命或者一個發生時間的數據。更詳細的說一個人的生存時間的長短與許多因素有聯系的,研究因素與生存時間的聯系有無及程度大小,就是生存分析。
生存資料不同於其它分析資料,有一個特殊的地方就是缺失值的處理,對於常規數據,缺失值很多時可以直接丟掉,只有少量缺失值時可以用演算法進行填補,而生存數據中的缺失值則不同。
在觀測期間,患者可能出現了其他的事件導致後續得不到對應的生存數據,比如患者出現意外事故身亡了,後續的生存數據就會缺失,很顯然生存數據是不能用演算法填補的,一定要是實際觀測的結果。
但是這個數據也不能直接丟掉,因為從觀測開始到患者意外身亡的這段時間內的生存數據是有意義的,在進行生存分析時,這部分數據也可以利用起來。
應用場景
生存可以指人或動物的存活(相對於死亡),可以是患者的病情正處於緩解狀態(相對於再次復發或惡化),還可以是某個系統或產品正常工作(相對於失效或故障),甚至可是是客戶的流失與否等。
在生存分析中,研究的主要對象是壽命超過某一時間的概率。還可以描述其他一些事情發生的概率,例如產品的失效、出獄犯人第一次犯罪、失業人員第一次找到工作等等。
在某些領域的分析中,常常用追蹤的方式來研究事物的發展規律,比如研究某種葯物的療效,手術後的存活時間,某件機器的使用壽命等。
在醫學研究中,常常用追蹤的方式來研究事物發展的規律。如,了解某葯物的療效,了解手術的存活時間,了解某醫療儀器設備使用壽命等等。
生存分析主要內容
生存分析的主要內容包括:
l描述生存過程,即研究生存時間的分布規律
l比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較
l分析危險因素,即研究危險因素對生存過程的影響
l建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。
生存分析主要方法
生存分析方法可以分為描述法、參數法、半參數法和非參數法。
1.描述法
根據樣本觀測值提供的信息,直接用公式計算出每一個時間點或每一個時間區間上的生存函數、死亡函數、風險函數等,並採用列表或繪圖的形式顯示生存時間的分布規律。
優點:方法簡單且對數據分布無要求
缺點:不能比較兩組或多組生存時間分布函數的區別,不能分析危險因素,不能建立生存時間與危險因素之間的關系模型。
2.非參數法
估計生存函數時對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響時採用的是非參數檢驗方法。
常用方法:乘積極限法、壽命表法
優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,對生存時間的分布沒有要求。
缺點:不能建立生存時間與危險因素之間的關系模型。
3.參數法
根據樣本觀測值來估計假定的分布模型中的參數,獲得生存時間的概率分布模型。
生存時間經常服從的分布有:指數分布、Weibull分布、對數正態分布、對數Logistic分布、Gamma分布。
優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型。
缺點:需要事先知道生存時間的分布
4.半參數法
不需要對生存時間的分布做出假定,但是卻可以通過一個模型來分析生存時間的分布規律,以及危險因素對生存時間的影響,最著名的就是COX回歸。
優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型,不需要事先知道生存時間的分布。
生存分析案例
研究性別對於肺病生存率有無區別,收集數據下列信息
time:生存時間(單位天)
status:0=存活,1=死亡
sex:1=男,2=女
▋ 操作步驟
1)按步驟將數據導入
2)選定壽命表分析方法
3)對各選項進行設置
其中注意狀態設置:選取表示事件已發生的值
4)設置完所有選項後確認,得到結果
存活表:該表給出了男女對應時間內存活和死亡人數,並計算了存活率、風險比等統計量
中位數生存時間:即生存率為50%時,生存時間的平均水平;
由此可知:生存時間的平均水平女士高於男士
生存函數:男士較女士累計生存率下降快
『捌』 統計學常用數據分析方法(二)推斷統計&參數檢驗
01
推論統計
推論統計是統計學中研究年份較為短的一部分內容。
推論統計主要以結果為依據,來證明或推翻某個命題也就是通過分析樣本與樣本分布的差異從而去估算樣本與總體、同一樣本的前後兩次的差異、樣本與樣本的差異、總體與總體的差異是否具有顯著性差異。
舉個例子,我們想研究教育背景是否會影響人的收入。然後我們可以找1000名30歲大學畢業生和1000名30歲初中畢業生。採集他們的工作以及收入情況。用推論統計方法進行數據處理,最後會得出類似這樣兒的結論:「研究發現,大學畢業生組的收入顯著高於初中畢業生組的收入,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些收入情況優於中學畢業生組,也就是學歷會影響收入。」
02
正態性檢 驗
很多統計方法的前提條件是數值服從或近似服從正態分布,所以在進行數據分析之前需要進行正態性檢驗。
常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
03
參數檢驗
已知總體分布的條件下(一般要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗叫做參數檢驗。
Z檢驗:使用條件:當樣本含量n較大時,樣本值符合正態分布
T檢驗:使用條件:當樣本含量n較小時,樣本值符合正態分布
單樣本t檢驗:想知道來自總體的一個樣本均值μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
配對樣本t檢驗:當總體均值未知時,並且兩個樣本可以配對,同對中的兩者一一對應,對於處理效果的各種條件方面扱為相似;
兩獨立樣本t檢驗:利用兩個總體的獨立樣本,通過推斷兩個總體的均值是否存在顯著性差異;兩獨立樣本的樣本容量可以相等,也可以不相等。
04
非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
『玖』 求《數據分析方法培訓》全文免費下載百度網盤資源,謝謝~
《數據分析方法培訓》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1a25OgSpybxai2SPQYfMseA