❶ 生存分析(survival analysis)
一、生存分析(survival analysis)的定義 生存分析:對一個或多個非負隨機變數進行統計推斷,研究生存現象和響應時間數據及其統計規律的一門學科。
生存分析:既考慮結果又考慮生存時間的一種統計方法,並可充分利用截尾數據所提供的不完全信息,對生存時間的分布特徵進行描述,對影響生存時間的主要因素進行分析。 生存分析不同於其它多因素分析的主要區別點:生存分析考慮了每個觀測出現某一結局的時間長短。
應用場景
什麼是生存?生存的意義很廣泛,它可以指人或動物的存活(相對於死亡),可以是患者的病情正處於緩解狀態(相對於再次復發或惡化),還可以是某個系統或產品正常工作(相對於失效或故障),甚至可是是客戶的流失與否等。 在生存分析中,研究的主要對象是壽命超過某一時間的概率。還可以描述其他一些事情發生的概率,例如產品的失效、出獄犯人第一次犯罪、失業人員第一次找到工作等等。 在某些領域的分析中,常常用追蹤的方式來研究事物的發展規律,比如研究某種葯物的療效,手術後的存活時間,某件機器的使用壽命等。
在醫學研究中,常常用追蹤的方式來研究事物發展的規律。如,了解某葯物的療效,了解手術的存活時間,了解某醫療儀器設備使用壽命等等。對生存資料的分析稱為生存分析。所謂生存資料就是描述壽命或者一個發生時間的數據。更詳細的說一個人的生存時間的長短與許多因素有聯系的,研究因素與生存時間的聯系有無及程度大小,稱為生存分析。
例如研究病人感染了病毒後,多長時間會死亡;工作的機器多長時間會發生崩潰等。 這里「個體的存活」可以推廣抽象成某些關注的事件。 所以SA就成了研究某一事件與它的發生時間的聯系的方法。這個方法廣泛的用在醫學、生物學等學科上,近年來也越來越多人用在互聯網數據挖掘中,例如用survival analysis去預測信息在社交網路的傳播程度,或者去預測用戶流失的概率。
生存分析研究的內容 1.描述生存過程 研究生存時間的分布特點,估計生存率及平均存活時間,繪制生存曲線等,根據生存時間的長短,可以估算出各個時點的生存率,並根據生存率來估計中位生存時間,也可以根據生存曲線分析其生存特點,一般使用Kaplan-Meier法和壽命表法。 2.比較生存過程 可通過生存率及其標准誤對各樣本的生存率進行比較,以探討各組間的生存過程是否存在差異,一般使用Log-rank檢驗和Breslow檢驗。 3.分析危險因素 是通過生存分析模型來探討影響生存時間和終點事件的保護因素和不利因素,因素作用的大小及方向,相對危險度的大小,基本使用Cox回歸模型。 4.建立數學模型 建立最終的數學模型,也是通過Cox回歸模型完成。
生存分析對資料的基本要求 1.樣本由隨機抽樣方法獲得,要有一定的數量,死亡例數和比例不能太少 2.完整數據所佔的比例不能太少,即截尾值不宜太多 3.截尾值出現的原因無偏性,為防止偏性常常對被截尾的研究對象的年齡、職業、地區、病情輕重等情況進行分析 4.生存時間盡可能精確 5.缺項要盡量補齊
生存資料的共同特點 1.蘊含有結局和時間兩個方面的信息 2.結局為兩分類往斥事件 3一般是通過隨訪收集得到,隨訪觀察往往是從某統一時間點(如入院或實施手術等某種處理措施後)開始,觀察到某規定時間點截止。 4.常因失訪等原因造成研究對象的生存時間數據不完整,分布類型復雜,不能簡中地套用以前的方法
二、生存分析的基本概念
起始事件(initial event): 反應生存時間起始特徵的事件,如疾病確診、某種疾病治療開始等。 失效事件(failure event): 在生存分析隨訪研究過程中,一部分研究對象可觀察到死亡,可以得到准確的生存時間,它提供的信息是完全的,這種事件稱為失效事件,也稱之為死亡事件、終點事件。
終點事件和起始事件是相對而言的,它們都由研究目的決定,須在設計時明確規定,並在研究期間嚴格遵守,不能隨意改變。
生存時間: 廣義上指某個起點事件開始到某個終點事件發生所經歷的時間,度量單位可以是年、月、日、小時等,常用符號t所示。這個時間也未必是通常意義上的時間,也可以是和時間相關的變數。比如距離等,具體要根據研究目的而定義。 1)分布類型不易確定。一般不服從正態分布,多數情況下不服從任何規則的分布類型。 2)影響因素多而復雜且不易控制。 3)根據研究對象的結局,生存時間數據可分為兩種類型: 完全數據 (Completed Data):從觀察起點到發生死亡事件所經歷的時間。 不完全數據 (Incomplete Data):生存時間觀察過程的截止不是由於死亡事件,而是由其他原因引起的 不完全數據分為 :刪失數據(censored Data),截斷數據(truncated Data) 不完全主要原因: 失訪:指失去聯系; 退出:死於非研究因素或非處理因素而退出研究; 終止:設計時規定的時間已到而終止觀察,但研究對象仍然存活。
刪失的表現形式 右刪失(Right Censoring):只知道實際壽命大於某數; 左刪失(Left Censoring):只知道實際壽命小於某數; 區間刪失(Interval Censoring):只知道實際壽命在一個時間區間內。
條件死亡概率: 表示某時段開始存活的個體,在該時段內死亡的可能性,如年死亡概率q=某年內死亡人數/某年年初人口數,如果年內存在刪失數據,需要對分母進行校正,校正人口數=年初人口數-刪失例數/2
條件生存概率 (conditional probability of survival):某時段開始時存活的個體,到該時段結束時讓然存活的可能性p=某年存活滿一年的人數/某年年初人口數=1-q,如果年內存在刪失數據,需要對分母進行校正,校正人口數=年初人口數-刪失例數/2
生存函數
若含有刪失數據,須分時段計算生存概率 。假定觀察對象在各個時段的生存時間獨立,應用概率乘法定理將分時段的概率相乘得到生存率。
生存率與條件生存概率不同。 條件生存概率是單個時段的結果,而生存率實質上是累積條件生存概率(cumulative probability of survival ),是多個時段的累積結果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年還存活的可能性。
生存率s(t)的估計方法有參數法和非參數法。 常用非參數法,非參數法主要有二個,即,乘積極限法與壽命表法,乘積極限法主要用於觀察例數較少而未分組的生存資料,壽命表法適用於觀察例數較多而分組的資料,不同的分組壽命表法的計算結果亦會不同,當分組資料中每一個分組區間中最多隻有1個觀察值時,壽命表法的計算結果與乘積極限法完全相同。
生存曲線 (survival curve):以觀察(隨訪)時間為橫軸,以生存率為縱軸,將各個時間點所對應的生存率連接在一起的曲線圖。 生存曲線是一條下降的曲線,分析時應注意曲線的高度和下降的坡度。平緩的生存曲線表示高生存率或較長生存期,陡峭的生存曲線表示低生存率或較短生存期。
中位生存期 (median survival time):又稱半數生存期,表示恰好有50 %的個體尚存活的時間。中位生存期越長,表示疾病的預後越好;中位生存期越短,預後越差。估計中位生存期常用圖解法或線性內插法。
概率密度函數f(t)
[圖片上傳失敗...(image-f5d8a7-1630478089306)]
生存函數S(t)
危險函數h(t)
累計危險函數H(t)
三、生存分析目的
估計 :根據樣本生存資料估計總體生存率及其它有關指標 ( 如中位生存期等 ) , 如根據腦瘤患者治療後的生存時間資料 , 估計不同時間的生存率 、生存曲線以及中位生存期等 。 比較 :對不同處理組生存率進行比較,如比較不同療法治療腦瘤的生存率,以了解哪種治療方案較優。
影響因素分析 :目的是為了探索和了解影響生存時間長短的因素 , 或平衡某些因素影響後 , 研究某個或某些因素對生存率的影響 。 如為改善腦瘤病人的預後 , 應了解影響病人預後的主要因素 , 包括病人的年齡 、 性別 、 病程 、 腫瘤分期 、 治療方案等 。 預測 :具有不同因素水平的個體生存預測 ,如根據腦瘤病人的年齡 、 性別 、 病程 、 腫瘤分期 、 治療方案等預測該病人t 年 ( 月 )生存率 。
四、生存分析的具體方法 生存分析方法可以分為描述法、參數法、半參數法和非參數法 1.描述法 根據樣本觀測值提供的信息,直接用公式計算出每一個時間點或每一個時間區間上的生存函數、死亡函數、風險函數等,並採用列表或繪圖的形式顯示生存時間的分布規律。 優點:方法簡單且對數據分布無要求 缺點:不能比較兩組或多組生存時間分布函數的區別,不能分析危險因素,不能建立生存時間與危險因素之間的關系模型。
2.非參數法 估計生存函數時對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響時採用的是非參數檢驗方法。 常用方法:乘積極限法、壽命表法 優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,對生存時間的分布沒有要求。 缺點:不能建立生存時間與危險因素之間的關系模型。
3.參數法 根據樣本觀測值來估計假定的分布模型中的參數,獲得生存時間的概率分布模型。 生存時間經常服從的分布有:指數分布、Weibull分布、對數正態分布、對數Logistic分布、Gamma分布。 優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型。 缺點:需要事先知道生存時間的分布
4.半參數法 不需要對生存時間的分布做出假定,但是卻可以通過一個模型來分析生存時間的分布規律,以及危險因素對生存時間的影響,最著名的就是COX回歸。 優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型,不需要事先知道生存時間的分布。
Cox 比例風險回歸模型(Cox』s proportional hazards regression model) , 簡稱Cox 回歸模型
如果Cox PH Model中的變數會隨時間變化,那麼就成了extended Cox model,此時HR不再是一個常量。很簡單的例子,如果病人的居住地也是一個變數,病人有可能會搬家,例如在北京吸霾了5年,再跑去廈門生活,那麼他舊病復發的概率肯定會降低。所以住所這個變數是和時間相關的。一種簡單的做法是,按照變數改變的時刻,把時間切割成區間,使得每個區間內的變數沒有變化。然後再套用Cox PH模型。
❷ 生命周期分析法的介紹
生命周期分析法是運用生命周期分析矩陣,根據企業的實力和產業的發展階段來分析評價戰略的適宜性的一種方法。利用它有助於戰略選擇,可以縮小選擇的范圍,做到有的放矢。生命周期矩陣的橫坐標代表產業發展的階段――幼稚、成長、成熟、衰退。縱坐標代表企業的實力,分為五類――主導、較強、有利、維持、脆弱。(轉自智庫·網路)生命周期法由亞瑟科特爾咨詢公司提出,並被戰略管理學界所接受。該方法以行業生命周期和企業競爭地位兩個參數來確定公司中各個經營單位所處的位置。