Ⅰ 如何在spss進行logistic單因素回歸分析
1、打開spss統計軟體,然後單擊「Analyze - Regression - Binary Logistic」。
Ⅱ 怎樣應用SPSS進行多因素Logistic 回歸分析
SPSS進行多因素Logistic回歸分析操作方法如下:
1、第一步就是我們要把自己需要分析的數據導入到SPSS,點擊左上角的文件進行打開,選擇彈出對話框中的數據。
Ⅲ 如何用spss做logistic回歸分析
打開數據以後,菜單欄上依次點擊:analyse--regression--binary
logistic,打開二分回歸對話框
將因變數和自變數放入格子的列表裡,如圖所示,上面的是因變數,下面的是自變數,我們看到這里有三個自變數
設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法,在前面的文章中有介紹,這里就不再熬述。
點擊ok,開始處理數據並檢驗回歸方程,等待一會就會彈出數據結果窗口
看到的第一個結果是對case的描述,第一個列表告訴你有多少數據參與的計算,有多少數據是預設值;第二個列表告訴你因變數的編碼方式,得分為1代表患病,得分為0代表沒有患病
這個列表告訴你在沒有任何自變數進入以前,預測所有的case都是患病的正確率,正確率為%52.6
下面這個列表告訴你在沒有任何自變數進入以前,常數項的預測情況。B是沒有引入自變數時常數項的估計值,SE它的標准誤,Wald是對總體回歸系數是否為0進行統計學檢驗的卡方。
下面這個表格結果,通過sig值可以知道如果將模型外的各個變數納入模型,則整個模型的擬合優度改變是否有統計學意義。
sig值小於0.05說明有統計學意義
這個表格是對模型的全局檢驗,為似然比檢驗,供給出三個結果:同樣sig值<0.05表明有統計學意義。
下面的結果展示了-2log似然值和兩個偽決定系數。兩個偽決定系數反應的是自變數解釋了因變數的變異占因變數的總變異的比例。他們倆的值不同因為使用的方法不同。
分類表,這里展示了使用該回歸方程對case進行分類,其准確度為%71.8。
最後是輸出回歸方程中的各變數的系數和對系數的檢驗額值,sig值表明該系數是否具有統計學意義。到此,回歸方程就求出來了。
Ⅳ logistic回歸的應用
logistic回歸與多重線性回歸一樣,在應用之前也是需要分析一下資料是否可以採用logistic回歸模型。並不是說因變數是分類變數我就可以直接採用logistic回歸,有些條件仍然是需要考慮的。
首要的條件應該是需要看一下自變數與因變數之間是什麼樣的一種關系。多重線性回歸中,要求自變數與因變數符合線性關系。而logistic回歸則不同,它要求的是自變數與logit(y)符合線性關系,所謂logit實際上就是ln(P/1-P)。也就是說,自變數應與ln(P/1-P)呈線性關系。當然,這種情形主要針對多分類變數和連續變數。對於二分類變數就無所謂了,因為兩點永遠是一條直線。
這里舉一個例子。某因素y與自變數x之間關系分析,y為二分類變數,x為四分類變數。如果x的四分類直接表示為1,2,3,4。則分析結果為p=0.07,顯示對y的影響在0.05水準時無統計學意義,而如果將x作為虛擬變數,以1為參照,產生x2,x3,x4三個變數,重新分析,則結果顯示:x2,x3,x4的p值分別為0.08,0.05和0.03。也就是說,盡管2和1相比無統計學意義,但3和1相比,4和1相比,均有統計學意義。
為什麼會產生如此結果?實際上如果仔細分析一下,就可以發現,因為x與logit(y)並不是呈線性關系。而是呈如下圖的關系:
這就是導致上述差異的原因。從圖中來看,x的4與1相差最大,其次是2,3與1相差最小。實際分析結果也是如此,上述分析中,x2,x3,x4產生的危險度分別為3.1,2.9,3.4。
因此,一開始x以1,2,3,4的形式直接與y進行分析,默認的是認為它們與logit(p)呈直線關系,而實際上並非如此,因此掩蓋了部分信息,從而導致應有的差異沒有被檢驗出來。而一旦轉換為虛擬變數的形式,由於虛擬變數都是二分類的,我們不再需要考慮其與logit(p)的關系,因而顯示出了更為精確的結果。
最後強調一下,如果你對自變數x與y的關系不清楚,在樣本含量允許的條件下,最好轉換為虛擬變數的形式,這樣不至於出現太大的誤差。
如果你不清楚應該如何探索他們的關系,也可以採用虛擬變數的形式,比如上述x,如果轉換的虛擬變數x2,x3,x4他們的OR值呈直線關系,那x基本上可以直接以1,2,3,4的形式直接與y進行分析。而我們剛才也看到了,x2,x3,x4的危險度分別為3.1,2.9,3.4。並不呈直線關系,所以還是考慮以虛擬變數形式進行分析最好。
總之,虛擬變數在logistic回歸分析中是非常有利的工具,善於利用可以幫助你探索出很多有用的信息。
統計的分析策略是一個探索的過程,只要留心,你就會發現在探索數據關系的過程中充滿了樂趣,因為你能發現別人所發現不了的隱藏的信息。希望大家多學點統計分析策略,把統計作為一種藝術,在分析探索中找到樂趣。
樣本量的估計可能是臨床最頭疼的一件事了,其實很多的臨床研究事前是從來不考慮樣本量的,至少我接觸的臨床研究大都如此。他們大都是想到就開始做,但是事後他們會尋求研究中樣本量的依據,尤其是在投文章被審稿人提問之後。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實這也難怪,臨床有臨床的特點,很多情況下是很難符合統計學要求的,尤其一些動物試驗,可能真的做不了很多。這種情況下確實是很為難的。
本篇文章僅是從統計學角度說明logistic回歸所需的樣本量的大致估計,不涉及臨床特殊問題。
其實不僅logistic回歸,所有的研究一般都需要對樣本量事前有一個估計,這樣做的目的是為了盡可能地得出陽性結果。比如,你事前沒有估計,假設你做了20例,發現是陰性結果。如果事前估計的話,可能會提示你需要30例或25例可能會得出陽性結果,那這時候你會不會後悔沒有事前估計?當然,你可以補實驗,但是不管從哪方面角度來講,補做的實驗跟一開始做得實驗可能各種條件已經變化,如果你在雜志中說你的實驗是補做的,那估計發表的可能性就不大了。
一般來說,簡單的研究,比如組間比較,包括兩組和多組比較,都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。而對於較為復雜的研究,比如多重線性回歸、logistic回歸之類的,涉及多個因素。這種方法理論上也是有計算公式的,但是目前來講,似乎尚無大家公認有效的公式,而且這些公式大都計算繁瑣,因此,現實中很少有人對logistic回歸等這樣的分析方法採用計算的方法來估計樣本量。而更多地是採用經驗法。
其實關於logistic回歸的樣本量在部分著作中也有提及,一般來講,比較有把握的說法是:每個結局至少需要10例樣品。這里說得是每個結局。例如,觀察胃癌的危險因素,那就是說,胃癌是結局,不是你的總的例數,而是胃癌的例數就需要這么多,那總的例數當然更多。比如我有7個研究因素,那我就至少需要70例,如果你是1:1的研究,那總共就需要140例。如果1:2甚至更高的,那就需要的更多了。
而且,樣本量的大小也不能光看這一個,如果你的研究因素中出現多重共線性等問題,那可能需要更多的樣本,如果你的因變數不是二分類,而是多分類,可能也需要更大的樣本來保證你的結果的可靠性。
理論上來講,logistic回歸採用的是最大似然估計,這種估計方法有很多優點,然而,一個主要的缺點就是,必須有足夠的樣本才能保證它的優點,或者說,它的優點都是建立在大樣本的基礎上的。一般來講,logistic回歸需要的樣本量要多於多重線性回歸。
最後仍然需要說一句,目前確實沒有很好的、很權威的關於logistic回歸樣本量的估計方法,更多的都是根據自己的經驗以及分析過程中的細節發現。如果你沒有太大的把握,就去請教統計老師吧,至少他能給你提出一些建議。
Ⅳ spss統計中Logistic回歸應該怎麼做
1、打開數據以後,菜單欄上依次點擊:analyse--regression--binary logistic,打開二分回歸對話框
2、將因變數和自變數放入格子的列表裡,如圖所示,上面的是因變數,下面的是自變數,我們看到這里有三個自變數
3、設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法,在前面的文章中有介紹,這里就不再熬述。
4、點擊ok,開始處理數據並檢驗回歸方程,等待一會就會彈出數據結果窗口
Ⅵ 怎樣用spss進行logistic回歸分析
打開數據以後,菜單欄上依次點擊:analyse--regression--binary logistic,打開二分回歸對話框
2
將因變數和自變數放入格子的列表裡,如圖所示,上面的是因變數,下面的是自變數,我們看到這里有三個自變數
設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法,在前面的文章中有介紹,這里就不再熬述。
點擊ok,開始處理數據並檢驗回歸方程,等待一會就會彈出數據結果窗口
看到的第一個結果是對case的描述,第一個列表告訴你有多少數據參與的計算,有多少數據是預設值;第二個列表告訴你因變數的編碼方式,得分為1代表患病,得分為0代表沒有患病
這個列表告訴你在沒有任何自變數進入以前,預測所有的case都是患病的正確率,正確率為%52.6
下面這個列表告訴你在沒有任何自變數進入以前,常數項的預測情況。B是沒有引入自變數時常數項的估計值,SE它的標准誤,Wald是對總體回歸系數是否為0進行統計學檢驗的卡方。
下面這個表格結果,通過sig值可以知道如果將模型外的各個變數納入模型,則整個模型的擬合優度改變是否有統計學意義。 sig值小於0.05說明有統計學意義
這個表格是對模型的全局檢驗,為似然比檢驗,供給出三個結果:同樣sig值<0.05表明有統計學意義。
下面的結果展示了-2log似然值和兩個偽決定系數。兩個偽決定系數反應的是自變數解釋了因變數的變異占因變數的總變異的比例。他們倆的值不同因為使用的方法不同。
分類表,這里展示了使用該回歸方程對case進行分類,其准確度為%71.8。
最後是輸出回歸方程中的各變數的系數和對系數的檢驗額值,sig值表明該系數是否具有統計學意義。到此,回歸方程就求出來了。
Ⅶ 多因素logistic回歸分析怎麼用
logit回歸
1.打開數據,依次點擊:analyse--regression--binarylogistic,打開二分回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數(單變數拉入一個,多因素拉入多個)。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
5.選項裡面至少選擇95%CI。
點擊ok。
統計專業研究生工作室原創,請勿復雜粘貼
Ⅷ logistic回歸分析步驟是什麼
logistic回歸分析是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。
多重線性回歸直接將w『x+b作為因變數,即y =w『x+b,而logistic回歸則通過函數L將w『x+b對應一個隱狀態p,p =L(w『x+b),然後根據p 與1-p的大小決定因變數的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
Logistic回歸模型的適用條件
1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。
2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變數和Logistic概率是線性關系。
以上內容參考:網路-logistic回歸
Ⅸ 怎樣使用logistic回歸模型
logistic回歸模型,主要是用來對多因素影響的事件進行概率預測,它是普通多元線性回歸模型的進一步擴展,logistic模型是非線性模型。比如說我們曾經做過的土地利用評價,就分別用多元線性回歸模型和Logistic模型進行試驗。影響耕地的因素假設有高程、土壤類型、當地人口數量和GDP總量,把上述四種因素作為自變數,某塊地是否為耕地的概率為P,即應變數。然後根據已經有的樣本數據,求出logistic模型的系數,一般用最大似然法結合牛頓—拉斐遜法解系數,求出F(P)=G(高程,土壤,人口,GDP)的一個回歸函數,即Logistic模型,然後把全地區的數據代入上式,求出每個地方是否為耕地的概率,用來對土地利用的評價提供科學的依據。希望我的答案能讓你滿意,我以前就是做這方面研究的。