1. spss分析方法-判別分析(轉載)
判別分析是在分組已知的情況下,根據已經確定分類的對象的某些觀測指標和所屬類別來判斷未知對象所屬類別的一種統計學方法。 下面我們主要從下面四個方面來解說:
[if !supportLineBreakNewLine]
[endif]
實際應用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結果
[if !supportLineBreakNewLine]
[endif]
一、實際應用
判別分析最初應用於考古學, 例如要根據挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.。慢慢的成為一種常用的分類分析方法,其通過已知的分類情況,根據數據的特徵對其他研究對象進行預測歸類。
在實際生活中,判別分析也被廣泛用於預測事物的類別歸屬。
[if !supportLineBreakNewLine]
[endif]
企業營銷中,營銷人員可通過已有的客戶特徵數據(如消費金額、消費頻次、購物時長、購買產品種類等),預測當前的消費者屬於哪種類型的顧客(款式偏好型、偏重質量型、價格敏感型...),並根據其特點有針對性的採取有效的營銷手段。或是根據各成分含量指標,判斷白酒的品牌或水果的產地等。
除此以外,判別分析還可與聚類分析結合使用。比如,銀行的貸款部門想要在發放貸款之前,可通過此方法判斷申請人是否具有良好的信用風險。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
判別分析首先需要對研究的對象進行分類,然後選擇若干對觀測對象能夠較全面描述的變數,接著按照一定的判別標准建立一個或多個判別函數,使用研究對象的大量資料確定判別函數中的待定系數來計算判別指標。對一個未確定類別的個案只要將其代入判別函數就可以判斷它屬於哪一類總體。
[if !supportLineBreakNewLine]
[endif]
常用的判別分析方法有距離判別法、費舍爾判別法和貝葉斯判別法。
[if !supportLineBreakNewLine]
[endif]
費舍爾判別法:
費舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數計算出各個觀測量在各典型變數維度上的坐標並得出樣本距離各個類中心的距離,以此作為分類依據。
[if !supportLineBreakNewLine]
[endif]
貝葉斯判別法:
貝葉斯判別法通過計算待判定樣品屬於每個總體的條件概率並將樣本歸為條件概率最大的組。其主要思想如下:首先利用樣本所屬分類的先驗概率通過貝葉斯法則求出樣本所屬分類後驗概率,並依據該後驗概率分布作出統計推斷。
[if !supportLineBreakNewLine]
[endif]
距離判別法:
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別的。其通過建立關於各母體的距離判別函數式,得出各樣品與各母體之間的距離值,判別樣品屬於距離值最小的那個母體。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
一般判別分析法的思路:
首先建立判別函數;
然後通過已知所屬分類的觀測量確定判別函數中的待定系數;
最後通過該判別函數對未知分類的觀測量進行歸類。
逐步判別分析法的思路: 逐步判別分析分為兩步
首先根據自變數和因變數的相關性對自變數進行篩選,
然後使用選定的變數進行判別分析。
逐步判別分析是在判別分析的基礎上採用有進有出的辦法,把判別能力強的變數引入判別式的同時,將判別能力最差的變數別除。最終在判別式中只保留數量不多而判別能力強的變數。
數據條件:
[if !supportLists]§ [endif]用戶使用的分組變數必須含有有限數目的不同類別,且編碼為整數。名義自變數必須被重新編碼為啞元變數或對比變數。
[if !supportLists]§ [endif]個案獨立的
[if !supportLists]§ [endif]預測變數應有多變數正態分布,組內方差-協方差矩陣在組中應等同。
[if !supportLists]§ [endif]組成員身份假設為互斥的(不存在屬於多個組的個案),且全體為窮舉的(所有個案均是組成員)。如果組成員身份為真正的分類變數時,則此過程最有效;如果組成員身份基於連續變數的值(如高智商與低智商),則用戶需要考慮使用線性回歸以利用由連續變數本身提供的更為豐富的信息。
一般判別分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:以下3種不同種類豇豆豆莢的質量、寬度和長度的統計表,每種類型都為20個樣本,共60個樣本。根據不同種類豇豆豆莢的特徵,建立鑒別不同種類豇豆的判別方程。
一、數據輸入
[if !vml]
[endif]
二、操作步驟 1、進入SPSS,打開相關數據文件,選擇「分析」|「分類 」|「判別式」命令2、選擇進行判別分析的變數。在「判別分析」對話框的左側列表框中,選擇「類型」進入「分組變數」列表框。單擊「定義范圍」按鈕,在「最小值」和「最大值」中分別輸入1和3,單擊「繼續」按鈕返回「判別分析」對話框。分別選擇「質量」「寬度」「長度」3個變數進入「自變數」列表框,選中「使用步進法」單選按鈕。
[if !vml]
[endif]
3、設置判別分析的統計輸出結果。
單擊「判別分析」對話框中的「統計」按鈕。在「函數系數」選項組中,選中「費希爾」和「未標准化」復選框;在「矩陣」選項組中,選中「組內協方差」復選框。設置完畢後,單擊「繼續」按鈕返回「判別分析」對話框。
[if !vml]
[endif]
4、設置輸出到數據編輯窗口的結果。單擊「保存」按鈕,選中「預測組成員」復選框。
[if !vml]
[endif]
5、其餘設置採用系統默認值即可。單擊「確定」按鈕,等待輸出結果。
[if !supportLineBreakNewLine]
[endif]
四、結果分析
1、組統計量表可以看出,每一種豇豆豆莢的質量、寬度和長度的均值和標准差,也可以知道總樣本的均值和標准差。
[if !vml]
[endif]2、匯聚的組內矩陣表可以知道,各因素之間的協方差和相關系數。可以發現,各因素之間的相關性都較小,因此在判別方程中不需要剔除變數。
[if !vml]
[endif]
3
、輸入和刪除變數情況統計表可以知道,第一步納入的變數是質量,到第三步所有變數全部納入,且從顯著性值均為0可以看出,逐步判別沒有剔除變數。
[if !vml]
[endif]
4、典型判別方程的特徵值可以知道,特徵根數為2,其中第一個特徵根為77.318,能夠解釋所有變異的89.4%。
[if !vml]
[endif]
5、判別方程的有效性檢驗可以看出,顯著性均為0,因此兩個典型方程的判別能力都是顯著的。
[if !vml]
[endif]
6、標准化的典型判別方程可以知道,本例中的兩個標准化的典型判別方程表達式分別為:Y1=0.681*質量-0.674*寬度+0.612*長度Y2=0.363*質量+0.777*寬度+0.302*長度
[if !vml]
[endif]
7、未標准化的典型判別方程可以知道,本例中的兩個未標准化的典型判別方程表達式為:Y1=-11.528+0.210*質量-1.950*寬度+0.186*長度Y2=-15.935+0.112*質量+2.246*寬度+0.092*長度
[if !vml]
[endif]
8、貝葉斯的費希爾線性判別方程可以得到3個分類方程。在這里我們只寫出第一個分類方程。Y1=-90.708+2.557*質量+18.166*寬度+1.922*長度[if !vml]
[endif]9、判別分析在數據編輯窗口的輸出結果新產生的變數記錄是每一樣品的判別分類結果,可以看出,樣品判別分類結果與實際類別是一致的。
[if !vml]
[endif]
分析結論:
[if !supportLineBreakNewLine]
[endif]
通過判別分析可以知道,在本案例中,3種豇豆豆莢的樣品判別分類結果與實際類別是一致的。另外,我們可以得到不同的判別方程,分別包括標准化的典型判別方程、未標准化的典型判別方程和貝葉斯的費希爾線性判別方程,方程的表達式見上面的結果分析。
[if !supportLineBreakNewLine]
[endif]
參考案例數據:
[if !supportLineBreakNewLine]
[endif]
【1】spss統計分析與行業應用案例詳解(第四版) 楊維忠,張甜,王國平 清華大學出版社
(獲取更多知識,前往gz號程式解說)
原文來自https://mp.weixin.qq.com/s/Yapg-5jwMK6cITG_FZsfVA
2. 統計分析論文
統計分析是運用統計 方法 與分析對象有關的知識,從定量與定性的結合上進行的研究活動。下文是我為大家整理的關於統計分析論文的 範文 ,歡迎大家閱讀參考!
統計分析論文篇1淺談統計分析與決策
[摘要] 統計分析與決策二者有聯系又有區別。統計要參與決策,必須搞好統計分析。搞好統計分析,需要解決選題、分析、撰寫 報告 三個問題。
[關鍵詞] 統計分析 分析方法 決策
統計工作的全過程分為四個階段,即統計設計,統計調查,統計整理,統計分析。其中,統計分析是統計工作的最後一個階段,是出統計成果的階段。現在倡導統計要參與決策,這是不是說統計工作還要增加一個決策階段呢?如果不是,那麼,統計分析與決策是什麼關系呢?
狹義的說,統計分析與決策是有區別的。統計分析是以統計數字為基礎,以統計方法為手段,對社會經濟情況進行科學的分析和綜合研究,以認識其本質和規律的過程。而決策則是為了達到某一預定目標,運用邏輯方法和統計方法,對兩種或兩種以上可能採取的方案進行比較、分析、研究,以做出合理的、科學的抉擇的行為過程。假若把統計分析與決策比作醫生看病,統計分析就是對病情的診斷,決策就是開處方,“診斷”和“處方”是有區別的。
廣義的講,統計分析與決策是密不可分的。一方面,統計分析貫穿於決策過程之中。一個決策過程大體上可分為下列三個大步驟:第一,診斷問題所在,確定決策目標;第二,探索和擬定各種可能的備選方案;第三,從各種備選方案中選出最合適的方案。從這三大步驟看,盡管要用到多種方法和手段,但哪一步也離不開統計分析,第一步就是通過統計分析,診斷問題所在,並在分析的基礎上確定決策目標;第二步擬定備選方案,要經過“輪廊設想”和“細部設計”這個階段對輪廊設想的方案要做初步篩選,對每一方案要充實具體內容,“篩選”和“充實”都要經過統計分析;第三步選擇最佳方案,首先要對各個備選方案進行評價、論證,這又需要統計分析。因此可以說,沒有統計分析,也就沒有科學決策。另一方面,從某種意義上講,決策是統計分析的結果。一般來說,統計分析報告是提出問題、分析問題、指出解決問題的辦法,其實,決策方案也就是解決問題實現決策目標的辦法,只不過比“今後意見”“幾條 措施 ”之類的辦法更全面、更詳細、更科學罷了。醫生診斷是為了正確處方,治病救人,不能只診斷不處方。統計分析是為了發現問題,解決問題,推動社會經濟的順利發展;也不能只提出問題,而不尋找解決問題的辦法。從這個意義上講,統計分析也就包括預測和決策。我們不能為統計而統計,也不能為分析而分析。統計應該參與決策,為了決策科學化,必須搞好統計分析。
搞好統計分析,需要解決選題、分析、撰寫報告三個問題。
一、統計分析選題
所謂選題,就是在復雜的社會經濟現象中,確定統計分析的內容和范圍。進行統計分析,選題很重要。成功的選題是成功的分析的前提。
怎樣選好題呢?選好題標准有兩條:―是分析對象有意義,二是適合決策層和群眾需要。關鍵是抓住黨和國家的方針政策和企業的經濟效益。
統計分析課題是很廣泛的。工業統計分析課題如:計劃執行情況分析、工業凈產值統計分析、工業產品銷售統計分析、工業原材料供應和消耗統計分析、工業能源消耗統計分析、工業生產設備統計分析、工業勞動與工資統計分析、成本利潤統計分析、綜合經濟效益統計分析等。商品流通企業統計分析課題如:市場供求狀況分析、市場佔有率分析、主要商品經濟壽命周期分析、市場商品價格分析、計劃執行情況分析、購銷合同執行情況分析、商品購進質量分析、商品銷售動態分析、商品銷售構成分析、商品庫存分析、企業經濟效益分析等。對於以上內容,可根據不同的時間、地點、條件,按兩條選題標准適當選擇。
統計分析有專題分析與綜合分析之分。在一定的總體范圍內,研究總體的各個方面及其相互關系,或研究總體的主要方面的統計分析,屬於綜合分析;只研究其中某一方面,或某一部分的統計分析,屬於專題分析。兩者各有不同的特點,都是必要的,但專題分析宜多,綜合分析宜少。
二、統計分析方法
統計分析的關鍵是分析,怎樣進行統計分析呢?統計分析有兩個特點:一是以統計數字為基礎,二是以統計方法為手段。因此,統計分析在選題之後,就要根據分析的需要,搜集整理有關數字資料及具體情況,在充分佔有材料的基礎上,靈活運用統計方法進行分析。
統計分析方法很多。統計學原理中除了有關統計調查、統計整理的內容外,綜合指標、統計指數、時間數列、抽樣推斷等內容全部是統計分析方法。從方法角度上講,統計分析就是統計學原理的運用。
統計方法與人們的認識過程是相適應的。人們的認識分感性認識和理性認識兩個階段。感性認識階段所認識的是事物的現象,可採用統計調查和統計整理。理性認識階段所認識的是事物的本質和規律,這個階段要經過形成概念、進行判斷和推理等思維活動。與此相適應,要分別採用不同的統計分析方法。
形成概念一般用描述性的綜合指標法,即總量指標、相對指標和平均指標,以說明現象的規模大小、水平高低、速度快慢、內部結構以及比例關系等。判斷推理就是要判斷事物的性質,分析事物變化的原因,找出事物發展的規律。這一般要用分組分析法、動態分析法、因素分析法、相關回歸分析法、平衡分析法等。
對統計學原理中的各種統計分析方法要熟練地掌握,靈活地運用。怎樣靈活運用呢?這里有個技巧問題。技巧就是定性分析與定量分析巧妙結合。
所謂定性分析是指對事物的性質和影響事物發展變化的因素進行分析。定量分析就是分析事物的規模、水平、速度、結構、比例,以及各個因素對事物總體變化的影響方向和影響程度。定性分析與定量分析巧妙結合有兩層含義,一是二者不可偏廢,二是二者密不可分,
沒有定性分析,定量分析就沒有方向。沒有定量分析,定性分析就不準確。結合的目的是在質與量的辯證統一中探尋事物的內在聯系。
從根本上講,統計分析就是完成從感性認識到理性認識,從現象到本質的飛躍。完成了這―飛躍,才是高質量的統計分析。有些統計分析質量不高,往往就是沒有完成這一飛躍,仍然停留在表面現象上。
三、統計分析報告的撰寫
統計分析報告是統計的最終產品。如果說統計數字的准確性是統計的生命,那麼,統計分析報告的質量則關繫到統計作用的發揮。對高質量的統計分析報告的要求,可以概括為五個字,就是“准、快、新、深、活”。
准:就是實事求是地反映客觀實際。做到數字准確,情況准確,論點准確。
快:就是在決策層決策之前,不失時機地及時提供分析報告。
新:就是不斷創新。要求不斷開拓新領域,鑽研新課題,反映新情況和新問題。
深:就是要在充分佔有材料的基礎上,提高分析的深度,使認識不只停留在反映現象上,而要揭示事物的本質和規律,並且用觀點統帥材料,用材料說明觀點,做到材料和觀點的統一。
活:就是文字生動活潑,形式靈活多樣。資料要多樣化和生動具體,要有群眾語言,要通俗易懂,文字要精精煉。
統計分析報告是在統計分析的基礎上撰寫出來的。沒有好的分析,不可能寫出好的報告。經過分析階段,弄清了事實,判明了性質,探索出規律,得出了結論,在此基礎上就可以撰寫統計分析報告。但分析得好,並不等於報告寫得好,這里還有個撰寫的技巧問題,那就是准確地表述事實,透徹地闡明本質,深刻地揭示規律,恰當地提出建議。
1.准確地表述事實
每一篇統計分析報告,都需要表述所分析的現象,即說明“是什麼”。准確地表述事實,才能給讀者一個明確的概念。為此,須注意如下幾點:(1)數字要真實;(2)運用數字要適當,不要堆砌數字,搞數字文字化;(3)語言要素准確。
2.透徹地闡明本質
現象只說明事物的各個片面,本質才說明事物的整體。撰寫統計分析報告,必須深刻地揭示事物的本質,它是統計認識事物的正確程度和深度的反映。如果不能深刻地闡明事物的本質,那隻能是現象羅列,沒有多大價值。
闡明事物的本質,也就是闡明事物的基本性質。事物的性質是由事物內部矛盾的主要方面決定的。例如,某企業利潤增加,是靠漲價,還是靠降低成本?經過分析,認識到利潤增加主要是靠降低成本,這是矛盾的主要方面,這就反映出事物的性質。因此,在報告中就應闡明降低成本在提高經濟效益中的重要作用。再如某企業,本質問題是鋼材浪費嚴重,在報告中就應揭示浪費的若干方面和嚴重程度。
3.深刻地揭示規律
規律是事物內部固有的、本質的、必然聯系。成本高低與產量多少有聯系,經過推理,這種聯系是事物內部固有的、本質的必然聯系,反映了事物發展變化的規律性,而且存在一定的回歸關系。而回歸方程反映這種關系,所以在統計分析報告中,要利用回歸方程揭示這種必然聯系及其回歸關系。
4.恰當地提出建議
認識世界的目的是為了改造世界。經過統計分析,透過現象認識到事物的本質和規律,還必須提出解決問題的建議,如“今後意見”、“幾點建議”、“決策方案”等等。怎樣才算恰當地建議呢?恰當的建議要符合三個條件:(1)符合分析目的;(2)合乎客觀規律;(3)切實可行。
以上四點,一般可以作為分析報告的結構和順序,但不能千篇一律。
統計分析報告是統計分析結果的反映。既要注意提高寫作水平,更要努力鍛煉分析問題和解決問題的能力。
統計分析論文篇2試談統計分析方法應用
【摘要】統計分析方法應用於各個領域,解決了很多工業、農業、經濟、醫學等領域的實際問題,本文分析多元統計分析方法的主要應用和構建多元統計方法檢驗體系的必要性,針對性的提出了需要引起注意的共性問題,具有很強的現實意義。
【關鍵詞】統計分析方法;應用;檢驗體系;共性問題;現實意義前言
隨著信息技術的普及和廣泛應用,它推動了社會、經濟和科學技術的發展,多元統計分析方法的難題得到了攻破,各個領域廣泛採用,推動了各行各業經濟的快速發展。
二、多元統計分析方法的主要應用
統計方法是科學研究的一種重要工具,其應用頗為廣泛。在工業,農業,經濟,生物和醫學等領域的實際問題中,常常需要處理多個變數的觀測數據,因此對多個變數進行綜合處理的多元統計分析方法顯得尤為重要。隨著電子計算機技術的普及,以及社會,經濟和科學技術的發展,過去被認為具有數學難度的多元統計分析方法,已越來越廣泛地應用於實際。
聚類分析
它是研究分類問題的一種多元統計方法,聚類分析的基本思想是首先將每個樣本當作一類,然後根據樣本之間的相似程度並類計算新類與 其它 類之間距離,再選擇近似者並類每合並一次減少一類,繼續這一過程直到所有樣本都合並成為一類為止。所以聚類分析依賴於對觀測間的接近程度或相似程度的理解,定義不同的距離量度和相似性量度就可以產生不同的聚類結果。企業制定 市場營銷 戰略時要弄清在同一市場中哪些企業是直接競爭者,哪些是間接競爭者是非常關鍵的一個環節。要解決這個問題,企業首先可以通過 市場調查 ,獲取自己和所有主要竟爭者,從而尋找企業在市場中的機會。
判別分析
判別分析是已知研究對象分成若干類型,並取得各種類型的一批已知樣品的觀測數據、在此基礎上根據某些准則建立判別式,然後對未知類型的樣品進行判別分析,企業在市場預測中往往根據以往所調查的種種指標,用判別分析方法判斷下季度產品是暢銷平銷或滯銷。一般情況下判別分析經常與聚類分析聯合起來使用。
主成分分析
主成分分析就是設法將原來指標重新組合成一組新的互相無關的幾個綜合指標,來代替原來指標,同時根據實際需要從中可取幾個較少的綜台指標,盡可能多反映原來指標的信息,在市場研究中常常利用主成分析方法分析顧客的偏好和當前市場的產品與顧客之間的差別,從而提供給生產企業新產品開發方向的信息。
因子分析
因子分析是主成分分析的推廣和應用。它是將錯綜復雜的隨機變數綜合為數量較少的隨機變數去描述,多個變數之間的相關關系以再現原始指標與因子之間的相互關系。也可以認為因子分析是將指標按原始數據的內在結構分類。例如:對Y個調查區的商業網點數、人口數、金融機構服務數、收入情況等N個指標進行因子分析,如果按照一般的分析方法,我們就需要處理N個指標,並給它們以不同的權重。這樣不僅工作量變大而且由干指標之間存在比較高的相關性,會給分析結果帶來偏差另外給具有較高相關性的眾多指標,從而計算出各個調查區平均綜合實力得分以便決定在某個調查區擬建何種類型的銷售點。
三、構建多元統計分析方法檢驗體系的必要性
(一)構建多元統計分析方法檢驗體系,提高多元統計分析應用質量
多元統計分析方法已經越來越為人們廣泛應用,但應用中盲目套用分析方法的情況很多,只關心模型方法的應用。許多教科書也只側重介紹多元統計分析方法的思想、原理和分析步驟,對多元統計分析方法應用結果的統計檢驗敘述不多。這就直接影響了多元統計分析方法的應用效果和可信性。因此,本文擬對多元統計分析方法的統計檢驗問題進行探討。構建多元統計分析方法檢驗體系的目的在於進一步豐富和完善多元統計分析方法的內容體系;實踐上,使多元統計分析方法的應用更加合理、規范。推動多元統計分析方法應用質量的提高,推動多元統計分析方法獲得更廣泛的應用。
(二)多元統計分析統計檢驗體系的基礎理論
多元正態分布總體的樣本分布,即維希特分布,霍特林分布,威爾克斯分布,多元正態總體均值向量假設檢驗,包括一個正態總體均值向量假設檢驗,兩個正態總體均值向量假設檢驗,多個正態總體均值向量假設檢驗;多元正態總體協方差陣假設檢驗,包括一個正態總體協方差陣假設檢驗,多個協差陣相等假設檢驗。
(三)關於統計檢驗體系
將上述統計檢驗體系有機結合在一起,就構成了多元統計分析方法檢驗體系的基本框架。多元統計分析方法檢驗體系的構建,用多元統計分析方法,充分發揮多元統計分析方法的應用價值,提高應用質量,我們建議,在應用時,應該按照上述框架進行相應的統計檢驗。當然。上述統計檢驗體系還是一個初步的框架,隨著多元統計分析方法理論的逐步完善,上述檢驗體系也需要不斷完善,也需要更多的同行關注此類問題並不斷加以研究。另一方面,在實際應用中,即便是某種方法根據上述內容都進行了統計檢驗,由於各種方法自身存在的缺陷或局限性,也還會存在許多應用中考慮不周之處。應該引起注意。但是,因子分析結果還是具有較大主觀性。特別是對公共主因子在專業方面實際意義的解釋上,仍然保留著一種藝術氣息,並沒有統一做法,因此很多情況下也是不能令人滿意的。總之,我們在應用時,對因子分析的適用性、公因子的估計方法、公因子選取的數目。公因子的實際意義的解釋等一系列問題都要引起足夠注意。檢驗體系有如下幾個分類:
a.主成分分析統計檢驗體系
b.因子分析統計檢驗體裂引
c.系統聚類分析統計檢驗體系
d.判別分析統計檢驗體裂
e.對應分析統計檢驗體系
f.典型相關分析統計檢驗體系
四、多元統計分析方法應用中需要注意的幾個共性問題
1.關於原始數據變數的總體分布問題。
對原始變數的總體分布各種方法各有不同的要求。有的方法對原始數據變數總體分布沒有特殊的要求,如主成分分析、聚類分析、對應分析。有的方法在不同情況下,對原始變數分布有不同的要求,如因子分析中,公共因子的估計方法不同,對原始變數分布要求不同,採用極大似然估計方法估計主因子時,是假定原始變數是服從多元正態分布的,因此,應用時要引起重視,如典型相關分析要求原始變數服從正態分布,但在嚴格意義上,如果變數的分布形式比如高度偏態不會降低其他變數的相關關系,典型相關分析是可以包含這種非正態變數的。
樣本容量問題。
進行多元統計分析時,樣本容量n達到多少為宜,目前尚沒有統一的結論。有的認為樣本容量應是變數個數的10~20倍,有的認為樣本容量要在100以上比較合適,有的認為進行巴特萊特檢驗時的樣本容量應該大於150方可,也有的認為不必苛求太多的樣本容量,如在進行主成分分析和因子分析時當原始變數之間的相關性很小時,即使再擴大樣本容量,也難以得到滿意效果。
原始變數之間的相關性以及非線性關系問題。
多元統計分析方法中,有的是的要求原始變數中要具有相關性。有的則不要求原始變數具有相關性。如聚類分析中,進行Q型系統聚類分析時對原始數據變數之間的相關性也是有要求的,如選擇歐式距離、明氏距離、蘭氏距離時,則要求原始變數之間是不相關的。只有對原始數據的相關性進行了處理後,才可以選擇使用上述距離。若原始變數存在相關性,則選擇馬氏距離比較合適。另外原始變數之間的非線性關系也是需要注意的問題。如主成分分析、因子分析以及典型相關分析當基於相關矩陣來進行計算時,這里的相關矩陣實際上是Pearson的積差相關。但是,如果變數之間的關系不是線性的,而是非性相關關系,於是,所進行的分析以及結論也就失去應有的意義了。
數據處理問題。
多元統計分析中涉及多個變數,不同變數往往具有不同的量綱及不同的數量級別。在分析時,具有不同量綱的變數進行線性組合是沒有意義的,不同的數量級別的變數之間進行分析時。會導致“以大吃小”,即數量級的變數的影響會被忽略,從而影響了分析結果的合理性。因此。為了消除量綱和數量級別的影響,進行多元統計分析時,必須對原始數據進行處里,最常用的是先作標准化變換處理,然後再作相應的分析。
五、結束語
在統計分析方法的應用中,會涉及到多個變數,因此,必須根據原來有的數量進行處理,然後才能得出相應的分析結論。本文結合多元統計分析方法的理論基礎,對相關檢驗體系和分析體系進行了分析,具有現實的理論指導意義。
【參考文獻】
[1]於秀林.多元統計分析[M].北京,中國統計出版社,1999:223—224.
[2]高惠璇.應用多元統計分析[M].北京,北京大學出版社 ,2005:343—366.
[3]郭志剛.社會科學分析方法一SPSS軟體應用[M].,中國人民大學出版社,1999.
[4]傅德印.主成分分析中的統計檢驗問題 [J].統計 教育 ,2007(9):4—7.
>>>下一頁更多精彩的“統 計分 析論 文”
3. 判別分析的應用
在氣候分類、農業區劃、土地類型劃分中有著廣泛的應用。
在市場調研中,一般根據事先確定的因變數(例如產品的主要用戶、普通用戶和非用戶、自有房屋或租賃、電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變數為類別數據,有多少類別就有多少類別處理組;自變數通常為可度量數據。通過判別分析,可以建立能夠最大限度的區分因變數類別的函數,考查自變數的組間差異是否顯著,判斷那些自變數對組間差異貢獻最大,評估分類的程度,根據自變數的值將樣本歸類。
應用范圍
1)信息丟失
2)直接的信息得不到
3)預報
4)破壞性實驗
假設條件
1)分組類型在兩種以上,且組間樣本在判別值上差別明顯。
2)組內樣本數不得少於兩個,並且樣本數量比變數起碼多兩個。
3)所確定的判別變數不能是其他判別變數的線性組合。
4)各組樣本的協方差矩陣相等。
5)各判別變數之間具有多元正態分布。
6)樣品量應在所使用的自變數個數的10~20倍以上時,建立的判別函數才比較穩定;而自變數個數在8~10之間時,函數的判別效果才能比較理想。當然,在實際工作中判別函數的自變數個數往往會超過10個,但應該注意的是,自變數的個數多並不代表效果好
spss操作:「分析」~「分類」~「判別」~進入判別分析主對話框。
這里有容易引起歧義的二個變數,最上面的為分組變數。對分組變數的了解需要聯系判別分析的原理以及適用范圍。因為判別分析是已知分類數目的情況下,進行分析,這個已知的分類數目就是這個分組變數。其實,一般分析步驟中,都是先進行聚類分析,聚類之後得到的分類結果就是這個分組變數,然後再選擇這個分組變數,進行分析。也就是,聚類分析是母親,母親的孩子就是判別分析。得到的判別函數就是預測想要知道的個案究竟屬於哪一類。另一個變數就是選擇變數,它位於主對話框的最下面。這個選擇變數在回歸分析相應的對話框中也有,意思就是選擇你需要的變數,這個變數可以為數據窗口的一個整個變數,也可以利用子設置「值」進行選擇,所以,它的名字叫做選擇變數。
「統計量」子對話框:「描述性」欄,包括「均值」「單變數ANOVA」「BoxsM」
需要特別說明,以後只要見到ANOVA這個單詞,它的意思就是方差分析,也就是進一步輸出方差分析表,其中最重要的就是P值也就是Sig值。
BoxsM復選框:指的是輸出對組協方差矩陣的等同性檢驗的檢驗結果。也就是對各類協方差矩陣相等的假設進行檢驗。
「函數系數」欄:其實就是將判別函數系數進行設置。包括「費雪」和「未標准化」。費雪指的是對每一類給出一組系數,並且給出該組中判別分數最大的觀測量。
「矩陣」欄:都是復選框,對應相應的矩陣也就是在結果表中的四種數陣。「組內相關」「組內協方差」「分組協方差」「總體協方差」這個都是計算機自動計算,人工計算是不可能完成的任務。
「分類」子對話框:本文也提到過先驗概率,先驗概率就是已知一部分信息,來了解未知信息也就是後驗概率。
「所有組相等」也就是如果分為幾類,這所有的類中的先驗概率都相等。
「根據組大小計算」各類先驗概率按照和各類樣本量呈正比。
「使用協方差矩陣」欄:是二個單選框。「在組內」指使用合並組內協方差矩陣進行分析
「分組」指使用各組協方差矩陣進行分析。
「輸出」欄~「個案結果」:對每一個觀測量輸出判別分數,也就是選定變數的個案的分進哪個組的資格得分。實際類,預測類,也就是根據判別得分計算的古今對比。實際類就是目前實際上分為幾類,預測類就是過去對未來預測,它們一對比,就可以知道過去和現在差別在哪裡。附屬選項「將個案限制在」在後面的小矩形框中輸入觀測量數,含義為僅輸出設置的觀測量結果,當個案也就是觀測量太多,可以用此法。
「摘要表」輸出分類小結,給出正確和錯分的觀測量數,和錯判率。
「不考慮該個案時的分類」這個根據字面就可以理解,不贅述。
「圖」欄:「合並組」生成一張包括各類的散點圖,該散點圖根據前兩個判別函數得到,如果只有一個判別函數,則生成直方圖。
「分組」復選框:有幾類就有幾張散點圖,和上面一樣,如果只有一個判別函數,就生成直方圖。
「區域圖」復選框:將觀測量分到各組中去的區域圖。此圖將一張圖的平面劃分出類數,相同的區域,每一類占據一個區,各類的均值在各區中用星號標出,如果僅有一個判別函數,即沒有此圖。
「保存」子對話框:這個設置是非常重要的,並且特別直觀,只要選擇,就可以在數據窗口生成相應的新變數。這個新變數分別是:「預測組成員」這個預測組成員是根據判別分數,以及後驗概率最大的預測分類。也就是,每個個案的預測分類。
「判別得分」這個根據名字就可以理解。該分數=沒有標准化的判別系數×自變數的值+一個常數。每次運行判別過程都給出一組表明判別分數的新變數。有幾個判別函數就建立幾個判別函數減1的新變數。新變數名稱詞頭為dis-。
舉例:1 醫學實踐中根據各種化驗結果,疾病症狀等判斷病人患有什麼疾病。
2 體育人才選拔根據運動員的體形,運動成績,生理指標,心理素質指標判斷是否繼續培養。
3 動植物分類
判別分析最主要的分析目的:得到判別函數,對未知個案進行預測分類。
「組成員概率」表示觀測量屬於哪一類的概率,有幾類,就給出幾類概率值,新變數默認名為dis預測分類數-判別概率,例如有三類,二個判別函數,則新變數名稱可以為dis1-1,dis2-1,dis3-1,dis3-2以此類推。
逐步判別分析:只要在主對話框中選擇「使用步進式方法」,就可以篩選變數,同時,方法對話框將激活。
「方法」對話框中「標准」欄的設置和線性回歸的一樣,不贅述。
「方法」欄:原則就是,負面指標越小越好,正面指標越大越好。負面指標是wilks lambda和未解釋方差,正面指標是馬氏距離,最小F值,Raos V。馬氏距離在回歸中越大代表這個個案為影響點可能越大,也就是,只有這個個案為影響點,它越重要,越對判別函數影響越大,把它挑出來,也就是馬氏距離最大。
結果:1 sig值小於0.05,說明可以繼續分析,函數具有判別作用,也就是有統計學意義。
2 數據窗口對話框,將在「保存」子對話框設置的新變數和在主對話框的分組變數進行對比,每個個案被分到哪類,以及判別得分,都一目瞭然。
3 根據輸出表中的系數,可以寫出判別函數,進行以後的預測。
4. SPSS判別分析
判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。
y=a1x1+a2x2+……+anxn(a1為系數,Xn為變數)。事先非常明確共有幾個類別,目的是從已知樣本中訓練出判別函數
1.各自變數為連續性或有序分類變數
2.自變數和因變數符合線性假設
3.各組的協方差矩陣相等,類似與方差分析中的方差齊
4.變數間獨立,無共線性
註:違反條件影響也不大,主要看預測准不準,準的話違反也無所謂
1.對客戶進行信用預測;2.尋找潛在客戶等
1.最大似然法
適用於 自變數均為分類變數 的情況,算出這些情況的概率組合,基於這些組合大小進行判別
2.距離判別
對新樣品求出他們離各個類別重心的距離遠近,適用於 自變數均為連續變數 的情況, 對變數分布類型無嚴格要求
3.Fisher判別法
與主成份分析有關,對分布、方差等都沒有什麼限制,按照類別與類別差異最大原則提取公因子然後使用公因子判別
4.Bayes判別
強項是進行多類判別,要求總體呈多元正態分布 。利用貝葉斯公式,概率分布邏輯衍生出來一個判別方法,計算這個樣本落入這個類別的概率,概率最大就被歸為一類
在spss中一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變數較多時,一般先進行逐步判別篩選出有統計意義的變數,但通常在判別分析前我們已經做了相關的預分析,所以不推薦使用逐步判別分析(採用步進法讓自變數逐個嘗試進入函數式,如果進入到函數式中的自變數符合條件,則保留在函數式中,否則,將從函數式中剔除)。
都是研究分類的。聚類分析,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬於哪個總體。如我們對研究的多元數據的特徵不熟悉,當然要進行聚類分析,才能考慮判別分析問題。
1.自身驗證(拿訓練數據直接預測驗證,但是對預測樣本預測好不代表對新樣本預測好)
2.外部數據驗證(收集新的數據來驗證,這是最客觀最有效的,但是麻煩而且兩次收集的數據不一定是同質的)
3.樣本二分法(一般劃分2/3為訓練集,1/3為驗證集,但是浪費了1/3的樣本)
4.交互驗證(Cross-Validation)----刀切法(10分法,數據劃分為10個集合,每次挑選一個出來做驗證集,其餘9個做訓練集,可以做10次,因為驗證集可換10種可能)
在spss軟體中通過尺罩【分析】—【留一分類】獲得此項結論。
下面採用實例來說明。
如下圖-1數據集包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬,分析目的是希望能夠使用這4個變數來對花的種類進行區分。spno為事先的分組,度量標准設為【名義】。
主要是對假設條件的檢驗,在spss中 【分析】—【描述統計】—【描述】 ,如圖-2
如圖-3可以看到數據的分布沒有特別的離異點,也沒有缺失值和不合理的分布,從而可以用該數據做接下來的判別分析。
1)選擇分類變數及其范圍:如圖-4所示
【分組變數】矩形框中選擇表明已知的觀測量所屬類別的變數(一定是離散變數),在定義范圍框最小值中輸入該分類變數的最小值,最大框中輸入陵橘鬧該分類變數的最大值。
2) 指定判別分析的自變數
3) 選擇觀測量
如果希望使用一部分觀測量進行判別函數的推導而且有一個變數的某個值可以作為這些觀測量的標識,則用Select 功能進行選擇,鍵入標識參與分析的觀測量所具有的該變數值, 一般均伍升使用數據文件中的所有合法觀測量此步驟可以省略。
4) 選擇分析方法:如圖-5所示
【一起輸入自變數】 選項,當認為所有自變數都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變數進行判別分析,建立全模型,不需要進一步進行選擇。
【使用步進式方法】 選項,當不認為所有自變數都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當滑鼠單擊該項時【方法】按鈕加亮,可以進一步選擇判別分析方法。一般我們做判別分析前已經做了相關的預分析(不推薦)。
如圖-6所示【方法】選項:步進法讓自變數逐個嘗試進入函數式,如果進入到函數式中的自變數符合條件,則保留在函數式中,否則,將從函數式中剔除。可供選擇的判別分析方法有:
1.Wilks'lambda 選項,它是組內平方和與總平方和之比,用於描述各組的均值是否存在顯著差別,當所有觀測組的均值都相等時,Wilks』lambda值為1;當組內變異與總變異相比很小時,表示組件變異較大,表示組間變異較大,系數接近於0。系統默認選項。
2.未解釋方差。 它指把計算殘余最小的自變數優先納入到判別函數式中。
3.Mahalanobis』距離 。它把每步都使靠得最近的兩類間的馬氏距離最大的變數進入判別函數
4.最小 F值。它把方差差異最大的自變數優先納入到判別函數中。
5.Rao』s V 。勞氏增值法:它把勞氏統計量V產生最大增值的自變數優先納入到判別函數中。可以對一個要加入到模型中的變數的V 值指定一個最小增量。選擇此種方法後,應該在該項下面的V-to-enter 後的矩形框中輸入這個增量的指定值。當某變數導致的V值增量大於指定值的變數後進入判別函數。
【標准】:選擇逐步判別停止的判據
1.使用F值。系統默認的判據。當加人一個變數(或剔除一個變數)後,對在判別函數中的變數進行方差分析。當計算的F值大於指定的進入值時,該變數保留在函數中。默認值是3.84:當該變數使計算的F值小於指定的刪除值時,該變數從函數中剔除。默認值為2.71。即當被加入的變數F 值為3.84 時才把該變數加入到模型中,否則變數不能進入模型;或者,當要從模型中移出的變數F值<2.71時,該變數才被移出模型,否則模型中的變數不會被移出.設置這兩個值時應該注意進入值>刪除值。
2.使用F檢的概率。決定變數是否加入函數或被剔除的概率而不是用F值。加入變數的F值概率的默認值是0.05(5%),移出變數的F值概率是0.10(10%)。刪除值(移出變數的F值概率) >進入值(加入變數的F值概率)。
【輸出】:對於逐步選擇變數的過程和最後結果的顯示可以通過輸出欄中的兩項進行選擇:
1.步進摘要。要求在逐步選擇變數過程中的每一步之後顯示每個變數的統計量。
2.兩兩組間距離的F值。要求顯示兩兩類之間的兩兩F值矩陣。
這里我們選擇建立全模型,所以不用對方法進行設置。
如圖-7所示【statistics】選項:可以選擇的輸出統計量分為以下3 類:
(1) 描述性
1.平均值。可以輸出各類中各自變數的均值、標准差和各自變數總樣本的均值和標准差。
2.單變數ANOVA復選項。對各類中同一自變數均值都相等的假設進行檢驗,輸出單變數的方差分析結果。
3.Box』s M 復選項。對各組的協方差矩陣相等的假設進行檢驗。如果樣本足夠大,差異不顯著的p值表明矩陣差異不明顯。
(2)函數系數欄:選擇判別函數系數的輸出形式
1.Fisherh』s。給出Bayes判別函數的系數。對每一類給出一組系數,並給出該組中判別分數最大的觀測量。(注意:這個選項不是要給出Fisher判別函數的系數。這個復選框的名字之所以為Fisher』s,是因為按判別函數值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請注意辨別。)
2.未標准化。給出未標准化的判別函數(即典型判別函數)的系數(SPSS默認給出標准化的判別函數信息)。
(3)矩陣
1.組內相關。即類內相關矩陣,它是根據在計算相關矩陣之前將各組(類)協方差矩陣平均後計算類內相關矩陣。
2.組內協方差。即計算並顯示合並類內協方差矩陣,是將各組(類)協方差矩陣平均後計算的。區別於總協方差陣。
3.分組協方差。對每類輸出顯示一個協方差矩陣。
4.總體協方差。計算並顯示總樣本的協方差矩陣。
如圖-8所示【分類】選項:
(1) 先驗概率:兩者選其一
1.所有組相等。各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。系統默認
2.根據組大小計算。由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。
(2) 使用協方差矩陣 :選擇分類使用的協方差矩陣
1.在組內。指定使用合並組內協方差矩陣進行分類。系統默認
2.分組。指定使用各組協方差矩陣進行分類。
由於分類是根據判別函數,而不是根據原始變數,因此該選擇項不是總等價於二次判別。
(3) 圖:選擇要求輸出的統計圖
1.合並組。生成一張包括各類的散點圖。該散點圖是根據前兩個判別函數值作的散點圖。如果只有一個判別函數就輸出直方圖。
2.分組。根據前兩個判別函數值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數就輸出直方圖。
3.區域圖。生成用於根據函數值把觀測量分到各組中去的邊界圖。此種統計圖把一張圖的平面劃分出與類數相同的區域。每一類占據一個區各類的均值在各區中用*號標出。如果僅有一個判別函數,則不作此圖。
(4) 輸出欄:選擇生成到輸出窗中的分類結果
1.個案摘要。要求輸出每個觀測量包括判別分數、實際類、預測類(根據判別函數求得的分類結果)和後驗概率等。選擇此項還可以選擇其附屬選擇項:將個案限制在前,並在後面的小矩形框中輸入觀測量數n選擇。此項則僅對前n個觀測量輸出分類結果。觀測數量大時可以選擇此項。
2.摘要表。要求輸出分類的小結,給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率。
3.不考慮該個案時的分類(留一分類)。輸出對每個觀測量進行分類的結果,所依據的判別是由除該觀測量以外的其他觀測量導出的,也稱為交互校驗結果。建議勾選
(5)使用均值替換缺失值:即用該類變數的均值代替缺失值。缺失值缺失大於10%,不介意勾選
本例中如圖-8中勾選。
如圖-9所示【保存】選項:指定生成並保存在數據文件中的新變數
1.預測組成員。要求建立一個新變數,預測觀測量的分類。是根據判別分數把觀測量按後驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數預測各觀測量屬於哪一類的新變數。第1 次運行建立新變數的變數名為dis_l,如果在工作數據文件中不把前一次建立的新變數刪除,第n次運行Descriminant 過程建立的新變數默認的變數名為dis_n。
2.判別分數。要求建立fisher判別分數的新變數。該分數是由未標准化的判別系數乘自變數的值,將這些乘積求和後加上常數得來。每次運行Discriminant過程都給出一組表明判別分數的新變數,建立幾個判別函數就有幾個判別分數變數。
3. 組成員概率。Bayes後驗概率值。有m類,對一個觀測量就會給出m個概率值,因此建立m個新變數。
本例不勾選。
下面為最重要的結果,可在撰寫結論使用。