① 研究生你必須知道的幾種數據分析方法
近幾天你是否被世界盃刷屏,話說他,荷蘭人,45歲,因喝醉酒買了德國7-1巴西,200歐元,6500賠率,創世界盃單場最高金額1300000 歐元,摺合1100W人民幣。
理工男的直覺告訴明明同學是這樣的,他肯定學過數據分析,對德國和巴西歷史進球和比賽結果加上每個球隊球員的表現進行建模,得出一個預測模型,然後把本屆每個國家球員素質,心裡以及他們的社交什麼的因素帶入模型,然後就預測出本屆的比分7-1(好了,我編不下去了)。由此可見數據分析的重要性。 在研究生博士生階段,你的數據分析做的好,那麼你的paper發的是杠杠的 。今天明明同學就給大家分享研究生階段你必須了解的一些數據分析方法。
方差分析是最常用的一種分析方法,用於兩個及兩個以上樣本均數差別的顯著性檢驗。
1、各樣本是相互獨立的隨機樣本
2、各樣本均來自正態分布總體
3、各樣本的總體方差相等,即具有方差齊性
方差分析分為 單因素 和 多因素 方差分析,多因素方差分析又有 含交互作用 和 無交互作用 的兩種。
單因素方差分析是檢驗同一因數下不同水平之間的顯著性。例如光照時間對苗木生長是否有影響,那麼因素就是光照時間,水平可以有光照2h、4h、6h、8h等。檢驗目的是4種不同的光照時間對苗木的生長是否有差異。
雙因素方差分析是檢驗多因素多水平下的顯著性。其中不含交互作用是指某一因素對其他因素沒有影響,即其他因素固定,某一因素不同水平之間均數的差別。交互作用是指某因素的單獨效應,隨另一因素水平而變化,且不能用隨機誤差解釋。
1、樣本是否正態分布檢驗
2、樣本方差齊性檢驗
3、提出原假設:H0——無差異;H1——有顯著差異,(交互作用的假設H03和H13)
4、選擇檢驗統計量:方差分析採用的檢驗統計量是F統計量,即F值檢驗
5、計算檢驗統計量的觀測值和概率P值
6、給定顯著性水平,並作出決策
7、如果有顯著差異,需要進行多重比較
關於方差分析的方法在微信公共號"畢業零距離"里種介紹了三種方法即:
《如何用EXCEL做方差分析》、《如何用SPSS做方差分析》、《如何用R語言做方差分析》。有不懂的隨時私信明明同學。
回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法,是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系,例如不同的施肥量對苗木高生長的關系、中國人的消費習慣對美國經濟的影響等。其又分為線性回歸分析和非線性回歸分析。
和方差分析一樣,數據必須滿足獨立、正態、方差齊性。
(1)確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;
(2)對求得的回歸方程的可信度進行檢驗;
(3)判斷自變數X對因變數Y有無影響;
(4)利用所求得的回歸方程進行預測和控制。
1、Linear Regression線性回歸,2、Logistic Regression邏輯回歸,3、Polynomial Regression多項式回歸,4、Stepwise Regression逐步回歸等常見回歸模型。
1、製作散點圖,判斷變數關系(簡單線性、非線性等);
2、求相關系數及線性驗證;
3、求回歸系數,建立回歸方程;
4、回歸方程檢驗;
5、參數的區間估計;
6、預測;
關於回歸分析的做法,我們以後會推出相應的教程,加大家如何使用EXCEL、SPSS、和R語言做回歸分析。
判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。
解決的問題是在一些已知研究對象已經用某種方法分成若干類的情況下,確定新的樣品屬於已知類別中的哪一類。他用途廣泛,如動植物分類、醫學疾病診斷、社區種類劃分等。
1、每一個判別變數都不能是其他判別變數的線性組合
2、各個判別變數之間具有多元正態分布,即控制N-1個變數為固定值時,第N個變數滿足正態分布
3、滿足②條件時,使用參數法計算判別函數,否則使用非參數法計算判別函數。
Fisher判別(屬於確定性判別)包括距離判別、線性判別、非線性判別和典型判別。
Bayes判別(屬於概率性判別)
關於判別分析的做法,我們以後會推出相應的教程。
是把分類對象按照一定規則分成若干類,這些類不是事先設定的,而是根據數據的特徵確定的。在同一類中這些對象在某種意義上趨向於彼此相似,而在不同類中對象趨向於彼此不相似。
系統聚類法、快速聚類法、模糊聚類法。
系統聚類
常用的有如下六種:
1、最短距離法;2、最長距離法;3、類平均法;4、重心法;5、中間距離法;6、離差平方和法
快速聚類常見的有K-means聚類。
所有聚類的基本原則都是:
希望族(類)內的相似度盡可能高,族(類)間的相似度盡可能低(相異度盡可能高)。
主成分分析,是考察多個變數間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變數間的內部結構,即從原始變數中導出少數幾個主成分,使它們盡可能多地保留原始變數的信息,且彼此間互不相關。
1、將原始數據標准化,以消除變數之間在數量級和量綱上的不同。
2、求標准化的相關矩陣。
3、求相關矩陣的特徵值和特徵向量。
4、計算方差貢獻率和累計方差貢獻率,每個主成分的貢獻率代表了原始數據總信息量的百分比。
5、確定主成分。
6、用原指標的線性組合來計算各個主成分的得分。
7、綜合得分,然後進行得分排序。
在R語言和SPSS中很容易實現主成分分析。
有任何問題可以隨時私信明明同學,幫助你解決數據分析的難處。