Ⅰ 兩變數之間分析方法選用總結
請看下面幾個問題,如果你能輕松的知道問題的答案,那麼可以不再閱讀本文或快速瀏覽一下本文,如果不是很輕松就能知道答案,那麼建議花一點時間讀一下本文。
1.一個變數是否對另一個變數有影響?用什麼方法?這個方法適合我的數據嗎?
2.EDA探索性數據分析除了描述單變數的分布,還能做些什麼。
3.在用機器學習做分類或回歸問題時,都說數據決定精度的上界,模型只是去逼近這個上界,那麼在對數據進行探索時,可以用哪些方法來做。
在看這個案例之前,有下面幾個問題,請帶著這些問題邊看案例邊思考:
1.如果你在工作中會怎麼做這個分析?
2.他這樣分析對嗎?
3.如果不對,問題出在哪裡,應該怎麼修改?
4.如果回答不上來上述1-3問題,再看完這篇文章後,你是否可以回答1-3
要做分析,那麼必然要清楚分析的數據是什麼類型,不同類型的數據分析方法與處理方式是不同的,因此有必要清楚實際工作中常見的數據類型。
什麼是數據?我認為凡是可以電子化記錄的都是數據。 因此,數據范圍會隨著科技進步和計算機發展不斷擴充變大。就目前技術水平與計算機發展,個人認為數據可以做如下分類:
對於兩個連續型數值變數之間的關系探究,我們比較容易想到相關關系(回歸先不探討),日常工作中,我們常把相關關系和因果關系(常用回歸分析探索)弄混,這里簡單說一下:
相關變數的關系也可分為兩種:
兩個變數間相互影響——平行關系
一個變數變化受另一個變數的影響——依存關系
它們對應的分析方法:
相關分析是研究呈平行關系的相關變數之間的關系
回歸分析是研究呈依存關系的相關變數之間的關系
回歸分析和相關分析都是研究變數之間關系的方法,兩種分析方法相互結合和滲透;可以總結為:用相關分析不一定要用回歸分析;用回歸分析,必先用相關分析探索一下變數之間的關系。
1.繪制散點圖
2.計算相關系數並完成相關系數顯著性檢驗
從散點圖來看,變數A與變數B之間可能不存在線性相關關系。
可以看到使用pandas中的corr()方法求相關分析是只會給出相關系數,不會給出相關系數對應的顯著性水平值的,因此如果想更嚴謹的話還是使用scipy.stats庫比較好。
可以看到,在0.05的置信水平下,認為變數A和變數B是不存在顯著相關關系的;但看P=0.099,其實P值不算大,如果在0.1的置信水平下,就可以認為變數A和變數B是存在顯著相關關系的,這時是可以說相關系數為多少。
統計檢驗方法:
1.單因素方差分析(若分類變數下類別水平為2,此時單因素方差分析等價於獨立樣本T檢驗,兩者可以統計量互相轉換)
2.獨立樣本T檢驗(僅適用於分類變數下類別水平為2的情況)
因此為了篇幅考慮, 就以單因素方差分析適用案例作為本文的內容。
1.對數據是否符合正態分布和組間方差是否一致做檢驗(完成單因素方差分析的前提假設)
2.描述性分析;建議使用箱線圖來進行
3.採用單因素方差分析判斷分類變數是否對連續型變數有顯著影響
4.若不同組間有差異,通過多重檢驗來判斷哪個處理間存在差異
在日常工作中,我們經常碰到這樣的問題,就是一個分類變數對一個連續型變數是否有影響,以植物生長作為一個案例,探究施肥是否會促進植株生成(植株生長以樹高作為指標來衡量),採用控制變數的方法,採取清水作為對照組,實驗組以某肥料四個濃度梯度,分別是A,B,C,D,施肥一段時間之後測量樹高(要控制其他變數保持一致,比如施肥之前的樹高要基本保持一致,生長勢基本保持一致等等)。
數據中的teat1-4代表的就是A-D四個化肥濃度。
通過上述分析,可以看到不同化肥水平對應的植株生長存在顯著影響,並且通過箱線圖和多重檢驗可以看到,treat3和treat4對應的植株生長是和其他對照組顯著差異,treat3和trea4對應的植株生長更好,因此可以建議採用treat3下的化肥水平,treat4的植株生長相較於treat3並沒有太明顯差異;甚至可以再繼續採取一些化肥水平來判斷是否當化肥水平超過treat3的水平後,化肥的提升不會再進一步影響植物生長。
統計檢驗方法:
卡方檢驗 (卡方檢驗是針對自變數和因變數都是分類數據,也就是說帶有屬性的數據)
通過卡方檢驗,可以看到P值趨近於0,小於0.05,我們可以認為男性和女性在收入上是存在顯著差異的;結合列聯表和做出的圖,我們可以看到在高收入人群中,男性佔比較大。
現在回顧第一部分的那個案例,研究的是性別和顏色偏好之間的關系,這是兩個分類變數之間的關系,應該使用卡方檢驗而不應該使用單因素方差分析。
在本文中,沒有具體交代方法論的原理,如果感興趣可以自行查閱。現在我們可以思考下AB Test原理到底使用的方法論到底是什麼? AB Test怎麼選擇指標更加合理,怎麼設計方案更可行,得到的數據怎麼分析才正確,下周會做一個關於AB Test的總結。
參考文獻:
https://zhuanlan.hu.com/p/36441826 簡單相關性分析(兩個連續型變數)
https://www.cnblogs.com/jiaxin359/p/7995073.html 統計學當中關於變數的分類