導航:首頁 > 研究方法 > 數據分析方法與r語言課程作業

數據分析方法與r語言課程作業

發布時間:2022-12-10 22:31:26

❶ R語言數據分析實例一:離職率分析與建模預測

本文分析利用IBM離職員工數據進行分析。在對離職率的影響因素進行觀察的基礎至上,建立模型並預測哪些員工更易離職。

一般而言,數據分析分為三個步驟:數據收集與清洗、探索性分析和建模預測。本文的數據集是IBM用於研究員工預測的 模擬數據 ,數據十分完整,無需清洗。因此,本文主要分為三個部分:

通過對IBM離職員工數據實踐,本文希望發掘出影響員工流失的因素,並對利用R語言進行數據分析過程進行復習,深化對數據分析工作意義的理解。

IBM離職員工數據集共有35個變數,1470個觀測個案。部分需要重點關注的變數如下:

上述變數可以分為三個部分:

載入分析包和數據集

通過描述性統計可以初步觀測到:

分析結果:

基於對數據的探索性分析,員工離職有多方面因素的影響,主要有:

1.工作與生活的不平衡——加班、離家遠和出差等;
2.工作投入如果不能獲得相匹配的回報,員工更傾向離職;
3.優先股認購等福利是員工較為關注的回報形式;
4.年齡、任職過的公司數量的因素也會影響員工離職率;

刪除需要的變數:EmployeeCount, EmployeeNumber, Over18, StandardHours
變數重新編碼:JobRole, EcationFiled

分析結果表明:

隨機森林所得的AUC值為0.5612,小於決策樹模型。

GBM模型得到的AUC值為0.5915

對於對於隨機森林和GBM的方法,AUC值小於單一決策樹模型的AUC值的情況較少見,這顯然說明單一的樹擬合得更好或者更穩定的情況。(一般需要得到AUC值大於0.75的模型)

當結果分類變數之間的比列是1:10或者更高的時候,通常需要考慮優化模型。本例中,離職變數的比列是1:5左右,但仍然可能是合理的,因為在決策樹中看到的主要問題是預測那些實際離開的人(敏感度)。

加權旨在降低少數群體中的錯誤,這里是離職群體。

向上采樣(up-sampling)指從多數類中隨機刪除實例。

向下采樣(down-sampling)指從少數類中復制實例。

分析結果表明:
加權調整的模型表現最好,相比較於單純的隨機森林和GBM模型,AUC值從0.5612上升至0.7803,靈敏度也達到了0.7276。據此,後續將採用加權調整後的模型進行預測。

已經訓練出一個表現較好的模型。將其應用於實踐時,需要注意以下幾個方面:

可以觀察到影響員工流失的前5個因素是:

因此,在實踐中就需要注意:

本例中對工作投入高、收入低的員工進行預測。

本例分析仍有需要足夠完善的地方,還可以往更多更有意義的地方探索:

❷ 【R語言入門與數據分析-5】 數據分析實戰

老師的吐槽大會,樂死我了。hhh

regression,通常指用一個或者多個預測變數,也稱自變數或者解釋變數,來預測響應變數,也稱為因變數、效標變數或者結果變數的方法

存在多個變數

AIC 考慮模型統計擬合度、用來擬合的參數數目
AIC值越小,越好

更多的變數:

圖一:是否呈線性關系, 是
圖二:是否呈正態分布,一條直線,正態分布
圖三:位置與尺寸圖,描述同方差性,如果方差不變,水平線周圍的點應該是隨機分布
圖四:殘差與杠桿圖,對單個數據值的觀測,鑒別離群點、高杠桿點、強影響點

模型建好,用predict函數對剩餘500個樣本進行預測,比較殘差值,若預測准確,說明模型可以。

analysis of variance,簡稱ANOVA,也稱為變異數分析。用於兩個及兩個以上樣本均數差別的顯著性檢驗。廣義上,方差分析也是回歸分析的一種,只不過線性回歸的因變數一般是連續型變數。自變數是因子時,研究關注的重點通常會從預測轉向不同組之間的差異比較。也就是方差分析。

power analysis,可以幫助在給定置信度的情況下,判斷檢測到給定效應值所需的樣本量。也可以在給定置信度水平情況下,計算在某樣本量內能檢測到給定效應值的概率

拓展了線性模型的框架,包含了非正態因變數的分析。線性回歸、方差分析都是基於正態分布的假設
-泊松回歸 ,用來為計數資料和列聯表建模的一種回歸分析。泊松回歸假設因變數是泊松分布,並假設它平均值的對數可被未知參數的線性組合建模

-logistic 回歸

通過一系列連續型或者類別型預測變數來預測二值型結果變數是,logistic 回歸是一個非常有用的工具。流行病學研究中用的多。

Principal Component Analysis,PCA,探索和簡化多變數復雜關系的常用方法。 是一種數據降維技巧。可以將大量相關變數轉化為一組很少的不相關變數。這些無關變數成為主成分。主成分是對原始變數重新進行線性組合,將原先眾多具有一定相關性的指標,重新組合為一組的心得相互獨立的綜合指標。

探索性因子分析法 exploratory factor analysis,簡稱為EFA,是一系列用來發現一組變數的潛在結構的方法。通過找尋一組更小的、潛在的活隱藏的結構來解釋已觀測到的、顯式的變數間的關系

因子分析步驟與PCA一致

啤酒與尿布

閱讀全文

與數據分析方法與r語言課程作業相關的資料

熱點內容
中式棉襖製作方法圖片 瀏覽:63
五菱p1171故障碼解決方法 瀏覽:858
男士修護膏使用方法 瀏覽:546
電腦圖標修改方法 瀏覽:607
濕氣怎麼用科學的方法解釋 瀏覽:537
910除以26的簡便計算方法 瀏覽:805
吹東契奇最簡單的方法 瀏覽:704
對腎臟有好處的食用方法 瀏覽:98
電腦四線程內存設置方法 瀏覽:512
數字電路通常用哪三種方法分析 瀏覽:13
實訓課程的教學方法是什麼 瀏覽:525
苯甲醇乙醚鑒別方法 瀏覽:82
蘋果手機微信視頻聲音小解決方法 瀏覽:700
控制箱的連接方法 瀏覽:75
用什麼簡單的方法可以去痘 瀏覽:789
快速去除甲醛的小方法你知道幾個 瀏覽:803
自行車架尺寸測量方法 瀏覽:124
石磨子的製作方法視頻 瀏覽:152
行善修心的正確方法 瀏覽:403
土豆燉雞湯的正確方法和步驟 瀏覽:276