导航:首页 > 研究方法 > 数据分析方法与r语言课程作业

数据分析方法与r语言课程作业

发布时间：2022-12-10 22:31:26

❶ R语言数据分析实例一：离职率分析与建模预测

本文分析利用IBM离职员工数据进行分析。在对离职率的影响因素进行观察的基础至上，建立模型并预测哪些员工更易离职。

一般而言，数据分析分为三个步骤：数据收集与清洗、探索性分析和建模预测。本文的数据集是IBM用于研究员工预测的 模拟数据 ，数据十分完整，无需清洗。因此，本文主要分为三个部分：

通过对IBM离职员工数据实践，本文希望发掘出影响员工流失的因素，并对利用R语言进行数据分析过程进行复习，深化对数据分析工作意义的理解。

IBM离职员工数据集共有35个变量，1470个观测个案。部分需要重点关注的变量如下：

上述变量可以分为三个部分：

载入分析包和数据集

通过描述性统计可以初步观测到：

分析结果：

基于对数据的探索性分析，员工离职有多方面因素的影响，主要有：

1.工作与生活的不平衡——加班、离家远和出差等；
2.工作投入如果不能获得相匹配的回报，员工更倾向离职；
3.优先股认购等福利是员工较为关注的回报形式；
4.年龄、任职过的公司数量的因素也会影响员工离职率；

删除需要的变量：EmployeeCount, EmployeeNumber, Over18, StandardHours
变量重新编码：JobRole, EcationFiled

分析结果表明：

随机森林所得的AUC值为0.5612，小于决策树模型。

GBM模型得到的AUC值为0.5915

对于对于随机森林和GBM的方法，AUC值小于单一决策树模型的AUC值的情况较少见，这显然说明单一的树拟合得更好或者更稳定的情况。（一般需要得到AUC值大于0.75的模型）

当结果分类变量之间的比列是1：10或者更高的时候，通常需要考虑优化模型。本例中，离职变量的比列是1：5左右，但仍然可能是合理的，因为在决策树中看到的主要问题是预测那些实际离开的人（敏感度）。

加权旨在降低少数群体中的错误，这里是离职群体。

向上采样（up-sampling）指从多数类中随机删除实例。

向下采样（down-sampling）指从少数类中复制实例。

分析结果表明：
加权调整的模型表现最好，相比较于单纯的随机森林和GBM模型，AUC值从0.5612上升至0.7803，灵敏度也达到了0.7276。据此，后续将采用加权调整后的模型进行预测。

已经训练出一个表现较好的模型。将其应用于实践时，需要注意以下几个方面：

可以观察到影响员工流失的前5个因素是：

因此，在实践中就需要注意：

本例中对工作投入高、收入低的员工进行预测。

本例分析仍有需要足够完善的地方，还可以往更多更有意义的地方探索：

❷ 【R语言入门与数据分析-5】数据分析实战

老师的吐槽大会，乐死我了。hhh

regression，通常指用一个或者多个预测变量，也称自变量或者解释变量，来预测响应变量，也称为因变量、效标变量或者结果变量的方法

存在多个变量

AIC 考虑模型统计拟合度、用来拟合的参数数目
AIC值越小，越好

更多的变量：

图一：是否呈线性关系，是
图二：是否呈正态分布，一条直线，正态分布
图三：位置与尺寸图，描述同方差性，如果方差不变，水平线周围的点应该是随机分布
图四：残差与杠杆图，对单个数据值的观测，鉴别离群点、高杠杆点、强影响点

模型建好，用predict函数对剩余500个样本进行预测，比较残差值，若预测准确，说明模型可以。

analysis of variance，简称ANOVA，也称为变异数分析。用于两个及两个以上样本均数差别的显着性检验。广义上，方差分析也是回归分析的一种，只不过线性回归的因变量一般是连续型变量。自变量是因子时，研究关注的重点通常会从预测转向不同组之间的差异比较。也就是方差分析。

power analysis，可以帮助在给定置信度的情况下，判断检测到给定效应值所需的样本量。也可以在给定置信度水平情况下，计算在某样本量内能检测到给定效应值的概率

拓展了线性模型的框架，包含了非正态因变量的分析。线性回归、方差分析都是基于正态分布的假设
-泊松回归，用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布，并假设它平均值的对数可被未知参数的线性组合建模

-logistic 回归

通过一系列连续型或者类别型预测变量来预测二值型结果变量是，logistic 回归是一个非常有用的工具。流行病学研究中用的多。

Principal Component Analysis，PCA，探索和简化多变量复杂关系的常用方法。是一种数据降维技巧。可以将大量相关变量转化为一组很少的不相关变量。这些无关变量成为主成分。主成分是对原始变量重新进行线性组合，将原先众多具有一定相关性的指标，重新组合为一组的心得相互独立的综合指标。

探索性因子分析法 exploratory factor analysis，简称为EFA，是一系列用来发现一组变量的潜在结构的方法。通过找寻一组更小的、潜在的活隐藏的结构来解释已观测到的、显式的变量间的关系

因子分析步骤与PCA一致

啤酒与尿布

阅读全文

与数据分析方法与r语言课程作业相关的资料

热点内容

如何简单说出两直线平行方法发布：2025-03-06 23:09:55 浏览：951

怎样快速熟悉电脑使用方法发布：2025-03-06 23:09:40 浏览：99

红茶泡法正确方法图片发布：2025-03-06 23:00:48 浏览：758

绿吕洗发水使用方法发布：2025-03-06 22:53:10 浏览：645

贵州炉子制作方法视频发布：2025-03-06 22:47:21 浏览：304

舞蹈潜质训练方法发布：2025-03-06 22:43:08 浏览：454

性格优缺点分析方法发布：2025-03-06 22:32:04 浏览：125

有什么方法降低鼠标声音吗发布：2025-03-06 22:29:47 浏览：320

红包跳包排序解决方法发布：2025-03-06 22:28:36 浏览：444

情志焦虑病的中医治疗方法发布：2025-03-06 22:21:52 浏览：78

铁锅首次使用方法发布：2025-03-06 22:18:52 浏览：270

湖北松花粉食用方法发布：2025-03-06 22:04:06 浏览：554

早上美声快速开声的方法发布：2025-03-06 21:55:03 浏览：801

万能表使用方法说明书发布：2025-03-06 21:54:10 浏览：750

聚类分析相对于主成分分析方法发布：2025-03-06 21:54:00 浏览：817

电子表格怎么选择求和方法发布：2025-03-06 21:40:34 浏览：826

小米手机亮屏时间在哪里设置方法发布：2025-03-06 21:31:59 浏览：538

马桶堵了的解决方法视频发布：2025-03-06 21:30:14 浏览：408

嘴疱疹怎么治疗方法发布：2025-03-06 21:25:44 浏览：963

培智教育教学方法书籍推荐发布：2025-03-06 21:23:29 浏览：335