导航:首页 > 研究方法 > 分析方法的调用关系

分析方法的调用关系

发布时间:2023-08-07 15:06:24

Ⅰ 两变量之间分析方法选用总结

请看下面几个问题,如果你能轻松的知道问题的答案,那么可以不再阅读本文或快速浏览一下本文,如果不是很轻松就能知道答案,那么建议花一点时间读一下本文。

1.一个变量是否对另一个变量有影响?用什么方法?这个方法适合我的数据吗?
2.EDA探索性数据分析除了描述单变量的分布,还能做些什么。
3.在用机器学习做分类或回归问题时,都说数据决定精度的上界,模型只是去逼近这个上界,那么在对数据进行探索时,可以用哪些方法来做。

在看这个案例之前,有下面几个问题,请带着这些问题边看案例边思考:
1.如果你在工作中会怎么做这个分析?
2.他这样分析对吗?
3.如果不对,问题出在哪里,应该怎么修改?
4.如果回答不上来上述1-3问题,再看完这篇文章后,你是否可以回答1-3

要做分析,那么必然要清楚分析的数据是什么类型,不同类型的数据分析方法与处理方式是不同的,因此有必要清楚实际工作中常见的数据类型。
什么是数据?我认为凡是可以电子化记录的都是数据。 因此,数据范围会随着科技进步和计算机发展不断扩充变大。就目前技术水平与计算机发展,个人认为数据可以做如下分类:

对于两个连续型数值变量之间的关系探究,我们比较容易想到相关关系(回归先不探讨),日常工作中,我们常把相关关系和因果关系(常用回归分析探索)弄混,这里简单说一下:
相关变量的关系也可分为两种:
两个变量间相互影响——平行关系
一个变量变化受另一个变量的影响——依存关系
它们对应的分析方法:
相关分析是研究呈平行关系的相关变量之间的关系
回归分析是研究呈依存关系的相关变量之间的关系
回归分析和相关分析都是研究变量之间关系的方法,两种分析方法相互结合和渗透;可以总结为:用相关分析不一定要用回归分析;用回归分析,必先用相关分析探索一下变量之间的关系。

1.绘制散点图
2.计算相关系数并完成相关系数显着性检验

从散点图来看,变量A与变量B之间可能不存在线性相关关系。

可以看到使用pandas中的corr()方法求相关分析是只会给出相关系数,不会给出相关系数对应的显着性水平值的,因此如果想更严谨的话还是使用scipy.stats库比较好。

可以看到,在0.05的置信水平下,认为变量A和变量B是不存在显着相关关系的;但看P=0.099,其实P值不算大,如果在0.1的置信水平下,就可以认为变量A和变量B是存在显着相关关系的,这时是可以说相关系数为多少。

统计检验方法:
1.单因素方差分析(若分类变量下类别水平为2,此时单因素方差分析等价于独立样本T检验,两者可以统计量互相转换)
2.独立样本T检验(仅适用于分类变量下类别水平为2的情况)

因此为了篇幅考虑, 就以单因素方差分析适用案例作为本文的内容。

1.对数据是否符合正态分布和组间方差是否一致做检验(完成单因素方差分析的前提假设)
2.描述性分析;建议使用箱线图来进行
3.采用单因素方差分析判断分类变量是否对连续型变量有显着影响
4.若不同组间有差异,通过多重检验来判断哪个处理间存在差异

在日常工作中,我们经常碰到这样的问题,就是一个分类变量对一个连续型变量是否有影响,以植物生长作为一个案例,探究施肥是否会促进植株生成(植株生长以树高作为指标来衡量),采用控制变量的方法,采取清水作为对照组,实验组以某肥料四个浓度梯度,分别是A,B,C,D,施肥一段时间之后测量树高(要控制其他变量保持一致,比如施肥之前的树高要基本保持一致,生长势基本保持一致等等)。

数据中的teat1-4代表的就是A-D四个化肥浓度。

通过上述分析,可以看到不同化肥水平对应的植株生长存在显着影响,并且通过箱线图和多重检验可以看到,treat3和treat4对应的植株生长是和其他对照组显着差异,treat3和trea4对应的植株生长更好,因此可以建议采用treat3下的化肥水平,treat4的植株生长相较于treat3并没有太明显差异;甚至可以再继续采取一些化肥水平来判断是否当化肥水平超过treat3的水平后,化肥的提升不会再进一步影响植物生长。

统计检验方法:
卡方检验
(卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据)

通过卡方检验,可以看到P值趋近于0,小于0.05,我们可以认为男性和女性在收入上是存在显着差异的;结合列联表和做出的图,我们可以看到在高收入人群中,男性占比较大。

现在回顾第一部分的那个案例,研究的是性别和颜色偏好之间的关系,这是两个分类变量之间的关系,应该使用卡方检验而不应该使用单因素方差分析。
在本文中,没有具体交代方法论的原理,如果感兴趣可以自行查阅。现在我们可以思考下AB Test原理到底使用的方法论到底是什么? AB Test怎么选择指标更加合理,怎么设计方案更可行,得到的数据怎么分析才正确,下周会做一个关于AB Test的总结。

参考文献:
https://zhuanlan.hu.com/p/36441826 简单相关性分析(两个连续型变量)
https://www.cnblogs.com/jiaxin359/p/7995073.html 统计学当中关于变量的分类

阅读全文

与分析方法的调用关系相关的资料

热点内容
西装行李箱的正确安装方法 浏览:485
自制抽绳收纳方法视频 浏览:951
在水里写字的正确方法 浏览:180
浙江省的作文技巧和方法 浏览:541
压枪方法是手指压在哪里 浏览:927
拇指跖疣最简单的自愈方法 浏览:155
九阳豆浆机制作豆浆方法视频教程 浏览:261
一岁轮状病毒怎么治疗最好的方法 浏览:813
核桃保养油的使用方法 浏览:978
用筷子做小鸭子的简单方法 浏览:155
自动挡离合器加油的正确方法 浏览:125
学数学的基本方法和技巧初中课件 浏览:424
麻将席去螨虫的最简单方法 浏览:929
如何做到退热的方法 浏览:698
上海核桃粉芝麻的食用方法 浏览:555
如何判断直男最好方法 浏览:973
苹果7手机权限在哪里设置方法 浏览:598
心理分析方法的咨询目标 浏览:531
如何治好胃病方法 浏览:592
罗汉百合种植方法 浏览:329