一、描述性统计
描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。
1、缺失值填充:常用方法有剔除法、均值法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、回归分析
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。
1. 一元线性分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
2. 多元线性回归分析
使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。
4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。
三、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。
四、假设检验
1. 参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
2. 非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
1)虽然是连续数据,但总体分布形态未知或者非正态;
2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
2. 数据分析的几种常用方法21-10-27
几种常见的数据分析分析方法:
1.周期性分析(基础分析)
What :主要是从日常杂乱的数据中,发现周期性出现的现象,而从避免或改善问题的发生。常见的两种周期:自然周期和生命周期。
需要注意的点:虽然周期性分析主要针对时间序列,但不全是,例如公众号的文章阅读走势不仅和日期(工作日或周末)相关,也和文章类型相关。
例如:销售中3,6,9,12月,由于绩效考核出现的峰值
重点节假日对和交付的影响
产品销售的季节性影响(例如北方下半年的采暖产品,入夏空调的销售旺季等)
How: 自然后期的时间维度,根据分析的需求,可从年(同环比,业绩达成、和行业趋势对比),月(淡旺季、销售进度、生产预测),周(一般较少),日(工作日,非工作日的差异分析),时(时间分布,工作时段,上下班高峰,晚上,主要和大众消费行为分析相关)进行展开
生命周期一种常见的分析就“商品生命周期”,商品销量随上市时间的变化,通过时间轴+指标走势组合出来的。这种分析对快消品或者产品迭代速度很快的商品(典型如手机)是比较重要的,可以用于监控产品的市场表现,对照市场活动可以量化活动效果以及产品线的经营情况,如持续跟进,则可针对性的提出产品上市的建议。
2.矩阵分析(重要分析方法)
矩阵分析是数据分析中非常重要的分析方法。主要解决分析领域的一个非常致命的核心问题:“到底指标是多少,才算好”。
平均数是一个非常常用的数据维度,但是单一维度,并不能充分评价好坏。例如考核销售,如果只考核业务销售业绩,那么业务人员一定会倾向卖利润低的引流产品。那种利润高,价格高,不容易卖的利润型产品就没人卖了,最后销售越多,公司的利润反而下降了。这个时候通过两个维度:销售规模和销售利润,构建交叉矩阵,就能将业务业绩进行更有效的区分。
举个简单的例子,一个销售团队,10名销售一个月内开发的客户数量,产生的总业绩用矩阵分析法进行分析(具体数据略):
第一步:先对客户数量、业绩求平均值
第二步:利用平均值,对每个销售人员的客户数量、业绩进行分类
第三步:区分出多客户+高业绩,少客户+高业绩,多客户+低业绩,少客户+低业绩四类
矩阵分析把关键业务目标拆分为两个维度,每个维度进行高低分类,进而可以对目标进行更加立体的描述。维度高低分类多采用 平均值作为参考 值。
注意:有两个场景,是不适合用矩阵分析法:
一:有极大/极小值影响了平均值的时候,一般出现极大/极小值的时候,可以用: 分层分析法 。
二:两个指标高度相关的时候,例如用户消费金额与消费频次,两个指标天生高度相关,此时数据分布会集中在某一个或两个区域,矩阵分析法的业务解读能力接近0,可采用 相关分析法
3.结构分析
What: 结构分析是将分析的目标,向下分解,主要用于发现问题。
例如销售分析,可以按照区域—省—市 一级级的分解,分解之后可以更好的看出影响销售业绩的影响因素在哪个位置。
结构分析可以有多个维度,取决于我们需要分析的方向。例如还是销售分析,可以从产品构成进行拆解,也可用从业务形态拆解
How:如何进行结构分析?
第一步:定出要分析的关键指标(一般是业绩、用户量、DAU、利润等等)
第二步:了解关键指标的构成方式(比如业绩,由哪些用户、哪些商品、哪些渠道组成)
第三步:跟踪关键指标的走势,了解指标结构变化情况
第四步:在关键指标出现明显上升/下降的时候,找到变化最大的结构分类,分析问题
注意:结构分析的不足
结构分析法是一种:知其然,不知其所以然的方法。只适用于发现问题,不能解答问题
4.分层分析
What: 分层分析,是为了应对 平均值失效 的场景。典型的平均值失效例如平均工资,很多人都被“代表”。这个时候需要把收入群体分成几类,例如土豪,普通百姓,穷光蛋等,后面进行分析时就比较清楚了。业内也有一些不同的叫法,比如应用于商品的,叫ABC分类,应用于用户的,叫用户分层,应用于业务的,叫二八法则。本质都是一回事。
How:如何进行分层分析
1.明确分层对象和分层指标
例如:想区分用户消费力,分层对象就是:用户,分层指标就是:消费金额
想区分商品销售额,分层对象就是:商品,分层指标就是:销售金额
想区分部销售额,分层对象就是:分部,分层指标就是:销售收入
2.查看数据,确认是否需要分层。分层是应对平均值失效的情况的,存在极值影响的情况,则适合分层。
3.设定分层的层级。最好的解决办法是老板拍板,其次可以用“二八原则”,以上述销售业绩分层为例,可以先从高到低排序,然后把累积业绩占80%的人选出来,作为“第1层级(优等)”,其他的归为“第2层级(次等)”。有时如果颗粒度不够,也可以用“二四六八十”法则”。
如何应用分层
分层的最大作用是帮我们看清楚:到底谁是主力 ,谁是吊车尾。从而指导业务,从人海战术向精兵简政思考。
根据分层的结果找出差距,进而提出(假设)差异背后可能的原因,通过其它方式进行
应用 :客户分析,目前系统中客户超5000个,为了更好的了解客户结构,可以通过分层分析的方法对这5000个客户进行分层,分层的方式通过年销售规模,可以按照累计规模排序,一般采用4-6个层级,每个层级可以给一个标签。例如王者客户,腰部客户,mini客户等。分层后,便可以针对性的进行分析,例如客户层级的销售占比,变动,各层级客户的销售构成,结合其它方法就可以有较全面的分析
5.漏斗分析(待补充)
6.指标拆解(待补充)
7.相关性分析(待补充)
What :两个(或多个)因素之间的关系。例如员工人数与销售额,市场推广与销售业绩,天气和销售表现等
很多因素我们直观的感觉到之间有联系,相互影响,但具体的关系是什么,如何产品影响的,可以通相关性分析来量化。
例如,客户开拓中拜访客户的次数和客户成交是否有关系?
拜访次数多,表明客户也感兴趣,所以成功几率大
拜访这么多,客户还不成交,成功几率不大
客户成交和拜访关系不太大,主要看你是否能打动他
How :两种联系:直接关系,间接关系
直接关系 :整体指标与部分指标的关系——结构分析,例如销售业绩与各中心的业绩
主指标与子指标的关系——拆解分析,例如总销售规模和客户数量与客户销售规模
前后步骤间的关系——漏斗分析:例如销售目标和项目覆盖率,储备率,签约等因素间的关系
联系中,指标之间出现一致性的变化,基本是正常,如果出现相反的变动,则需要关注,这可能是问题所在
间接关系 :要素之间没有直接的联系,但存在逻辑上的连接。例如推广多了,知名度上市,进而销售额上升。
由于关系非显性,需要通过处理进行评价,常用的就是散点图和excel中的相关系数法
在明确相关性后,就可以通过改变其中一个变量来影响和控制另一个变量的发展。
注意:相关性分析也存在很大的局限。主要体现在相关性并不等同因果性。例如十年前你在院子里种了一颗树,你发现树每天的高度和中国近十年GDP的增速高度相关,然后这两者间并没有什么实质性的联系。此次相关性分析过程中一定注意要找到关联的逻辑自洽。
8.标签分析(待补充)
9.
3. 数据分析常用的分析方法有哪些
1. 描述型分析
这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。
例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。
2. 诊断型分析
描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。
良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。
3. 预测型分析
预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。
预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。
4. 指令型分析
数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
4. 统计数据分析的基本方法有哪些
1、对比分析法
就是将某一指标与选定的比较标准进行比较,比如:与历史同期比较、与上期比较、与其他竞争对手比较、与预算比较。一般用柱状图进行呈现。
2、结构分析法
就是对某一项目的子项目占比进行统计和分析,一般用饼图进行呈现。比如:A公司本年度营业额为1000万,其中饮料营业额占33.6%、啤酒占55%,其他产品的营业额占11.4%。
3、趋势分析法
就是对某一指标进行连续多个周期的数据进行统计和分析,一般用折线图进行呈现。比如:A公司前年度营业额为880万,去年900万,本年度1000万,预计明年为1080万。
4、比率分析法
就是用相对数来表示不同项目的数据比率,比如:在财务分析中有“盈利能力比率、营运能力比率、偿债能力比率、增长能力比率”。
5、因素分析法
就是对某一指标的相关影响因素进行统计与分析。比如,房价与物价、土地价格、地段、装修等因素有关
6、综合分析法
就是运用多种分析方法进行数据的统计与分析,比如:5W2H分析法、SWOT分析法、PEST分析法、漏斗分析法等。
5. 数据分析的方法有哪些
数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。
1.对比分析法:对比分析法指通过指标的对比来反映事物数量上的变化,属于统计分析中常用的方法。常见的对比有横向对比和纵向对比。
横向对比指的是不同事物在固定时间上的对比,例如,不同等级的用户在同一时间购买商品的价格对比,不同商品在同一时间的销量、利润率等的对比。
数据分析方法是数据统计学当中应用非常广泛的方法,具体方法有很多种,具体采用的时候因人而异。
6. 常用数据分析处理方法有哪些
常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。
1、聚类分析:聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
2、因子分析:因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。
3、相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系。
4、对应分析:对应分析也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
5、回归分析:回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析。
6、方差分析:又称“变异数分析”或“F检验”,方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显着影响的变量。
想要了解更多关于数据分析的相关信息,推荐选择十方融海。十方融海作为技术创新型企业,坚持源头核心技术创新,为用户提供听得懂、学得会、用得上的产品。该机构的解决方案和社会价值获得了主流媒体报道,与厦门大学、深圳大学、华南理工大学等高校达成校企合作,探索产教融合、成人教育新模式。用科技推动教育改革,让教育创造美好生活。
7. 统计学中常用的数据分析方法有哪些
1、描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。
2、假设检验
参数检验:参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
3、信服分析
介绍:信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。
信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
8. 数据分析方法有哪些
常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。
1、聚类分析(Cluster Analysis)
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
2、因子分析(Factor Analysis)
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。
3、相关分析(Correlation Analysis)
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。
4、对应分析(Correspondence Analysis)
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
5、回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,?,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
6、方差分析(ANOVA/Analysis of Variance)
又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显着性检验。由于各种因素的影响,研究所得的数据呈现波动状。
想了解更多关于数据分析的信息,推荐到CDA数据认证中心看看,CDA(Certified Data Analyst),即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。