导航:首页 > 研究方法 > 浓缩数据分析方法

浓缩数据分析方法

发布时间:2022-04-02 04:53:48

A. 简述信息分析的方法

信息分析的方法信息分析的方法信息分析的方法信息分析的方法:
1逻辑学方法,提供正确的思维途径和基础
2系统分析方法:对整个信息分析过程起支配指导作用的方法,尤其分析复杂的对象或系统时,系统分析的方法的贡献更大。
3图书情报学方法:进行危险调研和文献分析时,图书情报学的方法是基本的和主要的,包括目录学方法、文献检索法文献剂量学方法、文献综合加工等多方面,在收集整理浓缩比较和分析中都少不了这些方法。
4社会学方法:在进行非文献调研和非文献分析,即实地调查分析时,社会学可以为信息分析提供收集实地信息的某些比较成熟的方法,为分析概念之间的关系和形成正确的概念框架、理论构架等贡献有效地方法。
5统计学方法:信息分析中进行多因素之间的关系的定量的研究,主要依赖统计学的方法。
6未来学(预测)方法:为管理和决策服务的反洗非常重视预测,预测分析在信息分析工作中已占有比较突出的地位,因此有未来学创造的和发展的许多专门用于预测的方法自然成为了信息分析方法的重要来源和必要的组成部分。
常见的信息分析方法:
一、定性分析法有:
1、归纳法:由若干已知事实作为前提,通过推理而获得的一般规律作为结论。
2、演绎法:是形式逻辑中最重要的方法,主要用于推理和论证过程。在直觉思维形成后后形成后期对形成的概念进行科学的严密的检验和论证时加以应用。
3、分析与综合法:是从客观事物中普遍存在的整体与部分的关系上把握事物本质的一般方法。 4、实证法:在理论尚不完善时,或者还没有成熟的理论模型可以利用时,用具体的实例和数字来论证所提出的意见观点和结论。
二、定量分析法:
1、统计分析法:对一定时期内的数据进行分析的方法,寻找数据发展的轨迹,获取不同变量之间的相关关系,或由数据随时间的变化来推测未来趋势。
2、预测分析法:以概率为其主要理论基础,对客观世界大量的随机事件进行探索的一种方法。根据事物过去和现在的发展规律,科学地估计未来的发展趋势。
3、系统分析法:从系统的观点出发,将研究的对象看做是一个与外部环境相联系的系统,为了更好的达到系统的目标,而对系统的要素组织结构信息流动和控制机制进行分析,并应用数学方法好计算机技术建立系统的模型,找出各要素内在的和定量的关系,再及逆行系统的优化,提出建议和方案。
三、定性定量结合法

B. 分类数据分析中的拟合优度检验

知识图谱
继续我们的知识总结,本文总结包括:多选题研究、聚类分析研究、权重研究、非参数检验、数据分布。
查看本系列之前的文章,可点击下面的链接:论文里的分析方法要用哪一种,SPSSAU告诉你答案论文常用数据分析方法分类总结-2
11. 多选题研究
多选题分析-SPSSAU
多选题分析可分为四种类型包括:多选题、单选-多选、多选-单选、多选-多选。
“多选题分析”是针对单个多选题的分析方法,可分析多选题各项的选择比例情况
“单选-多选”是针对X为单选,Y为多选的情况使用的方法,可分析单选和多选题的关系。
“多选-单选”是针对X为多选,Y为单选的情况使用的方法。
“多选-多选”是针对X为多选,Y为多选的情况使用的方法。
12. 聚类分析
聚类分析-SPSSAU
聚类分析以多个研究标题作为基准,对样本对象进行分类。
如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类”功能,系统会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量(标题)聚类,此时应该使用分层聚类,并且结合聚类树状图进行综合判定分析。
13. 权重研究
权重研究-SPSSAU
权重研究是用于分析各因素或指标在综合体系中的重要程度,最终构建出权重体系。权重研究有多种方法包括:因子分析、熵值法、AHP层次分析法、TOPSIS、模糊综合评价、灰色关联等。
因子分析:因子分析可将多个题项浓缩成几个概括性指标(因子),然后对新生成的各概括性指标计算权重。
熵值法:熵值法是利用熵值携带的信息计算每个指标的权重,通常可配合因子分析或主成分分析得到一级权重,利用熵值法计算二级权重。
AHP层次分析法:AHP层次分析法是一种主观加客观赋值的计算权重的方法。先通过专家打分构造判断矩阵,然后量化计算每个指标的权重。
TOPSIS法:TOPSIS权重法是一种评价多个样本综合排名的方法,用于比较样本的排名。
模糊综合评价:是通过各指标的评价和权重对评价对象得出一个综合性评价。
灰色关联:灰色关联是一种评价多个指标综合排名的方法,用于判断指标排名。
14. 非参数检验
非参数检验-SPSSAU
非参数检验用于研究定类数据与定量数据之间的关系情况。如果数据不满足正态性或方差不齐,可用非参数检验。
单样本Wilcoxon检验用于检验数据是否与某数字有明显的区别。
如果X的组别为两组,则使用MannWhitney统计量,如果组别超过两组,则应该使用Kruskal-Wallis统计量结果,SPSSAU可自动选择。
如果是配对数据,则使用配对样本Wilcoxon检验
如果要研究多个关联样本的差异情况,可以用多样本Friedman检验。
如果是研究定类数据与定量(等级)数据之间的差异性,还可以使用Ridit分析。
15. 数据分布
数据分布-SPSSAU
判断数据分布是选择正确分析方法的重要前提。
正态性:很多分析方法的使用前提都是要求数据服从正态性,比如线性回归分析、相关分析、方差分析等,可通过正态图、P-P/Q-Q图、正态性检验查看数据正态性。
随机性:游程检验是一种非参数性统计假设的检验方法,可用于分析数据是否为随机。
方差齐性:方差齐检验用于分析不同定类数据组别对定量数据时的波动情况是否一致,即方差齐性。方差齐是方差分析的前提,如果不满足则不能使用方差分析。
Poisson分布:如果要判断数据是否满足Poisson分布,可通过Poisson检验判断或者通过特征进行判断是否基本符合Poisson分布(三个特征即:平稳性、独立性和普通性)
卡方拟合优度检验:卡方拟合优度检验是一种非参数检验方法,其用于研究实际比例情况,是否与预期比例表现一致,但只针对于类别数据。
单样本T检验:单样本T检验用于分析定量数据是否与某个数字有着显着的差异性。
上述分析方法均可在SPSSAU中使用分析,以及相关方法问题可查看SPSSAU帮助手册。

C. spss中如何用因子分析计算各指标的权重

确定数据的权重也是进行数据分析的重要前提。可以利用SPSS的因子分析方法来确定权重。主要步骤是:

(1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。

(2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。

(3)写出主因子得分和每个主因子的方程贡献率。 Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 为主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 为各个指标,β1j、β2j、β3j、……、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。

(4)求出指标权重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指标Xi的权重。

(3)浓缩数据分析方法扩展阅读

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。

每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就成为公共因子,对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。

D. 求数据处理软件 或 数据处理方法

excel处理相当不错,我的物理实验论文就用的他处理的,作各式各样的图都行,实在不会就去借本书学一下,很简单的。
你要觉得excel不够专业,还可以使用MatLab或者MatheMatica,但是使用起来都要比excel复杂,所以还是推荐excel.
选出图表框(插入-图表)来后一步一步按照他的要求去做就行了,很容易上手。

E. 如何提高收集数据和分析数据的能力

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。

想要培养数据分析的能力,可以从两部分来着手:一是数据分析方法论的建立,二是数据分析从入门到精通的知识学习

理论:是进行分析的基础
1)基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;
2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;
3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:可以说90%的分析能力都是靠实践培养的
1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;
2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;
3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;
4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

也可以采用第三方的大数据服务平台,观向数据是一款整体的数据采集、分析、可视化系统,可以帮助企业品牌发展提供科学化决策。

F. SPSS中,用因子分析将所有题项浓缩为5个变量,如何将原始问卷的数据也变成这五个变量的数据

需要优化数据的
不然维度是按数据来划分的
效度就不好
统计专业,为您服务

G. 数据分析实践的概念有哪些

1、数据分析实践的概念——描述性分析


让我们从最基本的描述性分析数据分析方法开始。描述性分析的目的是分析历史趋势,量化相关规律,从而对人们的行为有一个清晰的认识。描述性分析包括回答“过去发生了什么”这个问题。这是最广泛和最简单的数据分析方法,用来帮助公司大致了解他们的日常运作。


描述使用基本统计和计算方法来捕捉关键指标的直观历史趋势的模型。描述模型的主要目的不是评估价值,而是洞察潜在的行为。常用的描述性分析工具有MS EXCEL, SPSS和STATA。


对于银行业务,典型的应用程序是用户集群。通过挖掘历史数据,分析客户的消费习惯和消费能力,从而进行针对性的精准营销。这些模型是实现用户配置文件的强大工具,但是它们预测相似组中个体成员行为的能力非常有限。


2、数据分析实践的概念——预测分析


预测模型使用统计模型来确定未来事件发生的可能性。它可以回答“未来会发生什么?”.


预测模型是基于描述性模型的,因为它们不仅限于使用历史数据,而且经常使用来自不同来源的结构化和非结构化数据。它提供未来可能发生的事件的浓缩报告,使决策者能够作出知情的决定。涵盖了随机森林、GM、SVM、GLM、博弈论等各种高级统计模型和复杂数学概念。


预测模型是基于描述性模型来预测未来行为的。然而,与只有粗略描述的描述性模型不同,预测模型关注的是预测,对吧?个人顾客的行为。


此外,用于运行预测模型的工具会随着模型的复杂性而变化,但是常见的工具如RapidMiner、R、Python、SAS、Matlab、Dataiku DSS以及其他许多工具都可以在Coursera上使用。


高级动态分析是银行业的一个经典例子。它可以帮助预测客户对给定市场报价的反应,从而增加交叉销售和扩大产品销售的可能性。另一个例子是预测信用卡欺诈的可能性。


3、数据分析实践的概念——规则分析


规则分析最复杂的分析方法,使用随机优化和模拟探索一系列可能的解决方案,并为给定的情况给出最佳的解决方案。它回答了“如何?”这是个问题。


规则模型超越了描述性模型——它们只处理正在发生的事情,比预测模型更强大——并且只有在它们继续提供关于未来应该做什么的建议时,它们才能告诉我们将会发生什么。它们量化未来行动对关键业务指标的影响,并提供最佳行动方针。


规则模型将大数据与业务规则相结合,通过复杂的算法比较一系列行动后最有可能出现的结果,选择最佳的行动计划,从而促进业务目标的实现。最高级的规则模型遵循一个模拟的过程,在这个过程中,模型通过持续和自动地学习当前数据来改进其智能。


这些模型通常非常复杂,而且由于它们难以控制,只能由具有强大技术技能的大公司使用。然后,当模型被正确地实现时,它会对公司决策的有效性产生巨大的影响。


这意味着超级计算机、云计算、Hadoop HDFS、Spark、数据库运行机制、MPP架构等方面的进步,使得将结构化和非结构化规则模型部署为数据源变得更加容易。但是,运行规则模型和预测模型等工具除了需要高级基础设施之外,在其他方面也非常相似。


规则模型在零售银行中的常见应用??例如,优化银行各分行的销售人员分布,使新客户数量最大化。该模型通过整合各分公司的地理位置信息、业绩和潜力水平,得出各分公司最优销售人员的最优分配方案。


有哪些数据分析实践的概念?不会这个的数据分析师都转行了,描述模型使用基本的统计和计算方法来获得关键指标的直观历史趋势。描述模型的主要目的不是估算值,而是洞察潜在的行为,你能处理好吗?如果您还担心自己入门不顺利,可以点击本站其他文章进行学习。

H. 数据分析需要掌握些什么知识

我们先从整体上了解数据分析师要掌握的技能有哪些,然后再从具体职位类别来看,不同的职位具体要掌握的技能有哪些。

这样你就能根据自己的实际情况,有针对性的准备和学习。

一、数据分析的胜任力模型是什么?

从整体上来看,数据分析师需要掌握的能力有很多,从总体上可以分为以下几类,这些能力构成了数据分析师的能力模型。


1)理论基础,包括统计学

2)数据分析工具,常用的分析工具有 Excel,SQL,Python 等

3)可视化工具,常用的有 Excel,商业智能(Business Intelligence,BI)

4)业务知识,包括常用的指标、某行业的业务流程

5)数据分析思维,包括常用的分析方法

6)通用能力,包括 PPT、沟通能力

下面我们来详细看下每一种能力的要求。

  1. 理论基础:统计学

  2. 数据分析背后的理论基础是统计学。所以,掌握了统计学以后我们才能去看懂数据表达的意义是什么。举个例子,给你一家公司员工的工资,是平均值能代表这家公司的工资水平,还是中位数能代表?

  3. 如果没学过统计学,那么可能只认识这里的平均值,而不知道中位数这个知识。但是,如果你学过了统计学就会知道,中位数比平均值更能反映出数据的集中表现。

  4. 统计学的内容比较多,详细又可以分为两类内容:描述统计分析、推论统计分析。

  5. 什么是描述统计分析?

  6. 对大量信息进行归纳是处理数据时最基本的任务。中国约有 14 亿人,一张记录每位中国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,通常我们也将多个数据集合在一起的东东叫“简称数据集”。但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。

  7. 因此,我们需要简化,将一系列复杂的数据减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8 分。

  8. 描述统计分析就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据。这样在面对一大堆数据时,你可在不知道所有数据的情况下就能知道数据的整体情况。

  9. 这就好比,我们通常一说起美女,能想到的是这样几个指标:长腿,大眼睛,脸蛋好看。虽然全国有那么多美女,你也没有见过全部的美女,但是你却能通过这样几个代表美女的指标就可以大概知道什么是美女。

同样的,描述统计学的关键点在于,找到几个关键的数字来描述数据的整体情况。那么,问题就来了,能担当起这样重要责任的数字有哪些呢?描述数据的整体情况,我们可以用 4 个指标来做,分别是:平均值、四分位数、标准差和标准分。例如,前面我们在拿到工资数据,就可以用“中位数”这样的数字来描述工资的整体情况。

所以,描述统计分析就是掌握 4 个指标:平均值,四分位数,标准差和标准分。

什么是推论统计分析?

推论统计分析就是通过样本来推断出总体。需要掌握的知识包括概率分布、中心极限定、如何用样本估计总体、置信区间、假设检验。例如,互联网常用的 AB 测试背后的原理就是假设检验,如果不掌握推论统计分析,那么连 AB 测试的结果也看不懂,更不用说完成一个 AB 测试实验。

2.数据分析工具

很多人看到现在 Python 很火,就不管自己的能力水平如何,就一头扎进学习 Python 的大潮,最后发现其实自己学不会,或者学完用不上。

这其实是不对的,真正工作里最常用的数据分析工具其实是 Excel,SQL。所以,如果你的零基础,不建议一上来就学 Python,而是先学会 Excel 分析数据,然后学会 SQL。

这样你学会了常用的分析工具,然后再学 Python 才是加分项。同时,这样学习的顺序还有一个好处,如果你是零基础没学过编程,一上来学 Python,大概率是学不会的。但是如果你学过用 Excel、SQL 处理数据,那么就具备了一定的基础,再学 Python,很多概念就会理解起来比较容易。

这就好比,一个婴儿不是一上来就学习跑步(Python),而是先把走路学会,具备了走路(Excel、SQL)的基础,再跑步就容易多了。


需要注意的是,除非是工作必须要求的,其他少部分公司用的工具其实不需要学习。比如有些公司要求其他编程语言,例如 R、SPSS、SAS 这些工具。

现在 Pyhon 已经是人工智能排名第一的编程语言了,大部分公司要求 Python,很少部分的公司要求其他的编程语言,所以学习市场要求最多的那个技能才能找到更多机会。如果你学习了少部分公司才要求的工具,那么意味着你找工作或者跳槽只能选择这些公司,而会错失其他大部分公司的求职机会,对你整个职业生涯不利。

TIOBE 编程语言排行榜是全球编程语言流行趋势的一个指标,每月更新,官网地址(https://www.tiobe.com/tiobe-index)。下图是 2021 年 2 月份排名前 10 的编程语言的变化图,其中橙色曲线是 Python,我们会发现 Python 的流行趋势越来越高。

3.可视化工具

常用的可视化工具包括 Excel、商业智能(BI)。

一般的可视化图表用 Excel 里的图表功能就可以实现,而且使用起来也方便。如果是要经常做报表,并且要求实现报表自动化,那么就需要用到商业智能(BI)工具。

那什么是商业智能(BI)呢?

微软官方给的定义是“使用用于自助服务和企业商业智能 (BI) 的统一、可扩展平台(该平台易于使用,可帮助获取更深入的数据见解),连接到任何数据并对数据进行可视化。 ”

毫无悬念,看这种官方定义就是看不懂。简单来说就是把数据导入商业智能(BI)工具中,就可以快速对数据可视化。例如下图就是把数据导入用商业智能(BI)工具中,通过可视化数据来分析。


IDC《2019 年下半年中国商业智能软件市场数据跟踪报告》显示,在中国商业智能软件子市场中,报表分析仍是目前市场最主要的需求,2019 年全年年市场份额占比为 79.0%。高级分析和预测分析市场份额占比 21.0%(下图)。


常用的商业智能(BI)工具有哪些呢?

目前使用最多的商业智能(BI)工具是 Power BI、Tableau、帆软,选择其中任意一种学习就可以了。

4.业务知识

因为数据分析是用来解决具体行业问题的,需要从业务的角度出发,了解各个指标,以及每个指标之间的关系,还需要联系业务去理解数据。所以,工作中数据分析脱离不了业务,在分析中要找到导致问题发生的根本原因,而不只是单纯的统计数据。

因此需要具备某个行业的业务知识才能去理解这个行业里的术语、业务问题等。

业务知识包括某个行业的常用指标、业务流程。需要注意的是,不同行业的指标、业务流程是不一样的,所以需要学习的时候针对你的目标行业去学习准备。例如,下图分别是金融信贷行业、在线教育行业的业务流程。

金融信贷行业业务流程(来自书《数据分析思维》)

在线教育业务流程(来自书《数据分析思维》)

如果是刚入门,这块内容做到了解即可,等进入工作以后,再慢慢深入业务,积累业务经验。具体某个行业的常用指标、业务流程可以看书《数据分析思维》,这本书里涉及了 10 多个行业的指标、业务流程。

5.数据分析思维

在数据分析相关的职位里经常会写这么一条招聘要求“具备数据分析思维”。在工作或者面试中,会经常听到分析思维、分析思路、分析方法。这三个词语有什么关系呢?其实简单来说,它们都是指分析方法。

数据分析思维需要你掌握 10 种常用的分析方法。

数据分析 10 种常用的分析方法

如果你的分析目的是想将复杂问题变得简单,就可以使用逻辑树分析方法,例如经典的费米问题就可以用这个分析方法。

如果你的分析目的是做行业分析,那么就可以用 PEST 分析方法,例如你想要研究中国少儿编程行业。

如果你想从多个角度去思考问题,那么就可以用多维度拆解分析方法,例如找相亲对象,需要从多个角度去分析是否合适。

如果你想进行对比分析,就要用到对比分析方法,例如你朋友问自己胖吗,就是在对比。

如果你想找到问题发生的原因,那么就要用到假设检验分析方法,其实破案剧里警察就是用这个方法来破案的。

如果你想知道 A 和 B 有什么关系,就要用到相关分析方法,例如豆瓣在我们喜欢的电影下面推荐和这部分电影相关的电影。

如果你想对用户留存和流失分析,就要用到群组分析方法,例如微博用户留存分析。

如果你想对用户按价值分类,那么就要用到 RFM 分析方法,例如信用卡的会员服务,就是对用户按价值分类,对不同用户使用不同的营销策略,从而做到精细化运营。

如果你想分析用户的行为或者做产品运营,就要用到 AARRR 模型分析方法,例如对拼多多的用户进行分析。

如果你想分析用户的转化,就要用到漏斗分析方法,例如店铺本周销量下降,想知道是中间哪个业务环节出了问题。

6.通用能力

通用能力包括 PPT 制作分析报告、沟通能力。

在工作中,要经常做分析结果做成数据分析报告,然后展示给业务部门、上级领导、客户等,而这种展示数据分析报告的场景常用的工具就是 PPT,所以就要求你会用 PPT 制作数据分析报告,有较好的的文字、书面总结能力。

职业社交网站领英发布的《2018 新兴工作岗位报告》报告里说,最大的技能缺口是软技能,比如口头交流、领导力和时间管理等。这份报告中建议,职场人士需要在快速变化的工作环境中,学习并保持软技能,因为拥有这些技能的人才具备更大的职场优势。

其实,任何职位都需要沟通能力,但是,数据分析师对沟通能力的要求更高。因为,数据分析师解决的是实际的问题,需要跨部门沟通业务,做好的数据分析报告也要展示给各个部门、领导、客户,只有好的沟通能力,才能让你的分析结果得到用户的认可。 那么这些通用能力如何提升呢?最直接的方式,就是通过写文章来提升。

通过写作可以同时提升你下面 3 个能力:

1)逻辑能力

写作的本质其实是把一件事情讲清楚,而逻辑能力强的人写出来的内容,读起来更顺畅。

2)文字表达能力

数据分析师要经常做数据分析报告,和通过邮件汇报分析结果。这体现的其实就是文字表达能力,提高这个能力的办法就是不断去写作。

3)沟通能力

写作其实就是把想说的话通过文字和你的用户去沟通。另外,经常在社群里提问和解答他人的问题,也可以提高你的沟通能力。你会看到不同人提问的水平是不一样的,有的人可以完整的把一个问题描述清楚,有的人说完,其他人也不明白他的问题是什么。这其实就是体现了沟通能力。

二、不同职位的数据分析能力要求有什么不一样?

经过前面的分析,我们从整体上知道了数据分析师需要掌握的能力。但并不是说,这些能力全都掌握了你才能找到一份数据分析师的工作。因为不同的职位的要求不一样的。在《职业发展前景:数据分析师的晋升通道》章节我们知道了数据分析相关职位的分类。


我把胜任力模型中的这些能力对应到不同的职位,就可以清楚的看到对应职位的能力要求(下图)。


有一个误区,很多人以为只要掌握了分析工具,就掌握了数据分析,其实不是的。从图中,我们可以看出。各个数据分析职位都需要的能力是:业务知识、分析思维、PPT、沟通能力。这些能力才可以让你从一个只会舞弄工具的普通职场人变成真正解决业务问题的职场高手。

很多人以为数据分析师需要掌握很高大的工具,其实不是的。例如腾讯里有一个岗位叫“商业数据分析师”,这听起来很高大上。其实这个职位对应的就是上图初级数据分析师的能力要求,也就是理论基础(描述统计分析),分析工具(Excel),可视化工具(Excel)。

上图中黄色标出的是相对于前一职位多出来的能力。中级数据分析师在初级数据分析师要求的能力上增加了分析工具(SQL),可视化工具(商业智能 BI)。高级数据分析师在中级数据分析师要求的能力上增加了理论基础(推论统计分析),分析工具(Python)。

Excel、SQL、Python 要掌握到什么程度?

我们知道了数据分析师最常用的分析工具是 Excel、SQL、Python。那么问题就来了,这些分析工具具体掌握哪些内容呢?

I. 对应分析方法

对应分析
对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。

对应分析的基本思想是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。

对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。

J. 数据分析

由表5-7中统计结果可知,氟在南阳盆地的土壤中虽广泛存在,但是随地理位置、土壤的埋深层位以及岩性的变化而有所差异。而且可以初步得出以下认识:

(1)土壤中总氟和水溶性氟最大值均出现在埋深70~90cm,最小值出现在0~20cm的层位,即在所调查的埋深层位100cm以内的土壤中氟含量在表层有一定的贫化现象,随着埋深的增加存在一种先增大达到最大值,然后有所减小的趋势。经计算可知,水溶性氟均值为20.19mg/kg,总氟均值为590.33mg/kg,水溶性氟含量远高于地下水中的氟含量。

图5-16 南阳盆地地下水样采集点及取样坑分布图

表5-7 南阳盆地土壤样品中不同类别氟含量特征参数统计表

(2)受地理环境条件的影响,土壤中总氟和水溶性氟的极值出现在不同的区域,但是不论氟含量多少,随不同地理位置环境条件的变化,土壤包气带对水氟迁移的影响都发挥着重要作用,在一定程度上能够调节所在区域地下水中的氟含量。

(3)而由实验统计数据可以看出,2号、5号、6 号、7 号取样坑中土样岩性单一,其中7号取样坑中各层土样岩性均为黏土,而2号、5号、6号取样坑中各层土样岩性则均为亚黏土;1号、9号、14号取样坑中土样岩性在纵向上表现为黏土亚黏土互层;15号取样坑中则为细砂粉砂互层。不同土样水溶性氟含量差别大,变化范围为1.17~197.62mg/kg,均值为20.19mg/kg;总氟含量变化范围为290.66~941.45mg/kg,均值为590.33mg/kg。根据《中国土壤元素背景值》所提供的资料,全国土壤淋溶层氟含量最小值为50mg/kg,最大值为3467mg/kg,算术平均值为478mg/kg,河南省土壤淋溶层氟含量最小值为192mg/kg,最大值为962mg/kg,算术平均值为406mg/kg。由此可见,南阳盆地土壤包气带中的氟含量偏高。

为掌握氟在各取样坑中垂向分布情况,分别绘制出土壤总氟含量与水溶性氟含量在不同取样坑中的垂向分布图(图5-17),并汇总各取样坑相同取样深度的土样数据绘制出南阳盆地氟在垂向上的变化总趋势图(图5-18)。

图5-17 8个取样坑中氟在垂向上的分布图

图5-18 南阳盆地氟在垂向上的分布总趋势图

由图5-17可以发现如下规律:

(1)在所选的8个有代表性的样品中,氟在垂向上的分布情况有相似的变化趋势,即不论是单一岩性还是多岩性互层,在1m左右的取样深度范围内,随着深度的增加,总氟含量和水溶性氟含量也总体呈现先增大后减小的趋势,拐点大致出现在90cm深度,这种趋势可以由1号、5号、6号、7号、9号、14号样坑清晰地看出。图5-18中氟在垂向上的变化趋势也为这种现象提供了有力的佐证。

(2)但在不同的取样坑中,氟的含量以及变化幅度存在较大的差异。尤其值得注意的是,总氟含量虽然整体呈增大的趋势,但在0~90cm的深度内,其含量变化曲线一般都存在着多个峰值和谷值,这显然是对地下水动态变化的响应所致。由于本区域地下水动态类型为入渗-蒸发型,地下水的垂直交替作用比较强烈,包气带中包括氟在内的盐分随大气降水的入渗以及地下水周期性的上下波动进行不断地周转,或由包气带进入地下水中,或被土壤吸附,从而在土壤包气带中再次分配。随着时间的增长,在这种动态变化向趋于平衡状态演化时,停留在土壤包气带中的氟就会产生相对稳定的分布特征。这种分布是稳态的,具有周期性涨落的特点,即它在短时间内的分布特征是存在差异的,这种差异甚至较为显着,但是在较长时间范围内的一个周期内其分布特征大致稳定。因此,短时间内地下水交替作用强烈且变动频率高的地区土壤中总氟以及水溶性氟含量随深度的变化幅度较大,且变动频率较高。而在长时期的周期变动中,土壤中总氟以及水溶性氟含量随深度的变化应该有一个较为稳定的趋势。但这种趋势会随干扰因素的不同及干扰强度的增强而产生超出正常涨落变化范围内的现象。

对于图5-18中氟含量在垂向变化趋势的原因,除岩性影响外,可能是由两种不同过程的共同作用造成的:

第一种是地表水或大气降水下渗过程中由于与土壤强烈的交替吸附作用以及强烈的淋洗作用,土壤中的水溶性氟向下运移聚集,从而使氟在垂向上有增大的趋势;此外,当大气降水入渗转化的土壤水遇到上部土壤颗粒较粗下部较细的包气带结构(如1号、9号以及15号取样坑)时,由于下部土壤颗粒较细,结构密闭紧实,土壤水的流动相对变慢,这种密实的结构起到一定阻水作用的同时也为土壤中的黏土类矿物吸附氟创造了条件。当然,土壤表层植物的根系对氟的吸收同化作用以及超渗产流的侧向淋滤作用也会对表层土壤中氟的贫化现象产生一定的影响。

第二种是潜水通过毛细作用上升过程中将地下水中的氟带入支撑毛细水上部附近的土壤中,在蒸发浓缩作用下出现“水走盐留”的现象,或者通过化学反应而被固定在土壤之中,从而使氟在潜水面上部局部积累,而这两种过程若出现交集必然使氟在垂向上的变化出现局部的峰值。

由于所选取的8个有代表性的取样坑中地下水的埋深为1~2m,而图5-18中峰值所处的位置为90~100cm,距潜水面约0~10cm,这个层位也应该是氟的局部富集带。因此,南阳盆地土壤中氟在垂向90~100cm埋深处出现峰值就不难理解了。

自氟出现峰值的埋深至潜水面处,水的交替作用更为频繁,频率更大,地下水与土壤氟的交替吸附作用更为均衡和持久,使氟的迁移和富集作用趋于动态平衡,而氟在地下水和土壤中由于交替吸附作用而达到平衡时,土壤中氟的动态含量与其吸附容量存在较大差距,而即使是氟的局部富集层位也不能达到氟的吸附饱和状态,所以,局部富集带下氟的含量存在一个较为明显的降低趋势,其含量变化幅度如图5-19所示。由图5-19 可知,总氟含量的变化幅度远大于水溶性氟的变化幅度,因此,总氟含量的降低不只是由于水溶性氟的降低所致,而是在多种物理化学作用下不同类型氟的综合变化的结果,地下水与土壤之间的各种作用对水溶性氟含量在垂向上的变化影响较为明显。

据统计可得出8个取样坑中各不同岩性的氟含量见表5-8,绘制出岩性与水溶性氟含量及总氟含量之间的变化关系图(图5-20)。

由图5-20可以看出,随着岩性由黏土—亚黏土—粉砂—细砂的变化,土壤粒径明显增大,而这种岩性变化对水溶性氟含量的影响较有规律:即在原生土壤或人工扰动不强烈的土壤中,随着土壤粒径的增大水溶性氟含量呈逐步降低的趋势。而岩性与总氟含量之间的关系较复杂,黏土及细砂中总氟含量相对于亚黏土和粉砂偏低,相差约10mg/kg,但都在580mg/kg以上,所以得出粒径的变化对总氟含量的影响不显着,这可能是受土样在垂向上位置的变化和矿物成分及含量共同影响所致。

图5-19 90~100cm埋深处氟含量变化幅度

图5-20 南阳盆地土样岩性与氟含量关系图

表5-8 8个取样坑中不同岩性的氟含量统计表

包气带作为氟在环境中迁移、转化和富集过程中的交换器和调节器,受不同地区的岩性、矿物成分以及地下水交替条件的影响,氟在其水平和垂向的含量和形态会有所差别,进而影响其调节能力。但无论其调节能力如何,包气带中氟含量都明显高于水中的氟含量。因此,包气带的调节作用在氟的迁移聚集过程中至关重要,土壤包气带与地下水中的氟存在密切的联系。

阅读全文

与浓缩数据分析方法相关的资料

热点内容
心碎治疗方法 浏览:486
传播肺结核的方法有哪些 浏览:290
京润珍珠蛋白使用方法 浏览:712
乙肝病毒常规检测方法 浏览:359
如何学习英语单词方法英语作文 浏览:65
小孩黄疸治疗方法 浏览:280
纸箱外观检测方法 浏览:625
内圆弧石膏线测量方法 浏览:626
有什么方法让水果不变色 浏览:957
制备转基因动物常用的方法 浏览:876
术后疤痕的治疗方法 浏览:900
摆野马的正确方法 浏览:928
少儿教育方法有哪些 浏览:467
长痈治疗方法 浏览:741
风油精治疗感冒咳嗽的正确方法 浏览:126
分析问题的方法和工具总结体会 浏览:448
当强迫症来了用什么方法控制 浏览:467
角磨机油锯安装方法 浏览:186
内斜视康复训练方法 浏览:246
党参五味子麦冬功效与作用及食用方法 浏览:730