导航:首页 > 知识科普 > 有哪些新奇的数据监测的方法

有哪些新奇的数据监测的方法

发布时间:2023-08-12 03:18:32

① 数据收集和分析常用方法

一、头脑风暴法:

常用于“收集需求”过程中,属于群体创新技术。联想是产生新观念的基本过程。在集体讨论问题的过程中,每提出一个新的观念,都能引发他人的联想。相继产生一连串的新观念,产生连锁反应,形成新观念堆,为创造性地解决问题提供了更多的可能性。

在不受任何限制的情况下,集体讨论问题能激发人的热情。人人自由发言、相互影响、相互感染,能形成热潮,突破固有观念的束缚,最大限度地发挥创造性地思维能力。

在有竞争意识情况下,人人争先恐后,竞相发言,不断地开动思维机器,力求有独到见解,新奇观念。心理学的原理告诉我们,人类有争强好胜心理,在有竞争意识的情况下,人的心理活动效率可增加50%或更多。

二、德尔菲技术:

常用于“收集需求”过程中,属于群体创新技术。这一方法的步骤是:

(1)根据问题的特点,选择和邀请做过相关研究或有相关经验的专家。

(2)将与问题有关的信息分别提供给专家,请他们各自独立发表自己的意见,并写成书面材料。

(3)管理者收集并综合专家们的意见后,将综合意见反馈给各位专家,请他们再次发表意见。如果分歧很大,可以开会集中讨论;否则,管理者分头与专家联络。

(4)如此反复多次,最后形成代表专家组意见的方案。

德尔菲法的典型特征

(1)吸收专家参与预测,充分利用专家的经验和学识;

(2)采用匿名或背靠背的方式,能使每一位专家独立自由地作出自己的判断;

(3)预测过程几轮反馈,使专家的意见逐渐趋同。

优点:能充分发挥各位专家的作用,集思广益,准确性高。能把各位专家意见的分歧点表达出来,取各家之长,避各家之短。

缺点:德尔菲法的主要缺点是过程比较复杂,花费时间较长。

三、帕累托图:

常用于“实施质量控制”过程中。帕累托图又叫排列图、主次图,是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。可以用来分析质量问题,确定产生质量问题的主要因素。标准帕累托图按等级排序的目的是指导如何采取纠正措施:项目班子应首先采取措施纠正造成最多数量缺陷的问题。从概念上说,帕累托图与帕累托法则一脉相承,该法则认为相对来说数量较少的原因往往造成绝大多数的问题或缺陷。

排列图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率.分析线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对排列图的观察分析可以抓住影响质量的主要因素.

帕累托法则往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。

X(经典帕累托图)

四、控制图:

常用于“规划质量、实施质量控制”过程中,就是对生产过程的关键质量特性值进行测定、记录、评估并监测过程是否处于控制状态的一种图形方法。根据假设检验的原理构造一种图,用于监测生产过程是否处于控制状态。它是统计质量管理的一种重要手段和工具。

它是一种有控制界限的图,用来区分引起的原因是偶然的还是系统的,可以提供系统原因存在的资讯,从而判断生产过于受控状态。控制图按其用途可分为两类,一类是供分析用的控制图,用来控制生产过程中有关质量特性值的变化情况,看工序是否处于稳定受控状;再一类的控制图,主要用于发现生产过程是否出现了异常情况,以预防产生不合格品。

7点规则:如果遇到连续7点数据落在平均线的同一侧。那么,应当考虑是否存在特殊原因。因为,一个点落在平均线一侧的概率是1/2。连续两点落在同一侧的概率是1/2中的1/2=1/4。连续三点落在同一侧的概率是1/4中的1/2=1/8。如此下去,连续七点落在同一侧的概率是(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)=1/128=0.0078。这个概率值是千分之8。这个概率应当讲是很小的。当我们在生产抽样的时候,这样小的概率是不应当被抽到的。现在被抽到了,说明不正常了,就有可能发生了特殊原因。

五、SWOT分析:

常用于“识别风险”过程中,其中,S代表strength(优势),W代表weakness(弱势),O代表opportunity(机会),T代表threat(威胁)。其中,S、W是内部因素,O、T是外部因素。这种分析常用于企业内部分析方法,即根据企业自身的既定内在条件进行分析,找出企业的优势、劣势及核心竞争力之所在。

近来,SWOT分析已广被应用在许多领域上,如学校的自我分析、个人的能力自我分析等方面。比如,在利用SWOT对自己进行职业发展分析时,可以遵循以下五个步骤:

第一步,评估自己的长处和短处每个人都有自己独特的技能、天赋和能力。在当今分工非常细的环境里,每个人擅长于某一领域,而不是样样精通。(当然,除非天才)。举个例子,有些人不喜欢整天坐在办公室里,而有些人则一想到不得不与陌生人打交道时,心里就发麻,惴惴不安。请作个列表,列出你自己喜欢做的事情和你的长处所在。同样,通过列表,你可以找出自己不是很喜欢做的事情和你的弱势。找出你的短处与发现你的长处同等重要,因为你可以基于自己的长处和短处上,作两种选择;或者努力去改正常的错误,提高你的技能,或是放弃那些对你不擅长的技能要求的学系。列出你认为自己所具备的很重要的强项和对你的学习选择产生影响的弱势,然后再标出那些你认为对你很重要的强弱势。

第二步,找出您的职业机会和威胁。我们知道,不同的行业(包括这些行业里不同的公司)都面临不同的外部机会和威胁,所以,找出这些外界因素将助您成功地找到一份适合自己的工作,对您求职是非常重要的,因为这些机会和威胁会影响您的第一份工作和今后的职业发展。如果公司处于一个常受到外界不利因素影响的行业里,很自然,这个公司能提供的职业机会将是很少的,而且没有职业升迁的机会。相反,充满了许多积极的外界因素的行业将为求职者提供广阔的职业前景。请列出您感兴趣的一两个行业,然后认真地评估这些行业所面临的机会和威胁。

第三步,提纲式地列出今后3-5年内您的职业目标。仔细地对自己做一个SWOT分析评估,列出您5年内最想实现的四至五个职业目标。这些目标可以包括:您想从事哪一种职业,您将管理多少人,或者您希望自己拿到的薪水属哪一级别。请时刻记住:您必须竭尽所能地发挥出自己的优势,使之与行业提供的工作机会完满匹配。

第四步,提纲式地列出一份今后3-5年的职业行动计划。这一步主要涉及到一些具体的内容。请您拟出一份实现上述第三步列出的每一目标的行动计划,并且详细地说明为了实现每一目标,您要做的每一件事,何时完成这些事。如果您觉得您需要一些外界帮助,请说明您需要何种帮助和您如何获取这种帮助。例如,您的个人SWOT分析可能表明,为了实现您理想中的职业目标,您需要进修更多的管理课程,那么,您的职业行动计划应说明要参加哪些课程、什么水平的课程以及何时进修这些课程等等。您拟订的详尽的行动计划将帮助您做决策,就像外出旅游前事先制定的计划将成为您的行动指南一样。

第五步,寻求专业帮助。能分析出自己职业发展及行为习惯中的缺点并不难,但要去以合适的方法改变它们却很难。相信您的朋友、上级主管、职业咨询专家都可以给您一定的帮助,特别是很多时候借助专业的咨询力量会让您大走捷径。有外力的协助和监督也会让您更好的取得效。

六、敏感性分析:

常用于“实施定量风险分析”过程中,敏感性分析的作用是确定影响项目风险的敏感因素。寻找出影响最大、最敏感的主要变量因素,进一步分析、预测或估算其影响程度,找出产生不确定性的根源,采取相应有效措施。敏感性分析有助于确定哪些风险对项目具有最大的潜在影响。它把所有其他不确定因素保持在基准值的条件下,考察项目的每项要素的不确定性对日标产生多大程度的影响。敏感性分析最常用的显示方式是龙卷风图。龙卷风图有助于比较具有较高不确定性的变量与相对稳定的变量之间的相对重要程度。

七、预期货币价值:

又称风险暴露值、风险期望值,是定量风险分析的一种技术,常和决策树一起使用,它是将特定情况下可能的风险造成的货币后果和发生概率相乘,此项目包含了风险和现金的考虑。正值表示机会,负值表示风险。每个可能结果的数值与发生机率相乘后加总即得到。

例:一专案投资100万,有50%机率会延误而罚款20万则EMV值为多少?

答:100+(-20*50%)=90

八、蒙特卡罗法:

用于定量风险分析,是一种采用随机抽样(Random Sampling)统计来估算结果的计算方法。项目管理中蒙特卡罗模拟方法的一般步骤是:

1.对每一项活动,输入最小、最大和最可能估计数据,并为其选择一种合适的先验分布模型;

2.计算机根据上述输入,利用给定的某种规则,快速实施充分大量的随机抽样

3.对随机抽样的数据进行必要的数学计算,求出结果

4.对求出的结果进行统计学处理,求出最小值、最大值以及数学期望值和单位标准偏差

5.根据求出的统计学处理数据,让计算机自动生成概率分布曲线和累积概率曲线(通常是基于正态分布的概率累积S曲线)

6.依据累积概率曲线进行项目风险分析。

② 数据采集的方法有哪两类

1、离线搜集:

工具:ETL;

在数据仓库的语境下,ETL基本上便是数据搜集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需求针对具体的事务场景对数据进行治理,例如进行不合法数据监测与过滤、格式转换与数据规范化、数据替换、确保数据完整性等。

2、实时搜集:

工具:Flume/Kafka;

实时搜集首要用在考虑流处理的事务场景,比方,用于记录数据源的履行的各种操作活动,比方网络监控的流量办理、金融运用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据搜集会成为Kafka的顾客,就像一个水坝一般将上游源源不断的数据拦截住,然后依据事务场景做对应的处理(例如去重、去噪、中心核算等),之后再写入到对应的数据存储中。

3、互联网搜集:

工具:Crawler, DPI等;

Scribe是Facebook开发的数据(日志)搜集体系。又被称为网页蜘蛛,网络机器人,是一种按照一定的规矩,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的搜集。

除了网络中包含的内容之外,关于网络流量的搜集能够运用DPI或DFI等带宽办理技术进行处理。

4、其他数据搜集方法

关于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,能够通过与数据技术服务商合作,运用特定体系接口等相关方式搜集数据。比方八度云核算的数企BDSaaS,无论是数据搜集技术、BI数据剖析,还是数据的安全性和保密性,都做得很好。

③ 大数据科学家需要掌握的几种异常值检测方法

引言

异常值检测与告警一直是工业界非常关注的问题,自动准确地检测出系统的异常值,不仅可以节约大量的人力物力,还能尽早发现系统的异常情况,挽回不必要的损失。个推也非常重视大数据中的异常值检测,例如在运维部门的流量管理业务中,个推很早便展开了对异常值检测的实践,也因此积累了较为丰富的经验。本文将从以下几个方面介绍异常值检测。

1、异常值检测研究背景

2、异常值检测方法原理

3、异常值检测应用实践

异常值检测研究背景

异常值,故名思议就是不同于正常值的值。 在数学上,可以用离群点来表述,这样便可以将异常值检测问题转化为数学问题来求解。

异常值检测在很多场景都有广泛的应用,比如:

1、流量监测

互联网上某些服务器的访问量,可能具有周期性或趋势性:一般情况下都是相对平稳的,但是当受到某些黑客攻击后,其访问量可能发生显着的变化,及早发现这些异常变化对企业而言有着很好的预防告警作用。

2、金融风控

正常账户中,用户的转账行为一般属于低频事件,但在某些金融诈骗案中,一些嫌犯的账户就可能会出现高频的转账行为,异常检测系统如果能发现这些异常行为,及时采取相关措施,则会规避不少损失。

3、机器故障检测

一个运行中的流水线,可能会装有不同的传感器用来监测运行中的机器,这些传感器数据就反应了机器运行的状态,这些实时的监测数据具有数据量大、维度广的特点,用人工盯着看的话成本会非常高,高效的自动异常检测算法将能很好地解决这一问题。

异常值检测方法原理

本文主要将异常值检测方法分为两大类:一类是基于统计的异常值检测,另一类是基于模型的异常值检测。

基于统计的方法  

基于模型的方法

1、基于统计的异常值检测方法

常见的基于统计的异常值检测方法有以下2种,一种是基于3σ法则,一种是基于箱体图。

3σ法则  

箱体图

3σ法则是指在样本服从正态分布时,一般可认为小于μ-3σ或者大于μ+3σ的样本值为异常样本,其中μ为样本均值,σ为样本标准差。在实际使用中,我们虽然不知道样本的真实分布,但只要真实分布与正太分布相差不是太大,该经验法则在大部分情况下便是适用的。

箱体图也是一种比较常见的异常值检测方法,一般取所有样本的25%分位点Q1和75%分位点Q3,两者之间的距离为箱体的长度IQR,可认为小于Q1-1.5IQR或者大于Q3+1.5IQR的样本值为异常样本。

基于统计的异常检测往往具有计算简单、有坚实的统计学基础等特点,但缺点也非常明显,例如需要大量的样本数据进行统计,难以对高维样本数据进行异常值检测等。

2、基于模型的异常值检测

通常可将异常值检测看作是一个二分类问题,即将所有样本分为正常样本和异常样本,但这和常规的二分类问题又有所区别,常规的二分类一般要求正负样本是均衡的,如果正负样本不均匀的话,训练结果往往会不太好。但在异常值检测问题中,往往面临着正(正常值)负(异常值)样本不均匀的问题,异常值通常比正常值要少得多,因此需要对常规的二分类模型做一些改进。

基于模型的异常值检测一般可分为有监督模型异常值检测和无监督模型异常值检测,比较典型的有监督模型如oneclassSVM、基于神经网络的自编码器等。 oneclassSVM就是在经典的SVM基础上改进而来,它用一个超球面替代了超平面,超球面以内的值为正常值,超球面以外的值为异常值。

经典的SVM  

1

 基于模型的方法

2

基于神经网络的自编码器结构如下图所示。

自编码器(AE)

将正常样本用于模型训练,输入与输出之间的损失函数可采用常见的均方误差,因此检测过程中,当正常样本输入时,均方误差会较小,当异常样本输入时,均方误差会较大,设置合适的阈值便可将异常样本检测出来。但该方法也有缺点,就是对于训练样本比较相近的正常样本判别较好,但若正常样本与训练样本相差较大,则可能会导致模型误判。

无监督模型的异常值检测是异常值检测中的主流方法,因为异常值的标注成本往往较高,另外异常值的产生往往无法预料,因此有些异常值可能在过去的样本中根本没有出现过, 这将导致某些异常样本无法标注,这也是有监督模型的局限性所在。 较为常见的无监督异常值检测模型有密度聚类(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一种典型的无监督聚类方法,对某些类型的异常值检测也能起到不错的效果。该算法原理网上资料较多,本文不作详细介绍。

IF算法最早由南京大学人工智能学院院长周志华的团队提出,是一种非常高效的异常值检测方法,该方法不需要对样本数据做任何先验的假设,只需基于这样一个事实——异常值只是少数,并且它们具有与正常值非常不同的属性值。与随机森林由大量决策树组成一样,IsolationForest也由大量的树组成。IsolationForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程。

假设数据集有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出n个样本出来,作为这颗树的训练样本。

在样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边。

这样得到了一个分裂条件和左、右两边的数据集,然后分别在左右两边的数据集上重复上面的过程,直至达到终止条件。 终止条件有两个,一个是数据本身不可再分(只包括一个样本,或者全部样本相同),另外一个是树的高度达到log2(n)。 不同于决策树,iTree在算法里面已经限制了树的高度。不限制虽然也可行,但出于效率考虑,算法一般要求高度达到log2(n)深度即可。

把所有的iTree树构建好了,就可以对测试数据进行预测了。预测的过程就是把测试数据在iTree树上沿对应的条件分支往下走,直到达到叶子节点,并记录这过程中经过的路径长度h(x),即从根节点,穿过中间的节点,最后到达叶子节点,所走过的边的数量(path length)。最后,将h(x)带入公式,其中E(.)表示计算期望,c(n)表示当样本数量为n时,路径长度的平均值,从而便可计算出每条待测数据的异常分数s(Anomaly Score)。异常分数s具有如下性质:

1)如果分数s越接近1,则该样本是异常值的可能性越高;

2)如果分数s越接近0,则该样本是正常值的可能性越高;

RCF算法与IF算法思想上是比较类似的,前者可以看成是在IF算法上做了一些改进。针对IF算法中没有考虑到的时间序列因素,RCF算法考虑了该因素,并且在数据样本采样策略上作出了一些改进,使得异常值检测相对IF算法变得更加准确和高效,并能更好地应用于流式数据检测。

IF算法

RCF算法

上图展示了IF算法和RCF算法对于异常值检测的异同。我们可以看出原始数据中有两个突变异常数据值,对于后一个较大的突变异常值,IF算法和RCF算法都检测了出来,但对于前一个较小的突变异常值,IF算法没有检测出来,而RCF算法依然检测了出来,这意味着RCF有更好的异常值检测性能。

异常值检测应用实践

理论还需结合实践,下面我们将以某应用从2016.08.16至2019.09.21的日活变化情况为例,对异常值检测的实际应用场景予以介绍:

从上图中可以看出该应用的日活存在着一些显着的异常值(比如红色圆圈部分),这些异常值可能由于活动促销或者更新迭代出现bug导致日活出现了比较明显的波动。下面分别用基于统计的方法和基于模型的方法对该日活序列数据进行异常值检测。

基于3σ法则(基于统计)

RCF算法(基于模型)

从图中可以看出,对于较大的突变异常值,3σ法则和RCF算法都能较好地检测出来, 但对于较小的突变异常值,RCF算法则要表现得更好。

总结

上文为大家讲解了异常值检测的方法原理以及应用实践。综合来看,异常值检测算法多种多样 ,每一种都有自己的优缺点和适用范围,很难直接判断哪一种异常检测算法是最佳的, 具体在实战中,我们需要根据自身业务的特点,比如对计算量的要求、对异常值的容忍度等,选择合适的异常值检测算法。

接下来,个推也会结合自身实践,在大数据异常检测方面不断深耕,继续优化算法模型在不同业务场景中的性能,持续为开发者们分享前沿的理念与最新的实践方案。

④ 收集数据通常可以采用的方法有哪三种

1、访问调查:访问调查又称派员调查,它是调查者与被调查者通过面对面地交谈从而得到所需资料的调查方法。

2、邮寄调查:邮寄调查是通过邮寄或其他方式将调查问卷送至被调查者,由被调查者填写,然后将问卷寄回或投放到指定收集点的一种调查方法。

3、电话调查:电话调查是调查人员利用电话通受访者进行语言交流,从而获得信息的一种调查方式。电话调查优点是时效快、费用低;不足是调查问题的数量不能过多。

(4)有哪些新奇的数据监测的方法扩展阅读:

收集数据的步骤:

1、确定数据分析的目标

没有目标的数据分析才真的是无从下手。有了明确的目标导向后,数据收集的范围和着手点就比较明确了。现实工作当中,一般都是遇到了问题,需要去解决问题的时候,想出来的解决方案就可以成为数据分析的目标。

2、分析需要收集哪些数据

明确了数据分析的目标之后,就需要确定采集哪些数据来分析。目标可以告诉我们范围,比如取消订单的操作场景下会涉及到哪些页面;进一步的要确认这些页面上有哪些表单数据、操作按钮、页面跳转是需要记录操作事件的。

考虑每个数据收集点的成本

数据埋点是有成本的,最直观的就是在性能上会带来比较大的影响,现在也有一些无埋点的采集技术,本人没有做过相应研究,这里只以需要埋点采集的来说明。

阅读全文

与有哪些新奇的数据监测的方法相关的资料

热点内容
先天对眼怎么矫正日常方法 浏览:679
泥浆可以用哪些方法提取 浏览:186
网络进度计划检查的方法有哪些 浏览:444
伐木的正确方法图片 浏览:539
尿梗阻的治疗方法 浏览:891
早醒的治疗方法百度知道 浏览:743
如何计算总金额的方法 浏览:525
对刀仪使用方法 浏览:388
98x299的简便计算方法 浏览:122
大圆桶的使用方法 浏览:730
小米怎么设置语音权限设置在哪里设置方法 浏览:407
检测地漏水泥方法 浏览:164
活用成词的四种方法有哪些 浏览:758
如何找自己做客观题的方法 浏览:533
全国退休工资计算方法都一样吗 浏览:130
文学意境的分类有哪些方法 浏览:658
研什么方法 浏览:745
同仁堂阿胶的食用方法 浏览:443
皮肤过敏试验有哪些方法 浏览:733
土壤项目检测方法 浏览:161