导航:首页 > 研究方法 > 统计分析方法中的陷阱因果

统计分析方法中的陷阱因果

发布时间:2023-01-31 15:31:07

‘壹’ 大数据分析的四类陷阱

大数据分析的四类陷阱

科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来,其它行业只要具备合适的工具,就能对社会网络进行数据分析。但是事情并非如此简单。首先,分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于,它提升了分析的速度,扩展了数据规模,使小型企业也能使用这种技术。而另一方面,大数据也会造成更严重的错误。针对上例,普林斯顿大学就得出了不同的研究结论:Twitter并不能真的预测票房成绩。对同一个问题,研究者怎么会得出相反的结论呢?我们来看一下数据分析中最常见的四类陷阱。1、样本缺乏代表性大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是:统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其统计结论可能就不会合理了。提示:确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。2、事物是变化的对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候,这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔,在这段时间中Twitter用户有可能发生了改变。同样的道理,如果观察到公司的增长速度发生变化,这有可能是客户群的情绪变化,也可能是使用了错误的数据收集或分析方法。提示:不要只进行一次分析。要定期验证你之前的结论。3、理解数据方式不同惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型,来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术,来研究在三个不同时间段(影片上映之前、期间或观影后)用户的推文情绪特征(正面或负面)。也就是说,这两个研究团队都表示,他们在研究Twitter的预测能力。但实际上,他们除了使用twitter数据之外还利用了其它数据资源,例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起,它或许是预测票房成功的一种影响因素,这要取决于研究人员如何理解和使用它。提示:一组数据可以提供多种类型的信息。你需要找到不同的解释方式,并加以分析4、错误和偏差人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪,这种方法也许有些粗糙。又或许研究人员不自觉地选择数据,以支持他们的论点。例如普林斯顿大学研究人员假设,是推文本身而非推文的数量,蕴含着消费者的情绪表达。提示:不要只使用一种方法。用事实来检验你的假设是否奏效。大数据技术能很好的改善企业产品和服务,并更好地满足市场。但是,信息需要人来解释,而人的错误有时是致命的。所以大数据是一柄双刃剑,成功与否还得看持剑人的功力。

以上是小编为大家分享的关于大数据分析的四类陷阱的相关内容,更多信息可以关注环球青藤分享更多干货

‘贰’ 如何识破“统计学中的陷阱”

如何识破“统计学中的陷阱”?

统计学是关于数量信息的收集、整理和分析的学科。现代社会的公民在很多方面都要受到大量统计数字的困扰,需要具有一定的统计学知识,才能作出明智的决定。如果我们不能正确理解统计数字的涵义,就会产生误解,从而轻易地上当受骗。下面列举几个典型的统计学的陷阱,说明数据也会让人产生错觉。
例1轻率的结论
交通部门的统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于每小时150千米的行驶速度上的。这是否意味着高速行驶比较安全?
分析:当然不是。由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。统计关系往往不能表明因果关系。事实上,由交通部门统计,在高速行驶时发生事故的比例,远远高于中速行驶时发生事故的比例。上述例子表明,统计学论述在涉及到因果关系时很容易造成误解。
例2骗人的平均数
王老板开了一家生产儿童玩具小工厂。工厂的管理人员是王老板和他的弟弟。工作人员由2个领工和10个工人组成。现在需要招收1个新工人,王老板正在与一个叫小史的青年人谈招聘问题。王老板说:“我们这里报酬不错,平均工资是每月2000元.但在学徒期间每月是1000元,不过很快就可以加工资。”小史上了几天班以后,要求和厂长谈谈。小史说:“你骗我!我已经和其他工人核对过了,没有一个人的工资超过每月1200元。平均工资怎么可能是一个月2000元呢?”王老板皮笑肉不笑地回答:“小史,不要激动嘛。平均工资确实是2000元,不信你自己算一算。”王老板拿出一张表,说道:“这是我每月付出的酬金。我得6000元,我弟弟得4000元,2个领工每人得3000元,10个工人每人得1200元。总共是每月28000元,付给14个人,对吗?”“对,对,你是对的,平均工资是每月2000元。可你还是骗了我。”
分析:在这个故事里,狡猾的王老板利用小史对统计数字的误解骗了他。小史产生误解的根源在于,他不了解平均数的确切含义。平均数这个词往往是算术平均值的简称,是一个很有用的统计学度量指标。然而,如果有少数几个比较大的数,平均数就会给人错误的印象。
类似的会引起误解的例子有很多。例如,一家公司报告说其公司的策略是由股东们民主制定的。因为它的50个股东共有600张选票,平均每人12票。可是,如果其中45个股东每人只有4票,而另外5人每人有84张选票,平均数确实是每人12票。可是,只是这5个人就完全控制了这家公司。
例3 奇怪的选举
假定有张、王、李三个同学竞选班长。民意测验表明,选举人中有愿意选张不愿选王,有愿意选王不愿选李。问:是否愿意选张不愿选李的多?
分析:直观感觉的答案显然是肯定的。其实不一定!
现在对他们进行两两的比较:张和王的民意测验情况是:张有两次在王的前面,而王只有一次排在张的前面,因而张可以说,选举中有人喜欢我;王和李的民意测验情况是:王有两次排在李的前面,而李只有一次排在王的前面,因而王可以说,选举中有人喜欢我;李和张的民意测验情况是:李有两次排在张的前面,而张只有一次排在李的前面,因而李也可以说,选举中有人喜欢我。
奇怪的选举使人迷惑的地方是我们以为“好恶”关系总是可以传递的,就像a>b,b>c可以推出a>c那样。但事实上,“好恶”关系是不可以传递的。这个例子说明,在对两个以上事物作两两对比选择时,有可能产生矛盾。

‘叁’ 读完统计数据的陷阱求你说说陷阱 何在为什么统计数剧有陷阱

这个问题是这样——
统计数据只要是根据真实样本、科学程序、准确计算得出的,那么,数据本身不存在陷阱;之所以会被认为有陷阱,是因为使用统计数据的人对数据本身所蕴含的信息理解不够完整、不够深刻,误以为存在陷阱。例如:龙渊中学初三(1)班男生的平均身高和女生的平均身高,基本相同。

这个统计数据,不仅仅要看数据本身,还需要看是哪一届、男生人数、女生人数以及基本相同的相差范围等,如果仅仅看数据,就会导致很多错误的认识。

‘肆’ 使用数据进行决策时要避免3个陷阱

使用数据进行决策时要避免3个陷阱
如今,数据不仅仅是营销领域的一个流行语。为了实现业务运作良好,企业需要关注如何改进,有效收集和分析数据。如果获得数据并使用它却没有促进改变,那么收集数据就没什么意义了。然而,在解释和使用数据来做出决策时也存在一些问题。它不像看起来那么简单,而且有一些陷阱需要避免。
(1) 锚定和调整
锚定和调整是指放弃锚点或大量投资于某一信息的想法,然后调整锚点。通常,锚点作为一个良好的起点,但数据可能表明应该探索新的途径,以创造更好的成功。通常情况下,可以在锚点范围内收集和分析数据,这忽略了锚点本身可能是业务无法正常工作的原因。包括ValueWalk在内的专家在讨论投资者对股票市场指数波动的反应以及行为金融如何帮助他们做出决定时,会加强这一点。投资者往往希望被证明是正确的,所以在初步评估中遇到困难,而没有考虑市场进展的新信息。这种推理当然也扩展到其他应用程序,包括运行业务或实施策略。
(2) 对数据过度自信
当涉及到收集到的数据时,过度自信可能是一个陷阱。熟悉商业决策,丰富的信息数据原因,以及通过分析数据采取行动的事实,都可以结合起来,创造出一种过度自信的场景。这种情况可能会导致失败。人们对决定越熟悉,就对此感到更加自信。那么,如果这些数据导致了一个全新的目标定位活动,人们以前没有实现过,但觉得可以处理它,即使这是一个更难的选择。而这只是假设是错误的。数据给人的印象是人们有很多信息可供使用,但创建人们需要的结果并不总是有意义的。通过分析数据,人们觉得取得了进展。数据应该导致超出人们已经知道的新想法——否则,人们可能会过度自信。
(3) 因果关系与相关性
在收集和分析数据时,最重要的陷阱可能是不考虑因果关系和相关性的差异。因果关系指出X是因为Y而发生的,而相关性仅指向X和Y之间的关系。高收入和社会媒体参与之间可能存在相关性,但这并不一定意味着社交媒体的参与是高收入的原因。通过确定哪些是从哪个而不是对虚假因果作出决定,可以根据数据作出正确的决定和建议。
收集数据是有原因的,只有在分析准确的情况下才能正确地使用数据。考虑到可能导致结果倾斜的问题,因此,建议从数据中分离出来,企业可以确保它们朝着正确的方向发展。

‘伍’ 从谷歌流感趋势谈大数据分析的光荣与陷阱

从谷歌流感趋势谈大数据分析的光荣与陷阱

本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。?

一、谷歌流感趋势:未卜先知?

“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。

也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。有了这两周,人们就可以有充足的时间提前预备,避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。

此一时,彼一时。2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。

2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素,GFT还是病得不轻。

为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。

二、新瓶装旧酒:过度拟合

大数据时代的来临,为数据收集带来了深刻变革。海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。

我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。但是这所学校有个古怪,就是从不教授犯罪心理学。

象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。冠军即象牙塔最棒警察,可以派到社会上抓小偷了。

一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔, 该警察就老犯错抓、该抓不抓的错误。他抓小偷的表现,甚至比从来没有来象牙塔学习的人还要差。

在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习之后挑选出来的最优模型。小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。训练最佳警察的过程,就类似于运用机器学习技术, 采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中 。

最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。也就是说,在样本内预测很好的模型,到样本外预测很差。 这,就是过度拟合的问题。

从过度拟合角度,可以帮助我们理解为什么GFT在2009年表现好而之后表现差。在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合已经观察到的发病率。 Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。

2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。

从上面的故事可以看到,产生过度拟合有三个关键环节。第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌握已知小偷的特征。第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。

在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。

三、大数据分析的挑战

(一)陷阱一:“大数据自大”

Lazer等学者提醒大家关注 “大数据自大(big data hubris)”的倾向,即认为自己拥有的数据是总体,因此在分析定位上,大数据将代替科学抽样基础上形成的传统数据(后文称为“小数据”)、而不是作为小数据的补充。

如今,大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能,那么说企业有这样的数据就不需要关心抽样会有问题吗?

这里的关键是,企业或者机构拥有的这个称为总体的数据,和研究问题关心的总体是否相同。《数据之巅》一书记载了下面这个例子:上世纪三十年代,美国的《文学文摘》有约240万读者。如果《文学文摘》要了解这个读者群的性别结构与年龄结构,那么只要财力人力允许,不抽样、直接分析所有这240万左右的数据是可行的。但是,如果要预测何人当选1936年总统,那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同,就会差之毫厘谬以千里了。事实上,《文学杂志》的订户数量虽多,却集中在中上层,并不能代表全体选民。与此相应,盖洛普根据选民的人口特点来确定各类人群在样本中的份额,建立一个5000人的样本。在预测下届总统这个问题上,采用这个小数据比采用《文学文摘》的大数据,更准确地把握了民意。

在GFT案例中,“GFT采集的搜索信息”这个总体,和“某流感疫情涉及的人群”这个总体,恐怕不是一个总体。除非这两个总体的生成机制相同,否则用此总体去估计彼总体难免出现偏差。

进一步说,由于某个大数据是否是总体跟研究问题密不可分,在实证分析中,往往需要人们对科学抽样下能够代表总体的小数据有充分认识,才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。

(二)陷阱二:算法演化

相比于“大数据自大”问题,算法演化问题(algorithm dynamics)就更为复杂、对大数据在实证运用中产生的影响也更为深远。我们还是借一个假想的故事来理解这一点。假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度,其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。观察一段时间后该团队发现,小和尚智空原来遇到老虎的频率大概是一个月一次,但是从半年前开始,智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。由于大数据分析不关心因果,研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎,而根据历史数据认定小智空比过去更愿意冒险了。但是研究团队不知道的情况是:过去智空与老和尚同住,半年前智空奉命下山化斋;临行前老和尚交代智空,山下的女人是老虎、遇到了快躲开。在这个故事里,由于老和尚的叮嘱,智空眼里老虎的标准变了。换句话说,同样是老虎数据,半年前老虎观测数量的生成机制,和半年后该数据的生成机制是不同的。要命的是,研究团队对此并不知情。

现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。

这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二,数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。

在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。

(三)、陷阱三:看不见的动机

算法演化问题中,数据生成者的行为变化是无意识的,他们只是被页面引导,点出一个个链接。如果在数据分析中不关心因果关系,那么也就无法处理人们有意识的行为变化影响数据根本特征的问题。这一点,对于数据使用者和对数据收集机构,都一样不可忽略。

除掉人们的行为自发产生系统不知道的变化之外,大数据的评估标准对人们行为的影响尤为值得关注。再以智空为例。假定上文中的小和尚智空发现自己的西瓜信用分远远低于自己好友智能的西瓜信用分。智空很不服气,经过仔细观察,他认为朋友圈言论可能是形成差异的主因。于是他细细研究了智能的朋友圈。他发现,智能从不在朋友圈提及遇到老虎的事,而是常常宣传不杀生、保护环境、贴心灵鸡汤,并定期分享自己化斋时遇到慷慨施主的事。虽然在现实中,他知道智能喜好酒肉穿肠过、也从未见老和尚称赞智能的化斋成果。智空茅塞顿开,从此朋友圈言论风格大变,而不久后他也满意地看到自己的西瓜信用分大幅提高了。

如今,大数据常常倚重的一个优势,是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上,就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是,在互联网时代,人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息,就意味着大数据分析的评估标准已经内生于人们生产的数据中,这时,不通过仔细为人们的行为建模,是难以准确抓住的数据生成机制这类的质变的。

从数据生成机构来看,他们对待数据的态度也可能发生微妙的变化。例如,过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也是单纯为了更好地服务消费者。但随着大数据时代的推进,“数据为王”的特征越来越明显,公司逐渐意识到,自己拥有的数据逐渐成为重要的资产。除了可以在一定程度上给使用者植入广告增加收入之外,还可以在社会上产生更为重要的影响力。这时就不能排除数据生成机构存在为了自身的利益,在一定程度上操纵数据的生成与报告的可能性。比如,在Facebook等社交媒体上的民意调查,就有可能对一个国家的政治走向产生影响。而民意调查语言的表述、调查的方式可以影响调查结果,企业在一定程度上就可以根据自身利益来操纵民意了。

简而言之,天真地认为数据使用者和数据生成机构都是无意识生产大数据、忽略了人们行为背后趋利避害的动机的大数据统计分析,可能对于数据特征的快速变化迷惑不解,即便看到模型预测表现差,也难以找到行之有效的克服方法。

四、前车之鉴

目前,我国高度重视大数据发展。2015年8月31日,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》认为,大数据成为推动经济转型发展的新动力(310328,基金吧)、重塑国家竞争优势的新机遇,和提升政府治理能力的新途径。《纲要》指出,2018年底前,要建成国家政府数据统一开放平台,率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。与此相应,近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此,了解大数据分析的优势与陷阱,对我国的经济发展和实证研究具有极其重要的意义;而GFT项目折射出的大数据使用中可能存在的机会与问题,都值得关注。

(一) 防范“大数据自大”带来的风险

GFT案例表明,如果认为大数据可以代替小数据,那么过度拟合问题可以带来巨大的估计误差。这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇的,而我国经济处于转型时期的特征,使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化,往往要面临过度拟合带来的损失。

例如,我国P2P网贷行业采用的数据体量虽然大多达不到大数据要求的海量数据,但是不少企业热衷采用爬虫等技术从社交媒体挖掘信息用于甄别客户。这些平台健康状况,就可能与过度拟合的严重程度密不可分。 根据中国P2P网贷行业2014年度运营简报和2015年上半年的运营简报,在图一我们可以推算2006年到2004年间和2015年1-5月间月均新增问题平台数,并与2015年6月新增问题平台数作比较。[1]

新增问题平台的大幅增加原因虽然有多方面,但是从数据分析的角度看,由于还没有合法的数据共享机制,P2P平台在甄别客户质量时,往往只依靠自身渠道和从社交媒体等挖掘的数据,并采用数据挖掘方法建立相应建立模型。在数据分析中,不少P2P平台往往疏于查考自身样本的代表性、也忽略宏观经济数据和其他微观数据所包含的信息。由于互联网金融公司出现时间短、又主要成长于经济繁荣期,如果单单依赖有限的数据渠道,数据挖掘与机器学习过程对新常态下个体行为没有足够的认识,在经济下行时仍然根据历史数据而低估逾期率,导致高估平台健康状况,最终不得不面对问题平台不断增加的局面。

(二) 大数据和小数据齐头并进大势所趋

大数据和小数据各有优劣。简而言之,小数据通常不会假定该数据就是总体,因此收集数据前往往需要确定收集数据的目标、根据该目标设计的问卷或者收集方法、确定抽样框。在数据采集后,不同学者往往可以通过将新收集数据与不同数据的交叉验证,来评估数据的可信度。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点,但是缺点是数据收集成本高,时间间隔长、颗粒度较粗。

大数据的优势就包括数据体量大、收集时间短、数据类型丰富,颗粒度很细。但是,由于大数据往往是一些企业和机构经营活动的附带产品,因此并不是通过精心论证的测度工具生成。另外,由于大数据的体量很大,交叉验证数据的可信度、不同学者采用相同数据独立研究以检验数据的前后一致性等工作难度较大。这些特点意味着大数据本身未必有科学研究要求的那样准确、可靠,在数据分析中就需要对大数据适合研究的问题有较清晰的认识。

在与小数据互为补充推动研究与认知方面,大数据大有可为。将大数据与小数据相结合,可以大大提高数据的颗粒度和预测精度。比如对CDC流感发病率的预测研究发现,将GFT采用的大数据和CDC的历史数据相结合的模型,其预测能力比单独运用大数据或者小数据要好很多。

大数据往往可以实时生成,对于观察特定社区的动态具有小数据无可替代的优势。比如,美国在“九一一”之后,出于快速准确估计在某个特定小社区活动的人口的需要而启动了“工作单位和家庭住址纵向动态(LEHD)”项目,该项目将人口普查数据、全国公司数据、个人申请失业保险、补贴、纳税等记录联通,可以对社区在短时间内的“新陈代谢”作出较为全面的刻画。

这类的数据结合研究,对于了解我国社会经济状况的动态变化会十分重要。一个可能的应用是,将城市人口、工作状态、性别、年龄、收入等小数据采集的信息,和实时产生的交通状况相结合,来预测人们的出行特征,来解决城市交通拥堵、治理雾霾等问题。另一个可能的应用是,推动人民银行征信中心个人征信系统数据和民间征信系统大数据的结合,建立高质量的中国个人征信体系。

另外,我国经济处于转型时期,有不少政策亟需快速评估政策果效。以小数据为基础,利用大数据数据量丰富的优势,可以通过互联网做一些随机实验,来评估一些政策的效果,也是可能的发展方向。

在过去的十多年中,我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下,更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如,北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”,都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下,小数据的生成机制更为透明,交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。

但是,目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面,我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。

因此在政策导向上,为要实现大数据、小数据相得益彰推动经济发展的目标,在促进发展大数据的同时也要大力发展小数据相关产业,推动小数据相关研究与合作,使大数据与小数据齐头并进、互为补充。

(三)提高大数据使用的透明度,加强对大数据质量的评估

大数据面临的透明度问题远比小数据严重。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据,也鲜有学者可以获得并用于做研究的例子。

与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力,只能处于案例、个例的状态。

另外还要注意到,如果数据生成机制不清晰,研究结论难以复制,而算法演化也表明,最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化,我们才能在大数据产业发展之初,建立健康的数据文化。

因此,在大数据时代,为了更好利用大数据,需要采取相关措施,增加在大数据生成过程的透明度方面的努力。例如,采取措施推进数据生成企业在妥善处理隐私信息后,定期公布大数据随机抽样数据、要求数据生成企业及时公布数据算法的变更,鼓励采用大数据的研究实现可复制性、便于交叉验证等。

五、结语

目前有些流行观点认为,在大数据时代,技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展,只需关心相关关系而不必再关心因果关系。而GFT的实例表明,即便谷歌公司用于GFT计算的是数十亿的观测值,也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体,就无法谦卑结合其他渠道的小数据,得到更为稳健的分析结论。而GFT估计的偏误原因,从来都离不开人们的主动的行为-- 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此,不明白数据生成机理变化的原因而只看相关关系的后果,于谷歌是GFT的计算偏误丢了脸,而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说,则可能是不得不面对事先没有预备的重大经济损失。

以上是小编为大家分享的关于从谷歌流感趋势谈大数据分析的光荣与陷阱的相关内容,更多信息可以关注环球青藤分享更多干货

‘陆’ 因果分析的五种方法

因果关系的五种方法是求同法、求异法、同异共用法、共变法、剩余法。

因果关系分析法也叫穆勒五法、溯因法。
因果分析是用于判断事物之间因果关系的科学分析方法。

‘柒’ 统计分析中常用的有哪几种“方法图”

统计质量控制分析方法之一:排列图法,利用排列图寻找影响质量主次因素的一种有效方法。统计质量控制分析方法之二:统计调查表法,利用专门设计的统计表对质量数据进行收集、整理和粗略分析质量状态的一种方法。统计质量控制分析方法之三:直方图法,将收集到的质量数据进行分组整理,绘制成频数分布直方图,用以描述质量分布状态的一种分析方法。统计质量控制分析方法之四:分层法,将调查收集的原始数据,根据不同的目的和要求,按某一性质进行分组、整理的分析方法。统计质量控制分析方法之五:因果分析图法,利用因果分析图来系统整理分析某个质量问题(结果)与其产生原因之间关系的有效工具。统计质量控制分析方法之六:控制图,用途主要有两个:过程分析,即分析生产过程是否稳定。过程控制,即控制生产过程质量状态。统计质量控制分析方法之七:相关图,在质量控制中它是用来显示两种质量数据之间关系的一种图形。以上就是统计质量控制的几种分析方法及用途,它不仅适用于质量控制,更可应用于一切管理过程。采用统计质量控制的这几种方法可以帮助企业在质量控制上真正作到"事前"预防和控制。

‘捌’ 如何避免数据分析中的统计陷阱

数据分析(Data Analysis)

数据分析概念
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。

数据分析的目的与意义
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

数据分析的功能
数据分析主要包含下面几个功能:
1. 简单数学运算(Simple Math)
2. 统计(Statistics)
3. 快速傅里叶变换(FFT)
4. 平滑和滤波(Smoothing and Filtering)
5. 基线和峰值分析(Baseline and Peak Analysis)

数据分析的类型
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国着名统计学家约翰·图基(John Tukey)命名。
定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

数据分析步骤
数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
1、探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
3、推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析过程实施
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
一、识别信息需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

二、收集数据
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
① 将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;
② 明确由谁在何时何处,通过何种渠道和方法收集数据;
③ 记录表应便于使用;
④ 采取有效措施,防止数据丢失和虚假数据对系统的干扰。

三、分析数据
分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:
老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图;
新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图;

四、数据分析过程的改进
数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:
① 提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;
② 信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;
③ 收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;
④ 数据分析方法是否合理,是否将风险控制在可接受的范围;
⑤ 数据分析所需资源是否得到保障。
-

阅读全文

与统计分析方法中的陷阱因果相关的资料

热点内容
中学生记单词的简单技巧和方法 浏览:648
猪人工取精步骤及方法 浏览:142
纯净水压水器使用方法 浏览:878
老年人中风的治疗方法 浏览:823
16乘15分之14计算方法 浏览:22
小米3音效设置在哪里设置方法 浏览:551
小米视频壁纸文件夹在哪里设置方法 浏览:837
文竹生长的正确方法 浏览:902
卫浴台安装方法 浏览:629
重抽样方法的简单例子 浏览:258
土虫草的功效与作用食用方法 浏览:657
五孔网线插座怎么接线方法 浏览:58
前挡板安装方法视频 浏览:853
台式电脑风扇调节方法 浏览:664
北京儿童多动症哪里治疗方法 浏览:885
江西稻谷种植方法 浏览:157
小米4c图标怎么设置在哪里设置方法 浏览:753
图根控制测量方法及步骤 浏览:670
煤矿液压支架串液快速处理方法 浏览:195
北京前列腺的治疗方法 浏览:963