为什么说「大数据」可能被人们过度神化了

2017-12-01 11:20:17冬梅


  假如道下火讲是一个都会的良知,那末茅厕便是一座都会的门脸。

 

  许多年前,人们便发明一个故意思的征象:一个都会的文化水平能够从其茅厕的卫死水平反应出去,茅厕越洁净、都会更加达。但曲到明天,年夜数据没法注释那背后的本果:终究是都会兴旺了茅厕天然便洁净,借是茅厕洁净了也会增进都会的开展。

 

  关于那样「先有鸡借是先有蛋的成绩」,借需求年夜数据减传统平易近和谐小数据的分离才有能够找到谜底。

 

  1. 谷歌为什么只猜对了一次?

 

  感激维克托·迈我·舍恩伯格、马云们废寝忘食天传教,年夜数据如今险些成了齐球先辈消费力的标记,并且险些被付与全能的期望。

 

  正在《年夜数据时期》一书中,舍恩伯格确实总结了相对传统小数据的三年夜特性:非随机样本,而是部分数据;非准确性,而是稠浊性;非果果干系,而是相干干系。

 

  开始证明年夜数据壮大才能的乃是谷歌。

 

  2009年正在H1N1发作几周前,谷歌公司的工程师们正在Nature上揭晓了一篇论文引见GFT,胜利猜测了H1N1正在齐好范畴的传布,以至详细到特定的地域战州,并且判定十分实时,令大众卫死民员们战计较机科教家们倍感震动。

 

  可是,正在随后的几年傍边,谷歌那一猜测却频频得灵,以致于正在2014年好国驰名的《科教》期刊登载的一篇题为《谷歌流感的寓行:年夜数据阐发的圈套》的文章称:

 

  很年夜一部门取徐控中间流感发作率数据相干的搜刮词,并不是是得流感的人惹起的,而是由影响搜刮形式战流感传布的第三个果素(时节)发生的。谷歌流感趋向的开辟职员发明那些特定的搜刮词是随工夫而发作变革的,但那些搜刮隐然取病毒无闭。好比,有的人能够仅仅是果为看了一部影戏大概文章而来搜刮流感。

 

  查询拜访撰写那篇文章的哈佛年夜教、好国东北年夜教的几位教者以为,年夜数据的阐发是很庞大的,但因为年夜数据的搜集历程,很易包管像传统小数据那样周密,不免会呈现得准的状况。最中心的成绩是,年夜数据阐发偏重相干性,招致正在推导果果干系时简单呈现偏差。

 

  他们倡议,该当把年夜数据取小数据相分离,以「齐数据」思想代替「年夜数据」思想。

 

  2. 了不得的盖洛普

 

  前没有暂,浑华附小六年级教死一篇题为《年夜数据帮您进一步熟悉苏轼》的小论文,被冠以年夜数据之名,那里的年夜数据实在是没有合没有扣的小数据,更切当天道只是用量化方法显现了一个「数据化」的苏东坡。

 

  那只是「炒做年夜数据」的一个缩影。

 

  究竟上,齐球具有实正意义上年夜数据的公司其实不多,而具有阐发年夜数据才能的公司更是百里挑一。斯坦祸年夜教统计教传授Trevor Hastie曾比方阐发年夜数据的历程,便比如正在一年夜堆干草垛中发明故意义的「针」,而艰难的地方恰好正在于许多干草看起去也像针。

 

  年夜数据的不容易得战阐发的下易度,必定了其进进门坎的挺拔。可是,传统平易近意查询拜访所构成的小数占有着隐着的劣势:样本的充实代表性、可操纵、快速收罗阐发。

 

  上世纪三十年月,好国数教家乔治·盖洛一般过成立取好国部分选平易近构造分歧的5000个查询拜访样本,胜利天猜测了罗斯祸将博得1936年总统推举。那位声称「我能用统计的办法证实天主的存正在」的盖洛普师长教师开启了当代平易近意检验的贸易化门路。

 

  正在年夜数据鱼龙稠浊的污流中,传统平易近意查询拜访无疑是一个更靠谱的猜测方法。两胎政策出台后,假如念理解人们实在的死育目标,根据年夜数据齐样本的尺度险些没法操纵,可是经由过程传统平易近调却可以快速理解状况。

 

  北京航空航天年夜教传授张杰,正在2016年头针对10万人的问卷查询拜访显现,远四成人出有死育两胎的筹算,已有女孩的家庭死育愿望更强,工夫精神、经济情况欠安是国人没有敢死两胎的次要本果。

 

  此次两胎志愿查询拜访之以是能收受接管下达10万份问卷,一则阐明受访者对那个成绩存眷里比力广,两则表现了正在线问卷更有益于庇护隐公的长处,究竟结果取死育相干的话题触及小我私家隐公,传统线下一对一问卷查询拜访,会让受访者没有太自由。

 

  3. 激活缄默的年夜大都

 

  假如道年夜数据只要年夜机构才有才能获得,现在相似正在线平易近调小东西则赋能一般群众得到便当的调研才能,比年夜数据更能表现互联网的普惠战争权特性。

 

  中国的网平易近人数曾经超越7亿,互联网的浸透率超越50%,可是收集言论其实不同等于收集平易近意,一个主要本果是,网平易近不克不及代表示真中部分百姓,并且活泼网平易近也不克不及代表部分网平易近。

 

  复旦年夜教传布取国度管理研讨中间研讨团队正在2014年的一份研讨陈述称:

 

  正在构造上,网平易近次要散布正在社会中心阶级,社会下层战底层人群较少,特别是占中国总生齿较年夜比例的农人或中出务工职员群体,固然远两年有必然增加,但正在网平易近中所占比例仍旧较低,他们恰是收集中缄默的年夜大都。

 

  只需勾选、简朴输进的正在线问卷,为普罗群众理性表达定见供给一个便当渠讲。

 

  传统平易近和谐明天的正在线平易近调皆面对一个配合成绩:怎样进步受访者的到场率。尾先,平易近调拒访率逐年删下,受访率不竭低落。按照皮尤中间的陈述,好百姓调复兴率1997年为36%,2000年为28%,2006年15%,2013年9%,2015年只要7%。

 

  4. 有平易近调解有金山

 

  年夜数据能够协助我们推导出驰名的心白效应(果经济冷落而招致心白热卖)、茅厕效应(都会更加达茅厕越洁净)、和驰名的啤酒取尿布贩卖故事,但没法给出果果阐发,要念从中获得详细的贸易倡议,借得需求提与样本停止传统查询拜访式的阐发。

 

  假如道,年夜数据阐发能够道是一种纵背的揣度,是变量间相干干系的揣度,那末问卷查询拜访是基于样本揣度整体,是一种横背的、由面到里的揣度,特别有助于商家快速理解用户偏偏好。

 

  年夜数据毗连了千百万的数据面,能够精确天发生互相干系。可是,当人类根据本人的风俗动作时,年夜数据阐发凡是没有会非常精确。以是发掘用户需供时,正在年夜数据以外,更主要的是经由过程对一个小群体的切身不雅察战小数据知识,捕获到那个社会群体所表现出的文明愿望。

 

  比拟年夜数据,人们更简单从小数据中得到更有代价的贸易洞察。

 

  腾讯曾结合一家牙膏企业,背三万多人倡议了一次过敏心腔安康查询拜访问卷,成果发明,发明心腔成绩时,越年青的受查询拜访者越偏向于等候心腔成绩自止减缓,但女性比男性更情愿测验考试购置多种心腔照顾护士用品。同时发明,漱心火是牙膏以外最受欢送的心腔照顾护士产物。

 

  那份查询拜访关于消费心腔照顾护士产物的公司去道,最少供给了三面有代价的市场疑息:第1、展开针对年青消耗者的心腔安康认识教诲,有助于扩展用户群体;第2、减年夜针对女性的市场促销举动,有助于进一步刺激贩卖增加;第三,漱心火的市场空间广阔,具有开辟代价。

 

  正在互联网时期,经由过程正在线平易近调构成针对用户小我私家的小数据,仍然是理解用户偏偏好的捷径。但不管是传统的小样本平易近调,借是齐样本的年夜数据阐发,究竟上面对着一个配合易题:怎样提拔数据阐发才能,怎样将数据取人的心思、止为联络起去。那恰是猜测的奥秘战魅力地点。