【大数据时代】大数据概念及大数据处理应用深入
一、大数据概念
大数据(big data)具有4v特点(Volume 数量、Velocity 速度、Variety 多样性、Veracity 真实性)具有管理、处理、整理以及决策的作用。比如:我们要做哪一类型的业务?我们需要如何数据分析和筛选?我们需要怎样解决以前没有办法解决的问题?我们需要如何去分析事物的因果关系?我们需要怎样更好的寻找点对点、端对端的逻辑?我们需要布局好巨量资讯巨量业务等巨量数据怎么办?我们要深入每一个行业的研究解决更复杂的问题改如何做才好?等等都离不开大数据,这就是大数据、大数据时代。

二、大数据时代之相关与因果
大数据时代:当数据规模达到一定程度的时候,就很难从这些数据中分析出因果关系。因为现实世界的各种因素交织在一起,以人类的脑袋可能难以用因果关系来推理哪些因素对哪些因素造成了影响。这感觉就像解一个50元方程,却只给你10个各包含20个变量等式,然后需要解出来X等于什么,基本上这是不可能的事情。所以一旦数据量达到一定程度,其相关因素之间有很多影响,那传统用因果逻辑来分析数据的方法,显然就不适用了。大数据时代讲的是抛弃因果关系,只考虑其中的相关,只要找出哪些因素可能跟想要的结果相关,然后分析这些因素的变化能否和结果形成一定的相关性,如果可以,那就说明这个数据分析有意义,可以用分析的结果,想办法改变某个因素,然后对结果造成影响。
在这个过程中,可能人们无法理解为什么,但只要结果有效,对人们来说就足够了。有个很有名的案例,沃尔玛通过数据分析发现,把啤酒总是和儿童尿布的销量正相关,于是就把尿布放到啤酒旁边,结果显著提高了尿布的销量。两个风马牛不相及的东西放在一起,为什么销量会有所提升呢。沃尔玛通过监控录像发现,有很多下班回家来买酒的男性,显然是受到了妻子的提醒,顺道为孩子带了一些尿布。在通过数据分析出啤酒和尿布的关系前,我觉得没人能想到这两玩意还能放一起卖。这就是通过分析数据的相关性,得到比较新鲜而有效的结论。
记得我们很久以前分析用户行为数据,想知道究竟什么因素影响了用户的二天保留。于是就找到用户进入APP之后所有的点击记录,忽略时间先后,只要是同一次开启APP时产生的点击,简单的视为同时发生。然后分析点击记录,看哪些地方的点击,能显著影响二天保留。这样的分析方法,估计只有当数据量足够大的时候才可能有意义。当时数据量不够,最终得到的数据明显有不少偏差。而且没有自动化的工具,一次次人工跑起来也非常慢,后来就逐渐放弃了。这件事现在想想,仍然觉得很有价值,有机会准备再试试看。
大数据分析往往只能得到结果,如果想把结果利用好,举一反三的进步,就需要像沃尔玛那样,根据结果,思考其中的因果关系。当最终只抽离出几个因素的时候,即便风马牛不相及,花点时间也还是能找到其中的因果关系的。只要知道了因果的规律,我们对这个世界就能了解更多。
三、大数据的案例分享及分析
麦克·弗劳尔(Mike Flower)是21世纪初曼哈顿地区检察官办公室的一名律师,负责过从谋杀案到华尔街金融犯罪等各式各样的诉讼案件,后来他转到一家大型的企业律师事务所工作。在办公桌后度过了无聊的一年后,他决定离开。他想做些更有意义的事情,随即想到了去帮助重建伊拉克。在公司的一位朋友给高层打了几个电话后,弗劳尔被派去了绿色区域,也就是美军驻巴格达市中心的安全地带,成为萨达姆·侯赛因审判律师团中的一名律师。他主要负责后勤事务,而不是相关的法律工作。他负责将证人运送到绿色区域,其间需要安全通过无数每天都会上演的简易爆炸装置袭击(IED)。他看到了军队人员是如何将这当作数据问题来进行处理的。情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。在弗劳尔回到纽约两年后,他意识到这些方法其实是一个打击犯罪的有力方式——比他过去作为检察官所掌握的方式更棒。弗劳尔之后被任命为专案组成员,研究可能揭露2009年次贷丑闻罪犯的数据。这个团队做得非常出色,以至于一年后,纽约市长布隆伯格要求扩大规模。
弗劳尔成了全市首个“分析主任”,他的任务就是找到最优秀的数据科学家并组建团队,利用城市尚未开发的信息库,收获一切可能的效益。
弗劳尔为了找到合适的人而广泛撒网。“我对经验丰富的统计学家没有兴趣,我担心他们不愿意采取这种新方法来解决问题。”当他采访统计学家对金融诈骗项目的看法时,他们往往会提出晦涩难懂的数学问题。“我甚至没有想到我要使用什么样的模式。我想要可执行的洞察力,这是我所关注的。”他说。最后,弗劳尔一共挑选了5个人组成团队,他称他们为“小伙子”。除一名成员外,其他都是刚毕业一两年的经济学专业学生,而且从未在大城市生活过,但他们都很有创造力。
他们最早处理的事件之一是“非法改建”,即将一套住房隔出很多小房间,这样就能够多容纳10倍的人。非法改建会带来巨大的火灾隐患,也是犯罪、毒品、疾病和虫害孵化的温床。乱麻一般的分机线绳会沿墙壁穿过,电炉可能会放在床单的上面,一旦发生火灾,人也许会被裹得紧紧地葬身火海。2005年,两名消防队员因营救非法改建住房的人而死亡。纽约市每年会受到约25000起非法改建的投诉,但只有200名检察员在处理这些事情。似乎没有什么好办法来区分简单的滋扰事件和严重的爆炸起火事件。但对弗劳尔和他的小伙子们来说,这看起来更像是一个可以用大量数据来解决的问题。
他们将城市里的90万栋建筑都列在表上,然后输入来自19个不同机构的数据集。这些数据显示了建筑业主是否拖欠了应缴房产税,是否有止赎诉讼,是否有公用设施使用异常或导致服务消减的未付款项。他们还输入了建筑类型、修建时间、救护车访问次数、犯罪率和啮齿动物投诉等信息。然后,他们将这些数据与五年来的火灾严重性排名数据进行对比并得到一个模型,以此预测哪些投诉迫切需要调查。
最初,许多数据形式都不可用。例如,在一个城市里,描述地理位置的方法不是唯一的,每个机构和部门似乎都有自己的描述方式。建筑部门给予每个建筑物一个独特的号码;房屋维护部门也有自己独有的编号系统;税务部门依照街区和地皮,给予每个建筑物特定的标识;警察局采用笛卡尔坐标系;消防局依托“电话亭”临近体系,将建筑物与各个消防站的位置联系在一起,尽管这些电话亭并非真实存在。弗劳尔的小伙子们处理这种不统一的方式是:以笛卡尔坐标系为基础,取用建筑物周围的一片辐射范围并从其他机构的数据库调取地理位置数据,从而建立一个系统。这些数据本身并不精确,但是巨大的信息量弥补了这点瑕疵。
尽管如此,他们并不满足于仅仅对数据进行运算,而是会到现场观看检查员的工作。他们不断做着大量笔记,并询问一切流程的开展效果。当一个头发斑白的领头人哼了一声说“找到那个建筑不是问题”时,他们很想知道为什么这个人会这么自信。但领头人自己也说不清楚为什么,不过弗劳尔的小伙子们渐渐发现,这种直觉来自建筑物外新的砖工,它暗示着建筑物的主人很重视这个地方。
小伙子们回到自己的工作间,钻研着如何能将“新的砖工”作为一种信号融入到他们的模型中,毕竟,砖块是没有被数据化的。但是可以肯定的是,做任何外部砖工都需要城市许可证。
这些信息都可以用于提高系统的预测功能,并且他们发现,很多传统意义上可疑的特点其实都无关紧要。这种分析法或许揭示了:有些历史最悠久的做事方法并不是最好的,就好比《点球成金》中的球探们不得不接受他们直觉中的缺陷一样。例如,人们将城市“311”投诉热线的来电数量作为衡量问题严重性的指标,来电越多说明问题越严重。但是这种引导是错误的。在繁华的上东区发现一只老鼠也许会在仅仅一个小时之内引发30个投诉电话。然而在布朗克斯区,街坊只有在看到成群结队的老鼠时,才会觉得有必要打个投诉电话。同样,很多非法改建的投诉也许会让人们议论纷纷,但是其后果并没有那么严重。
2011年6月,弗劳尔和他的小伙子们开始启用他们的系统和方法。他们每周浏览一次可归为“非法改建”一类的投诉,将他们认为前5%有火灾危险的投诉转交给检查员立刻跟进。当拿回结果时,所有人都惊呆了。
四、大数据的力量
在大数据分析之前,检查员会先跟进他们认为最急迫的投诉,而只有13%的案件足够严重,需要立刻去处理。现在,他们立即处理的投诉案件占他们所有安全监测的70%。大数据节省了检查员的时间,将效率提高到原来的5倍。他们的工作也越来越令人满意:精力都集中于最严重的问题。他们新发现的成果还带来了额外利益。非法改建中的火灾更可能导致消防员受伤或死亡,概率是普通案件的15倍。消防局因此非常满意。弗劳尔和他的小伙子们就好像巫师一样,手中的水晶球让他们可以预见未来,看到哪里是最危险的。他们利用了大量搁置多年的数据,这些数据自收集以来几乎没被用过。他们用新的方法管理这些信息,从而提取出它们真正的价值。他们从大的信息库中释放了洞察力,而这在较小数据中是做不到的,这就是大数据的缩影。
纽约市分析炼金师的经验凸显了大数据中的不少主题。他们使用了庞大的数据量,而不仅是一些数据。他们所列的城市建筑基本上可以视为“样本=总体”。位置信息或救护车记录等数据比较凌乱,但是这并没让他们就此放弃。更多数据所带来的好处远比原始信息少所带来的弊端更重要。他们之所以能取得成功,是因为城市的很多功能都以数据的形式呈现(尽管存在不一致),从而使他们能够处理和使用这些信息来提高预测效果。
专家暗示,无论是自大的统计学家还是专管投诉热线的公务员,在数据驱动方法面前都应退居次席。与此同时,弗劳尔和他的小伙子们不断地让经验丰富的检查员来测试他们的模型,借鉴检察员们的经验,使系统表现得更好。这个项目成功最重要的原因是,它更多依赖的是相关关系而非因果关系。
五、模拟终极大数据时代写的生活模型
2013年8月2日,早上7点闹铃响,睁开眼,显示今天的综合能量:85,健康指数:90,心情指数:80,斗志:90,智力:80,财富50,对外关系70.点击可查看指数明细以及提升指数方法。
任务一:起床锻炼身体。(支线任务,任务等级5,时间损耗30分钟):完成该任务可获得奖励:健康指数0.01,心情指数(主要影响自我认知部分)0.1,斗志1。(默认有效期24个小时)可能发生的意外:1、万分之一的几率摔跤,导致健康指数下降1;2、万分之一的几率顿悟,智力上升至满分。(影响的主要系数,是对外关系中的亲近大善人频率);3、千分之一的几率增加对外关系1点。(影响的主要系数是综合能量)放弃该任务健康指数减少0.001,心情指数(主要影响自我认知部分)减少0.01。
任务二:洗脸刷牙。(主线任务,任务等级7,时间损耗10分钟):完成该任务可获得奖励:健康指数(主要影响口腔的健康指数)0.01,心情指数(主要影响自我认知部分)0.1,有效时间12个小时。放弃该任务健康指数(主要影响口腔的健康指数)减少0.001,永久有效;心情指数(主要影响自我认知部分)减少0.01,有效时间3个小时或者至下一个6级以上任务开始前。提示:放弃该任务可能会散发口腔异味以致影响对外关系。
任务三:读书。(支线任务,任务等级5,时间损耗不定):完成该任务可获得奖励:心情指数(主要影响自我认知部分) 0.1,斗志1,智力0.01--0.03(与读的内容有关,永久有效)可能发生的意外:百分之1--3的几率增加1点永久智力(智力越高,增加的几率越高)放弃该任务,智力每天减少0.01.
任务四:去公司A收货(特定任务----财富任务中的一个重要环节,任务等级2,时间损耗6个小时,该任务中可插入增值道具和技能)完成任务可获得奖励:公司A目标进度(财富的重要系数)前进1,同事关系(对外关系之重要系数)增加1,健康指数增加0.001。放弃该任务,公司A资产降低0%--10%(受插入的道具和技能影响),同事关系下降1,心情指数降低5。提示:任务等级较高,放弃会对综合能量产生较大影响。
任务五:参加朋友婚礼(支线任务,任务等级5,时间损耗三个小时至4个小时)完成任务可获得奖励:心情指数上升,5,斗志上升3,健康指数受插入剧情影响,对外关系增加0.1。可能发生意外:1、十分之一几率自我婚姻意识增强,改变自我生活模型;2、一半几率遇到老朋友,心情指数上升5,综合能量永久增加0.1-0.3(受智力和财富影响);放弃该任务,对外关系永久下降0.1,心情下降1。
盘点道具:
1、钱(可和财富值互相转化的道具, 和换其他道具,是折算道具的基本单位)。不能直接转化成健康指数,但会影响心情指数,斗志,对外关系等指标,可提升综合能量。
2、烟。自我使用会损害健康指数,或者短时间内提升智力,但恰当的实际使用在交往剧情上,可增加对外关系0.0001--0.0003(受剧情影响)。
3、手机。一种使用在沟通和对公共信息交互中的道具。使用效果要根据技能和剧情来决定。
盘点技能:
1、沟通(技能等级5,还可以升级5次)经常使用会增加技能经验,是一项基本技能,这项技能包含的系数有:幽默能力,耐心,语言技巧等等。使用将会增加或者减少对外关系指数,心情指数,斗志等
2、自我整理(技能等级4,还可以升级6次) 经常使用会增加智力,心情和综合能量。
以上是模拟终极大数据时代写的生活模型,只是一个思路,内容不及九牛之一毛,整理下来有以下总结:1、大数据时代的核心是数据的量化。只要能量化数据,就能去实验出数据之间的相互关系。量化数据的重点是采集数据和分析数据,可作为的地方在于规则的制定和标准的确立。2、量化是在定量,而数据之间的相互作用,则是在定性。这个“性”也就是佛家讲的缘。如果可以量化,你甚至可以清晰的看到自己是什么样的情况下诞生的,为什么会是自己这个状态,将会创造什么样的结果。数据的作用不空,也就是因果不空。万法皆空唯因果不空,也会从大数据时代得到佐证。3、量化只是手段,而不是目的,目的亘古不变,不因为手段的变化而变化。4、人生其实就是一场网络游戏。只是变量够多,参数够多。
六、大数据处理应用总结
做一件事情,我们往往会“去粗取精、去伪存真、由此及彼、由表及里”。那么大数据处理也需要步步有依据、步步有理由。如何处理好大数据我大致把思路整理如下:
1、探索:我们可能会从许多各种系统以及孤岛上通过查询、筛选信息以及存储模型,去了解大数据的改进决策,去访问大数据的每一个对象,去深入分析OOP关系,建立UML及CWM或者做一次深入的CR,那么我们最终得到可视化的视图和模型,找到了数据之间的关系,客户之间的关系,数据与客户之间的关系,客户与客户之间的关系,甚至不相关或相关的关系,这一过程对大数据的处理,其实是一个探索的过程,通过这个探索最终才好决策,这个探索也就是为决策做铺垫的过程;
2、视图:主要是分析客户的属性,从内因外因来全面的了解客户,兵法云“知己知彼方能百战不殆”,其实视图主要就是用来分析客户的,深入了解客户喜欢什么?会干什么?最后会做什么?把这些内外信息做成视图来得到客户的有用信息,最终决定营销模式。所以视图这一过程的处理又是为营销做好基准了。
3、安全:其实大数据的处理少不了对社交媒体、远程通信以及各种邮件甚至微博微信、qq、旺旺等等的分析,那其实必然会有一定的潜在风险,那么在分析新的数据源,对久的数据源处理的过程中,必须做好智能化和安全化的处理,在安全方面少不了法律的执行及洞察力、以及网络的实时监控等才能保证其安全性。
4、运营:运营主要是从业绩上来讲,做任何事情最终都过程很完美,但业绩很重要,那么运营主要是考虑业绩了,大数据时代对运营分析,即不同类型的设备,比如IT设备、GPS设备、仪表以及传感器等,那么从大数据着手,这样公司随时可视化的分析运营状况、运营交易行为以及用户体验度等。
5、仓库:其实这里的仓库指的是整合大数据,整合主要是从效率行来说事,整合之后便于支持新的分析类型,利用大数据技术来设定一个暂存区,最后决定数据仓库里放哪些数据,对不常访问不常使用的数据进行存储和处理或转移这样确保最终的是高效的有用的数据。
本文来源 我爱IT技术网 http://www.52ij.com/jishu/big-data.html 转载请保留链接。
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
