大数据,未来的“新石油”

更新时间:2024-03-22 作者:用户投稿原创标记本站原创 点赞:18101 浏览:81987

在电影《点球成金》中,用经验思考的教练和球探败给了用数据分析来做出判断的数学系高材生.虽然这部2012年最受欢迎的体育电影讲述的是一个虚构的故事,但它却将数据分析这种看似陌生的工具与普通人所熟悉的事物——棒球比赛完美地融合在一起.数据挖掘与分析在社会中扮演的角色越来越重要,随着数据存储和分析的成本越降越低,大数据将在人类社会大展拳脚.

中国工程院院士邬贺铨在1月11日举行的“2013中国智慧城市年会”上说,“大数据指无法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的非结构性数据集合.”但对于大多数不了解IT技术的人而言,这个定义实在太深奥了.

到底什么是大数据?它对我们的日常生活产生了什么影响?

大数据帮你省机票钱

逢年过节,写票总是一件让人头疼的事情.难写,飞机票的供应虽然相对没那么紧张,但如果刚付完钱机票就下跌,你肯定多多少少会郁闷一会儿.

什么时候写机票比较便宜?“当然是越早订票越便宜.”来自安徽的李梓豪毫不犹豫地对记者说,“我去年12月就订好了今年5月飞巴厘岛的机票,双人往返才3000多块钱!”对于能淘到便宜机票这件事,李梓豪丝毫不掩饰自己的喜悦.

不过,中国南方航空公司某位熟悉机票制定机制的工作人员告诉记者:“越早订票越便宜”并不是百试不爽的箴言,“在国内市场有时会出现一些不理智的‘战’,所以相对于国际航班而言,国内航班发生越临近起飞票价越便宜的概率更大.另外,虽然我们也会根据往年的销售情况预先出售淡季的特价票,但是航空公司给出的折扣可能并没有达到消费者的预期,因此仍然有可能出现机票下跌的情况.”

正是由于机票可能越卖越便宜,才出现了能够帮助人们预测未来机票走势的Farecast公司.

2003年的一天,华盛顿大学的计算机专家奥伦·埃齐奥尼准备乘坐飞机从西雅图前往洛杉矶.他跟李梓豪一样,出发前好几个月就预订了机票.他一直对自己这种“明智”的决定感到十分得意.可是,当得知旁座的乘客比他晚订票,但所购机票却比他便宜得多时,他感到非常气愤.

下了飞机之后,奥伦·埃齐奥尼仍然对这件事“耿耿于怀”.于是,他建立了一个帮助乘客预测机票走势的系统.这个系统能够从机票预订数据库中抓取数据,并根据每一条航线上每一架飞机的每一个座位一年内的综合票价记录,对未来机票的行情进行分析预测.如果一张机票的平均呈下降趋势,系统就会提示用户不要急着购票.这便是Farecast公司的前身.

“到2012年为止,Farecast系统使用了近十万亿条记录来帮助预测美国国内航班的票价.”牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈尔-舍恩伯格在《大数据时代》中写下了这个惊人的数字,“平均每张机票可为旅客节省50美元.”如今,Farecast已被微软收购,并被整合至必应搜索引擎.如果你要购写美国、加拿大、欧洲和地区的机票,它很可能让你省下一笔费用.

Farecast所使用的这十万亿条记录,就是大数据的一种.不过,大数据不仅仅限于这种数字记录.汤森路透旗下全球战略市场集团总裁任善可说:“我们通过专业记者团队和固定的信息收集途径获得文字、图片、报告等形式的数据,将它们转换为相关的观点提供给大客户,以显示金融波动和商业机会.”任善可所说的这些文字、图片以及人们在日常生活中所接触的音频、微博消息、手机导航信息、社交网站讨论甚至街头的交通监控视频等非数字形式的信息,都属于大数据的范畴.

目前,大数据的标准是:单一数据集的大小在几十个TB(万亿字节)和几个PB(千万亿字节)之间.这究竟有多大?一部一小时左右的标准清晰度电影的大小约为 1GB,1TB等于1024GB,1PB等于1024TB.淘宝网每天单日数据产生量超过50TB,存储量超过40PB;中国联通用户上网记录每月一万亿条,对应数据量约300TB.

流感可以被预测

这些庞大的数据除了可以们省点机票钱,还有很多没被老百姓注意到的用处.

去年12月31日以来,北京市有两人因感染甲型H1N1流感死亡.这让人们不禁回想起2009年的甲流大流行.对当时的人们来说,甲型流感病毒是一种全新的病毒.因此,在科学家研制出对抗这种新型病毒的疫苗之前,疾控部门只能用隔离等物理手段减缓它的传播速度,但前提是搞清楚传染源的位置.

可是疾控部门接收各地传回的数据需要一定的时间,当疾控部门获得数据时,已经落后于疾病的传播脚步了.而谷歌公司通过收集并分析人们在谷歌搜索引擎上的搜索记录,及时并准确地判断出了传染源所在地.


谷歌基于每天来自全球的30多亿条搜索指令设立了一个系统,这个系统在2009年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”怎么写作.谷歌在这项怎么写作的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系.虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%.“这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周.” 维克托·迈尔·舍恩伯格如此说道.

正如“流感趋势”产品首席工程师杰里米·金斯堡所说的那样,“这是一种有趣的、独特的追踪疾病暴发情况的途径.”谷歌在2009年甲流暴发期间,为公共卫生机构提供了更及时且同样有效的疫情数据.美中不足的是,目前谷歌不提供中国的流感趋势预测怎么写作,国内的搜索引擎公司也没有提供类似的怎么写作.

大数据的影响不仅仅限于航空和卫生领域.例如,在电子商务领域,对消费者购物习惯数据的分析可以让电子商务公司做到精确推荐关联产品、管理库存和快递运输怎么写作.虽然对用户的数据挖掘也同时会带来隐私保护等方面的问题,但大数据给人类社会带来的好处是显而易见的.正如中国科学院院长白春礼在中国科学院大学“中国科学与人文论坛”上所说的,信息网络领域有可能是新一次科技革命的突破口,而大数据就是“未来的新石油”.