大数据作业
随着社会信息化进程加快,人类的社会活动所产生的数据也呈现出了海量增长的趋势。在2016年,谷歌平均每月要处理超过450PB的数据量;中国的阿里巴巴集团每天也要处理超过80PB的数据。而且这些数据的整张趋势逐年攀升,预计到2020年,人类将要迎来ZB时代。
那么,这些大数据是如何产生的呢? 以阿里巴巴为例,淘宝网在2010年就拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,单日数据产生量超过50TB,存储量40PB;在信息社会中,每一个人,每一台链接到互联网的设备都是一个节点,这些节点所产生的信息会凝聚成海量的信息,如同海啸一般涌入服务器之中。 万物联网,已经成为了社会高度信息化的一个特征。 但是数据量的庞大并不代表信息量的富裕。业界有种说法叫做big data poor information,翻译过来的意思就是大数据小信息————有许多国家、机构、团体、组织以及个人拥有着庞大的数据,却没有能力对这些数据进行处理,就好像一个人拥有一座金矿而无法进行开采。这无疑是一种极大浪费。而服务器中的海量数据就好比一座座金矿等待着人们的发掘。但这些‘数据的金矿’有着一个共同的特征,那就是价值的低密度。我们大数据从业者的任务,就是要从这些数据金山中将有用的信息提取出来,从而将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。实践已经证明,在大数据的支撑下,金融、医疗、教育等更方面社会传统行业焕发出了别样的生机。未来,我们也需要利用大数据技术来为政府做决策支持。 听到这里你一定兴奋不已,但是如何从价值低密度的PB级海量数据中提取有价值的信息呢? 基于分布式的云计算和云存储无疑是不二选择。在云环境下,我们可以对非结构化的海量数据进行并行处理,基于mapreduce的数据清洗技术已经成为了一名数据分析师所必备的专业技能。随后,我们再利用机器学习技术对这些清洗好的数据进行信息挖掘,最终将大数据转化为人类能够掌握并且利用的知识和规律,从而支持决策,指引行动。 可惜的是,截止目前,云环境仍旧是不可信任的。 由于密码技术未能在同态计算方面给出一种在时间复杂度层面可接受的算法,以至于当今世界所有的云环境都是不安全的。一旦发生数据泄露,则会对整个社会造成或轻或重的影响。针对云环境下的可信计算和可信存储等问题的研究也是大数据方向所臻待解决的一个重大问题,如鲠在喉。 总之,在大数据时代下,挑战与机遇并存。谁能驾驭数据这头庞然巨兽,谁就能把握住这个万物联网的时代。