杂文笔记

    返回首页    发表留言
本文作者:李德强
          大数据到底是个啥
 
 

        近年来,随着计算机性能的提升和互联网信息的大爆发,大数据和云计算这两个词已经火遍了全球,越来越多的企业和技术人员转入所谓的“大数据”领域。那么大数据和云计算到底是什么呢?为什么这么多人要拼命的挤入这个领域?转入这个领域真的会给他们带来前所未有的商机和利益吗?此领域未来的发展前景究竟会怎样?

        我们先来看看在很多人眼中的大数据。很多培训机构在招生时,总是会大吹特吹的说,来我们这里吧,你可以学习到IT领域中最前沿的技术,其中就包括了“大数据”技术;很多企业在招聘员工时也提出:要求懂得“大数据”相关前沿技术,甚至更明确的提到“会使用Hadoop、MapReduce等相关技术的人员优先考虑。”就目前的多数IT企业来说,他们所提到并使用的“大数据”技术都是在一些Linux系统上(RedHat、CentOS、UbuntuServer等)使用Hadoop、MapReduce、Kafka、Zookeeper、Flume、Storm等这些相关的工具。对他们而言,在Linux系统上能够把这些大数据相关工具的使用环境搭建起来,能跟指定的业务系统关联,使用并存储这些业务数据就是所谓的“大数据”。对很多人而言这个过程并不简单。因为Linux系统对他们来说非常陌生,在Linux系统上搭建一套完整的大数据处理环境就变得更加困难了,其中涉及到多台服务器的访问和通讯,设置使用密钥登录来替代密码登录,需要配置每一台服务器的防火墙规则,配置各个软件的运行环境和运行参数……但值得庆幸的是现在的网络资源非常丰富,我们可以很方便的在网上找到相关的资料,并按照指定的步骤完成这些复杂的工作。然而,“在Linux系统搭建大数据处理环境”这一工作真的有很高的技术含量吗?不见得,对于一个Linux的长期使用者来说,这不过是在多台服务器上安装和配置软件,这些内容在日常工作时也常常使用,并没有什么特别之处。

        其实我们所说的“大数据”并不是指“搭建运行环境”这样简单,大数据真正价值在于对数据的分析与预测。我们可以想像这样的几个场景:在股票交易市场里,机器学习算法可以让计算机通过多年的股票交易数据的有效分析,成功的预测出哪支股票可能会涨,哪支股票会跌,然后在短时间内迅速的买入或抛出。而在美国的交易市场通过多年大数据训练的计算机可以在一秒内完成十万次的快速交易,虽然每次交易的利润可能只有0.0001美元,高速、准确的智能化交易会给使用者带来巨大的收入。在很多购物类网站中,运行在后台的计算机程序通过收集大量的用户浏览、购买记录,通过学习算法可以准确的判断出用户的身份、性别、年龄、工作、兴趣等这些信息,并可以根据强大的智能算法向不同的用户推荐他们可能感兴趣的商品。比如某一个用户在他喜爱的篮球队赢得了一场至关重要的比赛时,他还会为多花一点钱购买几瓶啤酒而放弃庆祝吗?如果有人看到了他寻找了很久的侦探小说,他会同时购买一个1元钱的精美书签吗?如果某一个用户在打开一个新闻类网站时,网页右下角跳出来一个曾经浏览过而因为价格太高并没有购买的商品降价广告,对用户而言购买的概率则要比推荐一个他从来没有关注过的商品高的多。当你的朋友或爱人生日就要到来时,智能的算法会提醒你给他或她购买一份中意的礼物,这要比你到商场去挑选高效的多,尤其是当你工作非常忙的时候。强大的学习算法可以根据多年的病历和诊断书快速准确的分析出就诊者可能的病因,甚至比有着多年经验的医生的判断还要准确。经过大数据训练的智能计算机还可以根据天气变化和季节气候提醒你应该多穿天点衣服免得着凉,甚至可以给你穿衣打扮的建议,如果你是个女士,你的智能手表会建议你穿一件紫色的裙子,因为现在正是春天开花的季节,而且今天的气温正适合你穿裙子。但一个男士的智能手表可能会建议他穿一条短裤。你的智能手机会提醒你目前的交通情况,为你选择一条最高效的行车路线……这样的场景举不胜举,其关键是要通过合理的机器学习算法及对其做有效的大数据训练,让计算机通过智能算法将大数据转变为实实在在价值。

        对大数据利用其实是要制作一系列有着人工智能的计算机,来对我们的工作和生活做各式各样的分析与预测。当然,这并不是一个简单的工作(参见《机器学习笔记》),我们需要不断的学习相关知识,并将这些技术充分的运用到实际问题中。就目前的大数据存储和计算而言,Hadoop是一个很优秀的分布式大数据存储系统,而MapReduce则负责将一个复杂的过程分解成多个简单的过程交付多台服务器并行处理,这些工具已经被非常专业的团队研发出来了,我们要做的不只是要使用好它们,更要在这个基础上将大数据的真正价值挖掘出来。无论是机器学习还是深度学习,或是目前很流行的语音识别和机器视觉,这些技术都离不开大数据和云计算,智能算法、大数据的训练与预测才是它们背后的技术根基,如果我们只把“学会使用那些大数据处理软件”当做目标的话就与真正的技术背道而驰了。

        人工智能必将引领下一次技术革命,然而并非总是会水涨船高,在浪潮之巅,那些腐朽破旧的小船将会被卷入海底,而乘风破浪的终究是那些制作精良的游轮和母舰。风口之上,猪也会飞上天,但不要高兴的太早,别忘了飞得越高,摔的越重。可以在蓝天白云间自由穿梭的一定是那些真正学会了飞翔的人们。

    返回首页    返回顶部
  看不清?点击刷新

 

  Copyright © 2015-2023 问渠网 辽ICP备15013245号