我的位置: 天下 > 话媒堂 > 文章详情
阿里巴巴第一任CTO告诉你,大数据为什么这么贵,小数据又是什么?
分享至:
 (3)
 (0)
 收藏
来源:上观新闻 作者:刘璐 2018-04-25 06:58
摘要:把过去的事件记下来,处理它、分析它,只有一个目的——预测未来。

在创投领域火了好几年的“大数据”,究竟是什么?它的未来会不会陷入“宿命”?

 

曾任阿里巴巴第一任CTO的吴炯,日前在复旦大学新闻学院一场讲座中,分享了他多年来在这个行业内的感受与思考。

 

一个人顶一堆人的工资

 

现任数衍科技董事长的吴炯,最初进入科技行业的时候,在美国一家公司当软件工程师。当时他就发现一个有趣的现象:公司一般很少招博士学位的工程师,因为普通的编程只要计算机硕士学位就可以做了,有些程序甚至本科生也可以写。但公司里有一个部门,博士的比例特别高,就是数据挖掘部门,这个部门,现在看起来有点像大数据产业的前身。

 

后来,他去了阿里巴巴,见证了阿里巴巴在2003年前后成立了专门的数据挖掘部门,公司招的第一个博士生就是去这个部门的。这是一个技术含量特别高、对于人才要求特别高的部门,很多前沿的算法创新都是先从大数据这个领域开始,然后再进入别的领域。招一个这方面的博士生成本很高,一个人可以顶一堆人的工资,为什么这些公司还要不惜代价去做数据分析?

按照吴炯的理解,数据处理具体可以分成两个部分:其一是数据采集,相当于人可以用眼睛看东西、用鼻子闻味道、用耳朵听到四面八方的声音;采集完的数据到神经中枢,进行处理和分析,这是其二。

 

有一类处理只为了一些实时的动作。比如说膝跳反应,你敲一下膝盖,脚会跳起来;你的手碰到一个烫的东西,手会缩回来。这种反应不经过大脑,在脊椎的层次上就已经处理了。这种反应,是初级的信息处理。很多低等生物的神经系统很简单,像昆虫,处理基本上就停留在这个阶段——有什么危险,它会跑掉;碰到有害的东西,它会躲避;看到有猎物,就扑上去。但它不存在记忆,不会记得以前发生的事情,因为它的神经系统非常初级。

 

高级的信息处理,加入了时间的维度,简单来说就是产生了记忆,把过去发生的事情存储在一个记忆空间里。人脑的神经元在做的事情,就是记忆以前发生过的事情做。

 

为什么要做这些事情?这是因为,把过去的事件记下来,处理它、分析它,只有一个目的——预测未来。

 

宇宙演化的必然

 

能够预测未来的生物和不能预测未来的生物,生存能力是完全不一样的。如果两种生物之间产生竞争,能够预测未来的生物就有非常大的优势。吴炯认为,这就是数据分析、数据处理带来的生存优势。

 

人类为什么能主宰地球?这是因为人类有生物界最复杂的信息处理系统,即人类的大脑。吴炯介绍,进化生物学上存在过一种争论,就是人类大脑这种高级信息处理系统的产生,到底是偶然的还是必然的?吴炯说自己比较倾向于后者,也就是说人类大脑是信息处理的器官,能够进化出来是早晚的结果,即便不是产生于人类,可能别的生物也会产生像人类这么复杂、这么高级、这么厉害的大脑。

 

“有一句话叫做天下武功,唯快不破,就是说你出招要非常快。除了肌肉的力量、灵活性要非常好,还有什么更厉害?就是你这一拳没有打出去之前,我就知道你要打出去,我就已经在这边防范了。怎么做到?就是你能够预测对手。”他解释,“如果你有信息处理的能力,你就可以预见你的对手做什么,你埋伏在猎物经过的路上,并且在你的对手做动作之前做到,这个‘快’就是无与伦比。所以我认为,强大的信息处理系统是宇宙演化的必然。”

 

用历史预测未来

 

大数据之所以“大”,是相对于“小数据”。吴炯介绍,在大数据产业产生之前,就已经有所谓的小数据。

 

小数据是什么?打个比方,每一个公司里都有运营的数据,比如一个电商公司,每天在网上卖东西,卖了什么、卖给谁、价格多少,都有记录。吴炯以在雅虎做搜索为例,每天谁来了、搜过什么关键词、什么时候搜的,都有记录。“这个记录,随着时间的推移,如果你回去一看,会吓一跳。一个月过去了,一年过去了,两年过去了,你会发现积累的历史数据非常可观。”他回忆,当时很多公司在想这些数据存在那里究竟有没有用?去年的交易数据是不是就扔了?因为占掉很多存储空间。“有人就说这个不要丢,可以分析一下,一分析,真的有用。”

 

比如亚马逊会根据你过去的交易记录,推荐你可能会感兴趣的书。这种分析不是大数据,是小数据,是一个公司历史的交易记录的数据积累。

 

从上世纪九十年代初开始,就有一些公司制作了软件工具帮助企业做这个数据挖掘的工作,像亚马逊用过去的数据帮客户推荐产品,就是用历史数据预测未来,预测消费者可能的喜好。

 

会不会陷入“宿命”?

 

随着时间的推移,智能化数据分析的工具越来越完善,越来越高级,越来越系统化,很多新的算法被发明出来,新的工具被开发出来。它们能做什么事情?很重要的一个就是把非结构化的数据结构化。

 

什么是非结构化数据,什么是结构化数据?吴炯解释说,结构化数据就是可以存储在数据库里的数据,非结构化数据则无法存储,像是自然语言、视频、音频,多媒体等形式,目前就是非结构化数据。如果有工具能把非结构化数据转化成结构化数据,那么这些结构化数据也能被很方便地分析、处理。比如,自然语言本来是不可处理的,现在讯飞等语音识别技术就可以处理。从某种角度来说,人工智能也是大数据处理的一种特殊模式,所以大数据涵盖了人工智能。

 

在互动环节,吴炯提出了一个大胆的假设:如果在未来,运算能力足够强大、信息采集细致入微、数学模型完全被人类掌握,算法变得出神入化……一切条件我们都具备了,会出现什么结果?

 

任何宇宙间的演化过程,比如一种生物进化的过程、一个公司成长的过程,是否都可以被模拟?我们投资一个公司,如果预计会赚多少钱,创始人会不会和我们讨价还价?一切是否会陷入“宿命”?“自由意志”这件事还存在吗?

对此,吴炯坦言自己没有答案。在与主持人、复旦新闻学院张力奋教授对谈的过程中,他也不否认对自己所从事的技术怀有“恐惧”,毕竟社会的规则和立法,往往走在技术的后面。讲座最后,复旦大学新闻学院院长米博华表示,人类的最终追求,是要在技术和伦理的利弊之间找到最好的途径,使我们的生活变得更幸福美好。

题图来源:视觉中国 图片编辑:朱瓅
摄影:鄢浩
上一篇: 没有了
下一篇: 没有了
  相关文章
评论(0)
我也说两句
×
发表
最新评论
快来抢沙发吧~ 加载更多… 已显示全部内容
上海辟谣平台
上海2021年第46届世界技能大赛
上海市政府服务企业官方平台
上海对口援疆20年
举报中心
网上有害信息举报专区
关注我们
客户端下载