Half the truth is often a great lie.

大数据、机器智能和未来社会的图景

科技 sean 18530℃ 0评论

在过去的50多年里,人类GDP增长的根本动力是摩尔定律,即每过18个月,集成电路的性能(以集成电路芯片中的晶体管数量来衡量)就翻一番,或者说同样性能的集成电路每18个月价格下降一半。图1展示出不同年代集成电路芯片里晶体管的数量(纵轴,注意它是指数坐标)。在此之前,人类还没有一项技术能够在长达半个多世纪的时间里以指数增长的速度进步。集成电路的发展不仅开启了整个IT行业的技术革命,而且带来了全球的自动化和信息化,因此,这是在过去的半个世纪多里拉动世界经济增长的根本动力(虽然在中国还有房地产和基础设施建设,但是在世界范围内,这个市场是在萎缩的)。

1图1. 摩尔定律(横坐标是时间轴,纵坐标是集成电路中的晶体管数量)图中的点是不同时期具有代表性的处理器

摩尔定律带来的另外两个结果,就是互联网的兴起以及产业的数字化,而这两个结果合在一起,又产生了一个过去我们不太关注的结果,那是各种数据量的急剧增长。当数据量增加到一定程度,量变就有可能成为质变,因此今天大数据成为了一个非常热门的话题。不过,目前在行业里和社会上对大数据炒作居多,对于它的理解依然停留在比较浅的层面。这表现在:

1. 在概念上将大数据和大量数据相混淆,认为大数据就是数据量大,没有看到多维度和完备性的本质。

2. 在应用上(商业上)仅仅看到了利用统计规律提升业务,没有看到它和摩尔定律的结合必将导致机器智能社会的到来,从而彻底改变商业模式和产业结构,以及人们的生活和工作方式。

3. 明显低估了大数据和机器智能将给我们人类社会带来前所未有的机遇和冲击。

我们就从这三个方面来看看大数据、机器智能和它们对未来社会的影响。

一、可怕的大数据

要说清楚大数据的本质和作用,先要讲讲数据的作用以及它和机器智能的关系。

1.数据驱动的方法导致机器智能的出现

从1946年计算机诞生以来,人类一直在思考这样几个问题:机器是否能有类似于人一样的智能?如果有,会在什么时候,以什么样的方式出现?如果出现了,它将对人类的生活产生什么影响?在过去的半个多世纪里,虽然人类一直在为此努力,但是到目前为止,这件事情似乎并没有发生,其中原因主要有两点。首先,人类在机器智能这个问题上一度过于乐观并且走了20年的弯路。人们最初的想法是让计算机来仿造智能,并且提出了人工智能的概念。学术界后来把这样的方法论称作“鸟飞派”,意思是说看看鸟是怎样飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。(事实上我们知道,怀特兄弟发明飞机靠的是空气动力学而不是仿生学。)直到上个世纪70年代,人类才找到了适合计算机发展智能的道路,即采用数据驱动和大强度计算。其次,三十年前计算机的功能还不够强大,虽然当时人们以为它已经很快了,容量很大了,但是只有今天的十亿分之一左右,对解决智能问题来讲是远远不够的。而今天,人类正走在机器智能可能超越人类智能的转折点上。

讲到机器智能(而不是人工智能),首先要搞清楚什么是机器智能。1950年,计算机科学的先驱图灵博士给出了一个衡量机器是否有智能的测试方法:让一台机器和一个人坐在幕后,与一个人(测试者)展开对话(比如回答人的问题),当测试者无法被辨别和他讲话的是另一个人还是一台机器时,就可以认为这台机器具有和人等同的智能。这种方法被称为图灵测试 (Turing, 1959)。计算机科学家们认为,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:

1. 语音识别,

2. 机器翻译,

3. 自动回答问题。

2

图 2 图灵测试

但是,从1950年代到60年代,机器智能按照传统人工智能的路子走得非常不顺利,几乎没有拿得出手的像样成果。而与此同时,计算机科学的其他分支都发展得非常迅速。因此,美国计算机学界开始反思是否机器智能走错了路?1968年,著名计算机科学家明斯基在Semantic Information Process一书 (Minsky, 1968)中分析了所谓人工智能的局限性,他引用了Bar-Hillel使用过的一个非常简单的例子:

The pen was in the box.

这句话很好理解,如果让计算机理解它,做一个简单的语法分析即可。但是另一句话语法相同的话:

The box was in the pen.

就让人颇为费解了。原来,在英语中,Pen还有另外一个不太常用的意思--小孩玩耍的围栏。在这里,理解成这个意思整个句子就通顺了。但是,如果用同样的语法分析,这两句话会得到相同的语法分析树,而仅仅根据这两句话本身,是无法判定pen在哪一句话中应该作为围栏,哪一句话应该是钢笔的意思。事实上,人对这两句话的理解并非来源于语法分析和语意本身,而来自于他们的常识,或者说关于世界的知识(World Knowledge),这个问题是传统的人工智能方法解决不了的。因此,明斯基给出了他的结论,“目前”(指当时)的方法无法让计算机真正有类似人的智能。由于明斯基在计算机科学界崇高的声望,他的这篇论文导致了美国政府削减了几乎全部人工智能研究的经费。在机器智能的发展史上,贾里尼克是一个划时代的人物。1972年,当时还是康奈尔大学教授的贾里尼克来到IBM沃森实验室进行学术休假,并且担任起IBM研制智能计算机的工作。贾里尼克于是挑选了一个他认为最有可能突破的课题,即语音识别。

转载请注明:北纬40° » 大数据、机器智能和未来社会的图景

喜欢 (1)or分享 (0)
发表我的评论
取消评论
表情