大数据与人工智能数据科学已经在决策科学、社会科学、经济学里面扮演越来越重要的角色,所以这种交叉融合,这种碰撞对我们每一个人来讲都是学习的机会,也是一些施展才华的空间。
最近在各个场合有一些分享,今天我尤其要把这个讲座做好。
今天是我儿子第一次坐在下面听我的讲座。
过去我们做的这些工作是跟数据有关系的。
一个大数据、一个人工智能,这两个放在一起,今天很多的企业会这么重视,在这里给大家分享一下我们自己的故事。
百度在过去两年多的时间里面,在人工智能领域有很多技术方面的投入。
今年李彦宏在两会上提出中国大脑,很受关注;麻省理工学院科技评论杂志去年专门发表了一篇评论性文章,介绍百度的人工智能之梦。
在国外主流的科技杂志里面报道一个中国企业的科技研发,还是比较少的。
我自己感到非常的振奋。
百度的背景,和很多的互联网公司都是一样的,从技术的纬度来讲,他本质上是一个基于大数据的人工智能公司。
我们是提供一个搜索引擎,这个搜索引擎下面有一个非常精致的结构,它可以搜索到各种信息、知识,而且服务是完全免费的、给用户带来价值的。
但是我们获得了了大量的搜索行为数据,并实现它的商业价值,就得通过广告、推送服务。
从数据到价值,这中间就需要大量的技术,尤其是基于大数据的人工智能技术,包括机器学习,自然语言处理,语音识别,图像识别。
最近在全社会,无论是在中国还是美国,还是科技媒体,还是研究机构,还是商业公司,都在谈自动驾驶、机器人、物联网、个性化、VR、AR。
其实这些都是AI的各个领域,现在AI已经成为科技创新的主战场,它不光是未来时,而且是现在进行时。
我们看电影《超能陆战队》,看似是未来的东西,但是今天很多领域正在发生,也在产生价值。
到底什么是人工智能?严肃的科学定义到今天为止,没有一个广泛接受的定义。
比如说,有一种说法叫强人工智能,有一种说法叫弱人工智能,还有基于符号逻辑的、也有基于统计模型的,有不同的观点。
抛开这些不同的观点,通常一个人工智能系统有这样几个方面:第一,我们希望这个系统具有感知的能力,就像人一样,有五官,可以感知周围的环境是什么样的。
第二,获取这个感知以后,对面临的环境有一个理解。
比如说对于一个机器人来讲,他在感知到这个环境以后,如果想到后面去跟一个同学聊天,他需要寻找最佳路径。
他必须要理解,那条路是走不通的,那条是可以走的。
第三,在理解的基础上做出决策,从而达成目的或完成任务一个机器要感知,然后理解,然后决策,这是一个过程。
今天在市场上面无处不在充斥着智能产品:智能汤勺、智能水杯等等。
我们把一个老式的收音机和智能设备放在一起比较,他们有什么不同?区别一个系统、一个产品是不是真的具有智能的能力,有一个很重要的纬度,就是这个系统能不能随着用户用它的次数越来越多,它变得越来越聪明,它是不是真的随着经验积累在不断的演化。
如果它是这样的,它就是一个能够自我学习、自我进化、自我演化的、智能的系统。
所以,学习能力是智能的本质属性之一。
在座有的年纪跟我相仿,在小学的时候有过一篇课文,讲的是一个科学巨匠做小板凳的故事,他做的那个板凳非常的丑陋,但是我们能不能说这个小朋友不聪明?如果你看他过去几天做的每一个小板凳,他一个比一个做的好,他具有不断的从经验里面去学习的能力,使我们发现这个小朋友是非常具有智慧的。
你看一个系统今天的能力不是最重要的,最重要的是它的增长曲线,随着大数据不断增加,不断去使用这个系统,它能变得越来越聪明。
这里面我提到了经验。
经验就是数据,数据就是经验。
我们在机器学习里面有一个词叫经验数据。
随着经验演化,就是随着数据的不断增长,增长你的能力。
为什么我们迎来一个大数据的时代?因为从PC互联网到移动互联网,带来了一个数据的爆增,在我们日常生活里面,每一个人都在贡献着大量的数据。
这样一个场景,是在圣彼得教堂门口的广场上面,很多人来等待教皇选举结果。
在八年以后,在同样一个地方,可能是同样一群人,同样的故事仍在上演。
但从一个纬度来看,移动互联网在改变每个人的生活,每个人的手持设备在跟着你,它无时不刻的在产生数据。
今天,每个人身上连着两到三个移动设备,比如说手机、iPad,这样一个趋势往前演进,人机交互是指在这个环境里面有无数个设备跟你感知、交互。
现在手表也已经是一个智能终端了。
总的来看,具体的趋势是我们将进入一个万物互联的时代。
随之带来的是每个你的设备都会记录你的数据,人跟设备的连接,人跟人的连接,物与物的连接,设备与设备的连接都在产生数据。
所以,这是一个机会,万物互联将形成大量数据无处不在的生态,给我们带来的机会就是智能化时代的来临。
2014年,我们突然看到那么多科幻的电影,那么多人在讨论这样那样的,包括习总书记也在院士大会上谈到机器人。
所以这不是偶然,这有一个时代的背景。
在大数据的时代,智能变得越来越重要。
有一个技术,最近很多研究机构,包括公司都有很大的投入,这个技术就叫深度学习。
深度学习为什么会在这个时代这么受大家的关注?谷歌、微软、Facebook都有专门的研究团队,Facebook2013年9月份第一次成立了研究院。
今天很多中国的互联网公司都成立了这样的研究院。
百度在这方面做了很多的工作,其中一个表现就是百度大脑项目,这个项目是一个有着上千台服务器,包括PC服务器和GPU服务器的大规模数据处理系统。
去年我讲的是百亿级的产品,世界上最大级的深度神经网络,最近我们把它升级到千亿级的系统。
基于这样一个工程的能力,我们能够去开发各种各样深度学习的算法,用在语音、图象、自然语音理解、广告的用户匹配、用户的建模等等。
百度大脑目前最成功、最重要的四个利用的领域:第一,搜索。
我们用深度学习作用在自然语音、文本、网络的语意上面,去衡量他们语意的相关性。
第二,广告。
因为广告是要智能的匹配,因为如果这个广告不被用户点击,我们挣不到钱。
第三,图象。
包括今天李彦宏讲到了自动驾驶,自动驾驶里面图像技术是非常重要的。
第四,语音识别和理解。
最近这几年业界取得的进展,包括百度做的工作。
语音识别在三十年的时间里面是一个进展非常缓慢的领域。
但是最近三四年时间里有一个突飞猛进的进展,原因的核心就是基于大数据的深度学习技术。
这些应用领域在业务结构里面扮演什么样的角色?它怎么把这些事情串起来为公司的核心业务产生影响。
第一,理解意图。
比如说我们的用户来到百度这个平台,传统上来讲,他用关键词表达他的搜索需求,但是我们看到最近这两年有一个趋势:第一,用户需求表达越来越复杂,以前很多是搜索信息,现在很多是服务的需求,这里面有很多复杂的语意来描述需求。
第二,更多自然的方式表达你的需求。
比如说自然的语音、句子去问问题,比如说在移动终端上面用语音表达。
现在有的APP就是拍个照,小朋友帮助你做题。
这种自然的表达方式是第二个趋势。
你用深度学习理解自然语言、语音识别、理解图象变成是理解用户的意图。
第二,你在理解了意图以后,你需要连接用户跟他需要的信息。
你在信息、文章那一端需要有更好的理解,这个理解需要有更好的匹配。
匹配用户的需求,就是优化搜索结果的智能排序。
第三,精准推送广告和服务。
深度学习在每一个领域都发挥着重要的作用为什么深度学习在今天受到重视?第一点,我觉得是一个很浪漫主义的原因,因为我们总是在想我们的机器能不能复制人的智能,复制生物的智能。
所以有一个观点是,深度学习可能跟人脑的机理是有关系的。
确实也是,最早期的去启发做深度学习的研究,确实是受到人脑的启发。
第二点,特别适合大数据。
其实到今天,深度学习为什么重要的第一个原因是最不重要的,因为你去研究鸟类怎么飞行,跟我要造一个飞机是不一样的事情。
但对于我们来讲,尤其对我们工业界来讲,我们希望能够造出智能的机器,他不是去再现人的智能,而是要利用大数据去延伸或者互补人的能力。
第三,端到端的学习。
过去做模式识别或者机器学习通常会分为两步,第一,根据你对问题的理解,人工的、人为的去做一些数据的预处理,这里面对人的要求是很高的,你需要非常精准的对问题进行理解。
但是你一旦换一个问题,你需要重新去理解。
深度学习把学习跟判定是连在一起的,前面不是人工的,它也是学习,但是一个一气呵成的从端到端的学习,这个非常重要。
因为它让你这个学习更加智能,它可以让你从一个领域迁移到另外一个领域,它可以减少人工带来的不必要的麻烦。
第四,提供一套建模语音。
深度学习,你不需要对问题有很好的理解,这是一个错误的观点。
因为深度学习跟我们在机器学习里面的图模型一样,也是一套语言系统,他让你表达你对这个问题的理解,如果你对这个问题不理解,深度学习对你来讲没有用。
在不同的问题里面,我们需要开发不同的深度学习的模型。
回到第一个浪漫主义的观点,深度学习跟人脑的关系。
计算机视觉里面一个很著名的深度学习的模型是卷积神经网络。
他们做这个的时候受到一个模型的启发,这个模型80年代获得诺贝尔医学生理学奖。
他讲的是视觉神经系统早期在视觉皮层里面怎么样处理视觉信息。
用很多的图像数据训练卷积神经网络,这个网络能够非常接近的体现视觉神经系统的行为。
每一层的神经元是一个特征提取器,一个具体的神经元对什么特征敏感,这里面讲的是他对不同朝向的边界敏感。
更高一层,把下面这一层提取的结果,去组成更复杂的模式匹配。
如果是两条边你结合在一起会形成一个物体的各个部位,比如说鼻子的提取,再往下走,就更具有语意,他可以把下面的东西组成更加丰富的物体结构。
这里面他是一个从信号逐层抽象、逐层变换的过程。
跟我们今天所了解的生物视觉系统是非常相关的。
但基本上我们只是知道这个联系,今天为止,我们做的很多的工作跟这个联系并没有太多的关系,也未受这个联系的束缚。
从另外一个观点来讲,从统计和计算方面来分享。
在机器学习里面,我们关心的是推广误差,他不是看在现有数据集上面效果怎么样,而是在未知的数据上,这个系统在训练的时候没有看到的地方,叫推广误差。
去年夏天,因为我们家小孩是在美国长大,刚刚回来,刚刚从一年级开始学习,中文不太好,他有一次考完试以后跟我讲,考的不好,70几分;第二天他特别高兴的跟我讲,爸爸,我考了98分,我说这太好了,一天之内进步这么快。
他说因为今天的考题跟昨天是一样的。
这不能真实反应学习者的能力。
推广误差要在你没有见过的数据集上面衡量他的效果怎么样。
一个经典的分析方法是把推广误差分析成两部分,我们来看错误源在什么地方。
第一个叫Approximation error,也就是假设,没有假设就没有学习,你在学习做推广的时候就一定有假设,你从已知推向未知,中间一定有一个结构在里面。
古代我们讲近朱者赤,近墨者黑,这有一个相似性-如果是相似的物体具有相似的属性。
这里面隐含着函数平滑假设,我们做一个假设,通常反映在你的模型中间,所有的假设可能是错的。
在统计学里面有一个,假设不完美,你在假设空间里面一定能够找到最完美的那个。