当前位置:
文档之家› 2020人工智能技术阶段性发展报告
2020人工智能技术阶段性发展报告
4
人工智能技术阶段性发展报告
像的真伪,例如使用成熟的数字水印技术 (Watermark),使相机拍出的每一张真实图像都带有有效水印,这实际 上是该照片的 数字化签名(Digital Signature),甚至可以借助区块链技术使用数据签名来帮助鉴别图像真伪。
计算机视觉领域的划时代产品——Microsoft HoloLens 的推出,赋予了人类以混合现实这样全新角度感知世界 的可能。除了辅助办公教学,HoloLens 2.0[7] 的应用场景也越发广阔:从基础建筑工程的四维模型 [8] 到制造业中核 心设备的实时检测 [9] 都可以看到它的身影。它远不止是一个虚拟现实的工具,内置 AI 和语义理解以及三维计算机 图像识别技术的紧密结合,让 HoloLens 的功能更加强大,并能够拓展到更多极具挑战性的环境中。此外,广受欢迎 的体感设备 Kinect 正在以全新的面貌—— Azure Kinect[10] 回归。Azure Kinect DK 集 AI 传感器于一身,囊括了深度、 视觉、声音和方向四大传感器类别,能够近乎实时地捕捉周围环境中人和物的信息,与 Azure 认知服务 [11] 结合后, 更可以对数据进行计算机视觉和语音模型的开发。值得注意的是,中国是 HoloLens 2.0 和 Azure Kinect 全球首发的 少数国家之一。AI 时代的一大特点是现实世界中每一个物体都被数字化,每一个物体都有自己的数字化代表,我们 把这个数字化代表叫做这个现实物体的 Digital Twin。HoloLens 和 Kinect 有强大的三维建模功能,是现实世界中物体 数字化的重要工具。
在几起几落之后,人工智能再次迎来蓬勃发展。IDC 的最新报告指出,“随着人工智能时代的到来,AI 将成为 这个时代决定性的技术,它将像电力的发现或蒸汽机的发明一样,从根本上改变人们的生活,改变工业,改变社会。”
早在 1991 年,比尔·盖茨就提出:“计算机有一天会听、看、说和理解人类。”如今这个宏伟愿景离现实越来越近。 计算机——或广义来说——人工智能(Artificial Intelligence,简称 AI)在 IT 技术的延续上扮演着重要角色。究竟该 如何正确认识当今AI的发展,我们需要先来看看人类智能的组成和进化。如果将人类智能抽象为一个金字塔(如图1), 那么底部应该始于最基本的记忆力和计算 (Memory and Computation),然后由低到高经由了感知(Perception)、 认知(Cognition)和创造(Creativity)等不同阶段,最终到达了代表智慧(Wisdom)的顶端。
人工智能技术阶段性发展报告
AI 是如何模拟这样的人类智能过程的呢?在这篇文章里,我们将尝试在这些层次上梳理 AI 在过去两年内的研究 现状和近期发展趋势;同时也希望探讨AI的研究和技术在落地过程中,如何更紧密地与产业及广泛的合作生态相结合; 最后,我们也将分享微软亚洲研究院对 AI 及其应当承担的社会角色的一些观点。
2018 年人们看到了生成对抗网络 GAN 的无限潜力,非监督学习的发展态势超出业内预期。微软亚洲研究院提 出了 Identity Preserving (IP) GAN[3] 的框架来进行人脸合成,通过分离脸部特征和属性,可以重新组合成不同面 孔——有效解决了以往 IP 人脸合成时受限于训练数据集里已知特征的关键问题。换言之,使用一个特定的人脸就可 以合成其在真实世界里的更多面孔,并且改变他的姿势、神情、光影甚至年龄。真实的人脸合成有很多实际应用 [4], 例如,用一个人很少的几张图片可以合成更多的图片放入数据库来为人脸识别训练做数据增强。Identity Preserving (IP)GAN 的一个应用是帮助进行人脸识别。事实上,现有的部分人脸识别技术常存在对肤色和性别的偏差漏洞, 尤其是在识别有色人种和女性时更加明显。而微软一直努力发展 AI 的公正性,消除技术带来的偏差。根据 MIT 研究 员 Joy Buolamwini 的评测 [5],微软人脸识别技术的准确率和公正性在业内处于领先地位。
另一个 GAN 的应用是神经网络风格迁移。使用神经网络将一张图片的语义内容与不同风格融合起来的过程被称 为神经风格迁移(Neural Style Transfer)[6]。例如,借助风格迁移算法,我们可以将中国画风格转移到一张万里长 城的相片上。通过分离和重新组合图片内容与风格,GAN 可以创作出具有艺术魅力的作品。人Βιβλιοθήκη 智能技术阶段性发展报告导语
创立于 1966 年的图灵奖 (A.M. Turing Award) 素有“计算机界的诺贝尔奖之称”,是计算机科学的至高荣誉。 从历年图灵奖青睐的领域,我们可以一窥 AI 研究的高潮与低谷。到目前为止,AI 领域共有 8 人获得图灵奖,前 3 人在 1975 年以前得奖,之后 AI 便遭遇寒冬。20 年后,1994 年的图灵奖颁给了两位 AI 大师 Raj Reddy 和 Edward Feigenbaum。直到最近,2018 图灵奖由 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 三位深度学习计算领域 的杰出学者获得,以表彰他们在概念和工程上的突破让深度神经网络成为计算的关键组成部分。就在 2018 年 11 月 微软亚洲研究院 20 周年活动上,Bengio 为与会嘉宾带来了主题为“深度学习在朝向人类水平的人工智能上的挑战 (Challenges for Deep Learning towards Human-Level AI)”的演讲。
正如任何一项技术如果使用不当会出现问题一样,生成对抗网络也可以被用来生成现实中不存在的人的照片和 视频(Deep Fake)。近年来 Deep Fake 变成了业界的隐忧,图像安全(Image Security)问题应运而生,大量虚假 照片和视频在社交媒体上的流传变成一个社会问题。如同软件业对正版的保护,我们呼吁通过建立业界标准来辨别图
在记忆力和计算层面,计算机早已成为人类不可或缺的助手。譬如,我们不再使用算盘,也无需记下诸多电话号码, 一切都可以由计算机代劳。这种人机结合早已成为我们生活和工作中很自然的一部分。那再更上一层楼,让我们看看 AI 在感知、认知和创造力层面又能实现怎样的突破。
智慧 创造力 发现 E=mc2
认知 感知 视觉、听觉... 计算,记忆力... 图 1 人类智能的构成层级
3
人工智能技术阶段性发展报告
感知智能最好的时代 以视觉为主的感知开启了我们对外界的初步认识
基于视觉、听觉等感知能力的感知智能在近些年取得了相当多突破,在业界多项权威测试中,人工智能系统 都已经达到甚至超过了人类水平,感知智能正在迎来它最好的时代。
当计算机模拟人类的感知(Perception)时,视觉(Computer Vision)是其中一个重要元素。自从 2015 年底 微软亚洲研究院研发的系统在 ImageNet 挑战中首次超越了人类分数 [1] 并用深度高达 152 层的深层残差神经网络 ResNet[2] 将图像识别错误率降低至比人类还低的 3.57% 后,ResNet 已成为众多科技公司图像识别的核心技术。如今, 几乎所有工业界图像识别都采用了 ResNet 作为基础神经网络模块。