当前位置:
文档之家› 深度学习与计算机视觉综述PPT课件
深度学习与计算机视觉综述PPT课件
一个比较合适的分类器算法。同时设计特征然后选择一个分类器, 这两者合并达到最优的效果,几乎是不可能完成的任务。
10
是否可以自动的选择特征?
• 即输入某一个模型的时候,输入只是图片,输出就是它自己的标 签。比如输入一个明星的头像,出来的标签就是一个50维的向量 (如果要在50个人里识别的话),其中对应明星的向量是1,其 他的位置是0。
• 第三个是基于HoG特征的物体检测,它和所对应的SVM分类器组 合起来的就是著名的DPM算法。DPM算法在物体检测上超过了 所有的算法,取得了比较不错的成绩。
人工选择特征存在的问题:
• 大量的经验,需要你对这个领域和数据特别了解 • 大量的调试工作。说白了就是需要一点运气 • 另一个难点在于,你不只需要手工设计特征,还要在此基础上有
11
人类又是怎么识别物体的?
1981年诺贝尔医学生理学奖颁发给了David Hubel,一位神经生物学家。他的主要研究成 果是发现了视觉系统信息处理机制,证明大 脑的可视皮层是分级的。他的贡献主要有两 个,一是他认为人的视觉功能一个是抽象, 一个是迭代。抽象就是把非常具体的形象的 元素,即原始的光线像素等信息,抽象出来 形成有意义的概念。这些有意义的概念又会 往上迭代,变成更加抽象,人可以感知到的 抽象概念。 像素是没有抽象意义的,但人脑可以把这些 像素连接成边缘,边缘相对像素来说就变成 了比较抽象的概念;边缘进而形成球形,球 形然后到气球,又是一个抽象的过程,大脑 司地平线。
• Facebook和Twitter也都各自进行了深度学习研究,其中前者携手纽 约大学教授Yann Lecun,建立了自己的深度学习算法实验室;2015 年10月,Facebook宣布开源其深度学习算法框架,即Torch框架。 Twitter在2014年7月收购了Madbits,为用户提供高精度的图像检索 服务。
深度学习与计算机视觉综述
胡玉针 施杰
170219 170236
模式识别 检测
1
本报告主要讲述在计算机视觉领域深度学习如何逐渐占据主流以 及传统的识别算法的优缺点,较为详细的介绍了CNN卷积神经网 络的架构,简单介绍了深度学习在视觉领域的应用范围。希望让 大家了解这个领域的一些基本概念。水平有限,难免有错误的见 解,希望不要误导大家。
7
• 最著名的SIFT算子,即所谓的对尺度旋转保持不变的算子。它被广泛地 应用在图像比对,特别是所谓的structure from motion这些应用中,有 一些成功的应用例子。另一个是HoG算子,它可以提取物体,比较鲁棒 的物体边缘,在物体检测中扮演着重要的角色。
• 这些算子还包括Textons,Spin image,RIFT和GLOH,都是在深度学 习诞生之前或者深度学习真正的流行起来之前,占领视觉算法的主流。
2
一. 概述
人工智能是人类一个非常美好的梦想,跟星际漫游 和长生不老一样。我们想制造出一种机器,使得它跟人 一样具有一定的对外界事物感知能力,比如看见世界。
图灵在 1950 年的论文里,提出图灵测试的设想, 即,隔墙对话,你将不知道与你谈话的,是人还是电脑。 这无疑给计算机,尤其是人工智能,预设了一个很高的 期望值。但是半个世纪过去了,人工智能的进展,远远 没有达到图灵试验的标准。这不仅让多年翘首以待的人 们,心灰意冷,认为人工智能是忽悠,相关领域是―伪 科学。
50多年时间有无数科学家提出很多机器学习的算法, 试图让计算机具有与人一样的智力水平,但直到2006 年深度学习算法的成功,才带来了一丝解决的希望。
3
二. 众星捧月的深度学习
深度学习在很多学术领域,比非深度学习算法往往有20-30%成 绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己 的深度学习团队,其中投入最大的就是谷歌,2008年6月披露了谷 歌脑项目。2014年1月谷歌收购DeepMind,然后2016年3月其开 发的Alphago算法在围棋挑战赛中,战胜了韩国九段棋手李世石, 证明深度学习设计出的算法可以战胜这个世界上最强的选手。
4
• 在硬件方面,Nvidia最开始做显示芯片,但从2006及2007年开始主 推用GPU芯片进行通用计算,它特别适合深度学习中大量简单重复的 计算量。目前很多人选择Nvidia的CUDA工具包进行深度学习软件的 开发。
• 微软从2012年开始,利用深度学习进行机器翻译和中文语音合成工作, 其人工智能小娜背后就是一套自然语言处理和语音识别的数据算法。
5
机器学习需要解决的问题?
6
三. 传统计算机视觉算法
• 特征感知图像预处理特征提取特征筛选推理预测与识别。
中间的特征提取,特征筛选主要是人工选取特征:传统的计算机识别方法把特征提取和分类 器设计分开来做,然后在应用时再合在一起,比如如果输入是一个摩托车图像的话,首先要 有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学 习。
12
再谈如何识别摩托车?
• 看到图片中的摩托车,我们可能在脑子里就几微秒的时间,但是经过了大量 的神经元抽象迭代。对计算机来说最开始看到的根本也不是摩托车,而是 RGB图像三个通道上不同的数字。
• 所谓的特征或者视觉特征,就是把这些数值给综合起来用统计或非统计的形 式,把摩托车的部件或者整辆摩托车表现出来。深度学习的流行之前,大部 分的设计图像特征就是基于此,即把一个区域内的像素级别的信息综合表现 出来,利于后面的分类学习。
8
几个(半)成功例子
• 一是八九十年代的指纹识别算法,它已经非常成熟,一般是在指 纹的图案上面去寻找一些关键点,寻找具有特殊几何特征的点, 然后把两个指纹的关键点进行比对,判断是否匹配。
• 然后是2001年基于Haar的人脸检测算法,在当时的硬件条件下 已经能够达到实时人脸检测,我们现在所有手机相机里的人脸检 测,都是基于它或者它的变种。