目标检测CNN系列
深度学习与神经网络
大约二三十年前,neural network曾经是ML领域特别火热的一 个方向,后来由于容易过拟合,难以微调参数等慢慢淡出,直到Hinton 提出了一个实际可行的deep learning框架。 Deep learning与传统的神经网络之间有相同的地方也有很多不同。 deep learning采用了神经网络相似的分层结构,系统由包括输入层 、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接, 同一层以及跨层节点之间相互无连接。另一方面,DL采用了与神经网 络很不同的训练机制。神经网络根据当前输出和label之间的差去改变 前面各层的参数,直到收敛(迭代)。而DL使用自下上升非监督学习特征, 分别得到各层的参数,再使用自顶向下的监督学习,通过带标签的数据去训
机器学习与深度学习
机器学习(Machine Learning)是一门专门研究计算机怎样模拟
或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识 构不断改善自身的性能的学科。(阿尔法狗)
一般方法:
应用:图像识别、语音识别、天气预测、基因表达、内容推荐 特征是机器学习系统的原材料,对最终模型的影响是毋庸置 的。上面步骤中间三步可以概括为特征处理,深度学习即机器自动 处理特征。
深度学习基本思想
一个多层信息处理系统: I =>S1=>S2=>…..=>Sn => O I 输入, O 输出 , Si 处理层 理想情况:I=O 信息处理不会增加信息,大部分处理会丢失信息。调整Si使得I与O 差别尽量小,每一层Si都是原来信息的另一种表示即特征。 于深度学习来说,其思想就是对堆叠多个层,也就是说这 一层的输出作为下一层的输入。通过这种方式,就可以实现对 输入信息进行分级表达了。
卷积神经网络
同一般的深度网络一样,卷积神经网络包括输入层、隐藏层和输出层
(一般采用softmax分类器),其中输入层主要由卷积层和下采样层组成。每 一次利用卷积提取特征基本可以概括为线性变换——非线性变换——下采样三
个阶段。
1、 线性变换:yj = bj + ∑wij*xi *表示卷积, xi-输入特征图,yi-输出特征图,xi与yi之间权值为wij,b为偏置 2、非线性阶段,对卷积阶段得到的特征按照一定的原则进行筛选,即激活函数, 常用的激活函数有sigmod、tanh、softsign和relu函数。 3、下采样即池化(pooling),用以保留有用特征的同时降低维数,常用的方 法有max pooling和mean polling。
计算输出图像的(2,4)元素=
图像处理中的卷积
当对图像边缘的进行滤波时,核的一部分会位于图像边缘外面。 常用的策略包括: 1)使用常数填充:默认用0填充。 2)复制边缘像素
卷积神经网络
卷积神经网络是人工神经网络的一种,由感知机发展而来,是一 个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立 神经元组成。 特点:通过感受野和权值共享减少了神经网络需要训练的参数的个 数,局部感受野和权值共享以及时间和空间的亚采样保证某种尺度的位移 尺度、形变不变性。
RCNN系列
作者:Ross Girshick
⊙RCNN(Rich feature hierarchies for accurate object detection and semantic segmentation)
⊙ SSP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition) 提升R-CNN检测的速度24-102倍
深度学习发展
20世纪80年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法)的发明,给机器学习带来了希望,掀 起了基于统计模型的机器学习热潮。利用BP算法可以让一个人工神经 网络模型从大量训练样本中学习统计规律。 20世纪90年代,各种各样的浅层机器学习模型相继被提出,例如 支持向量机(SVM,Support Vector Machines)、 Boosting、最大
RCNN系列
⊙ Fast RCNN 比R-CNN更高的检测质量(mAP),不需要在磁盘中存储特征
⊙ Faster RCNN 共享卷积计算结果,利用achors在conv5提取9个候选区域 ⊙ UOLO(You only look once) 45fps 利用整张图作为网络的输入,将一幅图像分成SxS个网格,B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个 confidence值。直接在输出层回归bounding box的位置和bounding box所 属的类别。YOLO对相互靠的很近的物体,还有很小的群体 检测效果不好
熵方法(如LR,Logistic Regression)等。这些模型的结构基本上可
以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(LR)。 2006年,Geoffrey Hinton和他的学生在《sicence》发表文章提出 观点 1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特 征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络 在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training) 有效克服
CVPR 2016 CNN
SSD(Single Shot MultiBox Detector) LocNet: Improving Localization Accuracy for Object Detection ResNet(Deep Residual Learning for Image Recognition) G-CNN: an Iterative Grid Based Object Detector MCNN(Single-Image Crowd Counting via Multi-Column Convolutional Neural Network)
Hale Waihona Puke CAFFECaffe is a deep learning framework made with expression, speed, and modularity in mind. It is developed by the Berkeley Vision and Learning Center (BVLC) and by community contributors. /
练,对各层参数进行微调。
图像处理中的卷积
类似与一种过滤器,卷积核在原矩阵(有n*m个像素的图可以用矩阵表示) 上滑动,求出原矩阵每一个元素卷积后的值,得到一个新的矩阵。 A = [17 23 4 10 11 24 1 5 7 6 13 12 19 18 25 8 14 20 21 2 15 16 22 3 9] h = [8 1 6 3 5 7 4 9 2] h翻=[2 9 4 7 5 3 6 1 8]