当前位置:
文档之家› 2015-10-26行人检测相关综述
2015-10-26行人检测相关综述
• KITTI Dataset:The KITTI Vision Benchmark Suite,也是认可度很广泛的汽车驾驶数据 集。 • NYU Depth v2.和KITTI • 提到的硬件是:NVidia GTX Tian Black
车辆辅助驾驶系统中基于计算机视 觉的行人检测研究综述
• 行人检测在车辆辅助驾驶系统中的重要应用价 值 • 两个模块:感兴趣区分割(ROIs)和目标识别 • 难点:
方法
得到ROIs的方式
基于运动
基于距离
基于图像特征ຫໍສະໝຸດ 基于摄像机参数检测场景中的 测量目标到汽 检测与行人相关的图 运动区域 车的距离 像特征 可见光图像-竖直边 雷达&立体视 缘&局部区域的熵 红 觉 外图像-人脸温度比 周围温度高(热点)
设备
摄像机
额外考虑的问题
检测算法不能太复杂, camera运动, 各传感器之间 整个系统的速度不应 所以要补偿车 的时间和空间 该低于对所有窗口进 辆自身的运动 同步问题 行穷尽识别的速度 比较鲁棒,受 不受姿态的影 只需处理可能发生危险 光照和行人外 直接利用了图像信息 响,比较鲁棒 的区域 貌的影响较小 额外的测距设 因环境的复杂多变, 需要对摄像机参数进行 智能检测运动 备,从而增加 很难定义出对每种场 标定,并且受车辆振动 的行人 了系统的造价 景都是用的特征 的影响 和复杂度 智能监控 与后面的目标识别算 基于视觉的检 法结合=单步检测算 测系统
• 行人检测方法:
– 基于形状:基于人体模型(解决遮挡)&基于 模板匹配(多姿态) – 基于学习特征:监督学习区分函数分类器| 结构参数(鲁棒性)
• ROIs分割 • 分类器-核心部分
• • • •
深度学习的问题: 行人检测方面的深度学习模型未定 深度学习本身结构确定问题 分类器问题
题目 中文行人检测文献 研究内容vs待解决问题 技术路线详细
题目
• 基于深度学习的交通背景下的行人检测方 法研究 • 复杂交通场景中基于深度学习的行人检测 研究 • 基于深度学习的车辆前方行人检测算法眼 就 • 复杂交通背景下基于深度学习的行人检测 • 智能交通系统中基于深度学习的行人检测 方法研究
车载视觉系统中的行人检测技术综 述
大体分类与上一篇一样
行人检测技术综述
基于无监督学习的行人检测算法研 究
• 解决学习样本未标记的问题
• 数据增强用来生成额外的训练数据而无需 对训练样本进行标记 • 无监督卷积稀疏自动编码器获得特征 • 端对端监督训练对分类器进行训练 • 对特征进行微调 • INRIA
优点
缺点
主要应用
• 评价标准
– 基于分类器的评价:
• • • • 正面测试样本-一系列和训练样本同样大小的包含行人的窗口 正确率-正确分类的窗口数量和总的窗口数量的比值来表示 负面测试样本-一系列不包含行人的窗口 虚警率-错误分类的窗口数量与总的窗口数量的比值
– 基于检测的评价
• 测试数据一般是一个图片集或者视频序列,人工对行人图像或视 频中的位置进行标注 • 评价时,将检测到的星人的位置和标注的位置进行比较,如果误 差小于一个阈值,则判决为正确的检测结果,否则,视为一个虚 警 • 正确率-正确检测到的目标个数和手工标注的目标个数的比值 • 虚警率-一个数据集上出现的总的虚警的个数或者平均出现一个虚 警个数的帧数
– 服饰变化、姿态变化 – 摄像机是运动的,这样广泛应用于智能监控领域中 检测动态目标的方法便不能直接使用 – 鲁棒性:路况、天气和光线变化 – 实时性
• ROIs分割:从图像中提取可能包含行人的窗 口区域作进一步验证,以避免穷举搜索, 提高系统的速度 • 目标识别:对得到的ROIs进行验证,以判断 其中是否包含行人,其性能决定了整个系 统可以达到的精度和鲁棒性。 • ROIs分割:基于运动、基于距离、基于图像 特征&基于摄像机参数 • 目标识别:基于运动的识别&基于形状
中文文献
• 1/2/6/36/37
背景
数据集: • Caltech:该数据库是目前规模较大的行人数据库,采用车载摄像头拍 摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约 250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对 矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为 set00~set10,其中set00~set05为训练集,set06~set10为测试集(标注 信息尚未公开)。 • 性能评估方法有以下三种:(1)用外部数据进行训练,在 set06~set10进行测试;(2)6-fold交叉验证,选择其中的5个做训练, 另外一个做测试,调整参数,最后给出训练集上的性能;(3)用 set00~set05训练,set06~set10做测试。由于测试集的标注信息没有公 开,需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试,将 结果保存在txt文档中(文件的命名方式为I00029.txt I00059.txt ……), 每个txt文件中的每行表示检测到一个行人,格式为 “[left, top,width, height, score]”。如果没有检测到任何行人,则txt文 档为空。该数据库还提供了相应的Matlab工具包,包括视频标注信息 的读取、画ROC(Receiver Operatingcharacteristic Curve)曲线图和非 极大值抑制等工具。