当前位置:文档之家› 2018年计算机视觉技术研究报告

2018年计算机视觉技术研究报告

2018年计算机视觉技术研究报告摘 要:㊀计算机视觉技术始于20世纪60年代,主要研究如何让机器对图像进行高层次理解和自动化处理㊂随着机器学习技术的引入,特别是近几年来深度学习技术的发展,计算机视觉研究取得了重大进展㊂数据㊁算法㊁算力和应用场景是计算机视觉的四大核心要素㊂移动互联网和存储技术的发展,为计算机视觉技术的研究和应用提供了海量数据㊂同时监督学习㊁非监督学习㊁强化学习和对抗学习等各种算法形态也在近年来取得了巨大突破㊂计算平台更是从CPU发展到现在的GPU和TPU,算力大幅度提升㊂这三方面的发展,使得计算机视觉技术被广泛应用于安防监控㊁金融㊁医学影像分析㊁自动驾驶㊁智慧城市等各个应用场景中㊂一 计算机视觉发展历程计算机视觉主要研究的是如何让机器对图像或视频进行高层次的理解㊂具体来说,计算机视觉致力于从单个图像或图像序列中自动提取㊁分析和理解有用的信息,实现自动化的视觉理解㊂(一)经典视觉体系的建立计算机视觉始于20世纪60年代后期,与当时流行的数字图像处理领域不同的是,计算机视觉希望从图像中提取三维结构,以实现全面的场景理解㊂20世纪70年代,计算机视觉体系慢慢地建立起来,主流研究包括如何进行图像中边缘的提取㊁线条的标注㊁非多面体和多面体的建模㊁光流的研究以及对运动的估计㊂在之后的十年里,更严格的数学分析被引入视觉建模,比如尺度空间的概念㊁利用阴影㊁纹理及焦点进行的形状推断以及一些轮廓模型㊂到20世纪90年代,投影三维重建的研究渐渐活跃起来,它让我们对于相机校准有了更好的理解㊂90年代末,基于计算机图形学和计算机视觉领域的交叉作用,一些新的研究慢慢涌现,包括图形渲染㊁图像变形㊁视图差值㊁全景图像拼接以及早期的光场渲染㊂经典的计算机视觉系统主要可以分为五个步骤:图像获取㊁预处理㊁特征提取㊁检测分割和语义分析㊂图像获取由照相机或摄像机来获取图像或视频;预处理则是对图像和视频进行噪声去除和数据整合等处理;特征提取是从图像中提取线㊁边缘㊁颜色㊁方向㊁纹理等各种复杂度的特征;检测分割则是对有价值的部分进行分割提取;语义分析包括对图像进行识别或分类等过程㊂(二)机器学习的引入和应用机器学习主要研究计算机怎样模拟和实现人类的学习行为,通常来说,机器学习重新组织已有的知识结构来获得新的知识和技能,通过一系列的训练过程来不断提升自身的预测性能㊂机器学习的出现源于这样一个想法:一个算法的效果应该随着时间的推进越来越好㊂20世纪90年代,随着计算机硬件和软件的进步,机器学习的实际应用变得越来越广泛㊂此时,计算机视觉和机器学习的结合变为必然,机器学习技术很大程度上优化了视觉算法,提高了视觉系统的性能㊂具体来说,机器学习为计算机视觉提供了许多有效的模式,包括自动化参数的更新和模型的训练,以及用经验主义来进行模型的生成㊁验证和修改㊂机器学习在计算机视觉中的应用主要包括:图像分割和特征提取,学习规则㊁关系㊁特征㊁判别函数和评价指标,视觉模块和任务级学习的整合,学习形状表示和表面重建策略,自组织算法模式学习等㊂(三)由深度学习引领的新突破到了21世纪,深度学习开始被广泛研究㊂随着数据量的上涨和运算力的提升,深度学习引领了计算机科学一次又一次的新突破㊂计算机视觉是深度学习技术最早取得突破性成就的领域㊂深度学习的鼻祖GeoffreyHinton在2012年的ImageNet大规模图像识别竞赛中以超过第二名将近10个百分点的成绩夺冠,之后深度学习真正地火热起来㊂计算机视觉中比较成功的深度学习应用,包括人脸识别㊁图片问答㊁物体检测㊁物体跟踪等㊂深度学习的引入,大大提高了这些任务的预测准确性或性能㊂(四)计算机视觉与其他学科的协同发展计算机视觉与人工智能㊁物理学㊁神经生物学㊁生物视觉㊁信号处理等领域的关系十分密切㊂例如,人工智能研究中的机器人需要在周围环境中导航,这时就需要计算机视觉来协助判断周围的物体环境㊂计算机视觉有时也被认为是人工智能领域的一部分㊂而在物理学中,物理中的各种测量问题可以使用计算机视觉来解决,例如流体的运动㊂另外,许多计算机视觉的方法都基于统计学㊁优化和几何学,因此,数学与计算机视觉也有着不可分割的密切关系㊂从具体的应用层面来说,医学是计算机视觉最突出的应用领域之一㊂计算机视觉可以从患者的医学图像数据中提取信息来对患者进行医学诊断㊂图像数据包括X射线图像㊁超声图像等形式,计算机视觉可以从这样的图像数据中提取肿瘤㊁动脉硬化等诊断信息㊂另外,计算机视觉在工业和农业领域也有着广泛的应用,例如,它可以从散装材料中去除不需要的事物,我们称为光学分选㊂计算机视觉也逐渐应用到军事中,如侦察敌方士兵㊁车辆㊁飞机等工作,以及导弹制导系统的设计等㊂最新的应用则是无人驾驶系统,完全自动化的车辆可以使用计算机视觉进行导航㊂总的来说,计算机视觉和许多领域都有着密切的关系,在许多应用领域发挥了极大的作用㊂二 计算机视觉最新技术进展视觉技术包含数据㊁算力㊁算法和应用场景四个核心要素㊂近年来,数据量的飞速上涨㊁运算力的大幅提升和深度学习算法的出现都极大地促进了计算机视觉技术的发展,使得其能广泛用于移动端多媒体应用㊁智慧城市㊁自动驾驶等场景㊂如果将计算机视觉技术比喻成火箭,那么数据就是燃料㊂数据为目前以深度学习为主流的计算机视觉技术提供了驱动力,获取优质的海量数据是实现精准视觉技术的第一步㊂近年来,智能手机的普及㊁互联网技术和存储技术的发展为获取海量优质数据提供了可能,极大促进了视觉技术的发展㊂算力也是计算机视觉的一个关键因素㊂图像和视频处理都属于数据密集型问题,需要大量的矩阵计算操作㊂经历了从CPU到GPU再到TPU的演变,计算能力在一步步提升,这也大大促进了计算机视觉技术的发展㊂随着AI芯片研发的深入,未来算力还将会有更大的提升㊂算法方面,在深度学习出现之前,计算机视觉技术大多分为手工特征提取和分类(识别)两个阶段,在大多数问题上识别准确率较低㊂深度学习的出现直接合并了这两个阶段,让识别的逻辑真正变为数据驱动的学习,同时大大提高了算法的精度㊂并且,除了传统的监督学习,目前更多的研究者正在投入到无监督学习㊁强化学习㊁对抗学习和终身学习的研究中,算法形态也在不断演变㊁不断进步㊂随着视觉技术的进步和成熟,越来越多的应用场景不断涌现,这些场景一方面为视觉技术的研究提供了丰富的数据,同时也提出了更大的挑战㊂越来越多的复杂场景问题不再是单一视觉技术就可以解决的,而需要跨模态多任务联合来应对㊂(一)算法形态的发展为适应计算机视觉体系的发展及解决与之相伴的新问题,作为整个体系核心之一的算法也在形态上不断演进㊂有监督学习是计算机视觉算法最为传统的表现形态,在包括图像分类和物体检测等各类任务中都有着成熟的应用㊂算法依靠标注过的训练样本集合,目标是习得从输入到输出的映射关系,并且能够将其泛化至全新的样本上㊂训练集中的每一个样本都是由输入对象和期望的输出值(监督信号)构成的二元组㊂映射关系的具体表达方式是多样的,如采用支撑向量机㊁受限玻尔兹曼机和卷积神经网络等形式㊂比如在图像分类任务中,通常训练样本的输入是待分类的图像,而监督信号则是人工标注的类别信息,映射的表达方式是一个端到端的卷积神经网络㊂无监督学习方面,在大数据时代的背景下,人工标注的效率增长远落后于算力的增长,这使得如何最大化地利用海量未标注数据以提升算法表现成为一个重要的研究课题,无监督学习也愈发受到关注㊂无监督学习不需要训练样本中含有人工标注的监督信号,因此算法也无法直接评估输出的实际精度,在训练过程中需要借助于其他的指标㊂除了独立使用无监督学习算法解决各类计算机视觉问题外,还可以将其作为有监督学习的强力辅助㊂例如在处理大规模无标注视频分类问题时,可以利用无监督学习算法的输出作为标注,在此基础上进行有监督学习㊂尽管在标注的准确率上可能不及人工标注,但大量可以使用的新样本仍对习得的模型有所裨益㊂从有监督学习到无监督学习的形态转变,不仅仅意味着使用的训练样本中人工标注的从有到无,更深层次上体现了从依赖人为指定的监督信号到自动学习数据内部联系的无中生有㊂无疑计算机视觉算法正朝着高级人工智能的方向迈进,另外几个蓬勃发展的子领域包括增强学习㊁对抗学习以及终身学习㊂增强学习研究算法如何基于环境采取决策完成状态的转移,以最大化所定义的累积收益㊂交互的环境通常被刻画成一个马尔可夫决策过程,算法需要在考虑长期累积收益的前提下对当前状态进行评估并采取决策㊂与标准的有监督学习算法相比,增强学习不需要给出与每一个输入样本对应的期望输出值或对非最优的决策显式地予以纠正,而注重平衡探寻策略空间与利用已有知识以提升算法表现㊂在实际应用中,增强学习算法常被用来搭建端到端的学习框架,已在诸如自动驾驶㊁视觉关系理解等领域取得了成果㊂对抗学习是无监督学习的一种特殊形式,目前主要用于学习生成模型㊂基于对抗学习获得的用于生成的神经网络也称为生成式对抗网络㊂它可以用于很多不同的应用,比如可以用来生成以假乱真的图像㊁视频以及三维物体模型等㊂整个学习模型由生成网络和判别网络两部分构成,两者间同时具有协作与对抗的辩证关系㊂以图像生成对抗网络为例,生成网络的作用是将潜在空间的随机采样映射到图像空间中与真实样本相近的点,而判别网络的作用则是区分真实图像与生成网络的输出㊂通过固定其中一个网络,训练另一个网络,反复迭代优化,最终使得生成网络能够输出与真实图片相似的样本㊂条件生成对抗网络在原有的基础上,为生成网络的输入添加了其他约束信息,使得输出具有额外指定的属性㊂终身学习意指随着训练样本集合的持续扩张,习得的模型能够增量式地扩充新的知识并运用到新任务上㊂在现实场景中,受计算开销㊁储存空间以及数据隐私等所限,在每次学习新任务时,使用之前的全部数据重新训练往往是不可取的㊂终身学习的目标就是在有限的空间与时间开销下,使模型在学会解决新任务的同时不忘记在旧任务上学到的知识㊂典型的应用场景包括训练样本与类别数目持续增长的超大规模图像分类问题,模型需要在只能保留定量旧训练样本信息的条件下,不断支持新的物体类别,并保持在先前类别上的准确率㊂这些不断涌现的学习范式,为计算机视觉体系的发展注入了新的活力,也为更广阔的现实应用奠定了理论基础㊂(二)计算形态的发展计算机技术㊁智能移动终端技术和网络技术的快速发展为计算机视觉带来了新的计算形态㊂目前,计算机视觉技术正在从单一的 摄像头 计算机 计算形态向包含传感器㊁移动终端㊁通信网络㊁卫星㊁云服务器等单元的立体视觉计算形态演变㊂新的计算形态将渗透到大量交叉应用领域,从民用㊁工业㊁军事等多个角度提供多元化的计算机视觉服务㊂未来计算机视觉的计算形态将在移动计算㊁实时系统㊁大样本等领域有所突破㊂具体而言,计算形态的新突破主要体现在打破设备㊁处理速度,以及数据量的传统限定㊂打破设备限定,与移动计算技术结合,计算机视觉技术接近终端,以提供更加个性化的服务㊂基于智能移动终端(如智能手机㊁平板电脑)的摄像头㊁显示器㊁处理器等模块,计算机视觉技术能够实现智能移动终端的视觉处理服务㊂随着移动终端计算能力的增强以及计算机视觉算法的轻量化㊁低复杂化,目前智能移动终端已经出现了大量基于计算机视觉的应用技术㊂在单一移动终端的方面,目前已经出现了基于人脸识别的解锁与支付技术㊁基于实时场景的增强现实技术㊁基于图片的检索技术等新型计算机视觉应用㊂在多移动终端方面,出现了多人互动的增强现实应用㊂打破处理速度限定,与实时系统融合,提供实时视觉计算服务㊂实时系统广泛应用于各个行业中㊂实时系统需要根据外部环境的变化及时做出响应㊂计算机视觉技术与实时系统的融合将为实时系统带来视觉处理能力㊂近年来,计算机视觉在人脸㊁物体识别领域的技术发展已经可以支撑实时系统对时间约束以及可靠性方面的要求㊂同时,计算机视觉还能为实时系统提供更强的可预测性与可交互性㊂目前已经出现了大量实时系统与计算机视觉的融合应用,如银行通过人脸识别技术保障客户的财产安全㊁公安系统通过人脸识别技术甄别嫌疑人㊁互联网身份认证等㊂计算机视觉在工业4 0中的应用能够进一步提升工业中的感知㊁快速反应能力,提高工业的生产和管理效率㊂打破数据量限定,与大样本数据融合㊂计算机视觉与大样本数据的融合能够代替大量基于人为经验的业务,实现更准确的图像识别㊂大样本数据以研究样本数量庞大著称,而现在很多行业中存在大样本数据,如医疗数据㊁卫星遥感数据等㊂传统的大样本数据类业务多基于人为经验进行判断,如医疗过程中基于X光片的病情诊断㊂而人为经验判断存在过多的主观因素,基于计算机视觉与大样本数据结合能够有效避免这一问题㊂2017年,斯坦福大学公布了0 5PB的医疗图像大数据MedicalImageNet用于科学研究以降低误诊的概率㊂对于卫星遥感图片大样本数据,计算机视觉将在实时城市交通规划㊁林业等方面发挥作用㊂同时,计算机视觉可以应用在基于卫星遥感数据的军事领域,如军事目标识别㊂(三)应用形态的发展视觉技术的应用形态正在从以前的单一任务向跨模态多任务联合演变,越来越多的应用场景需要结合多种计算机视觉技术,联合完成多个子任务才能达到应用需求㊂计算机视觉技术一开始主要应用在一些单一环境下的简单机器识别任务上,比如手写字体识别㊁车牌识别等,这些应用形态共同的特点就是任务单一,且没有太大的环境干扰㊂后来随着深度学习的出现㊁算法精度的提高,计算机视觉技术可以应用到一些相对复杂的问题上,比如人脸识别㊂人脸的拍摄环境相对比较多样化,但是算法解决的依然是单一任务㊂随着各种处理单一任务的技术的成熟和应用需求的多样化,现在越来越多的场景已经逐渐需要各种计算机视觉技术跨模态多任务联合才能应对㊂最典型的例子就是自动驾驶和智慧城市㊂自动驾驶通过在汽车上搭载传感器获取周围环境的信息,并通过视觉算法进行识别,感知并重建周围环境,从而辅助或者代替驾驶员做出驾驶决策㊂一个自动驾驶的视觉系统的输入信息包含了多个摄像头获取的RGB视频㊁激光雷达获取的深度图像等多种信息,要完成包括车道线定位,交通标志识别,行人㊁车辆的检测和跟踪在内的多个任务,是一个典型的跨模态多任务联合应用场景㊂智慧城市是另一个典型场景㊂智慧城市的数据输入更加多样化,从视觉系统角度来说,既包括城市道路㊁小区和商场内的各种监控摄像头获取的视频,也包括卫星或者无人机获取的航拍图等㊂包含的视觉任务也非常多样,比如通过监控摄像头进行车牌识别㊁嫌犯追踪,通过小区摄像头实现刷脸门禁,通过商场摄像头实现无人超市等,它们联合起来才能共同构筑一个方便㊁安全的智慧城市㊂跨模态多任务联合的应用形态让视觉技术更广泛地应用到多个场景,在促进生产力发展的同时也大大推动了视觉技术的发展㊂三 计算机视觉相关产业应用发展情况计算机视觉技术可实际应用的产业十分广泛,可为安防㊁零售㊁医学㊁汽车㊁工业㊁金融以及智慧城市等行业带来降本㊁增益或二者兼顾的价值㊂据罗兰贝格战略咨询公司分析,2017年中国计算机视觉行业市场规模为40亿元,2020年市场规模预计可达到725亿元,年均复合增长率高达262 7%㊂在人们日益增长的安全需求㊁效率需求和国家扶持政策的共同推动下,未来计算机视觉技术在各行业的发展空间非常巨大㊂随着技术的不断进步,应用范围逐步扩大,合作行业不断增加,未来计算机视觉市场规模将迎来突破性发展㊂作为人工智能的一个重要热门领域,目前计算机视觉的商用前景较其他技术更为清晰,在2017年全国人工智能细分领域企业数量分布统计情况中,计算机视觉企业数量为146家,占比高达25%,排名第一,受国家政策大力扶持及相关技术不断成熟的影响,计算机视觉技术在产业应用上空前活跃㊂图1 人工智能在各行业带来价值的定性总结资料来源:罗兰贝格㊂(一)安防应用安防布控对人们日常生活安全的重要性使得计算机视觉技术在该领域应用价值巨大㊂安防布控需要利用精准监测和图像智能匹配来实现高效率运行,计算机视觉能够充分满足这一需求㊂目前安防领域是计算机视觉重点应用领域,其重要性在未来依旧呈现上升趋势㊂2016年,中国安防产业市场规模约1900亿元,计算机视觉技术应用的视频监控板块约970亿个㊂2017年,在北京等一线城市,每千人拥有摄像头数量在59个,相当于英国同期数量的80%㊁美国的60%,可开发的市场潜力依旧很大㊂科技型安防设备可协助公安机关进行安保行动,提升安保效率㊂如利用人脸识别技术监控人员身份,对环境进行识别,进行区域安全监控,利用高精度搜图技术,也可助力公安快速识别相关人员身份,核验嫌疑人身份㊂(二)零售应用计算机视觉作为一种高效获取信息的智能手段,可帮助零售业商家通过收集数据分析用户行为,进行精细化运作,从而达到以消费者体验为中心的运营目的㊂例如无人零售的会员识别㊁自动导购㊁自动购物车㊁无人机送货㊁扫码自动结账等应用都已进入商业试用阶段㊂在服饰零售领域的虚拟商品试戴试穿和化妆品零售领域的虚拟试妆也是基于人脸㊁人体识别技术的成熟商业应用㊂2018年3月30日零售业巨头苏宁易购发布的2017年报显示,苏宁与商汤科技合作的智慧零售模式已经从概念阶段进入落地实施与发展阶段,在合作的一年中,双方团队携手通力合作,已在北京㊁上海㊁南京㊁重庆等城市成功上线苏宁无人店㊂(三)医学应用计算机视觉在医学行业的应用主要集中在医疗影像的分辨和采集领域,目前医疗数据中有超过90%来自医疗影像的采集㊂随着大数据和精密医疗行业的发展,计算机视觉出色的智能识别能力可为医疗诊断提供强力支持,大大提高诊断效率㊂其主要应用形式为识别医疗影像,帮助影像医生减少读片时间,提升工作效率,并显著降低误诊的概率㊂典型的应用案例为以色列医学中心与哈佛医学院合作研发的人工智能系统㊂该系统对乳腺癌病理图片中癌细胞的识别准确率能达到92%,与病理学家的分析结合在一起时,它的诊断准确率可以高达99 5%㊂目前,国内智能医疗影像分析系统已进入医院临床阶段,但获取市场准入进而产生实际效益仍需要时间,产品需要进一步打磨完善㊂但计算机视觉技术在医学产业的应用前景光明,根据罗兰贝格战略咨询公司的预计,计算机视觉技术在2018年将可获得市场准入,2019年实现商业落地,2020年后开始大规模市场渗透㊂(四)汽车应用计算机视觉技术在汽车领域的应用将会集中在驾驶端㊂无人驾驶是未来汽车出行发展的方向,在无人驾驶技术的感知层面,可利用计算机视觉与语音识别技术监控驾驶环境㊁识别车内人员㊁理解乘客需求,配合数据处理与反馈,以及辅助驾驶系统,实现基本的无人驾驶㊂罗兰贝格战略咨询公司预计在2025年,全球无人驾驶系统领域市场规模为9536 5亿美元,而感知层面产品占比达50%,年复合增长率为44%㊂就计算机视觉技术的实际应用而言,谷歌无疑是行业领跑者㊂谷歌研发的GoogleDriverlessCar是一款全自动驾驶汽车,结合计算机视觉技术,已完成48万公里的道路测试㊂在未来,完全的自动驾驶可以基于计算机视觉收集的信息作出应变,在担任驾驶员角色的同时应对其他各方面的需求㊂(五)工业应用国家所倡导的智能制造的实现离不开计算机视觉技术的应用㊂通过计算。

相关主题