IVA音视频识别技术解析
随着全球触屏时代的到来,交流平台的移动化、社交化、智能化已成为
必然的发展方向。
在这样的趋势下,视频互动成为视频行业制定战略的最新重要考虑因素。
下面重点介绍下在欧美近两年最受关注的IVA 技术。
IVA
是In Video Action 技术的缩写,IVA 目前与Google Voice 的字幕自动化生成技术、百度Video In 视频无痕植入技术并称改变视频行业的三大革命性技术。
随着触屏时代的到来,交流平台的移动化、社交化、智能化已成为必然的发展方向。
在这样的趋势下,视频互动成为视频行业制定战略的重要考虑因素。
IVA 技术简单来说是一种音视频识别技术,加上一套互动工具所构成的
互动体系。
识别技术就像一个探头,能够寻找视频中拨动心弦(或人为设定)的
时刻,并用互动技术实现与观众的互动共鸣。
值得一提的是,IVA 技术可将直播视频画面中的人物、物体、品牌、纹理、场景甚至情绪等信息分拣出来,再通过各种互动工具与受众进行双向交流。
IVA 的使命分三个层次,初级IVA、中级IVA、高级IVA。
其中,初级IVA 是依据音视频样本库标记视频流中与样本库匹配的视频片断,比如从视频流中识别广告时段和广告主、识别新闻联播等节目的片头、根据录音识别用户正在观看的节目等。
中级IVA 利用图像处理技术、大数据技术和深度学习技术,识别视频流中的场景、形状、纹理和人物等。
中级IVA 可以从视频流中识别大海、森林、闹市等多达200 多种场景,在场景连续出现超过30 帧的情况下,识别率可以
高达90%以上;形状识别的典型案例是从视频流中准确识别1000 多种饮料瓶的。