当前位置：文档之家› IVA音视频识别技术解析

IVA音视频识别技术解析

IVA音视频识别技术解析
随着全球触屏时代的到来，交流平台的移动化、社交化、智能化已成为
必然的发展方向。

在这样的趋势下，视频互动成为视频行业制定战略的最新重要考虑因素。

下面重点介绍下在欧美近两年最受关注的IVA 技术。

IVA
是In Video Action 技术的缩写，IVA 目前与Google Voice 的字幕自动化生成技术、百度Video In 视频无痕植入技术并称改变视频行业的三大革命性技术。

随着触屏时代的到来，交流平台的移动化、社交化、智能化已成为必然的发展方向。

在这样的趋势下，视频互动成为视频行业制定战略的重要考虑因素。

IVA 技术简单来说是一种音视频识别技术，加上一套互动工具所构成的
互动体系。

识别技术就像一个探头，能够寻找视频中拨动心弦(或人为设定)的
时刻，并用互动技术实现与观众的互动共鸣。

值得一提的是，IVA 技术可将直播视频画面中的人物、物体、品牌、纹理、场景甚至情绪等信息分拣出来，再通过各种互动工具与受众进行双向交流。

IVA 的使命分三个层次，初级IVA、中级IVA、高级IVA。

其中，初级IVA 是依据音视频样本库标记视频流中与样本库匹配的视频片断，比如从视频流中识别广告时段和广告主、识别新闻联播等节目的片头、根据录音识别用户正在观看的节目等。

中级IVA 利用图像处理技术、大数据技术和深度学习技术，识别视频流中的场景、形状、纹理和人物等。

中级IVA 可以从视频流中识别大海、森林、闹市等多达200 多种场景，在场景连续出现超过30 帧的情况下，识别率可以
高达90%以上;形状识别的典型案例是从视频流中准确识别1000 多种饮料瓶的。

e商务文档