数字视频技术
模式识别:摄像机+计算机模仿人眼+大脑
--- 图像、视频与色彩空间的应用
图像:模拟与数字图像;处理、传输、保存、检索、显示等;数字图像是可以看作是两个变量的离散函数f(x,y)
视频:视频是一个图像序列,数字视频可以看作是三个变量的离散函数f(x,y,t);帧率函数值可以是一个数值(灰度图像),也可以是一个向量(彩色图像)
一个基本视频通信系统的框架
视频采集系统—数字视频处理系统—视频编码系统—视频传输系统—视频解码系统—数字视频处理系统
图像的分类:二值化图像,灰度图像,彩色图像
像素:一个像素通常被视为图像的最小的完整采样
图像的空间分辨率:指图像中每单位长度所包含的像素或者点的数目
色彩空间就是表达色彩的数学模型(表达逻辑性)(需要计算机实现)(用不同方式表达同一色彩信息,因为应用不同)
YUV颜色空间里,亮度信号Y和色度信号U、V是分离的。
如果只有Y信号分量而没有U、V分量,那么这样表示的图就是黑白灰度图。
彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色信号。
数字视频技术
--- 图像处理中的数学工具
时域(空间域):加减乘除,微积分,直方图
频域:傅里叶变换,dct(数字余弦)变换
图像变换的实质是建立输入图像与输出图像之间所有各点之间映射关系的数学关系(函数)(线性,非线性)。
熵(信息量):混乱情况下信息量大
同空间,不同空间的转换:是为了通过转换,在保持信息量不变的情况下,找到更便于观察的方式
直方图:分析不同灰度值的浓度分布(所占百分比)
二次化的方法:1划定像素值范围2找出每个像素在图中出现的次数3横纵轴标注名称(横轴:像素值;纵轴:像素浓度比例)
卷积:选定一个对称轴相加
非线型处理:对图像局部处理线型处理:对图像全局处理
对图像平面进行直接的数据操作:空域操作
1加减乘除2线性与非线性函数变换3微分4卷积5矩阵操作
卷积在图像中的应用
用一个模板和一幅图像进行卷积,对于图像上的一个点,让模板的原点和该点重合,然后模板上的点和图像上对应的点相乘,然后各点的积相加,就得到了该点的卷积值。
对图像上的每个点都这样处理。
边缘检测(卷积,依照需求选取核):一阶导数找出变化信息,检测出边缘信息
微分在图像中的应用
Sobel检测使用两个上述的3×3卷积内核来逼近水平边缘和垂直边缘。
第一个矩阵(Sx)检测垂直边缘的变化,而第二个矩阵(Sy)检测水平边缘的变化。
傅立叶变换:将原来难以处理的时域信号转换成了易于分析的频域信号(信号的频谱)。
傅立叶变换提供另外一个角度来观察图像,可以将图像从灰度分布转化到频率分布上来观察图像的特征。
傅立叶变换在图像处理以下几个话题都有重要作用:
1.图像增强与图像去噪
2.图像分割之边缘检测
3.图像特征提取:
4.图像压缩
DCT数字余弦变换(用于图像压缩):将图像从灰度分布转化到频率分布上来观察,同时高频(保存轮廓)在右下角,低频在左下角(大部分能量集中在左上角)(主要保存信息量化,会导致压缩中信息丢失)Zigzag扫描:提取左上角内容
数字视频技术
--- 位图与视频的数据结构与操作
BMP位图
调色板作用:缓解位图文件过大(适用于颜色类别少的)
位图文件:位图文件头:文件信息;位图信息头:位图信息:大小,长宽,图像色彩信息位置偏加值;调色板;实际位图数据
位图操作举例 – 读位图文件程序流程:
1.打开图像文件;
2.跳过位图文件头结构;
3.读取位图信息头进内存,存放在指定变量中;
4.定义变量,计算每行像素值所占字节数;
5.若有颜色表,则为颜色表申请所需空间;
6.关闭文件,释放内存
* 保存BMP
1.打开文件;
2.写文件头进文件;
3.填写信息头信息;
4.有颜色表,写入文件;
5.写位图数据进文件;
6.关闭文件
图像底层信息:颜色,纹理,边缘
数字视频技术--- 视频特征的提取与应用
光流:表达物体的运动(缺点:特征点难找,匹配点难找,运算量大)光圈问题:找不到特征点难感知运动
背景重建:用差分方法提取特征
数字视频技术--- 图像与视频压缩技术
利用人眼对一定程度损失有容忍度,减小冗余,达到压缩目的
Zigzag扫描:数字从大到小排列
霍夫曼编码(于运动估算,运动补偿):出现频率小的用短码Bitstream位流;
dct变换:无能量损失,国际标准化组织给出量化表
图像的高频部分对画质影响是不明显的,而低频则比较明显,越往右下方,频率越高,这样的图像越难以辨认
图像高频部分确实主要保存图像的轮廓、纹理
流程编码,霍夫曼编码均不会产生信息损失
小波变换与dct变换的区别:小波变换对整幅图有影响,较均匀,不会产生马赛克效应;dct变换是将图片切分为一个个小块,缺失一块就会产生马赛克效应
比特率bitrate:比特率代表用多少位来表示一个像素,比特率大的时候画质较好。
压缩率比:量化步长越大,压缩比越大,画质也就差些。
视频压缩标准
帧内压缩:将每个图像帧作为一个静态图片来压缩
帧间压缩:通过图像帧间冗余减小或者消除的方式来达到压缩的目的视频压缩通过空间与时间域内的冗余信息处理获得
某些信息的丢失并不对人的视觉效果造成重要影响
压缩流程
压缩流程 逆dct————找出前一帧
打开视—前画减后画—dct—量化—zigzag扫描—霍夫曼编码—bitsteam得到位流
解压流程
打开位流—霍夫曼编码—逆量化—逆dct
国际标准只规定解码
视频通信
传输层作用:1.打包;2.控制数据包收发(传输控制);
传输协议:tcp(面向连接的可靠协议),udp(无连接不可靠协议)(实时性好)
压缩:分拆打包,传输,接受,重组,解压
Rtp:实施点播,配udp
Rstp:录像点播,配tcp
Rtp打包需解决问题;1.b编号;2.序列号;3.时戳;4.payload有效负载;Rtp发送报告作用:1.接收者的接受报告;2.发送者报告;3.信号源描述报告
Iso 7层模型作用:令不同层面设备等方面交流信息
视频通信系统架构;
Source源—encoder编码器—packetizer打包器—transport control传输控制—network网络—transport control—reassemble重组—decoder解码—display
Streaming好处:1.无需等待;2.不需占用大量硬盘空间
机器视觉应用与挑战
应用:监控安全
图像底层特征:颜色,轮廓,运动信息
解读:1.提取特征;2.学习可转化词汇;3.量化特征;4.对可视化信息编码表示
平均值移动:1原始图像转化到浓度图像,计算图像浓度图;2.选择随机观察窗,计算内部平均值,找出与平均值最接近的数;3.将终点转移到上述位置,重复2;4.多次重复产生迭代。
平均值移动会使观察窗落在浓度最高点
缺点:会受到随机点影响,总是跳到一个局部最高点
挑战:viewpoint variation视角多变
illumination照明
scale参照物尺寸
deformation形变
occlusion遮挡
background clutter背景杂乱
object intra-class variation物体类内变化
模式识别
车牌识别:定位,边框去除,文字切割,识别
识别方法:直接匹配,训练归类,编码关联
数据挖掘:语义:画面内容的内涵
语境:上下文环境
Techniques for understanding a visual scene
Video Shot Detection
Video Object Segmentation
Blob Detection
Object class recognition
Context
Semantic
计算完全利用(R,G,B)组合来存储一个800×600的位图所需要的空间为:
800×600×3 = 1440000(字节)= 1.37M(字节)
调色板的功能在于缓解位图文件存储空间过大的问题。
假设一个位图为16色,其像素总数为800×600。
我们只需要用4个bit就可以存储这个位图的每个像素在16种颜色中所处的等级,然后调色板提供了这16种等级对应的(R,G,B)值,这样,存储这个16色位图只需要:
800×600×4/8 = 240000(字节)= 0.22 M(字节)
额外的存储R,G,B表的开销(即调色板Palette,也称为颜色查找表LUT)仅仅为16×3=48字节。