当前位置：文档之家› 视频音频基础知识

视频音频基础知识

运动估计
（-6，-1）
参考帧
当前编码帧
•运动估计以宏块（16x16）为单位进行 •在参考帧搜索匹配块，计算被压缩图像与参考图像对应位置上的宏块间的位置偏移，即运动矢量
运动补偿
•根据运动矢量，计算参考块与当前编码块之间的误差 •对误差进行DCT、量化、VLC编码 •解码时将该误差与参考块叠加，得到当前图像
音频信号数字化
• 模拟信号与数字信号处理对比
时间上离散-采样
幅度上离散-量化
• 语音质量与采样频率
Nyquist原理
• 语音质量与采样精度
量化噪声与量化比特数
• 语音质量与数据率
音频压缩的必要性
• 人耳可以听到最高频率约20KHz。 • 根据奈奎斯特抽样定理，为保证数字化的音频信号正确还原，采样频率必须大于等于音频信号的2倍，即40KHz。 • 每样本用16比特量化，立体声码率达 40K*2*16 ＝ 1.28Mbps
空间冗余
视频压缩的基本技术
• 正交变换去掉空间冗余性，主要采用DCT • 运动估计/补偿去掉时间冗余性 • 色度下采样（4:2:0）去掉视觉冗余性
MPEG2编码框图
DCT离散余弦变换
“Luminance ” 700mV
0 mV
1 TV line (64us) pixels “Luminance”
子带压缩技术
输入PCM音频信号经过一个多相滤波器组变换到频域里的多个子带中。输入声音信号同时经过心理声学模型，计算噪声掩蔽阈值，然后分析输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率，即信掩比。量化/编码部分根据信掩比决定分配给子带信号的量化位数，使量化噪声低于掩蔽阈值。最后通过成帧器将量化的子带样本和其他数据按照帧结构组装成位数据流。
二、视频基础知识
视频的色度空间
• 三基色原理：任何颜色均由红（R）、绿（G）、兰（B）三种颜色分量组成； • 在电视领域，用亮度（ Y ）、蓝色差（ U ）、红色差（V）三个分量表示。两种方法相互之间的转换： Y = 0.3R+0.59G+0.11B U = B –Y V = R–Y
视频信号的数字化
声音的静听域
• 静听阈是随频率变化的，人耳对2KHz～ 5KHz的声音比较敏感 • 各人的听觉阈值不同
声音的频域遮蔽现象
一种频率的声音会阻碍听觉系统感受另一种频率的声音，这种现象称为声音的频域掩蔽效应。
声音的时域掩蔽效应
• 除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，称为时域掩蔽。 • 时域掩蔽又分为超前掩蔽和滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间，也就是说，一个强音发生时，除了提高同一时刻的听觉阈值外，还会提高强音发生前和发生后一段时期的听觉阈值。一般来说，超前掩蔽很短，只有大约5～20 ms，而滞后掩蔽可以持续50～200 ms。
720
frequency
0 mV
frequency
1 TV line (64us) 720 pixels
32
DCT变换
Y分量原始数据
DCT系数
以8x8块为单位，反变换后可完全复原原始数据,无损。
量化
• 量化是针对DCT系数进行的，量化过程就是以某个量化步长（QP）去除DCT系数。量化步长的大小称为量化精度，量化步长越小，量化精度就越细，则量化造成的失真就越小。 • 去除视觉上不敏感的数据，是变换编码中的真正对数据进行有效压缩的步骤。 • 不可逆过程，有损。 • CBR（恒定码率，QP变化） • VBR（变码率，QP固定）
分辨率
码率
应用范围
H.264 SVC
H.264 SVC
• 编码器产生的码流包含一个或多个可以单独解码的子码流，子码流可以具有不同的码率，帧率和空间分辨率。 • 分级的类型： • 时域可分级（Temporal scalability）：可以从码流中提出具有不同帧频的码流。 • 空间可分级（Spatial scalability）：可以从码流中提出具有不同图像尺寸的码流。 • 质量可分级（Quality scalability）：可以从码流中提出具有不同图像质量的码流。
逐行与隔行
逐行与隔行
Kell系数=0.9
Kell系数=0.7
垂直分解力= 行数 x Kell系数
视频信号波形
视频分辨率
720P为标清的2.2倍，1080P为标清的5倍
视频压缩的必要性
• 标清数据量（720+360+360）×576×25×8 ＝ 165.888Mbps，加上行、场同步、消隐等时基信号，则码率高达216Mbps • 高清数据量（含时基信号） 720P/1080i：74.25×2×8=1.188Gbps 1080P50/60：148.5×2×8=2.376Gbps
音频压缩的可行性
由于人耳对声音的感知存在这些掩蔽效应，我们可以利用人耳心理模型对声音进行分析，将被掩蔽的信号去除，或用少量比特进行量化，只要保证量化噪声低于听觉阈值，则人耳听不出还原后的声音与原始声音的差别。子带编码技术就是利用这种掩蔽效应来实现的。
音频压缩技术
• 时域压缩技术 • 子带压缩技术 • 变换压缩技术
深圳市迪威视讯股份有限公司
视音频基础知识
罗钦骑
主要内容
一、音频基础知识二、视频基础知识三、视频会议终端及高清视频接口简介
2
一、音频基础知识
音频基本特性
• 音频特性音频信号由许多频率不同的声波组成。音频信号的两个基本参数是频率（音调）和幅度（声强）。 • 人发音器官声音频频率范围：80~3400Hz。 • 人耳感知音频频率范围：20~20000Hz。
VLC编码
频繁出现的数据用较短的码字表示，不经常出现的数据用较长的码字表示，则平均码字长度最小。
15,3,0,0,0，2,0,0,0,0,0,1,0,0,0,0,0,0,1
(0,15),(0,3),(3,2),(5,1),(6,1）
VLC：11111111,0111,00100110,000111,0000110 --33比特原始：11111111,00000011,00000000,„ ,00000001 --152比特
协议本身没有对码率进行限制，主要面向窄带应用，但码码率取决于传输 12896～通道。同等图像率在600kb/s时可极大提高 H.263/H.263+ 图像质量，现在基本上取质量下，码率是 14081152 代了H.261，应用于窄带电 H.261的一半，视会议、视频监控等场合比MPEG-2节省 30%
帧间编码类型
I帧
B帧
P帧
编码序列
原始图像顺序
1 I 2 B 3 B 4 P 5 B 6 B 7 P 8 B 9 B 10 P
编解码图像顺序
1 I 4 P 2 B 3 B 7 P 5 B 6 B 10 P 8 B 9 B
色度下采样
0
1

4 2
Y
5
Cb
3
Cr
编码的块噪声
• 码率越低，量化步长越大，则块噪声越明显。 • 图像分辨率、帧率与码率的关系
音频压缩标准
标准 G711 G722 G728 G729 MPEG1-L2(MUSICAM) MPEG4- AAC 采样率(KHZ) 8 16 8 8 32/44.1/48 32/44.1/48 码率(Kbps) 64 64/56/48 16 8 32~384 64/96/128
注：96Kbps码率AAC的音频质量超过了 128Kbps的MP3（MPEG1-L3）格式
• 标清标准：ITU-R BT.601 Y、U、V三分量的抽样频率分别为13.5MHz、 6.75MHz、6.75MHz。每个样点的量化比特数用于演播室为10bit, 用于传输为8bit。 Y、U、V三分量样点之间比例为4:2:2。
• 高清标准：ITU-R BT.709 720P及1080i的Y、U、V三分量的抽样频率分别为74.25MHz、37.125MHz、37.125MHz。 1080P50/60高达148.5M、74.25MHz、74.25MHz
量化
Z型扫描
15,0,-2,-1,-1,0,0,-1,0,0,0,0,0,0,„
游程编码
• 扫描后的DCT系数中存在很多零系数，可以只告诉解码器那些非零系数，并告之两个非零系数之间有多少个零，则解码器可通过插入零系数的方法恢复数据，这种方法称为游程长度编码。
15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1„ (0,15),(0,3),(3,2),(5,1),(6,1）„
视频编码标准
标准
H.261 MPEG1
分辨率
176144～ 352288 352288
码率
64kb/s～ 2.048Mb/s 1.5Mb/s 1.5～50Mb/s
应用范围
窄带电视会议、可视电话 VCD 数字视频广播（DVB）， DVD,高清电视（HDTV），宽带电视会议
H.262/MPEG- 352288～ 2 19201152
视频编码标准
标准
• 三基色原理：任何颜色均由红（ R）、绿移动视频编码速率为5～64kb/s，（G）、兰（B）影视(352288～主要面向多媒体应用，三种颜色分量组成； 720576)应用速如低比特率移动多媒体 176144～率可达15Mb/s。通信，流媒体，基于内 MPEG-4 • 在电视原理里，用亮度（ Y）、蓝色差（容的交互多媒体数据库 19201088 对于19201080的检索。监控场合应用较 U ）、红色差（应用可达 V ）三个分量表示。两种 38.4Mb/s。比多。方法相互之间的转换： H.263节省17%,比 MPEG-2 节省 43%。 • Y = 0.3R + 0.59G + 0.11B 同等图像质量下，视频通讯（如电视会议、码率比 H.263 节省 • U = B – Y H.264/MPEG-4 12896～可视电话）,数字电视广 50％，比MPEG-4 AVC 1920 •V = R – Y1152 ASP节省28%，比播，视频存储播放，监控 MPEG-2节省64% •R = Y + V

e商务文档

视频音频基础知识

相关文档推荐：