当前位置:文档之家› 视频音频基础知识

视频音频基础知识


运动估计
(-6,-1)
参考帧
当前编码帧
•运动估计以宏块(16x16)为单位进行 •在参考帧搜索匹配块,计算被压缩图像与参考 图像对应位置上的宏块间的位置偏移,即运动 矢量
运动补偿
•根据运动矢量,计算参考块与当前编码块之间的误差 •对误差进行DCT、量化、VLC编码 •解码时将该误差与参考块叠加,得到当前图像
音频信号数字化
• 模拟信号与数字信号处理对比
时间上离散-采样
幅度上离散-量化
• 语音质量与采样频率
Nyquist原理
• 语音质量与采样精度
量化噪声与量化比特数
• 语音质量与数据率
音频压缩的必要性
• 人耳可以听到最高频率约20KHz。 • 根据奈奎斯特抽样定理,为保证数字化 的音频信号正确还原,采样频率必须大 于等于音频信号的2倍,即40KHz。 • 每样本用16比特量化,立体声码率达 40K*2*16 = 1.28Mbps
空间冗余
视频压缩的基本技术
• 正交变换 去掉空间冗余性,主要采用DCT • 运动估计/补偿 去掉时间冗余性 • 色度下采样(4:2:0) 去掉视觉冗余性
MPEG2编码框图
DCT离散余弦变换
“Luminance ” 700mV
0 mV
1 TV line (64us) pixels “Luminance”
子带压缩技术
输入PCM音频信号经过一个多相滤波器组变换到频域里的多个子 带中。输入声音信号同时经过心理声学模型,计算噪声掩蔽阈 值,然后分析输入信号和子带中的信号以确定每个子带里的信 号能量与掩蔽阈值的比率,即信掩比。量化/编码部分根据信掩 比决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。 最后通过成帧器将量化的子带样本和其他数据按照帧结构组装 成位数据流。
二、视频基础知识
视频的色度空间
• 三基色原理:任何颜色均由红(R)、绿 (G)、兰(B)三种颜色分量组成; • 在电视领域,用亮度( Y )、蓝色差( U )、红色差(V)三个分量表示。两种方 法相互之间的转换: Y = 0.3R+0.59G+0.11B U = B –Y V = R–Y
视频信号的数字化
声音的静听域
• 静听阈是随频率变化的,人耳对2KHz~ 5KHz的声音比较敏感 • 各人的听觉阈值不同
声音的频域遮蔽现象
一种频率的声音会阻碍听觉系统感受另一种频 率的声音,这种现象称为声音的频域掩蔽效应。
声音的时域掩蔽效应
• 除了同时发出的声音之间有掩蔽现象之外,在 时间上相邻的声音之间也有掩蔽现象,称为时 域掩蔽。 • 时域掩蔽又分为超前掩蔽和滞后掩蔽。产生时 域掩蔽的主要原因是人的大脑处理信息需要花 费一定的时间,也就是说,一个强音发生时, 除了提高同一时刻的听觉阈值外,还会提高强 音发生前和发生后一段时期的听觉阈值。一般 来说,超前掩蔽很短,只有大约5~20 ms,而 滞后掩蔽可以持续50~200 ms。
720
frequency
0 mV
frequency
1 TV line (64us) 720 pixels
32
DCT变换
Y分量原始数据
DCT系数
以8x8块为单位,反变换后可完全复原原始数据,无损。
量化
• 量化是针对DCT系数进行的,量化过程就是以 某个量化步长(QP)去除DCT系数。量化步 长的大小称为量化精度,量化步长越小,量化 精度就越细,则量化造成的失真就越小。 • 去除视觉上不敏感的数据,是变换编码中的真 正对数据进行有效压缩的步骤。 • 不可逆过程,有损。 • CBR(恒定码率,QP变化) • VBR(变码率,QP固定)
分辨率
码率
应用范围
H.264 SVC
H.264 SVC
• 编码器产生的码流包含一个或多个可以单独解 码的子码流,子码流可以具有不同的码率,帧 率和空间分辨率。 • 分级的类型: • 时域可分级(Temporal scalability):可以 从码流中提出具有不同帧频的码流。 • 空间可分级(Spatial scalability):可以从 码流中提出具有不同图像尺寸的码流。 • 质量可分级(Quality scalability):可以从 码流中提出具有不同图像质量的码流。
逐行与隔行
逐行与隔行
Kell系数=0.9
Kell系数=0.7
垂直分解力= 行数 x Kell系数
视频信号波形
视频分辨率
720P为标清的2.2倍,1080P为标清的5倍
视频压缩的必要性
• 标清数据量 (720+360+360)×576×25×8 = 165.888Mbps,加上行、场同步、消隐等 时基信号,则码率高达216Mbps • 高清数据量(含时基信号) 720P/1080i:74.25×2×8=1.188Gbps 1080P50/60:148.5×2×8=2.376Gbps
音频压缩的可行性
由于人耳对声音的感知存在这些掩蔽效 应,我们可以利用人耳心理模型对声音 进行分析,将被掩蔽的信号去除,或用 少量比特进行量化,只要保证量化噪声 低于听觉阈值,则人耳听不出还原后的 声音与原始声音的差别。子带编码技术 就是利用这种掩蔽效应来实现的。
音频压缩技术
• 时域压缩技术 • 子带压缩技术 • 变换压缩技术
深圳市迪威视讯股份有限公司
视音频基础知识
罗钦骑
主要内容
一、音频基础知识 二、视频基础知识 三、视频会议终端及高清视 频接口简介
2
一、音频基础知识
音频基本特性
• 音频特性 音频信号由许多频率不同的声波组成。音频 信号的两个基本参数是频率(音调)和幅度 (声强)。 • 人发音器官声音频频率范围:80~3400Hz。 • 人耳感知音频频率范围:20~20000Hz。
VLC编码
频繁出现的数据用较短的码字表示,不 经常出现的数据用较长的码字表示,则 平均码字长度最小。
15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1
(0,15),(0,3),(3,2),(5,1),(6,1)
VLC:11111111,0111,00100110,000111,0000110 --33比特 原始:11111111,00000011,00000000,„ ,00000001 --152比特
协议本身没有对 码率进行限制, 主要面向窄带应用,但码 码率取决于传输 12896~ 通道。同等图像 率在600kb/s时可极大提高 H.263/H.263+ 图像质量,现在基本上取 质量下,码率是 14081152 代了H.261,应用于窄带电 H.261的一半, 视会议、视频监控等场合 比MPEG-2节省 30%
帧间编码类型
I帧
B帧
P帧
编码序列
原始图像顺序
1 I 2 B 3 B 4 P 5 B 6 B 7 P 8 B 9 B 10 P
编解码图像顺序
1 I 4 P 2 B 3 B 7 P 5 B 6 B 10 P 8 B 9 B
色度下采样
0
1

4 2
Y
5
Cb
3
Cr
编码的块噪声
• 码率越低,量化步长越大,则块噪声越明显。 • 图像分辨率、帧率与码率的关系
音频压缩标准
标准 G711 G722 G728 G729 MPEG1-L2(MUSICAM) MPEG4- AAC 采样率(KHZ) 8 16 8 8 32/44.1/48 32/44.1/48 码率(Kbps) 64 64/56/48 16 8 32~384 64/96/128
注:96Kbps码率AAC的音频质量超过了 128Kbps的MP3(MPEG1-L3)格式
• 标清标准:ITU-R BT.601 Y、U、V三分量的抽样频率分别为13.5MHz、 6.75MHz、6.75MHz。 每个样点的量化比特数用于演播室为10bit, 用于传输为8bit。 Y、U、V三分量样点之间比例为4:2:2。
• 高清标准:ITU-R BT.709 720P及1080i的Y、U、V三分量的抽样频率分别 为74.25MHz、37.125MHz、37.125MHz。 1080P50/60高达148.5M、74.25MHz、74.25MHz
量化
Z型扫描
15,0,-2,-1,-1,0,0,-1,0,0,0,0,0,0,„
游程编码
• 扫描后的DCT系数中存在很多零系数, 可以只告诉解码器那些非零系数,并告 之两个非零系数之间有多少个零,则解 码器可通过插入零系数的方法恢复数据 ,这种方法称为游程长度编码。
15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1„ (0,15),(0,3),(3,2),(5,1),(6,1)„
视频编码标准
标准
H.261 MPEG1
分辨率
176144~ 352288 352288
码率
64kb/s~ 2.048Mb/s 1.5Mb/s 1.5~50Mb/s
应用范围
窄带电视会议、可视电话 VCD 数字视频广播(DVB), DVD,高清电视(HDTV), 宽带电视会议
H.262/MPEG- 352288~ 2 19201152
视频编码标准
标准
• 三基色原理:任何颜色均由红( R)、绿 移动视频编码速 率为5~64kb/s, (G)、兰(B) 影视(352288~ 主要面向多媒体应用, 三种颜色分量组成; 720576)应用速 如低比特率移动多媒体 176144~ 率可达15Mb/s。 通信,流媒体,基于内 MPEG-4 • 在电视原理里,用亮度( Y)、蓝色差( 容的交互多媒体数据库 19201088 对于19201080的 检索。监控场合应用较 U )、红色差(应用可达 V )三个分量表示。两种 38.4Mb/s。比 多。 方法相互之间的转换: H.263节省17%,比 MPEG-2 节省 43%。 • Y = 0.3R + 0.59G + 0.11B 同等图像质量下, 视频通讯(如电视会议、 码率比 H.263 节省 • U = B – Y H.264/MPEG-4 12896~ 可视电话),数字电视广 50%,比MPEG-4 AVC 1920 •V = R – Y1152 ASP节省28%,比 播,视频存储播放,监 控 MPEG-2节省64% •R = Y + V
相关主题