当前位置:文档之家› 视频编码技术前沿与方向

视频编码技术前沿与方向


基于视觉特性的视频编码
❖ 技术3:视觉感知机理与编码
– “像素-基元/纹理-对象-场景” 层次模型 – S. Zhu, UCLA
视觉表示模型 物理世界模型
场景
世界
对象 基元、纹理 像素
感知 物质 图获

原子/分子
结构 电子 感知
原始 图像
纹理 区域 估计
合成 纹理
合成 图像
基于视觉特性的视频编码
基于视觉特性的视频编码
❖ 技术2:基于Inpainting技术的视频编码*
– 码率节省达18%
*D. Liu; X. Sun; F. Wu; S. Li; Y. Zhang, Image Compression With Edge-Based Inpainting, IEEE-TCSVT, Vol. 17, No. 10, Oct. 2007 pp. 1273–1287.
峰值信噪比=6.24
一般认为:峰值信噪比与图像质量近似成正比关系。
结论:1、峰值信噪比度量与人的视觉感知并不完全一致!
2、需要寻求更加符合人类视觉感知的客观度量方法以 及相应的编码理论和方法。
可能突破方向:借鉴视觉感知 机理
❖对视觉感知机理的认识逐渐深入,用于视 频编码的潜力很大
视频编码
JPEG (~14倍) JPEG (~50倍)
A
B3
B2
B3
B1
B3
B2
B3
A
compatible base layer
传统可伸缩编码
❖ H.264 SVC
– SNR可分级:层间预测
Spatial Base Layer
(Layer 0)
reconstructed sequence
L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0
群组编码

视觉注意
稀稀疏疏编编码码 视觉机理
感知图
运动感知

[Guo03, ICCV]
基于视感知的压缩 (~200倍)
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视:基于注意模型的感兴趣区域表达、编码及码流优 化截取方法
空域 可伸缩
时域 可伸缩
质量 可伸缩
注意 可伸缩 动态 范围 可伸缩
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
分布式编码系统
❖ Standford DVC编码器
– 以常规方法编码信源Y(Key frame) – 以Wyner-Ziv 编码信源X, 通过Slephian-Wolf Coder传送校验

分布式编码系统
❖ Berkeley DVC编码器
– PRISM (Power-efficient Robust hIgh-compression Syndromebased Multimedia coding):将高效的预测编码模式和帧内预 测编码模式有效的结合起来,相应地需要:
立体视频编码
❖ 立体显示
– 戴眼镜观看:互补色、时分立体电视 – 不戴眼镜即可观看:三维显示器
立体视编码
❖ 多视预测编码 ❖ 深度信息获取
– 立体摄像机直接获取:成本高 – 双目立体匹配方法:匹配点不唯
一问题,遮挡问题 – 单目单图示线索方法 :可利用
图示信息较少,提取深度不准确 – 其他研究:单目多图示线索方法
✓ 低复杂度边信息编码 ✓ 高复杂度边信息解码
分布式编码应用
❖ 独立、低复杂度编码
– 适合分布式监控、无线传感网络等应用 – 上行:Wyner-Ziv编码器编码码流传送到级站 – 下行:级站进行转码,用通用编码器编码,终端采用通用
低复杂度解码器解码
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
直播点播服务器
网络
显示 适配器
解码 绘制 终端
立体视编码
❖ 韩国立体电视广播示范系统
– 2002 FIFA World Cup Korea/Japan (5 games)
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
❖ 符合人眼特性的图像/视频质量评价标准
– 块效应、模糊效应、振铃效应的模型表示
图像/视频库
主观质量评价 视觉失真测度模型
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
传统可伸缩编码
时域可分级
Layer 0: QCIF, 7.5 Hz, 64 kbit/s Layer 1: QCIF, 15 Hz, 128 kbit/s
空域可分级
Layer 2: CIF, 15 Hz, 256 kbit/s
质量可分级 时域可分级
质量可分级
Layer 3: CIF, 15 Hz, 512 kbit/s Layer 4: CIF, 30 Hz, 1024 kbit/s Layer 5: CIF, 30 Hz, 2048 kbit/s
分布式编码原理
❖ Slepian-Wolf理论
– 独立编码信源X,Y也可达到联合熵下界 – 独立编码相关信源X,Y可在解码端通过联合解码进行重建
✓ 满足条件约束 Rx Ry H (X ,Y )
信源信号X 信源信号Y
编码器X 编码器Y
Rx H (X |Y ) Ry H (Y | X )
Rx X
Spatial upsampling
reconstructed
and upsampled L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0*
sequence
Base Layer Prediction
temporal subband pictures
Spatial Enhancement Layer (Layer 1)
– 熵编码提高增益的路也不宽
差分预测 变换编码 编码调制
DCT
宏块 P帧
基于位平面的 可伸缩编码 B帧 视频
对象
一般的 B帧
1950
~1985
1999
专利可免费使用 专利可免费使用
基于上下文 的算术编码
分布式 编码
2014
哈夫曼 编码
混合编码 块运动估计
场景自适 应编码
隔行编码
容错
高级的去块
效率虑波
立体视编码
❖ 深度信息编码
– 基于模型的编码,通过编码模型参数来表示深度信息 – 对相邻帧间深度信息进行差分预测、量化编码 – 编码过程中的率失真优化
纹理图
深度图
分块模型
立体电视示范系统
多视点 立体视频 采集装置
深度图 生成平台
多视点 立体视频 编码器
现有 视频节目
自动立体 显示器
分时立体
… 显示器
联合解码器
Ry
Y
RY H(X,Y) H(Y) H(Y|X)
无错误恢复 X和Y
A
长序列信号错误
B
趋近于0
0
H(X|Y)
H(X) H(X,Y) RX
[1] Slepian-Wolf, Noiseless coding of correlated information sources, IEEE trans. on Inf. Theory, 1973. [2] Wyner-Ziv, Recent results in the Shannon theory, IEEE trans on Inf. Theory, 1974.
最高达14bit – 典型帧率支持24~60fps,支持灵活帧率 – 复杂度/性能较好的折中
下一代视频编码标准
❖ VCEG, H.NGC, Geneva, 27 January - 6 February 2009
– 编码码率比H.264/AVC再降低50% – 编码复杂度低于3倍的H.264/AVC – 复杂度增加50%时应能提供25%的码率降低 – 较好的容错性能 – 支持8-bit 4:2:0到12-bit 4:4:4编码 – 分辨率支持8K x 4K,帧率23.976 Hz甚至更高
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
下一代视频编码标准
❖ MPEG HVC, 2009年2月需求文档w10361
– 两大应用前景
✓ 需要支持HD甚至UHD应用的家庭影院、数字相机等 ✓ 移动终端应用
– 压缩效率比现有技术有显著提高 – 图像分辨率支持4Kx2K,甚至高达8Kx4K – 支持采样格式 YCbCr4:2:0, YCbCr/RGB 4:4:4,采样精度
❖ 中国 AVS
– AVS-P2, AVS-S
❖ 下一代标准?
– 方向、技术?
下一代标准
AVS
MPEG-4 AVC/H.264
MPEG-4
MPEG-2
MPEG-1
1989 1993 1997 2001 2005 2009 2013 2017 年代
问题分析:客观指标与主观 感知的差异?
峰值信噪比=5.98
视频编码技术前沿与方向
北京大学数字媒体研究所
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
相关主题