编辑推荐
《图像及视频可分级编码》可供计算机应用、通信与电子系统、信号与信息处理等相关专业的研究人员、工程技术人员、高校教师、研究生和高年级本科生学习参考。
内容简介
本书是关于图像及视频可分级编码的一本学术专著,介绍了图像和视频信息的冗余特性、基本编码方法以及图像和视频可分级编码的含义和分类情况,对DCT和小波变换的基本理论以及图像和视频的编码技术、图像和视频的可分级编码技术进行了论述,对图像和视频可分级编码的未来发展方向进行了展望。
本书可供计算机应用、通信与电子系统、信号与信息处理等相关专业的研究人员、工程技术人员、高校教师、研究生和高年级本科生学习参考。
作者简介
王相海,辽宁师范大学计算机与信息技术学院教授、特聘教授,辽宁省重点学科——计算机应用技术学科带头人,苏州大学计算机应用技术专业博士生导师。分别于1995年、1999年获得吉林大学理学硕士和理学博士学位,2001年南京大学计算机科学与技术博士后流动站出站。中国计算机学会高级会员,中国计算机学会信息存储专业委员会委员,中国计算机学会计算机辅助设计与图形学专业委员会委员,辽宁省图学学会理事。2004年入选辽宁雀第三批百千万人才工程”百人层次”,2007年被评为大连市第四批优秀专家。主要研究领域包括:图像及视频信息处理、CG/CAGD、多媒体信息安全等。主持完成国家自然科学基金、辽宁省自然科学基金、辽宁省高等学校优秀人才支持计划、辽宁省教育厅科学技术研究项目、大连市科技基金和国家重点实验室开放基金等课题十余项,发表学术论文八十余篇。
内页插图
目录
前言
第一章 图像和视频编码技术概述
1.1 图像和视频信息的冗余特性
1.1.1 统计冗余
1.1.2 心理可视冗余
1.2 信源编码的信息论结果
1.2.1 信息熵
1.2.2 Shannon的两个信源编码定理
1.3 图像的变换编码
1.3.1 图像的变换编码特性
1.3.2 图像的正交变换
1.4 量化
1.4.1 均匀量化
1.4.2 非均匀量化
1.4.3 矢量量化
1.5 运动估计与预测
1.6 静态图像编码技术的发展
1.6.1 基于波形的编码技术
1.6.2 第二代编码技术
1.6.3 基于分形的编码技术
1.6.4 面向Internet的图像编码技术讨论
1.7 视频编码技术的发展
1.7.1 基于波形的编码技术
1.7.2 基于对象的编码技术
1.7.3 基于模型的编码技术
1.7.4 基于分形的编码技术
1.8 图像和视频可分级编码含义及分类
1.8.1 图像可分级编码技术
1.8.2 视频可分级编码技术
1.9 总结
参考文献
第二章 离散余弦变换与小波变换编码基础
2.1 离散余弦变换
2.1.1 一维离散余弦变换的定义
2.1.2 二维离散余弦变换的定义
2.1.3 离散余弦变换的矩阵表示
2.1.4 快速离散余弦变换
2.1.5 基于DCT的整数变换
2.1.6 编码标准选择离散余弦变换的原因
2.2 基于离散余弦变换的图像编码
2.2.1 JPEG的基线系统
2.2.2 JPEG的无损模式
2.3 基于离散余弦变换的视频编码
2.3.1 MPEG-1视频编码标准
2.3.2 MPEG-2视频编码标准
2.3.3 MPBG-4视频编码标准
2.3.4 H.2 64/MPEG-4AVC视频编码标准
2.3.5 AVS视频编码标准
2.4 小波分析基础
2.4.1 从傅里叶变换到小波变换
2.4.2 连续小波变换
2.4.3 离散小波变换
2.4.4 多分辨率分析
2.4.5 系数分解快速算法
2.4.6 正交小波的构造
2.4.7 紧支集正交小波的构造
2.4.8 紧支集双正交小波的构造
2.4.9 二维小波的多分辨率分析及Mallat算法
2.4.10 小波图像编码的一般构架
2.5 提升方案小波变换
2.5.1 提升方案的定义
2.5.2 基于提升方案的传统小波构造方法
2.5.3 提升小波变换的基本步骤
2.5.4 整数小波变换
2.6 小波图像编码
2.6.1 概述
2.6.2 JPEG-2000图像编码标准
2.7 小波基和图像分解层数对图像编码的性能分析
2.7.1 采用的实验图像及分类
2.7.2 小波基对不同类型图像EZW算法性能的影响
2.7.3 小波分解层数对不同类型图像EZW算法性能的影响
2.7.4 结果分析
2.8 小波视频编码
2.8.1 基于空间域运动估计的小波视频编码
2.8.2 基于小波域运动估计的视频编码
2.9 总结
参考文献
附录
第三章 图像可分级编码
3.1 概述
3.2 图像压缩标准中的可分级编码概述
3.2.1 JPEG中的图像可分级编码分析
3.2.2 :PNG中的可分级编码分析
3.2.3 JPEG-2000中的可分级编码分析
3.2.4 MPEG-4VTC中的图像可分级编码分析
3.2.5 比较与讨论
3.3 基于DCT的图像可分级编码
3.4 基于小波的图像可分级编码
3.4.1 空间可分级编码
3.4.2 数率可分级编码
3.4.3 空间和数率混合可分级编码
3.4.4 一种基于内容的数率可分级编码算法
3.5 基于MP的图像可分级编码
3.6 总结
参考文献
第四章 视频可分级编码
4.1 概述
4.2 视频压缩标准中的可分级编码概述
4.2.1 MPEG-2中的可分级编码分析
4.2.2 H.2 63+中的可分级编码分析
4.2.3 MPEG-4中的可分级编码分析
4.2.4 H.2 64中的可分级编码分析、
4.3 基于DCT的视频可分级编码技术
4.3.1 MPEG-4中FGS编码的进一步讨论
4.3.2 细粒度可分级视频编码研究进展
4.4 基于二维小波的视频可分级编码
4.4.1 小波域视频对象的二维运动估计
4.4.2 小波域视频对象可分级编码
4.4.3 帧差图像的可分级编码
4.4.4 适应于小波视频可分级编码的码率控制技术
4.4.5 可分级编码的预测结构
4.5 基于三维小波的视频可分级编码
4.5.1 不进行运动估计和补偿的三维小波视频编码
4.5.2 进行运动估计和补偿的三维小波视频编码
4.5.3 一种典型的基于三维小波的视频可分级编码
4.6 总结
参考文献
第五章 图像和视频编码技术展望
5.1 图像编码技术展望
5.2 视频编码技术展望
5.2.1 视频可分级编码技术方面
5.2.2 小波域运动估计技术方面
5.2.3 视频编码码率控制方面
5.3 总结
参考文献
精彩书摘
第一章 图像和视频编码技术概述
1.1 图像和视频信息的冗余特性
图像和视频压缩对多媒体信息存储、网上传输等应用是必须的,也是可行的。这主要表现在图像和视频信息中通常包含着一定的冗余(redundance),这些冗余要占用额外的存储空间,通过削减这些冗余势必会使原始的图像和视频信息得以压缩。图像和视频的这种冗余一般可分为统计冗余(statistical redundacncy)和心理可视冗余(psychovisual redundancy)。
1.1.1统计冗余
图像和视频的统计冗余又可分为空间冗余(spatial redundancy)、时间冗余(temporal redundancy)和编码冗余(coding redundancy)。前两种冗余是图像和视频帧中像素之间的冗余,即图像和视频帧中像素问的光亮度保持着一定程度的相关性,它们之间不是统计独立的;编码冗余则是指从编码(压缩)技术的角度,图像和视频信息中含有多余的信息。下面分别对这几种冗余进行讨论。
前言/序言
随着网络和多媒体技术的发展,人们对图像和视频编码的要求越来越高,不仅要求编码技术具有较好的压缩效果,而且要求它能适应网上渐进传输的需求。在许多实际应用中,由于用户需求不同、终端能力不同、异构网络的不同支路所能提供的QoS不同或网络传输条件的变化,比如噪声、拥塞等原因,需要提供不同质量的图像和视频信号,比如视频会议、视频点播、多媒体数据库浏览等。解决此类问题的最好方法是用单个编码器产生分层次的压缩码流,对不同层次的码流解码可以获得不同的图像质量,例如,处理能力低的终端只对码流的一部分进行解码,获得低分辨率的图像,而处理能力高的终端对整个码流进行解码获得高分辨率的图像,这种编码机制通常被称为可分级编码机制。
实际上,图像和视频的可分级编码思想在早期的国际标准JPEG和MPEG-2中便有所体现。近年来,随着流媒体和无线信道多媒体信息传输的蓬勃发展,图像和视频的可分级编码技术已经成为信息编码技术领域的研究热点,同时被许多现行的国际编码标准,诸如JPEG-2000和MPEG-4等所接纳并得以不断发展。
本书是作者在所承担的国家自然科学基金项目、辽宁省自然科学基金项目、辽宁省高等学校优秀人才支持计划项目、辽宁省高等学校重点学科建设专项项目、计算机软件新技术国家重点实验室(南京大学)开放基金项目、视觉与听觉信息处理国家重点实验室(北京大学)基金项目、江苏省普通高校研究生科研创新计划项目、南京邮电大学图像处理与图像通信江苏省重点实验室开放基金项目等期间的研究成果,以及第一作者完成的南京大学博士后出站报告的基础上,参考国内外最新的文献撰写而成的一本学术专著。全书共分五章:第一章介绍了图像和视频信息的冗余特性,以及图像和视频编码技术的总体发展情况,同时对目前常见的图像和视频国际编码标准进行了概述,重点介绍了图像和视频可分级编码的含义以及分类情况;第二章介绍了DCT和小波变换的基本理论,以及传统的基于DCT和小波变换的图像及视频编码技术;第三章着重论述了图像的可分级编码技术,包括国际图像压缩标准中的可分级编码,基于DCT、小波变换和MP的图像可分级编码;第四章重点阐述了视频可分级编码技术,包括目前国际视频压缩标准中的可分级编码,基于DCT、2D小波和3D小波的视频可分级编码;第五章对图像和视频可分级编码的未来发展方向进行了展望。
《数字影像与动态视频的感知优化与高效传输》 一、 引言:驾驭信息洪流,提升视觉体验 在信息爆炸的时代,图像和视频已成为我们获取信息、交流思想、娱乐消遣不可或缺的媒介。从高清电影到短视频,从医学影像到监控录像,视觉信息的数量正以惊人的速度增长,而我们对视觉质量和观看体验的要求也在不断攀升。然而,海量的视觉数据带来了巨大的存储和传输压力,传统的数据压缩技术在追求高效率的同时,往往牺牲了部分视觉信息,导致画面细节丢失,甚至影响信息的可读性。更为关键的是,人类视觉系统感知信息的复杂性和非线性特征,使得简单的像素级压缩难以充分满足用户的需求。 本书《数字影像与动态视频的感知优化与高效传输》正是在这样的背景下应运而生。它并非聚焦于图像和视频编码本身的技术实现细节,而是深入探讨如何从人类的视觉感知机制出发,优化数字影像和动态视频的编码过程,从而在有限的带宽和存储资源下,最大化地保留用户关心的视觉信息,提升整体的观看质量和使用体验。本书旨在为从事数字媒体技术、计算机视觉、人机交互、通信工程以及相关领域的研究者、工程师和开发者提供一个全新的视角和一套切实可行的理论框架与实践指导。 二、 人类视觉系统的奥秘:理解我们如何“看” 要实现“感知优化”,首先必须深刻理解人类视觉系统的运作机制。本书将从生理学和心理学的角度,详尽解析人类视觉的奥秘,这构成了本书理论体系的基石。 视网膜的接收与初步处理: 我们将追溯光线如何进入眼睛,在视网膜上成像,并通过视杆细胞和视锥细胞将光信号转化为电信号。重点将放在这些光感受器细胞对不同光照强度、颜色和运动的敏感性差异,以及它们在空间和时间维度上的分布特点。例如,中心凹区域(视锥细胞密集)对细节敏感,而周边视野(视杆细胞占主导)则对运动和低光照更敏感。 视觉通路与大脑的感知: 讲解电信号如何通过视神经传递到大脑的各个视觉皮层区域。重点将阐述不同皮层区域的功能,如V1区域对边缘和方向的检测,V2区域对形状和纹理的识别,以及MT区域对运动的感知。这将帮助读者理解大脑如何从原始的像素信息中提取出有意义的视觉特征。 感知心理学中的关键概念: 注意力机制: 人类视觉系统并非均匀地处理所有信息,而是将有限的注意力集中在感兴趣的区域或具有显著特征的物体上。本书将探讨如何利用这些注意力特性,将更多的编码资源分配给对用户感知而言更重要的部分。 视觉掩蔽效应(Visual Masking): 邻近的视觉元素(空间掩蔽)或随后的视觉刺激(时间掩蔽)会影响我们对特定信息的感知。理解这些效应,可以指导我们在编码时压缩那些可能被其他信息“掩盖”的细节,从而节省比特。 纹理感知与形状感知: 人类对纹理信息的感知方式与对形状信息的感知方式不同。本书将分析这些差异,并提出相应的编码策略。 色彩感知模型: 介绍人类对色彩的感知并非线性的,不同颜色在感知上的差异以及人眼对不同色彩饱和度和亮度的敏感度。 运动感知: 动态视频的感知核心在于运动。我们将深入研究人类对运动速度、方向和连贯性的感知特性,以及这些特性如何影响视频的编码效率。例如,快速变化的区域通常比缓慢变化的区域更容易被感知到细节的损失。 主观质量评估与客观质量度量: 介绍人类对视觉质量的主观评价方法(如MOS评分),并对比分析现有客观质量度量方法(如PSNR, SSIM)的局限性。强调设计新的、更符合人类感知的主观评价指标的重要性。 三、 感知模型在图像编码中的应用:智慧地压缩 基于对人类视觉系统的深刻理解,本书将探讨如何将其转化为实际的图像编码优化策略。 视觉显著性映射(Visual Saliency Mapping): 介绍如何构建能够预测图像中哪些区域最吸引人眼球的显著性模型。基于这些模型,编码器可以优先保证显著区域的视觉质量,而对非显著区域采用更低的编码比特率,从而在整体比特率不变的情况下,显著提升用户感知的图像质量。我们将讨论经典的显著性模型(如Itti模型)以及基于深度学习的现代模型。 基于感知的量化(Perceptually Based Quantization): 传统编码器使用统一的量化表,这在感知上可能是不公平的。本书将介绍如何根据人眼对不同频率分量、不同亮度/色彩区域的敏感度差异,设计自适应的量化步长。例如,在人眼对高频细节敏感的区域(如纹理边缘),应采用较小的量化步长;而在人眼不敏感的区域,可以适当增大步长,以达到压缩的目的。 纹理与边缘的感知编码: 分析人眼对纹理和边缘信息的敏感度,并提出专门的编码方法。例如,对于包含重要纹理的区域,可以采用纹理合成或更精细的纹理编码技术;对于关键的边缘信息,则需要采用更准确的边缘保持技术,以避免产生锯齿和失真。 色彩感知优化: 探讨如何利用人眼对色彩亮度、对比度和饱和度的感知特性,优化色彩空间的转换和量化。例如,针对人眼对亮度变化比对色彩变化更敏感的特点,可以调整亮度分量的编码精度。 基于内容感知的编码(Content-Aware Coding): 进一步扩展到根据图像内容的语义信息进行编码。例如,对于人脸、文字等关键信息区域,可以分配更高的比特率,而对于背景或其他非关键区域,则可以采用更低的比特率。这将涉及到图像分割、目标检测等内容分析技术。 四、 感知模型在视频编码中的应用:捕捉动态之美 动态视频的感知优化比静态图像更具挑战性,因为引入了时间维度和运动信息。 运动显著性与运动估计: 分析人眼对运动区域的关注度高于静止区域。我们将探讨如何建立视频的运动显著性模型,将更多的编码资源分配给运动剧烈或运动轨迹具有吸引力的区域。同时,运动估计的精度与感知质量密切相关,本书将讨论如何在保证运动估计精度的前提下,优化其计算效率,并与感知质量相结合。 视觉掩蔽效应在视频中的应用: 时间掩蔽: 快速变化的帧区域会掩盖相邻帧的细节损失。本书将研究如何利用这种时间掩蔽效应,在快速运动的场景中,适当降低非关键区域的编码精度。 空间掩蔽与运动掩蔽的结合: 考虑空间显著性与运动信息共同作用下的掩蔽效应,设计更精细的比特分配策略。 基于感知的人工运动(Perceptual Motion Interpolation/Synthesis): 在低比特率视频编码中,不可避免地会丢失部分帧或细节。本书将介绍如何利用感知模型,通过生成更符合人类感知习惯的人工运动,来补偿这些损失,从而提升视频的流畅度和真实感。 视频的场景分析与感知编码: 针对不同类型的视频场景(如体育比赛、电影、会议录像),其内容的视觉重要性有所不同。本书将探讨如何进行场景分析,并根据场景特点,采用不同的感知编码策略。例如,在体育比赛中,对球的运动轨迹和关键球员的特写需要更高的编码质量;在会议录像中,对演讲者面部信息的清晰度则更为重要。 立体视频与全景视频的感知挑战: 简要探讨在三维视频和沉浸式视频(如VR/AR)编码中,深度感知、视差感知以及头部运动等因素对感知编码提出的新挑战和新的解决方案。 五、 高效传输:让感知优化成果落地 感知优化后的编码数据,如何才能高效地传输到终端用户,是本书的另一个重要组成部分。 基于感知的比特流重构与错误鲁棒性: 在传输过程中,比特流可能发生错误。本书将探讨如何设计具有感知鲁棒性的比特流结构,使得在发生少量错误时,感知质量下降的程度最小。例如,将重要的感知信息(如显著性区域的编码数据)进行冗余编码或放置在更不容易丢失的位置。 自适应传输策略: 结合网络状态和用户的设备能力,实时调整传输策略。例如,在带宽受限时,优先传输更具感知价值的内容。 与现有通信协议的结合: 讨论如何将感知优化技术与TCP/IP、UDP等现有通信协议相结合,提升整体的传输效率和用户体验。 边缘计算与感知编码的协同: 随着边缘计算的发展,可以在离终端更近的设备上进行部分感知优化处理,减少对核心网络的压力,并加快响应速度。 六、 未来展望与挑战 本书的最后部分将对该领域未来的发展趋势进行展望,并指出当前面临的挑战。 深度学习与感知编码的深度融合: 探讨如何利用更强大的深度学习模型,实现更精准的感知预测和更高效的编码优化。 跨模态感知信息的整合: 考虑音频、文本等信息对视觉感知的辅助作用,实现多模态信息下的联合感知优化。 个性化感知编码: 根据用户的个体差异(如年龄、视力、偏好),提供个性化的感知编码服务。 实时性与计算复杂度: 如何在保证感知效果的同时,降低编码和解码的计算复杂度,实现真正的实时应用。 标准化与产业化: 探讨将感知优化技术纳入行业标准,推动其在实际产品中的广泛应用。 结论 《数字影像与动态视频的感知优化与高效传输》将带领读者深入理解人类视觉系统的精妙之处,并在此基础上,提供一套系统性的方法论,指导如何将这些生理和心理学的原理应用于数字影像和动态视频的编码与传输过程中。本书不仅关注技术本身,更着眼于最终用户的感知体验,力求在有限的资源下,实现最佳的视觉信息传递效果。通过掌握本书的内容,读者将能够开发出更智能、更高效、更能满足用户需求的视觉信息处理系统。