編輯推薦
《圖像及視頻可分級編碼》可供計算機應用、通信與電子係統、信號與信息處理等相關專業的研究人員、工程技術人員、高校教師、研究生和高年級本科生學習參考。
內容簡介
本書是關於圖像及視頻可分級編碼的一本學術專著,介紹瞭圖像和視頻信息的冗餘特性、基本編碼方法以及圖像和視頻可分級編碼的含義和分類情況,對DCT和小波變換的基本理論以及圖像和視頻的編碼技術、圖像和視頻的可分級編碼技術進行瞭論述,對圖像和視頻可分級編碼的未來發展方嚮進行瞭展望。
本書可供計算機應用、通信與電子係統、信號與信息處理等相關專業的研究人員、工程技術人員、高校教師、研究生和高年級本科生學習參考。
作者簡介
王相海,遼寜師範大學計算機與信息技術學院教授、特聘教授,遼寜省重點學科——計算機應用技術學科帶頭人,蘇州大學計算機應用技術專業博士生導師。分彆於1995年、1999年獲得吉林大學理學碩士和理學博士學位,2001年南京大學計算機科學與技術博士後流動站齣站。中國計算機學會高級會員,中國計算機學會信息存儲專業委員會委員,中國計算機學會計算機輔助設計與圖形學專業委員會委員,遼寜省圖學學會理事。2004年入選遼寜雀第三批百韆萬人纔工程”百人層次”,2007年被評為大連市第四批優秀專傢。主要研究領域包括:圖像及視頻信息處理、CG/CAGD、多媒體信息安全等。主持完成國傢自然科學基金、遼寜省自然科學基金、遼寜省高等學校優秀人纔支持計劃、遼寜省教育廳科學技術研究項目、大連市科技基金和國傢重點實驗室開放基金等課題十餘項,發錶學術論文八十餘篇。
內頁插圖
目錄
前言
第一章 圖像和視頻編碼技術概述
1.1 圖像和視頻信息的冗餘特性
1.1.1 統計冗餘
1.1.2 心理可視冗餘
1.2 信源編碼的信息論結果
1.2.1 信息熵
1.2.2 Shannon的兩個信源編碼定理
1.3 圖像的變換編碼
1.3.1 圖像的變換編碼特性
1.3.2 圖像的正交變換
1.4 量化
1.4.1 均勻量化
1.4.2 非均勻量化
1.4.3 矢量量化
1.5 運動估計與預測
1.6 靜態圖像編碼技術的發展
1.6.1 基於波形的編碼技術
1.6.2 第二代編碼技術
1.6.3 基於分形的編碼技術
1.6.4 麵嚮Internet的圖像編碼技術討論
1.7 視頻編碼技術的發展
1.7.1 基於波形的編碼技術
1.7.2 基於對象的編碼技術
1.7.3 基於模型的編碼技術
1.7.4 基於分形的編碼技術
1.8 圖像和視頻可分級編碼含義及分類
1.8.1 圖像可分級編碼技術
1.8.2 視頻可分級編碼技術
1.9 總結
參考文獻
第二章 離散餘弦變換與小波變換編碼基礎
2.1 離散餘弦變換
2.1.1 一維離散餘弦變換的定義
2.1.2 二維離散餘弦變換的定義
2.1.3 離散餘弦變換的矩陣錶示
2.1.4 快速離散餘弦變換
2.1.5 基於DCT的整數變換
2.1.6 編碼標準選擇離散餘弦變換的原因
2.2 基於離散餘弦變換的圖像編碼
2.2.1 JPEG的基綫係統
2.2.2 JPEG的無損模式
2.3 基於離散餘弦變換的視頻編碼
2.3.1 MPEG-1視頻編碼標準
2.3.2 MPEG-2視頻編碼標準
2.3.3 MPBG-4視頻編碼標準
2.3.4 H.2 64/MPEG-4AVC視頻編碼標準
2.3.5 AVS視頻編碼標準
2.4 小波分析基礎
2.4.1 從傅裏葉變換到小波變換
2.4.2 連續小波變換
2.4.3 離散小波變換
2.4.4 多分辨率分析
2.4.5 係數分解快速算法
2.4.6 正交小波的構造
2.4.7 緊支集正交小波的構造
2.4.8 緊支集雙正交小波的構造
2.4.9 二維小波的多分辨率分析及Mallat算法
2.4.10 小波圖像編碼的一般構架
2.5 提升方案小波變換
2.5.1 提升方案的定義
2.5.2 基於提升方案的傳統小波構造方法
2.5.3 提升小波變換的基本步驟
2.5.4 整數小波變換
2.6 小波圖像編碼
2.6.1 概述
2.6.2 JPEG-2000圖像編碼標準
2.7 小波基和圖像分解層數對圖像編碼的性能分析
2.7.1 采用的實驗圖像及分類
2.7.2 小波基對不同類型圖像EZW算法性能的影響
2.7.3 小波分解層數對不同類型圖像EZW算法性能的影響
2.7.4 結果分析
2.8 小波視頻編碼
2.8.1 基於空間域運動估計的小波視頻編碼
2.8.2 基於小波域運動估計的視頻編碼
2.9 總結
參考文獻
附錄
第三章 圖像可分級編碼
3.1 概述
3.2 圖像壓縮標準中的可分級編碼概述
3.2.1 JPEG中的圖像可分級編碼分析
3.2.2 :PNG中的可分級編碼分析
3.2.3 JPEG-2000中的可分級編碼分析
3.2.4 MPEG-4VTC中的圖像可分級編碼分析
3.2.5 比較與討論
3.3 基於DCT的圖像可分級編碼
3.4 基於小波的圖像可分級編碼
3.4.1 空間可分級編碼
3.4.2 數率可分級編碼
3.4.3 空間和數率混閤可分級編碼
3.4.4 一種基於內容的數率可分級編碼算法
3.5 基於MP的圖像可分級編碼
3.6 總結
參考文獻
第四章 視頻可分級編碼
4.1 概述
4.2 視頻壓縮標準中的可分級編碼概述
4.2.1 MPEG-2中的可分級編碼分析
4.2.2 H.2 63+中的可分級編碼分析
4.2.3 MPEG-4中的可分級編碼分析
4.2.4 H.2 64中的可分級編碼分析、
4.3 基於DCT的視頻可分級編碼技術
4.3.1 MPEG-4中FGS編碼的進一步討論
4.3.2 細粒度可分級視頻編碼研究進展
4.4 基於二維小波的視頻可分級編碼
4.4.1 小波域視頻對象的二維運動估計
4.4.2 小波域視頻對象可分級編碼
4.4.3 幀差圖像的可分級編碼
4.4.4 適應於小波視頻可分級編碼的碼率控製技術
4.4.5 可分級編碼的預測結構
4.5 基於三維小波的視頻可分級編碼
4.5.1 不進行運動估計和補償的三維小波視頻編碼
4.5.2 進行運動估計和補償的三維小波視頻編碼
4.5.3 一種典型的基於三維小波的視頻可分級編碼
4.6 總結
參考文獻
第五章 圖像和視頻編碼技術展望
5.1 圖像編碼技術展望
5.2 視頻編碼技術展望
5.2.1 視頻可分級編碼技術方麵
5.2.2 小波域運動估計技術方麵
5.2.3 視頻編碼碼率控製方麵
5.3 總結
參考文獻
精彩書摘
第一章 圖像和視頻編碼技術概述
1.1 圖像和視頻信息的冗餘特性
圖像和視頻壓縮對多媒體信息存儲、網上傳輸等應用是必須的,也是可行的。這主要錶現在圖像和視頻信息中通常包含著一定的冗餘(redundance),這些冗餘要占用額外的存儲空間,通過削減這些冗餘勢必會使原始的圖像和視頻信息得以壓縮。圖像和視頻的這種冗餘一般可分為統計冗餘(statistical redundacncy)和心理可視冗餘(psychovisual redundancy)。
1.1.1統計冗餘
圖像和視頻的統計冗餘又可分為空間冗餘(spatial redundancy)、時間冗餘(temporal redundancy)和編碼冗餘(coding redundancy)。前兩種冗餘是圖像和視頻幀中像素之間的冗餘,即圖像和視頻幀中像素問的光亮度保持著一定程度的相關性,它們之間不是統計獨立的;編碼冗餘則是指從編碼(壓縮)技術的角度,圖像和視頻信息中含有多餘的信息。下麵分彆對這幾種冗餘進行討論。
前言/序言
隨著網絡和多媒體技術的發展,人們對圖像和視頻編碼的要求越來越高,不僅要求編碼技術具有較好的壓縮效果,而且要求它能適應網上漸進傳輸的需求。在許多實際應用中,由於用戶需求不同、終端能力不同、異構網絡的不同支路所能提供的QoS不同或網絡傳輸條件的變化,比如噪聲、擁塞等原因,需要提供不同質量的圖像和視頻信號,比如視頻會議、視頻點播、多媒體數據庫瀏覽等。解決此類問題的最好方法是用單個編碼器産生分層次的壓縮碼流,對不同層次的碼流解碼可以獲得不同的圖像質量,例如,處理能力低的終端隻對碼流的一部分進行解碼,獲得低分辨率的圖像,而處理能力高的終端對整個碼流進行解碼獲得高分辨率的圖像,這種編碼機製通常被稱為可分級編碼機製。
實際上,圖像和視頻的可分級編碼思想在早期的國際標準JPEG和MPEG-2中便有所體現。近年來,隨著流媒體和無綫信道多媒體信息傳輸的蓬勃發展,圖像和視頻的可分級編碼技術已經成為信息編碼技術領域的研究熱點,同時被許多現行的國際編碼標準,諸如JPEG-2000和MPEG-4等所接納並得以不斷發展。
本書是作者在所承擔的國傢自然科學基金項目、遼寜省自然科學基金項目、遼寜省高等學校優秀人纔支持計劃項目、遼寜省高等學校重點學科建設專項項目、計算機軟件新技術國傢重點實驗室(南京大學)開放基金項目、視覺與聽覺信息處理國傢重點實驗室(北京大學)基金項目、江蘇省普通高校研究生科研創新計劃項目、南京郵電大學圖像處理與圖像通信江蘇省重點實驗室開放基金項目等期間的研究成果,以及第一作者完成的南京大學博士後齣站報告的基礎上,參考國內外最新的文獻撰寫而成的一本學術專著。全書共分五章:第一章介紹瞭圖像和視頻信息的冗餘特性,以及圖像和視頻編碼技術的總體發展情況,同時對目前常見的圖像和視頻國際編碼標準進行瞭概述,重點介紹瞭圖像和視頻可分級編碼的含義以及分類情況;第二章介紹瞭DCT和小波變換的基本理論,以及傳統的基於DCT和小波變換的圖像及視頻編碼技術;第三章著重論述瞭圖像的可分級編碼技術,包括國際圖像壓縮標準中的可分級編碼,基於DCT、小波變換和MP的圖像可分級編碼;第四章重點闡述瞭視頻可分級編碼技術,包括目前國際視頻壓縮標準中的可分級編碼,基於DCT、2D小波和3D小波的視頻可分級編碼;第五章對圖像和視頻可分級編碼的未來發展方嚮進行瞭展望。
《數字影像與動態視頻的感知優化與高效傳輸》 一、 引言:駕馭信息洪流,提升視覺體驗 在信息爆炸的時代,圖像和視頻已成為我們獲取信息、交流思想、娛樂消遣不可或缺的媒介。從高清電影到短視頻,從醫學影像到監控錄像,視覺信息的數量正以驚人的速度增長,而我們對視覺質量和觀看體驗的要求也在不斷攀升。然而,海量的視覺數據帶來瞭巨大的存儲和傳輸壓力,傳統的數據壓縮技術在追求高效率的同時,往往犧牲瞭部分視覺信息,導緻畫麵細節丟失,甚至影響信息的可讀性。更為關鍵的是,人類視覺係統感知信息的復雜性和非綫性特徵,使得簡單的像素級壓縮難以充分滿足用戶的需求。 本書《數字影像與動態視頻的感知優化與高效傳輸》正是在這樣的背景下應運而生。它並非聚焦於圖像和視頻編碼本身的技術實現細節,而是深入探討如何從人類的視覺感知機製齣發,優化數字影像和動態視頻的編碼過程,從而在有限的帶寬和存儲資源下,最大化地保留用戶關心的視覺信息,提升整體的觀看質量和使用體驗。本書旨在為從事數字媒體技術、計算機視覺、人機交互、通信工程以及相關領域的研究者、工程師和開發者提供一個全新的視角和一套切實可行的理論框架與實踐指導。 二、 人類視覺係統的奧秘:理解我們如何“看” 要實現“感知優化”,首先必須深刻理解人類視覺係統的運作機製。本書將從生理學和心理學的角度,詳盡解析人類視覺的奧秘,這構成瞭本書理論體係的基石。 視網膜的接收與初步處理: 我們將追溯光綫如何進入眼睛,在視網膜上成像,並通過視杆細胞和視錐細胞將光信號轉化為電信號。重點將放在這些光感受器細胞對不同光照強度、顔色和運動的敏感性差異,以及它們在空間和時間維度上的分布特點。例如,中心凹區域(視錐細胞密集)對細節敏感,而周邊視野(視杆細胞占主導)則對運動和低光照更敏感。 視覺通路與大腦的感知: 講解電信號如何通過視神經傳遞到大腦的各個視覺皮層區域。重點將闡述不同皮層區域的功能,如V1區域對邊緣和方嚮的檢測,V2區域對形狀和紋理的識彆,以及MT區域對運動的感知。這將幫助讀者理解大腦如何從原始的像素信息中提取齣有意義的視覺特徵。 感知心理學中的關鍵概念: 注意力機製: 人類視覺係統並非均勻地處理所有信息,而是將有限的注意力集中在感興趣的區域或具有顯著特徵的物體上。本書將探討如何利用這些注意力特性,將更多的編碼資源分配給對用戶感知而言更重要的部分。 視覺掩蔽效應(Visual Masking): 鄰近的視覺元素(空間掩蔽)或隨後的視覺刺激(時間掩蔽)會影響我們對特定信息的感知。理解這些效應,可以指導我們在編碼時壓縮那些可能被其他信息“掩蓋”的細節,從而節省比特。 紋理感知與形狀感知: 人類對紋理信息的感知方式與對形狀信息的感知方式不同。本書將分析這些差異,並提齣相應的編碼策略。 色彩感知模型: 介紹人類對色彩的感知並非綫性的,不同顔色在感知上的差異以及人眼對不同色彩飽和度和亮度的敏感度。 運動感知: 動態視頻的感知核心在於運動。我們將深入研究人類對運動速度、方嚮和連貫性的感知特性,以及這些特性如何影響視頻的編碼效率。例如,快速變化的區域通常比緩慢變化的區域更容易被感知到細節的損失。 主觀質量評估與客觀質量度量: 介紹人類對視覺質量的主觀評價方法(如MOS評分),並對比分析現有客觀質量度量方法(如PSNR, SSIM)的局限性。強調設計新的、更符閤人類感知的主觀評價指標的重要性。 三、 感知模型在圖像編碼中的應用:智慧地壓縮 基於對人類視覺係統的深刻理解,本書將探討如何將其轉化為實際的圖像編碼優化策略。 視覺顯著性映射(Visual Saliency Mapping): 介紹如何構建能夠預測圖像中哪些區域最吸引人眼球的顯著性模型。基於這些模型,編碼器可以優先保證顯著區域的視覺質量,而對非顯著區域采用更低的編碼比特率,從而在整體比特率不變的情況下,顯著提升用戶感知的圖像質量。我們將討論經典的顯著性模型(如Itti模型)以及基於深度學習的現代模型。 基於感知的量化(Perceptually Based Quantization): 傳統編碼器使用統一的量化錶,這在感知上可能是不公平的。本書將介紹如何根據人眼對不同頻率分量、不同亮度/色彩區域的敏感度差異,設計自適應的量化步長。例如,在人眼對高頻細節敏感的區域(如紋理邊緣),應采用較小的量化步長;而在人眼不敏感的區域,可以適當增大步長,以達到壓縮的目的。 紋理與邊緣的感知編碼: 分析人眼對紋理和邊緣信息的敏感度,並提齣專門的編碼方法。例如,對於包含重要紋理的區域,可以采用紋理閤成或更精細的紋理編碼技術;對於關鍵的邊緣信息,則需要采用更準確的邊緣保持技術,以避免産生鋸齒和失真。 色彩感知優化: 探討如何利用人眼對色彩亮度、對比度和飽和度的感知特性,優化色彩空間的轉換和量化。例如,針對人眼對亮度變化比對色彩變化更敏感的特點,可以調整亮度分量的編碼精度。 基於內容感知的編碼(Content-Aware Coding): 進一步擴展到根據圖像內容的語義信息進行編碼。例如,對於人臉、文字等關鍵信息區域,可以分配更高的比特率,而對於背景或其他非關鍵區域,則可以采用更低的比特率。這將涉及到圖像分割、目標檢測等內容分析技術。 四、 感知模型在視頻編碼中的應用:捕捉動態之美 動態視頻的感知優化比靜態圖像更具挑戰性,因為引入瞭時間維度和運動信息。 運動顯著性與運動估計: 分析人眼對運動區域的關注度高於靜止區域。我們將探討如何建立視頻的運動顯著性模型,將更多的編碼資源分配給運動劇烈或運動軌跡具有吸引力的區域。同時,運動估計的精度與感知質量密切相關,本書將討論如何在保證運動估計精度的前提下,優化其計算效率,並與感知質量相結閤。 視覺掩蔽效應在視頻中的應用: 時間掩蔽: 快速變化的幀區域會掩蓋相鄰幀的細節損失。本書將研究如何利用這種時間掩蔽效應,在快速運動的場景中,適當降低非關鍵區域的編碼精度。 空間掩蔽與運動掩蔽的結閤: 考慮空間顯著性與運動信息共同作用下的掩蔽效應,設計更精細的比特分配策略。 基於感知的人工運動(Perceptual Motion Interpolation/Synthesis): 在低比特率視頻編碼中,不可避免地會丟失部分幀或細節。本書將介紹如何利用感知模型,通過生成更符閤人類感知習慣的人工運動,來補償這些損失,從而提升視頻的流暢度和真實感。 視頻的場景分析與感知編碼: 針對不同類型的視頻場景(如體育比賽、電影、會議錄像),其內容的視覺重要性有所不同。本書將探討如何進行場景分析,並根據場景特點,采用不同的感知編碼策略。例如,在體育比賽中,對球的運動軌跡和關鍵球員的特寫需要更高的編碼質量;在會議錄像中,對演講者麵部信息的清晰度則更為重要。 立體視頻與全景視頻的感知挑戰: 簡要探討在三維視頻和沉浸式視頻(如VR/AR)編碼中,深度感知、視差感知以及頭部運動等因素對感知編碼提齣的新挑戰和新的解決方案。 五、 高效傳輸:讓感知優化成果落地 感知優化後的編碼數據,如何纔能高效地傳輸到終端用戶,是本書的另一個重要組成部分。 基於感知的比特流重構與錯誤魯棒性: 在傳輸過程中,比特流可能發生錯誤。本書將探討如何設計具有感知魯棒性的比特流結構,使得在發生少量錯誤時,感知質量下降的程度最小。例如,將重要的感知信息(如顯著性區域的編碼數據)進行冗餘編碼或放置在更不容易丟失的位置。 自適應傳輸策略: 結閤網絡狀態和用戶的設備能力,實時調整傳輸策略。例如,在帶寬受限時,優先傳輸更具感知價值的內容。 與現有通信協議的結閤: 討論如何將感知優化技術與TCP/IP、UDP等現有通信協議相結閤,提升整體的傳輸效率和用戶體驗。 邊緣計算與感知編碼的協同: 隨著邊緣計算的發展,可以在離終端更近的設備上進行部分感知優化處理,減少對核心網絡的壓力,並加快響應速度。 六、 未來展望與挑戰 本書的最後部分將對該領域未來的發展趨勢進行展望,並指齣當前麵臨的挑戰。 深度學習與感知編碼的深度融閤: 探討如何利用更強大的深度學習模型,實現更精準的感知預測和更高效的編碼優化。 跨模態感知信息的整閤: 考慮音頻、文本等信息對視覺感知的輔助作用,實現多模態信息下的聯閤感知優化。 個性化感知編碼: 根據用戶的個體差異(如年齡、視力、偏好),提供個性化的感知編碼服務。 實時性與計算復雜度: 如何在保證感知效果的同時,降低編碼和解碼的計算復雜度,實現真正的實時應用。 標準化與産業化: 探討將感知優化技術納入行業標準,推動其在實際産品中的廣泛應用。 結論 《數字影像與動態視頻的感知優化與高效傳輸》將帶領讀者深入理解人類視覺係統的精妙之處,並在此基礎上,提供一套係統性的方法論,指導如何將這些生理和心理學的原理應用於數字影像和動態視頻的編碼與傳輸過程中。本書不僅關注技術本身,更著眼於最終用戶的感知體驗,力求在有限的資源下,實現最佳的視覺信息傳遞效果。通過掌握本書的內容,讀者將能夠開發齣更智能、更高效、更能滿足用戶需求的視覺信息處理係統。