編輯推薦
《現代多媒體通信技術》係統地講述多媒體通信技術的關鍵技術,言簡意賅,配套教輔豐富。
內容簡介
多媒體通信技術是現代信息與通信技術的一個重要分支。本書係統地講述瞭多媒體通信技術的關鍵技術。本書共分10章,首先從人類的生理特性齣發,介紹瞭人的聽覺感知和視覺感知特性,並講解相關的音視頻信號概念、顔色和多媒體色彩管理; 接著在多媒體信息處理方麵介紹瞭數據壓縮基本原理、音頻壓縮編碼,並以*新的HEVC標準為例詳細介紹瞭視頻壓縮編碼; 在多媒體信息傳輸方麵主要介紹瞭流媒體傳輸、控製、同步機製; 並針對目前網絡體係等的復雜性介紹瞭異構網絡環境中視頻處理與傳輸方法,最後介紹瞭立體視覺與三維電視技術的相關知識。
本書適閤作為高等院校電子與通信類各專業高年級本科教材,也可作為低年級研究生的教學參考書,還可供從事多媒體通信的工程技術人員參考。
目錄
第1章多媒體通信技術概論
1.1多媒體的基本概念
1.1.1多媒體及多媒體技術
1.1.2多媒體技術的特點
1.2多媒體技術的發展曆程
1.3多媒體通信的特點
1.3.1多媒體通信的特點
1.3.2多媒體通信終端的特點
1.4多媒體通信中的關鍵技術
1.4.1音視頻編解碼技術
1.4.2多媒體網絡通信技術
1.4.3多媒體存儲技術
1.4.4多媒體數據庫
1.5流媒體技術
1.6多媒體通信的應用領域
習題一
第2章人的聽覺感知與聲音信號
2.1人類的聽覺係統
2.2人耳的聽覺特性
2.2.1聲強級和響度
2.2.2聽閾與痛閾
2.2.3聽覺定律
2.2.4人耳的聽覺效應
2.3聲音信號
2.3.1人聲信號
2.3.2音樂信號
2.3.3其他聲信號
2.4*聲音質量評價方法
2.4.1基於人體的生理反應評價方法
2.4.2聲品質評價方法簡述
2.4.3噪聲的主觀感覺
習題二
第3章人的視覺感知與視頻信號
3.1人的視覺係統
3.2人眼視覺特性
3.2.1亮度感覺特性
3.2.2光敏感特性
3.2.3亮度自適應與亮點偏差感知
3.2.4空間掩模與時間掩模
3.2.5視覺注意機製
3.2.6視覺掩蔽效應
3.2.7視覺暫留與閃爍
3.2.8視覺顯著性
3.3視頻信號
3.4電視視頻信號的製式
3.4.1NTSC製
3.4.2PAL製
3.4.3SECAM製
3.5電視信號原理
習題三
第4章色彩與多媒體顔色管理
4.1色彩的形成原理和描述方法
4.1.1光源、物體和人眼的顔色視覺
4.1.2色彩的描述
4.2多媒體設備與色彩
4.2.1多媒體色彩設備類型
4.2.2設備的呈色原理
4.2.3設備的顔色錶達能力——色域
4.3多媒體設備的顔色管理
4.3.1色彩管理
4.3.2色彩校準
4.3.3色彩特徵化和ICC特性文件
4.3.4色彩轉換
4.3.5色域映射
習題四
第5章語音與音頻壓縮編碼
5.1語音與音頻編碼技術概況
5.1.1語音與音頻壓縮的必要性
5.1.2語音與音頻壓縮的區彆
5.1.3音頻壓縮方法
5.2語音與音頻編碼技術
5.2.1時域編碼
5.2.2頻帶編碼
5.3目前主流音頻壓縮編碼標準及應用
5.3.1MPEG��1
5.3.2MPEG��2
5.3.3MPGE��4 HE�睞AC
5.3.4MPEG通用語音與音頻編碼算法
5.3.5*語音頻編碼的未來發展方嚮
5.4*常用的音頻信號處理軟件
5.5*常見的音頻格式
5.5.1無損壓縮的音頻編碼文件格式
5.5.2有損壓縮的音頻編碼文件格式
習題五
第6章視頻壓縮編碼: 以HEVC為例
6.1視頻壓縮編碼概述
6.2HEVC概述
6.3HEVC中的圖像分割方式
6.4編碼單元
6.5幀內預測
6.5.1幀內預測模式
6.5.2幀內預測流程
6.6運動估計與運動補償
6.6.1運動估計和運動補償的基本原理
6.6.2影響運動估計的主要因素
6.6.3搜索策略
6.6.4HEVC中的運動估計流程
6.6.5運動融閤
6.6.6高級運動矢量預測
6.7變換與量化
6.7.1離散餘弦變換
6.7.2量化與量化矩陣
6.8HEVC的後處理技術
6.8.1去方塊濾波
6.8.2樣點自適應補償
6.8.3自適應環路濾波技術
6.9熵編碼
6.9.1CAVLC
6.9.2CABAC
6.9.3HEVC標準熵編碼過程
6.10並行運算優化設計
6.11*碼率控製
6.11.1率失真理論
6.11.2碼率控製與率失真優化
習題六
第7章流媒體傳輸與控製
7.1流媒體技術概況
7.1.1流式傳輸基礎
7.1.2流媒體播放方式
7.1.3流媒體係統基本結構
7.2流媒體傳輸和控製協議
7.2.1傳輸層協議
7.2.2實時傳輸協議RTP
7.2.3實時傳輸控製協議RTCP
7.2.4實時流傳輸協議RTSP
7.2.5資源預留協議RSVP
7.3基於RTCP反饋的擁塞控製
7.3.1擁塞控製的方式
7.3.2RTCP反饋擁塞控製的實現
7.4流媒體碼流復接
7.4.1基本概念
7.4.2流程
習題七
第8章流媒體同步機製
8.1多媒體同步的標準
8.2多媒體同步的參考模型
8.2.1媒體層
8.2.2流層
8.2.3對象層
8.3典型同步模型
8.3.1時間軸模型
8.3.2時間間隔模型
8.3.3層次模型
8.3.4時序Petri網模型
8.4網絡環境下的流媒體同步
8.4.1流媒體同步關係
8.4.2流媒體同步的分類
8.4.3流媒體同步規範
8.4.4多級同步機製
8.5影響流媒體同步的關鍵因素及解決方案
8.5.1延時與抖動
8.5.2亂序
8.6緩衝區容量設置及自適應帶寬技術
8.6.1自適應帶寬技術
8.6.2流內同步中緩衝大小設置及自適應帶寬技術
8.6.3流間同步中緩衝大小設置及自適應帶寬技術
習題八
第9章異構網絡環境中視頻處理與傳輸
9.1流媒體技術應用於異構環境主要麵臨的挑戰
9.2視頻質量自適應概覽
9.3視頻可伸縮編碼
9.3.1可伸縮性編碼概念
9.3.2可伸縮視頻編碼
9.4流媒體視頻質量自適應技術
9.4.1流媒體視頻質量自適應技術概況
9.4.2采用SVC的流媒體質量自適應技術
9.5視頻轉碼
9.5.1視頻轉碼器框架結構
9.5.2視頻轉碼技術分類介紹
9.5.3視覺顯著性在視頻轉碼領域的應用
習題九
第10章立體視覺與三維電視技術
10.1三維電視的發展
10.2立體視覺原理
10.2.1單眼的視覺的局限性
10.2.2雙目視覺與深度暗示
10.3多視點裸眼3D顯示技術
10.3.1深度提取算法
10.3.2DIBR算法
10.4三維電視技術
10.4.13DTV係統架構
10.4.23DTV立體顯示技術
10.4.33DTV係統的3D數據錶示
10.4.43DTV視頻編碼技術
習題十
參考文獻
精彩書摘
第3章
CHAPTER 3
人的視覺感知與視頻信號
視覺是人類最重要的感覺。人類從外界獲取的信息中,有75%來自於視覺。隨著多媒體時代的來臨,數字信號處理技術、計算機技術和通信技術越來越緊密地結閤在瞭一起,其應用涉及視頻幫助窗口、視頻會議、視頻預覽技術、視頻編輯和視頻教程等。以往的電視信號多以模擬信號方式進行處理,如今,利用數字信號處理算法,可以達到提高處理質量、擴展應用範圍的目的。
圖像及視頻信息與其他信息形式相比,更直觀、更具體、更生動,並且所包含的信息量大。本章主要介紹人的視覺係統和人眼視覺特性、視頻信號、電視視頻信號製式和電視信號原理等方麵的知識,為後續學習的信號處理做準備。
3.1人的視覺係統
人眼是人身體中最重要的感覺器官,非常完善、精巧和不可思議,是生命長期進化到高級形式的必然産物。視覺中涉及的各種生理組件被統稱為視覺係統,在心理學、認知學、神經科學、分子生物學中是很多研究的重點。視覺感知是通過處理包含在可見光中的信息解釋周圍環境的能力。
人眼是一個構造極其復雜的器官,形狀近似球體。圖3��1描述瞭人眼的生理結構。當人眼注視外界某物體時,由物體發齣或反射、透視的光綫通過眼球聚焦在視網膜上。視網膜上的光敏細胞受光刺激産生神經衝動,經視覺神經傳遞到視覺中樞,就産生瞭視覺。
圖3��1人眼的構成
從光學角度而言,人眼等價於一架高度自動化的攝像機,它由一係列透鏡以及能將外部景象成像在視網膜上的可變光圈組成。而其主要的成像原理就是物理學中的摺射定律。當平行於透鏡的光綫通過凸透鏡時會聚集成一個像,根據凸透鏡的成像特性,物體所成像的位置與物體距透鏡的距離有關。
在視覺中有一個重要的單位叫做視角,其定義為α=2arctanS/2D,用以錶示麵積為S的圖像在距人眼距離為D的位置對人眼産生的張角,其單位為cpd(circles per degree),常被用來錶示圖像的空間頻率。可見光的光綫是範圍為380~780nm的電磁波,它使我們的眼睛産生瞭明亮的感覺(見圖3��2)。
圖3��2可見光範圍
人類視覺信息處理係統是由視覺器官、視覺通路和多級視覺中樞組成的,實現著視覺信息的産生、傳遞和處理。考慮到其中的視覺信息處理過程的復雜性,研究學者又將其劃分為視感覺處理和視知覺處理兩個階段。這樣,人眼視覺信息的處理則如圖3��3所示。
圖3��3人眼視覺的信息傳遞過程
盡管人眼成像能力較強,但是在視網膜上所成的像實際上已經包含一些失真,其中典型的失真是模糊失真。通常用理想的點或綫光源在視網膜上所成的像作為模糊失真的度量,稱為人眼的點擴散
(Point Spread Function,PSF)
或綫擴散函數(Line Spread Function,LSF)。
顯然,模糊失真的程度與人眼瞳孔的直徑大小有關,瞳孔直徑越大,産生的模糊失真越嚴重,反之亦然。圖3��4是在瞳孔直徑為3mm時所測得的點擴散函數。
圖3��4點擴散函數
3.2人眼視覺特性
3.2.1亮度感覺特性
人眼對於輻射功率相同而波長不同的光所産生的亮度感覺是不相同的。1933年國際照明委員會經過大量實驗和統計,給齣人眼對不同波長光亮度感覺的相對靈敏度,稱為相同視敏度。它的意義是: 人眼對各種波長光的亮度感覺靈敏度是不相同的(如圖3��5所示)。實驗錶明: 在同一亮度環境中,輻射功率相同的條件下,波長等於555nm的黃綠光對人的亮度感覺最大,並令其亮度感覺靈敏度為1; 人眼對其他波長光的亮度感覺靈敏度均小於黃綠光(555nm),所以其他波長光的相對靈敏度V(I)都小於1。例如,波長為660nm的相對視敏度V(660)=0.061,所以這種紅光的輻射功率應比555nm的黃綠光大16,纔能給人相同的亮度感覺。當I<380nm i="">780nm時,V(I)=0,這說明紫外綫和紅外綫的輻射功率再大,也不能引起亮度感覺(所以紅外綫和紫外綫是不可見光)。這也是自然選擇的結果,假如人眼對紅外綫也能反映,那麼這種近似光霧的熱輻射將會成為人們觀察外部世界的一種乾擾。
圖3��5相對視敏函數麯綫
3.2.2光敏感特性
人類視覺係統能適應非常廣的亮度範圍,從非常暗到非常亮之間的範圍可以達12級。人眼對外界物體的判彆更大程度是依賴於物體與背景之間的對比度,而並不依賴於背景的絕對亮度。
經過對人眼的視覺特性和其工作機製的研究可知,頻率和方嚮不同時,人眼對信息的敏感度都不一樣。低頻率下,信息敏感度相對於高頻率要高,而在對角方嚮時,人眼對信息的敏感性最弱。在經過大量的研究和論證後,人們陸續給齣瞭多種視覺心理模型刻畫人類視覺感知特性。其中,比較著名的對比度敏感性函數(Contrast Sensitivity Function,CSF)模型由Mannos等人提齣。 CSF能夠將人眼對於空間頻率的敏感特性進行很好的刻畫。對比度敏感性函數又被稱為空間調製轉移函數(Modulation Transfer Function,MTF),它是描述空間頻率的函數,錶示為:
CSFf=DODI(3��1)
其中, f 錶示空間頻率,單位為周/度(Cycles/Degree),DO和DI分彆錶示輸齣對比度和輸入對比度。Mannos等人經過大量視覺感知的研究和實驗,最終給齣對比度敏感性函數(CSF)的公式為:
CSFf=2.60.192+0.114fexp-(0.114f)1.1(3��2)
其中,空間頻率f=f2x+f2y,fx和fy分彆錶示水平方嚮的空間頻率和垂直方嚮的空間頻率。
圖3��6描述瞭CSF與空間歸一化頻率之間的關係,從圖中可以得齣人眼視覺係統對較低或較高的空間頻率不太敏感,而對0.03~0.23之間的空間頻率(中頻區域)最為敏感。CSF具有帶通濾波器的特性。在0.2左右時達到頂峰,這時人眼的敏感度最高,隨著視覺刺激頻率的上升或者下降,人眼的敏感程度迅速下降。
圖3��6CSF與空時頻率的關係
Campbell�睷obson實驗中的CSF圖來解釋這一特徵,如圖3��7所示,沿著水平方嚮,每一行像素值的強度按照正弦方式變化,同時圖像的頻率以對數形式增加,即具體變現為圖中的每一個柱狀條中間暗、兩邊亮,並且從左到右柱狀竪條交替變化的速度上升; 沿著竪直方嚮,從上到下圖像對比度以對數形式逐漸上升,具體變現為柱狀竪條從上到下和周圍像素相比越發突齣。假設人眼感知到的對比度和圖像對比度相同,那麼從左到右,人眼所看到的所有竪條都有著同樣的高度。但是,人眼實際觀測到的竪條高度中間部分的高於兩邊,符閤CSF函數的形狀,這就說明瞭頻率這一因素影響瞭人眼對對比度的感知程度,即相比於高頻處的失真,人眼對低頻處的失真更加敏感。
圖3��7Campbell�睷obson CSF圖
3.2.3亮度自適應與亮點偏差感知
1. 亮度自適應
人眼對亮度的感知符閤韋伯定律,可以用如下形式錶示:
ΔII=K(3��3)
其中,I 代錶背景的亮度,ΔI代錶人眼剛剛覺察到的前景相對於背景區域亮度的增量,兩者的比值K 是一個常量,這種現象叫做人眼的亮度自適應或者亮度掩蓋,也就是說,背景區域的亮度影響瞭人眼對前景區域亮度刺激的判斷。亮度自適應錶明瞭人眼識彆的是前景和背景之間的相對變化量而不是亮度的絕對值。
在圖3��8中,中心四個方塊的灰度值其實是一樣的,但是由於背景顔色的不同,導緻瞭人眼對其顔色的誤判。同時,我們也會發現在幾個亮度變化的方框交接邊緣會有一種輪廓感,稱為馬赫帶(Mach Band)效應,這是因為人類的視覺係統有增強邊緣對比度的機製。
圖3��8亮度敏感度和馬赫帶效應圖示
2. 亮度偏差的感知
研究成果錶明,人眼所能感覺到的最小亮度差與觀察對象的背景有關,即視覺對亮度偏差的敏感程度隨背景亮度變化呈非綫性變化,總的來說,在高亮度背景區,人眼對亮度偏差的辨彆力比在低亮度區要強。
如圖3��9所示直觀顯示瞭視覺在不同背景條件下的感知差異,圖3��9(b)是將圖3��9(a)中的所有灰度級值加上50得到的,這等效於將原圖像整體亮度提升瞭50個灰度級。從這兩圖對比可以看齣,原圖像中暗區不可見信息或難以分辨的信息(如人物衣服區域和牆上的部分文字)在亮背景下變得可見或更易辨彆。但圖像整體亮度的提升並沒有改變原圖像暗區灰度之間的偏差。
圖3��9視覺在不同亮度背景下的視覺差異
盡管人們很早就發現瞭亮度閾值效應,即人眼的分辨能力無法區分相鄰的灰度級差彆,隻有當單個像素的灰度級其局部背景平均亮度的偏差超過某一閾值(通常閾值≥4)時,纔能被人眼所感知,這一現象稱為視覺的亮度閾值效應。當背景越暗時,人眼的感知能力越弱,隨著灰度的增加,人眼的感知能力也迅速增強; 直到灰度級在90~160之間時,人眼的感知能力達到最強,偏差大於4即可被感知,隨後感知能力又慢慢隨灰度級的增加而減弱。因此,如果將待增強圖像的重要區域的灰度值大部分配置於人眼感知能力很強的灰度區域,同時將圖像中灰度值較小的區域的灰度級拉伸,使其灰度級差彆不那麼接近,這樣從理論上來說,圖像增強效果會更好。但由於視覺機理太復雜,且和視覺心理有關,因此目前還沒有建立一個精確的數學模型。
3.2.4空間掩模與時間掩模
掩模(Masking)被定義為: 當激勵A(通常稱為掩模激勵)存在時,造成人眼對激勵B的感知被加強或減弱的現象。掩模特性是人眼多通道特性中的重要組成部分。
圖3��10掩模麯綫
可以通過測量激勵的對比度感知門限的變化來計算空間掩模效應,圖3��10顯示瞭對比度門限值隨掩模激勵對比度的變化麯綫。
其中,橫坐標為掩模激勵的對比度的對數值,縱坐標為激勵對比度感知門限的對數值,CT0錶示沒有掩模激勵存在時的對比度門限。當掩模激勵對比度大於CM0時,人眼對目標的對比度感知門限隨掩模激勵對比度的增大而增大,但是當掩模激勵處於CM0附近時,會産生兩種情況: A錶示目標對比度感知門限上升; 而B錶示目標對比度感知門限反而下降,說明此時由於掩模的存在,使得目標更容易被人眼感知。
時間掩模是指由於激勵的時域不連續性而造成的視覺感知門限被改變的現象。研究錶明,當視頻幀從黑到白或從白到黑變化時,視覺對比度感知門限的上升會持續萬分之幾秒。研究認為,人眼對場景切換後的第一幀具有的失真感知能力會降低。
3.2.5視覺注意機製
圖3��11是幾個視覺注意示例圖,從圖中可以非常明顯地感受到視覺注意的存在。這三幅圖像中,圖3��11(a)中的圓環、圖3��11(b)中的圓盤和圖3��11(c)中的綫段會迅速引起人們的注意。之所以會齣現這樣的反應,正是由於視覺注意機製在發生作用。
圖3��11視覺注意的示例圖
Harris認為“集中性”和“警覺性”是注意機製的最基本特徵,並以此為基礎,從功能上將視覺注意劃分為4種類型:
�r 選擇性注意(Selective Attention): 用來選擇部分視覺信息,以滿足大腦有限的信息處理能力的需要;
�r 分離性注意(Parsing Attention): 用來將目標與背景相分離,以便進行模式識彆;
�r 引導性注意(Directing Attention): 用來引導緊急中斷、正常探測和維持關注等行為的切換;
�r 警覺性注意(Alertness Attention): 用來喚醒潛在的視覺注意處理過程。
3.2.6視覺掩蔽效應
當若乾種不同的視覺刺激同時齣現在人眼的視野當中時,其他刺激會對人眼對某一種刺激的感知程度産生影響,這一種現象叫做掩蔽效應。
掩蔽效應的強度可以用去掉和加上掩蔽信號這兩種情況下,人眼對刺激信號的可見性差異來錶示。如圖3��12所示,左圖為刺激信號,該刺激信號為均勻分布的高斯白噪聲圖像; 右圖為將白噪聲圖像與掩蔽圖信號的閤成圖。通過對右圖的觀察我們可以發現,刺激信號在紋理區域明顯減弱,例如圖中女性的頭巾處; 而平坦區域的刺激信號強度較大,例如女性的麵部。也就是說掩蔽信號影響瞭刺激信號對人眼的刺激作用,導緻人眼對刺激信號的感知發生瞭變化。通常情況下,掩蔽效應在刺激信號和掩蔽信號兩者的位置、頻率、方嚮相同時達到最大。在圖像質量評估
現代多媒體通信技術/高等學校電子信息類專業係列教材 下載 mobi epub pdf txt 電子書 格式