1、1 低位元速率通信用視訊編碼 印月 94 10 月 本標準非經本局同意得翻印 中華民國國家標準 CNS 總號 號 ICS 35.110 14696 X1238 經濟部標準檢驗局印 公布日期 修訂公布日期 91 12 月 5 日 月日(共 181 頁) Video coding for low bit rate communication 1. 適用範圍 本標準規定可被用以將視聽服務 (Audio-Visual Service)的移動圖像組件 (Moving Picture Component) 壓縮成為低位元速之碼化表示法。視訊源編碼演算法 (Video Source Coding Algor
2、ithm)之基本組態係以 CNS 14217非電話信號之傳輸 p 64 kbps 視聽服務用之視訊編解碼器為基礎。係針對改進的效能 (Performance)及增加的功能性,本標準包含十種可協商之編碼選項。 2. 相關標準 1 CNS_(ITU-R Recommendation BT.601-5 (1995) - Studio Encoding Parameters of Digital Television for Standard 4:3 and Wide-Screen 16:9 Aspect Ratios. 2 CNS 14698視聽服務之基本結構傳輸多工及同步低位元速多媒體通信之多工協
3、定 3 CNS 14150非電話信號之線傳輸使用可達 2Mbps 位通道建視聽終端機間通訊之系統 4 CNS_(ITU-T Recommendation H.245 (1998) - Control protocol for multimedia communication. 5 CNS 14217非電話信號之傳輸 p 64 kbps 視聽服務用之視訊編解碼器 6 CNS_(ITU-T Recommendation H.262 (1995)| ISO/IEC 13818-2:1995 - Informa-tion technology - Generic coding of moving pi
4、ctures and associated audio infor-mation: video. 7 CNS 14697低位元速多媒體通訊用終端設備 3. 概述 圖 1 為編解碼器之概方塊圖。 3.1 視訊輸入及輸出 為使單一的標準,能適用於使用 625 和 525 掃瞄線電視標準的區域中,以及此區域之間,源編碼器運作的標準化訊源格式係以共同中介格式 (Common Intermediate Format,簡稱 CIF)為基礎。它也可能允許使用外部的協商 (如,CNS_(ITU-T H.245),以能夠使用大範圍之選項的特定訊源格式。如,輸入及輸出電視信號的標準可以是混合的或組件的、比的或位的
5、,而執源編碼格式之任何必需的轉換並非屬於本標準之範圍。 3.2 位輸入及輸出 視訊編碼器提供一個自我包含的位位元,此位元可以和其他多設施信號 2 CNS 14696 , X 1238 (Multi-Facility Signal)組合 (例如,如 CNS 14698 所定義 );視訊解碼器執行反向處理。 3.3 取樣頻率 圖像以視訊掃瞄線速率的整數倍來取樣,該取樣鐘訊與數位網路的鐘訊為非同步的 (Asynchronous)。 圖 1 視訊編解碼器之概略方塊圖 視訊多工編碼器編碼控制 (b) 視訊解碼器外部控制 傳輸緩衝器碼化位元流 視訊信號 源解碼器 接收緩衝器源編碼器 (a) 視訊編碼器視訊
6、多工解碼器3.4 源編碼演算法 本標準採用圖像間的預測與剩餘信號之轉換編碼兩者的併合,其中,圖像間的預測用以利用時間冗餘,而剩餘信號之轉換編碼用以降低空間的冗餘。解碼器具有移動補償 (Motion Compensation)之能力,允許在編碼器中選項的併入此技術。相對於 CNS 14217 使用全像素精度及迴路濾波器 (Loopfilter),本標準使用半像素精度於移動補償。使用可變長度編碼其符號將被傳送。 除了本標準核心的編碼演算法之外,在某些限制下,亦能同時地或個別地使用十六種可協商之編碼選項。附加的輔助資訊,亦可能包含於供增強的顯示能力及供外部使用之位元流裡。當需要時,可提供針對結果的視
7、訊位元流之一種應用的正向錯誤校正方法 (Forward Error Correction Method)以供使用。可協商之編碼選項、正向之錯誤校正、及輔助資訊之使用將在後續的小節中予以說明。 3.4.1 連續出現的多點及視訊多工模式 於此選項模式中,最多能有四種分離的視訊 “子位元流 “可在相同的視訊通道裡傳送,此一特性被設計來用於連續出現的多點應用裡,或沒有分離的邏輯通道可資使用,但卻希望使用多重視訊位元流的其他情形 (參照附錄 3)。 3.4.2 未設限移動向量模式 (Unrestricted Motion Vector Mode) 於此選項模式中,允許移動向量能指向圖像之外面,邊緣像素
8、(Edge Pixel)被用來作為對 “非既存 “像素之預測。如果有橫跨圖像邊緣的移動,則使用此種模式會獲致一顯著的增益,尤其是對於較小的圖像格式 (參照附錄 4)。此 3 CNS 14696 , X 1238 外,因為此種模式還包括移動向量範圍的延伸,所以對於較大移動向量亦能使用。對於攝影機之移動及大的圖像格式等情況,此模式特別地有用。 3.4.3 基於語法之算數編碼模式 (Syntax-based Arithmetic Coding Mode) 於此選項模式中,使用算數編碼來取代可變長度編碼, SNR 及重建圖像將會相同,但是所產生的位元將大量較少 (參照附錄 5)。 3.4.4 先進的預
9、測模式 (Advanced Prediction Mode) 於此選項模式中,重疊區塊移動補償 (Overlapped Block Motion Compensa-tion,簡稱 OBMC)被用於 P 圖像之亮度 (Luminance)部分 (參照附錄 6)。使用四個 88 向量來取代一個 1616 向量,以供圖像中某些巨區塊 (Macroblock)使用。編碼器必須決定所要使用的向量型式,四個向量雖然使用較多的位元,但是提供較佳的預測。使用這種模式通常會得到相當可觀的改善。因為 OBMC 造成較少的人造物 (Artifact)區塊,故將獲得主觀的增益 (Subjective Gain)。 3
10、.4.5 PB 訊框模式 (PB-frames Mode) 一個 PB 訊框係由被編碼成一個單元的兩幅圖像所組成,此一名稱 PB 是來自於 CNS_(ITU-T H.262)裡圖像型式的名稱,其中含有 P 圖像和 B 圖像。因此,一個 PB 訊框由一幅 P 圖像和一幅 B 圖像所組成,其中, P 圖像係從先前已解碼的 P 圖像所預測,而 B 圖像則是從先前已解碼的 P 圖像和目前正被解碼的 P 圖像兩者所預測。因為 B 圖像的大部分可以從過去的圖像和未來的圖像雙向 (Bidirection)地加以預測,所以就選擇了 B 圖像這個名稱。利用這種編碼選項,圖像的速率可大量增加,但實質上卻不必增加其
11、位元速率 (參照附錄 7),然而,本標準亦提供一個改進的 PB 訊框模式 (參照附錄13)。原始的 PB 訊框模式於此被留存,只是為了與早於改進的 PB 訊框模式被採用之系統相容 (Compatibility)之目的而已。 3.4.6 正向的錯誤校正 規定正向的錯誤校正方法是為了當適當的時候需要使用視訊位元流的保護時之用。提供做為正向錯誤校正的這種方法,是與規定於 CNS 14217 裡的BCH 碼之方法相同 (參照附錄 8)。 3.4.7 先進的 INTRA 編碼模式 於此選項的模式裡, INTRA 區塊是於編碼之前從相鄰的 INTRA 區塊先被預測的 (參照附錄 9)。個別的可變長度碼 (
12、Variable Length Code,簡稱 VLC)表是針對 INTRA 區塊而定義的。這種技術適用於在 INTRA 圖像的 INTRA 巨區塊,並適用於在 INTER 圖像內的 INTRA 巨區塊。此一模式比本標準的核心語法之 INTRA 編碼,顯著地改善了壓縮效能。 3.4.8 解區塊濾波器模式 (Deblocking Filter Mode) 於此選項的模式裡,一濾波器適用於越過已解碼的 I 圖像和 P 圖像 88 區塊之邊緣邊界,以減少人造物區塊 (參照附錄 10)。此濾波器的目的是於已解碼的圖像中做為減輕區塊邊緣人造物的發生。濾波器會影響被用於隨後的圖像預測,且因而將位於移動預測
13、的迴路 (Motion Prediction Loop)內之圖像。 3.4.9 片結構模式 (Slice Structured Mode) 4 CNS 14696 , X 1238 於此選項的模式中,一個 “片 “層被用來替代位元流語法的區塊群 (Group of Block,簡稱 GOB)層 (參照附錄 11)。這種模式的目的是提供增強的抗錯強健度能力 (Error Resilience Capability),使得位元流能更加順應於被用於基本的封包運輸遞送,和最小化視訊延遲。片類似於 GOB,是處於圖像層與巨區塊層之間的語法的一層。然而,相對於 GOB 結構所需固定的分割和固定的傳送次序而
14、言,一個片層的使用允許圖像有彈性的分割。 3.4.10 輔助的增強資訊 附加的輔助資訊包含於位元流裡,以報知所增強的顯示能力,或提供外部使用的資訊 (參照附錄 12)。此一輔助資訊用以報知,可使用或不使用重置尺寸 (Resizing)之一幅全圖像或部分的圖像之凍結或凍結釋放請求,亦用來對供外部使用的視訊流內特定的圖像或序列圖像加標籤,而且還可被用來運送供視訊合成使用的色度鍵資訊 (Chroma Key Information)。即使解碼器不能夠提供增強的能力來使用此一輔助資訊,或者甚至不能夠適當地解譯它,此輔助資訊也可出現於位元流裡。除非提供請求能力的需求業已由外部方法所協商,否則解碼器可容許
15、簡單地丟棄該輔助資訊。 3.4.11 改進的 PB 訊框模式 相較於 PB 訊框模式選項,此一選項模式代表一個改進的模式 (參照附錄 7和 13)。這兩種模式的主要差別是:於此改進的 PB 訊框模式,每個 B 區塊或許是使用個別的移動向量作正向預測或使用零向量作反向預測。當縮小規模的 P 向量並不是 B 預測好的選擇時,此種模式顯著地改善了編碼效率。當先前的 P 訊框與 PB 訊框之間有一個景象切割 (Scene Cut)時,這種反向預測是特別地有用的。 3.4.12 參考圖像選擇模式 提供一選項的模式,藉由允許從異於最近傳送的參考圖像作時間預測,以改善透過易生錯誤的通道 (Error-Pro
16、ne Channel)的即時視訊通信之效能 (參照附錄 14)。此種模式能與回送該訊息至編碼器,以通知有關其位元流是否正確地被收到之反向通道 (Back Channel)狀態訊息一起被使用。於易生錯誤的通道環境裡,此模式允許編碼器對通道狀況最佳化其視訊編碼。 3.4.13 時間、 SNR 和空間的可縮放性 (Scalability)模式 於此選項的模式支援時間、 SNR、及空間的可縮放性 (參照附錄 15)。可縮放性意含一個位元流係由一基本層和一或多個結合的增強層所構成。基本層為一個可獨立解碼之位元流。增強層可與基本層一同被解碼,其藉由增加圖像的速率、增加圖像的品質、或者增加圖像的尺寸,以增加
17、感受品質(Perceived Quality) 。 SNR 可縮放性表示在沒有增加圖像的解析度(Resolution)下,以增強的資訊來增加圖像的品質。空間的可縮放性表示藉由增加圖像的水平解析度、垂直解析度、或兩者,以增強的資訊來增加圖像的品質。藉由使用 B 圖像,亦支援時間可縮放性,一幅 B 圖像是一個可縮放性的增強,包含可從參考層中的兩幅圖像雙向地預測的圖像,其中一幅圖像在時間上居於目前圖像之前,而另一幅則尾隨於其後。 B 圖像允許欲被使用的增強層資訊,藉由增加顯示的增強視訊順序之圖像速率,來增 5 CNS 14696 , X 1238 加感受品質。這種模式於具有變動頻寬能力且具錯誤校正方
18、案的異質網路(Heterogenous Network)可能是有用的。 3.4.14 參考圖像再取樣 (Resampling)模式 提供一種語法以支援選項模式。針對此模式,使用於視訊影像預測 (Video Image Prediction)的參考圖像,於其被用以形成目前輸入圖像的預測物之前,以再取樣操作處理 (參照附錄 16)。如此可對視訊編碼之適當的影像解析度做有效率的動態選擇,而且也能支援圖像扭曲 (Picture Warping)以做為整體移動的補償物 (Compensator)或特效的產生物使用。 3.4.15 減縮解析度更新模式 (Reduced-Resolution Update
19、Mode) 提供一選項模式,允許對一個具有較高解析度的參考圖像 (參照附錄 17)做減縮解析度之更新。當編碼一個高活動的景象時,被期待使用這種模式,當在景象較為靜態的區域中,維持較高解析度的表示 (Representation)時,允許編碼器增加圖像速率,使得景象的移動部分能被表示。 3.4.16 獨立的段解碼模式 (Independent Segment Decoding Mode) 提供一選項模式,允許建造不具任何穿越 GOB 或多重 GOB 之視訊圖像段或片邊界 (參照附錄 18)的資料相依度 (Data Dependency)的圖像。藉由防止誤差資料越過視訊圖像段區域的邊界傳播,此模式
20、具抗錯強健性 (Error Robustness)。 3.4.17 替代的 INTER VLC 模式 當在圖像中有明顯的顯著變化時,提供此一選項模式,以改善 INTER 圖像編碼的效率 (參照附錄 19)。此一效率的改善係由允許原為 INTRA 圖像而設計之 VLC 碼也被用為 INTER 圖像的係數而獲得。 3.4.18 修改的量化模式 (Modified Quantization Mode) 提供一選項模式,以改善編碼之位元速率控制能力、減少色度 (Chrominance)量化誤差、擴展可表示的離散餘弦轉換 (Discrete Cosine Transform,簡稱DCT)係數的範圍、以及
21、對係數值設定某些限制 (參照附錄 20)。藉由加寬能被規定之步階尺寸 (Step Size)改變的範圍,此模式修改位元流之差動量化(Differential Quantization)步階尺寸參數的語意。也能減縮用於色度資料之量化步階尺寸。將 DCT 係數等級的範圍加寬,以保證任何可能的係數值能被編碼成在步階尺寸所允許的準確度 (Accuracy)之內。於此模式裡,也設定某些限制在係數中以增加錯誤檢測效能和最小化解碼器之複雜度(Complexity)。 3.5 位元速率 傳送鐘訊 (Transmission Clock)係由外部提供,視訊之位元速率是可變的。於本標準中,並未規定對視訊位元速率的
22、限制,其限制將由終端機或網路規定。 3.6 緩衝 編碼器必須控制其輸出的位元流,以遵從定義於附錄 2 的假想參考解碼器(Hypothetical Reference Decoder,簡稱 HRD)之需求。視訊資料應在每一個有效的鐘訊週期提供。使用 MCBPC 填補 (Stuff)(參照表 7 和 8),或者,當使用正向錯誤校正時,也可使用正向錯誤校正填補訊框來保證此點 (參照附錄 8)。 6 CNS 14696 , X 1238 經由編碼任何單一的圖像所產生之位元數,不得超過經由參數 BPPmaxKb 所指定的最大數值,該參數係以 1024 位元為單位來測量。 BPPmaxKb 參數可容許的最
23、小值,係依業已協商給位元流使用的最大圖像尺寸而定 (參照表 1)。圖像尺寸係以此亮度 (Y)組件之圖像的寬度乘以高度來測量,以像素為測量單位。編碼器可使用一個比在表 1 所規定的還大的 BPPmaxKb 值,只要此一較大的值是最初由外部方法協商而得的,譬如: CNS_(ITU-T H.245)。 當使用時間、 SNR、及空間的可縮放性模式時 (附錄 15),於每個增強層裡,針對每幅圖像而傳送的位元數將不得超過在 BPPmaxKb 中所規定的最大數值。 表 1 不同源圖像格式之最小 BPPmaxKb 以像素為單位之 Y 圖像大小 最小的 BPPmaxKb 至多 25 344 (或 QCIF) 6
24、4 25 360 至 101 376 (或 CIF) 256 101 392 至 405 504 (或 4CIF) 512 405 520 及以上 1 024 3.7 傳送的對稱性 編解碼器可使用於雙向的或單向的視覺通信 (Visual Communication)。 3.8 錯誤處理 錯誤處理應由外部方法提供 (譬如, CNS 14698)。假如不是由外部方法提供 (譬如, CNS 14152非電話信號之傳輸 -視聽電傳服務中之 64 至 1920Kbps 通道之訊框結構 ),則可以使用如附錄 8 所述之選項的錯誤校正碼和分框。 一解碼器能發送命令,以便於 INTRA 模式下,用編碼參數,諸
25、如:避免緩衝器溢流 (Overflow)的參數,來編碼其下一幅圖像的一個或多個 GOB(或者片,假如使用附錄 11)。假如片的結構化模式 (參照附錄 11)不在使用中,則解碼器也能發送一命令以傳送唯一非空的 GOB 標頭 (Header)。這些信號的傳送方法是採取外部的方法 (譬如, CNS_(ITU-T H.245)。 3.9 多點操作 (Multipoint Operation) 支援交換式多點操作所需之特性包含於附錄 3。 4. 源編碼器 4.1 訊源格式 源編碼器操作於非交錯式的圖像 (Non-Interlaced Picture),而此圖像具有以下列的一項來定義的訊源格式: (1)
26、圖像的格式,由每條掃瞄線的像素數、每幅圖像的掃瞄線數、以及像素縱橫比 (Pixel Aspect Ratio,簡稱 PAR)所決定。 (2) 圖像間的時間,由圖像之鐘訊頻率 (Picture Clock Frequency,簡稱 PCF)所決定。譬如,共同中介格式 (CIF)每條掃瞄線有 352 個像素、 288 條掃瞄線、像素之縱橫比為 12: 11,且圖像之鐘訊頻率為每秒 30 000/1001 幅圖像。 源編碼器操作於非交錯式的圖像,發生之圖像鐘訊頻率為每秒 30 000/1001 (29.97)次,即稱之為 CIF PCF;亦有可能藉由外部方法來協商一個選項的訂製PCF 的使用。一個訂
27、製的 PCF 為 1 800 000/(鐘訊除數 *鐘訊轉換因數 ),其中, 7 CNS 14696 , X 1238 鐘訊除數的值可能為 1 至 127,而鐘訊轉換因數可能是 1000 或是 1001。圖像鐘訊頻率的容忍值為 50 ppm。 圖像被編碼成亮度和兩個色差組件 (Colour Difference Component ) (即 Y、 CB、和 CR)。這些組件和表示其取樣值碼如同在 CNS_(ITU-R BT.601-5)所定義。 (1) 黑色 = 16; (2) 白色 = 235; (3) 零色差 = 128; (4) 尖峰色差 = 16 和 240。 這些值是標稱值,而編碼演
28、算法函數具有 1 到 254 的輸入值。 有五種標準化圖像格式: sub-QCIF、 QCIF、 CIF、 4CIF 及 16CIF,而亦有可能協商一個訂製圖像格式。針對所有的這些圖像格式,亮度取樣結構為每條掃瞄線有 dx 個像素,每幅圖像有 dy 條掃瞄線,並採取正交安排 (Orthogonal Ar-rangement)。此兩種色差組件的每一種組件之取樣是每條掃瞄線有 dx/2 個像素,每幅圖像有正交的 dy/2 條掃瞄線。針對每一種標準化圖像格式,其 dx、 dy、dx/2 和 dy/2 的值見表 2 中。 表 2 每條掃瞄線之像素數及每一種標準化圖像格式之掃瞄線數 圖像格式 亮度之像素
29、數(dx) 亮度之掃瞄線數 (dy) 色度之像素數(dx/2) 色度之掃瞄線數 (dy/2) sub-QCIF 128 96 64 48 QCIF 176 144 88 72 CIF 352 288 176 144 4CIF 704 576 352 288 16CIF 1 408 1 152 704 576 對所有的圖像格式,色差樣本被放置使其區塊邊界符合亮度區塊邊界,如圖 2所示。對每一標準化圖像格式,其像素縱橫比是相同的,且如同 CNS 14217 中對 QCIF 和 CIF 之定義: (288/3): (352/4),可簡化成互質數 12:11。除 了 sub-QCIF圖像格式之外,由所
30、有的標準化圖像格式所涵蓋的圖像區域具有 4:3 的縱橫比。 8 CNS 14696 , X 1238 圖 2 亮度與色度樣本之定位 亮度樣本色度樣本區塊邊緣 假如所用的訂製的像素縱橫比是最初由外部方法協商而得,則訂製的圖像格式(custom picture format,簡稱 CPFMT)能有一個如表 3 所述之訂製的像素縱橫比。倘若掃瞄線的數量可被四整除,且落於範圍 4, , 1152內,且倘若每條掃瞄線的像素數也可被四整除,且落於範圍 4, , 2048內,則訂製的圖像格式能有任何數量的掃瞄線,且每條掃瞄線也有任何數量的像素。針對一個具有寬度或高度不可以被 16 整除的圖像格式,這幅圖像會
31、被以如同寬度或高度具有可以被 16 整除的次一個較大尺寸的相同方法來解碼,且這幅圖像將僅供顯示目的而被修剪其右邊及底部成為適當的寬度和高度。 表 3 訂製的像素縱橫比 像素縱橫比 像素寬度:像素高度 正方形 1:1 CIF 12:11 4:3圖像之 525型式 10:11 16:9圖像之 CIF 16:11 16:9圖像之 525型式 40:33 延伸的 PAR m:n, m與 n為互質 所有的解碼器和編碼器必須能夠使用 CIF 圖像鐘訊頻率來操作,某些解碼器和編碼器亦可支援訂製的圖像鐘訊頻率。所有的解碼器必須能夠使用 sub-QCIF 圖像格式來操作。所有的解碼器也必須能夠使用 QCIF 圖
32、像格式來操作,某些解碼器亦可以利用 CIF、 4CIF、或 16CIF,或者訂製的圖像格式來操作。編碼器必須能夠利用 sub-QCIF 與 QCIF 圖像格式之一種來操作。編碼器可決定使用此兩種格式之何者,但是並不強制可使用兩者來操作。某些編碼器亦可以利用CIF、 4CIF、 16CIF、或訂製的圖像格式來操作。那一種選項的格式和那一個圖 9 CNS 14696 , X 1238 像鐘訊頻率能被解碼器處理是藉由外部的方法來報知,譬如, CNS_(ITU-T H.245)。可能的圖像格式與視訊編碼演算法的完全概觀,參照終端機的描述,譬如, CNS 14697。 備考:對於 CIF,每條掃瞄線的像
33、素數,為了實際的目的是相容於從 525 條掃瞄線或 625 條掃瞄線之來源分別以 6.75 或 3.375 MHz 取樣亮度和色差信號的有作用部分。這些頻率與 CNS_(ITU-R BT.601-5)中的頻率具有簡單的關係。 藉由在兩個傳送的圖像間具有最小數量的非傳送圖像,必須提供限制編碼器的最大圖像速率的方法。此最小數量的選擇,必須使用外部的方法 ( 譬如,CNS_(ITU-T H.245)。於 PB 訊框模式裡,為了計算非傳送圖像的最小數量, PB訊框單元的 P 圖像和 B 圖像被取成兩個分開的圖像。 4.2 視訊源編碼演算法 源編碼器以一般化型式顯示於圖 3 ,其主要的元件為預測、區塊轉
34、換 (Block Transformation)和量化。 圖 3 源編碼器 變換 量化器具移動補償可變延遲的圖像記憶器 編碼控制 INTRA/INTER 之旗標 傳輸與否之旗標 量化器指示 變換係數之量化索引 移動向量 T Q P CC p t qz q v p t qz q v CCT QPQ-1T-1視訊輸入 至 視訊多工編碼器 +4.2.1 GOB、片、巨區塊和區塊 每一幅圖像被分成區塊群 (GOB)或者被分成片。 10 CNS 14696 , X 1238 一區塊群 (GOB)由最多 k*16 條掃瞄線所組成,其中, k 係依據圖像格式的掃瞄線數和依據是否使用選項的減縮解析度更新模式而
35、定 (參照附錄 17),這些相依度如表 4 所示。假如掃瞄線數是少於或等於 400,且並未使用選項的減縮解析度更新模式,則 k = 1;假如掃瞄線數是少於或等於 800,且使用選項的減縮解析度更新模式,或者掃瞄線數是超過 400,則 k = 2;假如掃瞄線數是超過 800,則 k = 4。當使用訂製的圖像尺寸時,假如圖像的掃瞄線數不可以被 k*16 整除,則在最後的 (最底部的 )GOB 之掃瞄線數可能少於 k*16。然而,每一標準化圖像格式的每一 GOB 具有 k*16 條掃瞄線,如同於每一種標準化圖像格式的掃瞄線數為 k*16 的整數倍數。因此,例如,假若並未使用選項的減縮解析度模式,則對
36、 sub-QCIF 而言,每幅圖像之 GOB數為 6,對 QCIF,其 GOB 數為 9,針對 CIF、 4CIF 及 16CIF,其 GOB 數為18。 GOB 的編號是由使用 GOB 的垂直掃瞄來做的,由較高的 GOB(號碼 0)開始,並於最底部的 GOB 結束。針對 CIF 圖像格式,一幅圖像的 GOB 安排之範例見圖 4。每個 GOB 的資料係由一個 GOB 標頭 (或許是空的 )尾隨著巨區塊的資料所組成。 GOB 的資料係依遞增 GOB 數,每次傳送一個 GOB。 表 4 GOB 尺寸定義之參數 k 掃瞄線數 dy 不在 RRU 模式時之 k 值 在 RRU 模式時之 k 值 4,4
37、00 1 2 404,800 2 2 804,1152 4 4 片結構模式描述於附錄 11。片是類似於 GOB 的,他們都是語法的一個多重巨區塊層,但是片比 GOB 具有更大彈性的形狀和用法,而且在某些情況下片能夠以任何次序出現於位元流裡。 圖 4 CIF 圖像中區塊群之安排 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 11 CNS 14696 , X 1238 每個 GOB 被分成若干個巨區塊,該巨區塊之結構係依據是否使用選項的減縮解析度更新 (RRU)模式而定 (參照附錄 17)。除非處於 RRU 模式,否則每個巨區塊關連至 Y 的 16 個像素
38、乘以 16 條掃瞄線,而且,與空間上對應至CB及 CR的 8 個像素乘以 8 條掃瞄線。此外,一個巨區塊包括四個亮度區塊和兩個空間上對應的色差區塊,如圖 5 所示。每種亮度或色度區塊因而關連至 Y、 CB、或 CR的 8 個像素乘以 8 條掃瞄線。除非處於 RRU 模式,否則一個 GOB 係由一個 sub-QCIF、 QCIF 及 CIF 的巨區塊列 (Macroblock Row),或兩個 4CIF 的巨區塊列,或四個 16CIF 的巨區塊列所組成。 圖 5 一個巨區塊中區塊的安排 當於 RRU 模式時,一個巨區塊關連至 Y 的 32 個像素乘以 32 條掃瞄線,以及空間上對應的 CB及 C
39、R的 16 個像素乘以 16 條掃瞄線,而且,每個亮度或色度區塊關連至 Y、 CB、或 CR的 16 個像素乘以 16 條掃瞄線。此外,一個 GOB 係由一個 CIF 及 4CIF 的巨區塊列,或兩個 16CIF 的巨區塊列所組成。 巨區塊之編號是由使用巨區塊列的水平掃瞄來做的,從左至右,由較高的的巨區塊列開始,並於較低的巨區塊列結束。巨區塊的資料係依遞增巨區塊數每次一塊來傳送;而區塊的資料則係依遞增區塊數每次一塊來傳送 (參照圖 5)。 對於模式的選擇和傳送一個區塊的準則 (Criteria)是不受到標準的約束,而可以作為編碼控制的部分策略動態地改變。所傳送的區塊是被轉換,且結果的係數是被量
40、化及熵 (Entropy)編碼。 4.2.2 測 預測的主要形式為圖像相互間,而且能被移動補償所增加 (參照 4.2.3 節 )。時間預測所應用的編碼模式被稱為 INTER;假如沒有應用到時間預測,則此種編碼模式將被稱為 INTRA。這種 INTRA 編碼模式有可能在圖像層次 (I圖像為 INTRA,或 P 圖像為 INTER),或者在 P 圖像的巨區塊層次被報知。於選項的 PB 訊框模式, B 圖像總是在 INTER 模式下被編碼; B 圖像係雙向地被部分預測 (參照附錄 7)。 本標準總共有七種基本的圖像型式 (其中只有最前面的兩種是必備的 ),這些圖像型式主要是以其預測的結構來定義: (
41、1) NTRA:無參考圖像以供預測的圖像 (亦被稱為 I 圖像 )。 (2) NTER:使用於時間上居前的參考圖像的圖像 (亦被稱為 P 圖像 )。 1 2 3 4 5 6 Y CBCR 12 CNS 14696 , X 1238 (3) B:代表兩幅圖像的一種訊框,且具有一幅於時間上居前的參考圖像 (參照附錄 7)。 (4) 改進的 PB:於功能上類似於 PB 訊框,但經常優於 PB 訊框的一種訊框 (參照附錄 13)。 (5) :具有兩幅參考圖像的圖像,其中一幅參考圖像在時間上居先於 B 圖像,而另一幅參考圖像則在時間上後於 B 圖像,且具有相同的圖像尺寸 (參照附錄 15)。 (6) I
42、:具有在時間上同時於參考圖像的圖像,有相同的或是較小的圖像尺寸(參照附錄 15)。 (7) P:具有兩幅參考圖像的圖像,其中一幅參考圖像在時間上居先於 EP 圖像,而另一幅參考圖像則在時間上同時於 EP 圖像,且具有相同的或是較小的圖像尺寸 (參照附錄 15)。 在此所使用之 “參考 “或 “錨 (Anchor)“圖像是含有資料的圖像,能被參考所使用,以做為解碼另外圖像的基礎。雖然參考的使用,有時候真正地指示在時間方向上是倒轉的,但是也被稱為 “預測 “。 4.2.3 動補償 解碼器將於每個巨區塊接受一個向量,或者,假如先進的預測模式或解區塊濾波器模式被使用,則每個巨區塊將接受一或四個向量 (
43、參照附錄 6 與10)。假如使用 PB 訊框模式,則為了 B 巨區塊預測用的移動向量之調適(Adaptation),每一個巨區塊能夠傳送一個額外的增量向量 (Delta Vector)。一個改進的 PB 訊框巨區塊同樣地 (參照附錄 13)能包含一個額外的正向移動向量。 B 圖像巨區塊 (參照附錄 15)能隨同一個正向和一個反向移動向量一起被傳送,而 EP 圖像則能與一個正向移動向量一起被傳送。 移動向量的水平和垂直組件具有整數或半整數 (0.5)值。於預設的預測模式裡,這些值被限制於範圍 - 16, 15.5 (針對 B 圖像的正向和反向移動向量組件,這也是有效的 )。 然而,於未設限的移動
44、向量模式,向量組件的最大範圍被增加了。假如未有 PLUSPTYPE,則範圍是 - 31.5, 31.5,且假如預測器是在範圍 - 15.5, 16內,則針對每一個移動向量的組件,限制只有在預測器左右 - 16, 15.5範圍之內的值能被達到。假如未有 PLUSPTYPE,且預測器是在範圍 - 15.5, 16之外,則所有在範圍 - 31.5, 31.5之內,與預測器具有相同符號的值加上零值等均能達到。假如出現 PLUSPTYPE,則移動向量值限制較少 (參照附錄4)。 於減縮解析度更新模式裡,移動向量範圍被擴大至大約兩倍大小,且每個向量組件被限制為只有一個半整數或零值。所以,於預設的減縮解析度
45、更新模式 (參照附錄 17),每個移動向量組件的範圍是 - 31.5, 30.5,且假如也使用未設限的移動向量模式時,則其可為一個更大的範圍 (參照附錄 4)。 正值的移動向量的水平或垂直組件表示預測係由參考圖像的像素所形成,該參考圖像在空間上是於正被預測之像素的右邊或其下方。 限制移動向量俾使由其所參考的所有像素是在已編碼的圖像區域之內,但是,當於未設限的移動向量模式、先進的預測模式、或解區塊濾波器模式 13 CNS 14696 , X 1238 被使用時 (參照附錄 4、 6、與 10)則除外,或者於時間、 SNR、與空間的可縮放性模式 (參照附錄 15)之 B 圖像及 EP 圖像內亦除外
46、。 4.2.4 化 除非使用選項的先進 INTRA 編碼模式或修改的量化模式,否則 INTRA 區塊之第一個係數的量化器 (Quantizer)號碼為 1,而所有其他的係數的量化器號碼為 31。在一個巨區塊之內,相同的量化器是供所有的係數使用,但是INTRA 區塊的第一個係數則除外。決策層次則未定義。 INTRA 區塊的第一個係數在名義上是以一個步階尺寸為 8 來均勻地量化轉換 dc 值。其他 31個量化器的每一個均使用相同空間重建層次 (Spaced Reconstruction Level),此層次具有圍繞著零的一個中心死域 (Central Dead-Zone)和具有步階尺寸為在 2 到
47、 62 範圍裡的一個偶數值。正確的公式,參照 6.2 節;使用先進的 INTRA 編碼模式的量化,則參照附錄 9。使用修改的量化模式的量化,參照附錄 20。 備考:對於較小的量化步階尺寸,除非選項的修改量化模式是在使用中,否則此一轉換係數的完整動態範圍不能被代表。 4.3 碼控制 可以改變若干參數來控制已編碼的視訊資料之產生速率,這些包含居先於源編碼器、量化器、區塊顯著性準則 (Block Significance Criterion)和時間副取樣(Temporal Subsampling)等處理。此措施的比例在整體的控制策略裡並不受本標準的約束。 當調用時,時間副取樣藉由拋棄完全的圖像而被執
48、行。 為了在視訊信號的空間與時間解析度之間取得某種折衷,一解碼器能夠報知它的優選。在呼叫之初,編碼器必須報知其預設的折衷 (Tradeoff),並且必須指示它是否能夠回應解碼器的請求以改變此一折衷。這些信號的傳送方法是使用外部的方法 (譬如, CNS_(ITU-T H.245)。 4.4 迫更新 此功能係強迫使用編碼演算法的 INTRA 模式而達成的,其更新型樣 (Update Pattern)未定義。當係數被傳送給 P 圖像的巨區塊時,為了要控制反向轉換不匹配錯誤 (Inverse Transform Mismatch Error)的累積,每個巨區塊在 INTRA 模式裡至少每 132 次必
49、須被編碼一次。當使用選項的 EP 圖像時 (參照附錄 15),有一個類似的需求適用,因而當係數被傳送給該巨區塊時,每個巨區塊在 INTRA 或向上模式 (Upward Mode)中至少每 132 次必須被編碼一次。 4.5 始碼 (Start Code)之位元組對齊 (Byte Alignment) 開始碼之位元組對齊是藉由在開始碼之前,插入一個由少於 8 個的零位元所組成之填補碼字 (Stuffing Codeword)而得到,如此使得此開始碼的第一個位元為一個位元組的第一個位元 (最高有效位元 (Most Significant Bit,簡稱 MSB)。假如開始碼的最高有效位元的位置,從本標準之位元流的第一個位元開始算起是 8位元的倍數,則此一開始碼因而是對齊的位元組。所有的圖像、片、及子位元流結束碼 (End of Sub-Bitstream,簡稱 EOSBS)之開始碼必須皆為位元組對齊,而 GOB 和序列之結束 (End of Sequence,簡稱 EOS)的開始碼也可以是位元組對齊。
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1