1、ICS 37.080一鹜tr中华人民共和国国家标准化指导性技术文件GB/Z 19736-2005/ISO/TS 12033:2001电子成像文件图像压缩方法选择指南Electronic imaging-Guidance for selection of document image compression methods(ISO/TS 12033:2001,IDT)2005-04-19发布2005-10-01实施一一率督豁臀霭贷臀鉴臀臀暴发“ GB/Z 19736-2005/ISO/TS 12033:2001山dml1胃由于压缩技术的应用迅速增多,压缩方法对所存大量数据的管理起着日益重要的因素
2、。根据源文件的不同,现有压缩方法的效能差别很大。例如,与仅仅涉及文本的应用相比,为扫描和存储连续色调影像而配置的电子影像管理(EIM)系统将有不同的图像压缩要求。分析用户对图像压缩的要求并恰当地选出图像压缩最佳方案所用的实际方法是很复杂的。为指导用户和系统开发商选择这些方法,提出本指导性技术文件显然是有用的。本指导性技术文件等同采用ISO/TS 12033:2001电子成像文件图像压缩方法选择指南(英文版)。本指导性技术文件仅供参考。有关对本指导性技术文件的建议和意见,向国务院标准化行政主管部门反映。本指导性技术文件由全国文献影像技术标准化技术委员会(SAC/TC 86)提出并归口。本指导性技
3、术文件由全国文献影像技术标准化技术委员会第五分委员会起草。本指导性技术文件主要起草人:李铭、董建伟、王坤。 GB/Z 19736-2005/ISO/TS 12033:2001电子成像文件图像压缩方法选择指南1范围本指导性技术文件为用户或电子影像管理(EIM)系统集成者提供了信息,以使他们能够对商业文件数字图像压缩方法的选择做出决策。其目的在于提供信息,用以分析文件的类型以及对于特定的文件采用何种压缩方法最适宜,以便实现文件的存储与使用的最佳化。对于用户,本指导性技术文件提供了有关硬件或软件所具备的图像压缩方法的信息,以便在该用户选择嵌有压缩方法的系统时,为其提供帮助。对于设备或软件设计者,它提
4、供了计划信息。本指导性技术文件仅适于位映射模式的静态图像。它仅考虑了基于良好测试过的数学计算的压缩算法。2规范性引用文件下列文件中的条款通过本指导性技术文件的引用而成为本指导性技术文件的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本指导性技术文件,然而,鼓励根据本指导性技术文件而达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本指导性技术文件。ISO 12651:1999电子成像词汇ITU-T建议T.4:1999文件传送用3类传真终端的标准化ITU-T建议T.6:1988 4类传真设备用传真编码方案与编码控制功能3
5、术语和定义ISO 12651:1999确立的以及下列术语和定义适用于本指导性技术文件。3. 1无损压缩lossless compression能够恢复被压缩图像的所有原始信息的压缩算法。3.2有损压缩lossy compression压缩期间会损失一些原始信息的压缩算法,因此解压缩图像仅近似于原始图像。注:如果由于细节是人眼察觉不到或几乎察觉不到的,因而可以舍弃,这时这类算法对图像压缩特别有用。这种情况下,压缩比可以大幅度提高。3.3分辨率resolution每单位长度的像素数。3.4点英寸dots per inchdpi扫描器(打印机)在水平方向上和垂直方向上的每英寸都能扫描(打印)的点数。
6、GB/Z 19736-2005八SO/TS 12033:20013.5明度brightness使观察者能够察觉亮度的视觉感受。3.6对比度contrast一幅图像的最高密度与最低密度的差异。3.7位深度bit level用以界定一个像素的位数。3.8亮度luminanceY由一个表面发出的光通量。3.9色度chrominanceCr,Cb视频信号中包括色调和饱和度但不包括明度的彩色部分。注:低色度意味着彩色画面显得苍白。3. 10ITU-T 3类与4类ITU-T Group 3 and Group 4ITU-T提出的两种标准算法。3.11联合摄影专家组Joint Photographic Ex
7、perts GroupJPEGISO/IEC 10994标准的流行名称。3.12国际电报电话咨询委员会Comite Consultatif Internantional Telegraphique et Telephonique;CCITT国际电信联盟电信标准化组(ITU-T)以前的名称。3.13压缩比compression ratio压缩前的图像文件大小与压缩后的图像文件大小之比。4总则在文件成像系统中,用户出于两个原因对存档图像的质量予以关注。首先是由于它能影响到成像系统的中期甚至长期的前景;其次是由于他们必须基于一种不断发展的技术来选择成像工具。数字化过程从性质上将载有丰富信息的影像变换
8、为非物质化的图像,因而也改变了观察者对影像(图像)的感受。观察者可能认为图像得到了改善,可更常见的情况是觉得图像质量下降了。事实上,影像在数字化过程中的不同阶段,经受了许许多多一连串的变换。在每个阶段,人们都力图将图像的可读性保持在可接受的限度内,但又要将图像的大小限制在可接受的经济限度内。在数字化的诸阶段中,有一个阶段是压缩,其特定作用是减小图像文件的大小。一些压缩方法是可逆的,即解压缩算法可以恢复原始的数字信息,这些方法是无损的,当人眼看到图像时,图像的质量没有受到损害。其他方法则是有损的,并会导致人眼所能察觉的图像质量下降。通过对参数的调整,用户能 GB/Z 19736-2005/ISO
9、/TS 12033:2001够在可接受的限度内找到一种有损压缩方法。尽管在技术文献中描述过大量的压缩方法,但依据工业标准,只有很少几种是稳定的。这几种则是基于有限的几项原则:某些图案的优势性、图案的重复性以及显著的数学性。在任何一种方法中,用户所能修改的参数数量都是很少的。压缩方法与压缩参数的选择很大程度上是由文件的特性决定的。显然,文件的图形内容在确定方法及其参数上起着关键的作用。然而,影响应用特性的其他因素也是很重要的(参见图1)0文件的图形内容本身对于数字化处理是重要的。这样,一幅照片在数字化的时候,如果是呈灰度状态,或者是基于“伪灰度”法,其数字化的方法就不可能是同样的。前者是使用JP
10、EG压缩法,后者将需要使用ITU或JBIG压缩法。因此,在讨论压缩方法之前,我们需要审视一下文件的类型以及数字化后它们又是怎样被表现的,见图1,士图1各种因素与压缩方法的相互作用5文件的类型与数字化参数5.1概述一份文件是一组意欲呈现给一个用户的经过组织的信息。文件可以是单页的,也可以是多页的,而且可以包含任意类型的内容,诸如字符内容、图形内容以及各种类型的图像内容。下述文件内容可以在各种类型的文件中看到。下面的分类有一定的随意性,但对于给定的应用来说,人们可以运用这些差异来了解应怎样处理一份给定的文件。5.2文件的类型这里仅给出最有可能用电子方法存档的文件(通常称为“文字处理文件”)。这些文
11、件包括:白色背景下的黑色文本,或者是不太常见的彩色背景下的彩色文本;黑白或彩色照片;用印刷方法复制的既含有文本又含有照片的黑白或彩色的混合文件。5.3文件的分类与数字化5.3.1概述为了确定压缩方案,可以按下述五种方式描述文件。对于每种类型的文件,都简略地描述数字化方法。GB/Z 19736-2005/ISO/TS 12033:20015.3.2黑白文件黑白印刷(主要是文本)的页面数字化后,生成二值图像,每个像素用一个比特来再现。这种再现形式也可以应用于具有彩色背景或字符的文本文件,以及线条图样。最重要的数字化参数是分辨率。分辨率必须依据视觉感受的需要来决定,且受整个成像系统的限制(例如对于文
12、字处理文件为200 dpi,对于数字化书刊为300 dpi),涉及到图像处理还有其他一些因素,这些因素随图像类型而变化。例如,我们知道待数字化的图像是文本,我们将力求生成白色背景下边缘清晰的黑色字符。于是,我们便有明度(相对于阑值来调整一个像素的颜色)和对比度(相对于周围像素的颜色来调整一个像素的颜色)这两个参数。5.3.3灰度文件这种形式的再现适合于由黑白胶片印制在相纸上的照相文件。数字化将一个原本是连续色调的文件变成一个像素的黑度编码为若干级的像素矩阵。这样,8比特编码便生成256级灰度。灰度的级数或位深度必须依据视觉感受的需要和整个成像过程的限度来确定。5.3.4伪灰度文件这类文件包括了
13、使用黑白像素可变分布来模拟灰色的图像。这可以有两种情况:(1)源文件是一个文本中的照相复制品;它原是用印刷技术生成的,本身是个伪灰度文件(屏面的形成使用了可变大小的黑色像素);(2)源文件是一张真正的照片,但为了减小存储量或在网上的传送时间而被以伪灰度的形式数字化了(“半色调”技术涉及了在一个固定大小的矩阵中分布数量不等的黑色像素)。5.3.5彩色文件这种形式的再现适合于由彩色胶片印制在相纸上的照相文件。另一个用途是对商业文件的数字化彩色捕获,在这些文件中,黄色重点区、彩色边框、铅笔道、红笔道等等,都是信息捕获整体的一部分。彩色文件意在将来恢复成彩色,但也可以以灰度来复制。彩色再现是基于人眼的
14、神经生理性能,特别是“视觉三原色”原理,即所有的颜色均可以通过三原色的组合来再现。这样,一种颜色便可以在一个基于三原色的矢量空间中通过三个坐标来再现,或者通过它们的线性组合来再现。最常用的彩色空间使用红、绿、蓝。这三种颜色由眼睛中的视网膜锥状细胞来区分。另一种彩色空间将这些变量换成为一个“亮度”变量和两个“色度”变量。这种彩色空间用于发送电视信号。在数字化的彩色图像中,每个像素都通过对应于三原色的三个分量的组合来再现。一个分量采用的位深度决定了色彩的质量;每个分量8比特的标准可以再现2563 (1 600多万)种不同的颜色。数据通信网络传送的总共8比特的再现也是相当常见的。5.3.6混合文件很
15、多准备存档的文件是由一些含有图形要素和(或)照相影像的文本页面构成的。再现这类文件的完全满意的方式是没有的:二值再现会使插图不可读;为保护插图而用灰度或彩色再现的确会提供最好的质量,但就插图的重要性而言,却会使存储量不成比例地加大(人们必须了解分辨率与灰度或彩色图像文件的位深度之间可能存在着相消关系);半色调再现会降低字符的可读性。在混合文件中,文本被认为更重要,所以会用二值再现在白色背景上绘制黑色字符。照片或者受到损失,或者不得不从文本中分出来,以做适宜的再现。大多数情况下,文本和照片可以用分割算法自动 GB/Z 19736-2005八SO/TS 12033:2001且成功地分开。有时,分割
16、会导致信息的损失(诸如照片下面有说明,或者采用了不常见的印刷布局)。6压缩方法与标准6. 1 RLE压缩(行程编码)该法为大多数图形图像格式所接受。该法考虑数据流中同一符号(在ASCII文本中则是字符)的行程。每个数据流是用重复性元素出现的次数和数据流的长度编码的。RLE算法可以在比特、字节或像素的水平上运算。基本算法是一次算一行,但也有些变型算法可以按竖的方向运算,将邻行中的重复字符考虑进去。RLE法名义上是无损的,不过为了提高效率,有些变型算法舍掉低阶位,从而造成损失。该法对于文本和复杂的照片来说,由于很少有长的序列,所以不是非常有效。而对于具有大面积均匀颜色的图像来说,该法则是最有效的。
17、6.2 LZW压缩(Lempel-Ziv-Welch)在一些图像格式中可以看到该法的变型。该法寻找重复性元素的行程不是按固定的方式,而是依照一部以前遇到的数据流的词典,而随着算法对一个图像的处理,该词典不断被充实(对于文本,该词典则是以ASCII字母来初始化)。6. 3 ITU-T算法6.3.1概述ITU-T已为通过传真传送图像界定了一系列协议。官方将这些协议称为T. 4和T. 6,然而通常人们却将它们称为G3 (3类)法和G4 (4类)法。存档中使用的压缩方法是ITU-T算法的变型。ITU-T算法可包含行结束和消息结束代码,以简化传真过程。而当这些方法用于存档时,这些代码是冗余的。ITU-T
18、压缩是以霍夫曼(Huffman)算法的变型为基础的。ITU-T界定了三种传真标准,这些标准被用于压缩二值图像: 3类改型霍夫曼(MH):一维压缩法(G3 1D); 3类改型里德(Read) (MR):二维压缩法(G3 2D) ; 4类改型MR(MMR):二维压缩法(G4).6.3.2 3类一维压缩法(G3 1D)3类一维压缩法(G3 1 D)是霍夫曼算法的一种变型。在二值图像中,每个扫描行交替地出现一些由黑色像素或白色像素构成的可变长度的区域。3类编码器确定每个黑块或白区的长度(称之为行程),并在霍夫曼表中查找相应的代码。压缩之所以实现,是因为码字比它们所代表的区要短。每个码字代表一个对应于白
19、或黑的区长度。3类算法是3类传真中使用的基本压缩算法。码字的长度是在创立这种方法时就确定了的,是以对印刷和手写文件的统计观察为基础的。最短的码字分配给了高出现概率的行程。注:尽管ITU-T压缩法最初是为文本文件设计的,但它也适用于光栅照片,只是效率较低。像素的顺序用两类码字来代表:构形码字(configuration code word)和终端码字(termination codeword)。构形码字代表长区,终端码字代表短区。长度在。-63比特之间的区被编码在一个终端码字中。64-2 623比特之间的比特流被编码在一个对应于长度除以64所得商的构形码字中,并为余数加上一个终端码字。长度超过2
20、 623比特的比特流被编码成一系列的构形码字,然后可以加上一个终端码字。这种一维编码方案仅仅消除了每个扫描行中左至右的冗余比特,而没有减少上下各扫描行之间的冗余比特。GB/Z 19736-2005/LSO/TS 12033:20016.3.3 3类二维方法(G3 2D)和4类方法3类一维方法单独地处理图像的每一行,而3类二维方法则利用了同一图像中常常是非常相似的连续两行之间的一致性。G3 2D被界定为3类的一种备选方案,它局限于嵌入“一维”行之间的数量很少的行。4类使用同样的算法。与G3 1D一样,G3 2D算法使用将单一行中不同颜色分隔开来的转折点(“自变像素”)。在创立图像的编码呈现时,算
21、法不仅考虑单一行中的自变像素,而且还考虑邻近两行的自变像素。这样,除了G31D中使用的码字以外,G3 2D和G4方法还使用代表相邻两行或多行中自变像素的距离和相关分布的码字。6. 4 JBIG压缩JBIG是Joint Bi-level Image Group(联合二值图像组)的缩写。顾名思义,该法用于二值图像。它主要用于文本(这与T. 4和T. 6一样),不过它也可以用于印刷文件中的光栅照片(这与T. 4和T. 6不一样)。依据其创立者的说法,对于纯文本而言,JBIG与T. 4和T. 6在效能上是一样的;而对于光栅照片而言,其效能则要高出2-30倍。与T. 4和T. 6一样,JBIG也是无损压
22、缩。该方法使用递增编码,它控制了分辨率的大小。这种编码体系最初以低分辨率(例如25 dpi)传送图像,然后分辨率累进地加倍,直至获得原始分辨率的图像。递增编码方法的优点有两个:a)它仅以必要程度的细节分析图像;b)它可以依据输出外设的特性或者观察者的感受需求来修改分辨率(例如一旦图像被识别,传送即可中止)。ISO/IEC 11544将JBIG方法描述成程序块的组合体。这些块大多具有节省编码和加快处理的双重目的。当检测出低分辨率图像与高分辨率图像之间存在均匀颜色区域、重复性区域和同样性区域时,编码便被节省了。6.5 JPEG压缩6.5.1概述一般而言,图像从一个像素到下一个像素是高度相关的。也就
23、是说,如果一个像素是某一种灰影,很有可能其相邻的像素也是差不多同样的灰影。这意味着一些冗余信息可以舍弃,而不会严重影响图像的可读性。J PEG标准使用这种方法。JPEG涵盖了一系列的算法和两种类型的压缩。一种类型是无损压缩,但其效能不很高。更常用的类型是有损压缩,它包含了好几个步骤,其中一些是损失的根源。该类压缩的核心是称为离散余弦变换(DCT)的数学变换。6.5.2离散余弦变换(DCT)DCT适用于每一块的每一像素(从数字化图像中抽取的8X8个像素为一块)。DCT将块变换为64个频率系数。该变换的一个有意思的性能是它把信息集中在少量的系数里,而大多数其他系数的值则近乎为零。6. 5. 3 J
24、PEG步骤JPEG方法包括以下几个步骤:a)离散余弦变换;b)数据的数字呈现导致的截断(甚低阶值舍弃);c)“量化”变换;d“后嫡编码”,即不仅使用了JPEG压缩,而且还使用了霍夫曼编码技术或算法压缩。除DCT外,JPEG中最重要的步骤是量化。量化包括对DCT所获得的系数进行线性变换。该量化既用于消除具有小基值的频率(大多是高频),也用于粗略地呈现剩余频率。 GB/Z 19736-2005/ISO/TS 12033:2001量化矩阵既控制所获得的压缩比,也控制图像的劣化。固定一个“损失水平”是有可能的。JPEG专家没有严格界定标准中的量化矩阵。他们仅给出了适用于720 X 576像素电视屏幕的
25、例子。该量化矩阵示例是基于照片的心理一视觉测试。6. 5. 4 JPEG分ItJPEG主要描述压缩的原理。有些(像DCT)是JPEG所特有的,而另外一些(像霍夫曼编码技术)则不是。尽管JPEG没有采用彩色空间,但它能够利用人眼对色度变量和亮度变量最敏锐的敏感性。这样,在Y,Cr,Cb编码中,它能够根据亮度对色度信息进行二次抽样。JPEG还介绍有关图像显示动态特性方面的内容,而这与压缩原理并无直接的联系。这些辅助方面影响对数字化图像的视觉感受,因而使它们成为JPEG的关键判据。交织:JPEG能够以3组的方式即交织地传递Y,Cr,Cb分量。 DCT顺序编码:图像被传递几次,每次传递的质量都得到改善
26、。第二个原理能够用于交互搜索体系:多数图像被认为是不相干的,因而以最低的质量传递,只有那些专门搜索的图像是以最高的质量传递。6.6分形压缩该法基于分形几何学,由法国数学家Benoit Mandelbrot所创立。与使用由线间隔构成的微元逼近复杂曲线的解析几何学不同,分形几何学认为将曲线(或曲面)划分成更小的元素并不降低其复杂性。通过给定曲线中无限细分元素中的同样图案的无限重复而产生了分形的一个特殊类别。使用分形法进行图像压缩是生成分形图像的逆过程。压缩的目的不是从给定的变换生成一个图像,而是找到一系列借以逼近一个给定数字图像的变换。通过分形几何学的模拟,基本目的是要找到在不同细分水平上所获得的
27、图像元素之间的相似性。如果所有的小元素都可以认为相似于大元素,那它们便无需予以详细描述,从而实现了压缩。在分形方法中,算法试图用矩阵变换来比较图像元素。算法包括一个图像细分原理和一个允许确定图像中元素相似程度如何的度量定义。6.7小波压缩该法基于对傅里叶19世纪所做工作展开的研究。傅里叶级数可以将任何周期性函数表现为不同频率正弦函数的线性复合。需要对傅里叶变换做出修改,以适应表现那些类似数字化生成的离散值函数,以及处理非周期性函数。由此而产生了作为JPEG基础的DCT。然而,傅里叶变换对图像中明确的不连续性是不适宜的。小波形成了一系列非正弦的数学函数。这些函数可以有峰值,并可以迅速地下降,这意
28、味着这些函数可以与图像的非周期性的局部特性相联系。如同在DCT方法中的那样,小波压缩涉及以线性复合系数取代数字化生成的值。压缩效果通过接近于零的系数的存在而实现。7压缩参数的选择7.1合理的压缩既然压缩可能会也可能不会造成损失,我们的第一倾向照理应该是使用无损压缩方法。然而,我们立刻面临两个问题:a)当前只有ITU-T G3和G4以及JPEG实现了标准化和大规模的工业化;b)第一个难题想必会促使我们优选JPEG用于照片,然而无损JPEG的效能比有损JPEG要低得多。因此,在JPEG的情况下,最重要的是决定哪种压缩更恰当。要回答这个问题,就要认真考虑图像在成像系统中的作用。GB/Z 19736-
29、2005/ISO/TS 12033:2001可以有两种极端的情况:a)或者是源文件具有高度的美学价值,要求数字化后的图像具有尽可能是最高的质量;b或者是文件的内容比其外观更重要,因而只要数字化后的文件仍然是可读的,在质量与效能之间,便可以达到某种折衷。第一种情况一般理应排除了有损压缩,而第二种情况是将压缩作为减小影像文件大小的一种手段,即便有损也是允许的。在某种程度上,成像系统的结构可以决定是质量更重要,还是效能更重要。换言之,或许能够做出下述决策中的一个决策:存储未压缩的文件供编辑复制用,而当需要在计算机屏幕上显示时,则分发经压缩的文件(这是“图像目录”的原则,与真实图示的文件是不同的);抽
30、取一部分文件。以高于平均值的质量进行数字化,即使用无损压缩;将纸质文件与数字化文件都储存起来,当有索取要求时,只有那些要求高质量复制的纸质文件才被数字化。7.2压缩方法的选择一旦决定了要压缩影像,用户就必须选择最适合汇集中各种类型文件的压缩方法。表1归纳了可能的选择。表1各种压缩方法扛7. 3 JPEG压缩的调整在JPEG中不能直接界定压缩比。而且,这样一种调整理应是无意义的,因为在所有的压缩方法中,压缩比依图像的特性而变化。然而,JPEG确实允许用户通过调整质量水平而间接地修改压缩比。显然,质量水平与压缩比成反比(最高的质量水平具有最低的压缩比)。质量定义并非是一成不变的。每个硬件或软件产品
31、都有其特定的定义。质量水平一般按。 GB/Z 19736-2005/ISO/TS 12033:2001100的比例来界定。为了调节JPEG中的压缩比,用户修改质量水平,寻求尽可能最低的质量水平,同时又保留原始文件的外观。对于大多数文件而言,75的质量水平一般被认为是最好的。然而,用户将不得不为其自己的需要而找到最佳水平。因此,当确定质量水平时,宜将一份准备存档的样品文件数字化,并向各种各样潜在的观察者咨询其对结果的看法。在JPEG中,压缩比过高将造成图像质量下降,使得用该方法生成的区域内颜色平板,且区域之间出现间隙。这种缺陷可以通过提高数字化的分辨率予以消除,尽管这会加大图像文件的大小。另一方
32、面,当源图像的形状具有对比强烈的色彩时,压缩很可能使轮廓变得模糊。这种情况下,色度宜对亮度二次取样。这样,需要在分辨率与质量水平之间取得折衷。8结论图像压缩方法的选择取决于不断发展的技术水平,以及同样快速变化着的工业与商业标准。虽然难于预言未来几年内将会有怎样的重大技术进展,然而我们能够预料某些持续的趋势,尤其是用于文本文件与照相文件的压缩方法的两种走向大概会持续下去。ITU-T G3与G4以及JPEG是当前使用最为频繁的方法,但人们期盼出现功能更强的方法。因此,用户将不得不在用于文本的无损方法和用于照相文件的有损方法之间做出选择。对于照相文件,所用算法将同JPEG中所用的算法一样,但有不同的数理功能。GB/Z 19736-2005/ISO/TS 12033:2001参考文献1 ISO八EC 10928-1:1994信息技术连续色调静止图像的数字编码与压缩:要求与指南幻ISO/IEC 10928-2:1995信息技术连续色调静止图像的数字编码与压缩:符合测试31 ISO/IEC 10994:1992信息技术数据交换用90 mm改进调频制记录的密度为31 831磁通翻转弧度、每面80磁道的软磁盘ISO 303型41 ISO/IEC 11544:1993信息技术画面与音频信息的编码重现顺序二级压缩5 Moore, A摩尔成像词典:电子文件与图像处理正式词典纽约:电信图书馆,1993
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1