1、ICS 13310A 91中华人民 共和BA国公共安全行业标准GAT 66942008城市监控报警联网系统 技术标准第4部分:视音频编、解码技术要求Technical standard of city area monitoring and alarming network systemPart 4Technical specification for VideoAudio codingdecoding2008-08-04发布 2008-08-04实施中华人民共和国公安部 发布目 次GAT 66942008前言-1范围-12规范性引用文件13术语、定义和缩略语14视音频编、解码的总体技术要求3
2、5视频编、解码技术要求36音频编、解码技术要求77视音频传输格式要求88视音频存储格式9附录A(规范性附录)H264基本档次的码流语法10附录B(资料性附录)G7221技术要求11参考文献12刖 菁GAT 66942008请注意,本部分的基本内容有可能涉及专利,本部分的发布机构不应承担识别这些专利的责任。GAT 669城市监控报警联网系统技术标准分为11个部分:第1部分:通用技术要求;第2部分:安全技术要求;第3部分:前端信息采集技术要求;第4部分:视音频编、解码技术要求;第5部分:信息传输、交换、控制技术要求;第6部分:视音频显示、存储、播放技术要求;第7部分:管理平台技术要求;第8部分:传
3、输平台技术要求;第9部分:卡口信息识别、比对、监测系统技术要求;第10部分:无线视音频监控系统技术要求;第11部分:关键设备通用技术要求。本部分为GAT 669的第4部分。本部分的附录A为规范性附录,附录B为资料性附录。本部分由公安部科技局提出。本部分由全国安全防范报警系统标准化技术委员会(SACTC 100)归口。本部分起草单位:北京中盾安全技术开发公司、公安部第一研究所、杭州恒生数字设备科技有限公司、杭州海康威视技术有限公司、武汉大学国家多媒体工程中心、广东志成冠军集团公司、天津天地伟业数码科技有限公司、北京国通创安报警网络技术有限公司、杭州华三通信技术有限公司。本部分主要起草人:张俊业、
4、王建勇、陈朝武、房子河、林冬、俞海、胡瑞敏、陈军、王中元、李民英、孙贞文、何青林、李晓峰、赵炫、王娜。1范围城市监控报警联网系统技术标准第4部分:视音频编、解码技术要求GMT 66942008GAT 669的本部分规定了城市监控报警联网系统(以下简称“联网系统”)视音频编码、解码的技术要求,包括总体技术要求,视频编、解码技术要求,音频编、解码技术要求,视音频传输格式,视音频存储格式等。本部分适用于城市监控报警联网系统,其他领域的监控报警联网系统可参考采用。2规范性引用文件下列文件中的条款通过GAT 669的本部分的引用而成为本部分的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内
5、容)或修订版均不适用于本部分,然而,鼓励根据本部分达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本部分。GAT 66912008城市监控报警联网系统技术标准第1部分:通用技术要求ISOIEC 13818一l:2000信息技术运动图像和伴音信息的通用编码第1部分:系统ISOIEC 144962:2004信息技术视听对象编码第2部分:视频ISOIEC 144962:2004Amd2:2005信息技术视听对象编码第2部分:视频修订稿2:简单档次的新级别IsOIEc 144964:2004信息技术视听对象编码第4部分:一致性测试ISOIEC 144964:20
6、04Amd10:2005信息技术视听对象编码第4部分:一致性测试修订稿10:简单档次中级别L4a、L5的一致性扩展ITuT RecG7111988数字传输系统的通用部分:音频的脉冲编码调制ITuT RecG72311996数字传输系统的通用部分:53和63 kbit的多媒体通信传输中的双速率语音编码器ITuT RecG729一1996数字传输系统的通用部分:利用共轭结构代数码激励线形预测的8 kbits语音编码ITuT RecH264 2005 H系列:音视频和多媒体系统,音视频服务基础 活动视频编码:通用音视频服务的先进视频编码ITuT RecH26412005 H系列:音视频和多媒体系统,
7、音视频服务基础 活动视频编码:H264先进视频编码的一致性说明RFC 3016用于MPEG一4音频视频流的RTP负载格式RFC 3550 RTP:一种实时应用的传输协议RFC 3984 H264视频的RTP负载格式3术语、定义和缩略语GAT 66912008确立的以及下列术语、定义和缩略语适用于本部分。GAT 6694200831术语和定义311编码器encoder实现编码过程的实体,可以为软件或硬件。312解码器decoder实现解码过程的实体,可以为软件或硬件。313档次profileH264或MPEG一4视频编解码标准中规定的整个比特流语法的子集,描述了对比特流的限制以及满足该档次的解码
8、器应遵从的算法特征和限制。314级别level视频编码比特流中句法元素参数值的限制集合,一个档次可以包括一个或若干个级别。315一致性测试conformance testing验证比特流和解码器是否满足相应标准规定的测试。316比特流码流bitstream描述图像或声音编码的一种有序的二进制数据组合。317基本档次baseline profileH264视频标准(ITUT ReeH264-2005)中定义的一个档次,是该标准中基本的档次。318简单档次simple profileMPEG一4视频标准(ISOIEC 144962:2004)中定义的一个档次,是该标准中基本的档次。32缩略语ASO
9、 Arbitrary Slice Order任意片排序AVS Audio Video coding Standard音视频编码标准CAVLC Context-based Adaptive Variable Length Coding基于内容的自适应变长编码CBR Constant Bit Rate固定比特率CNG Comlort Noise Generator舒适噪音发生器FMO Flexible Macroblock Order灵活的宏块排序HRD Hypothetical Reference Decoder虚拟参考解码器MPEG Moving Picture Experts Group运动
10、图像专家组MV Motion Vector运动矢量PS Program Stream节目流RS Redundant Slice冗余片RTP Realtime Transport Protocol实时传输协议SP Simple Profile简单档次VAD Voice Activity Detection话音活动检测VBR Variable Bit Rate可变比特率VLC Variable Length Coding变长编码2VOP Video Object Plane视频对象平面4视音频编、解码的总体技术要求GAT 6694-200841综述本部分仅规定了实现联网系统中互联互通视音频编、解码
11、技术应满足的基本要求。在不影响互联互通的情况下,本部分不限制使用方根据需要采用其他适合的视音频编、解码标准或工具。联网系统中的视音频流原则上不应包含私有数据格式。若确有必要加入私有数据,则应不影响该视音频编、解码器的性能及其与相应标准视音频编、解码器间的互通性。42视音频编、解码标准选择视频编码应支持H264或MPEG一4视频编码标准,视频解码应同时支持H264和MPEG一4视频解码标准。对上述两种视频编、解码标准的具体要求详见第5章。音频编码应支持ITUT RecG7111988或ITUT RecG7231 1996或ITUT RecG729 1996音频编码标准,音频解码应同时支持ITUT
12、 RecG7111988、ITuT RecG72311996和ITUT RecG7291996音频解码标准,可扩展支持ITUT RecG72211999音频解码标准。对上述音频编、解码标准的具体要求详见第6章。在适用于安防视频监控领域的AVS视音频标准发布后,宜优先采用。43视频图像分辨率编码、传输和存储的图像数据应具有不低于CIF(352288)格式的图像分辨率,重要目标和报警图像宜具有不低于4CIF(704576)格式的图像分辨率。44视音频流的传输协议采用RTP协议(RFC 3550)在IP网络上传输视音频流,不同视音频流的RTP打包格式详见第5章、第6章中的相关规定。45码率控制宜支持
13、CBRVBR两种码率控制方式。5视频编、解码技术要求51 基于It264的视频编、解码技术要求511 It264的档次和级别采用H264标准的视频编码应至少支持ITUT RecH264-2005的基本档次(Baseline Profile),级别(Level)应至少支持到Level 13,宜扩展支持到Level 3;视频解码所支持的档次和级别应不低于编码支持的最高档次和级别,至少应支持到H264基本档次的Level 3;视频解码宜扩展支持H264主档次(Main Profile)中的隔行扫描和B帧工具,且相邻两P帧间的B帧个数不大于2。5111 H264基本档次的选项和工具H264基本档次支持
14、的选项和工具主要有:a)I片和P片(Slice);b)基于内容自适应的变长编码cAVLC;c)容错工具:FMO,ASO,RS;d)去块效应滤波器(Deblocking Filter);e)多参考帧编码。采用H264编码的视频流应为H264 Baseline视频流,编码应支持上述Baseline选项和工具中的部分或全部,可不支持容错工具;H264的解码至少应支持上述除容错工具外的全部选项和工具。多参考帧编码时,P片的参考帧数一般不大于两帧。3GAT 669420085112 H264级别的限制H264级别(Level l3)的限制如表1所示。表1 H264级别(Level 13)的限制最大宏块
15、最大解码图像 最大视频比 最大编码图 两个连续处理速率 最大帧 缓冲区 特率 像缓冲 垂直运动矢量构成宏块的最MaxMB 尺寸 MaxDPB MaxBR 区MaxCPB 范围 最小压缩 大运动矢级别 比率 量数PS MaxFS (4:2:0视 (1 000 bitss (1 000 bitS MaxVmvRMinCR Max_(宏块数 (宏块数) 频以1 024字 或 或 (亮度帧采样)MVS秒) 节为单位) 1 200 bitss) 1 200 bits) Per2Mb1 1 485 99 1485 64 175 一64,+63751 211 3 000 396 3375 192 500 一
16、128,4-127753 212 6 000 396 8910 384 1 000 一128,4-12775 21-3 1l 880 396 8910 768 2 000 E-128,4-127753 22 11 880 396 8910 2 000 2 000 一128,4-1277s3 221 19 800 792 1 7820 4 000 4 000 一256,4-255753 2Z2 20 250 1 620 3 0375 4 000 4 000 一256,4-25575 23 40 500 1 620 3 0375 10 000 10 000 一256,4-25575 2 32注:“
17、”表示未傲相应的限制。5113 H264基本档次各级别的参数限制L 264基本档次各级别的参数限制如表2所示。表2 H264基本档次各级别的参数限制级别 最大子宏块尺寸(采样点数)1 57611 5761 2 57613 5762 57621 57622 5763 5765114 H264各级别的最大帧率限制H264中CIF、4CIF各级别(Level)的最大帧率限制如表3所示。其他分辨率各级别的最大帧率限制见ITU_T ReeH264-2005中的规定。表3 H264各级别的最大帧率限制最大帧尺寸 最大宏块速率 最大帧尺寸 最大采样率级别 格式 CIF4CIF(宏块) (宏块数秒) (采样点
18、数) (样点秒)亮度宽度 352 704亮度高度 288 576总宏块数 396 1 584表3(续)GAT 66942008最大帧尺寸 最大宏块速率 最大帧尺寸 最大采样率级别 格式CIF 4CIF(宏块) (宏块数秒) (采样点数) (样点秒)亮度采样点数 101 376 405 5041 99 l 485 25 344 380160lb 99 1 485 25 344 38016011 396 3 000 101 376 768 000 7612 396 6 000 101 376 1 536 000 15213 396 11 880 101 376 3 041 280 3002 396
19、 11 880 101 376 3 041 280 30021 792 19 800 202 752 5 068 800 50022 1 620 20 250 414 720 5184 000 511 1283 1 620 40 500 414 720 10 368 000 1023 256注:“一”表示未做相应的限制。512 H264基本档次的码流语法H264码流应为符合Baseline Profile的码流,其码流语法见附录A。513 H264的一致性测试H264的一致性测试包括比特流一致性测试和解码器一致性测试。5131比特流一致性测试比特流一致性描述见ITUT RecH264-2005
20、附录C中C3的规定。H264的一致性比特流(Conformance bitstream)应满足如下测试;当使用解码软件对H264视频比特流进行解码时,不应出现任何由比特流引起的错误或不一致。注:测试中不考虑由于传输而产生的错误。比特流一致性的进一步测试还包括虚拟参考解码器HRD的一致性测试(基于ITU-T RecH 2642005的附录c,附录D,附录E)等,见ITUT ReeH 26412005。上述验证比特流一致性用到的解码软件可参考ITU-T RecH2642 2005中指定的软件。5132解码器一致性测试解码器一致性描述见ITU-T RecH264-2005附录c中C4的规定。H264
21、解码器的一致性测试见ITUT RecH26412005中的方法,验证解码器一致性用到的软件可参考ITuT ReeH2642-2005中指定的软件。满足特定档次和级别的H264视频解码器应能正确解码相应档次和级别的H264一致性比特流。52基于MPEG-4的视频编、解码技术要求521 MPEG-4的档次和级别采用MPEG一4标准的视频编码应至少支持IsOIEc 144962:2004中简单档次(Simple Profile)的级别L5(ISOIECl44962:2004Amd2:2005),即MPEG一4 SPL5。采用MPEG一4标准的视频解码所支持的档次和级别不应低于编码支持的最高档次和级别
22、,宜扩展支持MPEG一4先进简单档次(Advanced Simple Profile)中的隔行扫描和B帧工具。5211 MPEG-4简单档次的工具MPEG一4简单档次的工具包括:a)Basic:基本工具,又包括以下几种工具:5GAT 669420081)I-VOP:帧内编码的矩形视频对象平面,逐行扫描的视频格式;2)P-VOP:帧问编码的矩形视频对象平面,逐行扫描的视频格式;3) ACDC Prediction:ACDC预测;4)4-MV:每个宏块可以有4个运动矢量;5)Unrestricted MV:不受限制的运动矢量。b)Error Resilience:容错工具,又包括以下3种工具:1)
23、 Slice Resynchronization:片重同步;2)Data Partitioning:数据划分;3)Reversible VLC:可逆的变长编码。c)Short Header:短头工具。MPEG一4视频编码应支持上述简单档次的部分或全部工具,可不支持容错和短头工具;视频解码至少应支持除容错工具外的简单档次的全部工具。5212 MPEG一4简单档次各级别的参数限制MPEG一4视频编、解码应至少支持简单档次的L5级gn参数限制如表4所示。简单档次其他各级别的参数限制见ISOIEC 144962:2004及ISOIEC 14496-2:2004Amd2:2005中的相关规定。表4 MP
24、EG-4简单档次L2、L3、L5级别的参数限制级别 L2 L3 L5典型分辨率 CIF(352288) CIF(352288) 720576最大对象数 4 4 4每种类型的最大对象数 4个简单对象 4个简单对象 4个简单对象最大唯一量化表 1 1 1最大视频内容验证(VMV)缓冲区(宏块组) 792 792 3 240最大视频复杂度验证(VCV)缓冲区(宏块) 396 396 1 620视频复杂度验证(VCV)解码速率(宏块秒) 5 940 11 880 40 500视频复杂度验证(VCV)边界宏块解码速率(宏块秒) 不适用 不适用 不适用最大视频缓冲验证(VBV)缓冲区总和(16 384 b
25、its) 40 40 112最大视频对象层(VOL)视频缓冲验证(VBV)缓冲区40 40 112总和(16 384 bits)最大视频包长度(bits) 4 096 8 192 16 384最大目标呈现尺寸(宏块数) 不适用 不适用 不适用小波限制 不适用 不适用 不适用最大比特率(kbits) 128 384 8 000单对象最大增强层数 不适用 不适用 不适用522 MPEG-4的码流语法为实现联网系统中视频流的互通,采用MPEG一4标准的视频码流语法应符合ISOIEC 144962:2004中的规定。MPEG-4中简单档次不同级别的相应标识码见表5(见ISoIEC 14496-2:20
26、04中的表p1和ISOIEC 14496-2:2004Amd2:2005中的规定)。6表5 MPEG-4简单档次各级别的标识码GAT 66942008档次级剐 标识码保留 00000000简单档次级别1 00000001简单档次级别2 00000010简单档次级别3 00000011简单档次级别4a 00000i00简单档次级别5 00000101保留 0000011000000111筒单档次级别0 00001000523 MPEG-4的一致性测试包括比特流一致性测试和解码器的一致性测试。5231比特流一致性测试MPEG-4的一致性比特流(compliant bitstream)是指实现了Is
27、OIEC 144962:2004在通用语法中定义的所有限制的比特流,包括Is0,lEc 144962:2004中第9章关于档次和级别的限制。MPEG-4的一致性比特流应满足如下测试:当使用解码软件对MPEG一4视频比特流进行解码时,不应出现任何由比特流引起的错误或不一致。注:测试中不考虑由于传输而产生的错误,MPEG一4的比特流一致性测试的附加测试见IsOIEc 14496-4:2004中的描述。上述验证比特流一致性用到的解码软件可参考ISOIEC 144955:2001中指定的软件。5232解码器的一致性测试MPEG-4的视频解码器通常指某一特定档次和级别的解码器。MPEG一4视频解码器的一
28、致性测试见ISOIEC 144964:2004中的规定,其中简单档次L5级别的视频解码器一致性测试见ISOIEC 144964:2004Amd10:2005的规定。验证解码器一致性用到的软件可参考Is0IEC 144965:2001中指定的软件。满足特定档次和级别的MPEG一4视频解码器应能正确解码相应档次和级别的MPEG-4一致性比特流。6音频编、解码技术要求61总体要求在联网系统中,音频编码应支持ITuT RecG7ll 1988或ITuT RecG72311996或ITuT RecG729-1996等音频编码标准,可扩展支持ITUT RecG72211999音频编码标准;音频解码应同时支
29、持ITuT RecG7111988、ITuT RecG72311996和ITU_T Rec,G7291996音频解码标准,可扩展支持ITuT RecG72211999音频解码标准(对ITUlT RecG7221-1999的技术要求参见附录B)。62 G711格式应至少支持ITU-T RecG7111988中定义的A律。G711解码实现的正确性和精度应符合ITuT ReeG7111988相应测试序列的验证要求。63 G7231格式应支持ITU-T ReeG7231一1996中定义的53kbit和63kbit语音编解码模式,宜扩展支持ITU-T RecG7231 1996附件Annex A中的VA
30、D,cNG模式。7GAT 66942008G7231解码实现的正确性和精度应符合IT UI-T ReeG7231 1996相应测试序列的验证要求。64 G729格式应支持ITUT RecG7291996中定义的语音编、解码模式,宜扩展支持ITUT RecG7291996附件Annex B中定义的静音压缩模式。G729解码实现的正确性和精度应符合ITU-T RecG729-1996相应测试序列的验证要求。7视音频传输格式要求71总体要求联网系统中,视音频流在基于IP的网络上传输时应采用下述72和73中的两种封装格式之一:基于RTP的PS封装和基于RTP的视音频封装。72基于RTP的PS封装即PS
31、 over RTP的封装方式;首先按照ISOIEC 138181:2000将视音频流封装成PS包,再将PS包以负载的方式封装成RTP包。721 PS包的主要参数设置针对规定的几种视音频格式,PS包中的流类型(stream type)的取值如下:a) MPEG一4视频流:0x10;b)H264视频流:OxlB;c)G711音频流:0x90;d)G7231音频流:0x93;e)G729音频流:0x99。722 RTP包的主要参数设置PS包的RTP封装格式参照RFC 2250,RTP的主要参数设置如下:a)负载类型(payload type):96;b)编码名称(encoding name):PS;
32、c)时钟频率(clock rate):90 kHz;d)SDP描述中“m”字段的“media”项:video。73基于RTP的视音频流封装该方式直接将视音频数据以负载的方式封装成RTP包。731 MPEG-4视频流的RTP封装MPEG-4视频流的RTP封装格式应符合RFC 3015协议中的相关规定。MPEG一4视频流RTP包的负载类型(Payload Type)标识号选定:从RFC 3551协议的表5中的动态范围(96127)中选择,建议定为97。732 H264视频流的RTP封装H264的RTP载荷格式应符合RFC 3984中的相关规定。H264视频流RTP包的负载类型(Payload Ty
33、pe)标识号选定:从RFC 3551协议的表5中的动态范围(96127)中选择,建议定为98。733音频流的RTP封装语音比特流宜采用标准的RTP协议进行打包。在一个RTP包中,音频载荷数据应为整数个音频编码帧,且时间长度在20 ms180 ms之间。7331 G711的主要参数G711 A律语音编码RTP包的负载类型(Payload Type)的参数规定如下(见RFC 3551中的表4):8GAT 66942008a) 负载类型(PT):8;b)编码名称(encoding name):PCMA;c)时钟频率(clock rate):8kHz;d)通道数:1;e)SDP描述中“m”字段的“me
34、dia”项:audio。7332 G7231的主要参数G7231语音编码RTP包的负载类型(Payload Type)的参数规定参照RFC 3551的表4中的G723,具体如下:a) 负载类型(PT):4;b)编码名称(encoding name):G723;c)时钟频率(clock rate):8kHz;d)通道数:1;e)SDP描述中“m”字段的“media”项:audio。7333 G729的主要参数G729语音编码RTP包的负载类型(Payload Type)的参数规定如下(见RFC 3551中的表4):a) 负载类型(PT):18;b)编码名称(encoding name):G729
35、;c)时钟频率(clock rate):8kHz;d)通道数:1;e) SDP描述中”m字段的“media”项:audio。8视音频存储格式联网系统中,视音频等媒体数据的存储应为PS格式(见ISOIEC 138181:2000)。GAT 66942008附录A(规范性附录)H264基本档次的码流语法A1 H264基本档次的码流语法等同采用ITuT RecH264-2005附录A21。H264基本档次的码流语法如下:a)码流的档次标识profileidc等于66;b)NAL单元流中,nalunit_type的取值不包括2,3,4;c) 序列参数集(Sequence parameter sets)
36、中的frame_mbsonly_flag等于1;d)序列参数集中不应出现下列句法元素:cbromaformat_ldc,bitdepthlumaminus8,bitdepthchroma_minus8,qpprime_y_zerotransform_bypassflag,seq_scalingmatrix_presentflag;e)图像参数集(Picture parameter sets)中的weighted_predflag和weighted_bipred-idc均等于0;f)图像参数集中的entropy_coding_mode_flag等于0;g) 图像参数集中num_slice_gro
37、upsminusl的取值范围为o7之间,包括0和7;h) 图像参数集中不应出现下列句法元素:transform一8x8一modeflag,picscalingmatrixpresentflag,secondchroma_qpindex_offset;i)句法元素levelprefix不应大于15。A2基本档次某一特定级别的解码器应该能解码所有满足profile_idc-66或constraintsetOflag=1的比特流,其中levelidc应为一个小于或等于指定级别的级别。附录B(资料性附录)G7221技术要求GAT 66942008B1 G7221格式应支持ITuT ReeG722119
38、99中定义的语音解码模式。G7221解码实现的正确性和精度应符合ITUT RecG72211999相应测试序列的验证要求。B2传输格式要求B21基于RTP的PS封装PS包中的G722。1音频流类型(stream,type)的取值:0x92;B22基于RTP的音频基本流封装G7221语音编码RTP包的负载类型(Payload Type)的参数规定参照RFC 3551的表4中的G722,具体如下:a) 负载类型(PT):9;b)编码名称(encoding name):G722;c)时钟频率(clock rate):8kHz;d)通道数:1;e)SDP描述中“m”字段的“media”顶:audio。
39、GAT 66942008参考文献1ISOIEC 144955:2001信息技术视听对象编码第5部分:参考软件E2ITUT RecH25422005 H系列:音视频和多媒体系统,音视频服务基础一活动视频编码:H264先进视频编码的参考软件r3ITUT RecG72211999数字传输系统的通用部分:通过非PCM方法对模拟信号编码,用于低丢帧率的免提系统的低复杂性编码r4ITUT RecG7231-1996Annex A数字传输系统的通用部分:53和53 kbit的多媒体通信传输中的双速率语音编码器附件A:静音压缩方案r5ITUT RecG729-1996Annex B数字传输系统的通用部分:利用共轭结构代数码激励线形预测的8 kbits语音编码 附件B:G729为执行V70建议的终端优化静音压缩方案r6 RFC 2250 MPEGl2视频流的RTP负载格式刀RFC 3551带有最小控制的音视频会议的RTP框架r8RFC 4565 SDP:会话描述协议