1、ICS 35.240.99 L 67 GB 中华人民主t./、和国国家标准GB/T 28513-2012 使用低比特率视频通信的手语和唇读实时会话应用配置Application profile-Sign language and lip-reading real-time conversation using low bit-rate video communication CITU-T H. Suppl:1999 ,MOD) 2012-06】29发布2012-10-01实施。,1.9.臼3,.,_07UfiO:i;J. ,-飞苟吧,眉目$ 码防伪中华人民共和国国家质量监督检验检痊总局中国国家
2、标准化管理委员会发布GB/T 28513-2012 目次前言.I-AEA-AnLnLnLPnv巧i77巧inxunxuRunynyn3nununu1A述描术技集试测频求视需语本基求求uu议手熔的要要建如时读力力uuu-u的=习文u唇征辨辨u求料估者议围附述容标用义和特分分度HH要资评施建E性描内的引定语本间间真时步能证考能实的用料术语般性和语手基时空保延同性验参性端户应啧技手一围范语略现能终用展生-33范规术缩再uuuuuuu性UM对对扩iLUUL123456789附GB/T 28513-2012 目。昌本标准按照GBjT1. 1-2009给出的规则起草。本标准使用重新起草法修改采用ITU-T
3、H. supp1(使用低比特率视频通信的手语和唇读实时会话应用配置)(1999年英文版)。本标准与ITU-TH. supp1(1999年英文版)相比在结构上基本一致,内容上的主要不同点在于采用了中国手语和唇读视频序列和中国手语录制的视频测试内容,而ITU-TH. supp1(1999年英文版)中的相应内容是英文手语和唇读。本标准由中华人民共和国工业和信息化部提出。本标准由中国通信标准化协会归口。本标准起草单位:工业和信息化部电信研究院、黑龙江省牡丹江市特殊教育学校、广州残疾人学院、中国广播电视大学。本标准主要起草人:聂秀英、陈曦、刘建梅、盛敏双、陈守刚、陈建。I GB/T 28513-2012
4、 1 范围使用低比特率视频通信的手语和唇读实时会话应用配置本标准规定使用具有或不具有可读语音的手语和唇读,用于人对人会话的视频通信系统所需要的特性。给出了确保成功的会话所需要的性能要求。描述了对手语和唇读性能评估的方法。本标准建议除了相关的视频编码协议外还应考虑的因素。如终端设计以及用做手语和唇读的终端所使用的环境。包括评估手语的视频通信的视频测试序列。本标准适用于使用具有或不具有可读语音的手语和唇读,用于人对人会话的视频通信系统的研发、生产、应用和验收测试。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新
5、版本(包括所有的修改单)使用于本文件。ITU-T G. 1l4 单向传输时间(One-waytransmission time) ITU-T P. 931 多媒体通信延时、同步和帧速率测量(Multimediacommunications delay, synchro-nization and frame rate measurement) ITU-T T.140 文本会话协议(Protocolfor multimedia application text conversation) 3 术语和定义下列术语和定义适用于本文件。3. 1 帧frame视频再现中的一个完整的图像称为帧。在一些系统中
6、,帧由两个半图像构成,每一个图像包含帧的信息中的一半。将这些半图像成为场。4 缩暗语下列缩略语适用于本文件。CIF Common Interchange Format (352 X 288 pixels) 公共互换格式(352X 288像素)fps frames per second; pict盯esper second 每秒的帧数E每秒图像数QCIF Quarter CIF (176 X 144 pixels) SQCIF Sub QCIF (112 X 96 pixels) VHS Video Home Syetem 四分之一CIF(176X144像素)子QCIF(112X96像素)家用录
7、像系统1 GB/T 28513-2012 5 再现手语和唇读的基本需求5. 1 基本特征手语的构件是手、眼、嘴、脸和身体的运动和位置。在唇读中,构件是脸的运动。通常情况下声音支持唇读。在其他情况下,是手语的组合。也有一些聋人不使用手语而仅仅依靠唇读交谈。在视频编码领域中,具有一个(用手势的)示意者或讲话者的情景可以被认为是包含有中到多的运动内容。5.2 时间分辨力要求手语和唇读均需要好的运动视觉再现。若系统使用均匀分布的图片来再现运动,可以观察到如下一些情况: 当帧速为20fps 时,手语和唇读的可用性为好。 在有某些约束时,可以使用从12fps到更高的帧速。 对于使用唇读进行会话,当帧速不超
8、过15fps时,随着帧速的增加,可用性急剧增加。当帧速高于15fps时,随着帧速的增加,可用性继续增加,但不明显。 当帧速在8fps和12fps之间时,可用性受到很大限制,语义表达能力严重下降。 当帧速低于8fps时,对于唇读和手语没有实际的可用性。5.2. 1 用指语字母交谈或交流手语是一种字母表中的每一个字母对应一个特定于位置的技术。对于不同国家,于语位置是不同的。通过以快速次序显示这些位置以形成词语来实现。这些拼写的词通常是主要手语不包含的名称和其他特定的名词。手语在日常应用情况下速度一般为每秒最多使用10个字符。为可靠再现手语,每个字符至少应再现两个图形。因此,清晰地再现于语需要每秒至
9、少显示20帧图像。5.2.2 一般的手语用指语字母交谈或交流仅是手语的一部分。手语的较大部分是通过标记来表示完整的概念、部分句子、语法和普通的名词。世界上有许多种子语。即使这些手语是不同的,本标准中相关描述将尽可能足够接近公共概念,使本标准对这些于语均有效。同样,在一般的手语期间,快速的手运动同时出现的短的眼睛闪动也携带语法信息。在许多情况下,时间分辨力需要类似于用指语字母交谈或交流需要的那些需求。5.2.3 居读对于唇读的一般图形需求可以从一般语言的音素计算出来。一般速度是每秒10个音素。为使观看者观察到可见的音素,每秒应再现至少20帧图片。5.2.4 适应在唇读和于语的两种情况下,语言再现
10、的速度可以根据意愿适当降低。这就解释了在一些特定情况下可以使用每秒12帧15帧的原因。有经验的唇读者和于语使用者也具有根据以往经验和相关冗余信息猜测出具体语义的能力。对于部分用户而言,可能会在连接上使用比上面所列出的质量要求低一些的短会话。2 GB/T 28513-2012 5.2.5 帧率要求分析对测试序列广播电视速度手语视频需要进一步解释分析。表1给出测试序列广播电视速度手语视频中的用手语交谈或交流序列的近似表示。图1中给出了该序列的图形。表1每秒25帧和12.5盹下以帧表示的用手语交谈或交流举例帧号96 100 105 110 115 25 fps 昕昕昕昕力语语语康康康康康技技技技技l
11、3 主r吃日圭fii 主复复复复复术术术术术12.5 fps 听昕语言i康复悻复技术陆术帧号120 125 130 135 140 25 fps 技技技学学学学学学学是专专专专术术术院院院院院院院12.5 fps 技技学学学是专专术术院院院帧号145 150 25 fps 专专专门门门门12.5 fps 专专门门表1中第一行的数字是序列开始的帧数。文字指示由手语表示的情况。破折号表示在文字之间转换时构成的不清楚的图片。例子中的字是一句话中摘录的一部分听力语言康复技术学院是专门。在每秒2.5帧的情况下,这9个字或词语之中,有2个在一帧中清晰可见,因而可能有丢失的危险。这种情况在编码方案中每隔一帧
12、跳过一帧时出现。在该表的较低一行中给出了12.5fps抽样的情况。该行表明最初的昕力语言康复技术学院是专门语句中仅保留了昕语言康复技术学院是专门。这清楚地表明了在帧率低于20年s时出现的语言内容丢失的情况。在25fps序列中,字或词语的分布情况如下:在1帧中出现的字或词语个数2个;在2帧中出现的字或词语个数0个;在3帧中出现的字或词语个数1个;在4帧中出现的字或词语个数2个;在5帧中出现的字或词语个数1个;在7帧中出现的字或词语个数2个;在8帧中出现的字或词语个数1个。短语中的平均长度是:每个字或词语4.4帧。小结在该例子中,在时间上,语句中的字或词语在1到8帧之间变化,每一帧表示40ms。每
13、一个字母可见的平均长度是4.4帧。该例子没有足够长来表示所有实际的统计结果。然而,这个例子可以表明,该用指语字母交谈或交流25年s的帧率是足够的了,而12.5年s的帧率需要一些猜测才能确定字或词语。3 GB/T 28513-2012 图1包含有用手语交谈或表示每秒25帧记录的词语昕力语言康复技术学院是专门的各帧4 GB/T 28513-2012 图1(续)5 GB/T 28513-2012 图1(续)一般标记视频序列广播电视速度手语视频没有采用指语汉语拼音交谈或表示的符号来标记。通过对其中一个短语进行简单的分析。可将广播电视速度手语视频序列的354和第412帧之间的帧序列短语描述为面向(5)全
14、(3)国(5)招(的收(5)高中(6)毕(6)业(7)生(4)(在圆括号中逐符号地每一标记所占的帧数描述出来)。在该序列中没有一个符号少于2帧,同时没有包含比用指语汉语拼音交谈或表示更快的运动。一些标记包含较大的运动因而对视频编码施加了不同的要求。5.2.6 时间分辨力颗粒在大多数情况下,视频摄像机用于遵循一般的视频标准的视频通信。这意味着,它们每秒钟输出25或30帧。该事实引入了一个有用的帧数速率颗粒度。在使用这类摄像机时,不需要考虑帧速是在12.5 fps和25fps之间或是在15fps和30fps之间。这类中间帧速意味着源图片间隔将分别在40ms 和80ms之间或在33ms和66ms之间
15、变化,这样会引人丢失一些运动细节的危险。因此可得出结论为满足目标帧率每秒20帧的要求,一般摄像机应是每秒25帧或30帧。5.3 空间分辨力要求用于人对人手语通话的空间分辨力要求如下: 可以使用QCIF分辨力,但是将丢失显示眼睛凝视方向的最小细节。这将引起对观察者的额外压力。 CIF较好。从QCIF增加到CIF图像将传达出较完整的语义信息。 对于可靠的接收,SQCIF太粗糙,此时一些标记可能偶尔会被感觉到。若对于图片的不同部分使用不同的分辨力,手和脸将需要最高的分辨力。在这类配置下,需要注意不要在图片的其他部分引人失真,因为这些失真可能会误导观察者。可以进行简单的理论验证。在从头到胃部的视觉范围
16、内,通常在人到人手语通话中,手指近似于图片宽度的1/50。为在图片中可靠地解析手指,应至少使用3个像素来表示手指。将最小空间分辨力要求规定为QCIF,宽度上包含176个像素。在视觉语言上,眼睛凝视方向也很重要并需要较高的分辨力。因而,CIF分辨力较好,建议作为优选选项。GB/T 28513-2012 对于唇读,在人际对话时,视觉范围可以缩小到稍微大于头部范围。在这种情况下,QCIF对于唇读有足够的分辨力。当使用QCIF分辩力时,观察者必须确保在合适的距离观看显示器,这样相对低的分辨力将不会引起额外的语义误差。5.4 保真度在视频通信中,模糊通常出现在运动中。目前描述模糊的模型并没有很好地建立起
17、来。在模糊类型以及其对感觉的影响方面具有较大分歧。因而,本标准仅描述在不同场合下,可接受模糊的简单比较。对手语和唇读,VHS视频能够传达足够完整的语义。在视频记录中,由于人眼的关闭速率通常是从1/50s到1/60s,快速运动客体通常显示出相当客观的模糊。这表明模糊在标记中包含有较大运动的快速运动客体是可以接受的。在具有较明显的运动时,一些模糊可能会偶然被引人。在这类运动期间,空间分辨力不能低于与SQCIF相对应的空间分辨力。对于较为完整的语义表达,当CIF是基本空间分辨力时,偶然引人的模糊不应超过对QCIF分辨力所期望的模糊程度。5.5 延时在会话应用中,从摄像机发送到接收显示的端到端音视频延
18、时长度要求是非常严格的。建议低于0.4 s的值,优选低于0.1s。超过0.8s的值将会使人感到有碍标记会话。对手语和唇读的要求与语音会话要求类似。从一个意愿到期望的反应被看见或听到至少是延时的两倍。ITU-TG. 114所规定的0.4s的限制意味着将响应延时0.8s,该值(0.4s)对于手语及唇读语义理解较长。5.6 同步对于唇读支持的语音,声音和视频的同步要求是必须的。可接受的时间差不应超过100ms。对于可以同时使用语音和唇读的人来说,这两者的组合对语义理解来说是非常有效的。5. 7 性能要求对人际对话的手语和唇读传输的应用,要满足如下一些基本要求: 目标要求z在CIF分辨力下每秒25帧到
19、30帧,最大延时0.4s,偶然的模糊不超过在中等运动情况下QCIF对应的模糊情况。 可接受的:若需要在非常低数据速率环境下工作,具有中等运动情况下应为12fps到15fps , QCIF分辨力,在大的手语运动期间偶尔可降低到对应于SQCIF的分辨力。 保持低于100ms同步误差的同步情况。 端到端的延时应低于0.4s。若不可避免,最高不可超过0.8so 7 GB/T 28513-2012 时间分辨率/fpSSQCIF (112*96 ) QCIF (176*144 ) 好的可用性具有一些限制可用非常有限的可用性空间分辨率CIF ( 352*288) 图2对人际对话中手语和居读的分辨力要求表2由
20、延时和模糊引起的可用性降低情况小结在大运动期间偶然模糊可用性端到端延时对于CIF分辨力对于QCIF分辨力好1. 2 s 下降到SQCIF下降到SQCIF6 性能验证6. 1 参考资料本标准包括两个包含可以用于性能评估的手语视频的DVD-ROM。视频文件广播电视速度手语视频和教学速度手语视频分别给出了采用中国手语录制的包括电视广播手语节目速度和教学用手语速度的测试视频序列。附录A复制了DVD-ROMReadme文件,该文件包含了电子文件的说明和技术描述。6.2 性能评估在一个网络连接上通过利用编解码器或通过可视电话机传输评估情阜来测试编解码器或终端情况。记录结果并评估。评估方法见ITU-TP.
21、931 0 评估标记期间的帧率。标注选择的静态分辨力。8 GB/T 28513-2012 通过将录制的具有图片的帧与分辨力下降到QCIF和SQCIF分辨力的相同场景相比较来测量在中等运动期间引人的额外模糊。仅对手和头部的图像模糊情况进行评估。测量延时。测量音频(语音)和视频(唇运动)的同步。根据这些记录,可以评估性能并与上面描述的目标相比较。7 对终端实施者的建议为满足用户要求,在终端中应实现一些特定功能。 终端应提供与激活的外部告警系统的接口,例如,闪光灯、便携式震动器、手表大小的震荡器或强音发生器。 用户可能有时需要恢复到文本会话。因而建议在终端中实现文本会话协议CITU-TT. 140)
22、。 优选使用帧频大于20fps、延时小于0.4s、以及没有帧跳变跃的编码算法。高帧率自动提供实现合理延时的机会。 在场景变换后,可以接受最大2s的全质量要求偏差。8 对用户的建议用户应安排使用具有好的灯光条件以及一般背景的环境。9 扩展应用范围若设备在视频会议、组播、广播或信息检索中应用于手语或唇读应用,下列因素改变需求。 观看的范围通常较宽,包括打手语的人以及其他客体。表明可用性应在CIF空间分辨力以上。 对于用户而言,通过影响讲话者或打手语的人为控制感觉而给出反馈的可能性很小。 延时要求较为宽松。对于广播和信息检索,可以接受几秒钟的延时。对于会议,延时要求类似于会话应用的相关要求。 对于每
23、一类应用的额外要求超出本标准的范围。9 GB/T 28513-2012 附录A(资料性附录)手语视频测试集技术描述A.1 技术描述本附录包含广播电视速度手语视频和教学速度手语视频两段视频序列的基本技术描述。两段视频序列手语希望用于视频编码的测试集。包含广播电视速度和教学用速度的手语内容。根据文字内容将视频命名为广播电视速度手语视频和教学速度手语视频。它给出了通常用于个人进行手语交流视频而使用的相同的半身像。按25fps以PAL制式进行录制。并以MPEG-2格式提供z教学速度手语视频.mpg (123648 Kbytes) PAL标准分辨力,25fps,MPEG-2编码;广播电视速度手语视频.m
24、pg (58163. 2 Kbytes) PAL标准分辨力,25fps , MPEG-2编码。A.2 手语内容下面是在教学速度手语视频中的两个手语序列的近似表示。数目为从MPEG-2版本的开始的帧的数目。词语表示由于形成相当清晰的词语的时刻。破折号表示在字母之间转换的不清晰的字母。liu 帧编号字母|帧编号字母|帧编号字母|帧编号字母|帧编号字母|6144 6153 6162 6171 u 6180 u 6145 6154 6163 6172 u 6181 u 6146 6155 6164 6173 u 6182 u 6147 6156 6165 6174 u 6183 u 6148 6157
25、 6166 6175 u 6184 u 6149 6158 6167 6176 u 6185 u 6150 6159 6168 6177 u 6186 u 6151 6160 6169 6178 u 6187 u 6152 6161 6170 u 6179 u 6188 u 1 (3)-(7)i(9)-(7)u(1 9) huan 帧编号字母|帧编号字母|帧编号字母|帧编号字母|帧编号字母|6750 h 6760 6770 a 6780 6790 n 6751 h 6761 u 6771 a 6781 6791 n 6752 h 6762 6772 6782 n 6792 n 6753 h 6
26、763 6773 6783 n 6793 n 6754 h 6764 6774 6784 n 6794 n 6755 6765 6775 6785 n 6756 6766 6776 6786 E 10 帧编号字母|帧编号字母|帧编号6757 - I 6767 a I 6777 6758 - I 6768 a I 6778 6759 - I 6769 a I 6779 h(5)-(6)u(1)-(5)a(5)-(10)n(10) 字母|帧编号I 6787 I 6788 I 6789 字母|帧编号n I n I n I GB/T 28513-2012 字母|下面是在广播电视速度手语视频中的两个手语
27、序列的近似表示。数目为从MPEG-2版本的开始的帧的数目。词语表示由于形成相当清晰的词语的时刻。破折号表示在字母之间转换的不清晰的字母。帧编号505 506 507 508 509 510 511 512 513 514 515 516 帧编号96 97 98 99 100 101 102 103 104 105 106 107 词语|帧编号聋I517 聋I518 I 519 I 520 I 521 I 522 I 523 儿I524 儿I525 儿I526 I 527 I 528 词语|帧编号听I108 听I109 昕I110 昕I111 力I113 I 114 语言I115 语言I116
28、语言I117 I 118 A.3 一般的标记内窑聋儿康复医学基础理论课程词语|帧编号词语|帧编号词语|帧编号I 529 - I 541 I 553 康复I530 I 542 - I 554 康复I531 学I 543 - I 555 康复I532 学I 544 k I 556 康复I533 学I 545 理论I557 I 534 I 546 理论I558 I 535 - I 547 - I 559 I 536 - I 548 - I 560 I 537 - I 549 -I 538 基础I550 课| 医I 539 基础I551 课| 医I 540 基础I552 课| 听力语言康复技术学院是专
29、门词语|帧编号词语|帧编号词语|帧编号I 120 技术I132 学院I144 康复I121 技术I133 学院I145 康复I122 技术I134 I 146 康复I123 - I 135 I 147 康复I124 - I 136 - I 148 康复I125 - I 137 I 149 I 126 - . I 138是I150 技术I127 学院I139 - I 151 技术I128 学院I140 专I 152 技术I129 学院I141 专I 153 技术I130 学院I142 专技术I131 学院I143 专词语|课|课|程|程|词语|专|专|专|门|门|门|门|相对于汉语拼音字母,在广
30、播电视速度手语视频视频文件中完全用标记(没有指语字母交谈或表示)来表示。对其中表示的短语,逐标记可描述为面向(5)全(3)国(5)招(6)收(5)高中(6)毕(6)业(7)生(4)(在圆括号中表示每一个标记所占的帧数)。在MPEG-2版本中在第354和第412帧之间找到该序列。NFON|伺-mNH泣。华人民共和国家标准使用低比特率视频道信的手语和唇读实时会话应用配置GB/T 28513-2012 国由t* 中国标准出版社出版发行北京市朝阳区和平里西街甲2号(100013)北京市西城区三里河北街16号(100045)网址总编室,(010)64275323发行中心,(010)51780235读者服务部,(010)68523946中国标准出版社秦皇岛印刷厂印刷各地新华书店经销* 开本880X 1230 1/16 印张1字数23千字2012年10月第一版2012年10月第一次印刷 书号,155066. 1-45679 18.00元如有印装差错由本社发行中心调换版权专有侵权必究举报电话:(010)68510107定价打印H期:2012年11月26日F002