ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf

上传人:amazingpat195 文档编号:803128 上传时间:2019-02-04 格式:PDF 页数:19 大小:841.92KB
下载 相关 举报
ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf_第1页
第1页 / 共19页
ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf_第2页
第2页 / 共19页
ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf_第3页
第3页 / 共19页
ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf_第4页
第4页 / 共19页
ITU-T SERIE H SUPP 1 SPANISH-1999 Application profile - Sign language and lip-reading real-time conversation using low bit-rate video communication《应用简介 手语和读唇实时会话使用低比特率视频通信》.pdf_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、 UNIN INTERNACIONAL DE TELECOMUNICACIONES Serie H SECTOR DE NORMALIZACIN DE LAS TELECOMUNICACIONES DE LA UIT Suplemento 1 (05/99) SERIE H: SISTEMAS AUDIOVISUALES Y MULTIMEDIOS Perfil de aplicacin Utilizacin de la comunicacin en vdeo a baja velocidad binaria para la conversacin en tiempo real mediant

2、e el lenguaje de signos y la lectura labial Recomendaciones UIT-T de la serie H Suplemento 1 (Anteriormente Recomendaciones del CCITT) RECOMENDACIONES UIT-T DE LA SERIE H SISTEMAS AUDIOVISUALES Y MULTIMEDIOS Para ms informacin, vase la Lista de Recomendaciones del UIT-T.Caractersticas de los canales

3、 de transmisin para usos distintos de los telefnicos H.10H.19 Utilizacin de circuitos de tipo telefnico para telegrafa armnica H.20H.29 Utilizacin de circuitos o cables telefnicos para transmisiones telegrficas de diversos tipos o transmisiones simultneas H.30H.39 Utilizacin de circuitos de tipo tel

4、efnico para telegrafa facsmil H.40H.49 Caractersticas de las seales de datos H.50H.99 CARACTERSTICAS DE LOS SISTEMAS VIDEOTELEFNICOS H.100H.199 INFRAESTRUCTURA DE LOS SERVICIOS AUDIOVISUALES Generalidades H.200H.219 Multiplexacin y sincronizacin en transmisin H.220H.229 Aspectos de los sistemas H.23

5、0H.239 Procedimientos de comunicacin H.240H.259 Codificacin de imgenes vdeo en movimiento H.260H.279 Aspectos relacionados con los sistemas H.280H.299 Sistemas y equipos terminales para los servicios audiovisuales H.300H.399 Servicios suplementarios para multimedios H.450H.499 Serie H Suplemento 1 (

6、05/99) i SUPLEMENTO 1 A LAS RECOMENDACIONES UIT-T DE LA SERIE H PERFIL DE APLICACIN UTILIZACIN DE LA COMUNICACIN EN VDEO A BAJA VELOCIDAD BINARIA PARA LA CONVERSACIN EN TIEMPO REAL MEDIANTE EL LENGUAJE DE SIGNOS Y LA LECTURA LABIAL Resumen El lenguaje de signos y la lectura labial son dos importante

7、s terrenos de aplicacin de la comunicacin en vdeo. Para transmitir con xito los componentes del lenguaje visual deben satisfacerse algunos requisitos de calidad. El presente Suplemento es un perfil de aplicacin de documento que sirve de base para los requisitos y suministra una orientacin acerca de

8、su cumplimiento. No tiene el propsito de presentar nuevos sistemas de codificacin de vdeo sino indicar de qu manera podran aplicarse con buenos resultados en dichos terrenos los sistemas de codificacin de vdeo actuales y futuros. Orgenes El Suplemento 1 a las Recomendaciones de la serie H del UIT-T

9、ha sido preparado por la Comisin de Estudio 16 (1997-2000) del UIT-T y fue aprobado por el procedimiento de la Resolucin N. 5 de la CMNT el 27 de mayo de 1999. ii Serie H Suplemento 1 (05/99) PREFACIO La UIT (Unin Internacional de Telecomunicaciones) es el organismo especializado de las Naciones Uni

10、das en el campo de las telecomunicaciones. El UIT-T (Sector de Normalizacin de las Telecomunicaciones de la UIT) es un rgano permanente de la UIT. Este rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomendaciones sobre los mismos, con miras a la normalizacin de las teleco

11、municaciones en el plano mundial. La Conferencia Mundial de Normalizacin de las Telecomunicaciones (CMNT), que se celebra cada cuatro aos, establece los temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendaciones sobre dichos temas. La aprobacin de Recomendac

12、iones por los Miembros del UIT-T es el objeto del procedimiento establecido en la Resolucin N. 1 de la CMNT. En ciertos sectores de la tecnologa de la informacin que corresponden a la esfera de competencia del UIT-T, se preparan las normas necesarias en colaboracin con la ISO y la CEI. NOTA En esta

13、publicacin, la expresin empresa de explotacin reconocida (EER) designa a toda persona, compaa, empresa u organizacin gubernamental que explote un servicio de correspondencia pblica. Los trminos Administracin, EER y correspondencia pblica estn definidos en la Constitucin de la UIT (Ginebra, 1992). PR

14、OPIEDAD INTELECTUAL La UIT seala a la atencin la posibilidad de que la utilizacin o aplicacin de la presente publicacin suponga el empleo de un derecho de propiedad intelectual reivindicado. La UIT no adopta ninguna posicin en cuanto a la demostracin, validez o aplicabilidad de los derechos de propi

15、edad intelectual reivindicados, ya sea por los miembros de la UIT o por terceros ajenos al proceso de elaboracin de publicaciones. En la fecha de aprobacin de la presente publicacin, la UIT ha recibido notificacin de propiedad intelectual, protegida por patente, que puede ser necesaria para aplicar

16、esta publicacin. Sin embargo, debe sealarse a los usuarios que puede que esta informacin no se encuentre totalmente actualizada al respecto, por lo que se les insta encarecidamente a consultar la base de datos sobre patentes de la TSB. UIT 1999 Es propiedad. Ninguna parte de esta publicacin puede re

17、producirse o utilizarse, de ninguna forma o por ningn medio, sea ste electrnico o mecnico, de fotocopia o de microfilm, sin previa autorizacin escrita por parte de la UIT. Serie H Suplemento 1 (05/99) iii NDICE Pgina 1 Alcance . 1 2 Abreviaturas 1 3 Definiciones 1 4 Referencias 1 5 Necesidades bsica

18、s para la reproduccin del lenguaje de signos y la lectura labial . 2 5.1 Caractersticas bsicas 2 5.2 Requisitos de resolucin temporal 2 5.2.1 Alfabeto dactilolgico . 2 5.2.2 Lenguaje de signos general 3 5.2.3 Lectura labial . 3 5.2.4 Adaptacin. 3 5.2.5 Anlisis del requisito de velocidad de cuadros 3

19、 5.2.6 Granularidad de la resolucin temporal. 6 5.3 Requisitos de resolucin espacial . 6 5.4 Fidelidad . 7 5.5 Retardo 7 5.6 Sincronizacin 7 5.7 Conclusiones sobre los requisitos de calidad de funcionamiento. 8 6 Comprobacin de la calidad de funcionamiento. 9 6.1 Material de referencia . 9 6.2 Evalu

20、aciones de la calidad de funcionamiento . 9 7 Consejo a los diseadores de terminales. 9 8 Consejo al usuario. 10 9 Ampliacin del alcance. 10 Apndice I Declaracin de derechos de autor y descripcin tcnica del material de prueba del Suplemento 1 a las Recomendaciones de la serie H . 10 I.1 Copyright 10

21、 I.2 Servicios de apoyo 10 I.3 Detalles de la secuencia en vdeo 11 CD-ROM incluido: Videosecuencia “Irene“ iv Serie H Suplemento 1 (05/99) Introduccin Millones de sordos emplean el lenguaje de signos como su primer idioma y estn ansiosos por poder utilizarlo en las conversaciones a larga distancia.

22、La velocidad de conversacin en el lenguaje de signos es comparable a la de la conversacin vocal. Las personas con diferente grado de insuficiencia auditiva pueden adquirir muy buenos indicios para “percibir“ la conversacin observando el rostro del que habla e interpretando el movimiento de sus labio

23、s. El presente Suplemento describe la importancia de diferentes factores que deben tenerse en cuenta en la aplicacin de una codificacin de vdeo a baja velocidad binaria para su utilizacin adecuada en el lenguaje de signos y la lectura labial. Los requisitos mencionados en este Suplemento se elaborar

24、on experimentalmente con usuarios y no deberan considerarse valores fijos o absolutos. En diferentes situaciones, las exigencias pueden ser tanto mayores como menores. Serie H Suplemento 1 (05/99) 1 Suplemento 1 a las Recomendaciones de la serie H PERFIL DE APLICACIN UTILIZACIN DE LA COMUNICACIN EN

25、VDEO A BAJA VELOCIDAD BINARIA PARA LA CONVERSACIN EN TIEMPO REAL MEDIANTE EL LENGUAJE DE SIGNOS Y LA LECTURA LABIAL (Ginebra, 1999) 1 Alcance El presente perfil de aplicacin para el lenguaje de signos y la lectura labial suministra las caractersticas necesarias de un sistema de comunicacin en vdeo p

26、ara la conversacin de persona a persona mediante el lenguaje de signos y la interpretacin del movimiento de los labios, acompaado o no de lenguaje articulado audible. Establece requisitos de calidad de funcionamiento que es importante satisfacer para asegurar que la conversacin tenga xito. Describe

27、cmo puede evaluarse la calidad de funcionamiento para el lenguaje de signos y la lectura labial. Sugiere los factores que han de manejarse externamente respecto del protocolo de codificacin de vdeo en el diseo del terminal, as como el entorno en el que se utilizan los terminales para el lenguaje de

28、signos y la lectura labial. Este Suplemento incluye la secuencia de prueba “Irene“ para la evaluacin de la comunicacin en vdeo para el lenguaje de signos. 2 Abreviaturas En este Suplemento se utilizan las siguientes siglas. CIF Formato de intercambio comn (352 288 pxels) (common interchange format)

29、fps Cuadros por segundo; imgenes por segundo (frames per second; pictures per second) QCIF Cuarto de CIF (176 144 pxels) (quarter CIF) SQCIF Sub QCIF (112 96 pxels) 3 Definiciones En este Suplemento se define el termino siguiente. 3.1 cuadro: Una imagen completa reproducida en vdeo se llama un “cuad

30、ro“. En algunos sistemas, los cuadros estn constituidos por dos medias imgenes, en que cada una contiene la mitad de la informacin de los cuadros. Estas medias imgenes se denominan campos. 4 Referencias 1 HELLSTRM, DELEVERT, REVELIUS; Quality requirements on Videotelephony for Sign Language, Swedish

31、 National Association of the Deaf, 1997. 2 Recomendacin UIT-T G.114 (1996), Tiempo de transmisin en un sentido. 2 Serie H Suplemento 1 (05/99) 3 FROWEIN; Improved speech reception through videotelephony, IEEE journal on Selected Areas in Communication, mayo de 1991. 4 Recomendacin UIT-T P.931 (1998)

32、, Retardo de las comunicaciones multimedios, sincronizacin y medicin de la velocidad de tramas. 5 Necesidades bsicas para la reproduccin del lenguaje de signos y la lectura labial 5.1 Caractersticas bsicas Los componentes expresivos del lenguaje de signos son movimientos y posiciones de las manos, l

33、os ojos, la boca, el rostro y el cuerpo. En la interpretacin del movimiento de los labios, los componentes son los movimientos del rostro. Frecuentemente la lectura de los labios se apoya mediante la voz. En otros casos, se combina con el lenguaje de signos. Hay tambin personas con formas pronunciad

34、as de sordera que no usan el lenguaje de signos y dependen por completo en la conversacin de la interpretacin del movimiento de los labios. A los efectos de la codificacin de vdeo, se considera que la escena en que una persona habla con signos o articula palabras presenta una cantidad mediana de mov

35、imiento, que puede llegar a ser bastante grande. 5.2 Requisitos de resolucin temporal Tanto el lenguaje de signos como el labial requieren una buena reproduccin de los gestos. Suponiendo que un sistema reproduce los gestos mediante imgenes distribuidas uniformemente, han de observarse las siguientes

36、 condiciones: El lenguaje de signos y la lectura labial se consideran practicables a 20 cuadros por segundo (fps, frames per second) 1, 3. Dentro de ciertos lmites, es posible utilizar una velocidad de cuadros de 12 fps o mayor 1. Para la lectura labial, un aumento constante de la capacidad de uso s

37、e observa al aumentar la velocidad de cuadros hasta 15. Despus de 15 fps, el incremento prosigue pero de manera menos pronunciada 3. Se ha observado cierto grado de practicabilidad entre 8 y 12 fps, pero con una fuerte degradacin perceptiva o de velocidad. Por debajo de 8 fps, el lenguaje labial o d

38、e signos no es practicable. 5.2.1 Alfabeto dactilolgico Los requisitos de resolucin temporal para el lenguaje de signos pueden ilustrarse con el ejemplo del alfabeto dactilolgico. El alfabeto dactilolgico es una tcnica por la cual cada letra del alfabeto corresponde a una posicin particular de la ma

39、no. Las posiciones en el alfabeto dactilolgico varan segn los pases. La comunicacin tiene lugar presentando dichas posiciones en una rpida secuencia, para formar palabras. Las palabras as deletreadas son generalmente nombres propios y otras expresiones que los signos generales del lenguaje de signos

40、 no abarcan. El alfabeto dactilolgico es muy rpido y puede llegar hasta 10 letras por segundo. Para una reproduccin fiable, deberan reproducirse por lo menos dos imgenes por letra. Dicho de otro modo, puede concluirse que la reproduccin legible del alfabeto dactilolgico requiere por lo menos 20 cuad

41、ros por segundo. Serie H Suplemento 1 (05/99) 3 5.2.2 Lenguaje de signos general El alfabeto dactilolgico es slo una parte del lenguaje de signos. La mayor parte del lenguaje de signos est constituida por signos que representan conceptos completos, partes de frases, relaciones gramaticales y nombres

42、 comunes. Hay muchos lenguajes de signos en el mundo. Incluso siendo diferentes, los conceptos comunes son bastantes similares como para que las ideas de este Suplemento sean vlidas para todos ellos. Tambin en el curso del lenguaje de signos general tienen lugar rpidos movimientos de la mano y breve

43、s parpadeos de los ojos que transmiten informacin de carcter gramatical. En muchos casos, los requisitos de resolucin temporal son similares a los del lenguaje dactilolgico. 5.2.3 Lectura labial Una cuantificacin aproximada de los requisitos para la interpretacin del movimiento de los labios puede c

44、alcularse a partir de la velocidad de fonemas en el lenguaje corriente. Una velocidad normal es 10 fonemas por segundo. Para poder percibirlos en el lenguaje visual, deberan reproducirse por lo menos a 20 imgenes por segundo de la secuencia. 5.2.4 Adaptacin Tanto en el caso del lenguaje labial como

45、de signos, la velocidad de la produccin de lenguaje puede disminuirse un poco a voluntad. Esto explica por qu es posible a veces utilizar una velocidad de 12 a 15 cuadros por segundo. Los que estn habituados a la lectura labial y al lenguaje de signos consiguen captar el sentido basndose en sus expe

46、riencias anteriores y la repeticin de los gestos. Esto hace posible que algunos usuarios puedan efectuar breves conversaciones por conexiones de menor calidad que los requisitos antes mencionados. 5.2.5 Anlisis del requisito de velocidad de cuadros Un anlisis de la secuencia de prueba “Irene“ explic

47、a ms en detalle las necesidades. Lenguaje dactilolgico El cuadro 1 muestra una representacin aproximada de una secuencia en alfabeto dactilolgico en la secuencia de prueba “Irene“. Las imgenes correspondientes a esta secuencia se reproducen en la figura 1. Cuadro 1 Ejemplo de representacin dactilolg

48、ica en cuadros a 25 y 12,5 cuadros por segundo cuadro N. 308 310 315 320 325 330 335336 25 fps e e e d s s s s v v v i k k k e n n n n n n n 12,5 fps e s s v k k e n n n Las cifras de la primera fila corresponden a los nmeros de cuadro desde el comienzo de la secuencia. Las letras indican las situaciones en que las letras se expresan claramente mediante gestos de la mano. El guin indica que no se ha formado ninguna letra clara, como transicin entre letras. La palabra en cuestin es “Edsviken“, nombre de una localidad. De estas ocho letras, tres pue

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国际标准 > 其他

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1