1、 Unin Internacional de TelecomunicacionesUIT-T Serie PSECTOR DE NORMALIZACIN DE LAS TELECOMUNICACIONES DE LA UIT Suplemento 24(10/2005) SERIE P: CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Parmetros que describen la interaccin con sistemas de dilogo oral Recomendaciones
2、 UIT-T de la serie P Suplemento 24 RECOMENDACIONES UIT-T DE LA SERIE P CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Vocabulario y efectos de los parmetros de transmisin sobre la opinin de los clientes Series P.10 Lneas y aparatos de abonado Series P.30 P.300 Patrones de
3、transmisin Series P.40 Aparatos para mediciones objetivas Series P.50 P.500Medidas electroacsticas objetivas Series P.60 Medidas relativas a la sonoridad vocal Series P.70 Mtodos de evaluacin objetiva y subjetiva de la calidad Series P.80 P.800Calidad audiovisual en servicios multimedios Series P.90
4、0 Aspectos de calidad de transmisin y de calidad de servicio en los puntos extremos de redes de protocolo Internet Series P.1000 Para ms informacin, vase la Lista de Recomendaciones del UIT-T. Serie P Suplemento 24 (10/2005) i Suplemento 24 a las Recomendaciones UIT-T de la serie P Parmetros que des
5、criben la interaccin con sistemas de dilogo oral Resumen En el presente Suplemento se define un conjunto de parmetros que pueden extraerse de los servicios basados en sistemas de dilogo oral, a partir de interacciones registradas del usuario (experimental) con el servicio del caso. Estos parmetros c
6、uantifican el flujo de la interaccin, el comportamiento del usuario y del sistema y la calidad de funcionamiento de los dispositivos de tecnologa de voz que participan en la interaccin. Asimismo, facilitan informacin til para el desarrollo, optimizacin y mantenimiento del sistema, y complementan las
7、 opiniones subjetivas sobre la calidad recabadas de conformidad con la Rec. UIT-T P.851. Orgenes El Suplemento 24 a las Recomendaciones UIT-T de la serie P fue aceptado el 21 de octubre de 2005 por la Comisin de Estudio 12 (2005-2008) del UIT-T. Palabras clave Comprensin automtica de voz, evaluacin,
8、 generacin de voz, gestin de dilogo, oral, parmetro de interaccin, reconocimiento automtico de voz, sistema de dilogo tecnologa de voz. ii Serie P Suplemento 24 (10/2005) PREFACIO La UIT (Unin Internacional de Telecomunicaciones) es el organismo especializado de las Naciones Unidas en el campo de la
9、s telecomunicaciones. El UIT-T (Sector de Normalizacin de las Telecomunicaciones de la UIT) es un rgano permanente de la UIT. Este rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomendaciones sobre los mismos, con miras a la normalizacin de las telecomunica-ciones en el p
10、lano mundial. La Asamblea Mundial de Normalizacin de las Telecomunicaciones (AMNT), que se celebra cada cuatro aos, establece los temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendaciones sobre dichos temas. La aprobacin de Recomendaciones por los Miembros
11、del UIT-T es el objeto del procedimiento establecido en la Resolucin 1 de la AMNT. En ciertos sectores de la tecnologa de la informacin que corresponden a la esfera de competencia del UIT-T, se preparan las normas necesarias en colaboracin con la ISO y la CEI. NOTA En esta publicacin, la expresin “A
12、dministracin“ se utiliza para designar, en forma abreviada, tanto una administracin de telecomunicaciones como una empresa de explotacin reconocida de telecomunicaciones. La observancia de esta publicacin es voluntaria. Ahora bien, la publicacin puede contener ciertas disposiciones obligatorias (par
13、a asegurar, por ejemplo, la aplicabilidad o la interoperabilidad), por lo que la observancia se consigue con el cumplimiento exacto y puntual de todas las disposiciones obligatorias. La obligatoriedad de un elemento preceptivo o requisito se expresa mediante las frases “tener que, haber de, hay que
14、+ infinitivo“ o el verbo principal en tiempo futuro simple de mandato, en modo afirmativo o negativo. El hecho de que se utilice esta formulacin no entraa que la observancia se imponga a ninguna de las partes. PROPIEDAD INTELECTUAL La UIT seala a la atencin la posibilidad de que la utilizacin o apli
15、cacin de la presente publicacin suponga el empleo de un derecho de propiedad intelectual reivindicado. La UIT no adopta ninguna posicin en cuanto a la demostracin, validez o aplicabilidad de los derechos de propiedad intelectual reivindicados, ya sea por los miembros de la UIT o por terceros ajenos
16、al proceso de elaboracin de publicaciones. En la fecha de aprobacin de la presente publicacin, la UIT no ha recibido notificacin de propiedad intelectual, protegida por patente, que puede ser necesaria para aplicar esta publicacin. Sin embargo, debe sealarse a los usuarios que puede que esta informa
17、cin no se encuentre totalmente actualizada al respecto, por lo que se les insta encarecidamente a consultar la base de datos sobre patentes de la TSB. UIT 2006 Reservados todos los derechos. Ninguna parte de esta publicacin puede reproducirse por ningn procedimiento sin previa autorizacin escrita po
18、r parte de la UIT. Serie P Suplemento 24 (10/2005) iii NDICE Pgina 1 Alcance . 1 2 Referencias . 1 3 Definiciones 1 4 Abreviaturas, siglas o acrnimos 2 5 Introduccin 3 6 Caractersticas de los parmetros de interaccin 4 7 Descripcin general de los parmetros de interaccin . 4 7.1 Parmetros relacionados
19、 con el dilogo y la comunicacin. 5 7.2 Parmetros relacionados con la metacomunicacin. 7 7.3 Parmetros relacionados con la cooperatividad . 9 7.4 Parmetros relacionados con tareas 10 7.5 Parmetros relacionados con la adquisicin de voz . 12 7.6 Otros parmetros 15 8 Interpretacin de los valores de los
20、parmetros de interaccin 16 BIBLIOGRAFA . 17 Serie P Suplemento 24 (10/2005) 1 Suplemento 24 a las Recomendaciones UIT-T de la serie P Parmetros que describen la interaccin con sistemas de dilogo oral 1 Alcance En el presente Suplemento se describen parmetros que facilitan informacin sobre la interac
21、cin con servicios basados en sistemas de dilogo oral, desde el punto de vista del ingeniero de sistema y del operador de servicios. Los sistemas de dilogo oral objeto de este Suplemento permiten la interaccin mediante lenguaje oral con un usuario humano por la red telefnica funcionando por turnos, y
22、 disponen de funciones de reconocimiento automtico de voz, comprensin de voz, gestin del dilogo, generacin de respuestas y reproduccin de voz. Estos sistemas permiten acceder a informacin almacenada en bases de datos o realizar diferentes tipos de transacciones. Los parmetros que se definen en este
23、documento cuantifican el flujo de interaccin, el comportamiento del usuario y del sistema y la calidad de funcionamiento de los dispositivos de tecnologa de voz que participan en la interaccin. Para extraer todos los parmetros, el sistema de dilogo oral tiene que ser accesible como una caja transpar
24、ente (caja blanca); no obstante, algunos parmetros tambin pueden extraerse considerando el sistema como caja negra, es decir, sin acceder a los distintos componentes que lo integran. La extraccin puede realizarse en parte automticamente y en parte por una persona que escriba y anote las interaccione
25、s en ficheros registros. Los parmetros describen la calidad de funcionamiento del sistema desde la perspectiva del ingeniero de sistemas; por esa razn, contienen informacin complementaria a la que se obtiene mediante los experimentos de evaluacin subjetiva de los sistemas de dilogo oral, que se espe
26、cifican en la Rec.UIT-T P.851. Para mayor informacin sobre los mtodos de evaluacin subjetiva en general y sobre la evaluacin de dispositivos de reproduccin de voz en particular, vanse las Recs. UIT-T P.800 y P.85, as como el Manual de telefonometra. Los parmetros que figuran en este Suplemento no se
27、 aplican especficamente a las degradaciones que pudiera introducir el canal de transmisin. Estos efectos quedan en estudio en la CE 12 del UIT-T. 2 Referencias Recomendacin UIT-T P.85 (1994), Mtodo para la evaluacin subjetiva de la calidad vocal de los dispositivos generadores de voz. Recomendacin U
28、IT-T P.800 (1996), Mtodos de determinacin subjetiva de la calidad de transmisin. Recomendacin UIT-T P.851 (2003), Evaluacin de la calidad subjetiva de los servicios telefnicos basados en sistemas conversacionales. Manual de telefonometra del UIT-T (1992). 3 Definiciones Las definiciones que no apare
29、cen en esta lista figuran en la Rec. UIT-T P.10. 3.1 intervencin: Capacidad de una persona de hablar tras la invitacin o reproduccin del sistema 10. 3.2 dilogo: Conversacin o intercambio de informacin. En el contexto de unidad de evaluacin: uno de los posibles trayectos a travs de la estructura de d
30、ilogo. 3.3 eficiencia: Medida de la precisin y la completitud de las tareas especficas que realiza un sistema con respecto a los recursos empleados por el mismo (por ejemplo, tiempo, intervencin humana). 2 Serie P Suplemento 24 (10/2005) 3.4 intercambio de palabras: Un par de turnos contiguos y rela
31、cionados, en los que cada vez habla una de las partes que intervienen en el dilogo 8. 3.5 funcionalidad: Capacidad del sistema de realizar funciones que satisfacen requisitos estipulados y definidos cuando se emplea en condiciones especficas. 3.6 metacomunicacin: Comunicacin sobre la comunicacin, po
32、r ejemplo para resolver ambigedades (“lo entendiste correctamente?“) o para llegar a un acuerdo sobre la utilizacin del idioma. 3.7 calidad de funcionamiento: Capacidad de una unidad de realizar la funcin para la cual ha sido concebida. 3.8 tecnologa de voz: Disciplina relativa a la investigacin y d
33、esarrollo de sistemas de adquisicin y reproduccin de lenguaje oral, que emplea resultados de otras disciplinas afines tales como la acstica, ingeniera elctrica, estadstica, fontica y procesamiento de lenguaje natural, y que consiste en la especificacin de requisitos, el diseo, la materializacin y ev
34、aluacin del sistema, el procesamiento del corpus y del registro lingstico y la evaluacin del producto desde el punto de vista del usuario 10. 3.9 sistema de dilogo oral: Sistema informtico en el que el usuario humano y dicho sistema interactan por turnos mediante lenguaje oral. 3.10 tarea: Todas las
35、 actividades que debe realizar un usuario para alcanzar un determinado objetivo en un dominio concreto. 3.11 dilogo temtico: Dilogo sobre un tema especfico, destinado a lograr un objetivo explcito (por ejemplo, la resolucin de un problema o la obtencin de informacin concreta) 8. 3.12 transaccin: Par
36、te de un dilogo destinada a una sola tarea de alto nivel (por ejemplo, reservar un viaje o consultar el saldo de una cuenta bancaria). Una transaccin podr tener la misma duracin que un dilogo o bien un dilogo podr consistir en ms de una transaccin 8. 3.13 turno: enunciado. Unidad de conversacin, rec
37、itada por una parte en el dilogo, desde que la parte comienza a hablar hasta que comienza a hablar la siguiente 1. 3.14 enunciado: Vase turno. 4 Abreviaturas, siglas o acrnimos ASR Reconocimiento automtico de la voz (automatic speech recognition) AVM Matriz atributo-valor (attribute-value matrix) AV
38、P Par atributo-valor (attribute-value pair) DARPA Organismo de proyectos de investigacin avanzada para la defensa (Defense Advanced Research Projects Agency) DP Programacin dinmica (dynamic programming) DTMF Multifrecuencia bitono (dual tone multiple frequency) IVR Respuesta vocal interactiva (inter
39、active voice response) MOS Nota media de opinin (mean opinion score) SDS Sistema de dilogo oral (spoken dialogue system) WoZ El mago de Oz (Wizard-of-Oz) Serie P Suplemento 24 (10/2005) 3 5 Introduccin Es posible que los sistemas de dilogo oral (SDS), es decir, los sistemas informticos que admiten l
40、a comunicacin de usuarios humanos en lenguaje oral, por turnos, lleguen a ser parte integral de las redes telefnicas modernas. Estos sistemas permiten acceder a bases de datos y realizar transacciones a travs del aparato telefnico, por ejemplo, obtener informacin sobre horarios de trenes o aviones,
41、movimientos de bolsa, informacin turstica, realizar operaciones en una cuenta bancaria o reservar una habitacin de hotel. A diferencia de los sistemas sencillos de respuesta vocal interactiva (IVR) con entrada DTMF, los sistemas SDS ofrecen una gama completa de capacidades de interaccin de voz, en p
42、articular reconocer la voz del usuario, asignar significado a las palabras reconocidas, decidir cmo continuar el dilogo, formular una respuesta lingstica, y generar una voz destinada al usuario. De este modo se logra una interaccin oral ms o menos “natural“ entre el usuario y el sistema. Para evalua
43、r la calidad de los servicios basados en SDS desde la perspectiva del usuario, la CE 12 del UIT-T elabor la Rec. UIT-T P.851, publicada en 2003, en la que se describen mtodos para realizar experimentos de evaluacin subjetiva con el fin de determinar la calidad desde el punto de vista del usuario, en
44、 los que se considera el SDS como una caja negra. Los experimentos realizados de acuerdo con la Rec. UIT-T P.851 permiten obtener informacin valiosa sobre la calidad que percibe el usuario. Sin embargo, resulta difcil determinar la contribucin de cada componente del sistema a la calidad general que
45、experimenta el usuario, por ejemplo, determinar qu componentes es necesario mejorar en caso de problemas de interaccin. As pues, la evaluacin debera complementarse con informacin relativa a la calidad de funcionamiento del sistema desde el punto de vista del ingeniero de sistemas y del operador del
46、servicio. La informacin sobre el sistema puede describirse mediante los denominados parmetros de interaccin. Estos parmetros ayudan a cuantificar el flujo de la interaccin, el comportamiento del usuario y el sistema y la calidad de funcionamiento de los dispositivos de tecnologa de voz que intervien
47、en en la interaccin. Describen la calidad de funcionamiento del sistema desde el punto de vista del ingeniero de sistemas y del operador del servicio y, por consiguiente, ofrecen informacin complementaria de los datos de evaluacin subjetiva. Para extraer algunos de los parmetros, el sistema de dilog
48、o oral tiene que ser accesible como una caja transparente; no obstante, algunos parmetros tambin pueden extraerse considerando el sistema como una caja negra, es decir, sin acceder por separado a los componentes que lo integran. Este Suplemento se describe un conjunto de parmetros de interaccin que se han venido utilizando en los ltimos 15 aos para evaluar los SDS. Estos parmetros guardan relacin con la comunicacin general de informacin entre el usuario y el sistema, la metacomunicacin en caso de malentendido, la cooperatividad del sistema, las tareas que pueden realizars