ITU-T P 85 SPANISH-1994 A METHOD FOR SUBJECTIVE PERFORMANCE ASSESSMENT OF THE QUALITY OF SPEECH VOICE OUTPUT DEVICES《语音输出设备质量的主观性能评定方法电话传输质量主观意见的测试 12号研究组 13pp》.pdf

资源描述

1、UNIN INTERNACIONAL DE TELECOMUNICACIONESUIT-T P.85SECTOR DE NORMALIZACIN (06/94)DE LAS TELECOMUNICACIONESDE LA UITCALIDAD DE TRANSMISIN TELEFNICAPRUEBAS SUBJETIVAS DE OPININMTODO PARA LA EVALUACIN SUBJETIVADE LA CALIDAD VOCAL DE LOSDISPOSITIVOS GENERADORES DE VOZRecomendacin UIT-T P.85(Anteriormente

2、 Recomendacin del CCITT)PREFACIOEl UIT-T (Sector de Normalizacin de las Telecomunicaciones) es un rgano permanente de la Unin Internacional deTelecomunicaciones (UIT). Este rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomen-daciones sobre los mismos, con miras a la norm

3、alizacin de las telecomunicaciones en el plano mundial.La Conferencia Mundial de Normalizacin de las Telecomunicaciones (CMNT), que se celebra cada cuatro aos,establece los temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendacionessobre dichos temas.La aprob

4、acin de Recomendaciones por los Miembros del UIT-T es el objeto del procedimiento establecido en laResolucin n. 1 de la CMNT (Helsinki, 1 al 12 de marzo de 1993).La Recomendacin UIT-T P.85 ha sido revisada por la Comisin de Estudio 12 (1993-1996) del UIT-T y fue aprobadapor el procedimiento de la Re

5、solucin N. 1 de la CMNT el 21 de junio de 1994._NOTAEn esta Recomendacin, la expresin Administracin se utiliza para designar, en forma abreviada, tanto unaadministracin de telecomunicaciones como una empresa de explotacin reconocida de telecomunicaciones. UIT 1994Es propiedad. Ninguna parte de esta

6、publicacin puede reproducirse o utilizarse, de ninguna forma o por ningn medio,sea ste electrnico o mecnico, de fotocopia o de microfilm, sin previa autorizacin escrita por parte de la UIT.NDICERecomendacin P.85 (06/94)Pgina1 Alcance. 12 Mtodo de evaluacin 12.1 Generalidades . 12.2 Caractersticas es

7、enciales del mtodo recomendado. 13 Preparacin de la prueba 23.1 Estmulos 23.2 Fuentes 23.3 Preparacin de los estmulos. 24 Esquema experimental . 24.1 Tarea de los participantes . 24.2 Escalas de notacin. 24.3 Diseo del experimento 24.4 Procedimiento de prueba de escucha 35 Anlisis estadstico y prese

8、ntacin de resultados. 36 Otros mtodos 4Anexo A Mensajes . 4Anexo B Hojas de respuestas . 5Anexo C Evaluacin de voz sintetizada: instrucciones de escucha 8Referencias 9Bibliografa 9Recomendacin P.85 (06/94) i SUMARIODiversos servicios que proporcionan respuestas vocales en relacin con peticiones de i

9、nformacin de la gua telefnica,previsiones meteorolgicas, pedidos por correo, etc., estn actualmente disponibles para los usuarios de la RTPCutilizando dispositivos generadores de voz. Como los mensajes vocales son producidos por aparatos, pueden sufriralguna degradacin.En la presente Recomendacin se

10、 define un mtodo para la evaluacin de las caractersticas subjetivas de la calidad de lavoz de los dispositivos generadores de voz. Este mtodo permite comparar varios sistemas entre s. Ser de utilidad paralos diseadores de sistemas y proveedores de servicios a efectos de comprobar la calidad de sus p

11、roductos.Este mtodo es el del tipo de prueba de audicin. Los mensajes se presentan oralmente a los participantes. Losparticipantes expresan su opinin en una o ms escalas de evaluacin despus de haber respondido a preguntas concretassobre la informacin contenida en los mensajes. Los resultados son med

12、idas de la calidad percibida en varios aspectos,lo que hace posible comparar la efectividad de los diferentes sistemas de sntesis de voz.ii Recomendacin P.85 (06/94) Recomendacin P.85Recomendacin P.85 (06/94)MTODO PARA LA EVALUACIN SUBJETIVA DE LA CALIDAD VOCALDE LOS DISPOSITIVOS GENERADORES DE VOZ(

13、Ginebra, 1994)1 AlcanceLos dispositivos generadores de voz son en la actualidad accesibles para los usuarios de la red telefnica pblicaconmutada. Estos dispositivos hacen uso, bien de anuncios almacenados o de voz sintetizada. La voz sintetizada puedeser producida a partir de segmentos de voz almace

14、nados, tales como palabras, slabas o fonemas; y puede tambin serelaborada por una sntesis mediante reglas, por ejemplo una sntesis de formativas. En todos los casos de procesamientode la seal, tales como la compresin digital de la seal, junto con procesamientos del sonido tales como laconcatenacin d

15、e segmentos y las variaciones de entonacin, intensidad y duracin de los segmentos, se pueden producirdegradaciones perceptibles en la voz.Esta Recomendacin, basada en la Recomendacin P.80 y en experimentos concretos 1, 2, 3, define un mtodo deprueba para evaluar la calidad subjetiva de la voz sintet

16、izada. Puede ser necesaria alguna adaptacin del mtodo, enfuncin de las particularidades del sistema a evaluar.El mtodo considera tanto las caractersticas de los usuarios como sus reacciones y sus opiniones. Las opiniones yreacciones se evalan utilizando escalas mltiples.La presente Recomendacin cubr

17、e tanto las caractersticas globales del sistema como la aplicacin a tareas especficas.El Anexo A presenta dos ejemplos de aplicacin.La finalidad de la Recomendacin consiste en describir un mtodo que permite obtener la evaluacin global, por parte delos usuarios, de la calidad acstica de los dispositi

18、vos generadores de voz. Los procedimientos para la evaluacinespecfica de los componentes de los sistemas de sntesis de voz a partir de texto (por ejemplo, las unidades detranscripcin fontica del texto) estn actualmente en estudio.2 Mtodo de evaluacin2.1 GeneralidadesLos mtodos recomendados para eval

19、uar la calidad de la voz en telefona, descritos en la Recomendacin P.80 y en 2.5(Pruebas de opinin) de la 2. edicin del Manual de Telefonometra 4, pueden aplicarse para la evaluacin de la vozsintetizada. El uso de las escalas de opinin mltiples mejora la descripcin de la percepcin en la escucha. Dad

20、o que lavoz sintetizada puede necesitar algn esfuerzo para ser comprendida, la prueba se disea de tal forma que losparticipantes deban prestar atencin a la informacin contenida en los mensajes antes de expresar sus opiniones.2.2 Caractersticas esenciales del mtodo recomendadoDurante una prueba de au

21、dicin se presentar oralmente una serie de fuentes de voz diferentes, de tal manera que lasopiniones subjetivas relativas a una fuente dada puedan obtenerse en relacin con las otras fuentes. Las fuentes serntanto sistemas sintetizados como condiciones de referencia (voz natural con alguna degradacin

22、calibrada o sistemas desntesis conocidos).Se pide la opinin de los participantes usando una o ms de las escalas de opinin de cinco puntos, como en los mtodosde evaluacin por categoras absolutas (ACR, absolute category rating) o evaluacin por categoras de degradacin(DCR, degradation category rating)

23、de la Recomendacin P.80. Adems de la escala de calidad global, se pueden usarotras escalas de esfuerzo de escucha, agrado, etc.Los mensajes transmitidos por los sistemas deben estar relacionados con las aplicaciones prcticas. Aplicacionesdiferentes requerirn distintas sesiones de pruebas.Cada mensaj

24、e se presenta dos veces. Durante la primera escucha los partipantes contestan a cuestiones especficasacerca de la informacin contenida en el mensaje; durante la segunda escucha, los participantes juzgan la calidad de lavoz expresando su opinin en una o ms escalas de notacin.Recomendacin P.85 (06/94)

25、 1 3 Preparacin de la prueba3.1 EstmulosLos mensajes deben ser lo suficientemente largos para que los participantes tengan tiempo de reproducir el contenidoesencial en la primera hoja de respuesta, dando tambin su opinin usando las escalas de notacin de la segunda hoja derespuesta. Se recomienda que

26、 la duracin de cada mensaje est comprendida entre 10 y 30 segundos.Cada mensaje consiste de una parte fija, que es especfica de la tarea, y de una parte variable que es diferente entre paresde presentacin. Los mensajes deben estar diseados de tal manera que la prediccin de la parte variable no difie

27、rasignificativamente de un mensaje a otro. En el Anexo A se muestran algunos ejemplos de dichos mensajes. Puedenutilizarse otras muestras con diferentes grados de dificultad (sonidos fuertes de corto tiempo de duracin).3.2 FuentesSe recomienda el uso, si es posible, de al menos cinco fuentes diferen

28、tes, dependiendo de los sistemas a probar, de lasaplicaciones implicadas y del plan experimental utilizado. Se recomienda que al menos una de las fuentes a utilizar sea lavoz natural (hombre o mujer segn los sistemas de pruebas). La(s) voz(voces) natural(es), degradada(s) con ruidomultiplicativo con

29、forme a la Recomendacin P.81 (vase B.2.3/P.80, condiciones de referencia, debe(n) utilizarsecomo condiciones de referencia. Sin embargo, existen investigaciones en curso que parecen indicar que otrasdegradaciones, tales como el T-Reference System 6 o la degradacin en tiempo y frecuencia (TFW, time a

30、ndfrequence warping), podran ser ms adecuadas para la evaluacin de voces sintetizadas 7.3.3 Preparacin de los estmulosEsta suclusula es la misma que B.1/P.80 (registro de las fuentes), excepto que se debe utilizar un micrfono con unarespuesta plana en frecuencia para el registro de la voz natural.4

31、Esquema experimental4.1 Tarea de los participantesLos participantes reciben las hojas de respuesta con las instrucciones que describen la prueba. Se les pide que usen doshojas por mensaje: una hoja para reproducir la informacin contenida en el mensaje y la otra para recoger las respuestasde los part

32、icipantes en una o varias escalas de opinin.4.2 Escalas de notacinLas escalas de notacin recomendadas son: impresin global (cuestionarios de tipo I y de tipo Q) esfuerzo en la escucha dificultad de comprensin nitidez(cuestionarios de tipo I) pronunciacin velocidad al hablar agrado de la voz(cuestion

33、arios de tipo Q) aceptacin (cuestionarios de tipo I y de tipo Q)El texto de las cuestiones y los grados de las escalas se muestran en el Anexo B.4.3 Diseo del experimento4.3.1 Se utilizarn cuadrados greco-latinos (GL, graeco-latin squares) si el nmero de fuentes es suficiente, es deciral menos siete

34、 Los cuatro factores son los siguientes: fuente , mensaje, orden de presentacin, grupo de participantes.4.3.2 En cada sesin, los mensajes se refieren a una sola aplicacin. Mtodos similares aunque diferentes debenutilizarse para las rplicas que sean necesarias.2 Recomendacin P.85 (06/94) 4.3.3 No de

35、be reutilizarse un mensaje que ya haya sido escuchado dos veces.4.3.4 Si se utilizan todas las escalas, se dividir una sesin en dos bloques, uno de ellos corresponder a uncuestionario del tipo I y el otro a un cuestionario del tipo Q (vase el Anexo B). Si se utilizan cuadrados greco-latinos, seorgan

36、izar cada uno de los dos bloques de una sesin conforme a dos cuadrados greco-latinos diferentes.4.3.5 Una prueba puede estar constituida por una o varias sesiones. Antes de las sesiones de prueba propiamentedichas, deber preverse una sesin de aprendizaje. En esta sesin de aprendizaje, deben presenta

37、rse al menos seismensajes emitidos por fuentes lo suficientemente diferentes para cubrir el rango de calidad encontrado en la prueba.4.3.6 Si se utilizan cuadrados greco-latinos, el nmero de participantes ser al menos cuatro veces la dimensin delas cuadrados. En otras palabras, el nmero de participa

38、ntes de un grupo ser al menos igual a cuatro.4.3.7 El intervalo de tiempo tpico entre dos presentaciones de un mismo mensaje puede ser ocho segundos, y20 segundos de separacin entre pares de mensajes diferentes. Sin embargo, depender de la duracin de los mensajes deprueba.4.3.8 La duracin total de l

39、a prueba para los participantess puede durar de 40 a 60 minutos, incluyendo lasinstrucciones, aprendizaje y pausas.4.3.9 Si se utilizan voces naturales, una de ellas se incluir en las sesiones de aprendizaje.4.4 Procedimiento de prueba de escucha4.4.1 Condiciones de escucha Las mismas del B.4.1/P.80

40、4.4.2 Sistema de escucha El mismo del B.4.2/P.80.Todas las fuentes se someten al mismo filtro paso banda (en funcin de las condiciones previstas para la aplicacin, porejemplo de 300 Hz a 3400 Hz).4.4.3 Nivel de escucha El objetivo debe ser que los mensajes sean presentados al nivel preferido para l

41、a vozsintetizada. Si no se conoce, se debe usar el nivel preferido para la voz codificada (79 dB/SPL, 15 dB/Pa, vase 2.5.8.1de la nueva versin del Manual de Telefonometra). Si fuese posible, se deberan presentar uno o ms bloques de pruebaa los mismos participantes en dos niveles adicionales, uno por

42、 encima y otro por debajo del nivel preferido.4.4.4 Personas que escuchan Las mismas de B.4.4/P.80.4.4.5 Instrucciones para los sujetos El Anexo C da un ejemplo de instrucciones a los participantes. Lasinstrucciones deben estar en forma escrita. Asimismo, pueden ser presentadas verbalmente, utilizan

43、do preferentementeuna cinta.5 Anlisis estadstico y presentacin de resultadosSe recomienda presentar los resultados en forma de histogramas y/o de distribuciones acumulativas para cada escala deopinin.Para efectuar comparaciones entre diferentes fuentes, se recomienda elaborar las distribuciones acum

44、ulativas de cadauna de las fuentes (un diagrama por escala) (Figura 1).Se pueden tambin calcular, para la escala de impresin global y para la escala de esfuerzo de escucha, las notas mediasde opinin (MOS, mean opinion score) de cada fuente para cada tipo de mensaje. Un anlisis de la varianza y prueb

45、as decomparacin mltiple de diferencias enteramente significativas (HSD, honestly significant difference) deberanefectuarse para cada MOS calculado.No existe un mtodo recomendado para el anlisis de las respuestas acerca de la informacin contenida en los mensajes.Sin embargo, puede ser posible obtener

46、 algunas conclusiones si la calidad (por ejemplo, porcentajes de respuestascorrectas) para una fuente en particular es significativamente inferior a las otras.Los resultados de aceptacin deben darse como porcentajes.Los resultados de las sesiones de aprendizaje no sern considerados.Recomendacin P.85

47、 (06/94) 3 T1205380-93/d0112345050100MOS%acumuladoFIGURA 1/P.85MOS: distribuciones acumulativas6 Otros mtodosPara evaluar cuantitativamente la inteligibilidad global de un sistema de sntesis a partir del texto TTS, text-to-speech,resulta especialmente indicado proceder a pruebas a nivel de frases. Una prueba de este tipo ha sido diseada en elmarco de un proyecto europeo destinado a la evaluacin multilinge de la sntesis y del reconocimiento de la voz (EspritSAM Pr

展开阅读全文

ITU-T P 85 SPANISH-1994 A METHOD FOR SUBJECTIVE PERFORMANCE ASSESSMENT OF THE QUALITY OF SPEECH VOICE OUTPUT DEVICES《语音输出设备质量的主观性能评定方法 电话传输质量 主观意见的测试 12号研究组 13pp》.pdf

ITU-T P 85 SPANISH-1994 A METHOD FOR SUBJECTIVE PERFORMANCE ASSESSMENT OF THE QUALITY OF SPEECH VOICE OUTPUT DEVICES《语音输出设备质量的主观性能评定方法电话传输质量主观意见的测试 12号研究组 13pp》.pdf