ImageVerifierCode 换一换
格式:PDF , 页数:13 ,大小:87.75KB ,
资源ID:800678      下载积分:10000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-800678.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(ITU-T P 85 SPANISH-1994 A METHOD FOR SUBJECTIVE PERFORMANCE ASSESSMENT OF THE QUALITY OF SPEECH VOICE OUTPUT DEVICES《语音输出设备质量的主观性能评定方法 电话传输质量 主观意见的测试 12号研究组 13pp》.pdf)为本站会员(testyield361)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

ITU-T P 85 SPANISH-1994 A METHOD FOR SUBJECTIVE PERFORMANCE ASSESSMENT OF THE QUALITY OF SPEECH VOICE OUTPUT DEVICES《语音输出设备质量的主观性能评定方法 电话传输质量 主观意见的测试 12号研究组 13pp》.pdf

1、UNIN INTERNACIONAL DE TELECOMUNICACIONESUIT-T P.85SECTOR DE NORMALIZACIN (06/94)DE LAS TELECOMUNICACIONESDE LA UITCALIDAD DE TRANSMISIN TELEFNICAPRUEBAS SUBJETIVAS DE OPININMTODO PARA LA EVALUACIN SUBJETIVADE LA CALIDAD VOCAL DE LOSDISPOSITIVOS GENERADORES DE VOZRecomendacin UIT-T P.85(Anteriormente

2、 Recomendacin del CCITT)PREFACIOEl UIT-T (Sector de Normalizacin de las Telecomunicaciones) es un rgano permanente de la Unin Internacional deTelecomunicaciones (UIT). Este rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomen-daciones sobre los mismos, con miras a la norm

3、alizacin de las telecomunicaciones en el plano mundial.La Conferencia Mundial de Normalizacin de las Telecomunicaciones (CMNT), que se celebra cada cuatro aos,establece los temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendacionessobre dichos temas.La aprob

4、acin de Recomendaciones por los Miembros del UIT-T es el objeto del procedimiento establecido en laResolucin n. 1 de la CMNT (Helsinki, 1 al 12 de marzo de 1993).La Recomendacin UIT-T P.85 ha sido revisada por la Comisin de Estudio 12 (1993-1996) del UIT-T y fue aprobadapor el procedimiento de la Re

5、solucin N. 1 de la CMNT el 21 de junio de 1994._NOTAEn esta Recomendacin, la expresin Administracin se utiliza para designar, en forma abreviada, tanto unaadministracin de telecomunicaciones como una empresa de explotacin reconocida de telecomunicaciones. UIT 1994Es propiedad. Ninguna parte de esta

6、publicacin puede reproducirse o utilizarse, de ninguna forma o por ningn medio,sea ste electrnico o mecnico, de fotocopia o de microfilm, sin previa autorizacin escrita por parte de la UIT.NDICERecomendacin P.85 (06/94)Pgina1 Alcance. 12 Mtodo de evaluacin 12.1 Generalidades . 12.2 Caractersticas es

7、enciales del mtodo recomendado. 13 Preparacin de la prueba 23.1 Estmulos 23.2 Fuentes 23.3 Preparacin de los estmulos. 24 Esquema experimental . 24.1 Tarea de los participantes . 24.2 Escalas de notacin. 24.3 Diseo del experimento 24.4 Procedimiento de prueba de escucha 35 Anlisis estadstico y prese

8、ntacin de resultados. 36 Otros mtodos 4Anexo A Mensajes . 4Anexo B Hojas de respuestas . 5Anexo C Evaluacin de voz sintetizada: instrucciones de escucha 8Referencias 9Bibliografa 9Recomendacin P.85 (06/94) i SUMARIODiversos servicios que proporcionan respuestas vocales en relacin con peticiones de i

9、nformacin de la gua telefnica,previsiones meteorolgicas, pedidos por correo, etc., estn actualmente disponibles para los usuarios de la RTPCutilizando dispositivos generadores de voz. Como los mensajes vocales son producidos por aparatos, pueden sufriralguna degradacin.En la presente Recomendacin se

10、 define un mtodo para la evaluacin de las caractersticas subjetivas de la calidad de lavoz de los dispositivos generadores de voz. Este mtodo permite comparar varios sistemas entre s. Ser de utilidad paralos diseadores de sistemas y proveedores de servicios a efectos de comprobar la calidad de sus p

11、roductos.Este mtodo es el del tipo de prueba de audicin. Los mensajes se presentan oralmente a los participantes. Losparticipantes expresan su opinin en una o ms escalas de evaluacin despus de haber respondido a preguntas concretassobre la informacin contenida en los mensajes. Los resultados son med

12、idas de la calidad percibida en varios aspectos,lo que hace posible comparar la efectividad de los diferentes sistemas de sntesis de voz.ii Recomendacin P.85 (06/94) Recomendacin P.85Recomendacin P.85 (06/94)MTODO PARA LA EVALUACIN SUBJETIVA DE LA CALIDAD VOCALDE LOS DISPOSITIVOS GENERADORES DE VOZ(

13、Ginebra, 1994)1 AlcanceLos dispositivos generadores de voz son en la actualidad accesibles para los usuarios de la red telefnica pblicaconmutada. Estos dispositivos hacen uso, bien de anuncios almacenados o de voz sintetizada. La voz sintetizada puedeser producida a partir de segmentos de voz almace

14、nados, tales como palabras, slabas o fonemas; y puede tambin serelaborada por una sntesis mediante reglas, por ejemplo una sntesis de formativas. En todos los casos de procesamientode la seal, tales como la compresin digital de la seal, junto con procesamientos del sonido tales como laconcatenacin d

15、e segmentos y las variaciones de entonacin, intensidad y duracin de los segmentos, se pueden producirdegradaciones perceptibles en la voz.Esta Recomendacin, basada en la Recomendacin P.80 y en experimentos concretos 1, 2, 3, define un mtodo deprueba para evaluar la calidad subjetiva de la voz sintet

16、izada. Puede ser necesaria alguna adaptacin del mtodo, enfuncin de las particularidades del sistema a evaluar.El mtodo considera tanto las caractersticas de los usuarios como sus reacciones y sus opiniones. Las opiniones yreacciones se evalan utilizando escalas mltiples.La presente Recomendacin cubr

17、e tanto las caractersticas globales del sistema como la aplicacin a tareas especficas.El Anexo A presenta dos ejemplos de aplicacin.La finalidad de la Recomendacin consiste en describir un mtodo que permite obtener la evaluacin global, por parte delos usuarios, de la calidad acstica de los dispositi

18、vos generadores de voz. Los procedimientos para la evaluacinespecfica de los componentes de los sistemas de sntesis de voz a partir de texto (por ejemplo, las unidades detranscripcin fontica del texto) estn actualmente en estudio.2 Mtodo de evaluacin2.1 GeneralidadesLos mtodos recomendados para eval

19、uar la calidad de la voz en telefona, descritos en la Recomendacin P.80 y en 2.5(Pruebas de opinin) de la 2. edicin del Manual de Telefonometra 4, pueden aplicarse para la evaluacin de la vozsintetizada. El uso de las escalas de opinin mltiples mejora la descripcin de la percepcin en la escucha. Dad

20、o que lavoz sintetizada puede necesitar algn esfuerzo para ser comprendida, la prueba se disea de tal forma que losparticipantes deban prestar atencin a la informacin contenida en los mensajes antes de expresar sus opiniones.2.2 Caractersticas esenciales del mtodo recomendadoDurante una prueba de au

21、dicin se presentar oralmente una serie de fuentes de voz diferentes, de tal manera que lasopiniones subjetivas relativas a una fuente dada puedan obtenerse en relacin con las otras fuentes. Las fuentes serntanto sistemas sintetizados como condiciones de referencia (voz natural con alguna degradacin

22、calibrada o sistemas desntesis conocidos).Se pide la opinin de los participantes usando una o ms de las escalas de opinin de cinco puntos, como en los mtodosde evaluacin por categoras absolutas (ACR, absolute category rating) o evaluacin por categoras de degradacin(DCR, degradation category rating)

23、de la Recomendacin P.80. Adems de la escala de calidad global, se pueden usarotras escalas de esfuerzo de escucha, agrado, etc.Los mensajes transmitidos por los sistemas deben estar relacionados con las aplicaciones prcticas. Aplicacionesdiferentes requerirn distintas sesiones de pruebas.Cada mensaj

24、e se presenta dos veces. Durante la primera escucha los partipantes contestan a cuestiones especficasacerca de la informacin contenida en el mensaje; durante la segunda escucha, los participantes juzgan la calidad de lavoz expresando su opinin en una o ms escalas de notacin.Recomendacin P.85 (06/94)

25、 1 3 Preparacin de la prueba3.1 EstmulosLos mensajes deben ser lo suficientemente largos para que los participantes tengan tiempo de reproducir el contenidoesencial en la primera hoja de respuesta, dando tambin su opinin usando las escalas de notacin de la segunda hoja derespuesta. Se recomienda que

26、 la duracin de cada mensaje est comprendida entre 10 y 30 segundos.Cada mensaje consiste de una parte fija, que es especfica de la tarea, y de una parte variable que es diferente entre paresde presentacin. Los mensajes deben estar diseados de tal manera que la prediccin de la parte variable no difie

27、rasignificativamente de un mensaje a otro. En el Anexo A se muestran algunos ejemplos de dichos mensajes. Puedenutilizarse otras muestras con diferentes grados de dificultad (sonidos fuertes de corto tiempo de duracin).3.2 FuentesSe recomienda el uso, si es posible, de al menos cinco fuentes diferen

28、tes, dependiendo de los sistemas a probar, de lasaplicaciones implicadas y del plan experimental utilizado. Se recomienda que al menos una de las fuentes a utilizar sea lavoz natural (hombre o mujer segn los sistemas de pruebas). La(s) voz(voces) natural(es), degradada(s) con ruidomultiplicativo con

29、forme a la Recomendacin P.81 (vase B.2.3/P.80, condiciones de referencia, debe(n) utilizarsecomo condiciones de referencia. Sin embargo, existen investigaciones en curso que parecen indicar que otrasdegradaciones, tales como el T-Reference System 6 o la degradacin en tiempo y frecuencia (TFW, time a

30、ndfrequence warping), podran ser ms adecuadas para la evaluacin de voces sintetizadas 7.3.3 Preparacin de los estmulosEsta suclusula es la misma que B.1/P.80 (registro de las fuentes), excepto que se debe utilizar un micrfono con unarespuesta plana en frecuencia para el registro de la voz natural.4

31、Esquema experimental4.1 Tarea de los participantesLos participantes reciben las hojas de respuesta con las instrucciones que describen la prueba. Se les pide que usen doshojas por mensaje: una hoja para reproducir la informacin contenida en el mensaje y la otra para recoger las respuestasde los part

32、icipantes en una o varias escalas de opinin.4.2 Escalas de notacinLas escalas de notacin recomendadas son: impresin global (cuestionarios de tipo I y de tipo Q) esfuerzo en la escucha dificultad de comprensin nitidez(cuestionarios de tipo I) pronunciacin velocidad al hablar agrado de la voz(cuestion

33、arios de tipo Q) aceptacin (cuestionarios de tipo I y de tipo Q)El texto de las cuestiones y los grados de las escalas se muestran en el Anexo B.4.3 Diseo del experimento4.3.1 Se utilizarn cuadrados greco-latinos (GL, graeco-latin squares) si el nmero de fuentes es suficiente, es deciral menos siete

34、. Los cuatro factores son los siguientes: fuente , mensaje, orden de presentacin, grupo de participantes.4.3.2 En cada sesin, los mensajes se refieren a una sola aplicacin. Mtodos similares aunque diferentes debenutilizarse para las rplicas que sean necesarias.2 Recomendacin P.85 (06/94) 4.3.3 No de

35、be reutilizarse un mensaje que ya haya sido escuchado dos veces.4.3.4 Si se utilizan todas las escalas, se dividir una sesin en dos bloques, uno de ellos corresponder a uncuestionario del tipo I y el otro a un cuestionario del tipo Q (vase el Anexo B). Si se utilizan cuadrados greco-latinos, seorgan

36、izar cada uno de los dos bloques de una sesin conforme a dos cuadrados greco-latinos diferentes.4.3.5 Una prueba puede estar constituida por una o varias sesiones. Antes de las sesiones de prueba propiamentedichas, deber preverse una sesin de aprendizaje. En esta sesin de aprendizaje, deben presenta

37、rse al menos seismensajes emitidos por fuentes lo suficientemente diferentes para cubrir el rango de calidad encontrado en la prueba.4.3.6 Si se utilizan cuadrados greco-latinos, el nmero de participantes ser al menos cuatro veces la dimensin delas cuadrados. En otras palabras, el nmero de participa

38、ntes de un grupo ser al menos igual a cuatro.4.3.7 El intervalo de tiempo tpico entre dos presentaciones de un mismo mensaje puede ser ocho segundos, y20 segundos de separacin entre pares de mensajes diferentes. Sin embargo, depender de la duracin de los mensajes deprueba.4.3.8 La duracin total de l

39、a prueba para los participantess puede durar de 40 a 60 minutos, incluyendo lasinstrucciones, aprendizaje y pausas.4.3.9 Si se utilizan voces naturales, una de ellas se incluir en las sesiones de aprendizaje.4.4 Procedimiento de prueba de escucha4.4.1 Condiciones de escucha Las mismas del B.4.1/P.80

40、.4.4.2 Sistema de escucha El mismo del B.4.2/P.80.Todas las fuentes se someten al mismo filtro paso banda (en funcin de las condiciones previstas para la aplicacin, porejemplo de 300 Hz a 3400 Hz).4.4.3 Nivel de escucha El objetivo debe ser que los mensajes sean presentados al nivel preferido para l

41、a vozsintetizada. Si no se conoce, se debe usar el nivel preferido para la voz codificada (79 dB/SPL, 15 dB/Pa, vase 2.5.8.1de la nueva versin del Manual de Telefonometra). Si fuese posible, se deberan presentar uno o ms bloques de pruebaa los mismos participantes en dos niveles adicionales, uno por

42、 encima y otro por debajo del nivel preferido.4.4.4 Personas que escuchan Las mismas de B.4.4/P.80.4.4.5 Instrucciones para los sujetos El Anexo C da un ejemplo de instrucciones a los participantes. Lasinstrucciones deben estar en forma escrita. Asimismo, pueden ser presentadas verbalmente, utilizan

43、do preferentementeuna cinta.5 Anlisis estadstico y presentacin de resultadosSe recomienda presentar los resultados en forma de histogramas y/o de distribuciones acumulativas para cada escala deopinin.Para efectuar comparaciones entre diferentes fuentes, se recomienda elaborar las distribuciones acum

44、ulativas de cadauna de las fuentes (un diagrama por escala) (Figura 1).Se pueden tambin calcular, para la escala de impresin global y para la escala de esfuerzo de escucha, las notas mediasde opinin (MOS, mean opinion score) de cada fuente para cada tipo de mensaje. Un anlisis de la varianza y prueb

45、as decomparacin mltiple de diferencias enteramente significativas (HSD, honestly significant difference) deberanefectuarse para cada MOS calculado.No existe un mtodo recomendado para el anlisis de las respuestas acerca de la informacin contenida en los mensajes.Sin embargo, puede ser posible obtener

46、 algunas conclusiones si la calidad (por ejemplo, porcentajes de respuestascorrectas) para una fuente en particular es significativamente inferior a las otras.Los resultados de aceptacin deben darse como porcentajes.Los resultados de las sesiones de aprendizaje no sern considerados.Recomendacin P.85

47、 (06/94) 3 T1205380-93/d0112345050100MOS%acumuladoFIGURA 1/P.85MOS: distribuciones acumulativas6 Otros mtodosPara evaluar cuantitativamente la inteligibilidad global de un sistema de sntesis a partir del texto TTS, text-to-speech,resulta especialmente indicado proceder a pruebas a nivel de frases. Una prueba de este tipo ha sido diseada en elmarco de un proyecto europeo destinado a la evaluacin multilinge de la sntesis y del reconocimiento de la voz (EspritSAM Pr

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1