ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组承包单 5 25 2000》.pdf

资源描述

1、 UNIN INTERNACIONAL DE TELECOMUNICACIONES P.50SECTOR DE NORMALIZACIN DE LAS TELECOMUNICACIONES DE LA UIT (09/99) SERIE P: CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Aparatos para mediciones objetivas Voces artificiales Recomendacin UIT-T P.50 (Anteriormente Recomendaci

2、n del CCITT) RECOMENDACIONES UIT-T DE LA SERIE P CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Para ms informacin, vase la Lista de Recomendaciones del UIT-T.Vocabulario y efectos de los parmetros de transmisin sobre la opinin de los clientes Serie P.10 Lneas y aparatos d

3、e abonado Serie P.30 P.300 Patrones de transmisin Serie P.40 Aparatos para mediciones objetivas Serie P.50 P.500 Medidas electroacsticas objetivas Serie P.60 Medidas relativas a la sonoridad vocal Serie P.70 Mtodos de evaluacin objetiva y subjetiva de la calidad Serie P.80 P.800 Calidad audiovisual

4、en servicios multimedios Serie P.900 Recomendacin P.50 (09/99) i RECOMENDACIN UIT-T P.50 VOCES ARTIFICIALES Resumen La “voz artificial“ descrita en esta Recomendacin reproduce las caractersticas de la voz humana, para la caracterizacin de los sistemas y dispositivos de telecomunicaciones, lineales y

5、 no lineales, diseados para la transduccin o la transmisin de seales vocales. La voz artificial es una seal matemticamente definida que reproduce las caractersticas temporales y espectrales de la voz que afectan significativamente al funcionamiento de los sistemas de telecomunicacin. Se definen dos

6、categoras de voz artificial, que reproducen respectivamente las caractersticas de la voz femenina y masculina. Orgenes La Recomendacin UIT-T P.50, ha sido revisada por la Comisin de Estudio 12 (1997-2000) del UIT-T y fue aprobada por el procedimiento de la Resolucin N. 1 de la CMNT el 30 de septiemb

7、re de 1999. Recomendacin P.50 (09/99) iiPREFACIO La UIT (Unin Internacional de Telecomunicaciones) es el organismo especializado de las Naciones Unidas en el campo de las telecomunicaciones. El UIT-T (Sector de Normalizacin de las Telecomunicaciones de la UIT) es un rgano permanente de la UIT. Este

8、rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomendaciones sobre los mismos, con miras a la normalizacin de las telecomunicaciones en el plano mundial. La Conferencia Mundial de Normalizacin de las Telecomunicaciones (CMNT), que se celebra cada cuatro aos, establece los

9、 temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendaciones sobre dichos temas. La aprobacin de Recomendaciones por los Miembros del UIT-T es el objeto del procedimiento establecido en la Resolucin N. 1 de la CMNT. En ciertos sectores de la tecnologa de la i

10、nformacin que corresponden a la esfera de competencia del UIT-T, se preparan las normas necesarias en colaboracin con la ISO y la CEI. NOTA En esta Recomendacin, la expresin empresa de explotacin reconocida (EER) designa a toda persona, compaa, empresa u organizacin gubernamental que explote un serv

11、icio de correspondencia pblica. Los trminos Administracin, EER y correspondencia pblica estn definidos en la Constitucin de la UIT (Ginebra, 1992). PROPIEDAD INTELECTUAL La UIT seala a la atencin la posibilidad de que la utilizacin o aplicacin de la presente Recomendacin suponga el empleo de un dere

12、cho de propiedad intelectual reivindicado. La UIT no adopta ninguna posicin en cuanto a la demostracin, validez o aplicabilidad de los derechos de propiedad intelectual reivindicados, ya sea por los miembros de la UIT o por terceros ajenos al proceso de elaboracin de Recomendaciones. En la fecha de

13、aprobacin de la presente Recomendacin, la UIT no ha recibido notificacin de propiedad intelectual, protegida por patente, que puede ser necesaria para aplicar esta Recomendacin. Sin embargo, debe sealarse a los usuarios que puede que esta informacin no se encuentre totalmente actualizada al respecto

14、 por lo que se les insta encarecidamente a consultar la base de datos sobre patentes de la TSB. Ge3 UIT 2000 Es propiedad. Ninguna parte de esta publicacin puede reproducirse o utilizarse, de ninguna forma o por ningn medio, sea ste electrnico o mecnico, de fotocopia o de microfilm, sin previa auto

15、rizacin escrita por parte de la UIT. Recomendacin P.50 (09/99) iii NDICE Pgina 1 Introduccin 1 2 Alcance, objeto y definicin . 1 2.1 Alcance y objeto 1 2.2 Definicin . 2 3 Terminologa. 2 3.1 voz artificial elctrica 2 3.2 seal de excitacin de la boca artificial 2 3.3 voz artificial acstica 2 4 Caract

16、ersticas. 3 4.1 Espectro medio a largo plazo 3 4.2 Espectro a corto plazo. 3 4.3 Distribucin de amplitudes instantneas. 4 4.4 Distribucin del nivel de potencia por segmentos 4 4.5 Espectro de la envolvente de modulacin. 5 4.6 Convergencia temporal . 6 5 Mtodo de generacin. 6 5.1 Seal de fuente de ex

17、citacin 7 5.2 Excitacin glotal . 7 5.3 Sonidos no vocalizados. 7 5.4 Envolvente de potencia. 8 5.5 Filtro de conformacin del espectro . 9 6 Bibliografa . 12 Anexo A Caractersticas del espectro a corto plazo de la voz artificial 12 Recomendacin P.50 (09/99) 1 Recomendacin P.50 VOCES ARTIFICIALES (Mel

18、bourne, 1988; modificada en Helsinki, 1993; Ginebra, 1999) 1 Introduccin La seal descrita a continuacin reproduce las caractersticas de la voz humana, para la caracterizacin de los sistemas y dispositivos de telecomunicaciones, lineales y no lineales, diseados para la transduccin o la transmisin de

19、seales vocales. Se sabe que para ciertos fines, tales como las mediciones objetivas de ndices de sonoridad, pueden utilizarse igualmente seales ms sencillas. Ejemplos de tales seales son el ruido rosa o el ruido gaussiano de espectro conformado; para los fines de esta Recomendacin tales seales no po

20、drn denominarse “voces artificiales“. La voz artificial es una seal matemticamente definida que reproduce las caractersticas temporales y espectrales de la voz que afectan significativamente al funcionamiento de los sistemas de telecomunicacin. Se definen dos categoras de voz artificial, que reprodu

21、cen respectivamente las caractersticas de la voz masculina y femenina. La voz artificial reproduce las siguientes caractersticas temporales y espectrales de la voz humana: a) espectro medio a largo plazo; b) espectro a corto plazo; c) distribucin de amplitudes instantneas; d) estructura vocalizada y

22、 no vocalizada de la forma de onda vocal; e) envolvente silbica. El apndice I/P.50 incluye un CD-ROM que contiene seales de prueba de utilidad. Las seales de este CD-ROM incluyen la seal descrita en la Recomendacin P.50 y otras seales que han sido consideradas de utilidad por algunas Administracione

23、s. Adems, la base de datos vocales completa que se utiliz para elaborar la Recomendacin P.50 figura tambin en este CD-ROM. El apndice I/P.50 se publica aparte. 2 Alcance, objeto y definicin 2.1 Alcance y objeto La voz artificial tiene por objeto reproducir las caractersticas de la voz humana en la b

24、anda de 100 Hz a 8 kHz. Se puede utilizar para caracterizar muchos dispositivos, por ejemplo, micrfonos de carbn, aparatos telefnicos con altavoz, codificadores no lineales, dispositivos de control del eco, compansores silbicos y sistemas no lineales, en general. La voz artificial descrita en esta R

25、ecomendacin se utiliza principalmente para la evaluacin objetiva de los sistemas y dispositivos de procesamiento de la palabra en los cuales una seal monocanal con actividad continua (es decir, sin pausas) basta para medir las caractersticas. Un ejemplo es la evaluacin de los codecs de seales vocale

26、s. Para las evaluaciones objetivas que requieren dos seales con pausas (por ejemplo, evaluacin de dispositivos con detectores de habla), debe utilizarse la seal de habla conversacional artificial descrita en la Recomendacin P.59. La utilizacin de voz artificial en vez de la humana tiene las ventajas

27、 tanto de una generacin ms sencilla como de una menor variedad de muestras que la voz humana. Recomendacin P.50 (09/99) 2Por supuesto, cuando se prueba un sistema dado, deben considerarse las caractersticas del trayecto de transmisin que le precede. Hay que producir entonces la seal real de prueba c

28、omo una convolucin entre la voz artificial y la respuesta en el trayecto. 2.2 Definicin La voz artificial es una seal matemticamente definida, que reproduce todas las caractersticas de la voz humana apropiadas para la caracterizacin de los sistemas de telecomunicacin lineales y no lineales. Su objet

29、o es proporcionar una correlacin satisfactoria entre las medidas objetivas y las pruebas con voz humana. 3 Terminologa Se puede producir la voz artificial en forma de seal elctrica o acstica, segn el sistema o dispositivo probado (canales de comunicacin, codificadores, micrfonos). Las siguientes def

30、iniciones se refieren a las seales de la leyenda de la figura 1. 123T1206110-93EcualizadorBocaartificialMRP1 Voz artificial elctrica2 Seal de excitacin de la boca artificial3 Voz artificial acsticaMRP punto de referencia boca (mouth reference point)Figura 1/P.50 3.1 voz artificial elctrica Voz artif

31、icial producida como una seal elctrica para probar canales de transmisin u otros dispositivos elctricos. 3.2 seal de excitacin de la boca artificial Seal aplicada a la boca artificial para producir la voz artificial acstica. Se obtiene ecualizando la voz artificial elctrica para compensar la caracte

32、rstica sensibilidad/frecuencia de la boca. NOTA La ecualizacin depende de la boca artificial que se emplee y se puede efectuar elctrica o matemticamente dentro del proceso de generacin de seales. 3.3 voz artificial acstica Seal acstica en el punto de referencia boca (MRP), de la boca artificial. Se

33、ajusta a las caractersticas temporales y espectrales de la voz artificial elctrica. Recomendacin P.50 (09/99) 3 4 Caractersticas 4.1 Espectro medio a largo plazo En la figura 2 y en el cuadro 1 se indica el espectro medio a largo plazo de la voz artificial filtrado a un tercio de octava, normalizado

34、 para un nivel de presin sonora en banda ancha de 4,7 dBPa. Los valores del espectro a largo plazo de la voz artificial en el MRP pueden deducirse de la ecuacin: S( f ) = 376,44 + 465,439(log10f ) 157,745(log10f )2+ 16,7124(log10f )3(4-1) donde S( f ) es la densidad espectral en dB, con respecto a u

35、na intensidad sonora de 1 pW/m2por hertzios a la frecuencia f. La gama de frecuencias de definicin va de 100 Hz a 8 kHz. La figura 2 muestra la curva del espectro. Los valores de S( f ) para frecuencias ISO a un tercio de octava vienen dados en la cuarta columna del cuadro 1. Las tolerancias vienen

36、dadas en la quinta columna del cuadro 1. Las tolerancias por debajo de 200 Hz se aplicarn nicamente a la voz artificial masculina. El nivel total de la presin sonora del espectro definida en la ecuacin (4-1) es de 4,7 dBPa. No obstante, este espectro es aplicable tambin para los niveles comprendidos

37、 entre 19,7 y +10,3 dBPa. En otras palabras, el primer trmino de la ecuacin (4-1) puede estar comprendido entre 391,44 y 361,44. T1206120-93)HzPa(dB7060504030201070605040302010dBPa1 2 3 4 5 6 7 8 10 kHza)b)0,1 0,2 0,3 0,4 0,6 0,8a)b)Espectro a un tercio de octava columna (3) del cuadro 1.Densidad es

38、pectral columna (3)-(2) del cuadro 1.Figura 2/P.50 Espectro a largo plazo de la voz artificial 4.2 Espectro a corto plazo Las caractersticas espectrales de las voces artificiales masculina y femenina se describen en el anexo A. Recomendacin P.50 (09/99) 44.3 Distribucin de amplitudes instantneas La

39、distribucin de la densidad de probabilidad de la amplitud instantnea de la voz artificial aparece en la figura 3. 4.4 Distribucin del nivel de potencia por segmentos La figura 4 muestra la distribucin del nivel de potencia por segmentos de la voz artificial, medida en ventanas de tiempo de 16 ms. Ta

40、mbin se indican los lmites superiores e inferiores de tolerancia. NOTA El lmite superior de tolerancia representa la distribucin tpica del nivel de potencia por segmentos de la conversin normal, mientras que el lmite inferior representa la palabra continua (frases telefonomtricas). Cuadro 1/P.50 Esp

41、ectro a largo plazo de la voz artificial Frecuencia central del tercio de octava (Hz) (1) Factor de correccin de anchura de banda10 log10f (dB) (2) Nivel de presin sonora (tercio de octava)(dBPa) (3) Densidad espectral (dB) (3) (2) Tolerancia (dB) 100 13,6 23,1 36,7 125 14,6 19,2 33,8 +3, 6a)160 15,

42、6 16,4 32,7 +3, 6a)200 16,6 14,4 31,7 +3, 6 250 17,6 13,4 31,7 3,0 315 18,6 13,0 31,6 3,0 400 19,6 13,3 32,9 3,0 500 20,6 14,1 34,7 3,0 630 21,6 15,4 37,7 3,0 800 22,6 17,0 39,6 3,0 1000 23,6 18,9 42,5 3,0 1250 24,6 21,0 45,6 3,0 1600 25,6 23,0 48,6 3,0 2000 26,6 25,1 51,7 3,0 2500 27,6 26,9 54,5 3,

43、0 3150 28,6 28,6 57,2 3,0 4000 29,6 29,8 59,4 6,0 5000 30,6 30,6 61,2 6,0 6300 31,6 30,9 62,5 6,0 8000 32,6 30,5 63,1 a)Las tolerancias dadas se aplican al espectro a largo plazo de la voz masculina y deben satisfacerse igualmente por los ruidos conformados por seales vocales. Sin embargo no se apli

44、can al espectro vocal femenino, cuyo contenido energtico en esta gama de frecuencias es virtualmente despreciable. Recomendacin P.50 (09/99) 5 4.5 Espectro de la envolvente de modulacin En la figura 5 se muestra el espectro de la forma de onda de la envolvente de modulacin que debera reproducirse co

45、n una tolerancia de 5 dB en toda la gama de frecuencias. T1206130-9301234561| x | / Xrms| x |Xrms0,010,1DensidaddeprobabilidadValor absoluto de la amplitud instantneaValor cuadrtico medio de la seal (valor eficaz)Figura 3/P.50 Distribucin de amplitudes instantneas 60010203040506070809010050 40 30 20

46、 10 0 10 20%dBT1206140-93Distribucin acumulativaNivel de potencia con respecto al valor cuadrtico medioDistribucin del nivel de potencia por segmentos(longitud de la ventana 16 ms)Figura 4/P.50 Distribucin del nivel de potencia por segmentos Recomendacin P.50 (09/99) 6T1206150-930 1020304050Hz10dBNi

47、velde laenvolventedemodulacinFrecuenciaFigura 5/P.50 Espectro de la envolvente de modulacin 4.6 Convergencia temporal La voz artificial debe tener unas caractersticas lo ms semejantes posible a la voz humana. En especial, debera ser posible obtener las caractersticas de espectro a largo plazo y de d

48、istribucin de amplitudes en 10 segundos. 5 Mtodo de generacin La figura 6 muestra un diagrama de bloques del proceso de generacin de la voz artificial. Se genera aplicando dos tipos diferentes de seales de fuente de excitacin, una seal de excitacin glotal y un ruido aleatorio, a un filtro de conformacin del espectro de respuesta variable con el tiempo. La voz artificial generada por la seal de excitacin glotal y por el ruido aleatorio corresponde respectivamente a los sonidos vocalizados

展开阅读全文

ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组 承包单 5 25 2000》.pdf

ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组承包单 5 25 2000》.pdf