1、 Rec. UIT-R BS.1693 1 RECOMENDACIN UIT-R BS.1693 Procedimiento para probar la calidad de los sistemas automatizados de consulta cantada (Cuestin UIT-R 8/6) (2004) La Asamblea de Radiocomunicaciones de la UIT, considerando a) que en el futuro los metadatos acompaarn a la mayora de las transmisiones d
2、e radiodifusin de audio; b) que la generacin automtica de metadatos ser necesaria para ofrecer un servicio completo y rentable en el futuro; c) que los sistemas de consulta cantada constituyen una forma natural de interrogar a los bancos de datos de audio; d) que hoy en da se han desarrollado divers
3、os esquemas para la extraccin de metadatos de audio; e) que la Recomendacin UIT-R BS.1657 Procedimiento para probar la calidad de funcionamiento de los sistemas de identificacin automtica de audio, describe un procedimiento para las pruebas de calidad de los sistemas de identificacin automtica; f) q
4、ue el ISO/CEI JTC 1/SC 29 WG 11 est concluyendo actualmente esquemas de codificacin de metadatos para datos multimedio; g) que hasta el momento no se han normalizado procedimientos de evaluacin de la calidad de los esquemas de extraccin de metadatos de audio, recomienda 1 que para evaluar la calidad
5、 de funcionamiento de los sistemas automatizados de consulta cantada se utilice el procedimiento descrito en el Anexo 1. Anexo 1 Procedimiento para evaluar la calidad de funcionamiento de los sistemas por pseudomeloda automatizados de interrogacin 1 Introduccin En una poca en la que cada vez hay ms
6、bases de datos sobre contenido musical, ya sea material genuino de audio o sus metadatos (datos sobre los datos), tambin hay una demanda cada vez ms apremiante de aplicaciones para mantener ese gran volumen de datos. A esta demanda no slo contribuyen profesionales, tambin usuarios comunes de Interne
7、t y melmanos que buscan en la Red informacin sobre su estilo musical preferido. Para facilitar la recuperacin de la informacin deseada se distinguen dos niveles de abstraccin: La bsqueda de metadatos de nivel superior, tal como un oyente humano describira el contenido, por ejemplo, la meloda, el rit
8、mo, el timbre, la instrumentacin o el gnero. Como ejemplo de aplicacin se puede citar un sistema de consulta cantada, el cual puede utilizarse como referencia para posibles recomendaciones. 2 Rec. UIT-R BS.1693 La extraccin de metadatos de nivel medio para la identificacin automtica de ciertas inter
9、pretaciones de contenidos musicales. Descripciones de los aspectos tcnicos de los datos de audio (contenido espectral, etc.) se extrae y compara con un banco de datos de material conocido, creando con ello un enlace a metadatos tales como los de artista o nombre de la cancin. Para una panormica del
10、estado actual de la tcnica de los sistemas de consulta cantada, vase el documento ISMIR 2002 (3rd International Conference on Music Information Retrieval, IRCAM Centre Pompidou Paris, France, octubre de 2002. 2 Motivacin Para satisfacer la demanda de la industria discogrfica, la velocidad de identif
11、icacin de la tecnologa utilizada de consulta cantada debe ser alta y debe soportar las alteraciones y modificaciones habituales de las representaciones almacenadas en el banco de datos de canciones. Este problema se aborda mediante una serie de soluciones distintas, a menudo patentadas, surgida reci
12、entementeClarisse y otros, 2002, Ghias y otros, 1995, Haus y Pollastri, 2001, Heinz y Brckmann, 2003, si bien, todos los mtodos se enfrentan a los mismos problemas relacionados con su inmunidad ante las modificaciones del material original. Ello lleva a la propuesta de que los sistemas automatizados
13、 de consulta cantada deben ser en teora tan precisos y tolerantes ante las modificaciones de la seal como la percepcin y la identificacin humanas. Por tanto, un sistema avanzado de consulta cantada tiene que tener una gran inmunidad ante las distintas distorsiones respecto a la calidad de la seal y
14、las variaciones respecto a las entradas de meloda ideal. Adems, debe incorporar un tratamiento fiable de grandes bancos de datos de canciones compuestos por varios miles de ellas. Por consiguiente, para evaluar la calidad de un sistema de consulta cantada se ha de definir un entorno de prueba en que
15、 abarque los diferentes tipos de modificaciones de la seal y que describa cmo determinar otros parmetros esenciales del sistema. Para poder evaluar objetivamente los sistemas de identificacin se necesita un procedimiento de prueba unificado. 3 Parmetros de calidad Para la evaluacin de los sistemas d
16、e consulta cantada se han de considerar los siguientes parmetros de calidad: Entrada de audio requerida: Es necesario cantar una cierta parte de la cancin o es posible cantar cualquier parte? Cul es la longitud mnima de la entrada para dar un resultado fiable? Tamao de la representacin de los datos:
17、 Cuntos datos (bytes) por cancin han de almacenarse en un banco de datos musical? Tamao del banco de datos musical: Cuntas canciones pueden guardarse en un banco de datos musical? Rec. UIT-R BS.1693 3 Modo de identificacin: Cmo influye en la velocidad de identificacin y en la calidad el tipo de entr
18、ada, tal como el canto en lengua materna, el tarareo o los modos de cantar del tipo la-la-la, etc.? Velocidad de identificacin de la meloda: Cunto tiempo lleva identificar una meloda? Cmo se conjuga ello con el nmero de canciones del banco de datos musical? Cmo se conjuga ello con la calidad de los
19、datos de entrada? Para evaluar estas propiedades de forma sensible y mostrar con ello la conveniencia de un sistema para aplicaciones del mundo real, un entorno de pruebas debe tener condiciones de contorno constantes en relacin con las caractersticas que se prueban. Las condiciones de prueba pertin
20、entes son: el tamao y contenido del banco de datos musical (vase el 4); el tamao de la interrogacin (en referencia a la duracin de la meloda) y el nmero de elementos de prueba (vase el 4); las reglas exactas de modificacin de los elementos de prueba (vanse los 5 y 6); y la plataforma de clculo, que
21、incluye la especificacin de la unidad de procesamiento central (CPU), la memoria y el sistema operativo (vase el 7). 4 Seleccin del material de prueba y del tamao del banco de datos musical Debe definirse un banco de datos de muestras musicales de referencia respecto al que plantean su interrogacin
22、todos los sistemas. El banco debe contener una mezcla de distintos estilos musicales (canciones populares de diferentes pases, clsica, .) con prevalencia de las canciones ms familiares a nivel mundial. Debe adoptarse una proteccin especial para evitar la duplicacin de elementos en el banco de datos
23、(nuevas grabaciones, etc.). Para una evaluacin estadsticamente fiable y pertinente se sugiere un tamao del banco de datos musical comprendido entre 500-1 000 canciones. Como la preparacin de representaciones abstractas de gran calidad de canciones musicales en la forma necesaria para la bsqueda en e
24、l banco de datos es un procedimiento complicado y costoso, la construccin del banco de datos de referencia musical se deja a los participantes. Ello conducir a un criterio implcito de calidad que hallar su significado en los resultados de prueba obtenidos. Todos los participantes son libres de elegi
25、r el formato propio del banco de datos que depende del algoritmo de bsqueda. Debe definirse un conjunto de elementos de prueba (banco de datos de muestras de interrogacin) que cumpla los requisitos siguientes: para evitar toda calibracin relativa a un conjunto especial de interrogaciones, cada parti
26、cipante debe aportar un total de 200 melodas de interrogacin. Una adaptacin de los parmetros de los sistemas de consulta cantada a un banco de datos de interrogacin con criterios subjetivos puede quedar sobrepasado por esta demanda. Los elementos de prueba deben tener una buena calidad de audio, inc
27、luyendo tericamente la ausencia de distorsin de la seal. Las entradas deben contener tipos diferentes, tales como letras cantadas, melodas aproximadas (tatareadas) y entradas instrumentales. Todo ello debe realizarse mediante una distribucin representativa de diversos cantantes e instrumentalistas.
28、4 Rec. UIT-R BS.1693 Todos los elementos de prueba deben constituir representaciones de las melodas que figuran en el banco de datos de referencia. El diseo de un comportamiento de rechazo no es adecuado debido a los grados variables de similitud entre melodas. A medida que aumenta en el tiempo el n
29、mero de nuevos sistemas probados de consulta cantada ir aumentando el tamao del banco de datos de muestras de interrogacin. Por tanto, ser necesario efectuar una repeticin de las pruebas a fin de comparar la calidad, conforme a un banco de datos de interrogaciones estadsticamente ms expresivo. Se re
30、comienda un procedimiento automatizado de pruebas. 5 Modificaciones Para ser ms realista respecto a las aplicaciones del mundo verdadero, deben modificarse los elementos de prueba de gran calidad (vase el 4) que utilizan fuentes comunes de polucin acstica: compresin audio (mp3, aac, .); limitacin de
31、 la anchura de banda (telefona, .); cuantificacin (modulacin por impulsos codificados (MIC), ley A, .); distorsin GSM (sistema mundial para comunicaciones mviles) (velocidad plena, .); ruido de fondo (pblico, restaurante, tienda de msica, .). En el 6 se indica una lista de las reglas exactas. 6 Mtod
32、o de prueba El parmetro principal para estimar la calidad de los sistemas en cuestin ser el porcentaje de melodas determinadas correctamente. Este parmetro puede dividirse en dos categoras: el elemento buscado se seala en primer lugar de la lista de resultados presentados; el elemento buscado se enc
33、uentra entre las diez melodas que el sistema estima ms similares. Estas cifras, as como la velocidad de la extraccin y del proceso de bsqueda (determinacin) tiene que medirse por separado para cada experimento. 6.1 Experimento 1 En la primera prueba, todos los ttulos del banco de datos de referencia
34、 deben quedar inalterados para su identificacin. De esta manera, se obtienen condiciones ptimas respecto a la calidad de audio y los resultados deben mostrar un ndice elevado de identificaciones correctas. 6.2 Experimento 2 Para ensayar el comportamiento en trminos de inmunidad del sistema que se co
35、nsidera, se aplican modificaciones diversas a los elementos del banco de datos de muestras de consulta. Se han de elegir modificaciones que representen distorsiones acsticas producidas habitualmente en la realidad. Distorsin GSM: Se han de procesar los elementos de prueba mediante tres tcnicas difer
36、entes de codificacin de seales vocales utilizadas para la telefona mvil (GSM de velocidad plena, velocidad plena mejorada y semivelocidad). Rec. UIT-R BS.1693 5 Compresin audio: Los ejemplos se han de comprimir/descomprimir utilizando cdecs de audio MPEG-1/2 Capa 3 que aplican velocidades de codific
37、acin de 64, 96 y 128 kbit/s. Se recomienda el cdec Fraunhofer original. Cuantificacin: Han de someterse los elementos de consulta a una cuantificacin no lineal de ley A (8 kHz, 8 bits). Limitacin de la anchura de banda: Se limita la entrada mediante un filtro paso banda conforme a la calidad convenc
38、ional de la telefona, es decir de 300-3 400 Hz. Las caractersticas del filtro paso banda utilizado deben cumplir el requisito de una cada mnima de 12 dB/octava. Ruido de fondo: Para disponer de un banco de datos con distorsin casi normalizada de seales vocales de la vida real y el ruido del tipo mur
39、mullo, se ha de utilizar el contenido del CD ICRA ruido Dreschler, y otros. Se han de componer dos clases de seales de ruido diferentes con los datos de la interrogacin original, es decir, utilizando las pistas de ruido no modificadas y las versiones atenuadas (6 dB), respectivamente: murmullo de 2
40、personas (voz normal, pista 6); murmullo de 6 personas (voz elevada, pista 8). 7 Plataforma de prueba Se recomienda que la plataforma informtica y sistema operativo utilizados correspondan con los equipos ms modernos disponibles por el usuario normal. Un ejemplo de plataforma vlido para 2004 es un o
41、rdenador con procesador Pentium 4/Athlon que funcione a 2,4 GHz, con 512 Mbits de memoria viva y con Windows XPTMo Linux. 8 Informe de la prueba En los informes de prueba debe figurar, lo ms claramente posible, las razones del estudio, los mtodos utilizados y las conclusiones obtenidas. Deben tener
42、un grado de detalle suficiente para que una persona entendida pueda, en principio, reproducir el estudio con objeto de comprobar empricamente los resultados. Los lectores informados deben poder comprender y elaborar una crtica de los detalles ms importantes de la prueba, por ejemplo las razones suby
43、acentes del estudio, los mtodos de diseo experimentales y ejecucin, y los anlisis y conclusiones. Se debe poner especial cuidado en los siguientes aspectos: una especificacin y seleccin del banco de datos musical y del banco de datos de muestras de audio; una descripcin detallada de los sistemas que
44、 se prueban; una descripcin detallada de todas las conclusiones obtenidas. 6 Rec. UIT-R BS.1693 Referencias Bibliogrficas CLARISSE, L. P., MARTENS, J. P., LESAFFRE, M., DE BAETS, B., DE MEYER, H. y LEMAN, M. octubre de 2002 An Auditory Model Based Transcriber of Singing Sequences. ISMIR 2002, 3rd In
45、ternational Conference on Music Information Retrieval, IRCAM Centre Pompidou Paris, France, p. 116-123. GHIAS, A., LOGAN, J., CHAMERLIN, D. y SMITH, B. C. 1995 Query By Humming. Musical Information Retrieval in an Audio Database. Procs. ACM Multimedia, p. 231-236. HAUS, G. y POLLASTRI, E. 2001 An Au
46、dio Front End for Query-by-Humming Systems. Procs. ISMIR 2001, p. 65-72. HEINZ, Th. y BRCKMANN, A. marzo de 2003 Using a Physiological Ear Model for Automatic Melody Transcription and Sound Source Recognition. AES 114th Convention. Amsterdam, Pases Bajos. DRESCHLER, W. A., VERSCHUURE, H., LUDVIGSEN, C. y WESTERMANN, S. ICRA Noises: Artificial noise signals with speech-like spectral and temporal properties for hearing aid assessment. Audiology, 40, p. 148-157.