ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf

上传人:吴艺期 文档编号:790322 上传时间:2019-02-02 格式:PDF 页数:6 大小:104.78KB
下载 相关 举报
ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf_第1页
第1页 / 共6页
ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf_第2页
第2页 / 共6页
ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf_第3页
第3页 / 共6页
ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf_第4页
第4页 / 共6页
ITU-R BS 1657 SPANISH-2003 Procedure for the performance testing of automated audio identification systems《自动音频识别系统性能测试的步骤 问题件ITU-R 8 6》.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、 Rec. UIT-R BS.1657 1 RECOMENDACIN UIT-R BS.1657 Procedimiento para probar la calidad de funcionamiento de los sistemas de identificacin automtica de audio (Cuestin UIT-R 8/6) (2003) La Asamblea de Radiocomunicaciones de la UIT, considerando a) que en el futuro los metadatos acompaarn a la mayora de

2、 las transmisiones de radiodifusin de audio; b) que la generacin automtica de metadatos ser necesaria para ofrecer un servicio completo y rentable en el futuro; c) que la identificacin automtica de los elementos de audio permite el rastreo de los programas transmitidos; d) que hoy en da se han desar

3、rollado ya diversos esquemas para la extraccin de metadatos de audio; e) que el ISO/IEC JTC 1/SC 29/WG 11 est concluyendo actualmente esquemas de codificacin de metadatos para datos multimedio; f) que hasta el momento no se han normalizado procedimientos de evaluacin de la calidad de los esquemas de

4、 extraccin de metadatos de audio, recomienda 1 que para evaluar la calidad de funcionamiento de los sistemas de identificacin automtica de audio se utilice el procedimiento descrito en el Anexo 1. Anexo 1 Procedimiento para evaluar la calidad de funcionamiento de los sistemas de identificacin automt

5、ica de audio 1 Introduccin En una poca en la que cada vez hay ms bases de datos sobre contenido musical, ya sea material genuino de audio o sus metadatos (datos sobre los datos), tambin hay una demanda cada vez ms apremiante de aplicaciones para mantener ese gran volumen de datos. A esta demanda no

6、slo contribuyen profesionales, tambin usuarios comunes de Internet y melmanos que buscan en la web informacin sobre su estilo musical preferido. Para facilitar la recuperacin de la informacin deseada se distinguen dos niveles de abstraccin: Bsqueda de metadatos que se pueden extraer ms o menos autom

7、ticamente del contenido audio, por ejemplo instrumentacin, meloda, ritmo. Como ejemplos de aplicacin se pueden citar un sistema de bsqueda a partir de una cancin tarareada o la clasificacin por gneros comnmente utilizada en aplicaciones que hacen recomendaciones. Identificacin automtica de ttulos, c

8、uando no se dispone de metadatos o stos son insuficientes o poco fidedignos. Se extrae una caracterstica de la informacin de audio y se compara con una base de datos con informacin conocida, que de este modo permite identificar los correspondientes metadatos, por ejemplo nombre del artista, ttulo de

9、 la cancin, etc. 2 Rec. UIT-R BS.1657 Si bien la principal aplicacin del primer nivel mencionado es la interaccin humana, el segundo tambin se puede aplicar para proteger los derechos de autor mediante la supervisin de los programas de radio y las transacciones en Internet. Es sobre todo en este lti

10、mo contexto en el que los algoritmos que corresponden a ese perfil se denominan tcnicas de impresin digital. 2 Motivacin Para satisfacer la demanda de la industria discogrfica, la velocidad de identificacin de la tecnologa de impresin digital utilizada debe ser alta y debe soportar las alteraciones

11、y modificaciones comunes del contenido de audio original. A este respecto, la industria discogrfica se ha dado cuenta de la necesidad de garantizar la calidad de los sistemas de identificacin de audio y ha formulado recientemente una solicitud de informacin sobre tecnologas de impresin digital de au

12、dio. La gravedad del problema y la urgencia de su solucin ha quedado patente por el hecho de que recientemente han aparecido una serie de soluciones diferentes, muchas de ellas protegidas por el derecho de autor. Sin embargo, todos los mtodos se encuentran con los mismos problemas en lo que atae a l

13、a robustez cuando se modifica o deteriora el material original. Aunque ste haya sido modificado mediante una serie de procedimientos o se haya deteriorado, deber no obstante reconocerse el derecho de propiedad intelectual del artista y el compositor. De lo anterior se deduce que la identificacin aut

14、omtica de msica debe ser en el mejor de los casos tan precisa y tolerante a las modificaciones de la seal como la capacidad humana de percepcin e identificacin. Adems de la robustez a las alteraciones de la seal, un buen sistema de impresin digital debe utilizar una impresin de tamao reducido (habid

15、a cuenta de que ciertas aplicaciones quiz necesiten almacenar millones de impresiones digitales), debe permitir la rpida extraccin e identificacin de las impresiones digitales y debe tener otras propiedades recomendables. Cabe observar que la robustez en lo que concierne a las alteraciones de la sea

16、l y el formato reducido de la impresin digital son dos requisitos antagnicos que los sistemas han de conciliar. Por consiguiente, para evaluar la calidad de un sistema de identificacin automtica de audio se ha de definir un entorno de prueba en el que se especifiquen los diferentes tipos de degradac

17、in de la seal y los mltiples grados de severidad de la misma y que describa cmo determinar otros parmetros esenciales del sistema. Para poder evaluar objetivamente los sistemas de identificacin se necesita un procedimiento de prueba unificado. 3 Parmetros de calidad En los sistemas de identificacin

18、de audio se han de considerar los siguientes parmetros de calidad: Tamao del segmento del material audio que se ha de identificar: qu porcin de un elemento es necesaria para realizar la identificacin? Tamao de la impresin digital: cuntos datos (bytes) por elemento se han de almacenar en la base de d

19、atos? el tamao de la impresin digital es constante o variable (con respecto a la longitud del elemento)? Tamao de la base de datos: cuntos elementos puede tratar simultneamente el sistema? Rec. UIT-R BS.1657 3 Modo de identificacin: El sistema permite la identificacin de subconjuntos de material aud

20、io seleccionados aleatoriamente (impresin digital continua) o la identificacin est restringida a segmentos de impresin digital cortos? En este ltimo caso, cul es el tamao del segmento? Velocidad de identificacin: cunto tiempo se tarda en identificar un elemento? cunto vara este tiempo en funcin del

21、nmero de elementos en la base de datos? Calidad de funcionamiento de la identificacin con material original y alterado: cunta distorsin soporta sin que afecte considerablemente la velocidad de reconocimiento? cunto vara la velocidad de reconocimiento en funcin del nmero de elementos en la base de da

22、tos y del grado de distorsin? Velocidad de generacin de impresiones digitales: a qu velocidad se pueden generar las impresiones digitales en una determinada plataforma? cuntos recursos son necesarios para generar la impresin digital (por ejemplo velocidad de la unidad de procesamiento central, canti

23、dad de memoria viva, necesidad de unidad de procesamiento de coma flotante)? Velocidad de aprendizaje: cunto se tarda en aadir elementos a la base de datos? Cunto vara este tiempo en funcin del nmero de elementos que contiene la base de datos? Para evaluar correctamente estas propiedades y demostrar

24、 as la adecuacin del sistema para su aplicacin en el mundo real, el entorno de prueba debe tener unas condiciones de contorno constantes en lo que respecta a las caractersticas que se estn probando. Las condiciones de prueba importantes son el tamao y el contenido de la base de datos de referencia,

25、el tamao (duracin de la reproduccin) y el nmero de elementos de prueba, las reglas de modificacin exacta para los elementos de prueba, y la plataforma informtica, que incluye la especificacin de la unidad de procesamiento central, la memoria y el sistema operativo. En el conjunto de elementos de pru

26、eba tambin debe haber una serie de ttulos de prueba que no estn en la base de datos de referencia para comprobar adecuadamente que el sistema no los identifica. 4 Seleccin del material de prueba y del tamao de la base de datos La base de datos de referencia debe contener todos los estilos y gneros m

27、usicales, y los gneros ms odos deben aparecer en mayor cantidad. Para hacer una evaluacin realista se sugiere que la base de datos tenga entre 10 000 y 100 000 entradas. Definicin de trminos: Por elemento duplicado se entiende un elemento que es la reproduccin exacta del original salvo en una cierta

28、 cantidad de muestras de valor cero aadidas al principio o al final. Esta circunstancia se puede dar a veces cuando la misma cancin figura en diferentes recopilaciones o lbumes. Por elemento similar se entiende una mezcla (remix) diferente, una nueva versin/interpretacin o una nueva grabacin (en dir

29、ecto) de otro elemento de la base de datos. 4 Rec. UIT-R BS.1657 Requisitos para seleccionar el material de prueba: Se debe poner cuidado para que no haya elementos duplicados en la base de datos. La base de datos contendr algunos elementos similares (un mnimo de 20 pares). Ejemplo: diez grabaciones

30、 en directo de un artista de la misma cancin en diferentes conciertos; diez pares de original/mezcla de una cancin de artistas diferentes; diez versiones originales/nuevas interpretaciones de una cancin por diferentes artistas. La base de datos se definir antes del primer experimento. No se permite

31、modificar la base de datos segn los resultados obtenidos en la prueba. 5 Mtodo de prueba Dado que la velocidad de clculo puede depender del grado de distorsin del elemento de prueba es obligatorio medir por separado la velocidad de extraccin y la de bsqueda (clasificacin) en cada experimento (1, 2,

32、3a) a 3i). 5.1 Experimento 1 En la primera prueba todos los ttulos de la base de datos de referencia deben estar inalterados para su identificacin. Por tanto, el porcentaje de elementos identificados correctamente por el sistema sometido a prueba debe ser del 100%. El tamao medio de la impresin digi

33、tal se calcula a partir de todos los elementos de referencia. El resultado ser un tamao medio por elemento o un tamao por longitud del elemento, en funcin del tipo de impresin digital utilizada por el sistema sometido a prueba. Los datos de los sistemas que no realizan la impresin digital continua s

34、e examinarn por separado de los datos de los sistemas que si la utilizan. 5.2 Experimento 2 A continuacin se aadirn al conjunto de prueba dos fragmentos o pasajes de 1 000 elementos que no figuran en la base de datos de referencia y por consiguiente desconocidos por el sistema, con una longitud de 5

35、 y 30 s, respectivamente. Estos 2 000 fragmentos se someten a la identificacin por el sistema para averiguar si funciona la identificacin negativa y comprobar las posibles identificaciones falsas. En este conjunto de 2 000 elementos debe haber al menos diez del tipo elementos similares (a un element

36、o correspondiente en la base de datos de referencia). 5.3 Experimento 3 Para probar la robustez en lo que concierne a las piezas musicales modificadas se elige un conjunto de 1 000 elementos del conjunto de referencia. La primera prueba se realizar de conformidad con lo descrito en 3a). Las otras pr

37、uebas (3b) a 3i) se realizarn a partir de los fragmentos creados en 3a), es decir, resultantes de combinar la distorsin especfica de cada prueba con el efecto de corte descrito en 3a). La razn por la que se combinan las dems distorsiones con el efecto de corte se debe a que de esta manera se elimina

38、 la hiptesis poco realista de impresiones digitales perfectamente alineadas. Rec. UIT-R BS.1657 5 Se recomienda utilizar los siguientes procedimientos de modificacin: 3a) Corte/traslacin Se utilizarn nicamente subsegmentos pequeos del elemento de prueba. Se deber variar la muestra de inicio del frag

39、mento (elegido aleatoriamente pero constante para todos los sistemas de prueba). La longitud de pasaje debe ser de 5, 10 y 20 s, respectivamente. 3b) Compresin y expansin dinmicas Se seleccionarn los parmetros de conformidad con la configuracin habitual utilizada en la radiodifusin. 3c) Ajuste del n

40、ivel Se aplicar a la seal de entrada un cierto factor de escala, por ejemplo 6 dB y 10 dB, evitndose los recortes de la misma. 3d) Ecualizacin Se utilizar una ecualizacin de banda de una octava con atenuaciones de las bandas adyacentes de 6 dB y +6 dB. 3e) Adicin de ruido Se aadir ruido blanco o rui

41、do rosa con una relacin S/N total de 10 y 20 dB, respectivamente. 3f) Conversin de la frecuencia de muestreo y variacin del tono Se utilizarn desviaciones de +5% y 5% en la frecuencia de muestreo. 3g) Codificacin de sonido y marcado de contenido Se evaluarn los efectos de la codificacin de sonido ut

42、ilizando una seal codificada con MPEG-1/2 Capa-3 con las siguientes combinaciones de velocidad binaria/canal: 24 kbit/s (mono), 64 kbit/s (estreo), 96 kbit/s (estreo) y 128 kbit/s (estreo). 3h) Limitacin de la banda Se limitar la banda de la seal de entrada para que no tenga un lmite de frecuencia s

43、uperior de 4 kHz. 3i) Transmisin acstica Se comprobarn las imperfecciones causadas por la reproduccin acstica en condiciones acsticas moderadas: la seal se transmite por un altavoz y se vuelve a grabar utilizando un micrfono. La distancia recomendada entre ambos es de 50 cm. No es necesario que el a

44、ltavoz o el micrfono sean de alta calidad. La prueba se debe realizar en una habitacin normal (sin acondicionamiento ni aislamiento acstico). Los parmetros de cada prueba de modificacin se han ajustado de manera que la percepcin acstica humana equivalente se clasificara desde una ligera alteracin a

45、una fuerte variacin de la pieza original. En el caso de la codificacin de audio correspondera a una codificacin del formato MP3 a 128 kbit/s (estreo) para una ligera alteracin del material original y a 24 kbit/s (mono) para una fuerte variacin. Se recomienda la codificacin intermedia a 96 kbit/s (es

46、treo) y 64 kbit/s (estreo) ya que stas son las velocidades binarias que se utilizan comnmente en las transacciones Internet. No se deben utilizar ms de cinco niveles de degradacin1. 1Se considera que no es necesario incluir las codificaciones MPEG-1/2 Capa-2, MPEG-2/4 AAC, Dolby-E, etc., que se util

47、izan frecuentemente en la radiodifusin ya que stas normalmente no se utilizan mal en un entorno de estudio como sucede frecuentemente con la codificacin MPEG-1/2 Capa-3 (MP3). 6 Rec. UIT-R BS.1657 6 Plataforma de prueba Se recomienda que la plataforma informtica y sistema operativo utilizados corres

48、pondan con los equipos ms modernos disponibles por el usuario normal. Un ejemplo de plataforma vlido para 2002 es un ordenador con procesador Pentium que funcione a 1 GHz, con 512 MB de memoria viva y con Windows 2000TMo Linux. 7 Variacin de los parmetros del sistema Durante las diferentes pruebas se pueden ajustar los sistemas de impresin digital que permiten variar el grado de robustez o la compacidad de la impresin digital en funcin de la configuracin de los parmetros de extraccin, con objeto

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国际标准 > 其他

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1