1、 Rec. UIT-R BS.1657 1 RECOMMANDATION UIT-R BS.1657 Procdure de test des systmes automatiques didentification audio (Question UIT-R 8/6) (2003) LAssemble des radiocommunications de lUIT, considrant a) que, terme, des mtadonnes accompagneront la plupart des systmes de diffusion audio; b) que la produc
2、tion automatique de mtadonnes sera ncessaire pour offrir dans lavenir un service complet prsentant un bon rapport cot-efficacit; c) que lidentification automatique des squences audio permet de suivre les programmes transmis; d) que diffrents systmes dextraction de mtadonnes sont mis au point actuell
3、ement; e) que le GT de lISO/CEI JTC 1/SC 29 labore actuellement, sous la forme dfinitive, des systmes de codage de mtadonnes pour les donnes multimdias; f) que, jusqu prsent, aucune procdure dvaluation de la qualit des systmes dextraction de mtadonnes audio na t normalise, recommande 1 dutiliser la
4、procdure dcrite dans lAnnexe 1 pour valuer la qualit de fonctionnement des systmes automatiques didentification audio. Annexe 1 Procdure de test des systmes automatiques didentification audio 1 Introduction A lheure dun accroissement toujours plus grand des bases de donnes contenu musical, quelles c
5、ontiennent de vritables donnes audio ou des mtadonnes associes (donnes sur les donnes), lexigence doutils permettant de conserver ces masses de donnes devient galement chaque jour plus urgente. Ce souhait nest pas seulement exprim par des professionnels, mais galement par le simple amateur de musiqu
6、e utilisateur de lInternet qui navigue frquemment sur la Toile la recherche de son style musical prfr. Pour faciliter lextraction des donnes souhaites, on distingue ici deux niveaux dabstraction: recherche de mtadonnes plus ou moins susceptibles dtre extraites automatiquement du contenu audio (instr
7、uments, thme mlodique, rythme, etc.). Un systme de requte par fredonnement ou de classification par genres, couramment utilis par les moteurs de recherche, pourrait en constituer un exemple dapplication; identification automatique des titres, lorsquon dispose seulement de mtadonnes insuffisantes, no
8、n fiables ou lorsque aucune mtadonne nest disponible. Une esquisse de donnes audio est gnre puis compare une base de donnes connues, crant ainsi un lien vers des mtadonnes pertinentes telles quun nom dartiste, le titre dune chanson, etc. 2 Rec. UIT-R BS.1657 Si la premire classe se rapporte essentie
9、llement linterface avec lhomme, la seconde trouve galement une application dans la protection des droits par la reconnaissance de programmes radiophoniques et de transactions Internet. Il est primordial dans ce dernier cas de souligner que les algorithmes appartenant cette seconde classe sont dsigns
10、 sous le terme de techniques de prise dempreintes audio. 2 Objet Pour rpondre aux exigences de lindustrie musicale, le taux de reconnaissance des techniques de reconnaissance dempreintes audio appliques doit tre lev et ne pas tre dgrad par les altrations et modifications courantes subies par le cont
11、enu audio original. A cette fin, lindustrie musicale a reconnu la ncessit dune garantie de qualit pour les systmes didentification audio en formulant rcemment une demande dinformations sur les techniques de reconnaissance dempreintes audio. Le caractre crucial et urgent de ce problme est encore renf
12、orc par le fait quun certain nombre de solutions diffrentes, souvent propritaires, sont apparues rcemment. Pour toutes ces mthodes cependant, les mmes problmes se posent quant leur robustesse vis-vis de modifications ou de dtriorations des donnes dorigine. Bien quil puisse avoir t modifi par un cert
13、ain nombre dtapes de traitement ou de dgradations, le contenu dorigine doit pouvoir tre reconnu comme tant la proprit intellectuelle de lartiste ou du compositeur. Il convient donc de proposer que lidentification automatique des donnes musicales soit idalement aussi prcise et robuste vis-vis de modi
14、fications apportes aux signaux que le sont la perception et la reconnaissance humaine. Au-del de la robustesse vis-vis des altrations des signaux, un bon systme de reconnaissance des empreintes audio devrait prsenter une petite taille dempreinte (compte tenu du fait que certaines applications pourra
15、ient ncessiter le stockage de millions dempreintes), une extraction et une reconnaissance rapides des empreintes ainsi que dautres proprits souhaitables. Il convient de noter que la robustesse aux altrations des signaux et la compacit de la reprsentation des empreintes sont deux spcifications contra
16、dictoires, que ces systmes doivent concilier. En consquence, pour valuer la qualit dun systme automatique didentification audio, il faut dfinir un environnement de test couvrant diffrents types de dgradation des signaux pour plusieurs degrs de gravit et dcrivant la faon de dterminer dautres paramtre
17、s essentiels du systme. Une procdure de test unifie est ncessaire pour parvenir une valuation objective des systmes didentification. 3 Paramtres de qualit Il convient de considrer les paramtres de qualit ci-aprs pour les systmes didentification audio: Taille du segment de donnes audio identifier: qu
18、elle partie dun enregistrement est ncessaire pour lidentification? Taille de lempreinte audio: combien de donnes (octets) par enregistrement doivent tre stockes dans la base de donnes? la taille de lempreinte audio est-elle constante ou variable (par rapport la dure de lenregistrement)? Taille de la
19、 base de donnes: combien denregistrements peuvent tre traits simultanment par le systme? Rec. UIT-R BS.1657 3 Mode didentification: le systme permet-il didentifier des fragments de contenus audio choisis au hasard (prise dempreintes audio continue) ou lidentification est-elle restreinte des petits s
20、egments comportant des empreintes? Dans ce dernier cas, quelle est la taille de ce segment? Vitesse didentification: quel est le temps ncessaire pour identifier un enregistrement? comment varie cette dure suivant le nombre denregistrements prsents dans la base de donnes? Qualit de lidentification po
21、ur les donnes dorigine et les donnes altres: quel niveau de distorsion peut-il tre introduit sans dgradation significative du taux de reconnaissance? comment varie ce niveau de distorsion suivant le nombre denregistrements dans la base de donnes et le niveau rel de distorsion? Vitesse de gnration de
22、s empreintes audio: quelle vitesse une empreinte audio peut-elle tre gnre sur une plate-forme donne? quelles sont les ressources ncessaires pour gnrer une empreinte audio (frquence fonctionnement de lunit centrale, quantit de RAM, unit de traitement virgule flottante, par exemple)? Vitesse dacquisit
23、ion: quel est le temps ncessaire pour ajouter des enregistrements dans la base de donnes? Comment varie cette dure suivant le nombre denregistrements dj prsents dans la base de donnes? Pour valuer ces proprits dune manire raliste et donc pour dterminer si un systme est adapt des applications relles,
24、 un environnement de test doit prsenter des conditions aux limites constantes en ce qui concerne les caractristiques testes. Les conditions de test doivent porter sur la taille et le contenu de la base de donnes de rfrence, sur la taille (en termes de dure denregistrement) et le nombre denregistreme
25、nts de test, sur les rgles exactes de modification des enregistrements de test et sur la plate-forme de calcul (spcification de lunit centrale, de la mmoire et du systme dexploitation). Il convient galement dajouter lensemble des enregistrements de test un certain nombre de titres ne figurant pas da
26、ns la base de donnes de rfrence, afin dvaluer de manire approprie les caractristiques de rejet du systme test. 4 Slection des donnes de test et taille de la base de donnes Lensemble des diffrents styles et genres musicaux devrait tre prsent dans la base de donnes de rfrence, en accordant une place p
27、rivilgie aux genres les plus entendus. Une base de donnes de 10 000 100 000 titres est suggre pour une estimation raliste. Dfinition des termes: On parle denregistrement dupliqu par rapport un autre enregistrement audio sil sagit dun enregistrement identique loriginal lexception ventuelle dun certai
28、n nombre de zros ajouts en dbut ou en fin denregistrement. On peut parfois constater ce cas lorsque la mme chanson figure sur des compilations ou albums diffrents. Un enregistrement similaire est un (re)mixage, une reprise ou un enregistrement (en public) dun autre lment de la base de donnes. 4 Rec.
29、 UIT-R BS.1657 Spcifications relatives la slection des donnes de test: Il faudrait tout particulirement viter la prsence denregistrements dupliqus dans la base de donnes. La base de donnes devra contenir un certain nombre denregistrements similaires (20 paires au minimum). Par exemple: 10 enregistre
30、ments en public par un artiste de la mme chanson lors de diffrents concerts; 10 paires enregistrement original/enregistrement remix dune mme chanson par des artistes diffrents; 10 paires enregistrement original/reprise dune mme chanson par des artistes diffrents. La base de donnes devra tre dfinie a
31、vant de procder au premier test. Il nest pas permis de la modifier en fonction des rsultats des tests. 5 Mthode de test La rapidit des calculs risquant de dpendre du niveau de distorsion de lenregistrement de test, il est ncessaire de mesurer sparment pour chaque exprience (Tests 1, 2, 3a) 3i) la vi
32、tesse du processus dextraction et de recherche (classification). 5.1 Test 1 Lors du premier test, aucun titre de la base de donnes de rfrence ne doit tre modifi et tous les titres doivent tre identifis. Le systme test devrait donc afficher un taux didentification correct des enregistrements gal 100%
33、. La taille moyenne dune empreinte audio est calcule sur la base de la totalit des enregistrements de rfrence, do une taille moyenne par enregistrement ou une taille par dure de lenregistrement dpendant du type dempreinte audio du systme test. Il faudra considrer sparment les donnes issues de systme
34、s ne permettant pas la prise dempreintes audio continue et les donnes issues de systmes permettant ce type de prise dempreintes. 5.2 Test 2 Des extraits de 1 000 enregistrements de 5 s et de 1 000 enregistrements de 30 s ne figurant pas dans la base de donnes de rfrence, et donc inconnus du systme,
35、devront ensuite tre ajouts lensemble des donnes de test. Ces 2 000 extraits sont prsents au systme afin dvaluer ses caractristiques de rejet et de tester le risque de reconnaissances signales tort. Au moins 10 de ces 2 000 enregistrements devraient tre du type enregistrement similaire ( un enregistr
36、ement correspondant dans la base de donnes de rfrence). 5.3 Test 3 Pour tester la robustesse vis-vis de la modification de titres musicaux, on choisit un ensemble de 1 000 enregistrements dans la base de rfrence. Le premier test doit tre effectu conformment aux descriptions du point 3a). Tous les au
37、tres tests (3b) 3i) sont ensuite bass sur les extraits crs au 3a), ce qui signifie quils associent leffet de recadrage dcrit ce point une distorsion particulire. Le fait dassocier au recadrage toutes les autres distorsions parat raisonnable pour ne pas supposer implicitement que les empreintes audio
38、 sont parfaitement homognes, ce qui serait irraliste. Rec. UIT-R BS.1657 5 Il est recommand dutiliser les procdures de modifications suivantes: 3a) Recadrage/dcalage On ne prend que des sous-segments de petite taille de lenregistrement de test. Le choix du premier chantillon de lextrait est indiffre
39、nt (chantillon choisi alatoirement mais le mme pour tous les systmes de test). La dure de lextrait devrait tre de 5, 10 ou 20 s. 3b) Compression et extension dynamiques Les paramtres doivent tre choisis en fonction des paramtres habituels utiliss pour la radiodiffusion. 3c) Rglage du niveau Applique
40、r au signal dentre un certain facteur dchelle (6 dB et 10 dB, par exemple). Lcrtage devra tre vit. 3d) Egalisation Utilisation dune galisation par octave avec des affaiblissements dans les bandes adjacentes fixs 6 dB et +6 dB. 3e) Addition de bruit Addition de bruit blanc ou rose avec une valeur glo
41、bale de S/N gale respectivement 10 ou 20 dB. 3f) Conversion du taux dchantillonnage et changement de hauteur. Des dviations de +5% et 5% du taux dchantillonnage doivent tre utilises. 3g) Codage audio et tatouage numrique Lincidence dun codage audio doit tre value en utilisant un signal cod MPEG-1/2
42、de couche 3 prsentant les associations dbit binaire/canal suivantes: 24 kbit/s (mono), 64 kbit/s (stro), 96 kbit/s (stro) et 128 kbit/s (stro). 3h) Limitation de la bande La borne suprieure de la bande passante du signal dentre doit tre limite 4 kHz. 3i) Transmission acoustique Les imperfections cau
43、ses par un retour sonore en conditions acoustiques moyennes doivent tre testes: le signal est mis par un haut-parleur puis renregistr par un microphone. La distance recommande entre ces deux dispositifs est denviron 50 cm. Il est inutile de choisir un haut-parleur et/ou un microphone de qualit supri
44、eure. Ce test devrait tre effectu dans une pice ordinaire (sans traitement acoustique ni isolation). Les paramtres des diffrents tests de modification ont t rgls de telle manire quune perception dcoute humaine quivalente qualifierait daltration lgre altration forte les modifications apportes aux don
45、nes dorigine. Pour le codage audio, laltration lgre correspondrait un codage MP3 128 kbit/s (stro) et laltration forte un codage MP3 24 kbit/s. Des codages intermdiaires 96 kbit/s (stro) et 64 kbit/s (stro) sont recommands, tant donn que ces dbits sont le plus couramment utiliss pour les transaction
46、s Internet. Il convient donc de choisir un maximum de 5 niveaux de dgradation1. 1On considre que linclusion des codes MPEG-1/2 de couche 2, MPEG-2/4 AAC, Dolby-E ou autres, frquemment utiliss dans les environnements de radiodiffusion, nest pas ncessaire parce que ces algorithmes ne sont gnralement p
47、as mal utiliss dans un environnement dtude, contrairement ce qui se produit frquemment pour le codage MPEG-1/2 de couche 3 (MP3). 6 Rec. UIT-R BS.1657 6 Plate-forme de test Il convient dutiliser comme plate-forme de calcul et systme dexploitation des quipements adapts ltat davancement des techniques offertes lutilisateur courant. En 2002, on peut citer comme plate-forme approprie un ordinateur Pentium fonctionnant 1 GHz avec 5