1、UNION INTERNATIONALE DES TLCOMMUNICATIONSUIT-T P.85SECTEUR DE LA NORMALISATION (06/94)DES TLCOMMUNICATIONSDE LUITQUALIT DE LA TRANSMISSION TLPHONIQUEESSAIS SUBJECTIFS DOPINIONMTHODE DVALUATION SUBJECTIVEDE LA QUALIT DE PAROLEDES SERVEURS VOCAUXRecommandation UIT-T P.85(Antrieurement Recommandation d
2、u ISCTT)AVANT-PROPOSLUIT-T (Secteur de la normalisation des tlcommunications) est un organe permanent de lUnion internationale destlcommunications (UIT). Il est charg de ltude des questions techniques, dexploitation et de tarification, et met cesujet des Recommandations en vue de la normalisation de
3、s tlcommunications lchelle mondiale.La Confrence mondiale de normalisation des tlcommunications (CMNT), qui se runit tous les quatre ans, dtermineles thmes dtudes traiter par les Commissions dtudes de lUIT-T lesquelles laborent en retour desRecommandations sur ces thmes.Lapprobation des Recommandati
4、ons par les Membres de lUIT-T seffectue selon la procdure dfinie dans laRsolution n 1 de la CMNT (Helsinki, 1er-12 mars 1993).La Recommandation UIT-T P.85, que lon doit la Commission dtudes 12 (1993-1996) de lUIT-T, a t approuve le21 juin 1994 selon la procdure dfinie dans la Rsolution n 1 de la CMN
5、T._NOTEDans la prsente Recommandation, lexpression Administration est utilise pour dsigner de faon abrge aussi bienune administration de tlcommunications quune exploitation reconnue de tlcommunications. UIT 1994Droits de reproduction rservs. Aucune partie de cette publication ne peut tre reproduite
6、ni utilise sous quelque formeque ce soit et par aucun procd, lectronique ou mcanique, y compris la photocopie et les microfilms, sans laccordcrit de lUIT.TABLE DES MATIRESRecommandation P.85 (06/94)Page1 Champ dapplication. 12 Mthode dvaluation . 12.1 Considrations gnrales 12.2 Caractristiques essen
7、tielles de la mthode recommande. 13 Prparation du test 23.1 Stimuli. 23.2 Sources 23.3 Prparation des stimuli 24 Schma exprimental . 24.1 Tche des sujets 24.2 Echelles de notation 24.3 Plan dexprience 24.4 Procdure dcoute 35 Analyse statistique et prsentation des rsultats. 36 Autres mthodes. 4Annexe
8、 A Messages . 4Annexe B Feuilles de rponse 5Annexe C Evaluation de la parole synthtique: consignes aux auditeurs. 8Rfrences . 9Bibliographie . 9Recommandation P.85 (06/94) i RSUMDes serveurs vocaux permettent maintenant aux usagers du rseau tlphonique public commut dobtenir sous formevocale divers r
9、enseignements: renseignements tlphoniques, prvisions mtorologiques, donnes relatives des achatspar correspondance, etc. Etant produite par une machine, la parole issue de ces serveurs nest pas dune qualit parfaite.La prsente Recommandation dfinit une mthode dvaluation subjective de la qualit de paro
10、le de serveurs vocaux quipermet de comparer plusieurs systmes entre eux. Elle aidera les concepteurs de systmes et les fournisseurs de services contrler la qualit de leurs produits.La mthode utilise le principe des essais dcoute. Les sujets coutent des messages et expriment leur opinion sur une oupl
11、usieurs chelles de notation aprs avoir rpondu des questions portant sur les informations contenues dans cesmessages. Les rsultats traduisent plusieurs aspects de la qualit et permettent ainsi de comparer ladquation dediffrents systmes de synthse aux objectifs poursuivis.ii Recommandation P.85 (06/94
12、) Recommandation P.85Recommandation P.85 (06/94)MTHODE DVALUATION SUBJECTIVE DE LA QUALITDE PAROLE DES SERVEURS VOCAUX(Genve, 1994)1 Champ dapplicationDes serveurs vocaux sont maintenant accessibles aux usagers du rseau tlphonique public commut; ils mettent enoeuvre des annonces prenregistres ou une
13、 parole synthtique. La parole synthtique peut tre fabrique partir desegments de parole stocks: mots, syllabes, diphones, etc.; elle peut aussi tre le produit dune synthse par rgles, parexemple une synthse formants. Dans tous les cas, cause de la compression numrique et du processus de traitementde s
14、ignal comme la concatnation de segments ou des modifications dintensit, dintonation, de dures segmentales, lavoix nest pas dune qualit parfaite.Sappuyant sur la Recommandation P.80 et les expriences relatives lvaluation de messages vocaux synthtiss 1,2, 3, la prsente Recommandation dfinit une mthode
15、 de test destine lvaluation de la qualit subjective de laparole synthtique. Certaines adaptations de la mthode telle quelle est dcrite pourront se rvler ncessaires enfonction des particularits des systmes valuer.Cette mthode permet de prendre en compte aussi bien les performances des utilisateurs qu
16、e leurs opinions et leursractions. Les opinions et ractions sont values laide dchelles multiples.La prsente Recommandation traite la fois les performances globales des systmes et leur comportement dans desapplications spcifiques; deux exemples dapplication sont donns en Annexe A.Les informations que
17、 permet dobtenir la mthode dcrite dans la prsente Recommandation reprsente des valuationsdensemble de la qualit acoustique de la sortie des machines parlantes. Des procdures pour lvaluation spcifique decomposants des systmes de synthse partir du texte (par exemple le module de transcription phontiqu
18、e du texte, etc.)sont ltude.2 Mthode dvaluation2.1 Considrations gnralesLvaluation de la qualit de la parole synthtique peut sappuyer sur les mthodes recommandes pour lvaluation de laqualit de la parole en tlphonie que dcrivent la Recommandation P.80 et le paragraphe 2.5 (Essais dopinion) de la2edit
19、ion du Manuel de tlphonomtrie 4. La faon dont les auditeurs peroivent la parole synthtique sera mieuxdcrite si lon utilise des chelles dopinion multiples. Du fait que la parole synthtique peut impliquer certains effortspour tre comprise, le test est conu de faon obliger les sujets tre attentifs au c
20、ontenu informationnel des messagesavant davoir exprimer leur opinion.2.2 Caractristiques essentielles de la mthode recommandePlusieurs sources diffrentes seront prsentes lcoute lors dun test. Ainsi les opinions des sujets relatives unesource donne auront t obtenues en rapport avec les autres sources
21、. Les sources seront des systmes de synthse ainsique des conditions de rfrence (parole naturelle avec une dgradation calibre ou systmes de synthse connus).Les sujets doivent exprimer leur opinion laide dune ou plusieurs chelles dopinion 5 points, comme dans lesmthodes dvaluation par catgories absolu
22、es (ACR) (absolute category rating) et dvaluation par catgories dedgradation (DCR) (degradation category rating) dcrites dans la Recommandation P.80. Outre lchelle dimpressiongnrale on peut utiliser des chelles deffort dcoute, dagrment de la voix, etc.Les messages mis doivent se rapporter des applic
23、ations pratiques. Concrtement, des applications diffrentesimpliquent des sessions de test diffrentes.Chaque message est prsent deux fois. Lors de la premire coute, les sujets rpondent des questions portant sur lesinformations contenues dans le message; lors de la seconde coute, les sujets jugent la
24、qualit de la parole et exprimentleur opinion sur une ou plusieurs chelles de notation.Recommandation P.85 (06/94) 1 3 Prparation du test3.1 StimuliLes messages doivent tre dune longueur suffisante pour que les sujets disposent du temps ncessaire, soit lcrituresur une feuille de rponse des informatio
25、ns qui leur sont demandes, soit lexpression de leurs jugements sur leschelles de notation de lautre feuille de rponse. On choisira une dure de message comprise entre 10 et 30 secondes.Chaque message est constitu de parties fixes, spcifiques de lapplication, et de parties variables qui changent dunme
26、ssage lautre. Les messages doivent tre construits de faon ce que la prdictibilit des parties variables ne diffrepas significativement dun message lautre. LAnnexe A donne des exemples de tels messages. On peut utiliser desstimuli prsentant un autre degr de difficult (charge de la mmoire court terme).
27、3.2 SourcesOn utilisera si possible au moins cinq sources diffrentes; le nombre de sources dpendra des systmes tester, desapplications traites et du schma exprimental. Lune des sources au moins sera une voix naturelle (voix dhomme ou defemme selon les systmes tests). Cette (ces) voix naturelle(s), d
28、grade(s) par un bruit multiplicatif conforme laRecommandation P.81 (voir Conditions de rfrence en B.2.3/P.80), peut (peuvent) servir de conditions de rfrence.Cependant, des recherches en cours semblent indiquer que dautres dgradations, tels le T-Reference System 6 ou leTime and Frequency Warping (TF
29、W) 7, pourraient tre mieux adaptes lvaluation de voix synthtiques.3.3 Prparation des stimuliCe paragraphe est analogue B.1/P.80 (Enregistrement des sources), sauf en ce qui concerne le microphone: onenregistrera la voix naturelle avec un microphone rponse plate.4 Schma exprimental4.1 Tche des sujets
30、Les sujets reoivent les instructions dcrivant le test et des feuilles de rponse. On leur demande dutiliser deux feuillespar message: lune pour recueillir la transcription dinformations contenues dans le message, lautre pour recueillir lesrponses sur une ou plusieurs chelles dopinion.4.2 Echelles de
31、notationLes chelles de notation sont les suivantes: impression gnrale (questionnaires de type Iet questionnaires de type Q) effort dcoute difficults de comprhension articulation(questionnaires de type I) prononciation dbit de parole agrment de la voix(questionnaires de type Q) acceptabilit (question
32、naires de type Iet de type Q)Le libell des questions et les catgories des chelles sont donns dans lAnnexe B.4.3 Plan dexprience4.3.1 Si le nombre de conditions est suffisant, cest-dire au moins 7, le plan dexprience sera constitu partir decarrs grco-latins (GL) (graeco latin squares). Les quatre fac
33、teurs sont les suivants: source, message, ordre deprsentation, groupe de sujets.4.3.2 A lintrieur dune session, les messages sont relatifs une seule et mme application. Si le test doit tredupliqu on utilisera des messages analogues mais diffrents.2 Recommandation P.85 (06/94) 4.3.3 Un message ne doi
34、t pas tre rutilis aprs avoir t prsent deux fois.4.3.4 Lorsque lensemble des chelles est utilis, on divisera une session en deux blocs, chaque bloc correspondant un questionnaire de type I ou de type Q (voir lAnnexe 8). En cas dutilisation de carrs grco-latins, chacun des deuxblocs dune session sera
35、organis en fonction de deux carrs grco-latins distincts.4.3.5 Une sance peut tre constitue dune ou plusieurs sessions. Les sessions de test proprement dites serontprcdes dune session dapprentissage comportant six messages au moins mis par des sources choisies de faon cequils correspondent lventail d
36、e qualit rencontr dans le test.4.3.6 Si lon utilise des carrs grco-latins, le nombre de sujets sera suprieur ou gal 4 fois la dimension descarrs. En dautres termes, le nombre de sujets dun groupe sera au moins gal 4.4.3.7 Lintervalle de temps sparant les deux prsentations dun mme message sera de lor
37、dre de 8 secondes; celuisparant des paires de messages diffrents sera de lordre de 20 secondes. Ils dpendent en fait de la dure effective desmessages du test.4.3.8 La dure totale du test pour les sujets sera comprise entre 40 et 60 minutes, consignes aux sujets, apprentissageet pause compris.4.3.9 S
38、i des voix naturelles figurent parmi les sources, lune delles sera incluse dans la session dapprentissage.4.4 Procdure dcoute4.4.1 Conditions dcoute Alina analogue au B.4.1/P.80.4.4.2 Systme dcoute Alina analogue au B.4.2/P.80. Toutes les sources seront soumises au mme filtrepasse-bande (en fonction
39、 des conditions prvues pour lapplication, par exemple 300-3400 Hz).4.4.3 Niveau dcoute Lidal est que les messages soient prsents au niveau prfr pour la parole synthtique. Sicelui-ci nest pas connu, on prendra le niveau prfr pour la parole code (79 dB acoustique, 15 dB/Pa, voir leparagraphe 2.5.8.1 d
40、u Manuel de Tlphonomtrie). Dans la mesure du possible, on prsentera aux mmes sujets un ouplusieurs blocs du test deux niveaux supplmentaires, lun suprieur, lautre infrieur au niveau prfr.4.4.4 Auditeurs Alina analogue au B 4.4/P.80.4.4.5 Instructions aux sujets LAnnexe C donne un exemple de consigne
41、s aux sujets. Les instructions doivent trefournies sous forme crite. Elles peuvent tre prsentes aussi oralement; dans ce cas on utilisera de prfrence unenregistrement.5 Analyse statistique et prsentation des rsultatsLa prsentation synthtique des rsultats se fera sous forme dhistogrammes et/ou de dis
42、tributions cumules pour chaquechelle dopinion.Pour comparer diffrentes sources on tracera les distributions cumules de chacune de ces sources raison dundiagramme par chelle (voir la Figure 1).On peut aussi calculer, pour lchelle dimpression gnrale et pour lchelle deffort dcoute, les notes moyennesdo
43、pinion (MOS) (mean opinion sure) de chaque source pour chaque type de message. Une analyse de la variance et destests de comparaison multiple diffrences honntement significatives (HSD) (honestly significant difference) seronteffectus pour chaque MOS calcule.Aucune procdure particulire nest recommand
44、e pour lanalyse des rponses concernant les informations contenuesdans les messages. Si toutefois une source particulire prsente des performances nettement moins bonnes que les autres(au niveau du taux de rponses exactes par exemple) on pourra en tirer certaines conclusions.Les rsultats dacceptabilit
45、 seront donns en pourcentages de rponses positives et de rponses ngatives.Les rsultats de la session dapprentissage ne seront pas considrs.Recommandation P.85 (06/94) 3 T1205380-93/d0112345050100MOS% cumulFIGURE 1/P.85Distributions cumules des MOS6 Autres mthodesSi lon souhaite avoir une estimation
46、quantitative de lintelligibilit globale dun systme de synthse partir du texte(TTS) (text-to-speech), il est particulirement indiqu de procder des tests portant sur des phrases. Un tel test a tlabor dans le cadre dun projet europen consacr lvaluation multilingue de la synthse et de la reconnaissance de laparole (projet Esp