ITU-T P 50 FRENCH-1999 Artificial voices《仿真口声 12号研究组承包单 5 25 2000》.pdf-资源下载-麦多课文库

ITU-T P 50 FRENCH-1999 Artificial voices《仿真口声 12号研究组承包单 5 25 2000》.pdf

1、 UNION INTERNATIONALE DES TLCOMMUNICATIONS P.50SECTEUR DE LA NORMALISATION DES TLCOMMUNICATIONS DE LUIT (09/99) SRIE P: QUALIT DE TRANSMISSION TLPHONIQUE, INSTALLATIONS TLPHONIQUES ET RSEAUX LOCAUX Appareils de mesures objectives Voix artificielle Recommandation UIT-T P.50 (Antrieurement Recommandat

2、ion du CCITT) RECOMMANDATIONS UIT-T DE LA SRIE P QUALIT DE TRANSMISSION TLPHONIQUE, INSTALLATIONS TLPHONIQUES ET RSEAUX LOCAUX Pour plus de dtails, voir la Liste des Recommandations de lUIT-T.Vocabulaire et effets des paramtres de transmission sur lopinion des usagers Srie P.10 Lignes et postes dabo

3、nns Srie P.30 P.300 Normes de transmission Srie P.40 Appareils de mesures objectives Srie P.50 P.500 Mesures lectroacoustiques objectives Srie P.60 Mesures de la sonie vocale Srie P.70 Mthodes dvaluation objective et subjective de la qualit Srie P.80 P.800 Qualit audiovisuelle dans les services mult

4、imdias Srie P.900 Recommandation P.50 (09/99) i RECOMMANDATION UIT-T P.50 VOIX ARTIFICIELLE Rsum La “voix artificielle“ dcrite dans la prsente Recommandation reproduit les caractristiques de la parole humaine servant caractriser des systmes et dispositifs de tlcommunication linaires et non linaires

5、conus pour la transduction ou la transmission de la parole. La voix artificielle est un signal qui est dfini mathmatiquement et qui reproduit les caractristiques temporelles et spectrales de la parole qui ont une influence significative sur le fonctionnement des systmes de tlcommunication. Deux type

6、s de voix artificielle sont dfinis; ils reproduisent respectivement les caractristiques spectrales de voix de femme et dhomme. Source La Recommandation UIT-T P.50, rvise par la Commission dtudes 12 de lUIT-T (1997-2000), a t approuve le 30 septembre 1999 selon la procdure dfinie dans la Rsolution n

7、1 de la CMNT. ii Recommandation P.50 (09/99) AVANT-PROPOS LUIT (Union internationale des tlcommunications) est une institution spcialise des Nations Unies dans le domaine des tlcommunications. LUIT-T (Secteur de la normalisation des tlcommunications) est un organe permanent de lUIT. Il est charg de

8、ltude des questions techniques, dexploitation et de tarification, et met ce sujet des Recommandations en vue de la normalisation des tlcommunications lchelle mondiale. La Confrence mondiale de normalisation des tlcommunications (CMNT), qui se runit tous les quatre ans, dtermine les thmes dtudes trai

9、ter par les Commissions dtudes de lUIT-T, lesquelles laborent en retour des Recommandations sur ces thmes. Lapprobation des Recommandations par les Membres de lUIT-T seffectue selon la procdure dfinie dans la Rsolution n 1 de la CMNT. Dans certains secteurs des technologies de linformation qui corre

10、spondent la sphre de comptence de lUIT-T, les normes ncessaires se prparent en collaboration avec lISO et la CEI. NOTE Dans la prsente Recommandation, le terme exploitation reconnue (ER) dsigne tout particulier, toute entreprise, toute socit ou tout organisme public qui exploite un service de corres

11、pondance publique. Les termes Administration, ER et correspondance publique sont dfinis dans la Constitution de lUIT (Genve, 1992). DROITS DE PROPRIT INTELLECTUELLE LUIT attire lattention sur la possibilit que lapplication ou la mise en uvre de la prsente Recommandation puisse donner lieu lutilisati

12、on dun droit de proprit intellectuelle. LUIT ne prend pas position en ce qui concerne lexistence, la validit ou lapplicabilit des droits de proprit intellectuelle, quils soient revendiqus par un Membre de lUIT ou par une tierce partie trangre la procdure dlaboration des Recommandations. A la date da

13、pprobation de la prsente Recommandation, lUIT navait pas t avise de lexistence dune proprit intellectuelle protge par des brevets acqurir pour mettre en uvre la prsente Recommandation. Toutefois, comme il ne sagit peut-tre pas de renseignements les plus rcents, il est vivement recommand aux responsa

14、bles de la mise en uvre de consulter la base de donnes des brevets du TSB. Ge3 UIT 2000 Droits de reproduction rservs. Aucune partie de cette publication ne peut tre reproduite ni utilise sous quelque forme que ce soit et par aucun procd, lectronique ou mcanique, y compris la photocopie et les micro

15、films, sans laccord crit de lUIT. Recommandation P.50 (09/99) iii TABLE DES MATIRES Page 1 Introduction. 1 2 Domaine dapplication, objet et dfinition 1 2.1 Domaine dapplication et objet . 1 2.2 Dfinition 2 3 Terminologie. 2 3.1 Voix artificielle lectrique 2 3.2 Signal dexcitation de la bouche artifi

16、cielle 2 3.3 Voix artificielle acoustique. 2 4 Caractristiques. 3 4.1 Spectre moyen long terme 3 4.2 Spectre court terme 4 4.3 Distribution des amplitudes instantanes 4 4.4 Rpartition du niveau de puissance des segments 4 4.5 Spectre de lenveloppe de modulation. 5 4.6 Convergence temporelle . 6 5 Mt

17、hode dmission de la voix artificielle 6 5.1 Signal de source dexcitation. 7 5.2 Excitation glottale. 7 5.3 Sons non voiss. 7 5.4 Enveloppe de puissance 8 5.5 Filtre de mise en forme du spectre 9 6 Bibliographie. 12 Annexe A Caractristiques du spectre court terme de la voix artificielle 12 Recommanda

18、tion P.50 (09/99) 1 Recommandation P.50 VOIX ARTIFICIELLE (Melbourne, 1988; modifie Helsinki, 1993, Genve, 1999) 1 Introduction Le signal dcrit ici reproduit les caractristiques de la parole humaine servant caractriser des systmes et dispositifs de tlcommunication linaires et non linaires conus pour

19、 la transduction ou la transmission de la parole. On sait que pour certaines applications, par exemple, la mesure objective de lquivalent pour la sonie, il est possible dutiliser des signaux plus simples, par exemple, un bruit rose ou un bruit gaussien spectre model; ces signaux ne peuvent tre consi

20、drs comme des “voix artificielles“ aux fins de la prsente Recommandation. La voix artificielle est un signal qui est dfini mathmatiquement et qui reproduit les caractristiques temporelles et spectrales de la parole qui ont une influence significative sur le fonctionnement des systmes de tlcommunicat

21、ion. Deux types de voix artificielle sont dfinis; ils reproduisent respectivement les caractristiques spectrales de voix de femme et dhomme. Les caractristiques temporelles et spectrales de la voix relle mentionnes ci-aprs sont reproduites par la voix artificielle: a) spectre moyen long terme; b) sp

22、ectre court terme; c) distribution des amplitudes instantanes; d) structure voise et non voise du signal “vocal“; e) enveloppe syllabique. LAppendice I/P.50 se prsente sous la forme dun cdrom contenant des signaux dessai utiles. Les signaux qui y sont enregistrs comprennent le signal dcrit dans la R

23、ecommandation P.50 ainsi que dautres signaux qui ont t jugs utiles par certaines Administrations. De plus, ce cdrom contient toute la base de donnes vocales numrises qui a t utilise pour mettre au point la Recommandation P.50. LAppendice I/P.50 est publie sparment. 2 Domaine dapplication, objet et d

24、finition 2.1 Domaine dapplication et objet La voix artificielle vise reproduire les caractristiques de la voix relle dans la bande comprise entre 100 Hz et 8 kHz. Elle peut servir caractriser nombre dappareils, tels que microphones charbon, appareils tlphoniques haut-parleur, codeurs non linaires, d

25、ispositifs de protection contre les chos, compresseurs-extenseurs syllabiques et systmes non linaires en gnral. La voix artificielle dcrite dans la prsente Recommandation est utilise essentiellement pour lvaluation objective des systmes et dispositifs de traitement de la parole dans lesquels un sign

26、al monovoie activit continue (cest-dire sans repos) est suffisant pour mesurer les caractristiques. A titre dexemple, citons lvaluation des codecs vocaux. Pour lvaluation objective qui ncessite deux signaux avec des pauses (par exemple, valuation de dispositifs avec dtecteurs vocaux), il convient du

27、tiliser le signal de conversation artificiel dcrit dans la Recommandation P.59. Lutilisation de la voix artificielle la place de la voix relle offre deux avantages: elle est plus facile mettre et prsente moins de variations que les chantillons de voix relle. 2 Recommandation P.50 (09/99) Naturelleme

28、nt, si lon mesure un systme dtermin, il faut tenir compte des caractristiques du trajet de transmission qui le prcde. Le signal dessai rel produit doit alors reprsenter la convolution entre la voix artificielle et la rponse sur le trajet. 2.2 Dfinition La voix artificielle est un signal mathmatiquem

29、ent dfini qui reproduit toutes les caractristiques de la voix humaine ncessaires pour caractriser les systmes de tlcommunication linaires ou non linaires, en vue dobtenir une corrlation satisfaisante entre les mesures objectives et les mesures sur voix relle. 3 Terminologie La voix artificielle peut

30、 tre produite sous la forme dun signal lectrique ou acoustique, selon le systme ou lappareil tudi (voies de communication, codeurs, microphones). Les dfinitions ci-aprs se rapportent aux signaux indiqus dans la lgende de la Figure 1. 123T1206110-93rseaucorrecteurboucheartificielleMRP1 voix artificie

31、lle lectrique2 signal dexcitation de la bouche artificielle3 voix artificielle acoustiqueMRP point de rfrence boucheFigure 1/P.50 3.1 Voix artificielle lectrique Voix artificielle produite sous la forme dun signal lectrique pour tester ces voies de transmission ou dautres dispositifs lectriques. 3.2

32、 Signal dexcitation de la bouche artificielle Signal appliqu la bouche artificielle afin dobtenir la voix artificielle acoustique. Ce signal rsulte de lgalisation de la voix artificielle lectrique, compte tenu de la caractristique efficacit en fonction de la frquence de la bouche. NOTE Lgalisation d

33、pend du type de bouche utilis et peut tre effectue lectriquement ou mathmatiquement au cours du processus de production du signal. 3.3 Voix artificielle acoustique Signal acoustique au point de rfrence bouche (MRP, mouth reference point) de la bouche artificielle; ce signal doit tre conforme aux mme

34、s spcifications de temps et de spectre que la voix artificielle lectrique. Recommandation P.50 (09/99) 3 4 Caractristiques 4.1 Spectre moyen long terme Le spectre moyen long terme filtr en tiers doctave de la voix artificielle est reprsent la Figure 2 et au Tableau 1, normalis pour un niveau de pres

35、sion acoustique large bande de 4,7 dBPa. Les valeurs du spectre long terme de la voix artificielle au point de rfrence bouche sont donnes par la formule: S( f ) = 376,44 + 465,439(log10f ) 157,745(log10f )2+ 16,7124(log10f )3(4-1) o S( f ) est la densit spectrale en dB par rapport une intensit sonor

36、e de 1 pW/m2par Hz la frquence f. La gamme de frquences de dfinition est de 100 Hz 8 kHz. La courbe du spectre est reprsente dans la Figure 2. Les valeurs de S( f ) aux frquences dfinies par lISO correspondant des tiers doctave sont donnes dans la 4ecolonne du Tableau 1. Les tolrances sont indiques

37、dans la 5ecolonne du mme tableau. Les tolrances au-dessous de 200 Hz ne sappliquent qu la voix dhomme artificielle. Le niveau de pression acoustique totale du spectre dfini par la formule (4-1) est de 4,7 dBPa. Cependant, ce spectre est valable galement pour les niveaux compris entre 19,7 et +10,3 d

38、BPa. Cela signifie que le premier terme de la formule (4-1) peut tre compris entre 391,44 et 361,44. T1206120-93)HzPa(dB7060504030201070605040302010dBPa1 2 3 4 5 6 7 8 10 kHza)b)0,1 0,2 0,3 0,4 0,6 0,8a)b)spectre au 1/3 doctave Tableau 1, colonne (3).densit du spectre Tableau 1, colonne (3)-(2).Figu

39、re 2/P.50 Spectre long terme de la voix artificielle 4 Recommandation P.50 (09/99) 4.2 Spectre court terme Les caractristiques du spectre court terme des voix artificielles dhomme et de femme sont dcrites dans lAnnexe A. 4.3 Distribution des amplitudes instantanes La probabilit de distribution de de

40、nsit des amplitudes instantanes dune voix artificielle est reprsente la Figure 3. 4.4 Rpartition du niveau de puissance des segments La rpartition du niveau de puissance des segments de la voix artificielle, mesure en fentres de temps de 16 ms est donne par la Figure 4. Les limites de tolrance supri

41、eure et infrieure sont galement reprsentes. NOTE La limite de tolrance suprieure reprsente la rpartition type du niveau de puissance des segments dune conversation normale, alors que la limite infrieure reprsente la parole continue (phrases tlphonomtriques). Tableau 1/P.50 Spectre long terme de la v

42、oix artificielle Frquence au centre du 1/3 octave (Hz) (1) Facteur de correction de la largeur de bande 10 log10f (dB) (2) Niveau de pression acoustique (1/3 octave) (dBPa) (3) Densit du spectre (dB) (3) (2) Tolrance (dB) 100 13,6 23,1 36,7 125 14,6 19,2 33,8 +3, 6a)160 15,6 16,4 32,7 +3, 6a)200 16,

43、6 14,4 31,7 +3, 6 250 17,6 13,4 31,7 3,0 315 18,6 13,0 31,6 3,0 400 19,6 13,3 32,9 3,0 500 20,6 14,1 34,7 3,0 630 21,6 15,4 37,7 3,0 800 22,6 17,0 39,6 3,0 1000 23,6 18,9 42,5 3,0 1250 24,6 21,0 45,6 3,0 1600 25,6 23,0 48,6 3,0 2000 26,6 25,1 51,7 3,0 2500 27,6 26,9 54,5 3,0 3150 28,6 28,6 57,2 3,0

44、4000 29,6 29,8 59,4 6,0 5000 30,6 30,6 61,2 6,0 6300 31,6 30,9 62,5 6,0 8000 32,6 30,5 63,1 a)Les tolrances indiques sappliquent au spectre long terme de la voix dhomme et doivent aussi sappliquer au bruit model de la parole. Toutefois, elles ne sappliquent pas au spectre de la voix de femme, dont l

45、e contenu dnergie dans cette gamme de frquences est pratiquement ngligeable. Recommandation P.50 (09/99) 5 4.5 Spectre de lenveloppe de modulation Le spectre du signal denveloppe de modulation est reprsent par la Figure 5 et il devra tre reproduit avec une tolrance de 5 dB sur la gamme entire des fr

46、quences. T1206130-9301234561| x | / Xrms| x |Xrms0,010,1probabilitde densitvaleur absolue de lamplitude instantanevaleur quadratique moyenne du signal (valeur efficace)Figure 3/P.50 Distribution des amplitudes instantanes 60010203040506070809010050 40 30 20 10 0 10 20%dBT1206140-93distributioncumula

47、tiveniveau de la puissance par rapport la valeur quadratique moyennerpartition du niveau de puissancedes segments (longueur de larfentre: 16 ms)Figure 4/P.50 Rpartition du niveau de puisance des segments 6 Recommandation P.50 (09/99) T1206150-930 1020304050Hz10dBniveau denveloppedemodulationfrquenceFigure 5/P.50 Spectre de lenveloppe de modulation 4.6 Convergence temporelle La voix artificielle doit avoir des caractristiques aussi proches que possible de la voix relle. En particulier, il doit tre possibl

邮箱/手机：
温馨提示：	如需开发票，请勿充值！快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：	注意：如需开发票，请勿充值！
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

ITU-T P 50 FRENCH-1999 Artificial voices《仿真口声 12号研究组 承包单 5 25 2000》.pdf