1、 Numro de rfrence ISO 24611:2012(F) ISO 2012NORME INTERNATIONALE ISO 24611 Premire dition 2012-11-01Gestion des ressources langagires Cadre dannotation morphosyntaxique (MAF) Language resource management Morpho-syntactic annotation framework (MAF) ISO 24611:2012(F) DOCUMENT PROTG PAR COPYRIGHT ISO 2
2、012, Publi en Suisse Droits de reproduction rservs. Sauf indication contraire, aucune partie de cette publication ne peut tre reproduite ni utilise sous quelque forme que ce soit et par aucun procd, lectronique ou mcanique, y compris la photocopie, laffichage sur linternet ou sur un Intranet, sans a
3、utorisation crite pralable. Les demandes dautorisation peuvent tre adresses lISO ladresse ci-aprs ou au comit membre de lISO dans le pays du demandeur. ISO copyright office Ch. de Blandonnet 8 CP 401 CH-1214 Vernier, Geneva, Switzerland Tel. + 41 22 749 01 11 Fax + 41 22 749 09 47 copyrightiso.org w
4、ww.iso.org ii ISO 2012 Tous droits rservsISO 24611:2012(F) ISO 2012 Tous droits rservs iiiSommaire Page Avant-propos . v Introduction . vi 1 Domaine dapplication . 1 2 Rfrences normatives . . 1 3 Termes et dfinitions . 1 4 Le mtamodle MAF . 4 4.1 Vue densemble 4 4.2 Mtamodle MAF . 5 5 Segmentation 6
5、 5.1 Aspect gnral 6 5.2 Description formelle: 7 5.3 Notation enchsse . 8 5.4 Reprsentation alternative pour les documents conformes la TEI . 8 5.5 Notation dporte . 9 5.6 Attributs informatifs . 10 5.7 Complter la notation enchsse 10 5.7.1 Joindre des segments dans le mode enchss 11 5.7.2 Segments c
6、hevauchants . 11 6 Les mots-formes en tant quunits linguistiques 12 6.1 Description formelle: . 13 6.2 Attachement de segment . 13 6.2.1 Un segment, un mot-forme 13 6.2.2 Plusieurs segments contigus, un mot-forme 13 6.2.3 Plusieurs segments discontigus, un mot forme . 13 6.2.4 Absence de segment, un
7、 mot-forme . 14 6.2.5 Un segment, plusieurs mots-formes 14 6.3 Rfrencer les entres lexicales 15 6.4 Mots-formes composs . 16 6.5 Identification des mots-formes au sein dun document conforme la TEI . 16 7 Contenu morphosyntaxique . 19 7.1 Aspect gnral . 19 7.2 Utiliser les structures de traits 19 7.3
8、 Balises morphosyntaxiques compactes 20 7.4 Les bibliothques FSR . 20 7.5 Conception des ensembles de balises . 21 7.6 Description formelle: 23 8 Gestion des ambiguts . 23 8.1 Ambiguts du contenu des mots-formes 23 8.2 Ambiguts lexicales 24 8.3 Ambiguts structurelles . 24 8.3.1 Ambiguts structurelle
9、s avec des mots-formes . 24 8.3.2 Ambiguts structurelles avec les segments . 25 8.4 Variantes structures simplement . 25 ISO 24611:2012(F) iv ISO 2012 Tous droits rservs8.4.1 Reprsentation linaire non ambigu 25 8.4.2 Reprsentation mixte linaire et en treillis . 26 8.5 Expanser les variantes simplifi
10、es 27 8.5.1 Sparer les segments et les mots-formes 27 8.5.2 Envelopper dans les treillis locaux 27 8.5.3 Fusion de treillis locaux . 28 8.5.4 Suppression de . 30 8.6 Description formelle: and . 30 Annexe A ) Exemple encod selon la srialisation MAF . 31 (informative Annexe B (n ormati v e) Spcificati
11、on MAF . 34 B.1 Elments 34 B.1.1 . 34 B.1.2 35 B.1.3 35 B.1.4 . 36 B.1.5 36 B.1.6 . 37 B.1.7 . 37 B.1.8 38 B.2 Classes de modles 39 B.3 Classes dattributs 39 B.3.1 att.token.information . 39 B.3.2 att.token.join 40 B.3.3 att.token.span 40 B.3.4 att.wordForm.content 40 B.3.5 att.wordForm.tokens 41 B.
12、4 Macros 41 B.4.1 data.certainty. 41 B.4.2 data.code . 41 B.4.3 data.count . 42 B.4.4 data.duration.w3c 42 B.4.5 data.enumerated 42 B.4.6 data.key 43 B.4.7 data.language . 43 B.4.8 data.name 44 B.4.9 data.numeric 45 B.4.10 data.pointer 45 B.4.11 data.probability 46 B.4.12 data.temporal.w3c . 46 B.4.
13、13 data.truthValue . 46 B.4.14 data.word 47 B.4.15 da lue . 47 ta.xTruthVa Annexe C (n ormati v e) Catgories de donnes morphosyntaxiques . 48 Bibliographie . 62 ISO 24611:2012(F) ISO 2012 Tous droits rservs vAvant-propos LISO (Organisation i n t e rnatio nale d e normalisation) e st u ne f dr a ti o
14、n mondial e d or g anis mes nation au x de normalisat i on (comits m embr es d e lISO). Ll abor ation des Normes internatio n ales e st en g nral c onfi e au x comits techn i ques d e lIS O. C haque comit m e m b r e i n t r e s s p a r u n e t u d e a l e droit de f aire p artie du c omit techniqu
15、e cr cet effet. L es o rganisatio ns i nternati on ales, gou v ernementales e t no n gou v ern e ment ales, en l iaison av ec l ISO p a r t i c i p e n t g a l e m e n t a u x t r a v a u x . LISO collabore troitement a ve c l a Co mmissi on l ectrotechnique i nt ernatio n ale (IEC) en c e qui conce
16、rne la normalisati on lectrotechnique. Les procdu r es utilises p our labor er l e prs en t docume nt e t c elles des tines s a mise j our sont d c r i t e s d a n s l e s D i r e c t i v e s I S O / I E C , P a r t i e 1 . I l c o n v i e n t , e n p articulier d e prendre n o te d es d iff rents c
17、ritres dapprobation requis pour l e s diffrents types de d oc u me nts ISO. L e prs ent d ocument a t rdig c on formment aux rgl es d e rdactio n donnes d ans les Di rectives I SO/IEC, Par tie 2 (voir www.iso.org/directives). Lattention est appele s u r le f ait que certains d es lments d u prsent d
18、ocume nt p e uv e nt f aire l o b j et de d roits de proprit intellectu e l l e o u d e d r o i t s a n a l o g u e s . L I SO n e saurait tre te n ue p our r e s p o n s a b l e d e n e p a s a v o i r i d e n t i f i d e t e l s d r o i t s d e p r o p r i t e t averti d e leur e xist ence. L e s
19、d tails concernant l es r frence s aux droits d e proprit intellectu e ll e ou a utres droits a nal o gu es i denti f is lors d e ll ab oration du d ocument so n t i ndiqus d a ns l Intr oduc tion et/ o u d a ns l a liste d e s dclarations de brev e ts r eues par lISO (voir ww w.iso.org/brevets). Le
20、s appellati ons c ommer c iales ven t uellem e nt m ention nes d ans l e prsent document sont d on nes p o u r i n f o r m a t i o n , p a r s o u c i d e c o m m o d i t , l i n t e n t i o n d e s u t i lisateurs et n e saurai ent constituer u n engagement. P o u r u n e e x p l i c a t i o n d e
21、l a s i g n i f i c a t i o n d e s t e r m e s e t e x p r e s s i ons spcifiques de l ISO lis l valuation de l a confo r mit, ou p our toute i n formatio n au s ujet d e ladhs ion de l ISO aux principes de lOrganis a tion m ondiale d u commer c e ( OMC) concernant les obstacles techniques a u comm
22、erc e (OTC), s voir le li en uivant : www.iso.org/iso/fr/avantpropos.html. Le c o m it c harg d e l labor ation du p rsent d ocument e s t lISO /TC 37, Terminologie et autres ressources langagires et ressources de contenu , souscomit SC4, Gestion de ressources linguistiques . ISO 24611:2012(F) vi IS
23、O 2012 Tous droits rservsIntroduction LISO/ TC 3 7 / SC 4 s e con c entre sur la d finitio n de s modles et des formats utiliss pour reprsenter les ressources li nguistiqu e s annot es. A cette f in, il g nr alise l a stratgi e de m odlisation initialise p a r son comit f rre l e SC 3 p our la r epr
24、sentati on des donnes ter min o logi ques Ro mary, 20 01 , s e l on laquelle les modles d e d onnes l inguistiques s o n t considrs comme la c ombin a ison d un p a tron d e donnes g nriqu e s (un mtamod le), q ui e st e nsuite p erfection n a u m o y e n d u n e s l e c t i o n d e catgories d e do
25、nnes q ui f o u rni ssent l es d escripteurs c orrespo ndant ce n iveau spcifi q u e dannotation. Ces modl e s sont d f i n is i ndpen damm ent d e s for m a ts s pcifiques e t permettent limplm ent e ur d e disposer d e loutil conceptuel n cessair e pou r concevoir et c ompar e r les formats en fon
26、ctio n de l e urs niveau x dinter o prabilit. Pour r eprs e nter tout type d annotat ion, i l est important de m e ttre disposition un e smanti q ue claire et f iable po ur l es d iver s descripteurs u tiliss, s oit sous l a fo r m e d e t r a i t s v a l u s f o r m e l s , s o i t dire cte m ent c
27、omm e obje ts d u ne r e pr se nta t ion ex prim e pa r ex em p l e en X ML. Pour q ue c ette smantique p uisse tre partage ent r e diffrents s chmas d anno tati on et d application s d encodage, i l convie nt d e limplm ent e r comm e u n r egistre c e ntralis d e concepts: a ussi, nous c onsidrero
28、ns ces conc rem epts co m me des cat gori e s de donnes. En t ant q u e telles, i l convient que c es cat gories de do nnes plissent l es condition s suivant es: dun p oi nt d e v ue t e chni que, e lles do ivent fo urnir des r fr e n c e s u nique s e t sta b le s (im pl me ntes sous l a form e did
29、entifi ants p renn e s au s ens de l ISO 246 19 ) de t e l l e m a n i r e q u e l e c o n c e p t e u r dun s chm a spcifiqu e d encodage puisse l es r fr encer dans s e s sp cifications. Ainsi, d eux annot ations s eront c on sidres c o m me qui v alentes quan d elles f e ront r f re nce la m me c
30、atgorie de donnes (en tant qu e tr ai t et valeur). dun poi nt d e vu e d e scriptif, il convi e nt qu e ch a qu e rfr e nce smantiqu e ment u niqu e s o it associe une docum e ntatio n pr c ise combinant une explic ation en p ro se de l a signification du d escripteur avec l expres s ion des contra
31、intes spcifiques qui portent sur la catgorie. Ces dernires annes, lISO a d v e lop p un c adre g n ral p our r eprsent er e t m a inte ni r un tel r e g is tre de c atgories de d onnes c ouvrant t o us l es d omaines des r e ssour ces linguistiques. Cette initiative, spcifie par lISO 1 2 6 20, a a b
32、o uti limplmentation dun e nv ironnement m is e n li gne afin d un e p art d e f o u r n i r l a c c s t o u t e s l e s c a t g o r i e s d e d o n n e s q u i o n t t n o r m a l i s e s d a n s l e c o n t e x t e d e s activits lies aux divers es r essources linguistiques au s ein d e lISO, e t
33、dautre part s pcifiquement au titre de l a m a inten a nce d u r e g istre d e c at gori e s de d onn es. L e s y stm e propose aus s i un a ccs aux d i v e r s e s c a t g o r i e s d e d on n e s q u e l es p r a t i c i e n s d e s t e c h n o l og i e s d u l a n g a g e o n t d f i n ie s d a n
34、 s l e c a d r e de leur prop re trav a il et quils ont pa r tag ensuit e av e c la co mm unaut . L e reg istre de ca t g orie s de donn e s, a cce ssible v i a l im plm en tation ISOCat ( www.isoc at.org ) est j uste u n e s p a c e d o b j e t s s m a n t i q u e s n o f f r a n t q u u n e n s e
35、m b l e l i m i t de c ontraintes ontolo g iques. L obj ectif est de f acili ter l a maint e nance dun e nvir onn ement au s ei n duqu el d e nouvelles catgories s ont facilem e nt i nsres e t r utilises s ans quil soit n cessair e d e procder u ne v ri f ication approfo n die de l a mod cohrence pa
36、r rapport au r este d u registre. En e ffet, le s contraintes de b as e so nt intrinsq ues au le de catgori e de donnes tel q ue df ini p a r lISO 12620: de s imples r elations g n riquesspc ifiques q u an d elles sont u tiles u ne identification exacte d es descripteurs d interop rabilit entre catg
37、ories d e donnes. Pa r exemple, l e fait qu e / pro p erNoun / s o i t u n e s o u s c a t g o r i e d e / n o u n / p e r m e t d e c o m p a r e r d e s a n n o t a t i ons m orph osyntaxiqu es fondes sur diffr e nts ni veaux d e gr a nularit; ISO 24611:2012(F) ISO 2012 Tous droits rservs vii la d
38、 escription des domai n es c oncept u els au s ens de l ISO 1 1 1 7 9 p o u r i d e n t i f i e r , q u a n d e l l e e s t connue ou i d e ntifi a ble la v aleur possi ble de l a dite c atgorie de d onne complexe. Par exemple, e ll e p e u t t r e u t i l i s e p o u r e n r e g i s t r e r q u e l
39、 a v a l e u r p o s s i b l e d e / grammatic a lGender/ (limite un petit groupe d e langu e s Romary 2011), peut tr e un s ousen sem ble de / masculine/, /femi n in e / et /neutral/; des contraintes linguistiques sp cif iq u e s, so i t sou s la fo rme d e not es d application o u c omme d es rest
40、rictions e xplicites portant sur le s doma ines conce ptuels de s catgories d e donnes. Par exe m ple, i l est possible dexpri m er e xplicitem e n t que / gr am mati calGender/ e n fran a is n e peut m prendre qu e les deux val e urs: /mascu l ine/ et / f e i nine/. La prsente Norme internationale
41、f ournit u n cadre complet pour la r ep rsentati on des annot ati ons morphosynt actiques (au ssi d nommes a n notati ons e n parti e d u dis c o u r s ) . C e n i v e a u d a n n o t a t i o n correspond u n premier niveau d abstraction par rapport a ux d o n n es l inguistiques ( textu e lles o u
42、parles), d o n t la s tructu re e t la c om plexit p e uv ent v a rier c o n sidrablement e n foncti on de l a l a ngue annot er, de m me que selon les c a r a ctristiques d e lo u til dan not ation ou d u sch ma d an notation utilis. Pour r sou dre les problmati ques c omplexes d e lambi gut et d u
43、 d terminis m e en a n not ation morphosyntaxique, la prsente No rme international e introduit u n m t a m o d l e q u i t a b l i t u n e distinction n e tte e ntre l es d eux ni veaux qu e sont l es s egments (reprsent ant le d coup a ge d e surface de la s ource) et l esmotsformes (identifi a nt
44、l es a bstr actions l exi cales associes a ux g ro upes de se gm ents). C e s d e u x n i v e a u x p a r t a g e n t l e s c a r a c t r i s t i q u e s s u i v a n t e s : d u n e part, i l s peuvent tre r eprsen ts comm e de s imples s qu e nces e t de s graphes lo caux tels qu e segme nt at ions
45、 m ultiples e t lments ambi gus, et dautre part, toute com bi naison N M peut r e lier l e s segments et les motsformes. En t ant qu e segm ents l in guistiques ( quelqu efois dnom ms t okens o u m a r k a b l e s d a n s l a l i t t r a t u r e t e c h n i q u e a n g l a i s e p a r e x e m p l e
46、, C a r l e t t a e t a l . 1 9 9 7 ) , c e s segments p e u v e n t t r e e n c h s s s d a n s l e d o c u m e n t s o u r c e c o m m e u n e b a l i s e e n l i g n e , o u p e u v e n t y f a i r e r fr ence p ar l intermd i aire s n dann otatio n s dportes ( tando ff an notatio e n anglais). E
47、n tant quabstractions l inguistiques, les mot s formes p e uvent tre q ualifis p ar d ivers traits linguistiques caractrisant les proprits m orphos yntaxiques q ui sont i nstan c ies d ans la r alisation de lentre l exi c ale dans l e texte annot . Ces p roprits peuven t prendre diverses f or m e s: d e la s imple i n d i c a t i o n d u n l e m m e u n e r f r e n c e e x p l i c i t e u n e e n t r e l e x i c a l e d a n s u n d i c t i o n n a i r e . D a n s l a plupart des applications e xistantes d e l an not atio n morph o synta xique, l es