1、ln 4- .- L U LD m r cc O Z d AFNL NF X Ob-050 95 D 1012372 Ob00268 b22 ISSN 0335-3931 o NF X 06-050 Dcembre 1995 Indice de classement : X 06-050 ICs : 03.120.30 Application de la statistique tude de la normalit dune distribution E : Application of statistics - Study of the normality of a distributio
2、n D : Angewandte Statistik - Tests auf Normalverteilung Norme frangaise homologue par dcision du Directeur Gnral de lAFNOR le 20 novembre 1995 pour prendre effet le 20 dcembre 1995. Remplace la norme homologue NF X 06-050, de dcembre 1991. COrreSpOndanCe la date de publication du prsent document, il
3、 existe un projet de norme internationale ISO/DIS 5479 traitant du mme sujet. Analyse Le prsent document fournit un choix de tests permettant de vrifier la validit de lhypothse de normalit dune distribution. II prcise les conditions dutilisation et les rgles dinterprtation propres chaque test. Descr
4、ipteurs Thsaurus International Technique : statistique, distribution statistique, test statistique, calcul des probabilits, mthode graphique. Modifications Par rapport la prcdente dition, les modifications suivantes ont t apportes : - le document a t restructur pour introduire les graphiques aux end
5、roits appropris dans le texte et reporter en annexe les tests directionnels et le test conjoint en et b,. - lexemple de Test de Kolmogorov-Smirnov a t modifi. Corrections dite et diffuse par lAssociation Franaise de Normalisation (AFNOR), Tour Europe 92049 Paris La Dfense Cedex-Tl. : (1) 42 91 55 55
6、 O AFNOR 1995 AFNOR 1995 ler tirage 95-12 AFN1 NF X 06-050 95 1012372 Ob00269 569 W Mthodes statistiques AFNOR X06E Membres de la commission de normalisation Prsident : M BRUNSCHWIG Secrtariat : MME DEL CERRO - AFNOR M M MME MME M M M M M MME M M M M M MME M M M M M M M M M M BALLAUD BARBIER BEGUERE
7、 BOUVENOT BRUNSCHWIG CAILLOUX CAZALBOU CHEROUTE DAUDIN DESENFANT ETIENNE FEINBERG JAMBU KOLUB LEGEAY OUDIN DARRIBERE PALSKY PERRUCHET SAD0 SAPORTA SCHNELLBACH SUARD TOUTAIN TUFFERY WENISCH ZANKEVITCH QUALITE SYSTEME AEROSPATIALE SLP STATISTIQUES AFNOR ECOLE SUPERIEURE DE METROLOGIE FRANCE TELECOM PR
8、EVOYANCE SYSTEMES INAPG LNE DAEI/METT CNEVNCIQUAL FRANCE TELECOM SGS QUALITEST LCPC RHONE POULENC CHIMIE UTAC TOTAL RAFFINAGE DISTRIBUTION CNAM PMS LOGICIEL ALLIED SIGNAL SYSTEMS DE FREINAGE SA SCHNEIDER ELECTRIC SA CNEVA SQIFE DRIRE O 1 2 3 3.1 3.2 3.2.1 3.2.2 3.3 3.3.1 3.3.2 3.3.3 3.3.4 4 4.1 4.2
9、4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 AFNL NF X 06-050 95 = 3032372 Ob00270 280 -3- NF X 06-050 Sommaire Page Introduction . 4 Domaine dapplication . 4 Gnralits 5 Mthode graphique 6 Principe de cette mthode 6 Utilisation des frquences cumules (graphique de Henry) . 6 Mode opratoire pour de petits chanti
10、llons (par exemple, n e 30) 7 Mode opratoire pour de grands chantillons . 10 Observations gnrales relatives aux mthodes graphiques . 10 Changements de variables . 10 Mlange de distributions 13 Valeurs aberrantes 15 Estimations 10 Tests omnibus . Gnralits Description Mode opratoire . Exemple . Test d
11、e Shapiro-Wil k . Test de Kolmog orov-Smi rnov Description Mode opratoire . 15 15 16 16 16 17 18 18 18 Annexe A (normative) Tests directionnels et test conjoint en Jb; et b2 20 A.l Tests directionnels 20 A.1.2 Test directionnel dasymtrie en : (8 I n I5 000) 21 A.1.3 Test directionnel daplatissement
12、en b2 : (7 I n I 1 000) . 23 A.2 A.2.1 Gnralits 24 A.I.l Gnralits 20 Test conjoint en ceci explique le nombre important de (tests de normalit) qui ont t tablis, chacun tant plus ou moins sensible telle ou telle particularit de la distribution tudie (trop tale ou trop concentre, asymtrique, etc.). Mm
13、e si le test utilis a t conu pour correspondre un risque choisi a priori de rejeter lhypothse de normalit alors quelle est exacte (risque de premire espce), la probabilit daccepter cette hypothse, alors quelle est fausse, (risque de seconde espce), restera inconnue, moins que lon ne puisse prciser n
14、umrique- ment lhypothse alternative oppose lhypothse de normalit, ce qui nest gnralement pas le cas et exigerait dailleurs de lourds calculs. Ce risque est, pour un mme test, dautant plus grand que leffectif de lchantillon est plus petit. 1 Domaine dapplication 1.1 normalit mentionne dans lintroduct
15、ion. Le prsent document fournit un choix de tests ) permettant de vrifier la validit de lhypothse de 1.2 Lemploi de ces tests nest pas indispensable chaque fois que lon fait appel des mthodes statis- tiques bases sur lhypothse de normalit. II peut se faire, en effet, que cette hypothse ne doive pas
16、tre mise en doute soit quil existe des raisons thoriques (par exemple physiques) pour quelle soit vrifie, soit quelle ait t trouve acceptable sur la base de linformation accumule antrieurement. De plus, dans le cas de mthodes robustes, cest-dire dont les rsultats ne sont que trs peu modifis lorsque
17、la loi de rpartition relle des observations nest pas normale, un test de normalit noffre que peu dintrt. Ceci est par exemple le cas lorsque lon veut comparer laide dun test de Student les moyennes de deux chantillons alatoires. Par contre, lorsque la mthode nest pas robuste et que lon a des doutes
18、quant la normalit de la rpartition des observations, lemploi dun test de normalit peut tre utile, voire nces- saire. 1.3 Lusage des tests de normalit ne se limite pas aux cas mentionns en 1.2. Ils permettent notam- ment aussi de sassurer de la validit de la loi normale aux fins de prvision statistiq
19、ue ou, lorsquun pro- cessus produit des lments rpartis dune manire alatoire selon une loi normale, de vrifier la stabilit de son fonctionnement. 1) Le test de Chi-carr na pas t retenu en raison de son manque de puissance et surtout de la difficult den fournir une application normalise en ce qui conc
20、erne le choix du nombre, de la largeur et de lorigine des classes. AFNL NF X 06-050 75 m 1012372 Ob00272 053 NF X 06-050 -5- 1.4 Enfin, soulignons que la puissance de ces tests, cest-dire la probabilit de conclure au rejet de lhypothse de normalit lorsquelle est fausse, est, pour une situation dterm
21、ine, dautant plus grande que le nombre dobservations est grand. Par exemple, une dviation par rapport la loi normale qui appa- ratrait de manire vidente laide dun test de normalit dans un chantillon de grand effectif risque de ne pas tre dtecte par le mme test si le nombre dobservations est petit. I
22、I est donc prconis de ne pas descendre au-dessous de huit observations. II sensuit quon ne doit jamais perdre de vue le caractre relatif des conclusions de ces tests, tant entendu que ces conclusions peuvent tre remises en question par tout complment dinformation qui serait obte- nu par la suite. 1.
23、5 Lors de lapplication dun test de normalit, il convient de sassurer toujours que lindpendance des observations ne peut tre mise en doute. Ce nest, en effet, qu cette condition que, lors dun rsultat significatif du test, on peut conclure au rejet de lhypothse de normalit. 1.6 des donnes compltes, et
24、 non des donnes groupes ou tronques. Les tests dcart la distribution normale, slectionns dans le prsent document, sont destins 2 Gnralits 2.1 La manire la plus simple de sassurer de la normalit de la rpartition dune srie dobservations consiste dans la reprsentation graphique de ces observations dans
25、 un systme daxes coordonns dans lequel la fonction de rpartition de la loi normale serait reprsente par une droite. Cette mthode, dcrite dans larticle 3 du prsent document permet en effet de (voir) immdiatement si la rpartition observe est proche ou non dune rpartition normale. De plus, bien quune t
26、elle reprsen- tation graphique ne puisse tre considre comme un test rigoureux, linformation de synthse quelle fournit en fait le complment indispensable de tout test de normalit grce auquel, en cas de rejet de lhypothse nulle, il est souvent possible de faire ressortir le type dalternative qui pourr
27、ait convenir. 2.2 Un test de normalit est un cas particulier de test dhypothse. II consiste dabord dans le calcul dune fonction T des observations appele statistique du test. Lhypothse nulle dune rpartition normale est ensuite accepte ou rejete selon que la valeur de T appartient ou nappartient pas
28、un ensemble de valeurs proches dune valeur idale, caractristique dune loi normale. 2.3 Lensemble des valeurs de T qui conduisent au rejet de lhypothse nulle est la rgion critique du test et, lorsque cette hypothse est vraie, la probabilit a dobtenir une valeur de T appartenant cette rgion critique e
29、st le niveau de signification du test. Ce niveau donne donc la probabilit de rejeter tort lhypothse nulle lorsquelle est vraie (erreur de premire espce). La (ou les) borne(s) de la rgion critique (selon que le test est unilatral ou bilatral) est (ou sont) la (ou les) valeur(s) critique(s) de la stat
30、istique du test. 2.4 La puissance du test est la probabilit de rejeter lhypothse nulle lorsquelle est fausse. Une puis- sance leve garantit une probabilit faible daccepter tort lhypothse nulle lorsquelle est fausse (erreur de seconde espce). La puissance dun test varie selon lhypothse alternative qu
31、i est vraie lorsque lhypothse nulle est fausse. 2.5 Dans le cas des tests de normalit, on distingue deux catgories de tests. Lorsque lhypothse alter- native est prcise, cest-dire quon envisage une rpartition dont lasymtrie ou laplatissement sont dif- frents de ceux de la loi normale, le test est dir
32、ectionnel. Par contre, lorsque dans lhypothse alternative on ne prcise pas la forme de dviation par rapport la loi normale, le test est omnibus. Dans un test directionnel, la rgion critique est choisie de telle sorte que la puissance du test soit maxi- male. Dans un test omnibus, on se borne rpartir
33、 la rgion critique de telle sorte que la probabilit dune erreur de premire espce soit partage de manire gale entre les valeurs de la statistique les plus loi- gnes de la valeur idale. AFNL NF X 06-050 75 LOL2372 Ob00273 TT NF X 06-050 -6- 2.6 II est noter quun test directionnel est essentiellement u
34、nilatral. Dans le cas de lasymtrie, par exemple, il porte soit sur une asymtrie positive, soit sur une asymtrie ngative. Toutefois, lorsque plu- sieurs alternatives sont considres conjointement, le test est multidirectionnel. Cest notamment le cas lorsque lon considre la fois une asymtrie non nulle
35、et un aplatissement diffrent de celui de la loi nor- male. 2.7 Les tables statistiques B.l B.5 de lannexe B permettent de procder aux tests dcrits pour les niveaux les plus usuels : a = 0,05 et a = 0,Ol. II est noter quun test peut conclure au rejet de lhypothse nulle au niveau 0,05 et lacceptation
36、de cette mme hypothse au niveau 0,Ol. La confrontation des deux conclusions peut quelquefois tre utile pour insister sur la force ou la faiblesse de la conclusion et, de ce fait, justifier lventuelle ncessit dun complment dinformation. 3 Mthode graphique 3.1 Principe de cette mthode Elle consiste ex
37、aminer dans quelle mesure la proprit suivante, satisfaite pour des nombres distribus suivant une loi normale, est vrifie par les observations. Proprit : le polygone des frquences cumules, F(xi,.,), estimes partir des n observations ordonnes xi, lorsquil est tabli sur une grille chelle fonctionnelle
38、(loi normale) appele (papier gausso-arith- mtiquen pour laxe des frquences, est dautant plus voisin dune droite que la distribution do provient lchantillon est plus voisine dune distribution normale. Cette proprit nest vrifie que de faon approche pour de trs faibles valeurs de n (n e lo), mais lappr
39、oximation est suffisante ds que n est assez grand pour justifier ltude statistique de la normalit (n 2 IO). II y a videmment intrt utiliser des chantillons plus importants qui donnent davantage dinformations sur la nature de la distribution. 3.2 Les n observations ranges par valeur croissante (ou no
40、n dcroissante si plusieurs observations sont ga- les) seront notes : Utilisation des frquences cumules (graphique de Henry *)I XI, xp, ., Xi, ., x, avec : XI I xp I . 5 x, Diverses estimations des frquences cumules correspondantes F(xi,) peuvent tre envisages (elles sont pratiquement quivalentes du
41、point de vue graphique). Les plus frquemment utilises sont : -Fi=- , esprance mathmatique de la fonction de rpartition de la loi normale au point X = xi ; n+l , moyenne des frquences cumules jusqu 5 avec les valeurs xi-l et 9 comprises ; i - 0,5 -F.=- I n -F.=- i - 3/8 souvent rencontr dans des logi
42、ciels ; I n+1/4 -F.=- i -Or3 rang mdian quand n z 20. I n+0,4 I Dans ce qui suit, on utilisera Fi = - , sans que ceci constitue une rgle imprative. n+l 2) Appel crNormal probability plot) en anglais. AFNL NF X 06-050 95 LOL2372 Ob00274 2b -7- NF X 06-050 3.2.1 3.2.1 .I 1) Description de la grille La
43、 graduation de laxe des frquences cumules (gnralement laxe des ordonnes) est prsente soit sous forme dcimale : 0,Ol - 0,02 - 0,05 ., soit sous forme de pourcentages : 1 - 2 - 5., avec un nom- bre variable de dcimales. La position dun point de lchelle marqu F reprsente la valeur de u de la varia- ble
44、 normale rduite telle que : Mode opratoire pour de petits chantillons (par exemple, n e 30) Utilisation dun papier chelle fonctionnelle doi normale) pour laxe des frquences cumules IJ -t2/2 e dt=F Par exemple, F = 0,50 (ou 50 %) correspond u = O ; F = 0,ZO (ou 20 %), u = - 0,84 ; F = 0,80 u = + 0,84
45、. Les deux valeurs extrmes, F = O et F = 1, sont rejetes - 00 et + OQ respectivement. (ou 80 %), Lautre axe (en gnral, celui des abscisses) comporte une graduation arithmtique dont on prcisera la signification numrique de faon pouvoir y trouver les valeurs observes, de x1 (la plus petite) x, (ia plu
46、s grande). Ce papier existe dans le commerce en divers formats (voir annexe DI. 2) Utilisation I a) placer sur le papier les n points Pi dabscisse xi et dordonne Fi = - . Si, en raison, par exemple, de limprcision des mesures, plusieurs valeurs xi, xi+l, ., sont gales, il leur correspondra des point
47、s n+l distincts, de mme abscisse xi = xi+l = ., mais dordonnes croissantes, - i - i+l n + 1 n + 1 * b) tracer, si cela semble possible, la droite paraissant reprsenter au mieux lensemble des points (droite de Henry). Si la distribution est normale ou approximativement normale, on constatera quun tel trac est possi- ble, les points Pi se trouvant situs de manire alatoire au-dessus ou au-dessous de la droite, avec des carts variables pouvant souvent tre plus importants pour les points extrmes. En effet, dans le cas dune distribution nor