1、I 引言中华人民共和国国家标准数据的统计处理和解释I型极值分布样本异常值的判断和处理Statistical interpretation of data -Detection and handling of outlying observations in the sample of type I extreme value distribution UDC 519.25 GB 6380-86 1 . I 本标准规定了判断和处理I型极值分布总体的随机样本中所出现的异常值的一般原则和实施方法。I型极值分布也称贡贝尔(GumbeI)分布,其分布画数为F (x) exp(-e ) 概率密度函数为f
2、(川二士exp(-.11 e-Y) 其中:.11= (X a) /b, b: 0, -ooIJ,CC Z牛坷。:与G二0 b二1时的概率密度曲线如if 。.40I (xl / 飞 / 17 / 、:;:; 0.30 o. 2 0 10 o.“) 5 4 3 2 。l 2 x 因22 判断异常值的统计学原则2. 1 执行本标准时,应规定在样本中检出异常恒的个数的上限(占样本观测值个数的较小比例,当赳过了这个ti恨,对此样本的代表性应付慎重的研究和处理。2.2 判断单个异常值的检验规则根据实际情况,注定适宜的异常值检验规则(见本标准4),指完一个为检出异常值的统计检验的显著性水丰,简称检山水平。根
3、据和观测值的个数n确定统计量的临界值。将各观拥lji自代人检验规贝ljr j 1给出的统计址,所得值fi超过临界值,则判断事先确:.ti寺枪验的最大Al.洲fi为异常的,否则就判断没有异常值。检出;j(白取为lo;或50 0 2.3 判断多个异常仙的检验tffi!il!J在允许检出异常的个数可大于1的情况下,本标准规定的方法,是重复使用同一种判断单个异常ii扩J价验规则:fJ用指定的检出水、严和符合2.2规定的检验规则检验全体观测值,若没有检出异常值,贝IJ 整个中命验停止;.t;检出了个异常悦,就再用相同的检出水半和相同的规则,对除去已将出的异常lll2, 7 GB 6380-86 后余下的
4、观测值继续检驰,在到没有检出异常值,式检出的异常的个数超过:限为止。3 处理异常值的一般规则3. 1 对用统iI JJ注中走出的异常值,应尽可能斗找产生异常值的技术上的,物理t:的原因,作为处Jtl异常值的依据。3.2 处理异常值的方式有:异常f直保留征样本巾,并参加其后的数据分析g允许剔除异常俏,即把异常值从样本中剔除g允许剔除异常值,并追加适宜的观测的刘入样本g在找到实际原因时修正异常值。3.3 标准使用者应根据实际问题的性质,权衡斗找产生异常值原因的花费,def掬判断手非常值的得益及错i吴易lj除正常观测伯的风险,确定实施下述三个规则巾的一个za. 任何异常值,若元充分说明其异常的技术上
5、的、物理上的原因,则不得剔除或进行修正。队异常值中除有充分说明其异常的技术t的、物.fl!上的原因者可以剔除或进行修正外,如果在统ii上表现为高度异常的,也允许剔除或进行修正。统讨上表现为高度异常的意义是:指定个为检验异常值是否高度异常的统计枪验的显著性杰、!,简称剔除;Ji ( n)时,判断最大观测值x,叶为异常俏,否则就不能判为异常值。d. 在给出剔除水、!俨的情况下,由附表1沓出对应二fn,目的1ro;界值D1. c时,当气D,.,(的时,判断. . (川为高度异常,否则就判断过j没有高度异常的异常的。2;尽GB 6380-86 4.2.2 i之例例I(使)IJ狄克逊型中:E验讼的习一、
6、例)叮动剪床切断钢料,每口记录后卡1)前卜的100根例料的K:度,竹均批数据,周内i录6批,得到每H最大值数据如下:(单位:mm)2 I. 4日,319.62.320.44, :ll9.51, 329.73, 320.410 现在中南导)主中最大fli是否异常。根据纠验,可以认XJ上述样本主体来自lei).个1lI板值分布,从这些观测敬仰ljI挑!忖占主;j、frrY0 )( 11) 319.51,最大i!i均x,329.73,次大的均可(二321.46,对n二。,il算统ithi子D I ); c.1, 329.73 321.46 = r Ill 一一一一一一一一一一一一一一一士0.80!)
7、( (6) )(I) 329.73 39.51 取检出1)(、l5 u. l飞,自1附忐l得D的1111;界的Do. .,5 C 6 l兰队日81,由JJ=II.削白().6自l/J,CoJ. 放如断X川329.73为异常恼。又取剔除水、a=l川沓附表1得C6l=0.796,1/1J/JD:。”(肘,故判断x,们32日.73为,f;j)立异常。经复核合1实,此数据系11i己,实际值为:ll9.7:l0 例2(革复使用狄ii逊型检验法以判断多个异常iri的)例)从某种绝缘材料Ii llili机地取出11个样川,在右条ftF迸ii寿命试验,其失效时间分别注I(单位:h) 4.09, 17.31,
8、60.78, 62.16, 64.15, 711.67, 71.85, 75.50, 79.35, 80.00, 88.111。现在中击验4.0甘,17.31是否异常。理论J.表明这种绝缘材料的寿命T服从Ili极小值分布,因此经变换X= ! TC;所得的样本口I以认均是l)旦极f1(分布的,即对来日l型板的分布的样木x( (88.01, x ( , c 80.00. X川J此16,X,= 60.78,Xoo卢17.31, .山三4.盹检验最大阳1)(1)(Ill皮次大观测l伯.( 10)是否异常。这明n=ll,ii算统iI最D x, X, 士r. = . x (10) X /1 -a(n)时,
9、判断最大观测值x,叶为异常值,否则就不能判为异常书iad. 在给出剔除水、F的情况下,由附表2查HJ对应fn,a的临界伯Il a (的。当J/1-a(的时,问断X川为高度异常,否则就判断为没有高度异常的异常值。4. 3. 2 ,j.;(91J 例3(使用欧文型检验法的示例)某地某河流年最大经im泣的逐年观测数据如r:(啦位km3 /s) l.69, 1.22, 0.75, 1.26, 1.73, 1.74, 3.09, 1.57, 1.97, 2.23, 2.03, 1.58, 0.90, 2.40, 1.6日,1.96, 2.30, 1.79, 1.48, 2.22, 1.91, 3.0日,
10、2.08,1.0日,4.31,l.56, 1.88, 2.10, 2.02, 1.74,1.18, 2.12, 1.38, 0.90, 1.45, 1.7日,1.97,2.27, 2.34, 2.44, 现在检验最大值X4U)=4.31是否异常。可以认为年最大经流量的逐年观测数据近似地服从I型极值分布。对k述观测数据稍加辑安理吁以看出,其最小值x,=o.1s,最大值X咐4.31以及次大值x,=3.09,对除去,XI I)平Hx巾后的所奇数据,先计算S1l二0.502,再算得统计量I的值x x, , , 1=111王f4.31 3.09 取检出水中,5 ,查附表2得I的临界值IU.95 (40)
11、 认为x = 4.31是异常值。2:0 1一一=2.4:l 0.502 = 2.84,由flI U.95 (40) ,故不能n 6 )=r,= 7 8 9 10 11 12 13 l4 15 16 17 D二rro工l8 19 20 21 22 23 24 25 26 21 28 29 30 GB 6380-86 附录A(补充件;去Al狄克逊型检验法的临界值表统tt 量。.90 。665x,Y , 0.606 ,Y川】.Y,1 , 0 564 0. 534 0. 644 0.619 0.597 0.581 0.567 0 554 0. 543 0.533 x,的X- 0. 524 X1-X ,
12、 0. 5 l6 0. 509 o. 502 0. 496 0. 490 0. 485 u. 480 0. 475 0 471 0.467 0. 463 0.-159 0. 456 D.95 。.99 0. 739 o. 850 0. 68 I 0.796 。.639 i人7560.608 0.726 0.700 。,7900. 676 0 767 o. 656 0 748 0. 638 IJ.73l 0.624 0.7l7 0. 61 l 0. 705 0.600 0. 694 0. 590 o. 684 0.581 0. 675 o. 573 0.667 0.565 o. 660 o. 5
13、58 0 654 。.552 0 648 0. 546 0.642 0. 541 0. 636 0.536 0. 63l 0.53l 0. 626 0.527 0.622 0.523 0.6l8 0. 5l 9 。.6140 515 0. 6l 0 0.5ll 。.606251 GB 6380 86 表i2欧文型枪验洁的临界值表 I 0.90 IJ BS 。吐9n 30 2.3l 3.05 4 74 31 2.29 3.03 .j 7 1 32 2. 2 3. ill ,1 li8 33 2.27 2.99 I. 65 34 2.26 2 97 l 62 35 2.25 2.95 I. 61
14、36 2 24 2 93 l. 58 37 2.23 2. 81 I. .i6 38 2 22 2.90 i. 54 39 2.21 2.89 I 52 40 2 20 2 88 l so 41 2. 19 2. 87 4 . 1日42 2. lB 2.86 i. 46 43 2 .17 2.85 1. 41 44 2. 16 2. 81 .j 12 45 2 .16 2.83 4 40 46 2 15 2. 82 4.飞947 2 15 2 81 .j 38 48 2. 14 2.80 4. :l 7 49 2 14 2.79 4.36 50 2.13 2 78 4.35 1F.本;表是在Dp s 845计算机上统ii模拟M0 10000次的结果。附加说明:本标准由全国统计方出应用你准化技术委员会提出。本标准由全国统计方法应用标准化技术委员会数据的处理和解释分委员会I作组起用。本标准主要起草人马逢时、许其洲、史i葛济。 - 】