GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf

上传人:livefirmly316 文档编号:166348 上传时间:2019-07-15 格式:PDF 页数:12 大小:230.06KB
下载 相关 举报
GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf_第1页
第1页 / 共12页
GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf_第2页
第2页 / 共12页
GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf_第3页
第3页 / 共12页
GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf_第4页
第4页 / 共12页
GB T 6380-2008 数据的统计处理和解释.Ⅰ型极值分布样本离群值的判断和处理.pdf_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ICS 0312030A 41 囝雷中华人民共和国国家标准GBT 6380-2008代替GBT 6380 1986数据的统计处理和解释I型极值分布样本离群值的判断和处理Statistical interpretation of data-Detection and treatment ofoutliers in the sample from type I extreme value distribution200807-28发布 20090101实施丰瞀鹃紫瓣警麟瞥鐾发布中国国家标准化管理委员会“。目 次GBT 6380-2008前言【言一1范围12规范性引用文件l3术语、定义和符号131术

2、语和定义132符号和缩略语24离群值判断241离群值的来源与判定242检出离群值个数的上限-243单个离群值情形244多个离群值情形25离群值处理351处理方式352处理规则353备案36单个离群值的判断规则361检验方法的选择362狄克逊(Dixon)检验法363欧文(Irwin)检验法47多个离群值的判断规则571检验步骤572多个离群值检验示例-5附录A(规范性附录)临界值表6参考文献-8前 言GBT 6380-2008本标准代替GBT 6380-1986数据的统计处理和解释 I型极值分布样本异常值的判断和处理。本标准与GBT 6380-1986相比较,技术内容的变化主要包括:按GBT

3、11 2000标准化工作导则第1部分:标准的结构和编写规则的要求对标准格式进行了修改;增加了术语、定义和符号;将标准名称中“I型极值分布样本异常值的判断和处理”改为“I型极值分布样本离群值的判断和处理”;将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异;增加了检出水平和剔除水平的定义;检出水平由原标准中“检出水平一般取为1,5或10”改为“除非根据本标准达成协议的各方另有约定,检出水平应为o05”;明确规定剔除水平的值,除非根据本标准达成协议的各方另有约定,剔除水平应为001;增加了各种情形“统计离群值”的检验步骤;增加了“多个离群值的

4、判断规则”;将“没有异常值”和“没有高度异常的异常值”分别改为“未发现离群值”和“未发现统计离群值”。本标准的附录A是规范性附录。本标准由全国统计方法应用标准化技术委员会提出并归口。本标准起草单位:宁波工程学院、中国标准化研究院、北京大学、天津大学、海南省产品质量监督检验所。本标准主要起草人:荆广珠、丁文兴、于振凡、蔡军伟、孙山泽、马逢时、黄艳等。本标准所代替标准的历次版本发布情况为:GBT 6380 1986。GBT 6380-2008引 言从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。

5、人们各自从不同的来源取得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计方法就可使数据整理、排列的有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出来,这样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。国家标准数据的统计处理和解释包含以下各项:统计容忍区间的确定(GBT 3359)均值的估计和置信区间(GBT 3360)在成对观测值情形下两个均值的比较(GBT 3361)二项分布参数的估计与检验(GBT 4088)泊松分布参数的估计和检验(GBT 4089)正态性检验(G13T 4882)正态样本离群值的判断和

6、处理(GBT 4883)正态分布均值和方差的估计与检验(GBT 4889)正态分布均值和方差检验的功效(GBT 4890)I型极值分布样本离群值的判断和处理(GBT 6380)伽玛分布(皮尔逊型分布)的参数估计(GBT 8055)指数分布样本离群值的判断和处理(GBT 8056)本标准尚无相应的国际标准。数据的统计处理和解释I型极值分布样本离群值的判断和处理GBT 6380-20081范围本标准规定了判断和处理I型极值分布的样本中上侧离群值和I型极小值分布的样本中下侧离群值的一般原则和实施方法。本标准适用于来自I型极值分布或I型极小值分布总体的样本。本标准适用于样本量为5至50的情形。注:由于

7、经过变换z一一x后,I型极小值分布的随机变量将服从I型极值分布,所以只对I型极值分布给出检出上侧离群值的方法。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。ISO 35341:2006统计学词汇及符号第1部分:一般统计术语与用于概率的术语ISO 35342:2006统计学词汇及符号第2部分:应用统计3术语、定义和符号ISO 35341:2006、ISO 35342:2006

8、确立的术语、定义和符号以及下列术语、定义和符号适用于本标准。31术语和定义311I型极值分布type I extreme value distribution(Gumbel distribution)具有下述分布函数的连续型分布。F(z)一exp(一e_一6)其中:bO,一。O,-ooD,。(n)时,判定z(。)为离群值,否则判未发现z。是离群值。d)对于检出的离群值z。,确定剔除水平a。,在附录A表A1中查出临界值D。(n)。当D。D,一。-(n)时,判定z(。,为统计离群值,否则判未发现zc。,是统计离群值(即z(。,为歧离值)。622狄克逊(Dixon)检验法示例GBT 6380-200

9、8自动剪床切断钢料,每日记录最初剪下的100根钢料的长度,作为一批数据,一周内记录了6批,得到每日最大值数据如下(单位:ram);32146 31962 32044 31951 32973 32041根据经验,可以认为总体为I型极值分布。假如使用者关心的是数据中是否有上侧离群值,可采用本条中的方法。本例中,n=6,最小观测值为X(1)=31951,最大观测值为孙)一32973,次大观测值为z一32146,按式(1)计算统计量D。的值。 Ds一罢篇=差i名导舞=oso。z确定检出水平a=005,在附录A表A1中查出n的临界值Do。(6)一0681。由于D6一o80920681一D0 95(6),

10、故判定z(6)一32973为离群值。对于检出离群值z。=32973,进一步给出剔除水平a一001,在附录A表A1中查出D。的临界值D。,(6)一o796,由于D。一o8090796一D。(6),故判断z(6)一32973为统计离群值。经复核查实,此数据系误记,实际值为31973。63欧文(Irwin)检验法631检验步骤当样本量30J。一。(n)时,判定zc。为离群值,否则判未发现zc。,是离群值。d)对于检出的离群值z(确定剔除水平a。,在附录A表A2中查出临界值I一-(n)。当Lj,一。-(”)时,判定zc。为统计离群值,否则判未发现X cm是统计离群值(即zm为歧离值)。632欧文(Ir

11、win)检验法示例某地某河流年最大经流量的逐年观测数据如下(单位:km3s):169 122 075 126 i73 174 309 i57 197 223203 158 090 240 165 196 230 179 148 2221t 91 306 2。08 106 4。31 156 188 210 202 1,74118 212 138 090 145 178 197 227 234 244经验表明年最大经流量的逐年观测数据近似地服从I型极值分布,需要判断最大值Xcm一431是否为离群值。对上述观测数据稍加整理可以看出,其最小观测值为,一075,最大观测值为z cm一431,次大观测值为

12、z。一309。对除去最小观测值z(1)、最大观测值zcw后的所有观测值,先按式(3)计算5的值,再按式(2)计算统计量L的值。 L。一墨塑产一生等一243j U0U4GBT 6380-2008确定检出水平a=005,在附录A表A2中查出I临界值I。(40)一288。由于I。一2430656一D09;(11),故判定如,)一409为离群值,即判定原数据中409为离群值。对于检出的离群值z,=一409,确定剔除水平a。=001,在附录A表A1中查出临界值D。9。(11)一0748,由于D。,一06750748一D。(11),故判未发现如。)一一409是统计离群值(即:,一一409为歧离值,也即判定

13、原数据中409为歧离值)。再对余下的10个数据继续检验,此时样本量变为10,按式(1)计算统计量D,。的值: D,。一詈意一菩昌薯三黜一osst仍取检出水平a=005,在附录A表A1中查出临界值D5(10)=0676,由于D1。一06340676=Ds(10),故判未发现z(,。)一1731为离群值(即未发现原数据中1731是离群值)。至此整个检验停止。GBT 6380-2008附录A(规范性附录)临界值表狄克逊检验的临界值表见表A1,欧文检验的J临界值表见表A2。表A1狄克逊检验的临界值表统计量 o90 o95 o995 0665 0739 o8506 0606 0。681 07967 D一

14、=瓮昔詈 o564 0639 o7568 0534 0608 07269 o644 0700 o79010 0619 0616 07671l 0597 o656 074812 058 0638 o73113 0567 0624 071714 O554 O611 070515 o543 0600 069416 0533 0590 068417 o524 0581 067518 0516 0573 o66719 0509 o565 066020 9一薏芎詈 0502 0558 065421 0496 o55Z 064822 0490 o546 064223 o485 0541 o63624 048

15、0 0536 063125 0475 0531 062626 0471 o527 062287 0467 0523 061828 o463 0519 061429 o459 0515 061030 0456 o511 06066表A2欧文检验的临界值表GBT 6380-2008统计量 090 o95 o9931 2Z9 303 47132 228 301 46833 227 299 46534 2 26 297 46235 225 295 46036 224 293 45837 223 291 45638 L一墨止I业 222 290 454539 221 289 452其中:40 220 2

16、88 45041 一商台。“一” 219 287 44842 218 286 4,1543 ;=高静, 217 285 44444 216 284 44245 216 283 44046 215 282 43947 215 281 43848 214 280 43749 214 279 4 3650 213 278 4357GBT 6380-2008参考文献1马逢时,许其洲极值分布的异常值检验J数理统计与应用概率,1986,1(1)81912费鹤良极值分布和威布尔分布异常数据的检验方法J应用数学学报,1998,21(4)5495613F E GrubbsSample criterion for

17、 testing observationStatisticsAnnals of MathematicalStatisticsJ,1950,212758E4 J O IrwinOn a criterion for the rejection of Outlying observationsJBiometrics,1925,172382505 w J DixonAnalysis of extreme valueAnnals of Mathematical Statistics,1950,214885066W J DixonProcessing data for outliersBiometrics,1953,9(1)74898

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国家标准

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1