1、11.1 独立性检验在从烟台大连的某次航运中,海上出现恶劣气候,随机调查男、女乘客在船上晕船的情况如下表:晕船 不晕船 合计男人 32 51 83女人 8 24 32合计 40 75 115问题 1:上述表格在数学中是如何定义的?提示:此表格为 22 列联表问题 2:据此资料,你是否认为在恶劣气候中航行,男人比女人更容易晕船?提示:不能认为问题 3:判断上述问题应运用什么方法?提示:独立性检验122 列联表的定义对于两个研究对象和,有两类取值类 A 和类 B,也有两类取值类 1 和类 2,可以得到如下列联表所示的抽样数据:类 1 类 2 合计类 A a b a b类 B c d c d合计 a
2、 c b d a b c d将形如此表的表格称为 22 列联表22卡方统计量为了消除样本量对| ad bc|的影响,统计学中引入下面的量(称为卡方统计量): 2 n( ad bc) 2( a b) ( c d) ( a c) ( b d)其中 n a b c d 为样本量3独立性检验利用 2统计量来研究两类对象是否有关系的方法称为独立性检验4要推断“与有关系” ,可按下面的步骤进行(1)提出假设 H0:与没有关系;(2)根据 22 列联表与公式计算 2的值;(3)查对临界值(如表),作出判断P( 2 x0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.
3、005 0.001x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828例如:若 210.828,则有 99.9%的把握认为“与有关系” ;若 26.635,则有 99%的把握认为“与有关系” ;若 22.706,则有 90%的把握认为“与有关系” ;若 22.706,则认为没有充分的证据显示“与有关系” ,但也不能作出结论“H0成立” ,即不能认为与没有关系1在列联表中,如果两个变量没有关系,则应满足 ad bc0.因此| ad bc|越小,说明两个变量之间关系越弱;| ad bc|越大,说明两个变量之间关系越强2独立性
4、检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度3例 1 在一项有关性别与喜欢吃甜食的关系的社会调查中,发现调查的男性为530 人,女性为 670 人,其中男性中喜欢吃甜食的为 117 人,女性中喜欢吃甜食的为 492人,请作出性别与喜欢吃甜食的列联表思路点拨 在 22 列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可精解详析 作列联表如下:喜欢吃甜食 不喜欢吃甜食 合计男 117 413 530女 492 178 670合计 609 591 1 200一点通 (1)分清类别是作列联表的关键;(2)
5、表中排成两行两列的数据是调查得来的结果;(3)选取数据时,要求表中的四个数据 a, b, c, d 都要不小于 5,以保证检验结果的可信度1下面是一个 22 列联表:y1 y2 合计x1 a 21 73x2 8 25 33合计 b 46则表中 a_, b_解析: a2173, a732152.又 a8 b, b52860.答案:52 6042某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的 426 名学生中有 332 名在考前心情紧张;性格外向的 594 名学生中在考前心情紧张的有 213 人,作出 22 列联表解:作列联表如下:性格内向 性格外向 合计考前心情紧张 332 2
6、13 545考前心情不紧张 94 381 475合计 426 594 1 020例 2 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取 75 名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:阳性例数 阴性例数 合计新防护服 5 70 75旧防护服 10 18 28合计 15 88 103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由思路点拨 通过有关数据的计算,作出相应的判断精解详析 提出假设 H0:新防护服对预防皮肤炎没有明显效果根据列联表中的数据可求得 2 13.826.103(
7、518 7010) 275281588因为 H0成立时, 210.828 的概率约为 0.001,而这里 213.82610.828,所以我们有 99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效一点通 根据 22 列联表,利用公式计算 2的值,再与临界值比较,作出判断n( ad bc) 2( a b) ( c d) ( a c) ( b d)53有 300 人按性别和是否色弱分类如下表:男 女正常 132 151色弱 12 5色弱与性别是否有关?解:提出假设 H0:色弱与性别无关通过计算 2知, 2n( ad bc) 2( a b) ( c d) ( a c) ( b d)30
8、0( 1325 15112) 2( 132 151) ( 12 5) ( 132 12) ( 151 5)3.683 9.因为 H0成立时, 22.706 的概率约为 0.10,而这里 23.683 92.706,故有 90%的把握说色弱与性别有关4有甲、乙两个班级进行一门课的考试,按照学生的考试成绩优秀和不优秀统计后,得到如下列联表:优秀 不优秀 合计甲班 10 35 45乙班 7 38 45合计 17 73 90利用列联表的独立性检验估计成绩与班级是否有关系解:提出假设 H0:成绩与班级没有关系由列联表中所给数据,可得 20.6530.708.90( 1038 735) 217734545
9、因为当 H0成立时, 20.653 的概率大于 40%,这概率比较大,所以根据目前的调查数据,不能否定假设 H0,即不能作出成绩与班级有关的结论例 3 为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990 件产品中有合格品 982 件,次品 8 件;甲6不在生产现场时,510 件产品中有合格品 493 件,次品 17 件试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响思路点拨 正确地写出两个分类变量的四个取值,画出 22 列联表是解决问题的关键,利用 2公式,计算 2的值,进而与临界值比较大小,作出结论精解详析 22 列
10、联表如下合格品数 次品数 合计甲在生产现场 982 8 990甲不在生产现场 493 17 510合计 1 475 25 1 500提出假设H0:质量监督员甲是否在生产现场与产品质量的好坏无明显关系根据 2公式得 2 13.097.1 500( 98217 4938) 29905101 47525因为 H0成立时, 210.828 的概率约为 0.001,而这里 213.09710.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量的好坏有关系一点通 (1)通过分析题可以画出列联表,然后求得 2值(2)进行独立性检验时和反证法的思想一样,都是先假设与预定的结论相反,然后推出
11、矛盾,在实际做题中成了程序化的步骤,只需求出 2值,与临界值相比较即可5为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500 位老年人,结果如下:性别是否需要志愿者男 女 合计需要 40 30 70不需要 160 270 430合计 200 300 500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;7(2)有多大的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由附:P( 2 x0) 0.050 0.010 0.001x0 3.84
12、1 6.635 10.828 2 .n( ad bc) 2( a b) ( c d) ( a c) ( b d)解:(1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为 14%.70500(2)提出假设 H0:该地区的老年人是否需要志愿者帮助与性别无关,由列联表中所给数据,可得 2 9.967.500( 40270 30160) 220030070430因为 H0成立时, 29.9676.635,所以有 99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮
13、助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好6电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了 100名观众进行调查,其中女性有 55 名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:8将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷” ,已知“体育迷”中有 10 名女性根据已知条件完成下面的 22 列联表,并据此资料你是否有 95%的把握认为“体育迷”与性别有关?非体育迷 体
14、育迷 合计男女合计解:由频率分布直方图可知,在抽取的 100 人中, “体育迷”有 25 人,从而 22 列联表如下:非体育迷 体育迷 合计男 30 15 45女 45 10 55合计 75 25 100将 22 列联表中的数据代入公式计算,得 2 3.030.100( 3010 4515) 275254555 10033因为 3.03010.828,12有 99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的7有两个变量 x, y,其一组观测值如下面的 22 列联表所示:y1 y2x1 a 20 ax2 15 a 30 a其中 a,15 a 均为大于 5 的整数,则 a 取何值时
15、,有 90%的把握认为 x 与 y 之间有关系?解:查表可知,要使 x 与 y 之间有 90%的把握认为有关系,则 22.706,由题意,得 2 65a( 30 a) ( 20 a) ( 15 a) 220451550 ,65( 65a 300) 220451550 13( 13a 60) 26090由 22.706,解得 a7.19 或 a5,且 15 a5, aZ, a8,9.当 a 等于 8 或 9 时,有 90%的把握认为 x 与 y 之间有关系8某工厂有 25 周岁以上(含 25 周岁)工人 300 名,25 周岁以下工人 200 名为研究工人的日平均生产量是否与年龄有关,现采用分层
16、抽样的方法,从中抽取了 100 名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25 周岁以上(含 25 周岁)”和“25 周岁以下”分为两组,再将两组工人的日平均生产件数分成 5 组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图规定日平均生产件数不少于 80 件者为“生产能手” ,请你根据已知条件完成 22 列联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”?解:由已知得样本中有 25 周岁以上组工人 100 60 人,25 周岁以下组工人,300500100 40 人由频率分布直方图可知,在
17、抽取的 100 名工人中, “25 周岁以上组”中20050013的生产能手有 60(0.005 00.020 0)1015(人), “25 周岁以下组”中的生产能手有40(0.032 50.005 0)1015(人),据此可得 22 列联表如下:生产能手 非生产能手 合计25 周岁以上组 15 45 6025 周岁以下组 15 25 40合计 30 70 100所以得 2n( ad bc) 2( a b) ( c d) ( a c) ( b d)100( 1525 1545) 260403070 1.786.2514因为 1.7862.706,所以没有 90%的把握认为“生产能手与工人所在的年龄组有关”
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1