1、184 列联表独立性分析案例读教材填要点1列联表一般地,对于两个因素 X 和 Y, X 的两个水平取值: A 和 (如吸烟和不吸烟), Y 也有两A个水平取值: B 和 (如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为B22 列联表.YXBB 合计A a b a bA c d c d合计 a c b d a b c d2 2的求法公式 2 .n ad bc 2 a b c d a c b d3独立性检验的概念用随机变量 2研究两变量是否有关的方法称为独立性检验4独立性检验的步骤要判断“ X 与 Y 有关系” ,可按下面的步骤进行:(1)提出假设 H0: X 与 Y 无关;(2)根
2、据 22 列联表及 2公式,计算 2的值;(3)查对临界值,作出判断其中临界值如表所示:P( 2 x0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.87910.828表示在 H0成立的情况下,事件“ 2 x0”发生的概率5变量独立性判断的依据(1)如果 210.828 时,就有 99.9%的把握认为“ X 与 Y 有关系” ;(2)如果 26.635 时,就有 99%的把握认为“ X 与 Y 有关系” ;2(3)如果 22.70
3、6 时,就有 90%的把握认为“ X 与 Y 有关系” ;(4)如果 22.706 时,就认为没有充分的证据显示“ X 与 Y 有关系” ,但也不能作出结论“ H0成立” ,即 X 与 Y 没有关系小问题大思维1利用 2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用 2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量 n越大,这个估计值越准确如果抽取的样本容量很小,那么利用 2进行独立性检验的结果就不具有可靠性2在 2运算后,得到 2的值为 29.78,在判断因素相关时, P( 26.64)0.01和 P( 27.88)0.005,哪种说法是正确的?提示:两种说法均正确
4、P( 26.64)0.01 的含义是在犯错误的概率不超过 0.01的前提下认为两因素相关;而 P( 27.88)0.005 的含义是在犯错误的概率不超过0.005 的前提下认为两因素相关独立性分析的原理例 1 打鼾不仅影响别人休息,而且可能与患某种疾病有关下表是一次调查所得的数据:患心脏病 未患心脏病 总计每一晚都打鼾 30 224 254不打鼾 24 1 355 1 379总计 54 1 579 1 633根据列联表的独立性分析,是否有 99%的把握认为每一晚都打鼾与患心脏病有关系?解 由列联表中的数据,得 2的值为 2 68.0336.635.1 633 301 355 22424 225
5、41 379541 579因此,有 99%的把握认为每一晚打鼾与患心脏病有关系解决一般的独立性分析问题,首先由所给 22 列联表确定 a, b, c, d, a b c d的值,然后代入随机变量的计算公式求出观测值 2,将 2与临界值 x0进行对比,确定有多大的把握认为两个分类变量有关系31某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:积极支持企业改革不太支持企业改革总计工作积极 54 40 94工作一般 32 63 95总计 86 103 189根据列联表的独立性分析,是否有 99%的把握认为工作态度与支持企业改革之间有关系?解:由列联表中的
6、数据,得 2 10.7596.635,189 5463 4032 2949586103有 99%的把握认为工作态度与支持企业改革之间有关系独立性分析的应用例 2 下表是某地区的一种传染病与饮用水的调查表:得病 不得病 合计干净水 52 466 518不干净水 94 218 312合计 146 684 830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病 5 人,不得病 50 人,饮用不干净水得病 9 人,不得病 22 人按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异解 (1)假设 H0:传染病与饮用水无关把表中数据代入公式,得 254
7、.21,830 52218 46694 2146684518312因为当 H0成立时, 210.828 的概率约为 0.001,所以我们有 99.9%的把握认为该地区这种传染病与饮用不干净水有关(2)依题意得 22 列联表:得病 不得病 合计干净水 5 50 55不干净水 9 22 31合计 14 72 86此时, 2 5.785.86 522 509 214725531由于 5.7852.706,所以我们有 90%的把握认为该种疾病与饮用不干净水有关4两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有 90%的把握肯定
8、独立性分析的步骤:要推断“ X 与 Y 是否有关”可按下面的步骤进行:提出统计假设 H0: X 与 Y 无关;根据 22 列联表与 2计算公式计算出 2的值;根据两个临界值,作出判断2为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了 361 名高二在校学生,调查结果如下:理科对外语有兴趣的有 138 人,无兴趣的有 98 人,文科对外语有兴趣的有 73 人,无兴趣的有 52 人是否有 90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:理科 文科 总计有兴趣 138 73 211无兴趣 98 52 150总计 236 125 361根据列联
9、表中数据由公式计算得随机变量 2 1.87110 4 .361 13852 7398 2211150236125因为 1.871104 6.635.200 7065 3530 210010010595因此,有 99%的把握认为“注射药物 A 后的疱疹面积与注射药物 B 后的疱疹面积有差异” 在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表要注意列联表中各行、各列中数据的意义及书写格式3已知某班 n 名同学的数学测试成绩(单位:分,满分 100 分)的频率分布直方图如图所示,其中 a, b, c 成等差数列,且成绩在90,100内的有 6 人6(1)求 n 的值;(2)规定 60 分
10、以下为不及格,若不及格的人中女生有 4 人,而及格的人中,男生比女生少 4 人,借助独立性检验分析是否有 90%的把握认为“本次测试的及格情况与性别有关”?附:P( 2 k0) 0.10 0.05 0.010 0.005k0 2.706 3.841 6.635 7.879 2n ad bc 2 a b c d a c b d解:(1)依题意得Error!解得 b0.01.因为成绩在90,100内的有 6 人,所以 n 60.60.0110(2)由于 2b a c,而 b0.01,可得 a c0.02,则不及格的人数为0.02106012,及格的人数为 601248,设及格的人中,女生有 x 人
11、,则男生有 x4 人,于是 x x448,解得 x26,故及格的人中,女生有 26 人,男生有 22 人于是本次测试的及格情况与性别的 22 列联表如下:及格 不及格 总计男 22 8 30女 26 4 30总计 48 12 60结合列联表计算可得 2 1.6676.635,所以我们有 99%的把握即在犯错误不超过 0.01 的前提下认为性别与患色盲有关系这个结论只对所调查的 480 名男人和 520 名女人有效1下面是 22 列联表:y1 y2 总计x1 a 21 73x2 2 25 27总计 b 46则表中 a, b 的值分别为( )A94,96 B52,50C52,54 D54,52解析
12、:选 C a2173, a52.又 a2 b, b54.2下列关于 2的说法中正确的是( )A 2在任何相互独立问题中都可以用于检验是否相关B 2的值越大,两个事件的相关性越大C 2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事8件是否相关这一类问题D 2n ad bc a b c d a c b d答案:C3对于因素 X 与 Y 的随机变量 2的值,下列说法正确的是( )A 2越大, “X 与 Y 有关系”的可信程度越小B 2越小, “X 与 Y 有关系”的可信程度越小C 2越接近于 0, “X 与 Y 没有关系”的可信程度越小D 2越大, “X 与 Y 没有关系”的可
13、信程度越大解析:选 B 2越大, “X 与 Y 没有关系”的可信程度越小,则“ X 与 Y 有关系”的可信程度越大即 2越小, “X 与 Y 有关系”的可信程度越小4若由一个 22 列联表中的数据计算得 2的观测值为 4.013,那么在犯错误的概率不超过_的前提下,认为两个变量之间有关系解析:因为 4.0133.841,所以在犯错误的概率不超过 0.05 的前提下,认为两个变量之间有关系答案:0.055某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取 75 名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下
14、:阳性例数 阴性例数 合计新 5 70 75旧 10 18 28合计 15 88 103通过数据分析,说明有_的把握认为新防护服对预防工人职业性皮炎有效解析: 2 13.8266.635.103 518 7010 275281588故有 99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效答案:99%6为了解某班学生喜爱打篮球是否与性别有关,对本班 50 人进行了问卷调查得到了如下的列联表:喜爱打篮球 不喜爱打篮球 合计男生 a b5女生 c10 d合计 509已知在全部 50 人中随机抽取 1 人抽到爱打篮球的学生的概率为 .35(1)请将上面的列联表补充完整;(2)是否有 99%的把
15、握认为喜爱打篮球与性别有关;请说明理由附参考公式: 2 ,n ad bc 2 a b c d a c b d其中 n a b c d.P( 2 x0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001x0 2.072 2.706 3.841 5.024 6.635 7.879 10.828解:(1)列联表补充如下:喜爱打篮球 不喜爱打篮球 合计男生 20 5 25女生 10 15 25合计 30 20 50(2) 2 8.3336.635,50 2015 105 230202525有 99%的把握认为喜爱打篮球与性别有关一、选择题1有两个因素 X 与 Y 的一组数据
16、,由其列联表计算得 24.523,则认为 X 与 Y 有关系是错误的可信度为( )A95% B90%C5% D10%解析:选 C 23.841. X 与 Y 有关系的概率为 95%, X 与 Y 有关系错误的可信度为 5%.2通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计爱好 40 20 60不爱好 20 30 50总计 60 50 110计算得,10 2 7.8.110 4030 2020 260506050附表:P( 2 x0) 0.050 0.010 0.001x0 3.841 6.635 10.828参照附表,得到的正确结论是( )A在犯错误的
17、概率不超过 0.1% 的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过 0.1% 的前提下,认为“爱好该项运动与性别无关”C有 99%以上的把握认为“爱好该项运动与性别有关”D有 99%以上的把握认为“爱好该项运动与性别无关”解析:选 C 根据独立性分析的思想方法,正确选项为 C.3某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:非统计专业 统计专业男 13 10女 7 20为了分析主修统计专业是否与性别有关,根据表中的数据,得到 24.84,所以断定主修统计专业与性别有关系,这种判断出错50 1320 107 223272030的可能性为( )A0.
18、025 B0.05C0.975 D0.95解析:选 B 24.843.841,所以我们有 95%的把握认为主修统计专业与性别无关,即判断出错的可能性为 0.05.4已知 P(x22.706)0.10,两个因素 X 和 Y,取值分别为 x1, x2和 y1, y2,其样本频数分别是 a10, b21, c d35.若在犯错误的概率不超过 0.1 的前提下,认为X 与 Y 有关系,则 c 等于( )A5 B6C7 D8解析:选 A 经分析, c5.二、填空题5班级与成绩 22 列联表:优秀 不优秀 总计甲班 10 35 4511乙班 7 38 p总计 m n q表中数据 m, n, p, q 的值
19、应分别为_解析: m10717,n353873,p73845,q m n90.答案:17,73,45,906在吸烟与患肺病是否相关的判断中,有下面的说法:若 26.64,则在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系,那么在 100 个吸烟的人中必有 99 人患有肺病;从独立性分析可知在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有 99%的可能患有肺病;从独立性分析可知在犯错误的概率不超过 0.05 的前提下,认为吸烟与患肺病有关系时,是指有 5%的可能性使得推断错误其中说法正确的是_解析: 2是检验吸烟与患肺病相关程度的量,是相关关
20、系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说明正确答案:7统计推断,当_时,在犯错误的概率不超过 0.05 的前提下认为事件 A 与 B有关;当_时,认为没有充分的证据显示事件 A 与 B 是有关的解析:当 k3.841 时,就有在犯错误的概率不超过 0.05 的前提下认为事件 A 与 B 有关,当 k2.706 时认为没有充分的证据显示事件 A 与 B 是有关的答案: k3.841 k2.7068某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了 100 名电视观众,相关的数据如下表所示:文艺节目 新闻节目 总
21、计20 至 40 岁 4018 58大于 40 岁 15 27 42总计 55 45 100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)12解析:因为在 20 至 40 岁的 58 名观众中有 18 名观众收看新闻节目,而大于 40 岁的42 名观众中有 27 名观众收看新闻节目,即 , ,两者相差较大,所以,ba b 1858 dc d 2742经直观分析,收看新闻节目的观众与年龄是有关的答案:是三、解答题9某市对该市一重点中学 2018 年高考上线情况进行统计,随机抽查得到表格:语文 数学 英语 综合科目上线 不上线 上线 不上线 上线 不上线 上线 不上线
22、总分上线201 人 174 27 178 23 176 25 175 26总分不上线 43 人 30 13 23 20 24 19 26 17总计 204 40 201 43 200 44 201 43试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?解:对于上述四个科目,分别构造四个随机变量 , , , .21 2 23 24由表中数据可以得到:语文: 7.2946.64,21244 17413 2730 22014320440数学: 30.0086.64,2244 17820 2323 22014320143英语: 24.1556.64,23244 17619 2524
23、22014320044综合科目: 17.2646.64.24244 17517 2626 22014320143所以有 99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大10一次对人们休闲方式的调查中共调查了 124 人,其中女性 70 人,男性 54 人,女性中有 43 人主要的休闲方式是看电视,另外 27 人主要的休闲方式是运动;男性中有 21 人主要的休闲方式是看电视,另外 33 人主要的休闲方式是运动(1)根据以上数据建立一个 22 列联表;(2)能否在犯错误的概率不超过 0.05 的前提下认为性别与休闲方式有关系?解:(1)22 列联表如下:13休闲方式性别 看电视 运动 总计女 43 27 70男 21 33 54总计 64 60 124(2)假设休闲方式与性别无关,由公式得 2 6.201.124 4333 2721 270546460因为 6.2013.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过 0.05 的前提下认为休闲方式与性别有关