1、1第 3 章 统计案例一、独立性检验1独立性检验的思想及方法独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个对象没有关系”成立,在该假设下构造的随机变量 2应该很小,如果由观测数据计算得到的 2的观测值很大,则在一定程度上说明假设不合理根据随机变量 X 的含义,可以通过概率来评价假设不合理程度2独立性检验的一般步骤(1)提出假设 H0;(2)根据样本数据列 22 列联表,计算 2 ;n( ad bc) 2( a b) ( a c) ( b d) ( c d)(3)比较 2与临界值的大小并作出判断二、回归分析回归
2、分析是对具有相关关系的两个变量进行统计分析的一种常用方法建立回归模型的基本步骤:(1)确定两个变量;(2)画出散点图;(3)进行相关系数检验;(4)确定线性回归方程类型,求出回归方程建立回归模型的基本步骤,不仅适用于线性回归模型,也适用于非线性回归模型的建立(考试时间:120 分钟 试卷总分:160 分)2一、填空题(本大题共 14 小题,每小题 5 分,共 70 分)1下列有关线性回归的说法变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;在平面直角坐标系中用描点的方法得到具有相关关系的两个变量的一组数据的图形叫做散点图;线性回归直线得到具有代表意义的线性回归方程;
3、任何一组观测值都能得到具有代表意义的线性回归方程其中错误的是_解析:任何一组观测值并不都能得到具有代表意义的线性回归方程答案:2下表是 x 与 y 之间的一组数据,则 y 关于 x 的线性回归直线必过点_.x 0 1 2 3y 1 3 5 7解析: x 1.5, y 4,样本点的中心为(1.5,4),0 1 2 34 1 3 5 74而回归直线必过样本点的中心,故必过(1.5,4)答案:(1.5,4)3对两个变量 y 和 x 进行线性相关性检验,已知 n 是观察值组数, r 是相关系数,且已知: n7, r0.953 3; n15, r0.301 2; n17, r0.999 1; n3, r
4、0.995 0,则变量 y 和 x 具有线性相关关系的是_(填序号)解析:判断变量 y 与 x 是否具有线性相关关系时,观察值组数 n 不能太小若 y 与 x具有线性相关性,则相关系数| r|0.75,故错答案:4由线性回归直线方程 y 4.75 x157,当 x28 时, y 为_解析:将 x 的值代入回归直线方程得估计值 y 4.7528157290.答案:2905一家保险公司调查其总公司营业部的加班情况,收集了 10 周中每周加班工作时间y(小时)与签发保险单数目 x 的数据如下表所示:x 825 215 1 070 550 480 920 1 350 325 670 1 215y 3.
5、5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0已知用最小二乘法估计求出的线性回归方程的斜率为 0.003 585,则线性回归方程为_解析:线性回归直线 y b x a 过样本中心点( , ),故将 , 求出代x y x y 入即可答案: y 0.118 20.003 585 x6某班主任对全班 50 名学生进行了作业量多少的调查,数据如下表,则喜不喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为_认为作业多 认为作业不多 合计喜欢玩电脑游戏 18 9 27不喜欢玩电脑游戏 8 15 233合计 26 24 50解析:假设 H0:喜欢玩电脑游戏与认为作业量的多少没有
6、关系,根据列联表中的数据,可以求得 2 5.06,对照临界值表,当假设成立时,50( 1815 98) 227232624 25.024 的概率约为 0.025,所以我们有 97.5%的把握认为喜欢玩电脑游戏与认为作业量的多少有关系答案:97.5%7下列关于回归分析与独立性检验的说法正确的是_(填序号)回归分析和独立性检验没有什么区别;回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;独立性检验可以 100%确定两个变量之间是否具有某种关系解析:由回归分析、独立性检验的意义知,
7、回归分析与独立性检验都是研究两个变量之间的相关性,但方法与手段有所不同,研究角度不同由其意义知,正确答案:8. 如图,有 5 组数据对( x, y),去掉哪组数据后剩下的 4 组数据的线性相关程度最大_解析:由散点图可知,除 D 之外的其余各点近似地在某条直线附近,而 D 点则偏离这一直线故应去掉 D.答案: D9某单位为了了解用电量 y(度)与气温 x()之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程 y b x a ,其中 b 2.现预测当气温为4 时,用电量的度数约为_用电量 y(度 ) 24 34 38 64气温 x() 18 13 10
8、1解析:由题意可知 x (1813101)10, y (24343864)40, b 14 142.又回归方程 y 2 x a 过点(10,40),故 a 60,所以当 x4 时, y 2(4)6068.答案:6810吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长下表给出性别与吃零食的 22 列联表:男 女 总计4喜欢吃零食 5 12 17不喜欢吃零食 40 28 68合计 45 40 85试回答吃零食与性别有关系吗?(“有”或“没有”)_解析: 2 4.7223.841.n( ad bc) 2( a b) ( c d) ( a c) ( b d) 85
9、( 140 480) 217684540故约有 95%的把握认为“吃零食与性别”有关答案:有11变量 x, y 具有线性相关关系,当 x 的取值分别为 8,12,14 和 16 时,通过观测知 y 的值分别为 5,8,9 和 11,若在实际问题中, y 的预报值最大是 10,则 x 的最大取值不能超过_解析:因为 x16 时, y11;当 x14 时, y9,所以当 y 的最大值为 10 时, x 的最大值属于区间(14,16)答案:1512下表是某厂 14 月份用水量(单位:百吨)的一组数据,月份 x 1 2 3 4用水量 y 4.5 4 3 2.5由某散点图可知,用水量 y 与月份 x 之
10、间有较好的线性相关关系,其线性回归方程是y 0.7 x a ,则该厂 6 月份的用水量约为_解析: x2.5, y3.5, b 0.7, a 3.50.72.55.25.当 x6 时, y 0.765.251.05.答案:1.05 百吨13为研究变量 x 和 y 的线性相关关系,甲、乙两人分别作了研究,利用线性回归方程得到回归直线 l1和 l2,两人计算知 x 相同, y 也相同,则 l1与 l2的位置关系是_解析:每条回归直线都过样本的中心( x, y)答案: l1与 l2有公共点( x, y)14变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.
11、5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1) r1表示变量 Y 与 X 之间的线性相关系数, r2表示变量 V 与 U 之间的线性相关系数,则_(填序号) r2 r10;0 r2 r1; r20 r1; r2 r1.解析:对于变量 Y 与 X 而言, Y 随 X 的增大而增大,故 Y 与 X 正相关,即 r10;对于变量 V 与 U 而言, V 随 U 的增大而减小,故 V 与 U 负相关,即 r27.879,所以有 99.5%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的
12、全体员工对待企业改革的态度与其工作积极性是有关的18(本小题满分 16 分)某数学老师身高 176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm 和 182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高约为多少?解:由题意父亲身高 x cm 与儿子身高 y cm 对应关系如表:x 173 170 1766y 170 176 182则 x 173, y 176, (xi x)(yi y)173 170 1763 170 176 1823 3 i 1(173173)(170176)(170173)(176176)(176173)(182176)1
13、8,(xi x)2(173173) 2(170173) 2(176173) 218.3 i 119(本小题满分 16 分)某中学对高二甲、乙两个同类班级进行“加强语文阅读理解训练对提高数学应用题得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60 分以下 61 70 分 71 80 分 8190 分 91100 分甲班(人数) 3 6 11 18 12乙班(人数) 4 8 13 15 10现规定平均成绩在 80
14、分以上(不含 80 分)的为优秀(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面 22 列联表,并问是否有 75%的把握认为“加强语文阅读理解训练对提高数学应用题得分率”有帮助解:(1)由题意知,甲、乙两班均有学生 50 人,甲班优秀人数为 30 人,优秀率为60%,3050乙班优秀人数为 25 人,优秀率为 50%,所以甲、乙两班的优秀率分别为 60%和 50%.2550(2)列联表如下:7因为 2 1.010,100( 3025 2025) 250505545 10099所以由参考数据知,没有 75%的把握认为“加强语文阅读理解训练对提高数学应用题得分率”有帮助20(本小题满
15、分 16 分)某运动员训练次数与运动成绩之间数据关系如下:次数( x) 30 33 35 37 39 44 46 50成绩( y) 30 34 37 39 42 46 48 51(1)作出散点图;(2)求出回归方程;(3)计算相关系数,并利用其检验两变量的相关关系的显著性;(4)试预测该运动员训练 47 次和 55 次的成绩解:(1)作出该运动员训练次数( x)与成绩( y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系(2)计算得 x39.25, y40.875, b 1.0415, a 0.004,所求回归方程为 y 1.0415 x0.004.(3)计算得 x 12 656, y 13 731,8 i 12i 8 i 12ir345.2512 656 839.25213 731 840 8752 0.993,345.25347.79查表得 r0.050.707, rr0.05,由此可得出,训练次数与运动成绩有较强的线性相关关系(4)由上述分析可知,我们可用回归方程 y1.041 5x0.004 作为该运动员成绩的预报值将 x47 和 x55 分别代入该方程可得 y49 和 y57.8故预测该运动员训练 47 次和 55 次的成绩分别为 49 和 57.