1、1第二节 变量的相关性与统计案例突破点一 回归分析基 本 知 识 1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关2两个变量的线性相关回归直线从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线回归方程回归方程为 x ,其中 , y b a b ni 1xiyi nx y ni 1x2i nx 2
2、 ay b x 最小二乘法 通过求 的最小值而得到回归直线的方法,即使得样Q ni 1 yi bxi a 2本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法相关系数当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关r 的绝对值越接近于 1,表明两个变量的线性相关性越强; r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系通常| r|大于 0.75 时,认为两个变量有很强的线性相关性基 本 能 力 一、判断题(对的打“” ,错的打“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系( )(2)“名师出高徒”可以解释为教师的教学水平与学生
3、的水平成正相关关系( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值( )答案:(1) (2) (3)二、填空题1已知 x, y 的取值如下表,从散点图可以看出 y 与 x 具有线性相关关系,且回归方2程为 0.95 x ,则 _.y a a x 0 1 3 4y 2.2 4.3 4.8 6.7答案:2.62两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,经计算得到它们的相关系数 r 的值如下表,其中拟合效果最好的模型是_.模型 模型 1 模型 2 模型 3 模型 4r 0.98 0.80 0.50 0.25答案:模型 13已知变量 x, y 之间具有线性相关关系
4、,其回归方程为 3 x,若y b i17, i4,则 的值为_10i 1x10i 1y b 答案:2全 析 考 法 考法一 相关关系的判断 例 1 (1)(2019福建泉州月考)在下列各图中,两个变量具有相关关系的图是( )A BC D(2)(2019昆明一中一模)若对于变量 x 的取值为 3,4,5,6,7 时,变量 y 对应的值依次分别为 4.0,2.5,0.5,1,2;若对于变量 u 的取值为 1,2,3,4 时,变量 v 对应的值依次分别为 2,3,4,6,则变量 x 和 y,变量 u 和 v 的相关关系是( )A变量 x 和 y 是正相关,变量 u 和 v 是正相关B变量 x 和 y
5、 是正相关,变量 u 和 v 是负相关C变量 x 和 y 是负相关,变量 u 和 v 是负相关D变量 x 和 y 是负相关,变量 u 和 v 是正相关解析 (1)为函数关系;为正相关关系;为负相关关系;没有明显相关性(2)变量 x 增加,变量 y 减少,所以变量 x 和 y 是负相关;变量 u 增加,变量 v 增加,所以变量 u 和 v 是正相关,故选 D.3答案 (1)C (2)D方法技巧判断相关关系的 2 种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,| r
6、|越趋近于 1 相关性越强 考法二 线性回归分析 例 2 (2018全国卷)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型: 30.413.5 t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为y 1,2,7)建立模型: 9917.5 t.y (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测
7、值更可靠?并说明理由解 (1)利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为30.413.519226.1(亿元)y 利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为9917.59256.5(亿元)y (2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线4y30.413.5 t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点
8、位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型 9917.5 t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利y 用模型得到的预测值更可靠()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分)方法技巧1回归直线方程中系数的 2 种求法(1)公式法:利用公式,求出回归
9、系数 , .b a (2)待定系数法:利用回归直线过样本点中心( , )求系数x y 2回归分析的 2 种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数 . b 集 训 冲 关 1. 四名同学根据各自的样本数据研究变量 x, y 之间的相关关系,并求得回归考 法 一 直线方程,分别得到以下四个结论: y 与 x 负相关且 2.347 x6.423;y y 与 x 负相关且 3.476 x5.648;y y 与 x 正相关且 5.437 x8.493;y y 与 x 正相关且 4.326 x4.578.y 其
10、中一定不正确的结论的序号是( )A BC D解析:选 D 正相关指的是 y 随 x 的增大而增大,负相关指的是 y 随 x 的增大而减小,故不正确的为.2. 二手车经销商小王对其所经营的 A 型号二手汽车的使用年数 x 与销售价格考 法 二 5y(单位:万元/辆)进行整理,得到如下数据:使用年数 x 2 3 4 5 6 7售价 y 20 12 8 6.4 4.4 3zln y 3.00 2.48 2.08 1.86 1.48 1.10z 关于 x 的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合 z 与 x 的关系,请用相关系数加以说明;(2)求 y 关于 x 的回归方程,并
11、预测某辆 A 型号二手车当使用年数为 9 年时售价约为多少( , 小数点后保留两位有效数字)b a 参考公式: , ,b ni 1 xi x yi y ni 1 xi x 2ni 1xiyi nx y ni 1x2i nx 2 ay b x r .ni 1 xi x yi y ni 1 xi x 2ni 1 yi y 2参考数据: iyi187.4, izi47.64, 139,6i 1x6i 1x6i 1x2i4.18, 13.96,6i 1 xi x 2 6i 1 yi y 21.53,ln 1.460.38.6i 1 zi z 2解:(1)由题意,知 (234567)4.5,x 16 (
12、32.482.081.861.481.10)2,z 166又 izi47.64, 4.18,6i 1x6i 1 xi x 21.53,6i 1 zi z 2 r 0.99,47.64 64.524.181.53 6.366.395 4 z 与 x 的相关系数大约为0.99,说明 z 与 x 的线性相关程度很高(2) 0.36,b 47.64 64.52139 64.52 6.3617.5 20.364.53.62,a z b x z 与 x 的线性回归方程是 0.36 x3.62,z 又 zln y, y 关于 x 的回归方程是 e 0.36 x3.62 .y 令 x9,得 e 0.3693.
13、62 e 0.38,y ln 1.460.38, 1.46,y 即预测某辆 A 型号二手车当使用年数为 9 年时售价约为 1.46 万元突破点二 独立性检验基 本 知 识 1分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量2列联表列出两个分类变量的频数表,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表(称为 22 列联表)为y1 y2 总计x1 a b a bx2 c d c d总计 a c b d a b c dK2 (其中 n a b c d 为样本容量),可利用n ad bc 2 a b c d a c
14、 b d独立性检验判断表来判断“ X 与 Y 的关系” 基 本 能 力 7一、判断题(对的打“” ,错的打“”)(1)事件 X, Y 关系越密切,则由观测数据计算得到的 K2的值越大( )(2)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀( )答案:(1) (2)二、填空题1下面是 22 列联表:y1 y2 总计x1 a 21 73x2 22 25 47总计 b 46 120则表中 a, b 的值分别为_解析: a2173, a52,又 a22 b, b74.答案:52,742为了判断高中三年级学生是否选修文科与性别的关系,现
15、随机抽取 50 名学生,得到如下 22 列联表:理科 文科男 13 10女 7 20已知 P(K23.841)0.05, P(K25.024)0.025.根据表中数据,得到 K2的观测值 k 4.844.则认为50 1320 107 223272030选修文科与性别有关系出错的可能性为_答案:5%3(2019阜阳质检)某班主任对全班 30 名男生进行了作业量多少的调查,数据如下表:认为作业多 认为作业不多 总计喜欢玩电脑游戏 12 8 20不喜欢玩电脑游戏 2 8 10总计 14 16 30该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过_答案:0.058典例
16、 (2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过m 和不超过 m 的工人数填入下面的列联表:超过 m 不超过 m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有
17、差异?附: K2 ,n ad bc 2 a b c d a c b d解 (1)第二种生产方式的效率更高理由如下:()由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 min,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于 80 min;用
18、第二种生产方式的工人完成生产任务所需平均时间低于 80 min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在9茎 7 上的最多,关于茎 7 大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(以上给出了 4 种理由,答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知 m 80.79 812列联表如下:超过
19、m 不超过 m第一种生产方式 15 5第二种生产方式 5 15(3)因为 K2 106.635,所以有 99%的把握认为两种生产40 1515 55 220202020方式的效率有差异方法技巧(1)独立性检验的关键是正确列出 22 列联表,并计算出 K2的值(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断针对训练1(2019安徽黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A若 K2的观测值为 k6.635,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,那么在 100 个吸烟的人中必有 99 人患有肺癌B由独
20、立性检验可知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有 99%的可能患有肺癌C若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现错误D以上三种说法都不正确解析:选 C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现
21、错误故选 C.2(2019池州模拟)某职称晋级评定机构对参加某次专业技术考试的 100 人的成绩进行了统计,绘制的频率分布直方图如图所示规定 80 分以上者晋级成功,否则晋级失败(满分为 100 分)10(1)求图中 a 的值;(2)估计该次考试的平均分 (同一组中的数据用该组的区间中点值代表);x (3)根据已知条件完成下面 22 列联表,并判断能否有 85%的把握认为“晋级成功”与性别有关.晋级成功 晋级失败 总计男 16女 50总计(参 考 公 式 : K2 n ad bc 2 a b c d a c b d , 其 中 n a b c d)P(K2 k) 0.40 0.25 0.15
22、0.10 0.05 0.025k 0.708 1.323 2.072 2.706 3.841 5.024解:(1)由频率分布直方图中各小长方形面积总和为 1,得(2 a0.0200.0300.040)101,解得 a0.005.(2)由频率分布直方图知各小组的中点值依次是 55,65,75,85,95,对应的频率分别为 0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为550.05650.3750.4850.2950.0574(分)x (3)由频率分布直方图知,晋级成功的频率为 0.20.050.25,故晋级成功的人数为1000.2525,填写 22 列联表如下:晋级成功 晋级失败 总计男 16 34 50女 9 41 50总计 25 75 100K2 2.6132.072,所以有 85%的把握认为“晋级100 1641 349 225755050成功”与性别有关11