1、1第 3 讲 变量间的相关关系与统计案例考纲解读 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程(重点)2.了解独立性检验(只要求 22 列联表)的基本思想、方法及其初步应用考向预测 从近三年高考情况来看,本讲是高考中的一个热点考查内容预测 2020 年将会考查:回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;独立性检验思想在实际问题中的应用试题以解答题的形式呈现,难度为中等此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散布在从 左下角到 右上角的
2、区域内,如图 1;01 02 负相关:从散点图上看,点散布在从 左上角到 右下角的区域内,如图 2.03 04 (2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在 一条直线附近,05 则称这两个变量之间具有线性相关关系,这条直线叫做 回归直线06 (3)回归方程最小二乘法:使得样本数据的点到回归直线的 距离的平方和最小的方法叫做最小07 2二乘法回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),(x n,y n),其回归方程为 x ,则 ,y b a b ni 1 xi x yi yni 1 xi x 2ni 1xiyi nx yni 1x2i
3、 nx2 .其中, 是回归方程的 斜率, 是在 y 轴上的 截距,a y b x b 08 a 09 xi, yi, ( , )称为样本点的中心x 1n n i 1 y 1n n i 1 10 x y 说明:回归直线 x 必过样本点的中心( , ),这个结论既是检验所求回归直y b a x y 线方程是否准确的依据,也是求参数的一个依据(4)样本相关系数r ,用它来衡量两个变量间的线性相关关系ni 1 xi x yi yni 1 xi x 2ni 1 yi y 2当 r0 时,表明两个变量 正相关;11 当 r0.75 时,认为两个变量有很强的线性相关关系2独立性检验(1)分类变量:变量的不同
4、“值”表示个体所属的 不同类别,像这类变量称为分类变01 量(2)列联表:列出两个分类变量的 频数表,称为列联表假设有两个分类变量 X 和02 Y,它们的可能取值分别为x 1,x 2和y 1,y 2,其样本频数列联表(称为 22 列联表)为22 列联表3构造一个随机变量 K2 ,其中03 n ad bc 2 a b c d a c b dn abcd 为样本容量04 (3)独立性检验利用随机变量 K2来判断“两个分类变量 有关系”的方法称为独立性检验05 06 1概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示( )(2)通过回归方程 x 可以估计和观测变量的取值和变化
5、趋势( )y b a (3)事件 X,Y 关系越密切,则由观测数据计算得到的 K2的观测值越大( )(4)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀( )答案 (1) (2) (3) (4)2小题热身(1)设回归方程为 35x,则变量 x 增加一个单位时( )y Ay 平均增加 3 个单位 By 平均减少 5 个单位Cy 平均增加 5 个单位 Dy 平均减少 3 个单位答案 B解析 因为5 是斜率的估计值,说明 x 每增加一个单位,y 平均减少 5 个单位故选B.(2)在下列各图中,两个变量具有相关关系的图是( )4A B
6、C D答案 D解析 为函数关系;显然成正相关;显然成负相关;没有明显相关性(3)下面是一个 22 列联表则表中 a,b 处的值分别为_答案 52,54解析 因为 a2173,所以 a52.又因为 a2b,所以 b54.(4)已知 x,y 的取值如下表,从散点图可以看出 y 与 x 具有线性相关关系,且回归方程为 0.95x ,则 _.y a a 答案 2.6解析 回归直线必过样本点的中心( , ),又 2, 4.5,代入回归方程,得x y x y2.6.a 5题型 相关关系的判断一1下列两变量中不存在相关关系的是( )人的身高与视力;曲线上的点与该点的坐标之间的关系;某农田的水稻产量与施肥量;
7、某同学考试成绩与复习时间的投入量;匀速行驶的汽车的行驶距离与时间;商品的销售额与广告费A B C D答案 A解析 根据相关关系的定义知,中两个变量不存在相关关系2四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y 与 x 负相关且 2.347x6.423;y y 与 x 负相关且 3.476x5.648;y y 与 x 正相关且 5.437x8.493;y y 与 x 正相关且 4.326x4.578.y 其中一定不正确的结论的序号是( )A B C D答案 D解析 由回归方程 x 知当 0 时,y 与 x 正相关,当 0 时,正相关;r0
8、 时,正相关; r ;2 21 2x,y 之间不能建立线性回归方程答案 解析 显然正确;散点图趋向于曲线而非直线,所以用 yc 1ec2x 拟合的效果比用 x 拟合的效果要好,故正确;x,y 之间能建立线性回归方程,只不过预报精度不y b a 高,故不正确题型 回归分析二角度 1 线性回归方程及应用1(2018福州四校联考)某汽车的使用年数 x 与所支出的维修总费用 y 的统计数据如表:使用年数 x/年 1 2 3 4 5维修总费用 y/万元 0.5 1.2 2.2 3.3 4.5根据上表可得 y 关于 x 的线性回归方程 x0.69,若该汽车维修总费用超过 10 万y b 元就不再维修,直接
9、报废,据此模型预测该汽车最多可使用(不足 1 年按 1 年计算)( )A8 年 B9 年 C10 年 D11 年答案 D解析 由 y 关于 x 的线性回归直线 x0.69 过样本点的中心(3,2.34),得y b 1.01,即线性回归方程为 1.01x0.69,由 1.01x0.6910 得 x10.6,所以预b y y 测该汽车最多可使用 11 年故选 D.82某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了 1 月份至 6 月份每月 10 号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:该兴趣小组确定的研究方案是:先从这 6 组数据中选取 2 组,用剩下
10、的 4 组数据求线性回归方程,再用被选取的 2 组数据进行检验(1)求选取的 2 组数据恰好是相邻两个月的概率;(2)若选取的是 1 月份与 6 月份的两组数据,请根据 2 月份至 5 月份的数据,求出 y 关于 x 的线性回归方程 x ;y b a (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式: , .b ni 1xiyi nx y ni 1x2i nx2 a y b x参考数据:1125132912268161092,11 213 212 28 2498.解 (1)设选到相邻两个月的
11、数据为事件 A.因为从 6 组数据中选取 2 组数据共有 15 种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有 5 种,所以 P(A) .515 13(2)由表中 2 月份至 5 月份的数据可得 11, 24,x yxiyi1092, 498,所以 ,则 ,所4 i 1 4i 1x2i b 4i 1xiyi 4x y ni 1x2i 4x2 187 a y b x 3079以 y 关于 x 的线性回归方程为 x .y 187 307(3)当 x10 时, , 6.635,所以有 99%的把40 1515 55 220202020握认为两种生产方式的效率有差异独立性检验的一般
12、步骤(1)根据样本数据列出 22 列联表;(2)计算随机变量 K2的观测值 k,查表确定临界值 k0;(3)如果 k k0,就推断“ X 与 Y 有关系” ,这种推断犯错误的概率不超过 P(K2 k0);否则,就认为在犯错误的概率不超过 P(K2 k0)的前提下不能推断“ X 与 Y 有关系” 1(2018河南洛阳模拟)学生会为了调查学生对 2018 年俄罗斯世界杯的关注是否与性别有关,抽样调查 100 人,得到如下数据:根据表中数据,通过计算统计量K2 ,并参考以下临界数据:n ad bc 2 a b c d a c b d16若由此认为“学生对 2018 年俄罗斯世界杯的关注与性别有关”
13、,则此结论出错的概率不超过( )A0.10 B0.05 C0.025 D0.01答案 A解析 由题意可得 K2 3.0302.706,由此认为100 3010 1545 245557525“学生对 2018 年俄罗斯世界杯的关注与性别有关”出错的概率不超过 0.10.故选 A.2某校拟在高一年级开设英语口语选修课,该年级男生 600 人,女生 480 人按性别分层抽样,抽取 90 名同学做意向调查(1)求抽取的 90 名同学中的男生人数;(2)将下列 22 列联表补充完整,并判断能否在犯错误的概率不超过 0.025 的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附: K2 ,其中 n a b c d.n ad bc 2 a b c d a c b d解 (1)该校高一年级的男、女生之比为 60048054,所以按照分层抽样,男生应抽取 50 名(2)22 列联表如下:17由 K2 ,代入数据得n ad bc 2 a b c d a c b dK2 5.8445.024.90 2510 2530 250405535 45077所以在犯错误的概率不超过 0.025 的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”