1、1考点测试 67 变量间的相关关系与统计案例高考概览高 考 在 本 考 点 的 常 考 题 型 为 选 择 、 填 空 与 解 答 题 , 分 值 为 5分 , 12分 , 中 、 低 等 难 度考纲研读1会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解独立性检验的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用一、基础小题1已知回归直线的斜率的估计值是 123,样本点的中心为(4,5),则回归直线的方程是( )A 123 x4 B 123 x5y y C 123 x008 D 0
2、08 x123y y 答案 C解析 选项 D 显然错误因为回归方程必过样本中心点,把点(4,5)代入选项A,B,C 检验,满足的只有选项 C故选 C2在一组样本数据( x1, y1),( x2, y2),( xn, yn)(n2, x1, x2, xn不全相等)的散点图中,若所有样本点( xi, yi)(i1,2, n)都在直线 y x1 上,则这组12样本数据的样本相关系数为( )A1 B0 C D112答案 D解析 由题设知,这组样本数据完全正相关,故其相关系数为 1故选 D3甲、乙、丙、丁四位同学各自对 A, B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方
3、和 m,如下表:甲 乙 丙 丁2r082078069085m 106 115 124 103则试验结果体现 A, B 两变量有更强的线性相关性的是( )A甲 B乙 C丙 D丁答案 D解析 r 越大, m 越小,线性相关性越强,丁同学的试验结果体现 A, B 两变量有更强的线性相关性故选 D4在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有 99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A100 个吸烟者中至少有 99 人患肺癌B1 个人吸烟,那么这人有 99%的概率患有肺癌C在 100 个吸烟者中一定有患肺癌的人D在 100 个吸烟者
4、中可能一个患肺癌的人也没有答案 D解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生故选 D5设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据( xi, yi)(i1,2, n),用最小二乘法建立的回归方程为085 x8571,则下列结论中不正确的是( )y A y 与 x 具有正的线性相关关系B回归直线过样本点的中心( , )x y C若该大学某女生身高增加 1 cm,则其体重约增加 085 kgD若该大学某女生身高为 170 cm,则可断定其体重必为 5879 kg答案 D解析 由于线性回归方程中 x 的系数为 085,因此
5、 y 与 x 具有正的线性相关关系,故 A 正确又线性回归方程必过样本点的中心( , ),因此 B 正确由线性回归方程中系x y数的意义知, x 每增加 1 cm,其体重约增加 085 kg,故 C 正确当某女生的身高为 170 cm 时,其体重估计值是 5879 kg,而不是具体值,因此 D 不正确6以模型 y cekx去拟合一组数据时,为了求出回归方程,设 zln y,其变换后得到线性回归方程 z03 x4,则 c_答案 e 43解析 因为 y cekx,所以两边取对数,可得 ln yln (cekx)ln cln ekxln c kx,令 zln y,可得 zln c kx因为 z03
6、x4,所以 ln c4,所以 ce 4二、高考小题7(2017山东高考)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系设其回归直线方程为 x 已知 i225, i1600, 4该班某学y b a 10i 1x 10i 1y b 生的脚长为 24,据此估计其身高为( )A160 B163 C166 D170答案 C解析 i225, i22510i 1x x 11010i 1x i1600, i16010i 1y y 11010i 1y又 4, 160422570b a y b x回
7、归直线方程为 4 x70y 将 x24 代入上式得 42470166y 故选 C8(2017全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图根据该折线图,下列结论错误的是( )A月接待游客量逐月增加4B年接待游客量逐年增加C各年的月接待游客量高峰期大致在 7,8 月D各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳答案 A解析 对于选项 A,由图易知月接待游客量每年 7,8 月份明显高于 12 月份,故 A 错;对于选项 B,观察
8、折线图的变化趋势可知年接待游客量逐年增加,故 B 正确;对于选项C,D,由图可知显然正确故选 A三、模拟小题9(2018合肥质检)某公司一种型号的产品近期销售情况如下表:月份( x) 2 3 4 5 6销售额 y/万元 151 163 170 172 184根据上表可得到回归直线方程 075 x ,据此估计,该公司 7 月份这种型号产品y a 的销售额约为( )A195 万元 B1925 万元C1915 万元 D1905 万元答案 D解析 由表可知 (23456)4,x15 (15116317172184)168,则样本中心点(4,168)在线性y15回归直线上,故 1680754 ,得 13
9、8故当 x7 时,a a 07571381905故选 Dy 10(2019衡阳模拟)某城市收集并整理了该市 2018 年 1 月份至 10 月份每月最低气温与最高气温(单位:)的数据,绘制了下面的折线图已知该市每月的最低气温与当月的最高气温两变量具有较好的线性关系,则根据该折线图,下列结论错误的是( )5A每月的最低气温与当月的最高气温两变量为正相关B10 月份的最高气温不低于 5 月份的最高气温C月温差(最高气温减最低气温)的最大值出现在 1 月份D最低气温低于 0 的月份有 4 个答案 D解析 由图观察可得,当最低气温较大时,最高气温也较大,故 A 正确;10 月份的最高气温大于 20 ,
10、而 5 月份的最高气温不超过 20 ,故 B 正确;从各月的温差看,1 月份的温差最大,故 C 正确;而最低气温低于 0 的月份是 1,2,4 三个月份故选 D11(2018河北邯郸二模)观察下面频率等高条形图,其中两个分类变量 x, y 之间关系最强的是( )答案 D解析 在频率等高条形图中, 与 相差很大时,我们认为两个分类变量有关系,aa b cc d在四个选项中(等高的条形图)中,若 x1, x2所占比例相差越大,则分类变量 x, y 的相关性越强故选 D12(2018河北武邑中学调研)为了考察两个变量 x 和 y 之间的线性相关性,甲、乙两位同学各自独立地做了 100 次和 150
11、次试验,并且利用线性回归方法,求得回归直线分别为 l1和 l2,已知两个人在试验中发现对变量 x 的观测数据的平均值都是 s,对变量 y 的观测数据的平均值都是 t,那么下列说法正确的是( )A l1和 l2有交点( s, t)6B l1与 l2相交,但交点不一定是( s, t)C l1与 l2必定平行D l1与 l2必定重合答案 A解析 由题意知( s, t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心故选 A13(2018大连双基测试)已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为
12、 x 若某同学根据上表中的前两组y b a 数据(1,0)和(2,2)求得的直线方程为 y b x a,则以下结论正确的是( )A b, a B b, a D a选 Cb a 解法二:根据所给数据画出散点图,如图所示,可直接判断:从 l2旋转到 l1,斜率变大,纵截距变小,即 a选 Cb a 7一、高考大题1(2018全国卷)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量 t 的值依次为1,2,17)建立模型:
13、304135 t;根据 2010 年至 2016 年的数据(时间变y 量 t 的值依次为 1,2,7)建立模型: 99175 ty (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解 (1)利用模型,该地区 2018 年的环境基础设施投资额的预测值为8304135192261(亿元)y 利用模型,该地区 2018 年的环境基础设施投资额的预测值为9917592565(亿元)y (2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线y304135
14、 t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型 99175 t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因y 此利用模型得到的预测值更可靠()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 2261 亿元的增幅明显偏低
15、,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠2(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过m 和不超过 m 的工人数填入下面的列联表:超过 m 不超过 m第一种生产方式9第二种生产
16、方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附: K2 ,nad bc2a bc da cb dP(K2 k0) 0050 0010 0001k0 3841 6635 10828解 (1)第二种生产方式的效率更高理由如下:()由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为855 分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为
17、735 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高
18、(以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知 m 80列联表如下:79 812超过 m 不超过 m第一种生产方式 15 5第二种生产方式 5 1510(3)由于 K2的观测值 k 106 635,所以有 99%的把握401515 55220202020认为两种生产方式的效率有差异3(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记 A 表示事件“旧养殖法的箱产量低于 50 kg,新养殖法的箱产量不低
19、于 50 kg”,估计 A 的概率;(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关;11箱产量6635,故有 99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为(000400200044)503405,13故新养殖法产量的中位数的估计值为50 5235(kg)0.5 0.340.068二、模拟大题4(2018太原二模)按照国家质量标准:某种工业产品的质量指标值落在100,120)内,则为合格品,否则为不合格品某企业有甲、乙两套设备生产这种产品,为了检测这两套设备的生产质量情况,随机从两套设备
20、生产的大量产品中各抽取了 50 件产品作为样本,对规定的质量指标值进行检测下表是甲套设备的样本频数分布表,下图是乙套设备的样本频率分布直方图表 甲套设备的样本频数分布表质量指标值95,100)100,105)105,110)110,115)115,120)120,125频数 1 4 19 20 5 1图 乙套设备的样本频率分布直方图(1)填写下面列联表,并根据列联表判断是否有 90%的把握认为这种产品的质量指标值与甲、乙两套设备的选择有关?甲套设备 乙套设备 合计合格品不合格品14合计(2)根据上表和上图,对甲、乙两套设备的优劣进行比较;(3)将频率视为概率,若从甲套设备生产的大量产品中,随机
21、抽取 3 件产品,记抽到的不合格品的个数为 X,求 X 的期望 E(X)附:P(K2 k0) 0150 0100 0050 0025 0010k0 2072 2706 3841 5024 6635K2 , n a b c dnad bc2a bc da cb d解 (1)列联表为甲套设备 乙套设备 合计合格品 48 43 91不合格品 2 7 9合计 50 50 100将列联表中的数据代入公式计算得K2nad bc2a bc da cb d 3053100487 2432505091930532706,有 90%的把握认为产品的质量指标值与甲、乙两套设备的选择有关(2)根据题意可知,甲套设备生
22、产的合格品的概率约为 ,乙套设备生产的合格品的概4850率约为 ,甲套设备生产的产品的质量指标值主要集中在105,115)之间,乙套设备生产4350的产品的质量指标值与甲套设备相比较为分散因此,可以认为甲套设备生产的合格品的概率更高,且质量指标值更稳定,从而甲套设备优于乙套设备(3)由题知, X B3, , E(X)3 125 125 325155(2018湖北第二次联考)菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但蔬菜上市时仍存在少量的残留农药,食用时需要用清水清洗干净,下表是用清水 x(单位:千克)清洗该蔬菜 1 千克后,蔬菜上残留的农药 y(单位:微克)的统计表:x 1
23、2 3 4 5y 58 54 39 29 10(1)在右面的坐标系中,描出散点图,并判断变量 x 与 y 是正相关还是负相关;(2)若用解析式 cx2 d 作为蔬菜上农药残留量 与用水量 x 的回归方程,令 w x2,y y 计算平均值 与 ,完成以下表格,求出 与 x 的回归方程( c, d 保留两位有效数字);w y y w 1 4 9 16 25y 58 54 39 29 10wi wyi y(3)对于某种残留在蔬菜上的农药,当它的残留量低于 20 微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到 01,参考数据:2 236)5附:对于一组数据(
24、u1, v1),( u2, v2),( un, vn),其回归直线 u 的斜率v 16和截距的最小二乘估计分别为 , ni 1ui uvi vni 1ui u2 v u解 (1)变量 x 与 y 是负相关(2)由题中表格易得 11, 38,w yw 1 4 9 16 25y 58 54 39 29 10wi w 10 7 2 5 14yi y 20 16 1 9 28c 1020 716 21 5 9 14 28 102 72 22 52 142 20,751374d c 38 1160,y w751374 20 w6020 x260y (3)当 2 45,y 5为了放心食用该蔬菜,估计需要用 45 千克的清水清洗一千克蔬菜17