1、10.4 相关性、最小二乘估计 与统计案例,-2-,知识梳理,考点自诊,1.相关性 (1)散点图:在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的 . (2)线性相关:若两个变量x和y的散点图中,所有点看上去都在_附近波动,则称变量间是线性相关的,此时,我们可以用 来近似. (3)非线性相关:在两个变量x和y的散点图中,若所有点看上去都在某条 附近波动,则称此相关为非线性相关的.此时,可以用一条 来拟合.如果所有的点在散点图中没有显示任何关系,则称变量间是 .,散点图,一条直线,一条直线,曲线,
2、曲线,不相关的,-3-,知识梳理,考点自诊,2.最小二乘法与线性回归方程 (1)最小二乘法:如果有n个点:(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:y1-(a+bx1)2+ y2-(a+bx2)2+yn-(a+bxn)2. 使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为 .,a= .这样得到的直线方程称为线性回归方程,a,b是线性回归方程的系数.,最小二乘法,-4-,知识梳理,考点自诊,3.独立性检验 (1)22列联表,构造一个随机变量2= , 其中n= 为样本容量. (2)独立性检验 利用随机变量来判断
3、“两个变量 ”的方法称为独立性检验.,a+b+c+d,有关联,-5-,知识梳理,考点自诊,(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断 当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的; 当22.706时,有90%的把握判定变量A,B有关联; 当23.841时,有95%的把握判定变量A,B有关联; 当26.635时,有99%的把握判定变量A,B有关联.,-6-,知识梳理,考点自诊,1.判断下列结论是否正确,正确的画“”,错误的画“”. (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系. ( ) (2)利用散点图可以直观判断两
4、个变量的关系是否可以用线性关系表示. ( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( ) (4)事件X,Y关系越密切,则由观测数据计算得到的2的值越大. ( ) (5)通过回归方程y=bx+a可以估计和观测变量的取值和变化趋势. ( ),-7-,知识梳理,考点自诊,2.(2018黑龙江仿真模拟七,3)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2), (x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为y=0.67x+54
5、.9,则y1+y2+y3+y4+y5的值为( ) A.75 B.155.4 C.375 D.466.2,A,-8-,知识梳理,考点自诊,3.(2018辽宁丹东二模,5)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:,根据上表可得回归方程y=bx+a,计算得b=7,则当投入10万元广告费时,销售额的预报值为( ) A.75万元 B.85万元 C.99万元 D.105万元,B,回归直线y=7x+a过样本中心(5,50), 50=75+a,解得a=15,回归直线方程为y=7x+15. 当x=10时,y=710+15=85, 故当投入10万元广告费时,销售额的预报
6、值为85万元,故选B.,-9-,知识梳理,考点自诊,4.(2018山西大同、阳泉二模,文4)某班主任对全班50名学生进行了作业量的调查,数据如表:,若推断“学生的性别与认为作业量大有关”,则( ),-10-,知识梳理,考点自诊,A.有99%的把握判定它们有关联 B.有95%的把握判定它们有关联 C.有90%的把握判定它们无关联 D.没有充分的证据判定它们有关联,答案,解析,-11-,知识梳理,考点自诊,5.(2018辽宁葫芦岛二模,15改编)下列说法: 线性回归方程y=bx+a必过 ; 相关系数r越接近1,表明两个变量相关性越弱; 在回归直线方程y=-0.5x+2中,当解释变量x每增加一个单位
7、时,预报变量y平均减少0.5个单位; 在一个22列联表中,由计算得2=8.079,则有99%的把握认为这两个变量间有关系; 对分类变量X与Y,它们的随机变量2的值来说,k越小,“X与Y有关系”的把握程度越大. 其中正确的说法是 .(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:,-12-,知识梳理,考点自诊,解析:线性回归方程y=bx+a必过样本中心点 ,故正确; 相关系数r绝对值越接近1,表明两个变量相关性越强,故错误;在回归直线方程y=-0.5x+2中,当解释变量x每增加一个单位时,预报变量y平均减少0.5个单位,故正确;在一个22列联表中,由计算得2=8.079,则有9
8、9%的把握认为这两个变量间有关系,故正确;对分类变量X与Y,它们的随机变量2的值来说,2值越小,“X与Y有关系”的把握程度越小;故错误.综上,答案为.,-13-,考点1,考点2,考点3,相关关系的判断 例1(1)(2018北京八中乌兰察布分校期末考,10)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A.r2r40r3r1 B.r4r20r1r3 C.r4r20r3r1 D.r2r40r1r3,A,-14-,考点1,考点2,考点3,(2)(2018福建宁德5月质检,3)下图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的
9、相关系数最大,则应当去掉的点是( )A.D B.E C.F D.A,B,-15-,考点1,考点2,考点3,解析: (1)图1和图3是正相关,相关系数大于0;图2和图4是负相关,相关系数小于0;图1和图2的点相对更加集中,所以相关性较强,所以r1接近于1,r2接近于-1,由此可得r2r4r3r1,故选A. (2)因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E, 余下的5个点所对应的数据的相关系数最大,故选B.,-16-,考点1,考点2,考点3,思考如何判断两个变量有无相关关系? 解题心得判断相关关系的2种方法 (1)散点图法:如果所有的样本
10、点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系. (2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.,-17-,考点1,考点2,考点3,对点训练1(1)(2018河北张家口模拟,4)已知x,y是两个变量,下列四个散点图中,x,y呈正相关趋势的是 ( ),A,-18-,考点1,考点2,考点3,(2)(2018湖南长沙模拟,11)某市国庆节7天假期的楼房认购量(单位:套)与成交量(单位:套)的折线图如图所示,小明同学根据折线图对这7天的认购量与成交量作出如下判断:日成交量的中位数是16;日成交量超过日平均成交量的有2天
11、;认购量与日期正相关;10月7日认购量的增量大于10月7日成交量的增量.上述判断中错误的个数为( )A.1 B.2 C.3 D.4,C,-19-,考点1,考点2,考点3,解析: (1)当x,y呈正相关趋势时,散点图应该是从左下到右上趋势,由图可知选项A中的散点图是从左下到右上趋势,描述了y随着x的增加而增加的变化趋势,故选A. (2)将成交量数据按大小顺序排列,中位数为26,所以错;日平均成交量为 ,超过42.7的只有一天,所以错;由图中可以看出,数据点并不是从左下分布至右上,所以错;10月7日认购量增量为276-112=164,成交量增量为166-38=128,所以对,故选C.,-20-,考
12、点1,考点2,考点3,回归方程的求法及回归分析 例2(2018全国2,18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型;y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:y=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.,-21-,考点1,考点
13、2,考点3,解 (1)利用模型,该地区2018年的环境基础设施投资额的预测值为 y=-30.4+13.519=226.1(亿元). 利用模型,该地区2018年的环境基础设施投资额的预测值为 y=99+17.59=256.5(亿元).,-22-,考点1,考点2,考点3,(2)利用模型得到的预测值更可靠. 理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年
14、的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.,-23-,考点1,考点2,考点3,(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠. 以上给出了2种理由,答出其中任意一种或其他合理理由均可得分.,-24-,考点1,考点2,考点3,思考对已知的两个变量
15、的一组数据如何做回归分析? 解题心得1.回归直线方程中系数的2种求法 (1)公式法:利用公式,求出回归系数b,a. (2)待定系数法:利用回归直线过样本点中心 求系数. 2.回归分析的2种策略 (1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b.,-25-,考点1,考点2,考点3,对点训练2(2018河北衡水模拟二,19)下表是某学生在4月份开始进入冲刺复习至高考前的5次大型联考数学成绩(分):,(1)请画出上表数据的散点图:,-26-,考点1,考点2,考点3,-27-,考点1,考点2,考点3,解 (1)散点
16、图如图:,-28-,考点1,考点2,考点3,-29-,考点1,考点2,考点3,独立性检验 例3(2018全国3,文18改编)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:,-30-,考点1,考点2,考点3,(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面
17、的列联表:,(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?,-31-,考点1,考点2,考点3,解 (1)第二种生产方式的效率更高. 理由如下: 由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务平均所
18、需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.,-32-,考点1,考点2,考点3,由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.,-33-,考点1,
19、考点2,考点3,-34-,考点1,考点2,考点3,思考独立性检验得出的结论是什么?它对我们日常生活有什么帮助? 解题心得,-35-,考点1,考点2,考点3,对点训练3(2018郑州三模,18)在2018年3月郑州第二次模拟考试中,某校共有100名文科学生参加考试,其中语文考试成绩低于130的占95%,数学成绩的频率分布直方图如图:(1)如果成绩不低于130的为特别优秀,这100名学生中本次考试语文、数学成绩特别优秀的大约各多少人?,-36-,考点1,考点2,考点3,(2)如果语文和数学两科都特别优秀的共有3人. 从(1)中的这些同学中随机抽取2人,求这两人两科成绩都优秀的概率. 根据以上数据,
20、完成22列联表,并分析是否有99%的把握认为语文特别优秀的同学,数学也特别优秀.,-37-,考点1,考点2,考点3,解 (1)某校共有100名文科学生参加考试,其中语文考试成绩低于130的占95%,语文成绩特别优秀的概率为P1=1-0.95=0.05,语文特别优秀的同学有1000.05=5人,数学成绩特别优秀的概率为P2=0.00220=0.04,数学特别优秀的同学有1000.04=4人. (2)语文和数学两科都优秀的有3人,单科优秀的有3人,记两科都优秀的3人分别为A1,A2,A3,单科优秀的3人分别为B1,B2,B3,从中随机抽取2人,共有:(A1,A2),(A1,A3),(A2,A3),
21、(B1,B2),(B1,B3),(B2,B3),(A1,B1), (A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3) (A3,B1),(A3,B2),(A3,B3)共15种,其中这两人成绩都优秀的有(A1,A2),(A1,A3),(A2,A3)3种,则这两人两科成绩都优秀的概率为:,-38-,考点1,考点2,考点3,-39-,考点1,考点2,考点3,1.求回归方程,关键在于正确求出回归系数a,b.由于a,b的计算量大,因此计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同) 2.回归分析是处理
22、变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有,就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 3.根据2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.,-40-,考点1,考点2,考点3,1.相关关系与函数关系的区别 相关关系与函数关系不同,函数关系中的两个变量之间是一种确定性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费之间的关系是相关关系.两个变量具有相关
23、关系是回归分析的前提. 2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.,-41-,数学核心素养例释数学建模 1.数学建模是对现实问题进行数学抽象,用数学语言表达问题、用数学知识与方法构建模型解决问题的过程.主要包括:在实际情境中从数学的视角发现问题、提出问题,分析问题、构建模型,求解结论,验证结果并改进模型,最终解决实际问题. 2.数学模型构建了数学与外部世界的桥梁,是数学应用的重要形式.数学建模是应用数学解决实际问题的基本手段,也是推动数学发展的动力.,-42-,典例(原创题)右图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份20112017 (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)请建立y关于t的回归方程(系数精确到0.01),预测2021年我国生活垃圾无害化处理量.,-43-,-44-,-45-,评析:先在实际问题中收集数据,画散点图确定相关关系,再用最小二乘法求回归方程,进而用回归模型对实际问题进行预测.,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1