1、11.6 变量间的相关关系、统计案例,高考理数,考点 变量的相关性、统计案例 1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种 相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从左上角到右下角的区域.对于两个变量的这种 相关关系,我们将它称为负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变 量之间具有 线性相关 关系,这条直线叫做回归直线.,知识清单,2.回归方程 (1)最小二乘法 求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法 叫做最小二乘法. (2)回归
2、方程 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其回归方程的 截距和斜率分别为,(3)相关系数rb.当r0时,表明两个变量 正相关 ; 当r0时,表明两个变量 负相关 . r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接 近于0,表明两个变量之间几乎不存在线性相关关系.当r的绝对值大于0. 75时,认为两个变量有很强的线性相关关系. 3.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量 称为分类变量.,(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类 变量X和Y,它们的可能取值分别为x1,x
3、2和y1,y2,其样本频数列联表(称 为22列联表)为,K2= .其中n=a+b+c+d. (3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方 法称为独立性检验. 统计学研究表明:当K23.841时,认为X与Y无关; 当K23.841时,有95%的把握说X与Y有关; 当K26.635时,有99%的把握说X与Y有关; 当K210.828时,有99.9%的把握说X与Y有关.,1.求线性回归直线方程的步骤 (1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系; (2)利用公式 = , = - 求得回归系数; (3)写出回归直线方程. 2.非线性回归方程的求法 (1)根据原始
4、数据作出散点图; (2)根据散点图,选择恰当的拟合函数;,回归直线方程的求解,方法技巧,(3)作恰当变换,将其转化成线性函数,求线性回归方程; (4)在(3)的基础上通过相应变换,即可得非线性回归方程. 例1 (2016课标全国,18,12分)下图是我国2008年至2014年生活垃圾 无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加 以说明;,(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾 无害化处理量. 附注: 参考数据: yi=9.32, tiyi=40.17, =0.55, 2.646. 参考公式:相
5、关系数r= , 回归方程 = + t中斜率和截距的最小二乘估计公式分别为: =, = - .,解析 (1)由折线图中数据和附注中参考数据得=4, (ti- )2=28, =0.55,(ti- )(yi- )= tiyi- yi=40.17-49.32=2.89, r 0.99. (4分) 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而 可以用线性回归模型拟合y与t的关系. (6分) (2)由 = 1.331及(1)得 = = 0.10,= - =1.331-0.1040.93. 所以,y关于t的回归方程为 =0.93+0.10t. (10分),将2016年对应的t=9
6、代入回归方程得 =0.93+0.109=1.83. 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨. (12分),评析 本题主要考查线性回归直线方程及回归分析,计算准确是解题的 关键,注意理解回归分析的实际意义.,独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个 分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小.如 果由观测数据计算得到的K2的观察值k很大,则在一定程度上说明假设 不合理.根据随机变量K2的含义,我们把K2k0解释为有1-P(K2k0) 100%的把握认为“两个分类变量有关系”
7、;把K2k0解释为没有1-P(K2 k0)100%的把握认为“两个分类变量有关系”,或者由样本观测数据不 能充分说明“两个分类变量有关系”.,独立性检验,例2 微信是现代生活进行信息交流的重要工具,据统计,某公司200名 员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60 人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年 (年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人 中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用 微信,那么经常使用微信的员工中 是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出
8、2 2列联表:,(2)由列联表中所得数据判断是否有99.9%的把握认为“经常使用 微信与年龄有关”; (3)采用分层抽样的方法从“经常使用微信”的人中抽取6人,从这6人 中任选2人,求选出的2人均是青年人的概率. 附:K2= .,解析 (1)由已知可得,该公司员工中使用微信的有20090%=180人, 经常使用微信的有180-60=120人,其中青年人有120 =80人,使用微信 的人中青年人有18075%=135人, 所以22列联表如下:,(2)将列联表中数据代入公式可得: K2= 13.333, 由于13.33310.828,所以有99.9%的把握认为“经常使用微信与年龄有关”. (3)从“经常使用微信”的人中抽取6人,其中,青年人有 6=4人,中年 人有 6=2人, 记4名青年人的编号分别为1,2,3,4,2名中年人的编号分别为5,6, 则从这6人中任选2人的基本事件有(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4), (2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个, 其中选出的2人均是青年人的基本事件有(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),共6个, 故所求事件的概率为 = .,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1