1、185 一元线性回归案例读教材填要点1相关系数(1)定义:样本容量是 n 的成对观测数据,用( x1, y1),( x2, y2),( xn, yn)表示,用 表示数据 x1, x2, xn,用 表示数据 y1, y2, yn,用 与 分别表示 和xi yi x y xi的均值,用 sx表示 的标准差,用 sy表示 的标准差,yi xi yi再引入: sxy .x1y1 x2y2 xnynn xy当 sxsy0 时,称 rxy ni 1 xi x yi yni 1 xi x 2ni 1 yi y 2 为 和 的相关系数ni 1xiyi nx y(ni 1x2i nx2)(ni 1y2i ny2
2、) sxysxsy xi yi当 rxy0 时,我们称 和 正相关;xi yi当 rxy0.8 时,认为有很强的相关关系2在一元线性回归模型中,变量 y 由变量 x 唯一确定吗?提示:不唯一 y 值由 x 和随机误差 e 共同确定,即自变量 x 只能解释部分 y 的变化3随机误差 e 产生的主要原因有哪些?提示:随机误差 e 产生的主要原因有:(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差4回归分析中,利用线性回归方程求出的函数值一定是真实值吗?为什么?提示:不一定是真实值利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关
3、系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等线性回归方程例 1 某班 5 名学生的数学和物理成绩如下表:学生学科 A B C D E数学成绩( x) 88 76 73 66 63物理成绩( y) 78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的线性回归方程;(3)一名学生的数学成绩是 96,试预测他的物理成绩解 (1)散点图如图3(2) (8876736663)73.2,x15 (7865716461)67.8.y15iyi887876657371666463615i 1x25 054.88 276 273 266 263 22
4、7 174.5i 1x2i所以 b5i 1xiyi 5xy5i 1x2i 5x225 054 573.267.827 174 573.220.625.a b 67.80.62573.222.05.y x 所以 y 对 x 的回归直线方程是 y22.050.625 x.(3)x96,则 y0.6259622.0582,即可以预测他的物理成绩是 82.1回归直线方程中系数的两种求法(1)公式法:利用公式,求出回归系数 b, a.(2)待定系数法:利用回归直线过样本点中心( , )求系数x y 2回归分析的两种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(2)利用回归直线判断
5、正、负相关:决定正相关还是负相关的是回归系数 b.1从某居民区随机抽取 10 个家庭,获得第 i 个家庭的月收入 xi(单位:千元)与月储4蓄 yi(单位:千元)的数据资料,算得 i80, i20, iyi184, 720.10i 1x10i 1y10i 1x10i 1x2i(1)求家庭的月储蓄 y 对月收入 x 的线性回归方程 y bx a;(2)判断变量 x 与 y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为 7 千元,预测该家庭的月储蓄附:线性回归方程 y bx a 中, b , a b ,其中 , 为样ni 1xiyi nx y ni 1x2i nx 2 yx x y 本平
6、均值解:(1)由题意知 n10, i 8,x1nni 1x 8010 i 2.y 1nni 1y 2010又 n 2720108 280,ni 1x2i x iyi n 184108224,ni 1x x y 由此可得 b 0.3,ni 1xiyi nx y ni 1x2i nx 2 2480a b 20.380.4,y x 故所求回归方程为 y0.3 x0.4.(2)由于变量 y 的值随 x 的值增加而增加( b0.30),故 x 与 y 之间是正相关(3)将 x7 代入回归方程可以预测该家庭的月储蓄为 y0.370.41.7(千元)相关系数例 2 关于两个变量 x 和 y 的 7 组数据如
7、下表所示:x 21 23 25 27 29 32 35y 7 11 21 24 66 115 325试判断 x 与 y 之间是否有线性相关关系5解 (21232527293235)27.4,x 17 (711212466115325)81.3,y 1721 223 225 227 229 232 235 25 414,7i 1x2iiyi2172311252127242966321153532518 542,7i 1x7 211 221 224 266 2115 2325 2124 393,7i 1y2i r7i 1xiyi 7x y 7i 1x2i 7x 2 7i 1y2i 7y 218 5
8、42 727.481.3 5 414 727.42 124 393 781.320.837 5.由于 r0.837 5 与 1 比较接近, x 与 y 具有线性相关关系回归分析是定义在具有相关关系的两个变量的基础上的,对于相关关系不明确的两个变量,可先作散点图,由图粗略的分析它们是否具有相关关系,在此基础上,求其回归方程,并作回归分析2某厂的生产原料耗费 x(单位:百万元)与销售额 y(单位:百万元)之间有如下的对应关系:x 2 4 6 8y 30 40 50 70判断 x 与 y 之间是否存在线性相关关系6解:画出( x, y)的散点图,如图所示,由图可知 x, y 呈现线性相关关系5, 4
9、7.5, 120,x y 4i 1x2i9 900, iyi1 080,4i 1y2i4i 1xr4i 1xiyi 4x y 4i 1x2i 4x 2 4i 1y2i 4y 21 080 4547.5 120 452 9 900 447.520.982 7.故 x 与 y 之间存在线性相关关系.可线性化的回归分析问题例 3 为了研究某种细菌随时间 x 变化繁殖个数 y 的变化,收集数据如下:时间 x/天 1 2 3 4 5 6繁殖个数 y 6 12 25 49 95 190(1)作出这些数据的散点图;(2)求 y 与 x 之间的回归方程解 (1)散点图如图所示:(2)由散点图看出样本点分布在一
10、条指数函数 y c1ec2x 图像的周围,于是令 zln y,则7x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25由计算器算得 z0.69 x1.112,则有 ye 0.69x1.112 .非线性回归问题一般不给出经验公式,这时,应先画出已知数据的散点图,把它与所学过的各种函数图像作比较,挑选一种跟这些散点图拟合得最好的函数,采用适当的变量置换,把问题化为线性回归分析问题,使问题得以解决3在一次抽样调查中测得样本的 5 个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立 y 与 x 之间的回归方程解:由数值表可作散点图
11、如下根据散点图可知 y 与 x 近似地呈反比例函数关系,设 y ,令 t ,则 y kt,原数据变为kx 1xt 4 2 1 0.5 0.25y 16 12 5 2 1由置换后的数值表作散点图如下:由散点图可以看出 y 与 t 呈近似的线性相关关系列表如下i ti yi tiyi t2i y2i1 4 16 64 16 2562 2 12 24 4 14483 1 5 5 1 254 0.5 2 1 0.25 45 0.25 1 0.25 0.0625 1 7.75 36 94.25 21.312 5 430所以 1.55, 7.2.t y 所以 b 4.134 4.5i 1tiyi 5t y
12、 5i 1t2i 5t 2a y bt0.8.所以 y0.84.134 4 t.所以 y 对 x 的回归方程是 y0.8 .4.134 4x1下列说法中正确的是( )A y2 x21 中的 x, y 是具有相关关系的两个变量B正四面体的体积与其棱长具有相关关系C电脑的销售量与电脑的价格之间是一种确定性的关系D传染病医院感染甲型 H1N1 流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量解析:选 D 感染的医务人员不仅受医院收治的病人数的影响,还受防护措施等其它因素的影响2设( x1, y1),( x2, y2),( xn, yn)是变量 x 和 y 的 n 个样本点,直线 l
13、是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A x 和 y 的相关系数为直线 l 的斜率B x 和 y 的相关系数在 0 到 1 之间C当 n 为偶数时,分布在 l 两侧的样本点的个数一定相同D直线 l 过点( , )x y 9解析:选 D 回归直线过样本中心点( , )x y 3为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子的身高数据如下:父亲身高 x(cm) 174 176 176 176 178儿子身高 y(cm) 175 175 176 177 177则 y 对 x 的线性回归方程为( )A. x1 B. x1y y C. 88 x D. 1
14、76y 12 y 解析:选 C 设 y 对 x 的线性回归方程为 bx a,y 因为 b ,sxys2x 12a176 17688,12所以 y 对 x 的线性回归方程为 x88.y 124在关于两个变量的回归分析中,作散点图的目的是_答案:观察两个变量之间是否存在线性相关关系5某服装厂的产品产量 x(万件)与单位成本 y(元/件)之间的回归直线方程是y52.1519.5 x,当产量每增加一万件时,单位成本下降_元解析:由回归系数的意义得下降 19.5 元答案:19.56在一段时间内,分 5 次测得某种商品的价格 x(万元)和需求量 y(t)之间的一组数据为:1 2 3 4 5价格 x 1.4
15、 1.6 1.8 2 2.2需求量 y 12 10 7 5 3已知 iyi62, 16.6.5i 1x5i 1x2i(1)画出散点图;(2)求出 y 对 x 的回归方程;(3)如价格定为 1.9 万元,预测需求量大约是多少?(精确到 0.01 t)解:(1)散点图如下图所示:10(2)因为 91.8, 377.4,x15 y 15iyi62, 16.6,5i 1x5i 1x2isxy 12.413.320.92.5i 1xiyi5 xy所以 b 11.5,sxys2x 0.920.08a b 7.411.51.828.1,y x故 y 对 x 的回归方程为 28.111.5 x.y (3) 2
16、8.111.51.96.25(t)y 一、选择题1下表是 x 与 y 之间的一组数据,则 y 关于 x 的线性回归方程必过( )x 0 1 2 3y 1 3 5 7A.点(2,2) B点(1.5,2)C点(1,2) D点(1.5,4)解析:选 D 1.5,x0 1 2 34 64 4,y1 3 5 74线性回归方程必过点(1.5,4)2已知变量 x 和 y 满足关系 0.1 x1,变量 y 与 z 正相关下列结论中正确的是y ( )A x 与 y 正相关, x 与 z 负相关B x 与 y 正相关, x 与 z 正相关C x 与 y 负相关, x 与 z 负相关11D x 与 y 负相关, x
17、 与 z 正相关解析:选 C 因为 y0.1 x1 的斜率小于 0,故 x 与 y 负相关因为 y 与 z 正相关,可设 z y , 0,b a b 则 z y 0.1 x ,b a b b a 故 x 与 z 负相关3某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得 0.577 x0.448( x 为人的年龄, y 为人体脂肪含量)对年龄为 37 岁y 的人来说,下面说法正确的是( )A年龄为 37 岁的人体内脂肪含量都为 20.90%B年龄为 37 岁的人体内脂肪含量为 21.01%C年龄为 37 岁的人群中的大部分人的体内脂肪含量为 20.9
18、0%D年龄为 37 岁的大部分的人体内脂肪含量为 31.5%解析:选 C 当 x37 时, y0.577370.44820.90120.90,由此估计:年龄为 37 岁的人群中的大部分人的体内脂肪含量为 20.90%.4某产品的广告费用 x 与销售额 y 的统计数据如下表:广告费用 x(万元) 4 2 3 5销售额 y(万元 ) 49 26 39 54根据上表可得回归方程 bx a 中的 b 为 9.4,据此模型预报广告费用为 6 万元时销y 售额为( )A63.6 万元 B65.5 万元C67.7 万元 D72.0 万元解析:选 B 样本中心点是(3.5,42),则 a b 429.43.5
19、9.1,所以回归y x 直线方程是 y9.4 x9.1,把 x6 代入得 y65.5.二、 填空题5调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的回归直线方程: 0.254 x0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平y 均增加_万元解析:以 x1 代 x,得 y0.254( x1)0.321,与 y0.254 x0.321 相减可得,年饮食支出平均增加 0.254 万元12答案:0.2546下表是某厂 14 月份用水量(单位:百吨)的一组数据,
20、月份 x 1 2 3 4用水量 y 4.5 4 3 2.5由某散点图可知,用水量 y 与月份 x 之间有较好的线性相关关系,其线性回归方程是0.7 x a,则 a_.y 解析: 2.5, 3.5, b0.7,x y a3.50.72.55.25.答案:5.257已知回归直线的斜率的估计值为 1.23.样本点的中心为(4,5),则回归直线方程是_解析:由斜率的估计值为 1.23,且回归直线一定经过样本点的中心(4,5),可得y51.23( x4),即 1.23 x0.08.y 答案: 1.23 x0.08y 8在研究硝酸钠的可溶性程度时,观察它在不同温度的水中的溶解度,得观测结果如下:温度( x
21、) 0 10 20 50 70溶解度( y) 66.7 76.0 85.0 112.3 128.0由此,得到回归直线的斜率是_解析:根据 sxy ,及 b , n i 1xiyin xy sxys2x得 b0.880 9.答案:0.880 9三、解答题9在关于人体的脂肪含量(百分比)和年龄关系研究中,研究人员获得了如下一组数据:年龄x22 26 38 41 45 48 50 53 54 56 57脂肪含量y9.4 17.8 21.2 24.9 26.5 27.1 28.2 29.4 30.2 31.4 32.613(1)画出散点图;(2)求 y 与 x 之间的回归方程;(3)预测 39 岁的人
22、脂肪含量(保留四位有效数字)解:(1)画出散点图(2)由散点图可以看出 y 与 x 之间有较强的线性相关关系,可算得 i44.545 5,x11111i 1x i25.336 4, iyi13 205,y11111i 1y 11i 1x23 224,11i 1x2i b 0.565 7,sxys2xa b 0.137 0.y x y 与 x 之间的线性回归方程为 0.565 7 x0.137 0.y (3)当 x39 时,y0.565 7390.137 022.20,39 岁的人的脂肪含量约为 22.20%.10(2016全国卷)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单
23、位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处14理量参考数据: i9.32, iyi40.17, 0.55, 2.646.7i 1y7i 1t7i 1 yi y 2 7参考公式:相关系数 r ,ni 1 ti t yi yni 1 ti t 2ni 1 yi y 2回归方程 t 中斜率和截距的最小二乘估计公式分别为 y a b b , .ni 1 ti t yi yni 1 ti t 2 a y b t解:(1)由折线图中数据和附注中参考
24、数据得4, (ti )228,t7i 1 t0.55,7i 1 yi y 2(ti )(yi ) iyi i40.1749.322.89, r7i 1 t y7i 1t t7i 1y0.99.2.8922.6460.55因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系(2)由 1.331 及(1)得y9.327 0.103,b 7i 1 ti t yi y7i 1 ti t 2 2.8928 1.3310.10340.92.a y b t所以 y 关于 t 的回归方程为 0.920.10 t.y 15将 2018 年对应的 t9 代入回归方程得0.920.1091.82.y 所以预测 2018 年我国生活垃圾无害化处理量将约为 1.82 亿吨