1、1三 统计案例1最小二乘法对于一组数据( xi, yi),i1,2, n,如果它们线性相关,则线性回归方程为 y b x ,a 其中 =b 222 列联表22 列联表如表所示:B B 总计A a b a bA c d cd总计 ac bd n其中 n a bcd 为样本容量3 K2检验常用随机变量 K2 来检验两个变量是否有关系n( ad bc) 2( a b) ( c d) ( a c) ( b d)1回归分析的两个关注点(1)回归分析是建立在两个具有相关性的变量之间的一种模拟分析,因此先判断其是否具有相关性(2)并非只有线性相关关系,还可能存在非线性相关关系2独立性检验的两个注意点(1)通
2、过独立性检验得到的结论未必正确,它只是对一种可靠性的预测(2)22 列联表中,当数据 a, b,c,d 都不小于 5 时,才可以用 K2检验主题 1 回归分析某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对2年销售量 y(单位: t)和年利润 z(单位:千元)的影响对近 8 年的年宣传费 xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值(1)根据散点图判断, y a bx 与 y c d 哪一个适宜作为年销售量 y 关于年宣传费 xx的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于
3、 x 的回归方程;(3)已知这种产品的年利润 z 与 x, y 的关系为 z0.2 y x.根据(2)的结果回答下列问题:年宣传费 x49 时,年销售量及年利润的预报值是多少?年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据( u1, v1),( u2, v2),( un, vn),其回归直线 v u 的斜率和截距的最小二乘估计分别为【解】 (1)由散点图可以判断, y c d 适宜作为年销售量 y 关于年宣传费 x 的回归方x程类型(2)令 w ,先建立 y 关于 w 的线性回归方程x 563686.8100.6,c y d w 所以 y 关于 w 的线性回归方程为 y100.6
4、68 w,3因此 y 关于 x 的回归方程为 100.668 .y x(3)由(2)知,当 x49 时,年销售量 y 的预报值 100.668 576.6,y 49年利润 z 的预报值 576.60.24966.32.z 根据(2)的结果知,年利润 z 的预报值0.2(100.668 ) x x13.6 20.12.z x x所以当 6.8,即 x46.24 时, 取得最大值x13.62 z 故年宣传费为 46.24 千元时,年利润的预报值最大解决回归分析问题的一般步骤(1)画散点图根据已知数据画出散点图(2)判断变量的相关性并求回归方程通过观察散点图,直观感知两个变量是否具有相关关系;在此基
5、础上,利用最小二乘法求回归系数,然后写出回归方程(3)回归分析画残差图或计算 R2,进行残差分析(4)实际应用依据求得的回归方程解决问题 在一段时间内,某种商品的价格 x 元和需求量 y 件之间的一组数据为:x(元) 14 16 18 20 22y(件) 12 10 7 5 3且知 x 与 y 具有线性相关关系,求出 y 关于 x 的回归直线方程,并说明拟合效果的好坏解: (1416182022)18,x 15 (1210753)7.4,y 15所以 7.41.151828.1,a 4所以 y 对 x 的回归直线方程为 1.15 x28.1.y 列出残差表为yi iy 0 0.3 0.4 0.
6、1 0.2yi y 4.6 2.6 0.4 2.4 4.4主题 2 独立性检验某学生对其 30 位亲属的饮食习惯进行了一次调查,并用茎叶图表示 30 人的饮食指数,如图所示(说明:图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数大于等于70 的人,饮食以肉类为主)(1)根据茎叶图,帮助这位同学说明其 30 位亲属的饮食习惯;(2)根据以上数据完成如表所示的 22 列联表主食蔬菜 主食肉类 总计50 岁以下50 岁以上总计(3)能否在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食习惯与年龄有关”?【解】 (1)30 位亲属中 50 岁以上的人饮食多以蔬菜为主,50 岁以下的人饮食
7、多以肉类为主(2)22 列联表如表所示:5主食蔬菜 主食肉类 总计50 岁以下 4 8 1250 岁以上 16 2 18总计 20 10 30(3)随机变量 K2的观测值 k 106.635,30( 42 816) 212182010所以在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食习惯与年龄有关” 独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性(2)K2统计量法:通过公式K2 先计算观测值 k,再与临界值表作比较,最后得n( ad bc) 2( a b) ( c d) ( a c) ( b d)出结论 在考查黄烟是
8、否经过药物处理与发生青花病的关系时,得到如下数据:在试验的 470 株黄烟中,经过药物处理的黄烟有 25 株发生青花病,60 株没有发生青花病;未经过药物处理的有 185 株发生青花病,200 株没有发生青花病试推断经过药物处理跟发生青花病是否有关系解:由已知,得 22 列联表如下:经过药物处理 未经过药物处理 总计青花病 25 185 210无青花病 60 200 260总计 85 385 470提出假设 H0:经过药物处理跟发生青花病无关系根据列联表中的数据,可以求得随机变量 K2的观测值为k 9.788.470( 25200 18560) 221026085385因为当 H0成立时, K
9、27.879 的概率约为 0.005,而此时 K2的观测值 k9.7887.879,所以在犯错误的概率不超过 0.005 的前提下认为经过药物处理跟发生青花病是有关系的, A 基础达标61对两个变量 y 和 x 进行回归分析,得到一组样本数据:( x1, y1),( x2, y2),( xn, yn),则下列说法中不正确的是( )A由样本数据得到的回归方程 x 必过样本点的中心( x, y)y b a B 残差平方和越小的模型,拟合的效果越好C用相关指数 R2来刻画回归效果, R2的值越小,说明模型的拟合效果越好D 若变量 y 和 x 之间的相关系数 r0.936 2,则变量 y 与 x 之间
10、具有线性相关关系解析:选 C.R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选 C.2下列说法中正确的有:( )若 r0,则 x 增大时, y 也相应增大;若 r0,则 x 增大时, y 也相应增大;若 r1 或 r1,则 x 与 y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上A BC D解析:选 C.若 r0,表示两个相关变量正相关, x 增大时, y 也相应增大,故正确,r0,表示两个变量负相关, x 增大时, y 相应减小,故错误| r|越接近 1,表示两个变量相关性越高,| r|1 表示两个变量有确定的关系(即函数关系),故正确3若两个变量的残差平
11、方和是 325, 923,则随机误差对预报变量的贡献率约为( )A64.8% B60%C35.2% D40%解析:选 C.由题意可知随机误差对预报变量的贡献率约为 0.352.3259234有下列数据x 1 2 3y 3 5.99 12.01下列四个函数中,模拟效果最好的为( )A y32 x1 B ylog 2xC y3 x D y x2解析:选 A.分别把 x1,2,3,代入求值,求最接近 y 的值,即为模拟效果最好,故选 A.5通过随机询问 100 名性别不同的小学生是否爱吃零食,得到如下的列联表:男 女 合计爱吃 10 40 507不爱吃 20 30 50合计 30 70 100P(K
12、2 k) 0.10 0.05 0.025k 2.706 3.841 5.024由 K2 ,计算得n( ad bc) 2( a b) ( c d) ( a c) ( b d)K2 4.762.100( 1030 2040) 250503070参照附表,得到的正确结论为( )A在犯错误的概率不超过 5%的前提下,认为“是否爱吃零食与性别有关”B 在犯错误的概率不超过 5%的前提下,认为“是否爱吃零食与性别无关”C有 97.5%以上的把握认为“是否爱吃零食与性别有关”D 有 97.5%以上的把握认为“是否爱吃零食与性别无关”解析:选 A.因为 K24.7623.841, P(K23.841)0.05
13、.所以在犯错误的概率不超过 5%的前提下,认为“是否爱吃零食与性别有关” ,故选 A.6某种活性细胞的存活率 y(%)与存放温度 x()之间有如下几组样本数据:存放温度 x() 10 4 2 8存活率 y(%) 20 44 56 80经测算,上述样本数据具有线性相关关系,且回归直线的斜率为3.2.则当存放温度为 6 时,该种细胞的存活率的预报值为_%.解析:设回归直线方程为 3.2 x ,因为 1, 50,则 3.2 53.2.当y a x y a y x x6 时, 3.2653.234.y 答案:347已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数 y3 e2x1 的图象附
14、近,则可通过转换得到的线性回归方程为_解析:由 y3e 2x1 ,得 ln y ln(3e2x1 ),即 ln yln 32 x1,令 uln y, v x,则线性回归方程为 u1ln 32 v.答案: u1ln 32 x(其中 uln y)8为了调查患慢性气管炎是否与吸烟有关,调查了 100 名 50 岁以下的人,调查结果如下表:8患慢性气管炎 未患慢性气管炎 总计吸烟 20 20 40不吸烟 5 55 60总计 25 75 100根据列联表数据,求得 K2_(保留 3 位有效数字),根据下表,在犯错误的概率不超过_的前提下认为患慢性气管炎与吸烟有关附:P(K2 k0) 0.050 0.01
15、0 0.001k0 3.841 6.635 10.828K2 .n( ad bc) 2( a b) ( c d) ( a c) ( b d)解析: K2的观测值 k 22.210.828.100( 2055 205) 240602575所以在犯错误的概率不超过 0.001 的前提下认为患慢性气管炎与吸烟有关答案:22.2 0.0019某学校高三年级有学生 1 000 名,经调查,其中 750 名同学经常参加体育锻炼(称为 A类同学),另外 250 名同学不经常参加体育锻炼(称为 B 类同学),现用分层抽样方法(按 A类、 B 类分两层)从该年级的学生中共抽查 100 名同学,如果以身高达 16
16、5 cm 作为达标的标准,对抽取的 100 名学生,得到以下列联表:身高达标 身高不达标 总计经常参加体育锻炼 40不经常参加体育锻炼 15总计 100(1)完成上表;(2)能否在犯错误的概率不超过 0.05 的前提下认为经常参加体育锻炼与身高达标有关系( K2的观测值精确到 0.001)?解:(1)填写列联表如下:身高达标 身高不达标 总计经常参加体育锻炼 40 35 75不经常参加体育锻炼 10 15 25总计 50 50 1009(2)由列联表中的数据,得 K2的观测值为k 1.3333.841.100( 4015 3510) 275255050所以不能在犯错误的概率不超过 0.05 的
17、前提下认为经常参加体育锻炼与身高达标有关系10某城市理论预测 2011 年到 2015 年人口总数与年份的关系如表所示:年份 2011 x(年) 0 1 2 3 4人口数 y(十万) 5 7 8 11 19(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出 y 关于 x 的线性回归方程 x ;y b a (3)据此估计 2018 年该城市人口总数解:(1)散点图如图:(2)因为 2,x 0 1 2 3 45 10,y 5 7 8 11 195 y x3.6;a b 所以线性回归方程为 3.2 x3.6.y (3)令 x7,则 3.273.626.y 即估计 2018 年该城市人口总
18、数为 26 十万B 能力提升11(2018河南洛阳 3 月模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各 5 个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.东部 西部 109 8 8 3 3 72 1 0 9 9 (1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了 4 位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:年龄 x 20 30 40 50周均学习成语知
19、识时间 y 2.5 3 4 4.5根据表中数据,试求线性回归方程 x ,并预测年龄为 60 岁的观众周均学习成语知识y b a 的时间解:(1)设被污损的数字为 a,则 a 有 10 种情况由 888990919283838790 a99,得 a8,所以有 8 种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,所求概率为 .810 45 y x3.5 35 .a b 7100 2120所以 x .y 7100 2120当 x60 时, 5.25.y 即预测年龄为 60 岁的观众周均学习成语知识的时间为 5.25 小时12(选做题)为了调查某地区成年人血液的
20、一项指标,现随机抽取了成年男性、女性各 20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图根据医学知识,我们认为此项指标大于 40 为偏高,反之即为正常11(1)依据上述样本数据研究此项血液指标与性别的关系,列出 22 列联表,并判断能否在犯错误的概率不超过 0.01 的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各 2 人,求此项血液指标为正常的人数 X 的分布列及数学期望附: K2 ,其中 n a b c d,n( ad bc) 2( a b) ( c d) ( a c) ( b d)P(K2 k0) 0.0
21、25 0.010 0.005k0 5.024 6.635 7.879解:(1)由茎叶图可得 22 列联表:正常 偏高 合计男性 16 4 20女性 12 8 20合计 28 12 40K2n( ad bc) 2( a b) ( c d) ( a c) ( b d) 1.9056.635,40( 168 412) 220202812所以不能在犯错误的概率不超过 0.01 的前提下认为此项血液指标与性别有关系(2)由样本数据可知,男性正常的概率为 ,女性正常的概率为 .45 35此项血液指标为正常的人数 X 的可能取值为 0,1,2,3,4,P(X0)(1 )2(1 )2 ,45 35 4625P
22、(X1)C (1 )(1 )2(1 )2C (1 ) ,1245 45 35 45 1235 35 44625P(X2) C C ,(45)2 (1 35)2 1245(1 45)1235 (1 35) (1 45)2 (35)2 169625P(X3)C C ,1245(1 45)(35)2 (45)2 1235 (1 35) 26462512P(X4) (45)2 (35)2 ,144625所以 X 的分布列为X 0 1 2 3 4P 4625 44625 169625 264625 144625所以 E(X)0 1 2 3 4 2.8,4625 44625 169625 264625 144625即此项血液指标为正常的人数 X 的数学期望为 2.8.