1、6.2.1 统计与统计案例,-2-,样本的数字特征的应用 例1为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:,-3-,(1)求(xi,i)(i=1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在( )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ()从这
2、一天抽检的结果看,是否需对当天的生产过程进行检查? ()在( )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01),-4-,解 (1)由样本数据得(xi,i)(i=1,2,16)的相关系数为,由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.,-5-,-6-,解题心得1.在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断. 2.平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.,-7-,对点训练1学校为了了
3、解A,B两个班级学生在本学期前两个月内观看电视节目的时长,分别从这两个班级中随机抽取10名学生进行调查,得到他们观看电视节目的时长(单位:小时)如下. A班:5,5,7,8,9,11,14,20,22,31; B班:3,9,11,12,21,25,26,30,31,35. 将上述数据作为样本. (1)绘制茎叶图,并从所绘制的茎叶图中提取样本数据信息(至少写出2条); (2)分别求样本中A,B两个班级学生的平均观看时长,并估计哪个班级的学生平均观看的时间较长; (3)从A班的样本数据中随机抽取一个不超过11的数据记为a,从B班的样本数据中随机抽取一个不超过11的数据记为b,求ab的概率.,-8-
4、,-9-,(3)A班的样本数据中不超过11的数据a有6个,分别为5,5,7,8,9,11;B班的样本数据中不超过11的数据b有3个,分别为3,9,11. 从上述A班和B班的数据中各随机抽取一个,记为(a,b),分别为(5,3), (5,9),(5,11),(5,3),(5,9),(5,11),(7,3),(7,9),(7,11),(8,3),(8,9),(8,11),(9,3), (9,9),(9,11),(11,3),(11,9),(11,11),共18种, 其中ab的有(5,3),(5,3),(7,3),(8,3),(9,3),(11,3),(11,9),共7种. 故ab的概率为 .,-1
5、0-,利用回归方程进行回归分析 例2(2018全国,文18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.,-11-,为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型: =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型: = 99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.,解 (1)利用模型,该地
6、区2018年的环境基础设施投资额的预测值为=-30.4+13.519=226.1(亿元). 利用模型,该地区2018年的环境基础设施投资额的预测值为=99+17.59=256.5(亿元).,-12-,(2)利用模型得到的预测值更可靠.理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投
7、资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠. (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠. (以上给出了2种理由,答出其中任意一种或其他合理理由均可得分),-13-,解题心得在求两变量相关系数和两变量的回归方程时,由于r和 的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后
8、再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.,-14-,对点训练2据某市地产数据研究显示,2018年该市新建住宅销售均价走势如下图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的抑制.,(1)地产数据研究院发现,3月至7月的各月均价y(单位:万元/平方米)与月份x之间具有较强的线性相关关系,试建立y关于x的回归方程; (2)若政府不调控,依此相关关系预测第12月份该市新建住宅销售均价.,-15-,-16-,-17-,有关独立性检验的综合问题 例3海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了10
9、0个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:,-18-,-19-,(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;,(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.,-20-,解 (1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)5=0.62. 因此,事件A的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表,由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.
10、(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.,-21-,解题心得有关独立性检验的问题解题步骤:(1)作出22列联表;(2)计算随机变量K2的值;(3)查临界值,检验作答.,-22-,对点训练3(2018全国,文18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机
11、分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:,-23-,(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:,(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?,-24-,解 (1)第二种生产方式的效率更高. 理由如下: 由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成
12、生产任务所需时间至多79分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. 由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.,-25-,由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.,-26-,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1