1、1第二讲 统计与统计案例年份 卷别 考查角度及命题位置 命题分析及学科素养卷 统计图表的应用T 3卷 回归分析及应用T 182018卷 茎叶图与独立性检验T 182017 卷频率分布直方图与独立性检验T 18统计图表的应用T 42016 卷 回归分析的应用T18命题分析统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低回归分析常在解答题中考查学科素养统计与统计案例主要考查用样本估计总体与回归分析,着重考查学生数学抽象、数学运算及数据分析核心素养.样本估计总体授课提示:对应学生用书第62页悟通方法结论1直方图的两个结论(1)小长方形的面积组距 频率频 率组 距
2、2(2)各小长方形的面积之和等于1.2统计中的四个数字特征(1)众数:在样本数据中,出现次数最多的那个数据(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数(3)平均数:样本数据的算术平均数,即 (x1 x2 xn)x1n(4)方差与标准差方差: s2 (x1 )2( x2 )2( xn )21n x x x标准差: s .1nx1 x2 x2 x2 xn x2(1)(2018长春模拟)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )A.95,94 B92,86C99,86 D95,91解析:由茎叶图可知,
3、此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.答案:B(2)(2016高考北京卷)(12分)某市居民用水拟实行阶梯水价每人每月用水量中不超过 w立方米的部分按4元/立方米收费,超出 w立方米的部分按10元/立方米收费从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:3如果 w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米, w至少定为多少? 当 w3时,估计该市居民该月
4、的人均水费学审题条件信息 想到方法 注意什么信息中给出频率分布直方图由图读出月用水量在各区间内的频率直方图中纵轴数据表示为常误认为频率频 率组 距信息已知超出3立方米利用用水量的频率分布直方图得出用水费用的频率分布表条件中水费的计算方法规范解答 由用水量的频率分布直方图,知该市居民该月用水量在区间0.5,1,(1,1.5,(1.5,2,(2,2.5,(2.5,3内的频率依次为0.1,0.15,0.2,0.25,0.15. (2分)所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意, 至少定为3. (6分)由用水量的频率分布直方图及题意,得居民该月用水费用的数
5、据分组与频率分布表如下:组号 1 2 3 4 5 6 7 8分组 2,4 (4,6 (6,8 (8,10 (10,12 (12,17 (17,22 (22,27频率 0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05(10分)根据题意,该市居民该月的人均水费估计为:40.160.1580.2100.25120.15170.05220.05270.0510.5(元) (12分)1众数、中位数、平均数与直方图的关系4(1)众数为频率分布直方图中最高矩形的底边中点的横坐标(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(3)平均数等于频率分布直方图中每
6、个小矩形的面积乘小矩形底边中点的横坐标之和2方差的计算与含义计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差越大说明波动越大练通即学即用1(2017高考全国卷)为评估一种农作物的种植效果,选了 n块地作试验田这 n块地的亩产量(单位:kg)分别为 x1, x2, xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A x1, x2, xn的平均数B x1, x2, xn的标准差C x1, x2, xn的最大值D x1, x2, xn的中位数解析:标准差能反映一组数据的稳定程度故选B.答案:B2(2018贵阳
7、模拟) A市某校学生社团针对“ A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图所示的茎叶图(1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);(2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求 a的值;(3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率解析:(1)女生打分的平均数为 (68697675707879828796)78110;男生打分比较分散(2)由茎叶图可知,20名学生中评分在70,80)内的有9人,则 a 100.045.920
8、5(3)设“有女生被抽中”为事件 A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为 a, b, c,d ,2名女生分别记为 m, n,从中抽取2人的基本事件有 ab, ac, ad, am, an, bc, bd, bm, bn, cd, cm, cn,d m,dn, mn,共15种,其中有女生被抽中的事件有 am, an, bm, bn, cm, cn,d m,d n, mn,共9种,所以 P(A) .915 35回归分析授课提示:对应学生用书第64页悟通方法结论1方程 x 是两个具有线性相关关系的变量的一组数据( x1, y1),( x2, y2
9、),y b a ,( xn, yn)的回归方程,其中 , 是待定参数,回归方程的截距和斜率分别为 a b b , ,( , )是样本中心点,回归直线过样本中心点 n i 1xiyi nx y n i 1x2i nx2 a y b x x y2(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关(2)样本相关系数 r具有以下性质: r0表示两个变量正相关, r6.635,故有99%的把握认为箱产量与养殖方法有关(10分)(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位
10、数的估计值为1150 52.35(kg) (12分)0.5 0.340.068解决概率与统计综合问题的一般步骤练通即学即用(2018西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100,分别加以统计,得到如图所示的频率分布直方图(1)根据“25周岁以上(含25
11、周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?生产能手 非生产能手 合计25周岁以上(含25周岁)组25周岁以下组12合 计附: K2nad bc2a bc da cb dP(K2 k0) 0.100 0.050 0.010 0.001k0 2.706 3.841 6.635 1
12、0.828解析:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100 60(300300 200名),“25周岁以下组”应抽取工人100 40(名)200300 200(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为701070 73(件)0.5 0.05 0.350.35 207综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73件(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有600.005103(名),设其分别为 m1, m2, m3;25周岁以下的工人共有400.005102
13、(名),设其分别为 n1, n2,则所有基本事件为( m1, m2),( m1, m3),(m1, n1),( m1, n2),( m2, m3),( m2, n1),( m2, n2),( m3, n1),( m3, n2),( n1, n2),共10个记“至少抽到一名25周岁以下组的工人”为事件 A,事件 A包含的基本事件共7个故 P(A) .710(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60(0.020.005)1015(名),25周岁以下的生产能手共有40(0.032 50.005)1015(名),则22列联表如下:生产能手 非生产能手 合计25周岁以上(含
14、25周岁)组 15 45 6025周岁以下组 15 25 40合计 30 70 100K2 1.7862.706.1001525 1545260403070 2514综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.授课提示:对应学生用书第150页13一、选择题1利用系统抽样法从编号分别为1,2,3,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A73 B78C77 D76解析:样本的分段间隔为 5,所以13号在第三组,则最大的编号为13(163)5801678.故选B.答案:B2某课外小组的同学们在社会实践活动
15、中调查了20户家庭某月的用电量如下表所示:用电量/度 120 140 160 180 200户数 2 3 5 8 2则这20户家庭该月用电量的众数和中位数分别是( )A180,170 B160,180C160,170 D180,160解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.答案:A3(2018高考全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新
16、农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上14C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:设新农村建设前,农村的经济收入为 a,则新农村建设后,农村经济收入为2 a.新农村建设前后,各项收入的对比如下表:新农村建设前 新农村建设后新农村建设后变化情况结论种植收入 60%a 37%2a74% a 增加 A错其他收入 4%a 5%2a10% a 增加一倍以上 B对养殖收入 30%a 30%2a60% a 增加了一倍 C对养殖收入第三产业收
17、入(30%6%) a36% a(30%28%)2 a116% a超过经济收入2 a的一半D对故选A.答案:A4(2017高考全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( )A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在7,8月D各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误由图可知,B、C
18、、D正确答案:A5(2018宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间25,30)的为一等品,在区间20,25)和30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )15A5 B7C10 D50解析:根据题中的频率分布直方图可知,三等品的频率为1(0.050 00.062 50.037 5)50.25,因此该样本中三等品的件数为2000.2550.答案:D6(2018兰州模拟)已知某种商品的广告费支出 x(单位:万元)与销售额 y(单位:万元)之间有如下对应数据:x 2 4 5 6
19、8y 30 40 50 m 70根据表中提供的全部数据,用最小二乘法得出 y与 x的线性回归方程为 6.5 x17.5,y 则表中 m的值为( )A45 B50C55 D60解析: 5,x2 4 5 6 85 ,y30 40 50 m 705 190 m5当 5时, 6.5517.550,x y 50,解得 m60.190 m5答案:D二、填空题7(2018惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表):零件数 x/个 10 20 30 40 50加工时间 y/分钟 62 68 75 81 89由最小二乘法求得回归方程 0.67 x
20、 ,则 的值为_y a a 解析:因为 30,x10 20 30 40 50516 75,y62 68 75 81 895所以回归直线一定过样本点的中心(30,75),则由 0.67 x 可得75300.67 ,y a a 求得 54.9.a 答案:54.98(2018高考全国卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样答案:分层抽样9(2018郑州二检)已知甲、乙两
21、组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的 m, n的比值 _.mn解析:由茎叶图可知甲的数据为27,30 m,39,乙的数据为20 n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以 m3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有 (20 n323438)33,所以 n8,所以 .14 mn 38答案:3810如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字09中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为 a1, a2,则它们的大小关系是_(用“”表示).17解析:
22、由题意知去掉一个最高分和一个最低分后,可以求得甲和乙两名选手得分的平均数分别为 a1 8084, a2 8085,所以 a2 a1.1 4 535 43 6 75答案: a2 a1三、解答题11某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示( x为该商品的进货量, y为销售天数):x/吨 2 3 4 5 6 8 9 11y/天 1 2 3 3 4 5 6 8(1)根据上表数据在图中的网格中绘制散点图:(2)根据上表提供的数据,求出 y关于 x的线性回归方程 x ;y b a (3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测
23、需要销售的天数参考公式和数据: , ;b ni 1xiyi nxyni 1x2i nx2 a y b x356, iyi241.8i 1x2i8i 1x解析:(1)散点图如图所示(2)依题意,得 (234568911)6,x18 (12334568)4,y1818又 356, iyi241,8i 1x2i8i 1x所以 , 4 6 ,b 8i 1xiyi 8xy8i 1x2i 8x2 241 864356 862 4968 a 4968 1134故线性回归方程为 x .y 4968 1134(3)由(2)知,当 x24时, 24 17,y 4968 1134故若该商店一次性进货24吨,则预计需
24、要销售17天12(2018郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:男生测试情况:抽样情况 病残免试 不合格 合格 良好 优秀人数 5 10 15 47 x女生测试情况:抽样情况 病残免试 不合格 合格 良好 优秀人数 2 3 10 y 2(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,
25、根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为体育达人与性别有关?”男性 女性 总计体育达人非体育达人总计临界值表:P(K2 k0) 0.10 0.05 0.025 0.010 0.005k0 2.706 3.841 5.024 6.635 7.879附: K2 ,其中 n a b cd.nad bc2a bc da cb d19解析:(1)按分层抽样的知识知男生应抽取80名,女生应抽取20名, x80(5101547)3, y20(23102)3.抽取的100名且测试等级为“优秀”的3名男生分别记为 A, B, C,2名女生分别记为 a, b.从
26、5名学生中任选2名,总的基本事件有( A, B),( A, C),( A, a),( A, b),( B, C),(B, a),( B, b),( C, a),( C, b),( a, b),共10个设“选出的2名学生恰好是一男一女”为事件 M,则事件 M包含的基本事件有( A, a),( A, b),( B, a),( B, b),( C, a),( C, b),共6个, P(A) .610 35(2)22列联表如下:男生 女生 总计体育达人 50 5 55非体育达人 30 15 45总计 80 20 100则 K2 9.091.nad bc2a bc da cb d 1005015 3052802055459.0916.635且 P(K26.635)0.010,能在犯错误的概率不超过0.010的前提下认为“是否为体育达人与性别有关”