1、1第 2 讲 用样本估计总体考纲解读 1.了解频率分布直方图的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,并体会它们各自的特点(重点)2.理解样本数据标准差的意义和作用,会计算数据标准差;能从样本数据中提取基本的数字特征,并作出合理的解释3.会用样本的频率分布估计总体分布,用样本的基本数字特征估计总体的基本数字特征(难点)4.会用随机抽样的基本方法和样本估计总体的思想解决实际问题考向预测 从近三年高考情况来看,本讲是高考中的一个热点预测 2020 年将会考查用样本估计总体,主要体现在利用频率分布直方图或茎叶图估计总体,利用样本数字特征估计总体题型以客观题呈现,试题难度不大
2、,属中、低档题型频率分布直方图与茎叶图也可能出现于解答题中,与概率等知识综合命题.1用样本的频率分布估计总体分布(1)频率分布:样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率,所有数据(或者数据组)的频率的分布变化规律叫做 频率分布01 02 (2)作频率分布直方图的步骤:求极差,即一组数据中的 最大值与 最小值的差;03 04 决定 组距与组数;将 数据分组;列 频率分布表;画频率分布直方图05 06 07 在频率分布直方图中,纵轴表示 频率/组距,数据落在各小组内的频率用 各小长方08 09 形的面积表示,各小长方形的面积总和等于 1.10 (3)频率分布折线图和总体密
3、度曲线频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线(4)茎叶图:统计中还有一种被用来表示数据的图叫茎叶图,茎是指中间一列数,叶是从茎的旁边生长出来的数22样本的数字特征(1)众数、中位数、平均数(2)方差和标准差方差:s 2 (x1 )2(x 2 )2(x n )2,1n x x x 标准差:3s .1n x1 x 2 x2 x 2 xn x 2(3)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波
4、动的大小标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定3各种统计表的优点与不足41概念辨析(1)一组数据的方差越大,说明这组数据的波动越大( )(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了( )(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次( )答案 (1) (2) (3) (4)2小题热身(1)(2017全国卷)为评估一种农作物的种植效果,选了 n 块地作试验田这 n
5、块地的亩产量(单位: kg)分别为 x1,x 2,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )Ax 1,x 2,x n的平均数 Bx 1,x 2,x n的标准差Cx 1,x 2,x n的最大值 Dx 1,x 2,x n的中位数答案 B解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差故选 B.(2)若某校高一年级 8 个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A91.5 和 91.5 B91.5 和 92C91 和 91.5 D92 和 92答案 A解析 由茎叶图可知,这
6、组数据的中位数是 (9192)91.5,平均数是12(8789909192939496)91.5.18(3)如图所示是一样本的频率分布直方图若样本容量为 100,则样本数据在15,20内的频数是( )5A50B40C30D14答案 C解析 因为15,20对应的小矩形的面积为 10.0450.150.3,所以样本落在15,20的频数为 0.310030.故选 C.(4)已知一组数据 87,89,90,91,93,则该组数据的方差是_答案 4解析 该组数据的平均值为 (8789909193)90,所以该组数据的方差为15(8790) 2(8990) 2(9090) 2(9190) 2(9390)
7、24.15题型 样本数字特征的计算及应用一1某同学使用计算器求 30 个数据的平均数时,错将其中一个数据 105 输入为 165,那么由此求出的平均数与实际平均数的差是( )A2.5 B2 C2 D2.5答案 C解析 将 105 输入为 165,多输入了 60,60302,所以求出的平均数与实际平均数的差是 2.2(2018九江二模)已知一组数据 x1,x 2,x n的方差为 2,若数据ax1b,ax 2b,ax nb(a0)的方差为 8,则 a 的值为( )A1 B. 26C2 D4答案 C解析 根据方差的性质可知,a 228,解得 a2.3一组数据 1,10,5,2,x,2,且 2 ,因此
8、可看出 A 药的疗效更好x y (2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出, A 药疗效的试验结果有 的叶集中在茎 2,3 上,而 B 药疗效710的试验结果有 的叶集中在茎 0,1 上,由此可看出 A 药的疗效更好710题型 频率分布直方图三角度 1 求频率或频数1党的十八大以来,脱贫攻坚取得显著成绩.2013 年至 2016 年 4 年间,累计脱贫5564 万人,2017 年各地根据实际进行创新,精准、高效地完成了脱贫任务某地区对当地3000 户家庭的 2017 年所得年收入情况调查统计,年收入的频率分布直方图如图所示,数11据(单位:千元)的分组依次为20,40),40,60
9、),60,80),80,100,则年收入不超过 6万的家庭大约为( )A900 户 B600 户 C300 户 D150 户答案 A解析 由频率分布直方图得:年收入不超过 6 万的家庭所占频率为:(0.0050.010)200.3,年收入不超过 6 万的家庭大约为 0.33000900.角度 2 求数字特征2某城市 100 户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300分组的频率分布直方图如图(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220
10、,240),240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在220,240)的用户中应抽取多少户?解 (1)由(0.0020.00950.0110.0125x0.0050.0025)201,得x0.0075,所以直方图中 x 的值是 0.0075.12(2)月平均用电量的众数是 230.220 2402因为(0.0020.00950.011)200.450.5,所以月平均用电量的中位数在220,240)内,设中位数为 a,由(0.0020.00950.011)200.0125(a220)0.5,得 a224,所以月平均用电量的
11、中位数是 224.(3)月平均用电量为220,240)的用户有 0.01252010025(户),月平均用电量为240,260)的用户有 0.00752010015(户),月平均用电量为260,280)的用户有0.0052010010(户),月平均用电量为280,300的用户有 0.0025201005(户),抽取比例为 ,所以月平均用电量在220,240)的用户中应抽取1125 15 10 5 1525 5(户)151频率分布直方图的性质(1)小长方形的面积组距 频率;频 率组 距(2)各小长方形的面积之和等于 1;(3)小长方形的高 ,所有小长方形的高的和为 .频 率组 距 1组 距2频率
12、分布直方图中的众数、中位数与平均数(1)最高的小长方形底边中点的横坐标即是众数;(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;(3)平均数是频率分布直方图的“重心” ,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和 1某高校调查了 320 名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30根据直方图,这 320 名学生中每周的自习时间不足22.5 小时的人数是( )13A68 B72 C7
13、6 D80答案 B解析 由频率分布直方图得每周的自习时间不足 22.5 小时的频率为(0.020.07)2.50.225,这 320 名学生中每周的自习时间不足 22.5 小时的人数是0.22532072.故 选 B.2从某企业生产的某种产品中抽取 100 件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图;14(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95 的产品至少要占全部产品 80%”的规定?解 (1)频率分布直方图如图(2)质量指标值的样本平均数为800.06900.261000.381100.221200.08100.x15质量指标值的样本方差为s2(20) 20.06(10) 20.2600.3810 20.2220 20.08104.所以这种产品质量指标值的平均数的估计值为 100,方差的估计值为 104.(3)质量指标值不低于 95 的产品所占比例的估计值为 0.380.220.080.68.由于该估计值小于 0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95 的产品至少要占全部产品的 80%”的规定