1、11.5 抽样方法与总体分布的估计,高考理数,考点一 随机抽样 1.简单随机抽样 (1)定义:一般地,设一个总体含有N个个体,从中逐个 不放回 地抽 取n个个体作为样本(nN),如果每次抽取时各个个体被抽到的机会都 相等,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样方法有两种:随机数法和抽签法. 2.系统抽样 将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽 取 一个 个体,得到所需要的样本,这种抽样方法叫做系统抽样.,知识清单,3.分层抽样 (1)定义:一般地,在抽样时,将总体 分成互不交叉 的层,然后按照一 定的比例,从各层独立地抽取一定数量的个体,将各层取
2、出的个体合在 一起作为样本,这种抽样方法是一种分层抽样. (2)应用范围:总体是由 差异明显 的几个部分组成的.,考点二 用样本估计总体 1.频率分布表:把反映总体频率分布的表格称为频率分布表. 2.频率分布直方图:能够反映样本的频率分布规律的直方图. 3.频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点 顺次连接起来,就得到频率分布折线图. 4.总体密度曲线:如果将样本容量取得足够大,分组的组距足够小,则相 应的频率折线图将趋于一条光滑曲线,即总体密度曲线. 5.茎叶图的画法步骤:第一步:将每个数据分为茎(高位)和叶(低位)两部 分;第二步:将最小茎与最大茎之间的数按大小次序排成
3、一列;第三步:将 各个数据的叶依次写在其茎的右(左)侧.,6.样本的数字特征 (1)众数、中位数、平均数,(2)方差和标准差 方差和标准差反映了数据波动程度的大小. 方差:s2= (x1- )2+(x2- )2+(xn- )2; 标准差:s= .,注意:方差和标准差描述了一组数据与平均数的离散程度,反映了一组 数据相对于平均数的波动情况,标准差和方差越大,说明这组数据的波 动性越大.,1.三种抽样方法的区别与联系,2.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号 码依据第一组抽取的号码和组距唯一确定,每组抽取的号码依次构成一,抽样方法,方法技巧,个以第一组抽取的号码m为首项,组距
4、d为公差的等差数列an,第k组抽 取的号码ak=m+(k-1)d. 3.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样, 抽样比= = . 例1 (1)(2017河北石家庄二中三模,3)某校为了解1 000名高一新生的身体状 况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1 1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽 样抽取的号码为 ( C ) A.16 B.17 C.18 D.19,(2)(2017山东淄博二模,6)为了调研雄安新区的空气质量状况,某课题组 对雄县、容城、安新3县的空气质量进行了调查,按地域特点在三县内 设置空气
5、质量观测点,已知三县内观测点的个数分别为6,y,z,依次构成 等差数列,且6,y,z+6成等比数列,若用分层抽样的方法抽取12个观测点 的数据,则容城应抽取的数据个数为 ( C ) A.8 B.6 C.4 D.2,解析 (1)从1 000名学生中抽取一个容量为40的样本, 系统抽样的分段间隔为 =25,设第一组随机抽取的号码为x, 则抽取的第18组的号码为x+1725=443,x=18.故选C. (2)三县内观测点的个数分别为6,y,z,且依次构成等差数列,且6,y,z+6 成等比数列, y=12,z=18, 若用分层抽样的方法抽取12个观测点的数据,则容城应抽取的数据个数 为12 =4,故选
6、C.,用频率分布直方图解决相关问题时,应正确理解图中各个量的意义,识 图掌握信息是解决该类问题的关键.频率分布直方图有以下几个特点: (1)纵轴表示频率/组距;(2)频率分布直方图中各小长方形高的比就是相 应各组的频率之比;(3)直方图中各小长方形的面积是相应各组的频率, 所有的小长方形的面积之和等于1,即频率之和为1.,频率分布直方图的应用,例2 (2017四川遂宁射洪中学三诊,18)射洪县教育局从去年参加了计 算机职称考试,并且年龄在25,55岁的教师中随机抽取n人的成绩进行 了调查,得到如下统计表和各年龄段人数的频率分布直方图:,(1)补全频率分布直方图,并求a、p、q的值; (2)若用
7、以上数据来估计今年参考老师的过关情况,并将每组的频率视,作对应年龄阶段老师的过关概率,考试是否过关互不影响.现有三名教 师参加该次考试,年龄分别为41岁、47岁、53岁.记为过关的人数,请利 用相关数据求的分布列和数学期望.,解析 (1)根据频率和为1,得年龄在30,35)内的频率为1-(0.04+0.04+0.03 +0.02+0.01)5=0.3, =0.06, 补全的频率分布直方图如图所示:,第一组的人数为 =200,频率为0.045=0.2,n= =1 000. 第二组的频率为0.3,第二组的人数为1 0000.3=300, p= =0.65,第四组共有1 0000.15=150人,a
8、=1500.4=60, 第五组共有1 0000.1=100人,q=30100=0.3. 综上,a=60,p=0.65,q=0.3. (2)根据题意,年龄分别为41岁,47岁,53岁的教师过关的概率分别为 , , 则P(=0)= = ,P(=1)= +2 = = , P(=2)=2 + = ,P(=3)= = = , 的分布列为,数学期望E=0 +1 +2 +3 =1.,1.平均数、中位数、众数与方差、标准差都是重要的数字特征,可对总 体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均 数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大 小. 2.有关平均数、方差的一些结
9、论: (1)若数据x1,x2,xn的平均数为 ,那么mx1+a,mx2+a,mx3+a,mxn+a的平 均数是m +a. (2)设数据x1,x2,xn的方差为s2,则 a.s2= ( + + )-n ; b.数据x1+a,x2+a,xn+a的方差也为s2;,求样本的数字特征及用其估计总体的数字特征,c.数据ax1,ax2,axn的方差为a2s2. 例3 (2015广东,17,12分)某工厂36名工人的年龄数据如下表.,里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据; (2)计算(1)中样本的均值 和方差s2; (3)36名工人中年龄在 -s与 +s之间有多少人?所占的百分比是多少(精
10、确到0.01%)?,(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段,解析 (1)由系统抽样,将36名工人分为9组(4人一组),每组抽取一名工 人. 因为在第一分段里抽到的是年龄为44的工人,即编号为2的工人,故所抽 样本的年龄数据为44,40,36,43,36,37,44,43,37. (2)均值 = =40; 方差s2= (44-40)2+(40-40)2+(36-40)2+(43-40)2+(36-40)2+(37-40)2+(44- 40)2+(43-40)2+(37-40)2= . (3)由(2)可知s= .由题意,年龄在 内的工人共有23人,所 占的百分比为 100%63.89%.,