1、第1课时 统计、统计案例,热点考向一 抽样方法 考向剖析:本考向考查形式为选择题或填空题,主要考查随机数表法、系统抽样和分层抽样.考查数据处理的核心素养,为基础题或中档题,分值为5分.2019年的高考仍将以选择题或填空题形式考查,主要考查分层抽样,也不排除对系统抽样问题的考查.,【典例1】(1)总体由编号为01,02,03,49,50的50个个体组成,利用随机数表(以下选取了随机数表中的第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第9列和第10列数字开始由左向右读取,则选出来的第4个个体的编号为 ( ),66 67 40 67 14 64 05 71 95 86 11 05 65
2、 09 68 76 83 20 37 90 57 16 00 11 66 14 90 84 45 11 75 73 88 05 90 52 83 20 37 90 A.05 B.09 C.11 D.20,(2)某学校在高一新生入学后的一次体检后为了解学生的体质情况,决定从该校的1 000名高一新生中采用系统抽样的方法抽取50名学生进行体质分析,已知样本中第一个号为007号,则抽取的第10个学生为( ) A.107 B.097 C.207 D.187,(3)(2018成都二模)如图是调查某学校高三年级男女学生是否喜欢篮球运动的等高条形图,阴影部分的高表示喜欢该项运动的频率.已知该年级男生女生各5
3、00名(假设所有学生都参加了调查),现从所有喜欢篮球运动的同学中按分层抽样的方式抽取32人,则抽取的男生人数为_. 世纪金榜导学号,【解析】(1)选B.从随机数表第1行的第9列和第10列数字开始由左向右读取,符合条件的数有14,05,11,05,09,因为05出现了两次,所以选出来的第4个个体的编号为09.,(2)选D.根据题意组距为 =20,则抽取学生的编号组成以7为首项,20为公差的等差数列.其通项公式为an=7+20(n-1),所以a10=7+20(10-1)=187.,(3)由已知得,喜欢篮球运动的女生有5000.2 =100(人),喜欢篮球运动的男生有5000.6=300(人), 共
4、有400人喜欢篮球运动.按分层抽样的方式抽取32人, 抽样比为 =0.08,则抽取的男生人数为3000.08 =24(人). 答案:24,【名师点睛】系统抽样与分层抽样的注意点 1.系统抽样 (1)所分段数等于样本容量,即每段取一个. (2)第一段入样个体编号为a1,当每段含有n0个个体时,第k段入样个体编号为a1+(k-1)n0. (3)当总体不能分成整数段时,要先在总体中等可能剔除若干个体.,2.分层抽样 (1)适用于总体由差异明显的几部分组成的情况. (2)当总体容量为N,样本容量为n时,有下列关系式:,【考向精炼】 1.(2018洛阳一模)为了规范学校办学,省教育厅督察组对某所高中进行
5、了抽样调查,抽查到班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号,33号,46号同学在样本中,那么样本中还有一位同学的编号应是 ( ) A.13 B.19 C.20 D.52,【解析】选C.用系统抽样抽出的四个学生的号码从小到大:7,?,33,46成等差数列,因此,另一学生编号为7+46-33=20.,2.(2018萍乡三模)某中学有高中生3 000人,初中生 2 000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是 ( ),A.1
6、2 B.15 C.20 D.21,【解析】选A.由题意得,中学有高中生3 000人,女生 3 00070%=2 100, 初中生2 000人,其中男生2 00060%=1 200, 已知从高中生中抽取女生21人,故抽样比为 所以从初中生中抽取的男生人数是:1 200 =12.,【加练备选】 1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从11 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( ) A.16 B.17 C.18 D.19,【解析】选C.因为从1 000名学生中抽取一个容量为 40的
7、样本,所以系统抽样的分段间隔为 =25, 设第一部分随机抽取一个号码为x, 则抽取的第18编号为x+1725=443,所以x=18.,2.学校高中部共有学生2 000名,高中部各年级男、女生人数如表,已知在高中部学生中随机抽取1名学生,抽到高三年级女生的概率是0.18,现用分层抽样的方法在高中部抽取50名学生,则应在高二年级抽取的学生人数为( ),A.14 B.15 C.16 D.17,【解析】选B.由已知得高三女生数x=2 0000.18=360. 故高三年级总共有360+340=700(人). 而高一年级共有373+327=700(人). 所以高二年级共有2 000-700-700=600
8、(人). 设高二年级应抽取的学生数为n,则由分层抽样的特点 知, ,解得n=15.,热点考向二 用样本估计总体 考向剖析:本考向考查形式为选择填空题或解答题,主要考查样本数字特征的计算、频率分布直方图和茎叶图.考查数据处理的核心素养,为基础题,分值为512分.2019年的高考仍将以选择填空题或解答题,主要考查以频率分布直方图或茎叶图为背景的问题.,【典例2】(1)某学校A,B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.,A班数学兴趣小组的平均成绩高于B班的平均成绩; B班数学兴趣小组的平均成绩高于A班的平均成绩; A班数学兴
9、趣小组成绩的标准差大于B班成绩的标准差;,B班数学兴趣小组成绩的标准差大于A班成绩的标准差,其中正确结论的编号为 ( ) A. B. C. D.,(2)(2018佛山模拟)从某企业生产的产品的生产线上随机抽取200件产品测量这批产品的一项质量指标值,由测量结果得如图所示的频率分布直方图:,估计这批产品质量指标值的样本平均数 和样本方差s2(同一组中的数据用该组区间的中点值作代表);,若该种产品的等级及相应等级产品的利润(每件) 参照以下规则(其中Z为产品质量指标值): 当Z( -s, +s),该产品定为一等品,企业可获利 200元; 当Z( -2s, +2s)且Z( -s, +s),该产品定为
10、 二等品,企业可获利100元;,当Z( -3s, +3s)且Z( -2s, +2s),该产品定为三等品,企业将损失500元;否则该产品定为不合格品,企业将损失1 000元. ()若测得一箱产品(5件)的质量指标数据分别为:76,85,93,105,112,求该箱产品的利润;,()设事件A:Z( -s, +s);事件B:Z( -2s,+2s);事件C:Z( -3s, +3s).根据经验,对于 该生产线上的产品,事件A,B,C发生的概率分别为 0.6827、0.9545、0.9973.根据以上信息,若产品预计 年产量为10 000件,试估计该产品年获利情况.(参考 数据: 5.10),【审题导引】
11、(1)看到茎叶图、平均值及标准差, 想到数据的_与_程度. (2)看到频率分布直方图,想到_是 对应组的频率;需要计算频数时,可依据频数= _.,集中,离散,小长方形的面积,样本容量频率,【解析】(1)选A. A班:53,62,64,76,74,78,78,76,81,85,86,88,82,92,95; B班:45,48,51,53,56,62,64,65,73,73,74,70,83,82,91,所以A班平均数为78,B班平均数为66,则A班平均成绩高于B班平均成绩;由茎叶图可知,A班成绩相对集中,B班成绩相对分散,所以B班的标准差大于A班的标准差.所以正确.,(2)质量指标的样本平均数
12、=800.06+90 0.26+1000.38+1100.22+1200.08=100, 质量指标的样本的方差s2=(-20)20.06+(-10)2 0.26+00.38+1020.22+2020.08=104, 这种产品质量指标的平均数的估计值为100,方差的 估计值为104.,因( -s, +s)=(89.8,110.2), ( -2s, +2s)=(79.6,120.4) ( -3s, +3s)=(69.4,130.6).,()计算得5件产品中有一等品两件:93,105;二等品 两件:85,112;三等品一件:76. 故根据规则,获利为:2200+2100+1(-500) =100(元
13、). ()根据提供的概率分布,该企业生产的10 000件 产品中一等品大约为10 0000.6827=6 827(件),二等品大约为10 000(0.9545-0.6827)=2 718(件), 三等品10 000(0.9973-0.9545)=428(件), 不合格品大约为10 000(1-0.9973)=27(件), 估计年获利为:6 827200+2 718100+428(-500) +27(-1 000)=1 396 200(元).,【探究追问】 1.本例(2)条件下,质量指标值的测量结果在95115之间的产品共有多少件?,【解析】根据频率分布直方图可知, 测量结果在95115之间的产
14、品共有 10 000(0.038+0.022)10=6 000(件).,2.本例(2)条件下,估计这批产品的质量指标值的众数和中位数?(精确到0.1),【解析】根据频率分布直方图可知, 这批产品的质量指标值的众数约为100, 各组频率依次为0.00610=0.06,0.02610=0.26, 0.03810=0.38,0.02210=0.22,0.00810=0.08, 设中位数为x,因为0.06+0.26=0.320.5所以x在第三组且满足 0.06+0.26+(x-95)0.038=0.5,解得x99.7.,【名师点睛】 1.两类数字特征的意义 (1)平均数、中位数、众数描述数据的集中趋势
15、; (2)方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大,越不稳定.,2.与频率分布直方图有关的问题 (1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据. (2)众数为频率分布直方图中最高矩形的底边中点的横坐标.,(3)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (4)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.,【考向精炼】 1.(2018信阳二模)某校高三年级10个班参加合唱比 赛得分的茎叶图如图所示,若这组数据的平均数是20,
16、 则 的最小值为 ( ),A.1 B. C.2 D.,【解析】选C.根据茎叶图知,这组数据的平均数是12+13+15+19+17+23+(20+a)+25+28+(20+b)=20, 所以a+b=8, 所以 当且仅当b=3a=6时取“=”,所以 的最小值为2.,2.(2018连云港一模)某地区教育主管部门为了对该地区模拟考试成绩进行分析,随机抽取了150分到450分之间的1 000名学生的成绩,并根据这1 000名学生的成绩画出样本的频率分布直方图(如图),则成绩在250,400)内的学生共有_人.,【解析】因为(0.001+0.001+0.004+a+0.005+0.003) 50=1,得a
17、=0.006. 所以1 000(0.004+0.006+0.005)50=750. 答案:750,【易错警示】解答与频率分布直方图有关的问题容易出现以下两点错误:(1)忽视所有小方形的面积之和为1.(2)误把频率分布直方图中小长方形的高当成频率,导致样本数据的频率求错.,3.如图为甲,乙两组数据的茎叶图,则数据较为稳定的那组数据的方差为_. 世纪金榜导学号,【解析】由题中茎叶图可知甲的数据为27,31,35,39,乙的数据为28,32,34,38.由此可以得出甲的平均数为33,乙的平均数也为33,所以有,由此可得数据较为稳定的是乙组,方差为13. 答案:13,【加练备选】某县大力开展全民义务植
18、树运动,为了了解一片树林的树苗生长情况,随机测量了其中1 000株树苗的高度(单位:cm),所得数据如图,那么在这1 000株树苗中,高度不小于110 cm的有_株.,【解析】高度不小于110 cm的频率为 1-(0.01+0.02+0.04)10=0.3, 所以1 000株树苗中高度不小于110 cm的有300株. 答案:300,热点考向三 回归分析与独立性检验 高频考向,类型一 回归分析 【典例3】(2018资阳二模)某地区某农产品近几年的产量统计如下表:,(1)根据表中数据,建立y关于t的线性回归方程,(2)若近几年该农产品每千克的价格v(单位:元)与年产量y满足的函数关系式为v=4.5
19、-0.3y,且每年该农产品都能售完. 根据(1)中所建立的回归方程预测该地区2019(t=7)年该农产品的产量; 当t(1t7)为何值时,销售额S最大?,附:对于一组数据(t1,y1),(t2,y2),(tn,yn),其回归 直线 的斜率和截距的最小二乘估计分别为:= , . 世纪金榜导学号,【大题小做】,【解析】(1)由题, =3.5,=7,=(-2.5)(-0.4)+(-1.5) (-0.3)+0+0.50.1+1.50.2+2.50.4=2.8,=(-2.5)2+(-1.5)2+(-0.5)2+0.52+1.52+2.52 =17.5.所以 =0.16,又 得 =7-0.163.5=6.
20、44, 所以y关于t的线性回归方程为 =0.16t+6.44.,(2)由(1)知 =0.16t+6.44, 当t=7时, =0.167+6.44=7.56,即2019年该农产品的产量为7.56万吨.,当年产量为y时,销售额 S=(4.5-0.3y)y103=(-0.3y2+4.5y)103(万元), 当y=7.5时,函数S取得最大值, 又因y6.6,6.7,7,7.1,7.2,7.4,7.56, 计算得当y=7.56,即t=7时,即2019年销售额最大.,类型二 独立性检验 【典例4】某市为了了解全民健身运动开展的效果,选择甲、乙两个相似的小区作对比,一年前在甲小区利用体育彩票基金建设了健身广
21、场,一年后分别在两小区采用简单随机抽样的方法抽取20人作为样本,进行身体综合素质测试,测试得分分数的茎叶图(其中十位为茎,个位为叶)如图:,(1)求甲小区和乙小区的中位数. (2)身体综合素质测试成绩在60分以上(含60)的人称为“身体综合素质良好”,否则称为“身体综合素质一般”.以样本中的频率作为概率,两小区人口都按1 000人计算,填写下列22列联表,并判断在犯错误的概率不超过0.025的前提下认为“身体综合素质良好”与“小区是否建设健身广场”有关?,(附:K2= ),【审题导引】(1)看到两个小区各有20人,想到按大小 排序后求第10和11个数的_,得到中位数; (2)填写下列22列联表
22、,需要先计算两个小区“身体 综合素质良好”的_.,平均数,频率,【解析】(1)由题意,甲小区的中位数为55,乙小区的 中位数为42.5. (2)甲小区“身体综合素质良好”的概率约为 乙小区“身体综合素质良好”的概率约为 据此计算可得22列联表如下:,根据列联表中的数据,得到k= 5.6985.024, 所以在犯错误的概率不超过0.025的前提下认为“身体综合素质良好”与“小区是否建设健身广场”有关.,【名师点睛】 1.求回归方程的关键及实际应用 (1)关键:正确理解计算 的公式和准确地计算.,(2)实际应用:在分析实际问题中两个变量的相关关系时,可根据样本数据作出散点图,确定两个变量之间是否具
23、有相关关系,若具有线性相关关系,则可通过回归方程估计和预测变量的值.,2.独立性检验的关键 (1)根据22列联表准确计算K2的观测值k,若22列联表没有列出来,要先列出此表. (2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.,【考向精炼】 1.某基地蔬菜大棚采用水培、无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(小时)都在30小时以上,其中不足50小时的周数有5周,不低于50小时且不超过70小时的周数有35周,超过70小时的周数有,10周.根据统计,该基地的西红柿增加量y(百斤)与使用某种液体肥料x(千克)之间对应数据为如图
24、所示的折线图.,(1)依据数据的折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01).(若|r|0.75,则线性相关程度很高,可用线性回归模型拟合),(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪最多可运行台数受周光照量X限制,并有如下关系:,若某台光照控制仪运行,则该台光照控制仪周利润为 3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周周总利润的平均值. 世纪金榜导学号,附:相关系数公式r= 参考数据 0.55, 0.95.,【解析】(1
25、)由已知数据可得因为 =(-3)(-1)+0+0+0+31=6,所以相关系数r= = 因为r0.75,所以可用线性回归模型拟合y与x的关系.,(2)记商家周总利润为Y元,由条件可得在过去50周里: 当X70时,共有10周,此时只有1台光照控制仪运行, 周总利润Y=13 000-21 000=1 000(元). 当50X70时,共有35周,此时有2台光照控制仪运行, 周总利润Y=23 000-11 000=5 000(元).,当X50时,共有5周,此时3台光照控制仪都运行, 周总利润Y=33 000=9 000(元). 所以过去50周周总利润的平均值=4 600(元), 所以商家在过去50周周总
26、利润的平均值为4 600(元).,2.从某小区抽取50户居民进行月用电量调查,发现其用电量都在50到350度之间,将用电量的数据绘制成频率分布直方图如图所示:,(1)求频率分布直方图中x的值并估计这50户用户的平均用电量.,(2)若将用电量在区间50,150)内的用户记为A类用户,标记为低用电家庭,用电量在区间250,350)内的用户记为B类用户,标记为高用电家庭,现对这两类用户进行问卷调查,让其对供电服务进行打分,打分情况见茎叶图:,从B类用户中任意抽取3户,求恰好有2户打分超过85分的概率; 若打分超过85分视为满意,没超过85分视为不满意,请填写下面的列联表,并根据列联表判断是否在犯错误
27、的概率不超过0.05的前提下认为“满意度与用电量高低有关”?,附表及公式:,K2= ,n=a+b+c+d.,【解析】(1)x= -(0.006+0.0036+0.00242+0.0012) =0.0044, 按用电量从低到高的六组用户数分别为6,9,15,11, 6,3,所以估计平均用电量为=186度.,(2)B类用户共9人,打分超过85分的有6人,所以从B类 用户中任意抽取3户,恰好有2户打分超过85分的概率为,因为K2的观测值k= =1.63.841, 所以不能在犯错误的概率不超过0.05的前提下认为“满意与否与用电量高低有关”.,【加练备选】 1.如图是我国2008年至2014年生活垃圾
28、无害化处理量(单位:亿吨)的折线图.,注:年份代码1-7分别对应年份2008-2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明. (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.,附注: 参考数据: =9.32, =40.17, =0.55,2.646.,参考公式:相关系数r= 回归方程 中斜率和截距的最小二乘估计 公式分别为:,【解析】(1)由折线图中的数据和附注中参考数据得所以r 因为y与t的相关系数近似为0.99,说明y与t的线性相关 程度相当高,从而可以用线性回归模型拟合y与t的关系.,(2)由 1.33
29、1及(1)得 1.331-0.10340.92. 所以,y关于t的回归方程为 =0.92+0.10t.,将2016年对应的t=9代入回归方程得:=0.92+0.109=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.,2.某公司即将推出一款新型智能手机,为了更好地对产品进行宣传,需预估市民购买该款手机是否与年龄有关,现随机抽取了50名市民进行购买意愿的问卷调查,若得分低于60分,说明购买意愿弱;若得分不低于60分,说明购买意愿强,调查结果用茎叶图表示如图所示.,(1)根据茎叶图中的数据完成22列联表,并判断是否在犯错误的概率不超过0.05的前提下认为市民是否购买该款手机与
30、年龄有关?,(2)从购买意愿弱的市民中按年龄进行分层抽样,共抽取5人,从这5人中随机抽取2人进行采访,求这2人都是年龄大于40岁的概率. 附:K2= .,【解析】(1)由茎叶图可得:,由列联表可得,K2的观测值k= 3.463.841. 所以,不能在犯错误的概率不超过0.05的前提下认为市民是否购买该款手机与年龄有关.,(2)购买意愿弱的市民共有20人,抽样比例为 所以年龄在2040岁的抽取了2人,记为a,b, 年龄大于40岁的抽取了3人,记为A,B,C,从这5人中随机抽取2人,所有可能的情况为(a,b), (a,A),(a,B),(a,C),(b,A),(b,B),(b,C),(A,B), (A,C),(B,C),共10种, 其中2人都是年龄大于40岁的有3种情况,所以概率 为,