1、114 统计与统计案例1.从编号为 150 的 50 枚最新研制的某种型号的导弹中随机抽取 5 枚来进行发射实验,若采用系统抽样方法,则所选取 5 枚导弹的编号可能是( ).A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32解析 间隔距离为 10,故可能的编号是 3,13,23,33,43,故选 B.答案 B2.若某校高一年级 8 个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( ).A.91.5 和 91.5 B.91.5 和 92C.91 和 91.5 D.92 和 92解析 这组数据由小到大排列为 87,
2、89,90,91,92,93,94,96, 中位数是=91.5,91+922平均数 = =91.5.-x 87+89+90+91+92+93+94+968答案 A3.从 300 名学生(其中男生 180 人,女生 120 人)中按性别用分层抽样的方法抽取 50 人参加比赛,则应该抽取的男生人数为 . 解析 因为男生与女生的比例为 180120 =32,所以应该抽取的男生人数为 50=30.33+2答案 304.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验 .根据收集到的数据(如下表),由最小二乘法求得线性回归方程 =0.67x+54.9.y零件数 x (个) 1
3、0 20 30 40 502加工时间 y (min)62 75 81 89现发现表中有一个数据看不清,请你推断出该数据的值为 . 解析 由 =30,得 =0.6730+54.9=75.-x -y设表中的模糊数字为 a,则 62+a+75+81+89=755,a= 68.答案 68能力 1 随机抽样的应用【例 1】 (1)在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编号为 135,再用系统抽样方法从中抽取 7 人,则其中成绩在区间139,151上的运动员人数是( ).A.3 B.4 C.5 D.6(2)我国古代数学专著九章算术中有一衰分问题:今
4、有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( ).A.104 人 B.108 人 C.112 人 D.120 人解析 (1)由题意知,将 135 号分成 7 组,每组 5 名运动员,成绩落在区间139,151内的运动员共有 4 组,故由系统抽样法知,共抽取 4 名 .故选 B.(2)由题意可知,这是一个分层抽样的问题,其中北乡可抽取的人数为 300=300 =108,故选 B.81008100+7488+6912 810022500答案 (1)B (2)B1.(1)系统抽样适用的条件是总体容量较大,样本容量也较大 .3(2)使用系统抽样时,若总体
5、容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔 .2.分层抽样问题类型及解题思路(1)求某层应抽的个体数量:按该层所占总体的比例计算 .(2)已知某层个体数量求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算 .(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况 .1.将参加夏令营的 600 名学生按 001,002,600 进行编号 .采用系统抽样的方法抽取一个容量为 50 的样本,且随机抽得的号码为 003.这 600 名学生分别住在三个营区,从 001到 300 在第 营区,从 301 到 495 在第 营区,从 496 到 600
6、 在第 营区,则三个营区被抽中的人数依次为( ).A.26,16,8 B.25,17,8C.25,16,9 D.24,17,9解析 由题意及系统抽样的定义可知,将这 600 名学生按编号依次分成 50 组,每一组各有 12 名学生,第 k(kN *)组抽中的号码是 3+12(k-1).令 3+12(k-1)300,得 k ,因此1034第 营区被抽中的人数是 25;令 3000.5.而前 4 组的频率之和为 0.04+0.08+0.15+0.21=0.480,故 2011 年至 2017 年该地区农村居民家庭人均纯收入逐年增加,b平均每年增加 0.5 千元 .将 2020 年的年份代号 t=1
7、0 代入(1)中的线性回归方程,得 =0.510+3.3=8.3,y故预测该地区 2020 年农村居民家庭人均纯收入为 8.3 千元 .能力 4 独立性检验【例 5】 微信是现代生活中人们进行信息交流的重要方式,某公司 200 名员工中 90%的人使用微信,其中每天使用微信时间在一小时以内的有 60 人,若将员工分成青年(年龄小9于 40 岁)和中年(年龄不小于 40 岁)两个阶段,则使用微信的人中 75%是青年人 .若规定每天使用微信时间在一小时以上为经常使用微信,则经常使用微信的员工中有 是青年人 .23(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出 22 列联表:青年人
8、 中年人 合计经常使用微信不经常使用微信合计(2)根据 22 列联表中的数据利用独立性检验的方法判断是否有 99.9%的把握认为“经常使用微信与年龄有关” .附: K2= ,n=a+b+c+d.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2 k0) 0.010 0.001k0 6.635 10.828解析 (1)由已知可得,该公司员工中使用微信的有 20090%=180(人) .经常使用微信的有 180-60=120(人),其中青年人有 120 =80(人),23使用微信的人中,青年人有 18075%=135(人),故 22 列联表如下:青年人 中年人 合计经常使用微信 8
9、0 40 120不经常使用微信55 5 60合计 135 45 180(2)将列联表中数据代入公式可得10K2的观测值 k= 13 .333.180(805-5540)21206013545由于 13.33310.828,所以有 99.9%的把握认为“经常使用微信与年龄有关” .1.比较两个分类变量有关联的可能性大小的方法:(1)通过计算 K2的大小判断: K2越大,两变量有关联的可能性越大 .(2)通过计算 |ad-bc|的大小判断: |ad-bc|越大,两变量有关联的可能性越大 .2.独立性检验的一般步骤:(1)根据样本数据制成 22 列联表 .(2)根据公式 K2= ,n=a+b+c+d
10、 计算 K2的观测值 k.n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(3)比较 k 与临界值的大小关系,做统计推断 .为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500 位老年人,结果如表所示:性别 是否需要志愿者男 女需要 40 30不需要 160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例 .(2)能否有 99%的把握认为“该地区的老年人是否需要志愿者提供帮助与性别有关”?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由 .附:P(K2 k0) 0.050 0
11、.010 0.001k0 3.841 6.635 10.828K2= ,n=a+b+c+d.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)11解析 (1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,所以该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为 100%=14%.70500(2)K2的观测值 k= 9 .967.500(40270-30160)220030070430因为 9.9676.635,所以有 99%的把握认为“该地区的老年人是否需要帮助与性别有关”.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年
12、人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再采用分层抽样方法进行抽样调查,比采用简单随机抽样方法更好 .一、选择题1.某工厂平均每天生产某种机器零件 10000 件,要求产品检验员每天抽取 50 件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为 0000,0001,0002,9999,若抽取的第一组中的号码为 0010,则在第三组中抽取的号码为( ).A.0210 B.0410C.0610 D.0810解析 将零件分成 50 段,分段间隔为 200,因此,在第三组中抽取的号码为0010+2200=0410,故选 B.答案 B2.某市 2
13、017 年各月的平均气温()数据的茎叶图如下:则这组数据的中位数是( ).A.19 B.20C.21.5 D.2312解析 由茎叶图知所有的数据为 8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为 20,20,故中位数为 20,故选 B.答案 B3.某中学有高中生 3500 人,初中生 1500 人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为 n 的样本,已知从高中生中抽取 70 人,则 n 的值为( ).A.100 B.150 C.200 D.250解析 (法一)由题意可得 = ,解得 n=100.70n-7035001500(法二)由题
14、意得抽样比为 = ,总体容量为 3500+1500=5000,故 n=5000 =100,故选703500150 150A.答案 A4.下列说法错误的是( ).A.回归直线过样本点的中心( , )-x -yB.线性回归方程对应的直线 = x+ 至少经过其样本数据点( x1,y1),(x2,y2),(xn,yn)中yb a的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中, R2为 0.98 的模型比 R2为 0.80 的模型拟合的效果好解析 回归直线必过样本点的中心,A 正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C
15、正确;在回归分析中, R2越接近于 1,拟合效果越好,D正确;线性回归方程对应的直线 = x+ 一定经过样本点的中心( , ),但不一定经过样本yb a -x -y的数据点,所以 B 错误,故选 B.答案 B5.在“青春校园歌手大赛”比赛现场上,七位评委为某选手打出的分数的茎叶图如图所示,则去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( ).A.85 和 6.8 B.85 和 1.6C.86 和 6.8 D.86 和 1.6解析 剩余的数据为 83,83,84,85,90,13平均分 = =85,-x 83+83+84+85+905所以方差 s2= (83-85)2+(83-85
16、)2+(84-85)2+(85-85)2+(90-85)2=6.8,故选 A.15答案 A6.已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得的线性回归方程为 = x+ .若某同学根据上表中的前两组数据(1,0)和yb a(2,2)求得的直线方程为 y=bx+a,则以下结论正确的是( ).A. b, a B. b, a D. a,故选 C.72 13 b a答案 C二、填空题7.已知样本数据 x1,x2,xn的平均数 =5,则样本数据 2x1+1,2x2+1,2xn+1 的平均数为 .-x解析 由 x1,x2,xn的平均数 =5,
17、得 2x1+1,2x2+1,2xn+1 的平均数为-x2 +1=25+1=11.-x答案 118.某单位为了了解用电量 y(kWh)与气温 x()之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表:气温() 18 12 10 0用电量(kWh) 27 34 37 6214由表中数据得线性回归方程 = x+ 中的 =-2,预测当气温为 -4 时,用电量约为 yb a bkWh. 解析 根据题意知 = =10, = =40.因为回归直线过样本点-x 18+12+10+04 -y 27+34+37+624的中心,所以 =40-(-2)10=60,所以当 x=-4 时, =(-2)(-
18、4)+60=68,所以用电量约为 68 a ykWh.答案 689.某学校随机抽取部分新生调查其上学所需时间(单位:分钟),并将所得数据绘制成频率分布直方图(如图),其中,上学所需时间的范围是0,100,样本数据分组为0,20),20,40),40,60),60,80),80,100,则(1)图中的 x= ; (2)若上学所需时间不少于 1 小时的学生可申请在学校住宿,则该校 600 名新生中估计有 名学生可以申请住宿 . 解析 (1)由频率分布直方图知 20x=1-20(0.025+0.0065+0.003+0.003),解得x=0.0125.(2)上学时间不少于 1 小时的学生的频率为(0
19、 .003+0.003)20=0.12,因此估计有0.12600=72(人)可以申请住宿 .答案 (1)0.0125 (2)72三、解答题10.某省会城市地铁将于 2019 年 6 月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他们的月收入与态度如下表:月收入(单位 :百元 )15,25)25,35)35,45)45,55)55,65)65,7515赞成定价者人数1 2 3 5 3 4认为价格偏高者人数4 8 12 5 2 1(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果
20、保留 2 位小数);(2)由以上统计数据填写下面 22 列联表,分析是否有 99%的把握认为“月收入以 5500 元为分界点对地铁定价的态度有差异” .月收入不低于5500 元的人数月收入低于5500 元的人数合计认为价格偏高者赞成定价者合计附: K2= ,n=a+b+c+d.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2 k0) 0.05 0.01k0 3.841 6.635解析 (1)“赞成定价者”的月平均收入为x1=201+302+403+505+603+7041+2+3+5+3+450 .56.16“认为价格偏高者”的月平均收入为x2=204+308+4012+505+602+7014+8+12+5+2+1=38.75, “赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x1-x2=50.56-38.75=11.81(百元) .(2)根据条件可得 22 列联表如下:月收入不低于5500 元的人数月收入低于5500 元的人数合计认为价格偏高者3 29 32赞成定价者 7 11 18合计 10 40 50K2的观测值 k= 6 .2726.635,50(311-729)210401832 没有 99%的把握认为“月收入以 5500 元为分界点对地铁定价的态度有差异” .