1、第十四讲 统计与统计案例,总纲目录,考点三 独立性检验,考点一 抽样方法,1.某单位有老年人27人,中年人54人,青年人81人,为了调查他们的 身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则 应分别抽取老年人、中年人、青年人的人数是 ( ) A.7,11,18 B.6,12,18 C.6,18,17 D.7,14,21,答案 D 因为该单位共有27+54+81=162(人),样本容量为42,所 以应当按 = 的比例分别从老年人、中年人、青年人中抽取 样本,且分别应抽取的人数是7,14,21,故选D.,2.某校为了了解学生学习的情况,采用分层抽样的方法从高一 1 000人、高二1
2、200人、高三n人中抽取81人进行问卷调查,已知高 二被抽取的人数为30,那么n= ( ) A.860 B.720 C.1 020 D.1 040,答案 D 根据分层抽样,得 81=30,得n=1 040.,3.高三某班有学生56人,现将所有同学随机编号,用系统抽样的方 法抽取一个容量为4的样本,已知5号、33号、47号学生在样本中, 则样本中还有一个学生的编号为 ( ) A.13 B.17 C.19 D.21,答案 C 从56名学生中抽取4人,用系统抽样的方法,则分段间 隔为14,若第一段抽出的号码为5,则其他段抽取的号码分别为19, 33,47.,4.将参加夏令营的600名学生编号为001
3、,002,600.采用系统抽 样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600 名学生分住在三个营区,从001到300在A营区,从301到495在B营 区,从496到600在C营区,三个营区被抽中的人数依次为 ( ) A.26,16,8 B.25,17,8 C.25,16,9 D.24,17,9,答案 B 依题意及系统抽样的意义可知,将这600名学生按编号 一次分成50组,每一组各有12名学生,第k(kN*)组抽中的号码是3 +12(k-1),令3+12(k-1)300,得k ,因此A营区被抽中的人数是 25.令3003+12(k-1)495,得 k42,因此B营区被抽中的人
4、数 是42-25=17.结合各选项知,选B.,方法归纳 抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三 种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一 个个体被抽到的概率都是相等的,都等于样本容量与总体个体数 的比值.,考点二 用样本估计总体,1.频率分布直方图的两个结论 (1)小长方形的面积=组距 =频率. (2)各小长方形的面积之和等于1.,2.统计中的四个数字特征 (1)众数:在样本数据中,出现次数最多的那个数据. (2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如 果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术
5、平均数,即= (x1+x2+xn). (4)方差与标准差 方差:s2= (x1- )2+(x2- )2+(xn- )2, 标准差:s= .,1.(2018广西南宁模拟)已知某地区中小学生人数和近视情况分别 如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用 分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的 高中生近视人数分别为 ( ),A.100,20 B.200,20 C.200,10 D.100,10,答案 B 由题图甲可知学生总人数是10 000,样本容量为10 000 2%=200,抽取的高中生人数是2 0002%=40,由题图乙可知高中 生的近视率为50%,所以抽取的
6、高中生近视人数为4050%=20,故 选B.,2.(2018四川成都模拟)空气质量指数AQI是检测空气质量的重要 参数,其数值越大说明空气污染状况越严重,空气质量越差.某地 环保部门统计了该地区12月1日至12月24日连续24天的空气质量 指数AQI,根据得到的数据绘制出如图所示的折线图,则下列说法 错误的是 ( ),A.该地区在12月2日空气质量最好 B.该地区在12月24日空气质量最差 C.该地区从12月7日至12月12日AQI持续增大 D.该地区的空气质量指数AQI与这段日期成负相关,答案 D 由题意知,折线图中“点”的位置越高,空气质量越差; “点”的位置越低,空气质量越好.据此,结合
7、所给折线图易知,选 项A,B,C正确,选项D错误,故选D.,3.(2018湖北武汉调研)从某选手的7个得分中去掉1个最高分,去 掉1个最低分后,剩余5个得分的平均数为91分,如图所示是该选手 得分的茎叶图,其中有一个数字模糊,无法辨识,在图中用x表示,则 剩余5个得分的方差为 .,答案 6,解析 去掉一个最高分99分,一个最低分87分,剩余的得分为93 分,90分,(90+x)分,91分,87分,则 =91,解得x=4, 所以这5个数的方差s2= (91-93)2+(91-90)2+(91-94)2+(91-91)2+(9 1-87)2=6.,4.(2018重庆调研)30名学生参加某大学的自主
8、招生面试,面试分 数与学生序号之间的统计图如下:(1)下表是根据统计图中的数据得到的频率分布表,求出a,b的值, 并估计这些学生面试分数的平均值(同一组中的数据用该组区间 中点值作代表);,(2)该大学的某部门从15号学生中随机选择两人进行访谈,求选 择的两人的面试分数均在100分以下的概率.,方法归纳 (1)关于平均数、方差的计算 样本数据的平均数与方差的计算关键在于准确记忆公式,要特别 注意区分方差与标准差,不能混淆,标准差是方差的算术平方根. (2)求解频率分布直方图中相关数据的两个注意点 小长方形的面积表示频率,直方图中的纵轴是 ,而不是频 率. 各组数据频率之比等于对应小长方形的高度
9、之比.,2.样本数据的相关系数r r= , r反映样本数据的相关程度,|r|越大,相关性越强.,(2018陕西质量检测一)基于移动互联网技术的共享单车被称为 “新四大发明”之一,短时间内就风靡全国,带给人们新的出行体 验.某共享单车运营公司的市场研究人员为了解公司的经营状况, 对该公司最近六个月内的市场占有率进行了统计,结果如表:,(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线 性回归模型拟合市场占有率y与月份代码x之间的关系; (2)求y关于x的线性回归方程,并预测该公司2018年2月份的市场 占有率.,解析 (1)作出散点图如下.,2.相关系数r 当r0时,表明两个变量正相关
10、; 当r0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对 值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常| r|大于0.75时,认为两个变量有很强的线性相关性.,(2018课标全国,18,12分)如图是某地区2000年至2016年环境基 础设施投资额y(单位:亿元)的折线图.,为了预测该地区2018年的环境基础设施投资额,建立了y与t的两 个线性回归模型,根据2000年至2016年的数据(时间变量t的值依 次为1,2,17)建立模型: =-30.4+13.5t;根据2010年至2016年的 数据(时间变量t的值依次为1,2,7)建立模型: =
11、99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额 的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.,解析 (1)利用模型,该地区2018年的环境基础设施投资额的预 测值为 =-30.4+13.519=226.1(亿元). 利用模型,该地区2018年的环境基础设施投资额的预测值为 = 99+17.59=256.5(亿元). (2)利用模型得到的预测值更可靠. 理由如下: ()从折线图可以看出,2000年至2016年的数据对应的点没有随 机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的 数据建立的线性模型不能很好地
12、描述环境基础设施投资额的 变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从 2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利 用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好 地描述2010年以后的环境基础设施投资额的变化趋势,因此利用 模型得到的预测值更可靠. ()从计算结果看,相对于2016年的环境基础设施投资额220亿 元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模 型得到的预测值的增幅比较合理,说明利用模型得到的预测 值更可靠.,考点四 独立性检验 1.2
13、2列联表 设两个变量A,B,每一个变量都可以取两个值,变量A:A1,A2,变量 B:B1,B2,则22列联表如下:,(2018湖北武汉调研)海水养殖场进行某水产品的新、旧网箱养 殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水 产品的产量(单位:kg),其频率分布直方图如下:,(1)估计旧养殖法的箱产量低于50kg的概率,并估计新养殖法的箱 产量的平均值; (2)填写下面22列联表,并根据列联表判断是否有99%的把握认,为箱产量与养殖方法有关.,附:K2= ,其中n=a+b+c+d.,解析 (1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0. 024+0.03
14、4+0.040)5=0.62,所以旧养殖法的箱产量低于50 kg的概 率估计值为0.62;新养殖法的箱产量的平均值为 (750.02+85 0.10+950.22+1050.34+1150.23+1250.05+1350.04)=52.35 (kg). (2)根据箱产量的频率分布直方图得22列联表如下:,K2= 15.705, 由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.,方法归纳 独立性检验的一般步骤 (1)根据样本数据制成22列联表; (2)根据公式K2= (n=a+b+c+d)计算K2的值; (3)查表比较K2与临界值的大小关系,作统计判断.,(2018江西南昌
15、模拟)微信已成为人们常用的社交软件,“微信运 动”是微信里由腾讯开发的一个类似计步数据库的公众号.手机 用户可以通过关注“微信运动”公众号查看自己每天行走的步 数,同时也可以和好友进行运动量的PK或点赞.现从小明的微信 好友中随机选取了40人(男、女各20人),记录了他们某一天行走 的步数,并将数据整理如下表:,若某人一天行走的步数超过8 000步,则其被评定为“积极型”, 否则被评定为“懈怠型”. (1)利用样本估计总体的思想,试估计小明的微信好友每日行走的 步数超过10 000步的概率; (2)根据题意完成下面的22列联表,并据此判断是否有90%的把 握认为“评定类型”与“性别”有关.,附:K2= (n=a+b+c+d),解析 (1)根据表中数据可知,40位好友中每日行走的步数超过10 000步的有8人,利用样本估计总体的思想,估计小明的微信好 友每日行走的步数超过10 000步的概率P= =0.2. (2)22列联表如下:,K2= 2.5062.706, 没有90%的把握认为“评定类型”与“性别”有关.,