1、2011-2-18,1,第3章 直方图,2011-2-18,2,一、若干统计学中的名词,总体与样本总体:总体就是要研究的个体(对象)的全体。这里的个体可能是人,也可能是住户,或者产品。样本:一个样本就是能够实际观测到的总体的一个部分(子集)。,2011-2-18,3,一、若干统计学中的名词,例:脊髓灰质炎疫苗的现场实验总体:全美1、2、3年级的儿童;样本:脊髓灰质炎最严重的一批学区中1、2、3年级的儿童。例:某灯泡制造商称其产品的寿命为1万小时,质检部门对其进行质量检验。随机选取了100只。总体:此灯泡制造商的全部产品样本:随机选取的100只,2011-2-18,4,一、若干统计学中的名词,2
2、.随机变量随机会而变换的量,记为X 例:100件产品,其中5件次品,随机抽取20件,次品件数为随机变量,其可能的值:0,1,3,4,5。 (1)定性与定量变量定性变量: 例:性别(男,女);婚姻状况(未婚,已婚,丧偶,离异,分居)定量变量: 例:收入; 年龄,2011-2-18,5,一、若干统计学中的名词,(2)离散型与连续型(定量)变量 离散型:其值仅可相差确定的量例:考试成绩(0,1,2,100)家庭中孩子个数(0,1,2,3,) 连续型:其值之间的差异可以任意小例:年龄;体重,2011-2-18,6,一、若干统计学中的名词,注:根据问题不同,随机变量的性质有可能不同例:受教育水平定性:小
3、学,中学,高中,大学,硕士,博士连续型:018离散型(未毕业按前一年算):0,1,18 3. 数据:随机变量的具体实现,2011-2-18,7,二、直方图的绘制,例3.1 “普通统计学”学生成绩直方图的绘制某年从北京大学352名学生的“普通统计学”课程的成绩中随机抽取60名学生的成绩如下(见文件Statsgrade.csv”)30 44 45 48 58 61 62 63 63 64 66 67 68 71 72 72 72 72 74 75 76 76 76 76 78 79 80 80 80 81 81 82 82 82 83 83 83 83 83 83 84 84 85 85 85 8
4、7 88 88 88 90 91 91 93 93 94 94 95 96 99 100,2011-2-18,8,二、直方图的绘制,例3.1(续) (1)区间个数及长度的划分,2011-2-18,9,二、直方图的绘制,2011-2-18,10,三、直方图的含义,直方图横轴上的区间(小组区间)大小可以不相等; 直方图上每个小组区间的高度频数密度(即单位横轴刻度上的相对频数); 直方图上每个小组区间的面积表示相对频数(比例,百分数) 注:整个区间面积1,2011-2-18,11,三、直方图的含义,例3.2 美国家庭收入分布的直方图 (注: 区间左闭右开),2011-2-18,12,三、直方图的含义
5、,2011-2-18,13,习题,习题3.1 1960年,1970年和1986年美国25岁及25岁以上人的教育水平见下表: (1)画1986年的直方图,从直方图中你可以得到什么结论? (2)画1970年的直方图,与1986年的比较,教育水平发生了什么变化?,2011-2-18,14,习题,2011-2-18,15,习题,解答: (1)1986年的教育水平分布表,2011-2-18,16,习题,2011-2-18,17,习题,(2)1970与1986年的教育水平的比较,2011-2-18,18,习题,习题3.2 在1960年及1980年,美国妇女分别被询问”你有了几个孩子”?结果如下表(见后)
6、(1)变量是离散的还是连续的? (2)画这些数据的直方图; (3)你的结论是什么?注:离散型变量的直方图区间的中心可定在变量的值上,2011-2-18,19,习题,18岁及以上的妇女已养育过的小孩数的分布(百分数),2011-2-18,20,习题,2011-2-18,21,习题,2011-2-18,22,四、变量控制及交叉列表,例3.3 口服避孕药对血压的影响的研究在1969-1971年期间,大约17500名17-58岁的妇女接受”多相”常规检查试验组: 其中使用口服避孕药者对照组:其中不使用口服避孕药者 注:均不包括怀孕的以及服用不同于避孕药的其他内分泌药物的人 观察结果如下表(小组区间左闭右开):,2011-2-18,23,四、变量控制及交叉列表,避孕药研究项目结果 (百分数),2011-2-18,24,四、变量控制及交叉列表,研究兴趣: (1)使用者与不使用者之间血压的差别? (2)年龄因素的影响。,