1、第10章 调查资料的整理方法,第一节 资料整理的意义和一般步骤 第二节 资料的审核与汇总 第三节 资料的分组 第四节 制作统计表和统计图,第一节 资料整理的意义和步骤,一、资料整理的涵义和作用 二、资料整理的原则 三、资料整理的一般步骤,一、资料整理的涵义和作用,资料整理:是指运用科学的方法,将调查所得的原始资料按调查目的进行审核汇总与初步加工使之系统化和条理化,并以集中简明的方式反映调查对象总体情况的过程。,资料整理的作用: 是对调查资料的全面检查。搜集资料过程出现虚假、差错、短缺、余冗等现象。需要对资料进行科学的整理与审核,检漏补缺,去假存真,去粗取精,保证资料的真实、准确和完整。 是进一
2、步分析研究资料的基础。对分散、零碎的资料进行加工整理,使之系统化、条理化,在此基础上,对资料的分析研究才成为可能。 是保存资料的客观要求。对资料进行整理后能使原始资料具有真实性和可靠性,使原始资料具有长期保存和利用的价值。,一、资料整理的涵义和作用,二、资料整理的原则,真实性。这是资料整理必须遵循的最基本原则。 准确性。事实要准确,数据要准确,事实材料不能含糊不清、模棱两可、互相矛盾。 完整性。反映某一社会现象的资料必须尽可能全面,如实地反映该现象的全貌,不能残缺不全。 统一性。各个调查指标要有统一的理解和解释,对调查指标的计算方法和计算单位也要统一。 简明性。整理后的资料要以简单、明确、集中
3、的形式反映出来。,三、资料整理的一般步骤,资料的审核,资料的编码,资料的分组,资料的汇总,制作统计表和统计图,1.资料的审核:审查资料的真实性、准确性和完整性,发现问题,及时解决。,三、资料整理的一般步骤(续),2.资料的编码:如果所收集 的资料要输入计算机处理, 必须对原始资料进行编码。,3.资料的分组:根据调 查的目的和任务及分析研 究对象的需要,确定分组 标志,对原始资料进行分 组整理与统计。,三、资料整理的一般步骤(续),4.资料的汇总:将分散资料以集中的形式显示出来。全 部数据汇总,或在分组基础上汇总。 5.制作统计表和统计图:以统计表和统计图的形式,集中、简明、直观的显示汇总资料。
4、,三、资料整理的一般步骤(续),第二节 资料的审核与汇总,一、资料审核的一般要求 二、资料审核的方法 三、资料的编码 四、资料的汇总,一、资料审核的一般要求,真实性:调查资料来源的客观性;调查资料本身的真实性. 准确性:着重检查那些含糊不清的、笼笼统统的以及相互矛盾的资料。 完整性:调查资料总体的完整性,即检查是否按设计过程进行等;每份调查资料的完整性。,第二节 资料的审核与汇总,二、资料审核的方法,逻辑审核:即检查调查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。 计算审核:即针对数字资料进行的审查。要检查计算方法有无错误,度量单位有没有用
5、错,前后数字之间有无相互矛盾之处。 资料的审核中,如发现问题,视情况及时处理;补充或纠正、注意在离开调查现场前进行审核。,第二节 资料的审核与汇总,三、资料的编码,整理后的资料一般均要使用计算机进行数据处理,在资料的整理工作中须对资料进行编码,即将问卷或调查表中的信息转化成计算机能识别的数字符号。 多用于结构性调查,如结构式问卷。 对于问卷表或调查表中的少数开放式问题,可在对所有回答进行分类的基础上,给每一类回答定一个代号,制成编码表。 对于计划用计算机处理的数据资料,事先可在问卷上写上编码。 编码的技术或技巧。,第二节 资料的审核与汇总,四、资料的汇总,资料的汇总:根据调查研究的目的,将资料
6、中的各种分散的数据汇聚起来,以集中的形式反映调查单位的总体状况以及调查总体的内部数量结构的一项工作。 资料的汇总分为: 总体汇总是为了了解总体情况和总体发展趋势的。 分组汇总是为了了解总体内部的结构和差异的。,第二节 资料的审核与汇总,第三节 资料的分组,一、资料分组的涵义和作用 二、分组标志的选择 三、分组的类型 四、分配数列 五、频率与累积频率,分组:指根据事物的内在特点和统计研究的需要,按一定的标志将统计总体区分为若干性质不同的组成部分的统计研究方法,分组前,分组后,一、资料分组的涵义和作用,例:按所有制性质划分,我国现有8种经济类型: 国有经济;集体经济;私营经济;个体经济联营经济;股
7、份制经济;外商投资经济;港澳台投资经济。,资料分组作用:,1.划分现象类型,一、资料分组的涵义和作用,2研究总体结构,例:上海市按GDP计算的三次产业结构(%)1980年 1990年 1996年 2010年GDP 100 100 100 100 第一产业 3.2 4.3 2.5 0.7第二产业 75.7 63.8 54.5 42.3 第三产业 21.1 31.9 43.0 57.0,3研究现象之间的依存关系,例:中国农村家庭人均收入与恩格尔系数的关系,资料分组的作用(续),资料分组具有两方面的含义: 从现象总体角度看,它是“分”的过程,是将现象总体中的各个单位划分为若干性质不同的组成部分; 从
8、现象个体角度看,它又是“合”的过程,是把现象总体中性质相同的单位组合成一组。,关键:服从研究任务需要,反映总体本质特征,选择分组标志的原则,根据统计研究的目的选择分组标志,根据现象的本质特征选择分组标志,考虑现象所处的具体时空条件。,二、分组标志的选择,所谓标志,是指反映事物属性或特征的名称。,(一)按分组标志性质的不同划分: 品质标志是反映事物属性的标志,如老年人按婚姻状况、户居方式、受教育水平分组;流浪儿童按外流原原因、外流生活来源、流出地分组;人口职业分组等。 数量标志是反映事物数量特征的标志,如分析贫困问题将贫困户按家庭人口分组,了解职工生活按经济收入分组,研究地区的社会保险按参保企业
9、个数分组等。 按数量标志分组,必须以分组结果能够反映被研究现象的不同类型和性质差异为前提。,三、分组的类型,三、分组的类型,(二)按分组标志数量的多少划分 : 简单分组:对调查对象只按一个标志进行的分组。 如农村居民按家庭人均收入分组,妇女按初婚年龄分组,职工按性别分组等。 它们分别只能从一个角度说明现象的分布状况和内部构成。 同总体的几个简单分组按某一规定排列起来就构成了一个平行分组体系。人口按性别、年龄、民族等标志进行分组,这些简单分组排列起来,就是平行分组体系 。 复合分组:用两个或两个以上的标志对调查对象依次进行的分组。 复合分组时,先按一个标志分组,然后,再对每一个组别按另一个标志作
10、进一步分组。复合复合分组在分组时,应根据分析的要求,确定分组标志的主次顺序,主要标志在先,次要标志在后。,(三)按数量标志值的变动范围划分: 当数量标志值的变化范围较小,而且标志值的项数不多时,可进行单项式分组,即可直接将每个标志值列为一组。(百分制) 当数量标志值的变动范围较大,标志值的项数又较多时,就可将一些邻近的标志值合并为一组,作为分组的依据,以减少组的数量,即组距式分组。(五分制) 采用组距分组时,需要遵循“不重不漏”的原则。(“上组限(组内最大值)不在内” ),三、分组的类型,统计分组的程序与原则,选择分组标志,确定分组体系,总体单位归类,科学性:组间差异大,组内差异小。,完备性和
11、互斥性:每个单位均能且只能归到某个组中。,拟定分组数目,即决定分成哪些组,各组的内容、名称和界限。,互斥性,包容性,指各组之间界限明确,总体中的每一个单位,都只应属于其中的一个组。,指在一个分组方案中拟定的所有组,能够包容总体的全部单位,不能排斥和遗漏任何一个单位。,按品质标志分组,按数量标志分组,选择反映事物数量方面的差别的标志作为分组依据,选择反映事物属性差异的标志作为分组依据。,单项式分组,指用单一的数值作为分组标志的分组。每个数值作为一个组。,某班学生按年龄分组:,按数量标志分组的形式,例:某车间20名工人日加工零件数如下:,采用单项式分组,可形成下表的频数分布:,但对于数据较多,或连
12、续型变量则无法采用这种分组方法, 而应采用组距分组。,组距式分组,将作为分组依据的数量标志的整个取值范围依次划分为若干个满足互斥性和包容性的区间,用这些数值区间作为组的名称。,某班学生统计学成绩分组,60分以下6070分7080分8090分90分以上,例如,某生产车间50名工人日加工零件数如下(单位:个)。 对数据进行组距分组:,某车间50名工作日加工零件数分组表,组限,上限,下限,区间数值的最大值,区间数值的最小值,组距,每一组的区间长度,组距=上限-下限,组中值,每一组中点位置的数值,组中值=(上限+下限)2,开口组,缺少上限数值或下限数值的组,注意,开口组以相邻组的组距作为该组的组距,确
13、定其下限或上限,再计算组中值。,组距式分组中的一些概念,某地区100个国有企业 月销售额与流通费用情况,如:组距d=U-L =100-50=50(万元),如:组中值x=(U+L)/2 =(100+200)/2 =150(万元),上组限U,下组限L,等距分组,异距分组,例如,60分以下6070分7080分8090分90分以上,组中值为 (90+100)2=95,各组组距相等的分组称为等距分组。,各组组距不全相等的分组称为异距分组。,下限在内,上限不在内原则,组中值为 (60+50)2=55,分 类,四、分配数列,射击 射击 体操 体操 乒乓球 举重 乒乓球 羽毛球 举重 乒乓球 羽毛球 举重 举
14、重 跳水 跳水 跳水 乒乓球 跳水 射击 体操 羽毛球 柔道 柔道 举重 田径 羽毛球 跆拳道,中国体育代表团在悉尼奥运会上获金牌的项目,品质数列的编制,获金牌项目 金牌数 占总数比例跳水 枚 0.1786举重 枚 0.1786乒乓球 枚 0.1429羽毛球 枚 0.1429体操 枚 0.1071射击 枚 0.1071柔道 枚 0.0714田径 枚 0.0357跆拳道 枚 0.0357,品质数列的编制,获金牌项目 金牌数 占总数比例跳水 枚 0.1786举重 枚 0.1786乒乓球 枚 0.1429羽毛球 枚 0.1429体操 枚 0.1071射击 枚 0.1071柔道 枚 0.0714田径
15、枚 0.0357跆拳道 枚 0.0357,次数(频数)f,频率 f /f,变量值 x,品质数列的编制,同时 具备,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,变量数列的编制,编制结果如下:,变量数列的编制,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,编制等距数列,适用于总体单位的标志值变动比较均匀的情况,实例,己知某班35个学生统计学期末考试成绩如下,单位(分) 44 50 56 60 62 6
16、3 65 65 69 69 69 7074 76 77 78 78 79 80 83 84 85 85 86 87 88 89 90 91 91 92 93 94 94 要求编制组距数列。,原始数据,计算组中值,排序,确定组限,计算变异全距,确定组数、组距,汇总组单位数,制作组距数列统计表,编制步骤或内容,组距数列的编制,编制步骤:,求变异全距,确定组距及组数,确定组距的原则:,要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍,R组距(d) 组数(m),编制等距数列,计算组数(组数不宜过多,也不宜太少),上例中,取d=10,则有,编制等距数列,(当 的结
17、果为整数时),(当 的结果为小数时),确定组限,编制等距数列,4、计算各组次数,5、制作组距数列,某班统计学考试成绩表,累计次数(频率),从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,五、频率与累积频率,第四节 统计表与统计图的制作,一、统计表的结构、种类及制作方法 二、统计图的种类及制作方法,一、统计表的结构、种类及制作方法,调查所收集的资料,经过分组、汇总整理之后,可以用不同的形式加以表现,如统计表、统计图等。 统计表是运用得
18、最为广泛的一种形式,是利用表格形式,把一系列统计数字按照一定的次序和逻辑关系表达出来的一种方法。,统计表的作用,1、是表达和运用统计资料的特有形式,是进行定量分析研究的基本方法 。,2、使统计资料系统化、条理化、规范化、生动化。,3、清晰地显示社会经济现象的活动过程和现象之间的复杂关系,一、统计表的结构、种类及制作方法,标题是统计表的名称,位于表的顶端中央。它的作用是简要说明表中统计资料的内容,包括这些资料收集的时间和空间范围等。 横标目,又称统计表的主词,是指统计表所要说明的对象,也即分组的名称或标志值,通常写在表的左边。 纵标目,又称统计表的宾词,是指调查指标或统计指标的名称,通常写在表的
19、最上面一格。 指标数值,是对资料进行统计整理的结果,是统计表的主体,一般有绝对数、相对数等。每一个数字都必须与横标目、纵标目一一对应。,统计表,统计表的结构,统计表的结构,2000年我国工业总产值和增加值,主词,宾词,总标题,纵栏标题,指标数值,资料来源:中国统计年鉴2001年注释:工业总产值按工厂法计算。,表外资料,横行标题,简单表,统计表的种类,统计表按主词的分组情况可分为,指主词未经过任何分组的统计表,某地区2010年铁矿计划完成情况,一、统计表的结构、种类及制作方法,简单分组表,统计表的种类,指总体按一个标志分组的统计表,某地区2010年各类型企业总产值表,复合分组表,统计表的种类,指
20、总体按两个或两个以上标志进行层叠分组的统计表,某系学生构成情况表 单位:人,统计表的制作,应遵循科学、实用、简练、美观的原则,须注意以下几个问题: 1标题要简短明了,要能确切说明资料的时间、空间范围和基本内容。 2表的格式一般是开口式的,即表的左右两端不划竖线。表的上下两端应划粗横线,其余皆为细线。 3若表的栏数(即宾词)较多,为了引用与说明时方便起见,应在栏目的下面一格对各栏目加以编号。 4表内数字要填写整齐,对准数位,不留空白。当数字为零时,要添0,表明不是漏填;当数字客观不存在时用“”表示;缺项时用“”表示。 5凡需说明的文字一律写入表注。表注要简明扼要。,一、统计表的结构、种类及制作方
21、法,二、统计图的种类及制作方法,统计图是用几何图形或象形图来显示社会现象数量特征的一种重要工具。 它具有直观、形象、生动等特点,可以使读者一目了然,具有较大的吸引力和说服力。,统计图,指利用一定的图形,将有关统计资料按照一定的比例图示出来的一种方法。,统计图的分类,几何图,象形图,统计地图,按图形表达分,用几何的线和形来表示和分析统计资料的统计图。如条形图、曲线图、圆形图、方快图、树形图、平面图和立体图等,是利用现象本身形象的简化来表述和分析统计资料的统计图,在地图上用点、线、图来表述和分析统计资料的统计图,用来反映现象数量在 地区上的分布状况,条形图,或称柱形图。它可以用来表示事物的大小、内
22、部结构或动态变动等情况,应用范围十分广泛。,圆形图,它是以圆形面积的大小或圆内扇形面积的大小来表示事物的大小和事物内部各部分所占比重的图形。它的作用主要是用来显示事物内部的构成状况。,曲线图,曲线图是用连续的起伏升降的线条来反映事物的动态或分布特征的一种统计图。,2008年 2009年 2010年,20082010年全国植树数量统计(百万棵),5,8,12,比较图,动态图,进度图,相关图,分配图,地区分布图,结构图,反映总体内部各部分数量结构关系,反映现象总体数量在较长时期的发展趋势或季节变动,反映计划的执行情或进度,反映现象数量间的相互依存关系,反映总体中各单位间分组分配状况,反映现象数量在地区上的分布状况,反映现象数量在不同时空条件下的对比关系的统计图,按变量关系分,统计图的制图规则,明确制图目的,根据统计资料的性质和特点,突出重点,选择合适的统计图形 统计图的设计和绘制要保持严格的科学性与艺术性,简明扼要,道俗易懂,图形布局合理 图示资料应完整、准确;图题简明 统计图的坐标与尺度应科学合理,练习:,