1、第七章 方差分析,第一节 方差分析的基本问题第二节 单因素方差分析 第三节 双因素方差分析,学习目标,1.解释方差分析的概念 2.解释方差分析的基本思想和原理 3.掌握单因素方差分析的方法及应用 4.掌握双因素方差分析的方法及应用,第一节 方差分析的基本问题,一、方差分析的内容二、方差分析的原理三、F分布,一、方差分析的内容,(一)方差分析中的常用术语 1、因素(Factor) 2、水平(Level) 3、单元(Cell) 4、元素(Element) 5、均衡(Balance) 6、交互作用(Interaction) (二)用方差分析来检验假设有三个假定,1、因素(Factor),因素是指所要
2、研究的变量,它可能对因变量产生影响。一个是因素,因素是一个独立的变量,是方差分析研究的对象。要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。,2、水平(Level),因素中的内容称为水平。水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。,3、单元(Cell),单元指因素水平之间的组合。如销售方式一下有五种不同的销售业绩,就是五个单元。方差分析要求的方差齐就是指的各个单元间的方差齐性。,4、元素(Element),元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元
3、素。,5、均衡(Balance),如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。,6、交互作用(Interaction),如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。,若方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素分析。在多因素方差分析中
4、,双因素方差分析里最常见的。,(二)用方差分析来检验假设有三个假定,1、各个水平的观察数据必须服从正态分布:在水平i下的数据是来自正态总体的一个样本,i=1,2,r。 2、方差相同或者叫方差齐性:r个正态总体的方差相等,即。 3、随机性:所有数据都相互独立。,方差分析中的基本假定,在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等 如果四个总体的均值相等,可以期望四个样本的均值也会很接近 四个样本的均值越接近,推断四个总体均值相等的证据也就越充分 样本均值越不同,推断总体均值不同的证据就越充分,方差分析中基本假定, 如果原假设成立,即H0
5、: m1 = m2 = m3 = m4 四个行业被投诉次数的均值都相等 意味着每个样本都来自均值为、差为2的同一正态总体,X,f(X),1 2 3 4,方差分析中基本假定,若备择假设成立,即H1: mi (i=1,2,3,4)不全相等 至少有一个总体的均值是不同的 四个样本分别来自均值不同的四个正态总体,二、方差分析的原理,方差分析的目的是要检验各个水平的均值1,2r 是否相等,实现这个目的的手段是通过方差的比较。 如果n个总体的均值相等,然希望三个样本的均值比较接近,事实上,n个样本的均值愈接近,就愈有证据得出结论:总体均值相等,反之,若n个样本均值的差异愈大,就得出结论,总体均值不相等。
6、样本均值变动性小支持H0,样本均值变动性大支持H1。,三、F分布,水平间方差(组间方差)和水平内方差(组内方差)之比是一个统计量,数理统计证明,这个统计量服从F分布。F=,第二节 单因素方差分析,一、建立假设 二、计算水平均值 三、计算离差平方和 四、计算平均平方 五、方差分析表 六、统计决策 七、应用实例,一、建立假设,方差分析的第一步是建立假设。以饮料颜色对销售量的影响为例,针对我们关心的问题提出原假设和备择假设。 H0:1=2=3=4 颜色对销售量没有影响 H1:1,2,3,4 不全相等,颜色对销售量有影响。 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相
7、等。,二、计算水平均值,令 表示第j种水平的样本均值,则=式中:xij为第j种水平下的第I个观察值;nj第j种水平的观察值个数。 计算总均值的一般表达式为: 总均值:是所有观察值的总和除以观察值的总数。(注:各个样本容量相等),三、计算离差平方和,1、总离差平方和SST(Sum of Squares for Total) 2、误差项离差平方和(组内)SSE(Sum of Squares For Error) 3、水平项离差平方和(组间)SSA或SSb (Sum of Squares for factor A)或(bossom),构造检验的统计量 (三个平方和的关系),总离差平方和(SST)、误
8、差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系,SST = SSA + SSE,构造检验的统计量 (三个平方和的作用),1.SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小2.如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差3.判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小,四、计算平均平方,用离差平方和除以自由度即可得到平均平方 S
9、ST、SSA、SSE之间的自由度也存在着如下的关系: n-r=(r-1)+(n-r),五、方差分析表,F值的计算为:,构造检验的统计量 (F分布与拒绝域),如果均值相等,F=MSA/MSE1,六、统计决策,把F值与F值比较:若FF拒绝原假设,则接受备择假设。若FF接受原假设。,统计决策, 将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策 根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响 若FF ,则不拒绝原假设H0 ,不能
10、认为所检验的因素对观察值有显著影响,七、应用实例,SST = (57-47.869565)2+(58-7.869565)2=115.9295 SSA = 1456.608696 SSE = 2708,查表得临界值为3.12 显然,本题F值大于临界值 所以,结论为拒绝原假设,认为四个行业至少有两 个行业的利润率有显著差异 。,单因素方差分析表 (基本结构),单因素方差分析 (例题分析),用Excel进行方差分析,第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“单因素方差分析” ,然后选择“确定” 第4步:当对话框出现时在“输入区域”方框内键入数据单元格区域在
11、方框内键入0.05(可根据需要确定)在“输出选项”中选择输出区域 用Excel进行方差分析,第三节 双因素方差分析,一、双因素方差分析的类型二、数据结构三、实例,一、双因素方差分析的类型(two-way analysis of variance),分析两个因素(行因素Row和列因素Column)对试验结果的影响 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication) 如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对
12、结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication ),二、数据结构,(一)双因素方差分析的假定条件(一)数据结构(二)分析步骤,(一)双因素方差分析的基本假定,每个总体都服从正态分布 对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本 各个总体的方差必须相同 对于各组观察数据,是从具有相同方差的总体中抽取的 观察值是独立的,(二)数据结构,数据结构, 是行因素的第i个水平下各观察值的平均值, 是列因素的第j个水平下的各观察值的均值, 是全部 kr 个样本数据的总平均值,(三)分析
13、步骤,(1)提出假设(2)构造检验统计量(3统计决策),分析步骤 (提出假设),提出假设 对行因素提出的假设为 H0: m1 = m2 = = mi = = mk (mi为第i个水平的均值) H1: mi (i =1,2, , k) 不全相等 对列因素提出的假设为 H0: m1 = m2 = = mj = = mr (mj为第j个水平的均值) H1: mj (j =1,2,r) 不全相等,分析步骤 (构造检验的统计量),计算平方和(SS) 总误差平方和行因素误差平方和 列因素误差平方和 随机误差项平方和,分析步骤 (构造检验的统计量),总离差平方和(SST )、水平项离差平方和 (SSR和SS
14、C) 、误差项离差平方和(SSE) 之间的关系,SST = SSR +SSC+SSE,分析步骤 (构造检验的统计量),计算均方(MS) 误差平方和除以相应的自由度 三个平方和的自由度分别是 总离差平方和SST的自由度为 kr-1 行因素的离差平方和SSR的自由度为 k-1 列因素的离差平方和SSC的自由度为 r-1 随机误差平方和SSE的自由度为 (k-1)(r-1),分析步骤 (构造检验的统计量),计算均方(MS) 行因素的均方,记为MSR,计算公式为列因素的均方,记为MSC ,计算公式为随机误差项的均方,记为MSE ,计算公式为,分析步骤 (构造检验的统计量),计算检验统计量(F) 检验行
15、因素的统计量 检验列因素的统计量,分析步骤 (统计决策),将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策 根据给定的显著性水平在F分布表中查找相应的临界值 F 若FRF ,则拒绝原假设H0 ,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响 若FC F ,则拒绝原假设H0 ,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响,双因素方差分析表 (基本结构),表7-4 无交互作用的双方差分析表,三、实例,【例7.3】有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得
16、以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05),双因素方差分析 (例题分析),提出假设 对品牌因素提出的假设为 H0: m1=m2=m3=m4 (品牌对销售量没有影响) H1: mi (i =1,2, , 4) 不全相等 (品牌对销售量有影响) 对地区因素提出的假设为 H0: m1=m2=m3=m4=m5 (地区对销售量没有影响) H1: mj (j =1,2,5) 不全相等 (地区对销售量有影响) 用Excel进行无重复双因素分析,双因素方差分析 (例题分析),结论: FR18.10777F3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响FC2.100846 F3.2592,不拒绝原假设H0,不能认为销售地区对彩电的销售量有显著影响,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1