第三章判别分析.ppt_麦多课文库mydoc123.com

资源描述

1、第三章判别分析,【教学目的】通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法，能够用此方法分析实际问题。【教学重点】判别分析的基本思想及几种判别方法。,判别分析的基本思想,判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值，建立判别函数和判别准则，并使其错判率最小，对于一个未知分类的样本，将所测指标代入判别方程，从而判断它来自哪个总体。当然，这种准则在某种意义上是最优的，如错判概率最小或错判损失最小等。其前提是总体均值有显著差异，否则错分率大，判别分析无意义。,判别分析与聚类分析的关系,区别：判别分析是在研究对象分

2、类已知的情况下，根据样本数据推导出一个或一组判别函数，同时指定一种判别准则，用于确定待判样品的所属类别，使错判率最小。聚类分析预先不知道分类，它要解决的问题，正是对给定的未知分类的样品进行分类，它是一种纯统计技术，只要有多指标存在，就能根据各观测的变量值近似程度排序，只是描述性的统计，而判别分析能对未知分类观测判别分类，带有预测性质。,联系：两者都是研究分类问题，两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作，根据样品聚类的结果进行判别分析。,距离判别法,距离判别法的基本思想如果事先已有m类的先验知识，将每一类视为一个总体，计算各样品与各总体之间的距离，将各样品分别归入与其

3、距离最近的类。,两总体距离判别设有两个总体G1、G2，X为一样品，定义X到两总体的距离分别为d（X，G1），d（X，G2），判别准则为： XG1 若d（X，G1） d（X，G2）待判若d（X，G1）=d（X，G2）判别准则的直观表述即样品离哪个总体最近，则判该样品属于哪个总体。与上述准则等价的想法，就是算出样品到各总体间距离的差，根据差值来判断样品的归属。,多总体距离判别分为协方差阵相同和协方差阵不同两种情况，它们的判别函数有差异，而判别准则无差异。一般来说，用距离最近准则判别是符合习惯的，但会发生误判，各总体发生误判的概率和阀值的选择有关。当总体靠得很近，无论用那种方法误判概率都

4、很大，作判别分析无意义。因此，判别分析的前提是各总体均值必须有显著差异。,Fisher 判别法,基本思想：Fisher 判别法是一种线性判别的方法，通过将多维数据投影到某个方向上，投影的原则是将总体与总体之间尽可能分开，然后再选择合适的判别准则，将待判的样品进行分类判别。,判别函数和判别准则：假定判别函数为： Yi=C1X1+C2X2+GPXP （i=1，2k）其中：K：判别类别数目；Y：判别分数或判别值；X1XP：判别变量或自变量；C1CP：判别系数，表示各判别变量对判别值的影响；,线性判别函数的数目与类别数目K相同。对于待判样品，将样品的P个变量值代入判别函数中求出K个判别分Y值，比较

5、结果大小，将样品分入最大判别值对应的组中去。线性判别函数可直接用于待判样品的分类。,Bayes 判别法,基本思想：贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法。这种方法先假定对研究对象已有一定的认识，这种认识以先验概率来描述，然后取得一个样本，用样本来修正已有的认识，得到后验概率分布，比较这些概率的大小，将待判样品判归为来自概率最大的总体。对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。,判别函数和判别准则：判别函数可为后验概率P（g /x）或错判的平均损失E（h /x）。判别准则为后验概率最大或错判的平均损失最小，可以证明两者是等价的。Bayes 判别可直接用于待判样

6、品的分类。,典则判别分析,典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。对于分为K组的研究对象，建立K-1个典则判别函数而不管自变量有几个。它是一种降维的技术，因为判别函数个数少于分类组数，因此它不能用于对待判样品的分类，可以用于计算判别分及画散点图和区域图。,建立判别函数的方法,选择变量是判别分析中的一个重要问题，变量选择是否恰当，是判别效果优劣的关键。一般来说，各变量在判别式中的判别能力不同，有些很重要，有些不重要，如果在判别式中将其最主要的变量忽略了，相应的判别效果一定不好；如果

7、一些判别能力差的变量保留在判别式中，不仅会增加计算量，而且会产生干扰影响判别效果。同时，由于指标之间有相关性，一个指标可能由其他几个指标来代替。因此，筛选具有显著判别能力的变量来建立判别式就有特别重要的意义。建立判别函数常用的方法有全模型法、前进法、后退法和逐步判别法。,全模型法,将用户指定的全部变量作为判别函数的自变量，而不管该变量是否对研究对象显著或对判别函数的贡献大小，适合于对研究对象的各变量有全面认识的时候使用。否则未加选择的使用全部变量，可能会产生较大的偏差。,前进法,从模型中没有变量开始，先在P个变量中选择一个判别能力最强的变量引入模型，然后在剩余的变量中选择能提供最大附加信息的变

8、量引入模型直到剩余的所有变量都不能再提供附加信息，则选择工作停止。,后退法,与前进法正好相反。先将P个变量都选入，然后，选择判别效率最低的变量将其剔除，接着在剩余的变量中再剔除判别效率最低的变量直到剩余的所有变量均能提供较强的附加信息，筛选工作结束。,逐步判别法,从模型中没有任何变量开始，每一步都对模型进行检验，将模型外对模型的判别贡献大的变量加入到模型中去，同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量，如果有，将其从模型中删除，直到模型中的所有变量都符合引入模型的条件，而模型外的变量都不符合引入模型的条件为止，整个过程结束。在选择变量进入模型时，每步只有一个变量可被

9、选入。选择过程不考虑未被选入的变量之间的关系，因此，一些重要变量可能被排除。逐步判别选出的L个变量，不一定是所有L个变量组合中最优的组合。但在L不大时，往往是最优组合。,整个筛选过程实质就是作假设检验，通过检验引入显著性变量，剔除不显著变量。反映在输出结果上，通常可以用F值的大小作为变量引入模型的标准，即一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。逐步判别过程本身并不建立判别函数，筛选出重要变量后，可用前面所讲的方法建立判别函数和判别准则，对新样品进行判别归类。,错判概率的估计方法,1 用建立判别函数的训练（标定）数据集进行回代，用错判的样品数比上全体样品数作为错判概率的估

10、计，但此估计值往往偏低。,2 将已知类别的样品分成两部分，用其中一大部分样品的观测数据去建立判别函数和判别准则，用剩余的样品进行判断，将错判比例作为错判概率的估计。此方法的缺点是未充分利用全部样品信息。,3 刀切法从总体G1、G2中分别取出n1、n2个样品，令 n1+n2=n，对n个样品编号，即从1、2、3n。在n个样品中，先去掉1号样品，用余下的n-1个样品建立判别函数和判别准则，然后把1号样品的观测数据代入，看它被判归哪个总体，如果错判加以记录。把1号样品放回，再去掉2号样品，用余下的n-1个样品去建立判别函数和判别准则，然后将2号样品观测数据代入，看其判归哪个总体，如果错判加以记录重复

11、此过程，直到做完n步。,分别计算G1中n1个和G2中n2个样品被错判的个数，n1和n2中被错判的个数分别比上n1和n2，从而得出各自错判概率的估计值。此方法计算量较大，但效果较好。,特征值（函数判别力）,每个判别函数的判别力用该函数所能代表的所有原始变量的总方差百分比来表示，判别函数所代表的方差量用所对应的特征值来表示，特征值合计就相对代表了总方差量。每个特征值占这一合计的比例就是相应判别函数能够代表的总方差比例，这个比例越大则判别函数越重要，比例很小的则可以被精简掉。由于推导判别函数时的原则是按所代表的方差为序，因此函数判别力是按序次下降的。,典型相关系数,从方差分析角度来理解，其值越大说明

12、在这一鉴别轴上的分组差异越明显。,函数的显著性检验（wilks lambda）,函数的显著性检验是间接地进行的。不是去检验这个函数本身，而是在推导一个函数之前检验在这个判别模型中的残余判别力。残余判别力的含义是，在以前计算的函数已经提取过原始信息后，残余的变量信息对于判别分组的能力。残余判别力是用统计量wilks lambda来度量的。它是对所有判别变量中分组差别的多元测量。wilks lambda统计量是一个反面度量，值越小表示判别力越高。,它通过转换具有近似卡方或F分布性质，因而具有可检验性。它检验一个函数推导出来后分组差别的重要信息是否已被提取完毕，还没有必要继续推导。每一步统计显著的结

13、果说明下一步推导函数是有意义的。如果结果不显著，则没有必要进一步推导。,组内结构系数 Structure Matrix,结构系数是判别变量与判别值之间的相关系数，表达两者之间的拟合水平，绝对值接近于1，则函数表达的信息与这个变量的信息几乎相同，若接近于0，则两者之间几乎没有共同之处。SPSS提供的是组内结构系数，反映函数与分组内部的变量的紧密联系程度，且能自动按组内结构系数分组，选择最大的组内结构系数标上星号，并且按组排序列出。,判别分析的微机实现,1 判别分析在SPSS中的实现在SPSS主菜单中选择AnalyzeClassifyDiscriminant，可实现判别分析。,2判别分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作，须通过编程来实现判别分析。SAS/STAT模块中实现判别分析的过程有：Discrim ：实现最基本的判别分析，建立判别函数，执行分类功能； Candisc：将判别分析与典型相关分析相结合，找出数值变量的线性组合，此线性组合可用来强调各类别之间的不同； Stepdisc：逐步判别分析，是一个变量的筛选过程，找出能反映类间差异的变量子集。,

展开阅读全文