1、第八章 参数估计方法,第一节 农业科学中的主要参数及其估计量的评选标准 第二节 矩法 第三节 最小二乘法 第四节 极大似然法,第一节 农业科学中的主要参数及其估计量的评选标准,一、农业科学中的主要参数,(1)总体数量特征值参数,例如,用平均数来估计品种的产量,用平均数差数来估计施肥等处理的效应; (2)在揭示变数间的相互关系方面,用相关系数来描述2个变数间的线性关系;用回归系数、偏回归系数等来描述原因变数变化所引起的结果变数的平均变化的数量,用通径系数来描述成分性状对目标性状的贡献程度等。,农业科学研究中需要估计的参数是多种多样的,主要包括:,二、参数估计量的评选标准,(一) 数学期望,样本平
2、均数的平均数就是一种数学期望。例如,一个大豆品种的含油量为20%,测定一次可能是大于20%,再测定可能小于20%,大量反复测定后平均结果为20%,这时20%便可看作为该大豆品种含油量的数学期望,而每单独测定一次所获的值只是1个随机变量。,抽象地,随机变量的数字特征是指随机变量的数学期望值。,对于离散型(间断性)随机变量y的分布列为:Py=yi=pi ,其中,i=1,2,那么随机变量y的数学期望E(y)为:,(81),这样可以求得总体平均值。,对于连续型随机变数y的数学期望E(y)为:,(82),其中f(y)为随机变量y的概率密度函数,这样可以求得总体均值。,用D(y)表示方差,有,D(y)=E
3、 yE(y)2,(83),这就是随机变量函数的数学期望。同理,离散型随机变量方差的数学期望为:,(84),连续型随机变量方差的数学期望为:,(85),数学期望有这样一些常用的性质:(1) 常数的数学期望为常数本身;(2) 随机变量与常数的乘积的数学期望是常数与随机变量的数学期望的乘积;(3) 多个随机变量分别与常数的乘积的求和函数的数学期望是常数与多个随机变量的数学期望的乘积的和;(4) 多个相互独立的随机变量的乘积的数学期望是多个随机变量的数学期望的乘积。,(二) 参数估计量的评选标准,评价估计量优劣的标准主要有无偏性、有效性、相合性等,(1) 无偏性 参数估计量的期望值与参数真值是相等的,
4、这种性质称为无偏性,具有无偏性的估计量称为无偏估计量。 例如,在抽样分布中已经介绍了离均差平方和除以自由度得到的均方的平均数等于总体方差,即该均方的数学期望等于相应总体参数方差,这就是说该均方估计量是无偏的。,估计量的数学期望值在样本容量趋近于无穷大时与参数的真值相等的性质称为渐进无偏性,具有渐进无偏性的估计量称为渐进无偏估计量。,(2) 有效性 无偏性表示估计值是在真值周围波动的一个数值,即无偏性表示估计值与真值间平均差异为0,近似可以用估计值作为真值的一个代表。同一个参数可以有许多无偏估计量,但不同估计量的期望方差不同,也就是估计量在真值周围的波动大小不同。估计量的期望方差越大说明用其估计
5、值代表相应真值的有效性越差;否则越好,越有效。不同的估计量具有不同的方差,方差最小说明最有效。如果一个无偏估计量相对与其它所有可能无偏估计量,其期望方差最小,那么称这种估计量为一致最小方差无偏估计量。,(3) 相合性 用估计量估计参数涉及一个样本容量大小问题,如果样本容量越大估计值越接近真值,那么这种估计量是相合估计量。,除以上三方面标准外,还有充分性与完备性也是常考虑的。充分性指估计量应充分利用样本中每一变量的信息; 完备性指该估计量是充分的唯一的无偏估计量。,第二节 矩法,一、矩的概念,矩( moment )分为原点矩和中心矩两种。对于样本y1,y2,yn,各观测值的k次方的平均值,称为样
6、本的k阶原点矩,记为 ,有 , 用观测值减去平均数得到的离均差的k次方的平均数称为样本的k阶中心矩, 记为 或 ,有 。,对于总体y1,y2,yN,各观测值的k次方的平均值,称为总体的k阶原点矩,记为 ,有 ;用观测值减去平均数得到的离均差的k次方的平均数称为总体的k阶中心矩,记为 或 ,有,二、矩法及矩估计量,所谓矩法就是利用样本各阶原点矩来估计总体相应各阶原点矩的方法,即,(86),也可以用样本各阶原点矩的函数来估计总体各阶原点矩同一函数,即若Q=f ( E(y),E(y2),E(yk) ) , 则,由此得到的估计量称为矩估计量。,例8.1 现获得正态分布 的随机样本y1, y2 ,yn,
7、要求正态分布 参数 和 的矩估计量。,首先,求正态分布总体的1阶原点矩和2阶中心矩:,然后求样本的1阶原点矩和2阶中心矩,为,最后,利用矩法,获得总体平均数和方差的矩估计,故总体平均数和方差的矩估计值分别为样本平均数和样本方差,方差的分母为n。,单峰分布曲线还有二个特征数,即偏度( skewness )与峰度( kurtosis ),可分别用偏度系数和峰度系数作测度。偏度系数( coefficient of skewness )是指3阶中心矩与标准差的3次方之比;峰度系数( coefficient of kurtosis )是指4阶中心矩与标准差的4次方之比。当偏度为正值时,分布向大于平均数方
8、向偏斜;偏度为负值时则向小于平均数方向偏斜;当偏度的绝对值大于2时,分布的偏斜程度严重。当峰度大于3时,分布比较陡峭,峰态明显,即总体变数的分布比较集中。,由样本计算的偏度系数,(87),峰度系数,(88),例8.2 计算表3.4数据资料(140行水稻产量)所属分布曲线的偏度和峰度。,表3.4 140行水稻产量(单位:克),首先,计算样本的2、3、4阶中心矩 ,以及标准差估计值:,然后,根据矩法原理,该分布的偏度与峰度估计值分别为:,因此,说明资料比较集中在平均数左右,分布曲线并不是特别陡峭。,例8.3 例6.9为研究籼粳稻杂交F5代系间单株干草重的遗传变异,随机抽取76个系进行试验,每系随机
9、取2个样品测定干草重(g/株)。按单向分组方差分析进行分析,结果见表6.9。此处用来说明由矩法估计误差、遗传方差和干草的遗传力h2。,因为76个系是随机抽取的,因而为随机模型。方差结果说明系间差异显著,因而系间效应存在。根据矩法,首先应求出系间和误差变异来源的样本均方和总体期望均方(表6.9)。然后,利用矩估计原理,令样本的均方与总体相应变异的期望均方相等,从而求出 和 的矩估计值。,此处E(MS系统间)=ETt-E(Tt)2,(Tt 为各个系统的总和数)=,E(MS误差)=E(e2)= ,(e为误差),因而,第三节 最小二乘法,从总体中抽出的样本观察值与总体平均数是有差异的,这种差异属于抽样
10、误差。因而,在总体平均数估计时要尽可能地降低这种误差,使总体平均数估计值尽可能好。参数估计的最小二乘法就是基于这种考虑提出的。基本思想是使误差平方和最小,达到在误差之间建立一种平衡,以防止某一极端误差对决定参数的估计值起支配地位。这有助于揭示更接近真实的状况。具体方法是为使误差平方和Q为最小,可通过求Q对待估参数的偏导数,并令其等于0,以求得参数估计量。,例8.4 用最小二乘法求总体平均数 的估计量。,若从平均数为的总体中抽得样本为y1、y2、y3、yn,则观察值可剖分为总体平均数与误差 ei 之和,,总体平均数的最小二乘估计量就是使 yi 与间的误差平方和为最小,即,为最小。,为获得其最小值
11、,求Q对的导数,并令导数等于0,可得:,即总体平均数的估计量为:,因此,算术平均数为总体平均数的最小二乘估计。这与矩法估计是一致的。,估计离均差平方和 的数学期望:,因而, 估计为:,与矩法所得不同,而与常规以自由度为除数法一致。,例8.5 求例6.13的两向分组方差分析资料缺1个小区(表8.1)的最小二乘估计量和估计值。,表8.1 生长素处理豌豆的试验结果,从第6章可知,这种资料模式的线性模型为:,按照最小二乘法的估计原理,使,该模型的约束条件为: , 和误差项服从正态分布。,为最小时可以求出效应和缺失小区ye的估计量,即,从而,最小二乘估计量分别为:,因而表8.1中,缺失小区的估计值可由下
12、式求出:,解上述方程,最小二乘估计值为:ye=65.6。,缺区估计是根据线性模型,以及最小二乘法的原理得到的。不过,试验中尽可能不要缺区,因为缺区估计尽管可以估计缺区的值,但是误差的自由度将减少,本试验的误差自由度将减少1。,一般地,若m个自变数x1、x2、x3、xm与依变数y存在统计模型关系,(89),其中, 为待估参数。,通过n次观测(nk)得到n组含有x1i , x2i ,xmi , yi ( i=1,2,n )的数据以估计 。其最小二乘估计值为使,(810),为最小的 。这种估计方法称为参数估计的最小二乘法( least squares ),或最小平方法。,第四节 极大似然法,所谓极大
13、似然法( maximum likelihood method )是值选择使事件发生概率最大的可能情况的参数估计方法。,极大似然法包括二个步骤:(1)建立包括有该参数估计量的似然函数( likelihood function )(2)根据实验数据求出似然函数达极值时的参数估计量或估计值。,一、似然函数,对于离散型随机变量,似然函数是多个独立事件的概率函数的乘积,该乘积是概率函数值,它是关于总体参数的函数。,例如,一只大口袋里有红、白、黑3种球,采用复置抽样50次,得到红、白、黑3种球的个数分别为12,24,14,那么根据多项式的理论,可以建立似然函数为:,其中p1,p2,p3分别为口袋中红、白、
14、黑3种球的概率(p3=1p1p2),它们是需要估计的。,对于连续型随机变量,似然函数是每个独立随机观测值的概率密度函数的乘积,则似然函数为:,(811),若yi 服从正态分布 ,则 ,上式可变为:,(812),二、极大似然估计,所谓极大似然估计就是指使似然函数为最大以获得总体参数估计的方法。其中,所获得的估计总体参数的表达式称为极大似然估计量,由该估计量获得的总体参数的估计值称为总体参数的极大似然估计值。为了计算上的方便,一般将似然函数取对数,称为对数似然函数,因为取对数后似然函数由乘积变为加式,其表达式为:,(813),求极大似然估计量可以通过令对数似然函数对总体参数的偏导数等于0来获得,即
15、当 ,有,(k=1,2,l),(814),由此获得总体参数的极大似然估计量。,例8.6 设y1 , y2 , , yn是正态总体 的随机样本,求正态分布 参数的极大似然估计量。,似然函数为:,取对数,得:,那么似然方程组为:,解得:,因此,正态分布总体平均数的极大似然估计量为:,当总体平均值为未知时,方差估计量为:,当总体平均值为已知时,方差估计量为:,例8.7 求红、白、黑球事例中p1,p2,p3的极大似然估计值。,由 可获得对数似然函数,其中,C为常数。,分别求 对p1,p2的偏导数,并令为0,得似然方程组:,联立求解,得:,显然,极大似然估计值 等于其观测频率。,例8.8 两个亲本的基因
16、型分别为AABB和aabb,这两个亲本杂交后F2出现了4种基因型,分别为A_B_、A_bb、aaB_和aabb,得到四种基因型的个数分别为c、d、e、f,已知AA和BB两对基因间存在连锁关系,现欲估计重组率?,设重组率为r,根据遗传学推导,可以得到4种基因型的概率见表8.2。,表8.2 F2群体基因型的分离情况,首先,通过表8.3介绍由两对连锁主基因控制的F2群体16种基因型的概率计算出4种表现型的概率(表8.2)。,表8.3 F2群体的基因型及其概率,按多项式分布,可以根据概率函数得到似然函数为:,(815),若以 代入上式,则似然函数和对数似然函数分别为:,(k是常数项),(816),(8
17、17),对上式求导数,并令导数为0,可得方程:,上式化解为一元二次方程,(818),在 的两个解中取一个符合遗传规律的解,那么,重组率的解为: 。,重组率方差估计量为:,(819),对于本例,有,取正根, =0.7366,,由此, =0.142。,三、关于三种估计方法的讨论,上述3种参数估计方法对比:(1)对于总体平均数的估计量,3种估计方法都具有无偏性、有效性和相合性;(2)对于总体方差的估计量,由离均差平方和期望值所得的是无偏的,但由矩法和极大似然法所得两种估计量是有偏的,但都是相合的;最小二乘法无直接的总体方差估计量。,3种常用方法的不同要求:(1)极大似然法要求已知总体的分布,才能获得估计量。(2)另外两种方法对分布没有严格的要求。,3种常用方法的应用范围:(1)极大似然法估计结果大多具有无偏性、有效性和相合性等优良的估计量性质。(2)最小二乘法在估计线性回归模型参数时具有灵活方便的特点。(3)矩估计方法由于不需要知道总体分布也是经常采用的方法,但该方法估计结果有时不具备优良的估计量性质,而且局限在与矩有关的估计量。,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1