第五章 回归分析方法.ppt

上传人:ownview251 文档编号:374048 上传时间:2018-10-05 格式:PPT 页数:143 大小:7.32MB
下载 相关 举报
第五章 回归分析方法.ppt_第1页
第1页 / 共143页
第五章 回归分析方法.ppt_第2页
第2页 / 共143页
第五章 回归分析方法.ppt_第3页
第3页 / 共143页
第五章 回归分析方法.ppt_第4页
第4页 / 共143页
第五章 回归分析方法.ppt_第5页
第5页 / 共143页
亲,该文档总共143页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、优化试验设计与数据分析,第五章 回归分析方法,本章主要内容 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。 多元线性回归方程建立、显著性检验、偏回归平方和。 回归分析法在试验设计中的作用和地位。 正交多项式回归设计及回归方程的建立。,5.1 一元线性回归,5.1.1 引言,变量之间的关系,确定关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是: 变量之间的关系很难用一 种精确的方法表示出来.,十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回

2、归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。,回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式回归函数的估计。,变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。,回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。,根据相关关系的程度划分 1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动

3、。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。 2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。 3、不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。 大多数相关关系属于不完全相关,是统计研究的主要对象,回归分析所能解决的问题 回归分析主要解决以下几方面的问题: (1)确定

4、几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的相互关系等等,一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量的取值,案例,某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。 该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业知识和实践经验,该合金

5、钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。 为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。,如何制订含碳量的控制标准?,为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 这是一个典型的产品质量控制问题,可以使用回归分析方法求解。,5.1.2 一元线性回归方程的确定,例1 合金的强度y (107Pa) 与合金中碳的含量x (%) 有

6、关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到12组数据,列于表中,进行回归分析首先是回归函数形式的选择。 当只有一个自变量时,通常可采用画散点图 的方法进行选择。,表1 合金钢强度y与碳含量x的数据,为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图。,从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为y = 0+ 1x + (1)这便是y关于x的一元线性回归的数据结构式。通常假定

7、E() =0, Var() = 2 (2)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即y N(0+ 1x, 2 ) (3)显然,假定(3) 比 (2) 要强。,由于0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1, y2, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:(4),由数据(xi,yi),i=1,2,n,可以获得0, 1的估计 ,称(5)为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后,称 为回归值(在不同场合

8、也称其为拟合值、预测值)。,回归系数的最小二乘估计,一般采用最小二乘方法估计模型中的0, 1 :令:应该满足称这样得到的 称为0, 1的最小二乘估计,记为LSE (Least Squares Estimation)。,最小二乘估计可以通过求偏导数并命其为0而得到:(6)这组方程称为正规方程组,经过整理,可得(7),解(7)可得(8) 这就是参数的最小二乘估计,其中,由此给出回归方程为:,使用例中合金钢强度和碳含量数据,我们可求得回归方程,见下表,说明,分别是0,1的无偏估计;,是E(y0)=0+ 1 x0的无偏估计;,除 外, 与 是相关的;,要提高 的估计精度(即降低它们的方差)就要求n大,

9、lxx大(即要求x1, x2, xn较分散)。,Regression Analysis: y versus xThe regression equation is y = 28.1 + 133 xPredictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5%Analysis of VarianceSource DF SS MS F P Regression 1 327.93 327.93 191.40

10、0.000 Residual Error 10 17.13 1.71 Total 11 345.06,回归方程是否有意义的判断,三种等价的检验方法 F 检验 T检验 r检验,在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。,一、F 检验,图示离差平方和的分解,x,y,离差分解图,在合金钢强度的例中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有,若取=0.01,则F0.99(1,10) =10F,因此在显著性水平0.01下回归方程是显著的。,Regression Analysis: y versus xThe regression equation

11、is y = 28.1 + 133 xPredictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5%Analysis of VarianceSource DF SS MS F P Regression 1 327.93 327.93 191.40 0.000 Residual Error 10 17.13 1.71 Total 11 345.06,二、 t 检验,对H0:1 =0的检验也可基于t分布进行

12、。 由于, 因此在H0为真时,有 ,其中,它可用来检验假设H0。对给定的显著性水平?,拒绝域为 . 由于 ,称 为 的标准误,即 的标准差的估计。,注意到t2=F,因此,t检验与F检验是等同的。以例中数据为例,可以计算得到若取 =0.01,则由于13.28723.1698,因此,在显著性水平0.01下回归方程是显著的。,三、相关系数检验,一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0所用的检验统计量为样本相关系数拒绝域为W=rc,其中临界值c应是H0: =0成立下r的分布的1 分位数,故

13、记为c=r1-(n2).,由样本相关系数的定义可以得到 r与F统计量之间的关系这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为,譬如,对 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。为实际使用方便,人们已对r1- (n-2)编制了专门的表,见P151页表7-1。以例中数据为例,可以计算得到若取 =0.01,查P182页表7-1知 r0.99(10)=0.708, 由于0.97280.708,因此,在显著性水平0.01下回归方程是显著的。,相关系数临界值表,在一元线性回归场合,三种检验方法是等价的:在相同的显著

14、性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。F 检验可以很容易推广到多元回归分析场合,而其他二个则无法完成,所以,F检验是最常用的关于回归方程显著性检验的检验方法。,三种检验方法具有等价特性,预报与控制问题,当我们求得变量x、y之间的回归方程后,往往通过方程回答这样两方面的问题: (1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1yy2内取值,应将变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题,E(y0)的置信区间 于是E(y0)的1 的置信区间(CI)是其中,y0的预测区间实用中往往更关心x=x0时对应的因变量y0的取值

15、范围。y0的最可能取值为 ,于是,我们可以使用以 为中心的一个区间 作为y0的取值范围。经推导, 的表达式为上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。,在例中,如果x0=0.16,则得预测值为若取 =0.05,则t0.975(10)=2.2281,又 ,故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480)=(48.3488, 50.5168),可以计算得到,从而y0的概率为0.95的预测区间为E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多,这是因为随机变量的均值相对于随机

16、变量本身而言要更容易估计出来。,minitab软件求解置信区间与预测区间,非线性回归方程的线性化,在实际问题中,有时两个变量间的关系不是线性相关关系,而是某种曲线相关关系,这时如果仍作线性回归,就不能反映出两个变量之间的内在联系,而必须作非线性回归。 在许多情况下,可通过对变量作适当的代换,化为线性回归问题处理,求出它的回归方程。,例 炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y (kg)表示,相应的试验次数用x表示。数据见表,要找出y 与x的定量关系表达式。,钢包的重量y与试验次数x数据,下面我们分三步进行。,1 确定

17、可能的函数形式为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图是本例的散点图。观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。,首先,如果可由专业知识确定回归函数形式,则应尽可能利用专业知识。当若不能有专业知识加以确定函数形式,则可将散点图与一些常见的函数关系的图形进行比较,选择几个可能的函数形式,然后使用统计方法在这些函数形式之间进行比较,最后确定合适的曲线回归方程。为此,必须了解常见的曲线函数的图形。,本例中,散点图呈现呈现一个明显的向上且上凸的趋势,可能选择的函数关系有很多,我们

18、可以给出如下四个曲线函数:1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步选出可能的函数关系(即方程)后,我们必须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣?,2 参数估计对上述非线性函数,参数估计最常用的方法是“线性化”方法。以1/y=a+b/x为例,为了能采用一元线性回归分析方法,我们作如下变换u=1/x,v=1/y则曲线函数就化为如下的直线v=a+bu这是理论回归函数。对数据而言,回归方程为vi=a+ bui + i于是可用一元线性回归的方法估计出a,b。,参数估计计算表,1/y = 0.00897 +0.000829 1/x,用类似的方法可以

19、得出其它两个曲线回归方程,它们分别是:,第一种情况的minitab求解,Regression Analysis: 1/y versus 1/xThe regression equation is 1/y = 0.00897 +0.000829 1/xPredictor Coef SE Coef T P Constant 0.00896663 0.00000837 1071.14 0.000 1/x 0.00082917 0.00004118 20.14 0.000S = 0.00001903 R-Sq = 97.4% R-Sq(adj) = 97.1%Analysis of VarianceS

20、ource DF SS MS F P Regression 1 1.46905E-07 1.46905E-07 405.44 0.000 Residual Error 11 3.98564E-09 3.62331E-10 Total 12 1.50891E-07,Unusual Observations Obs 1/x 1/y Fit SE Fit Residual St Resid1 0.500 0.009397 0.009381 0.000015 0.000016 1.33 X3 0.250 0.009126 0.009174 0.000007 -0.000048 -2.69R R den

21、otes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.,异常观测值标准化 观测值 1/x 1/y 拟合值 拟合值标准误 残差 残差1 0.500 0.009397 0.009381 0.000015 0.000016 1.33 X3 0.250 0.009126 0.009174 0.000006 -0.000048 -2.69RR 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。,第二种情况

22、的minitab求解,回归方程为 y = 106 + 1.71 lnx自变量 系数 系数标准误 T P 常量 106.315 0.430 247.22 0.000 lnx 1.7140 0.1933 8.87 0.000S = 0.486379 R-Sq = 87.7% R-Sq(调整) = 86.6%方差分析来源 自由度 SS MS F P 回归 1 18.608 18.608 78.66 0.000 残差误差 11 2.602 0.237 合计 12 21.211,第三种情况的minitab求解,Regression Analysis: y versus x1/2The regressio

23、n equation is y = 106 + 1.19 x1/2Predictor Coef SE Coef T P Constant 106.301 0.600 177.03 0.000 x1/2 1.1947 0.1884 6.34 0.000S = 0.6437 R-Sq = 78.5% R-Sq(adj) = 76.6%Analysis of VarianceSource DF SS MS F P Regression 1 16.653 16.653 40.20 0.000 Residual Error 11 4.557 0.414 Total 12 21.211,第四种情况,第四种

24、情况的minitab求解,回归分析:ln(y-100) 与 1/x 回归方程为 ln(y-100) = 2.46 - 1.13 1/x自变量 系数 系数标准误 T P 常量 2.46391 0.01314 187.50 0.000 1/x -1.12564 0.06464 -17.41 0.000S = 0.0298812 R-Sq = 96.5% R-Sq(调整) = 96.2%方差分析来源 自由度 SS MS F P 回归 1 0.27073 0.27073 303.21 0.000 残差误差 11 0.00982 0.00089 合计 12 0.28055,回归方程为 ln(y-100)

25、 = 2.46 - 1.13 1/x自变量 系数 系数标准误 T P 常量 2.46391 0.01314 187.50 0.000 1/x -1.12564 0.06464 -17.41 0.000,3 曲线回归方程的比较我们上面得到了四个曲线回归方程,通常可采用如下二个指标进行选择。(1)决定系数R2:类似于一元线性回归方程中相关系数,决定系数定义为:R2越大,说明残差越小,回归曲线拟合越好, R2从总体上给出一个拟合好坏程度的度量。,残差平方和,总变差平方和,(2)剩余标准差s:类似于一元线性回归中标准差的估计公式,此剩余标准差可用残差平方和来获得,即s为诸观测点yi与由曲线给出的拟合值

26、 间的平均偏离程度的度量,s越小,方程越好。,在观测数据给定后,不同的曲线选择不会影响 的取值,但会影响到残差平方和 的取值。因此,对选择的曲线而言,决定系数和剩余标准差都取决于残差平方和 ,从而,两种选择准则是一致的,只是从两个不同侧面作出评价。,表给出第一个曲线回归方程的残差平方和的计算过程, 由于n=13, ,故其决定系数及剩余标准差分别为:其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表中。,四种曲线回归的决定系数及剩余标准差,从表中可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好

27、的定量关系式就是,1/y = 0.00897 +0.000829 1/x,5-2 多元回归分析方法,在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回归问题为多元回归分析。 例如,影响用电量的因素就有,国民收入、经济增长率、工业发展速度,居民用电水平等。如果这些因素与用电量之间的关系都具有线性关系时,这就是多因素线性相关关系问题,则可以用多元线性回归模型来解决。,解决多元线性回归模型的原理与解决一元线性回归模型的原理完全相同,也是用最小二乘法确定多元线性回归模型的常数项和回归系数。 (1)模型 设因变量 y 与自变量 x1,x2,xk,有关系: Y = b0 + b1x1 +

28、 + bkxk + 其中 是随机项,现有几组数据: ( y1;x11,x21,xk1) ( y2;x12,x22,xk2) (yn;x1n,x2n,xkn) 其中:xij是自变量xi的第 j 个值,yj 是 Y 的第 j 个观测值。,显然,多元线性统计模型是:,多元线性回归分析原理,与一元线性回归分析原理完全相同只是计算上复杂得多。但是用计算机来进行计算工作量与一元线性回归相比,复杂程度并不大。根据最小二乘法,应使残差:,试验值,回归值,最小,多元线性回归方差分析表,回归方程中因素主次判断,1、偏回归系数的标准化,偏回归系数b1,b2,.,bk表示xi对y的具体效应,但其自身大小并不能直接反应

29、自变量的相对重要性。,主要是bj取值受到对应因素的单位和取值的影响。,标准化后可以解决这一问题,偏回归系数bj标准化回归系数Pj,标准化回归系数Pj越大,因素越重要。,2、偏回归系数的显著性检验,计算每个偏回归系数的偏回归平方和SSj,应用举例,例 7-3 某种水泥在凝固时放出的热量 Y(卡/克)与水泥中下列 4 种化学成分有关: x1t:3CaOAl2O3 的成份(%); x2t:3CaOSiO2 的成份(%); x3t:4CaOAl2O3Fe2O3 的成份(%); x4t:2CaOSiO2 的成份(%)。 作 Y 对 x1,x2,x3,x4的线性回归分析,表7-5 试验观测数据,(a)原始

30、数据:是水泥在凝固时放出的热量 Y 与 4种成份关系的数据; (b)每个变量的总和及平均数(以下为方便起见有时记 y为 x5t)。,(c)各变量的交叉乘积和 (见表 7-6)。,表7-6 变量的交叉乘积及求和值,(d)正规方程的系数及常数项 li j及 y 的总平方和 ly y= l55(Y的总平方和),表7-7 正规方程的系数及常数项,(e)解正规方程并求其系数矩阵 L=(lij)kk,的逆矩阵 C=(Ci j),正规方程(矩阵方程表达式为),解之: b1= 1. 5511,b2= 0. 5101,b3= 0. 1019,b4= - 0.1441回归方程为:= 62. 4052 + 1. 5

31、511x1 + 0. 5101 x2 + 0. 1019 x3 - 0. 1441 x4,按线性代数的矩阵求逆法,系数正规方程矩阵 L= ( l ) 的逆矩阵为:,(f)方差分析,表7-8 方差分析表,(g)偏回归平方和及其显著性检验,经检验,除了 P1 在= 0. 10的水平上显著外,其余的三个因素都不显著,这个结论似乎与总回归的高度显著性有矛盾,实则不然,这是由于自变量之间有密切的相关而造成的。,(h)从回归方程中剔除一个自变量 由于偏回归平方和中有不显著的因素,剔除其中最小者 x3,此时 Y 对 x1,x2,x4的回归系数如下:,故新的回归方程为:= 71. 6482 + 1. 4519

32、x1 + 0. 4161 x2 + 0. 2365 x4,虽然剩余标准差S没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。,minitab求解,SPSS多元非线性回归分析,研究12寸晶圆切割过程中喷涂工艺设备参数对保护性薄膜厚度的影响,提高设备调整效率和工艺质量,采用均匀设计的实验方法,以薄膜在测试量块上的厚度为目标,对影响厚度的主要因素:涂料压力(X1)、微调阀(X2)和雾化压力(X3)进行研究。本试验共3个因素,每个因素9个水平,因素水平表见表1。,表1 试验因素水平表,表2 U10*(108)均匀设计实验方案及试验数据表,其中W(Y/K)为薄膜重量均值,可由表3得到。

33、而薄膜厚度Y值可根据Y=KW得到。以薄膜厚度为目标的非线性回归方程模型为,表3 回归方程变量表,选择逐步回归确定了回归方程,用进入和删除的概率分别为0.05和0.1来进行对因变量影响不显著的自变量项排除,在输出的统计结果里可以看到回归方程模型、方差分析表和系数表等,可以知道,优化的三元二次方程为:,表4 方差分析表,对实验数据采用SPSS进行非线性逐步回归得到了薄膜厚度的数学模型,揭示了各因素的交互关系,为测机调整提供数据依据,节省大量反复测机时间,在保证工艺质量的同时提高了喷涂设备的生产效率。该模型已成功运用于某芯片封装测试厂的喷涂设备,并取得了显著效果。,用Excel电子表格,点击下拉菜单

34、“工具”栏,点击 “数据分析”项,选择 “回归”项,按回归对话框中的提示,进行选择操作,即可得出全部的回归系数、相关系数、标准偏差等数据。,根据计算出的回归系数写出回归方程。,Excel求解步骤,多元曲线回归,多元线性回归还可以扩展到更为普遍的情况。假定有:,(5-54),式中, 是x的已知函数,不含有未知参数c,则显然对待定参数c 而言,该式仍为线性函数。,如下面函数式的格式就是此类函数的一例:,一般,常用的统计数学模型为G-1阶多项式:,任何函数至少在一个比较小的范围内可以用多项式任意逼近。因此,在比较复杂的实际问题中,往往不管 y 与各因素的关系如何,而采用多项式进行回归。可见,多项式回归在回归问题中占有特殊的地位。,将数据成列输入到Excel电子表格中,根据x列的数据分别计算x2、lnx、1/x、(lnx)2。按顺序排列于x列的右则。,点击下拉菜单的“工具”项,点击“数据分析”。,在数据分析对话框中,选取“回归”项,点击确定,出现回归对话框。,按对话框中的提示进行操作,可得出多项式回归曲线中各项中的系数。然后按 x, x2、lnx、1/x、(lnx)2的对应关系代入方程中即得出回归曲线的多项式方程。,Excel方法步骤如下,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 教学课件 > 大学教育

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1