1、1,第八章 相关分析,本章主要内容: 第一节 相关分析的一般问题 第二节 相关关系判断 第三节 回归分析,2,第一节 相关分析的一般问题,主要内容:一、相关关系的种类二、相关分析与回归分析 三、相关分析的作用四、相关分析的内容,3,第一节 相关分析的一般问题,一、相关关系的种类(一)变量之间的关系种类:1、相关关系是指现象之间相互依存、相互制约和相互影响的关系。它是指现象之间的一种不确定性的依存关系。2、函数关系是指现象之间是确定性的关系,表现为某一现象发生变化,另一现象也随之变化,且有确定的值与之相对应。,4,第一节 相关分析的一般问题,函数关系: 设有两个变量 x 和 y ,变量 y 随变
2、量 x变化, 并完全依赖于 x ,当变量 x 取某个数值时, y 依 确定的关系取相应的值,则称 y 是 x 的函数,记 为其中 x 称为自变量,y 称为因变量。,5,第一节 相关分析的一般问题,相关关系:变量间关系不能用函数关系精确表达; 一个变量的取值不能由另一个变量唯一确 定;当变量 x 取某个值时,变量 y 的取值 可能有几个。,6,第一节 相关分析的一般问题,相关关系 函数关系,Y,Y,X,X,O,0,7,第一节 相关分析的一般问题,(二)相关关系与函数关系之间的关系 1、相关关系是相关分析的研究对象。函数关系是相关分析的工具。2、函数关系有时也会表现为相关关系;相关分析必须借助函数
3、表达式来表明现象之间的相关形式(方程式)。,8,第一节 相关分析的一般问题,例:函数关系 1、圆的面积S与半径r之间的关系 2、商品销售额y与销售量q之间的关系,p为价格 3、企业的原材料消耗额M与产品产量q和单位产品消耗量m、材料价格p之间的关系,9,第一节 相关分析的一般问题,例:相关关系 1、农作物产量(Y)与施肥量(X) 2、工资(Y)与工龄(X1)、性别(X2)之间的关系 3、子女身高(Y)与父亲身高(X)之间的关系 4、收入水平(Y)与受教育程度(X)之间 5、商品销售额(Y)与广告费(X)的关系,10,第一节 相关分析的一般问题,(三)相关关系的种类 1、按相关程度分: 完全相关
4、、不完全相关、完全不相关。 2、按相关方向分正相关和负相关。 3、按相关关系的表现形式分,直线相关和曲线相关。,11,第一节 相关分析的一般问题,4、按影响因素的多少分,单相关和复相关。5、按依存关系的情况分:因果关系,分不清因果的依存关系。,12,第一节 相关分析的一般问题,相关关系种类,依存关系,影响因素,关系表现形式,相关方向,相关程度,完全相关,不完全相关,非线性相关,线性相关,负相关,正相关,复相关,单相关,非因果关系,因果关系,完全不相关,13,第一节 相关分析的一般问题,二、相关分析与回归分析 (一)涵义 1、相关分析是对具有相关关系的变量之间的关系密切程度进行分析研究的统计方法
5、。2、回归分析是对具有相关关系的变量,根据其形式,选择一个适当的数学模型,近似地表示变量之间的关系的统计分析方法。,14,第一节 相关分析的一般问题,(二)二者之关系1、二者之联系:回归分析与相关分析有密切联系,如果没有从定性上判断变量间是否具有相关关系,而盲目地进行回归分析是没有意义的;反之,仅有相关分析而不进行回归分析,这种得不到具体数量对应关系的统计分析是不深入的。由此可见,相关分析是回归分析的前提和基础,回归分析是相关分析的继续和深入。,15,第一节 相关分析的一般问题,2、区别(1)变量之间的关系不同 相关分析:变量是对等的关系回归分析:变量之间确定的因果关系。(2)变量之间的关系表
6、现 相关分析:相关系数回归分析:利用回归方程,16,第一节 相关分析的一般问题,(3)变量的随机性要求不同相关分析:变量都必须是随机变量, 回归分析:自变量不是随机变量,因 变量是随机变量。,17,第一节 相关分析的一般问题,三、相关分析的作用1、确定现象之间的依存关系。2、确定相关关系的密切程度。 3、配合数学方程式4、确定因变量估计值的误差程度。,18,第一节 相关分析的一般问题,四、相关分析的内容 1、从理论或经验上,判断变量之间是否存在相关关系。2、利用统计方法描述变量之间的相关关系、相关关系的形态判断。3、配合回归方程。用最小二乘法估计方程参数,并对回归方程进行评价。4、回归方程的估
7、计误差计算。,19,第二节 相关关系判断,一、图示法二、表式法三、相关系数,20,第二节 相关关系判断,一、图示法。用散点图表现变量之间的关系程度和形态,也称相关图。,21,第二节 相关关系判断,二、表示法。用表格的形式表现变量之间的相关关系,也称之为相关表。种类:1、简单相关表和分组相关表(棋盘表):简单相关表是资料未曾分组,只将自变量数值按大小顺序排列,并配合其对应的因变量的变量数值所形成的表。,22,第二节 相关关系判断表示法,23,24,第二节 相关关系判断表示法,25,26,27,第二节 相关关系判断,三、相关系数的计算(一)相关系数相关系数是说明两个现象之间相关关 系密切程度的统计
8、分析综合指标。对两个变量之间的线性相关程度的度 量称为简单相关系数。多个变量之间的相 关系数称为复相关系数。,28,第二节 相关关系判断,(二)计算 设两个变量y和x,它们之间的简单相关系数计算公式为:,29,第二节 相关关系判断,相关系数r的取值范围在-1,1之间。 当r=1时,为完全相关。 当 r=0 时,为完全不相关。 当 时,为负相关。 当 时,为正相关。 当 时,变量之间关系的密切程度越高;反之,关系密切程度低。,30,r,第二节 相关关系判断,31,第二节 相关关系判断相关系数,例1.消费支出与可支配收入之间的相关系数计算。,32,第二节 相关关系判断相关系数,33,第二节 相关关
9、系判断相关系数,34,第二节 相关关系判断相关系数,用相关系数公式,35,36,第二节 相关关系判断相关系数,例3.一家大型商业银行在多个地区设有25 个分行。该银行所属的25家分行2002年的 有关业务数据列入下表 。通过散点图可以 观察到不良贷款与贷款余额、累计应收贷 款、贷款项目等之间存在较大的相关性。 为了进一步说明相关的程度,需要计算相 关系数,并列入下表。,37,第二节 相关关系判断相关系数,分别计算两两变量之间的相关系数,列入 下表,38,第三节 回归分析,主要内容 一、回归分析 二、标准的一元线性回归模型 三、一元线性回归模型的估计 四、回归方程的检验 五、一元线性回归模型的预
10、测 六、多元回归 七、曲线回归,39,第三节 回归分析,一、回归分析(Regression)1、回归分析是指从一组数据出发,确定变量之间的数学关系式,即建立回归模型。 2、回归模型是对具有相关关系的变量,借助数学分析方法,建立的用以近似地描述相关变量间联系的函数关系或经验公式,也称回归方程或回归函数。换言之,回归分析通过一个或一组被称为自变量的变化解释另一个被称为因变量的变化。,40,第三节 回归分析,回归分析最早采用者是英国遗传学家高尔登。他把这种统计分析方法应用于研究生物学的遗传问题。他所说的回归是指生物后代有回复或回归到其上代原有特性的倾向。因此,这种分析方法就称为回归分析。,41,第三
11、节 回归分析,3、回归模型的种类根据变量数量的多少,分为一元回归和多元回归。 根据变量间关系的表现形态,分为直线回归和曲线回归,也称线性回归和非线性回归。最简单的回归模型是两个变量的方程,即一元线性回归方程。,42,第三节 回归分析,4、主要内容和步骤 1)根据理论对问题进行分析,区分自变量和因变量。2)建立变量之间的回归模型,表现变量之间的函数关系。3)测定模型的拟合精度,对估计值进行统计 检验。4)在通过检验之后,利用回归方程,根据自变量的具体数值,对因变量进行预测。,43,第三节 回归分析,回归分析的主要任务是要采用适当的 方法,充分利用样本所提供的信息,使得样 本回归函数尽可能地接近于
12、真实的总体回归 函数。,44,第三节 回归分析,5、变量、变量类型和变量之间的关系* 变量是对研究对象数量特征的描述,如产量、产值、价格等。因变量(Y),也称被解释变量或内生变量。也是被预测的变量。自变量 (X) ,也称解释变量或外生变量,用于解释因变量的一个或多个变量。,45,第三节 回归分析,*变量类型。变量主要分为外生变量和内生变量两种。内生变量是由经济系统本身决定的变量,系统运行,变量也随之变化。外生变量是由经济系统以外的因素决定的,它们的取值不受模型的影响,系统运行不对其产生影响。例:其中:内生变量为y,它被x1和x2解释,其数值受到x1和x2的影响。此时,x1和x2,是解释变量,是
13、外生变量,它们不受Y的影响。,46,第三节 回归分析,在外生变量中,除了上述如x1和x2这样 的变量外,还有滞后变量,如yt-1。在时间t 上,yt-1是已经确定,它不能随着模型的变 化而变化。例:研究居民消费水平时,除了收集工 资收入、家庭人口和存款情况,还要收集前期居民消费水平。因其直接关系到当前消费。,47,第三节 回归分析,例:经济学的有关国民收入的模型。根据凯恩斯的收入影响消费的理论,消费是收入的线性函数,即其中:C表示消费总额,Y表示收入,c表 示消费倾向。C0为常数。,48,第三节 回归分析,实际上,对于居民消费,除了收入水 平以外,还存在许多其他的影响因素,如 消费习惯、对未来
14、收入的预期、年龄等因 素。这些因素都会使消费者的消费与收入 之间的关系表现为不完全确定的相关关系。因此,应该将误差项也列入到方程中,49,第三节 回归分析,二、标准的一元线性回归模型(一)总体回归函数。回归分析通常要建立一定的数学模型。最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型。,50,第三节 回归分析,该类模型假设因变量为Y主要受到自变量X的影 响,它们之间存在着近似的线性函数关系:,称为总体回归函数。 式中:1和2是未知参数,又叫回归系数。Yi和Xi分别是Y和X的第t次值。,51,第三节 回归分析,ui为随机误差项,又称随机干扰项或扰动项。它是一个随机变量,
15、反映未列入方程中的其他各项因素对Y的影响。而E(Yi)=1+2Xi,是指在X值给定条件下,Y的期望值是X的严密的线性函数。Y和X之间是确定的函数关系。,52,第三节 回归分析,然而,变量Y的实际观察值并不一定都 位于直线上,Y只是散布在该直线的周围。 把各实际观测点与总体回归线垂直方 向的间隔,称为随机误差扰动项,即ui=Yi-E(Yi),53,第三节 回归分析,(二)样本回归函数根据样本资料拟合的直线,称为样本回归直线;若拟合的是一条曲线,时,则称为样本回归曲线。其形式与总体回归函数一致 。样本回归函数 为,54,第三节 回归分析,样本回归函数 为样本回归方程为,其中: 为样本函数的截距;
16、为样本函数的斜率,也是对总体回归系数的估计值;ei是残差,与总体的随机扰动项相对应。n为样本容量.,55,第三节 回归分析,样本函数模型与总体函数模型之间的差别:1)总体函数模型是未知的,它只有一条。样本回归线则有多条,是可变的。2)总体回归函数中的系数是未知的。为常 数。而样本回归函数中的回归系数是随机变量。3)总体回归函数中的随机误差项u是Y与总 体回归线之间的纵向距离,它是不可直接观测的。 而样本回归函数中的e是Y与样本回归线之间 的纵向距离,可以计算出具体数值。,56,第三节 回归分析,(三)误差项的标准假定随机误差项u是无法直接观测到的。 为了进行回归分析,通常对其概率分布提 出假定
17、。 假设1:误差项的期望值为0,即对所有的i总有 E(ui)=0,57,第三节 回归分析,假设2:误差项的方差为常数即对所有的i,有 即同方差性。 假设3:误差项之间不存在序列相关关系, 其协方差为零,即当ij时有,58,第三节 回归分析,假设4:自变量是给定的变量,与随机误差项线性无关。 假设5:随机误差项服从正态分布。上述假设最初是由德国数学家高斯提出的,也称高斯假设或标准假定,或经典假定。满足以上标准的假定的一元线性回归方程模型,称为标准的一元线性回归方程。,59,第三节 回归分析,三、一元线性回归模型的估计 (一)回归系数的估计设直线方程式为 采用最小二乘法配合线性方程,其中:Q为残差
18、平方和的大小。,60,第三节 回归分析,对Q求偏导,得到计算估计值的正规方 程组或称标准方程组,计算得到各参数的 估计值:,61,第三节 回归分析,例:内蒙古城镇居民可支配收入与居民消费水平 (1)农村居民消费水平(Y)农牧民纯收入(X),回归方程为:y=121.29+0.492x. 回归系数为0.492,也称为边际消费倾向。即农牧民纯收入每增加1亿元,农村居民消费水平增加0.492亿元。,利用excel计算,62,第三节 回归分析,例:内蒙古城镇居民可支配收入与居民消费水平 (2)城镇居民消费水平(Y)城镇居民可支配收入(X),回归方程为:y=120.793+0.891x. 回归系数为0.8
19、91,也称为边际消费倾向。即城镇居民可 支配收入每增加1亿元,消费水平增加0.891亿元。,63,(二)回归系数与相关系数的关系回归方程式的斜率2与相关系数r之间的关 系可用下式表示,64,第三节 回归分析,(三)估计标准误差利用回归方程推算因变量的估计值。估计值与实际值之间是有差异的,存在估计误差。测量估计误差的目的是帮助我们了解估计资料的精确度,分析误差产生的原因,提高估计的把握程度。,利用excel计算,65,第三节 回归分析,(三)估计标准误差-计算公式,考虑自由度时,则用下式.其中:m为方程中的参数个数。如一元线性方程有两个参数,因此,上式用n-2.,66,第三节 回归分析,(三)估
20、计标准误差1、实际观察值与回归估计值离差平方和的 均方根2、反映实际观察值在回归直线周围的分散状 况3、对误差项的标准差的估计,是在排除了 x对y的线性影响后,y随机波动大小的一个估计量4、反映用估计的回归方程预测y时预测误差 的大小。,67,第三节 回归分析,例:内蒙古城镇居民可支配收入与居民消费水平 (1)农村居民消费水平(Y)- 农牧民纯收入(X),根据回归方程为:y=121.29+0.492x.对农村居民消费水平进行估计,并计算其估计误差。,利用excel计算,68,第三节 回归分析,例:内蒙古城镇居民可支配收入与居民消费水平 (2)城镇居民消费水平(Y)- 城镇居民可支配收入(X),
21、根据回归方程 y=120.793+0.891x. 对城镇居民消费水平进 行估计,计算估计值的误差,69,第三节 回归分析,当给定估计的概率保证程度,就可以利用估计误差建立估计的置信区间。即估计误差与相关系数之间的关系:,70,第三节 回归分析,四、回归方程的检验(一)最小二乘法估计量的性质最小二乘法估计量是总体估计的无偏估计量。,71,第三节 回归分析,在所有估计量中,最小二乘法估计量 是方差最小的。 随着样本容量增加,其方差会不断缩 小。所以是总体估计量的有效和一致估计。 所以最小二乘法估计量称为最优无偏估计 量和一致估计量。,72,第三节 回归分析,(二)模型检验1、检验的种类:在进行参数
22、估计后,还要进行检验。主要有:*理论意义检验:涉及参数估计值的符号和取值区间,是否与实质性科学的理论以及人们的实践经验相符合,说明模型是否能够对现实进行解释。,73,第三节 回归分析,*一级检验:也称统计学检验,它是利用统 计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度和显著性检验。*二级检验:也称经济计量学检验,它是对 标准线性回归模型的假定条件能否得到满足进行 检验。包括序列相关检验、异方差性检验、多重 共线性等的检验等。,74,第三节 回归分析,2、拟合程度评价 所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。判定模型拟合程度优劣最常用的数量指标是可决系数。又称决
23、定系数。它是建立在对总离差的分解基础之上的。,利用excel计算,75,变差的分解 (图示),76,利用excel计算,77,离差平方和的分解 (三个平方和的关系),78,意义,总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,79,可决系数(判定系数、拟合优度)r2 (coefficient of determinati
24、on),回归平方和占总离差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差 判定系数等于相关系数的平方,即R2r2,80,第三节 回归分析,估计标准误差与残差平方和之间的关系,81,第三节 回归分析,3、显著性检验回归分析中的显著性检验包括两个方面的内容:一是对各回归系数的显著性检验。通常采用t检验二是对整个回归方程的显著性检验。在方差分析的基础上使用F统计量检验。,82,第三节 回归分析,(1)回归系数的显著性检验。就是根据样本估计的结果,对总体回归系数的有关假设进行检验。要先了解 分布。因二者都是线性估计量,
25、是因变量Y的线性组合。从标准假定可知Y服从正态分布,因此 , 也服从正态分布。二者的期望值与方差已给出。,83,第三节 回归分析,84,第三节 回归分析,步骤:- 第一、提出假设:其中:经常设 这表明X与Y之间无线性关系。 第二、确定显著性水平, 第三、计算回归系数的z(或者t)统计量值。当总体方差已知,或者总体方差未知时,用z统计量。当总体方差未知,且是小样本时,用t统计量。 第四、确定临界值z /2 或者 t /2(n-2)。 第五、将t统计量与临界值进行对比并得出结论。,85,第三节 回归分析,(2)回归方程的显著性检验 由于因此,可以计算F统计量,在给定显著性水平 下,如果FF(1,n
26、-2),则拒绝原假设,认为总体中 是存在线性相关的。,86,第三节 回归分析,4、相关系数检验,87,第三节 回归分析,五、一元线性回归模型的预测(一)基本公式建立回归模型的目的是进行预测。当回归模型建立,经过检验,被 认为具有经济意义,同时证明有较高的拟合程度,就可以利用其来进行预测。,88,第三节 回归分析,回归预测是一种有条件的预测,必须先给出X值。当给出的数值属于样本内的数值,称为内插法;如不在样本内称为外推预测或事前预测。公式:,89,根据自变量 x 的取值估计或预测因变量 y的取值 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区
27、间估计 y 的个别值的预测区间估计,90,第三节 回归分析,(二)预测误差预测误差是指预测值与实际值之间的误差。 原因:1、模型本身中的误差因素所造成。2、由于回归系数的估计值同其真值不一致所造成的。3、由于自变量的设定值同其实际值的偏离所造成的。4、由于未来时期总体回归系数发生变化所造成的误差。,91,第三节 回归分析 (三)点估计和区间预测,点估计值有:a)y 的平均值的点估计;b) y 的个别值的点估计(2) 在点估计条件下,平均值的点估计和个别 值的的点估计是一样的,但在区间估计中则不同,(1)对于自变量 x 的一个给定值x0 ,根据回归 方程得到因变量 y 的一个估计值,1.点估计,
28、92,y 的平均值的点估计,例:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计 。根据估计的回归方程y = -0.8295 + 0.037895 x,,93,y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计 例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估
29、计 。根据估计的回归方程得,94,区间估计,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate),95,置信区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval)E(y0) 在1-置信水平下的置信区间为,式中
30、:sy为估计标准误差,96,影响区间宽度的因素,置信水平 (1 - ) 区间宽度随置信水平的增大而增大 数据的离散程度s 区间宽度随离散程度的增大而增大 3. 样本容量 区间宽度随样本容量的增大而减小 4. 用于预测的 xp与x的差异程度 区间宽度随 xp与x 的差异程度的增大而增大,97,置信区间、预测区间、回归方程,98,残差(residual),因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差 确定有关误差项的假定是否成立 检测有影响的 观测值,99,用残差证实模型的假定 -残差图,表示残差的图形 关于x的残差图 关于y的残差图 标准化
31、残差图 用于判断误差的假定是否成立 检测有影响的观测值,100,残差图,101,残差图,102,标准化残差, 残差除以它的标准差后得到的数值。计算公式为ei是第i个残差的标准差,其计算公式为,103,标准化残差图, 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布 在标准化残差图中,大约有95%的标准化残差在-2到+2之间,104,标准化残差图,105,用残差检测异常值和有影响的观测值 -异常值,如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点 如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归
32、的效果 如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型 如果完全是由于随机因素而造成的异常值,则应该保留该数据 在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除,106,异常值,异常值也可以通过标准化残差来识别 如果某一个观测值所对应的标准化残差较大,就可以识别为异常值 一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值,107,有影响的观测值,如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值 一个有影响的观测值可能是 一个异常值,即有一个值
33、远远偏离了散点图中的趋势线 对应一个远离自变量平均值的观测值 或者是这二者组合而形成的观测值,,108,有影响的观测值 ),不存在影响值的趋势,有影响的观测值,存在影响值的趋势,109,杠杆率点(极端值),如果自变量存在一个极端值,该观测值则称为高杠杆率点(high leverage point) 在一元回归中,第i个观测值的杠杆率用hi表示,其计算公式为 如果一个观测值的杠杆率 就可以将该观测值识别为有高杠杆率的点 一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响,110,高杠杆率点,高杠杆率点,111,第三节 回归分析多元回归,* 六、多元回归 (一)多元
34、回归模型-一个因变量与两个及两个以上自变量的回归,描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程,称为多元回归模型。涉及 p 个自变量的多元回归模型可表示为,其中:b0 ,b1,b2 ,bp是参数;y 是x1,,x2 , ,xp 的线性函数加上误差项 是被称为误差项的随机变量。 包含在y里面但不能被p个自变量的线性关系所解释的变异性,112,第三节 回归分析多元回归,(二)多元回归模型的基本假定 1、误差项是一个期望值为0的随机变量,即E()=0 2、对于自变量x1,x2,xp的所有值,的方差 2都相同 3、误差项是一个服从正态分布的随机变量,即N(0,2),且相
35、互独立,113,第三节 回归分析多元回归 多元回归方程 (multiple regression equation),描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xp的方程 多元线性回归方程的形式为E( y ) = 0+ 1 x1 + 2 x2 + p xp,b1,b2,bp称为偏回归系数bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值,114,二元回归方程的直观解释,115,第三节 回归分析多元回归 (三)估计的多元回归的方程,是 估计值是 y 的估计值,用样本统计量 估计回归方程中的 参数 时得到的方程 由最小二乘法求得 一般形式为,116,第
36、三节 回归分析多元回归,求解各回归参数 的标准方程如下,估计参数的最小二乘法 使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,117,第三节 回归分析多元回归,(四)回归方程的拟合优度1、多重判定系数(1)回归平方和占总平方和的比例 计算公式为(2)因变量取值的变差中,能被估计的多元回归 方程所解释的比例,118,第三节 回归分析多元回归),2、修正多重判定系数 (adjusted multiple coefficient of determination 用样本容量n和自变量的个数p去修正R2得到 计算公式为避免增加自变量而高估 R2 意义与 R2类似 数值小于R2,Excel
37、 输出结果的分析,119,第三节 回归分析多元回归),(五)估计标准误差 Sy1、对误差项的标准差 的一个估计值2、衡量多元回归方程的拟合优度3、计算公式为,Excel 输出结果,120,第三节 回归分析多元回归,(六)显著性检验 1、线性关系检验*检验因变量与所有自变量之间的线性关系是否显著*也被称为总体的显著性检验*检验方法是将回归均方和(MSR)同离差均方和(MSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系,121,第三节 回归分析多元回归线性关系检验,提出假设 H0:12p=0 线性
38、关系不显著 H1:1,2, p至少有一个不等于0,2. 计算检验统计量F,3、确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F 4. 作出决策:若FF ,拒绝H0,Excel 输出结果,122,第三节 回归分析多元回归,2、回归系数的检验(1)线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验(2)究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定(3)对回归系数检验的个数进行限制,以避免犯过多的第一类错误(弃真错误) (4)对每一个自变量都要单独进行检验(5)应用 t 检验统计量,123,第三节 回归分析多元回归,回归系数的检验步骤: 提出假设 H0: b
39、i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t,确定显著性水平,并进行决策 tt,拒绝H0; tt,不拒绝H0,124,第三节 回归分析多元回归,3、回归系数的推断 回归系数在(1-)%置信水平下的置信区间为,回归系数的抽样标准差,Excel 输出结果,125,第三节 回归分析-非线性回归,*(七)非线性回归(曲线回归)1.因变量 y 与 x 之间不是线性关系2.可通过变量代换转换成线性关系3.用最小二乘法求出参数的估计值4.并非所有的非线性模型都可以化为线性模型,126,第三节 回归分析-非线性回
40、归 -双曲线,基本形式:线性化方法 令:y = 1/y,x= 1/x, 则有y = + x 图像,127,第三节 回归分析-非线性回归 幂函数曲线,基本形式: 线性化方法 两端取对数得:lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x 图像,128,第三节 回归分析-非线性回归 对数曲线,基本形式: 线性化方法 x= lnx , 则有y = + x 图像,129,第三节 回归分析-非线性回归 指数曲线,基本形式: 线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x 图像,130,第三节 回归分析-非线性回
41、归 S 型曲线,基本形式: 线性化方法 令:y = 1/y,x= e-x, 则有y = + x 图像,131,第三节 回归分析-非线性回归,【例】一种商品的需求量与其价格有一定的关系。现对一定时期内的商品价格x与需求量y进行观察,取得的样本数据如表11.16。试判断商品价格与需求量之间回归函数的类型,并求需求量对价格的回归方程,132,第三节 回归分析-非线性回归,价格与需求量的散点图,133,第三节 回归分析-非线性回归,用双曲线模型:2.按线性回归的方法求解和 ,得,134,第三节 回归分析-非线性回归,价格与需求量的散点图,135,本章小结,1、现象之间的关系:相关关系;函数关系。 种类、作用、相关与回归的区别 2、相关关系判断。图示、表示、相关系数 3、回归分析的作用最小二乘法估计方程参数;一元线性方程的估计;对方程的检验;区间预测。多元回归估计。非线性回归,
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1