1、第3章 非线性回归与含特殊变量的回归预测法,学习目标,了解:非线性回归、含特殊变量的回归模型的一般形式 理解:可线性化的非线性回归的形式变换、不可线性化的参数估计方法。 掌握:应用Excel、SPSS、Eviews软件进行非线性趋势预测和有特殊变量的回归预测。,内 容,3.1 可化为线性的回归模型 3.2 不可化为线性的回归模型 3.3 非线性回归应用的几个问题 3.4 含特殊变量的回归模型,3.1 可化为线性的回归模型,一、非线性回归模型的直接代换 1. 多项式函数模型 形如 的模型为多项式模型。 令 , 原模型可化为线性形式即可利用线性回归分析的方法处理了。,3.1 可化为线性的回归模型,
2、2. 双曲线模型 形如 的模型为双曲线模型。令 原模型可化为线性形式即可利用线性回归分析的方法处理了。,3.1 可化为线性的回归模型,3. 半对数函数模型和双对数函数模型 形如 和 的模型为半对数函数模型,形如 的模型为双对数函数模型。 令 原模型可化为线性形式即可利用线性回归分析的方法处理了。,3.1 可化为线性的回归模型,二、非线性模型的间接代换 1. 一般形式 形如 的指数模型,可间接转化成线性形 式,之后可以采用前述代换的形式建立模型。 2. 著名的柯布道格拉斯(CobbDouglas)生产函数就是其中的一个典型。,3.2 不可转换成线性的趋势模型,一、不可线性化模型 不可线性化模型:
3、无论采取什么方式变换都不可能实现线性化的模型。 常用的处理方法:一般采用高斯一牛顿迭代法进行参数估计,即借助于泰勒级数展开式进行逐次的线性近似估计。,3.2 不可转换成线性的趋势模型,二、迭代估计法 基本思路是: 通过泰勒级数展开使非线性方程在某一组初始参数估计值附近线性化; 然后对这一线性方程应用OLS法,得出一组新的参数估计值; 使非线性方程在新参数估计值附近线性化,对新的线性方程再应用OLS法,又得出一组新的参数估计值; 不断重复上述过程,直至参数估计值收敛时为止。,3.2 不可转换成线性的趋势模型,三、迭代估计法的Eviews软件实现 设定代估参数的初始值,可采用以下两种方式: (1)
4、使用param命令。命令格式为param 初始值1 初始值2 初始值3 (2)在工作文件窗口双击序列C,并在序列窗口中直接输入参数的初始值(注意序列C中总是保留着刚建立模型的参数估计值,若不重新设定,系统自动将这些值作为参数的默认初始值)。,3.2 不可转换成线性的趋势模型, 估计非线性模型 (1)命令方式 在命令窗口直接键入:NLS 非线性函数表达式 例如,对于非线性模型 ,其估计命令格式为 NLS y=c(1)*kc(2)*Lc(3) 其中, c(1)、c(2)、c(3)表示待估计的三个参数A、 、 。 回车后,系统会自动给出迭代估计的参数估计值。 (2)菜单方式 在数组窗口,点击Proc
5、sMake Equation,在弹出的方程描述对话框中,输入非线性函数表达式:y=c(1)*kc(2)*Lc(3)。 选择估计方法为最小二乘法后,点击OK按钮。,3.2 不可转换成线性的趋势模型,几点说明: (1)在方程描述对话框中,点击Option按钮,可以设置迭代估计的最大迭代次数(Max Iteration)和误差精度(Convergence),以便控制迭代估计的收敛过程。 (2)利用NLS命令也可估计可划为线性的非线性回归模型。例如 NLS y=c(1)+c(2)/x NLS y=c(1)+c(2)*ln(x) (3)迭代估计是一种近似估计,并且参数初始值和误差精度的设定不当还会直接影
6、响模型的估计结果,甚至出现错误。,3.3 非线性曲线应用的几个问题,一、非线性模型应注意的几个问题 对非线性模型来说: (1)不能从回归残差中得出随机项方差 的无偏估计量。 (2)由于非线性模型中的参数估计量同随机项不成线性关系,所以它们不服从正态分布,其结果使得t检验和F检验都不适用。 可以用来预测未来某个时期的因变量值 ,由于 已经不再是随机项的线性函数,因此, 已经不具备线性回归中估计值的最佳、线性、无偏的性质,置信区间也无法构造了。,3.3 非线性曲线应用的几个问题,二、最优曲线的选择 首先是定性分析;其次若同一数据有几种趋势线可选择,可通过下列指标比较选择。 均方根误差(Root M
7、ean Squared Error),记为RMSE平均绝对误差(Mean Absolute Error),记为MAE 平均绝对百分比误差(Mean Absolute Percent Error)简记为MAPE,3.3 非线性曲线应用的几个问题,3. 希尔不等系数(Theil Inequality Coefficient)简记为TheilIC5. 偏差率(Bias Proportion)、方差率(Variance Proportion)、协方差率(Covariance Proportion)6. 修正判定系数(Adjusted R Square),3.3 非线性曲线应用的几个问题,7. 对数似然
8、值(Log Likelihood)8. 赤池信息准则(Akaike Information Criterion)9.施瓦兹准则(Schwarz Criterrion),3.4 含特殊变量的回归模型,一、解释变量为特殊变量的回归模型 (一)虚拟变量 定义:在研究经济问题时不可缺少的,在一般情况下是不可计量的,表现出某种特性的变量叫虚拟变量。 量化的方法:当虚拟变量起作用时赋其值为“1”,不起作用时赋其值为“0”。,3.4 含特殊变量的回归模型,3. 常用模型 (1) 虚拟变量单独使用的模型 【例2.3.1】表3.3.1为10位人士的学历情况与最初参加工作时的起薪。要研究学历Di对收入yi的影响,
9、可建立如下模型: 其中yi表示起薪,i=1,2n, Di=,3.4 含特殊变量的回归模型,表3.3.1 起薪与受教育程度数据应用OLS得: t=(8.05*)(2.5*) 由结果可知,学历对收入有着显著的影响,即说明受教育水平不同的两类人群的起薪是不同的。由方程可得,大学毕业的起薪均值为2080元,而非大学毕业的起薪均值为1440元,前者比后者高出640元( Di的系数)。,3.4 含特殊变量的回归模型,(2)虚拟变量与一般变量一起使用的模型 假定在一般情况下,计量模型为: 虚拟变量为:=1)仅影响截距的情况 于是有,3.4 含特殊变量的回归模型,2)仅影响斜率的情况于是有3)既影响截距又影响
10、斜率的情况于是有,3.4 含特殊变量的回归模型,(3) 虚拟变量表现为多种状态的模型 虚拟变量有k种表现状态,可建立(k-1)个虚拟变量。假定:第一季度第二季度第三季度 第四季度,3.4 含特殊变量的回归模型,对于上述模型可通过引入季度虚拟变量建立如下模型:此模型中只引入了第二季度、第三季度、第四季度虚拟变量,分别为D2,D3 ,D2 ,第一季度并未引入虚拟变量。这三个虚拟变量的取值为:Dit = i=2,3,4 因此有下面的关系式:,3.4 含特殊变量的回归模型,(二)滞后变量 滞后变量是指回归模型中被解释变量与解释变量的时间滞后量。比如解释变量的现期值记作xt ,则xt-1 ,xt-2 ,
11、 就叫做xt的滞后变量。 在回归模型中若把滞后变量作为解释变量,则此回归模型叫做滞后变量模型。,3.4 含特殊变量的回归模型, 分布滞后模型 将解释变量的滞后变量也作为解释变量的模型被称为分布滞后模型。 在分布滞后模型中,由于我们已假设xt是非随机的,或是固定的,因而xt-1及其他所有的滞后值都是非随机的或固定的。所以分布滞后模型本身并不违背古典线性回归模型的有关假定,原则上是可以利用OLS法进行估计的。,3.4 含特殊变量的回归模型,在具体应用中还存在一些实际问题: 第一,滞后的最大长度(问题)没有事先的设想。 第二,在引入过多期的滞后变量后,将导致自由度的严重损失,从而导致统计推断的可靠性
12、下降。 如果模型中的解释变量不止一个,并且每个解释变量又都有其自己的滞后结构,这将使问题更加复杂。 第三,模型还将面临多重共线性问题。,3.4 含特殊变量的回归模型,(1)用于分布滞后模型的经验权数法 经验权数法就是从经验出发为滞后变量指定权数,即赋给 , , 以一定的权数,使滞后变量按权数线性组合,构成新的W变量,其方法可有以下几种形式: 递减滞后形式:假定权数是递减的,即x的近期对y的影响较远期为大。 矩形滞后形式:假定各个权数都是相等的,也就是x的逐次滞后值对y的影响相同。 “倒V型”滞后形式:假定权数先递增后递减形成“”型,即倒V型,3.4 含特殊变量的回归模型,【例2.3.3】设定分
13、布滞后模型为:指定递减权数为 ,则令此时有对所建立的经验权数模型进行回归分析,即根据显著性检验、拟合优度检验及DW检验等,从中选出最优的形式,以其回归方程作为所求模型的估计式。,3.4 含特殊变量的回归模型,(2)用于分布滞后模型的库伊克方法 库伊克(Koyck)提出了估计分布滞后模型的一种精巧方法。设无限滞后的分布模型为: 对于此模型,库伊克设想它们按几何级数递减 其中 为0 1,称为分布滞后的下降率或衰退率,而1- 称为调整速率。 无限滞后的分布模型变为:,3.4 含特殊变量的回归模型,将模型滞后一期乘以 得到: 两式相减得:整理得: 其中, 。 以上所描述的过程称为库伊克变换。通过单一变
14、量即yt-1去替代xt-1 ,xt-2 就解决了多重共线性问题。,3.4 含特殊变量的回归模型,库伊克变换有以下的一些特性: 第一,我们是从分布滞后模型开始,而以自回归模型结束,因为yt-1作为解释变量出现在模型中。 第二, yt-1的出现很可能引起某些统计问题。 yt-1与yt同样都是随机变量,这意味着模型中有一随机解释变量。古典最小二乘理论所依据的假定,解释变量或者是非随机的。因此,我们必须找出yt-1是否满足这个假定。 第三,原模型的随机项是ut ,而在变换了的模型中随机项是 。现在vt的统计性质要依赖于对ut统计性质的假定。如果原先的ut是序列无关的,则vt是序列相关的(在此不予证明)
15、。因此,除了随机解释变量yt-1之外,我们也要重视序列相关的问题。,3.4 含特殊变量的回归模型, 自回归模型 (1)基本原理 把反映社会经济现象发展变化的一个时间数列作为因变量,将同一时间数列后推一期(或k期)的数列作为自变量进行回归预测的方法。即把被解释变量的滞后变量作为解释变量的模型被称为自回归模型,3.4 含特殊变量的回归模型,(2)因变量数列的确定 在没有季节变动的情况下,可取最近的n-1或n-j期观察值作为因变量数列;存有季节变动的情况下,可取最近1个或k个变化周期的观察值作为因变量数列。具体选多少期,还需与自变量相匹配。 (3)自变量数列的确定 在没有季节变动的情况下,可取后推1
16、期或k期观察值数列作为自变量数列;存有季节变动的情况下,可取后推1个变化周期的观察值作为因变量数列。究竟后推多少期好呢?还需计算相关系数来确定。,3.4 含特殊变量的回归模型,二、因变量是定性变量的回归模型 (一)因变量是定性变量的回归方程的意义 设因变量Y是只取0,1两个值的定性变量,考虑简单回归模型因变量均值 有着特殊的意义。 由于Y是0-1型贝努里随机变量,则得如下概率分布:, 根据随机变量期望值的一般定义,可得:进而得到 当因变量是0-1变量时,因变量均值总是代表给定自变量y1时的概率。,3.4 含特殊变量的回归模型,(二)定性因变量回归的特殊问题 非正态误差项。 对一个取值为0和1的
17、因变量,误差项 只能取两个值: 当yi1时, 当yi 0时, 显然,误差项是两点型离散型分布,正态误差回归模型的假定就不适用了。,3.4 含特殊变量的回归模型, 异方差性。 当因变量是定性变量时,误差项仍保持零均值,这时出现的另一个问题是误差项ui的方差不相等。 由于yi和ui只差一个常数 , 因而,y和u的方差是相等的。0-1型随机变量的方差为:= = ( ) 可以看出, ui的方差依赖于xi ,误差项方差随着x的不同水平而变化,即存在异方差性,不满足线性回归方程的基本假定,最小二乘估计的效果也就不会太好。,3.4 含特殊变量的回归模型,3回归方程的限制。 当因变量为0、1虚拟变量时,回归方
18、程代表概率分布,所以因变量均值受到如下限制0 1 一般的回归方程本身并不具有这种限制。,3.4 含特殊变量的回归模型,相应的解决办法: (1)对于误差项不是正态的情形,最小二乘法求得的无偏估计量在绝大多数情况下是渐近正态的。因此,当样本容量较大时,未知参数的估计与误差项假设为正态分布时的估计方法相同; (2)对于异方差情况,可以用加权最小二乘法来处理; (3)对受回归方程限制的情况,对模型范围内的来说,可以通过确保拟合模型的因变量均值不小于0和不大于1来处理,或者用一个自动满足限制的模型来处理。,3.4 含特殊变量的回归模型,(三)分组数据的Logistic模型 针对0-1型因变量产生的问题,
19、我们需要对回归模型进行两个方面的改进。 回归函数改为限制在0,1之间的连续曲线,而不能再沿用直线回归方程。限制在0,1之间的连续曲线有许多,例如,所有连续型随机变量的概率分布曲线均符合要求,但我们常用的是Logistic函数和正态分布函数。 Logistic函数形式如下一般译为逻辑斯蒂曲线,或简称逻辑曲线。,3.4 含特殊变量的回归模型, 因变量只取0、1两个离散值,不适合直接作为回归模型中的因变量,由于回归函数 表示在自变量为xi条件下yi的平均值,而yi是0-1型随机变量,因而 就是在自变量为xi的条件下, yi等于1的比例。这说明,我们可以用yi等于1的比例代替yi本身作为因变量。,3.4 含特殊变量的回归模型,(四)未分组数据的Logistic回归极大似然估计就是求使上式取得最大值的 的估计量 。,3.4 含特殊变量的回归模型,求解过程用到数值计算,统计软件SPSS提供了求解功能。 打开SPSS,输入数据。依次打开菜Analysis、Regression、Binary Logistic;定义因变量和自变量,选择回归方法为Enter;点击OK。 运行结果,B为回归系数的估计值;S.E为回归系数的标准差;Wald为回归系数的检验统计量df为自由度,sig为显著性水平。,