1、第9章 相关与回归,9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归,9.1 简单线性相关分析,一、变量之间的关系确定性关系、非确定性关系 1.确定性关系(函数关系):变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。,2.非确定性关系(相关关系):两个变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。 两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换
2、为线性相关。,3、相关的种类,(1)按相关的程度分为完全相关、不完全相关和不相关。 两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称完全相关,也称函数关系。 两个标志彼此互不影响,其数量变化各自独立,称为不相关。 两个现象之间的关系,介乎完全相关与不相关之间称不完全相关。,(2)按相关的方向分为正相关和负相关,正相关指相关关系表现为因素标志和结果标志的数量变动方向一致。 负相关指相关关系表现为因素标志和结果标志的数量变动方向是相反的。 (3)按相关的形式分为线性相关和非线性相关 一种现象的一个数值和另一现象相应的数值在指教坐标系中确定为一个点,称为线性相关。 (4)
3、按影响因素的多少分为单相关和复相关。 如果研究的是一个结果标志同某一因素标志相关,就称单相关。 如果分析若干因素标志对结果标志的影响,称为复相关或多元相关。,二、总体相关系数,三、样本相关系数,x,y,正 相 关,x,y,负 相 关,x,y,曲线相关,x,y,不 相 关,计算结果表明,机床使用年限与维修费用之间为高度正相关。,四、相关系数的显著性检验,五、相关分析中应注意的问题,相关系数不解释两个变量间的因果关系,它只是表明了两个变量间互相影响的程度和方向。 有时两变量之间不存在相关关系,但却可能出现较高的相关系数,要警惕虚假相关导致的错误结论。,第二节 一元线性回归分析,回归分析是通过一个或
4、一些变量的变化来解释另一变量的变化。 其内容和步骤: 1.根据理论和对问题的分析判断,区分自变量和因变量。 2.设法找出合适的回归模型来描述变量间的关系。 3.对回归模型进行统计检验。 4.利用回归模型,根据解释变量去估计、预测因变量。,一、一元线性回归的数学模型,随机干扰项的主要内容有: 1.未具体列入模型但又共同影响变量的种种因素 2.变量的观测误差 3.随机误差 4.模型的设定误差,二、线性回归模型的含义,1.就变量而言,线性是指Y的条件期望是X的线性函数。如:2.就参数而言,线性是指Y的条件期望是参数i的线性函数。如:,三、样本回归模型,事实上,总体Y是未知的,我们所能取得的只能是与给
5、定X值相对应的Y的样本观测值,我们通过样本提供的信息来认识总体,找出总体回归模型的估计式。 可支配收入与消费支出的简单随机样本,对散点分别拟合直线,是总体回归线的估计线,四、回归直线的拟合,1.简单线性回归模型的统计假定,满足以上4条假设的线性回归模型称为古典或普通线性回归模型,其参数估计所采用的最小平方法称作普通最小平方法,2.简单线性回归模型的参数估计-最小平方法,3.最小平方估计线和估计量的性质,五.回归模型的检验 1.拟合优度,如果SSR占的比例越大,则回归线对观察点拟合得越好。,称作判定系数,可用于判断回归方程的拟合优度。,判定系数与样本相关系数,判定系数的平方根就是相关系数。,2.
6、回归系数的显著性检验,3.回归系数的显著性检验步骤,X与Y之间是否存在线性关系,可以利用方差分析的方法进行F检验。,六、回归分析的预测和推断 1.总体均值的预测和推断,例9.9 随机抽查了生产同种产品的10个企业,得到它们的产量和生产费用的数据:,1.建立生产费用对产量的回归方程 2.预测当产量为80千克时,该类企业平均的生产费用的置信区间 3.预测其产量为80千克的某企业的生产费用的置信水平为95的置信区间,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,作散点图,从图中看出生产
7、费用与产量之间的关系近似为线性,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,拟合优度检验,检验结果说明生产费用的变动有65.2可以由产量的变动解释,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,回归系数检
8、验,拒绝原假设,说明X与Y存在线性关系,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,回归方程检验,即回归方程是高度显著的,X与Y之间确实存在线性关系,解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,总体均值的置信区间预测,即置信区间为(158.844 ,174.321)说明了当企业的产量为80千克时,生产费用平均为158844元到174321元之间,其可信度为95,
9、解:1.作X与Y的散点图2.估计回归方程3.检验(a.拟合优度检验 b.回归系数检 验 c.回归方程检验)4.总体均值的置信区间预测5.总体个别值的置信区间预测,总体个别值的置信区间预测,置信区间为(140.637,191.643)。对于产量为80千克的某个企业而言,其生产费用在140637元到191643元之间,可能性为95,七、相关分析与回归分析的关系,(一)区别 1、相关分析的任务是确定两个变量之间相关的方向和密切程度。回归分析的任务是寻找因变量对自变量依赖关系的数学表达式。 2、相关分析不必确定两变量中哪个是自变量,哪个是因变量,而回归分析中必须区分因变量与自变量。 3、相关分析中两变
10、量是对等的改变两者的地位,并不影响相关系数的数值,只有一个相关系数。而在回归分析中,互为因果关系的两个变量可以编制两个独立的回归方程。 4、相关分析中两变量可以都是随机的,而回归分析中因变量是随机的,自变量不是随机的。,(二)联系,1、相关分析是回归分析的基础和前提。只有在相关分析确定了变量之间存在一定相关关系的基础上建立的回归方程才有意义。 2、回归分析是相关分析的继续和深化。只有建立了回归方程才能表明变量之间的依赖关系,并进一步进行预测。,多元线性回归模型,1多元线性回归模型的性质与模型的确定,二元线性回归模型:,总体多元线性回归模型的一般形式,Y的数学期望E(Y),随机误差,表明自变量,
11、共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。,常数项,,和Y构成的平面与Y轴的截距,偏回归系数,表示在 固定时 每变化一个单位引起的Y的平均变动;,案例,偏回归系数,表示在 固定时 每变化一个单位引起的Y的平均变动;,随机误差,其理论假定与一元线性回归模型中的 一样。,在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。,样本多元线性回归模型的一般形式,二元线性回归模型为:,其数学期望,也称样本(或估计的)二元线性回归方程。,二元线性回归方程的确定,根据实际资料,用最小平方法,即使 ,分别对a、b1、b2求编导并令其为零,求得三个标准方程:,解此
12、联立方程便可得到a、b1、b2。,2多元线性回归模型的判定系数和估计标准误,判定系数,0r21,修正的判定余数:,r2和Sy(x1、x2)都是对回归模型拟合优度的评价指标。 Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。,估计标准误(Sy(x1、x2),3多元回归模型的显著性检验,对偏回归系数的t检验,H0: 1=0 , H1: 10; H0: 2=0, H1: 20。,检验统计量:,按显著性水平和自由度 (n-3) 查t表可得到临界值,t,0,模型整体的F检验,检验统计量:,(k自变量个数),或,按给定的和自由度(2) 和(n-3)查F表可得到 临界值,F,4多元回归中的相关
13、分析,复相关:指一个因变量同多个自变量的相关关系。,复相关系数恒取正值。,偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。,计算偏相关系数需借助相关系数矩阵表的资料。,二元回归中的相关系数矩阵表,y,y,x1,x1,x2,x2,ry1,ry2,r12,1.00,1.00,1.00,x1与y的偏相关系数:,x2与y的偏相关系数:,案例,5应用多元回归方程进行区间估计,Y的平均值的区间估计,Y的特点值的区间估计,式中,,是,即区间估计的抽样误差。,的抽样分布的标准差,,式中,,是,的抽样分布的标准差,,即区间估计的抽样误差。,非线性回归模型,当自变量与因变量存在某种
14、曲线相关关系时,可拟合曲线回归模型。例如:,双曲线:,a0 b0,a0 b0,x,x,y,y,指数曲线:y=aebx,b0,b0,x,x,y,y,幂函数曲线:y=axb,a0 b0,x,y,b1,b=1,b1,曲线模型的判别方法:,理论和经验判断;,观察散点图,曲线模型的确定方法:,通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。,例如:双曲线模型,指数曲线模型,9.4 变量间非线性关系的回归,一些常用的可化为线性方程的函数类型 双曲线,a0 b0,a0 b0,x,x,y,y,幂函数,a0 b0,x,y,b1,b=1,b1,b0,b0,x,x,y,y,指数函数,对数曲线,多项式,曲线模型的判别方法:,理论和经验判断;,观察散点图,