CNS 14787-2003 Guidelines for regression analysis《回归分析指导纲要》.pdf

资源描述

1、 1 印行年月 94 年 10 月本標準非經本局同意不得翻印中華民國國家標準 CNS 總號類號 ICS 03.120.30 Z406114787經濟部標準檢驗局印行公布日期修訂公布日期 92 年 11 月 27 日年月日 (共 44 頁 )迴歸分析指導綱要 Guidelines for regression analysis 目錄頁數 1. 適用範圍 - 3 2. 用語釋義 - 3 3. 主要內容 - 3 3.1 簡單直線迴歸模型 - 5 3.1.1 概述 - 5 3.1.2 原理與背景 - 5 3.1.3 方法與公式 - 5 3.1.3.1 相關分析 - 5 3.1.3.2

2、最小平方法 - 7 3.1.3.3 常態誤差迴歸模型 - 8 3.1.3.4 迴歸分析的推論 - 8 3.1.3.5 變異數分析法 -11 3.1.3.6 判定係數與相關係數 -12 3.1.3.7 迴歸模型之診斷與矯正 -13 3.1.4 步驟 -14 3.1.4.1 相關係數的檢定步驟 -14 3.1.4.2 估計0 和1 的步驟 -15 3.1.4.3 0 和1 的推論步驟 -15 3.1.4.4 估計 E(yh|xh) 的 100(1- )%信賴區間步驟 -17 3.1.4.5 估計 y0|x0的 100(1- )%預測區間步驟 -17 3.1.4.6 變異數分析法的步驟 -18 3.

3、1.4.7 計算判定係數與相關係數之步驟 -19 3.1.4.8 殘差圖建立的步驟 -19 3.1.5 限制條件與注意事項 -20 3.1.6 應用實例 -20 3.1.7 高次迴歸模型實例說明 -25 3.2 複迴歸分析 -28 3.2.1 概述 -28 3.2.2 原理與背景 -30 2 CNS 14787, Z 4061 3.2.3 方法與公式 - 28 3.2.3.1 複迴歸模型之估計 - 28 3.2.3.2 變異數分析 - 29 3.2.3.3 迴歸分析的推論 - 30 3.2.3.4 複判定係數與偏相關係數 - 31 3.2.3.5 複迴歸模型之診斷與矯正 - 32 3.2.4

4、步驟 - 34 3.2.4.1 複迴歸模型之估計步驟 - 34 3.2.4.2 變異數分析法的步驟 - 35 3.2.4.3 建立i 的 100(1 )%信賴區間步驟 - 35 3.2.4.4 i 的檢定步驟 - 35 3.2.4.5 建立新觀測值0Y 之 100(1 )%預測區間步驟 - 36 3.2.4.6 建立新觀測值0Y 之 100(1 )%預測區間步驟 - 36 3.2.4.7 判定係數與偏相關係數的計算步驟 - 37 3.2.4.8 殘差圖建立的步驟 - 37 3.2.5 限制條件與注意事項 - 38 3.2.6 應用實例 - 38 4. 引用資料 - 42 5. 附錄 - 43

5、3 CNS 14787, Z 4061 1. 適用範圍目前，在所有的資料分析方法中，迴歸分析或許是最常被用到的方法。此方法可以廣泛被應用在工商業，社會科學，生物科學及其他領域上。迴歸分析在應用上有四種主要用途： (1) 預測：利用已知的自變數可使用建立的統計關係預測因變數。 (2) 篩選變數：即決定影響因變數的重要自變數，以做為未來研究的實驗變數。 (3) 模型描述：即決定最好的迴歸模型以有效的說明因變數與自變數之統計關聯。 (4) 參數估計：即利用隨機獲得的樣本資料配適迴歸模型。 2.用語釋義 (1) 迴歸分析：是一種利用多個數量型變數間之關係，使得其中一個變數 y(或稱因變數、反應變數

6、 ) 可以用另一個或其他多個變數 (x1,x2,xk)(或稱自變數、預測變數、迴歸變數 )預測的統計方法。 (2) t 分佈：以 0 為中心的對稱分佈，不同自由度有不同的分佈。 (見 CNS 8461) (3) F 分佈：為右偏分佈， F 分佈決定於兩個自由度，不同自由度有不同的 F 分佈 (見CNS 10674)。 (4) 信賴區間：一個區間用以說明包含未知母體參數的真實值之可靠程度。 (見 CNS 8747) (5) 信賴係數 (或信賴度， (1- )%)對於估計出來的區間包含未知母體參數的真實值之信心度。 (見 CNS 8747 註 5) 3. 主要內容當產品之重要品質特性值多落在規格

7、界限之外時，品質工程師必須腦力激盪探討影響此問題的重要因素，並進一步收集資料以決定這些重要因素與品質特性的統計關係。並利用此統計關係，品質工程師可以 (1)利用統計推論方法判斷此統計關係是否需要修正； (2)估計或預測各重要因素在特定值下的品質特性值，以做為如何改善產品品質的決策參考。上述重要因素在迴歸分析裡稱為自變數，而品質特性為因變數。若 (1)自變數個數只有一個，則須進一步由因變數對自變數的散佈圖或相關分析決定其是否存在統計關係； (2)散佈圖顯示無統計關係或相關係數太低則不需配適迴歸模型； (3)散佈圖顯示統計關係或相關係數不低則需配適迴歸模型； (4)散佈圖呈直線關係則應配

8、適簡單直線迴歸模型，有關簡單直線迴歸模型之估計與推論見第 3.1 節；（ 5）散佈圖呈非直線關係則應配適高次迴歸模型，有關高次迴歸模型之估計與推論應用實例同見第 3.1 節；（ 6）自變數個數至少有二個，則須配適複迴歸模型；有關複迴歸模型之估計與推論見第 3.2 節。本節內容架構見圖 1。 4 CNS 14787, Z 4061 圖 1 內容架構圖 k=1 k 2 決定 y 與 x1之統計關係決定 y 與 xi之統計關係決定影響因變數 (y)的自變數 (x1,x2,xK,)收集或取得樣本資料，建立 y 與 x1之散佈圖決定 y 與 xi之統計關係 Y 與 x1呈非直線關係Y 與 x

9、1呈直線關係決定複迴歸模型配適高次迴歸模型（本版未含此模型）配適簡單直線迴歸模型 (1)迴歸分析的推論(2)變異數分析 (3)判定係數計算迴歸模型診斷與矯正迴歸分析迴歸分析的推論變異數分析判定係數計算 , (1)迴歸分析迴歸分析的推論 (2)變異數分析 (3)判定係數計算配適複迴歸模型迴歸模型診斷與矯正迴歸模型診斷與矯正是否為直線關係？ 5 CNS 14787, Z 4061 3.1 簡單直線迴歸模型 3.1.1 概述當散佈圖顯示因變數與自變數是直線相關時，我們用最小平方法配適簡單直線迴歸模型。配適迴歸模型所用的樣本資料必須合適模型假設，故須對模型做診斷與矯正。最後

10、則是有關迴歸模型之迴歸分析。 3.1.2 原理與背景簡單直線迴歸模型是最簡單的迴歸結構。簡單意謂只有一個迴歸變數，而直線是指與因變數 y 是直線相關。所以簡單直線迴歸模型表示為 +=10y (3.1.1) 其中， y 為因變數 0 為截距 1 為斜率為已知固定值為模型誤差。 10 , 為未知的常數，稱為迴歸係數。1 表示使 y 增加或減少的效果。表示 y 無法被迴歸變數 ( )解釋的部分。當一組隨機樣本 )y,),(y ,( ,)y ,(nn2211被取得，則模型 (3.1.1)表示為 iiiy +=10(i = 1,2,n), (3.1.2) 模型中參數0 和1 通常是未知

11、的，但是利用最小平方法可以找到其良好估計量，接著可對參數0 ，1 和迴歸模型做推論。 3.1.3 方法與公式 3.1.3.1 相關分析在配適迴歸模型前應做相關分析以判斷自變數和因變數是否存在統計關係。當自變數和因變數存在統計關係，則應進一步配適迴歸模型，否則不配適迴歸模型。直線相關時，兩個連續變數之間的關係，稱為簡單相關。連續變數之間的關係可以是直線相關，也可以是非直線相關。兩變數間是否存在直線關係，可以觀察 ( yx, )點子在散佈圖上的變化見圖 2： (a) (g)。 6 CNS 14787, Z 4061 圖 2(a) (g) 兩變數相關關係 (a) 正直線相關 (b) 負直線

12、相關 y x x yxx x x xx x x xx x x xx xx xx x x (c) 完全正相關 (d) 完全負相關 y x yx x x x x x x x x x x (e) 無直線相關 (f) 無直線相關 y x x yxx x x x x x x x x x x x x x x x x x xx x x xxxx x x x xx x x x (g) 無直線相關 y x x x x x x x x x x x x x x x 7 CNS 14787, Z 4061 當一變數之高數值傾向於結合另一高數值之變數，而一變數低數值則傾向於結合另一低數值之變數，則稱此兩個變數呈正相關。

13、而若一變數之高數值與另一變數之低數值結合，一變數之低數值與另一變數之高數值結合，則稱負相關。若各觀測點分佈在一條直線上，則稱兩個變數完全相關。衡量兩變數間直線相關之程度與方向的統計量，稱為樣本相關係數 r，r=( )( )()()22yyxxyyxxiiii。 (3.1.3) r 為正值表示正相關，負值表示負相關，零表示無直線關係， 1=r 表完全正相關， 1=r 表完全負相關。 3.1.3.2 最小平方法 (1) 迴歸模型假設在下列迴歸模型假設下，利用最小平方法可找到參數0 和1 的良好估計量，進而得到估計的迴歸模型。迴歸模型假設為 a. i 是固定值 b. i 是隨機變數，期望值為

14、0 ，即 ( 0= )(i)，且變異數為常數2= )(V(i)。 c. 誤差間是互不相關的，即 0= ),(Covji, ji 。 (2) 最小平方法最小平方法對 n對觀察值 ,n,i),y,(ii21= 考慮iy 與其期望值之離差平方之和，2101)(iiniy +=，繼而找出使離差平方和最小的0和1 的估計值0 和1 。以最小平方法獲得的估計量0 和1 如下： ()()()nxxnyxyxyyiiiiiiiiiiiiii,)(2221= (3.1.4) nxnyxyyniiiiii,11110= (3.1.5) 其中nyy nxxiiii= , 。於是估計的迴歸函數表示為 xy10+=

15、。 (3) 最小平方估計量的性質在上述的模型假設下，可推導得估計量0 和1 的期望值和變異數為： 8 CNS 14787, Z 4061 11= (3.1.6) 00= (3.1.7) ()= =iiiinxxxxV222212)()(3.1.8) ()+= +=nxxxnxxxnViiiiii2222222)()(1)(1(3.1.9) 由於和1 是0 和1 之不偏估計量，且1 和0 都是諸 yi的線性組合，所以由 Gauss-markov定理可知，在所有不偏線性估計量中，1 和0 的變異數最小。 3.1.3.3 常態誤差迴歸模型不論誤差項i 的分佈服從何種型式，最小平方估計量0

16、和1 具不偏性且變異數最小。但是要對參數0 和1 做推論，則須假設i 為常態分佈，即i 為獨立 ( )2,0 隨機變數。 3.1.3.4 迴歸分析的推論考慮簡單直線迴歸模型 iiiy +=10(3.1.2) 其中， 0 和1 為參數； i 為已知固定值； i獨立且服從 ( )2,0 。 (1) 1 的推論我們常對模型 (3.1.2)中的斜率，1 ，之推論有興趣。因為研究者常想知道 x和 y之間是否存在直線關係，和若自變數 x 會影響 y 則對 y 有多大影響。所以須對1 做推論，有關1 的推論包括假設檢定和信賴區間估計。 a. 1 的抽樣分佈由於誤差i 為常態分佈，故1 之抽樣分佈為常態

17、分佈，即 ()2211,i(3.1.10) 9 CNS 14787, Z 4061 b. 1 的樣本估計標準誤差未知常數2 之不偏估計量為誤差均方 MSE，故1 的樣本估計標準誤差為 ()21=iMSEse ，其中2210=nyMSEii(3.1.11) 因此，欲檢定 0:10= vs 0:11 若檢定統計量的值11*=set ( )22nt 則拒絕0H ，即 x 和 y 存在直線關係。 ( )22nt 值可查 t值表 (參見附錄 )。若檢定統計量的值 11*=set ( )22nt 則不拒絕0H ，即 x 和 y 不存在直線關係。 1 之 100(1- )%信賴區間估計為 ()nxxMS

18、Entiii2221)(2 (3.1.12) (2) 0 的推論通常我們並不對截距項0 做推論，除非當迴歸直線的範圍包含 x=0時，我們才對截距0 做推論。 a. 0 的抽樣分佈同1 的抽樣分佈，0 之抽樣分佈為常態分佈，即 +222001,in(3.1.13) b. 0 的樣本估計標準誤差同樣的，2 為未知常數，以誤差均方 MSE估計。故0 的樣本估計標準誤差為+=nxxnxnMSEseiiini222)()(10(3.1.14) 因此，檢定 0:00= vs 0:01 10 CNS 14787, Z 4061 若檢定統計量的值00*=set ( )22nt ，則拒絕0 ，即截距項應存

20、直線關係 (3) 計算nxii， =niix12，nxi2)(，nyii，iniiyx=1和 nyxinii=1(4) 將步驟 (3)帶入公式 (3.1.4)，計算1 =iiiiiiiiiiinxxnyxyx22)(5) 將1 帶入公式 (3.1.5)，計算0 =nyii-nxii1 17 CNS 14787, Z 4061 (6) 配適的迴歸模型為 xy10+= (7) 決定 x=hx 值，帶入步驟 (6)，計算 xyh|h值 (8) 計算2210=nyMSEii(9) 計算2)(nxxiih (10) 決定，由 t 值表找 )2(2nt (11) 將上述結果，帶入公式 (3.1.17)，即

21、得 )|(hhxyE 的 100(1- )%信賴區間，即 () MSEnxxnxxnntxyiiiihhh+2222)(12|3.1.4.5 估計 y0|x0的 100(1- )%預測區間步驟 (1) 一組樣本數據為 ),(11yx ,L),(22yx ),(nnyx (2) 畫 ),( yx 的散佈圖，圖型呈現 x 和 y 為直線關係 (3) 計算nxii， =niix12，nxi2)(，nyii， iniiyx=1和nyxinii=1(4) 將步驟 (3)帶入公式 (3.1.4)，計算1 =iiiiiiiiiiinxxnyxyx22)(5) 將1 帶入公式 (3.1.5)，計算0 =nyi

22、i-nxii1 (6) 配適的迴歸模型為 xy10+= (7) 決定0xx = ，並計算預測值00| xy 計算2210=nyMSEii(8) 計算20)(nxxii (9) 決定，由 t 值表找 )2(2nt (10) 將上述步驟之結果，帶入公式 (3.1.18)，即得 y0|x0的 100(1- )% 18 CNS 14787, Z 4061 預測區間，即() MSEnxxnxxnntxyiiiii+2220200)(112|3.1.4.6 變異數分析法的步驟 (1) 一組樣本數據為 ),(11yx ,L),(22yx ),(nnyx (2) 畫 ),( yx 的散佈圖，圖型呈現 x 和

23、y 為直線關係 (3) 計算nxii， =niix12，nxi2)(，nyii，iniiyx=1和nyxinii=1(4) 將步驟 (3)帶入公式 (3.1.4)，計算1 =iiiiiiiiiiinxxnyxyx22)(5) 將1 帶入公式 (3.1.5)，計算0 =nyii-nxii1 (6) 配適的迴歸模型為 xy10+= (7) 計算 SST=iiiinyy22)(， SSR= )(2221iiiinxx ，和 SSE=SST-SSR (8) 依 t 值表，計算 MSR=SSR, MSE=SSE/(n-2)，建立變異數分析表，並計算 F=MSR/MSE 值 (9) 決定，查 F 表決定

24、)2,1( nF 值 (10) 若 F 值 )2,1( nF 值，則拒絕 H0：1 =0，即 x 和 y 存在直線關係；否則 F 值 )(t.60250=2.447，故檢定結果拒絕 01= ，或 p 值 =0.0001- )(t.60250=-2.447，故檢定結果不拒絕 00= ，或 p 值 =0.066 =0.05，故檢定結果不拒絕 00= 。即截距項為 0，或直線通過原點。 (6) 估計 E(y|x)的 95%信賴區間令 x=40,帶入迴歸模型 xy 4.24.54+= ，則 y|x=40 之估計值為 = 40|xy 41.69，而 E(y|x=40)的 95%信賴區間為 ( 1

25、0.45, 72.92)。即我們有 95%信心說當溫度為 40時，平均用水量 (E(y|x=40)的真實值落在區間 (10.45, 72.92)內。 (7) y0|x0的 95%預測區間當溫度為 30時 (x0=30)，用水量的預測值為 = )30(|00xy 17.68，而用水量 (y0|x0=30 )的 95%預測區間為 ( -40.27, 75.62)。即用水量的真實值落在區間 (-40.27, 75.62)內的機率為 95%。 (8) 變異數分析法由電腦報表的變異數分析表可知 F=60.83F0.05(1,6)=5.99，故檢定結果拒絕 01= ，即溫度 x 顯著的影響用水量 y

26、且呈直線關係。由電腦報表可知判定係數 r2=0.91，這表示迴歸模式解釋力相當高。相關係數 r= 91.0 =0.95，這表示溫度與用水量具高度相關。 (9) 殘差圖的建立與模型診斷 a. 由常態機率圖，可知誤差分佈近似常態。 b. 由殘差圖可知直線迴歸模型適當。 22 CNS 14787, Z 4061 c. 由殘差對觀測順序圖可知誤差相互獨立。 d. 由 t 化殘差圖可知無極值存在。 15100500-05-10-153020100-1020Normal ScoreResiduaNormal roba ility ltofhe siuar spons is y)200150100503

27、020100-10-20Fitted Val ueResiduaResiduals Versus the Fitted Values(responseis y)876543213020100-10-20Observation OrderResidualResiduals Versus the Order of the Data(response is y )常態機率圖常態格式 -10 -15 -5常態格式 00 05 10 15殘差-20 -10 0 10 20 30 殘差對估計值圖適度值 -20 -10 0 10 20 30 殘差50 100 150200殘差對觀測順序圖觀測順序殘差

28、20 -10 0 10 20 30 1 2 3 45 6 7 8 23 CNS 14787, Z 4061 t 化殘差圖 1059585756555453510-1xT-RES(10) 相關係數的檢定 t*=91.01695.0x=6.33t025.0(6)=2.447，故檢定結果拒絕 H0： 0= 。溫度 x與用水量 y 並非不相關。 (11) 波段迴歸法例如： 10 筆資料依 x 值分為 4 組，各組之 x 和 y 之中位數如表所示。無母數迴歸曲線見圖 4。 x y x 中位數 y 中位數第一組10152521622223715 222 第二組404526227142.5 266.5

29、第三組607030832460.5 316 第四組85909536937537990 375 化殘差t 24 CNS 14787, Z 4061 圖 4 中位數 x 和中位數 y 的散佈圖無母數迴歸曲線中位數 x 3.1.7 高次迴歸模型實例說明某一合成反應的反應溫度 (x, )與製造成本 (y, $仟元 )，測定結果如下： x(反應溫度， ) 146 147 147 147 148 148 149 149 149 150 150 150 151 151y(製造成本， $仟元 ) 51 49 50 51 49 50 48 49 50 48 49 50 49 50x(反應溫度， ) 15

30、2 152 153 153 154 154 y(製造成本， $仟元 ) 50 51 50 51 52 53 以統計軟體 Minitab 執行上述數據，得如下散佈圖及報表：散佈圖 154153152151150149148147146535251504948xy廻歸方程式為 y = 3630 - 47.9 x + 0.160 x2預測值係數標準差溫度 P值常數 3630.5 702.7 5.17 0.000 X -47.920 9.361 -5.12 0.000 x20.16030 0.03117 5.14 0.000 S = 0.7512 R-Sq = 68.0% R-Sq(adj)

31、 = 64.3% 中位數y 15 42.5 60.537526622290316 25 CNS 14787, Z 4061 變異數分析來源自由度 SS MS F 值 P值廻歸 2 20.407 10.203 18.08 0.000 誤差 17 9.593 0.564 總計 19 30.000 來源自由度 Seq SS X 1 5.482 X21 14.924 (1) 0 ，1 和2 的估計值由於散佈圖呈拋物線，故配適二次拋物線迴歸模型。由 Minitab 報表知，0 =-3630,1 =-47.9，2 =0.160，故迴歸模型為y = 3630 - 47.9 x + 0.160 x2

32、 (2) 檢定 H0： 021= vs H1： 0,21不全為由變異數分析表，得 F*=18.0F05.0(2,17)=3.59，故拒絕 H0： 021= 。即溫度顯著影響製造成本，且呈二次迴歸模型。 (3) i 的 95%信賴區間 1 =-47.92 2.11*9.361，即0 的 95%信賴區間為 (-67.67, -28.17)。 2 =0.16 2.11*0.03117，即1 的 95%信賴區間為 (0.094, 0.226) 0 =3630.5 2.11*702.7，即2 的 95%信賴區間為 (2147.803, 5113.197) (4) 0 ，1 和2 之假設檢定 *t0=

33、5.17 t )17(025.0=2.11，故拒絕 H0：0 =0 t*1= -5.12 t )17(025.0=2.11，故拒絕 H0：2 =0 (5) 判定係數與相關指數由變異數分析表，得判定係數 =0.68=68%。即製造成本之變異中有 68%是可由迴歸模型所解釋的。相關指數 r= 68.0 =0.824，即表示溫度和製造成本有高度相關。 (6) 殘差圖分析 26 CNS 14787, Z 4061 a. 殘差對估計的觀測值 5251504910-1Fitted ValueResidualResiduals Versus the Fitted Values(response is y)

34、圖形顯示模式是適當的。 b. t 化殘差值MSEei對 x 15415315215115014914814714610-1x圖形顯示無異常值。 c. 殘差值觀測值 201816141210864210-1Observation OrderResidualResiduals Versus the Order of the Data(response is y)圖形顯示觀測值是獨立的適度值殘差殘差觀測順序 27 CNS 14787, Z 4061 d. 常態機率值 P-Value: 0.09410-1.999.99.95.80.50.20.05.01.001ProbabilityResidua

35、lNormal Probability Plot圖形顯示資料呈常態分佈。 3.2 複迴歸分析 3.2.1 概述當因變數 y 是同時受到兩個或兩個以上自變數 ),.,(21 kxxx 的影響時，我們須以最小平方法配適複迴歸模型，再對複迴歸模型做診斷及矯正。最後，再做迴歸分析。 3.2.2 原理與背景在實務問題中，因變數 y 常是同時受到 k 個以上 (k 2 )的自變數 ),.,(21 kxxx的影響。這時，我們可以用複迴歸模型表示其關係；ikikiiixxxy += .22110, i=1,2,n. (3.2.1) 模型中誤差 i 的假設與 3.1 節是完全一樣的。以最小平方法估計模

36、型 (3.2.1) 獲得的預測方程式可表示為kikiixxy110. += ， (3.2.2) 其中 iy 是 E(yi)之估計值， )x,.,x,x(kiii 21為 k 個自變數之觀測值，0為截距項， ),.,(0 k 為偏迴歸係數。 3.2.3 方法與公式 3.2.3.1 複迴歸模型之估計同 3.2.3.1節，本節將應用矩陣以最小平方法估計迴歸模型。設有 n組樣本數據 ),(),(),(332313222212112111yxxxyxxxyxxxkkkKKK ),(,21 nknnnyxxxKK，其迴歸模型為公式 (3.2.1)。令矩陣 X之第一行元素為 1，第二行元素為自變數 x1之 n個固定值，第 k行元素為自變數 xk之 n個固定值。令矩陣 Y之元素為因變數 y之 n個觀測值，iy 。令矩陣 B之元素為 k個迴歸係數。令矩陣之元素為 n 個誤差項i 。殘差標度 28 CNS 14787, Z 4061 即 =knn 1nk32313k22212k121 11x xx 1. . . . x . . . x x x . . .xx x . . . x x X2.111， =ny yyyY 321， =kB210，=n321，則 X， Y， B 和之關係為

展开阅读全文