CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf

上传人:Iclinic170 文档编号:634562 上传时间:2018-12-22 格式:PDF 页数:25 大小:413.45KB
下载 相关 举报
CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf_第1页
第1页 / 共25页
CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf_第2页
第2页 / 共25页
CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf_第3页
第3页 / 共25页
CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf_第4页
第4页 / 共25页
CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、1 印行年月94年10月 本標準非經本局同意不得翻印 中華民國國家標準 CNS 總號 類號 ICS 03.120.30 Z406214788經濟部標準檢驗局印行 公布日期 修訂公布日期 92年11月27日 年月日 (共25頁)多變量分析指導綱要 Guideline for multivariate analysis 目 錄 頁數 1. 適用範圍- 2 2. 用語釋義- 2 3. 主要內容- 2 3.1 判別分析 (Discriminant Analysis) - 3 3.1.1 概述- 3 3.1.2 符號說明- 3 3.1.3 基本原理- 3 3.1.4 計算步驟- 5 3.1.5 應用實例

2、- 6 3.1.6 注意事項-10 3.2 主成分分析(Principle Component Analysis) -11 3.2.1 概述-11 3.2.2 基本原理-11 3.2.3 方法與公式-11 3.2.4 計算步驟-12 3.2.5 應用實例-14 3.2.6 注意事項-15 3.3 因素分析(Factor Analysis) -16 3.3.1 概述-16 3.3.2 基本原理-16 3.3.3 方法與公式-17 3.3.4 計算步驟-19 3.3.5 應用實例-19 3.3.6 注意事項-21 4. 引用資料-22 附錄1 -23 附錄2 -25 2 CNS 14788, Z

3、4062 1. 適用範圍:多變量統計分析 (Multivariate Statistical Analysis)簡稱多變量分析,用於處理品質環圈 (quality loop)中各階段多變數資料之統計方法,尤其在市場研究 (例如消費者行為分析 ),複雜生產製程 (如 IC 生產流程 )之監控及良率分析皆扮演十分重要的分析工具。其他如醫院、社會現象、教育、生物科技、環境保護等亦被廣為採用。 2. 用語釋義 (1) 主成分分析( principal component analysis,簡稱 PCA)是一種經由原先資料變數之線性組合所建構出來的 少數主要成分 (principal component

4、s),用來合理的解釋資料中所有變數之總變異量 (variance) ,並達到資料簡化目的之統計方法。 (2) 因素分析 (Factor analysis)是探討如何將眾多變數 分解成少數不能直接觀測到的共同因素 (common factor)及獨特因素 (specific factors),並經由少數共同因素來解釋原先 資料中變數間變異數 -共變異數 (variance-covariance)的結構性質的統計模型。 (3) 判別分析 (discriminant analysis)是針對數個母群體 (populations)內解釋 (或預測)變數之間的差異性,進行分析,並建立母群體的合適分類 (

5、classification)模型,進而將特定觀測值分類到適當母群體的統計方法。 3. 主要內容 一般來說,變數可劃分成二大類:因變數 (dependent variables)及自變數 (independent variables)。若資料集同時存在有自變數及因變數,且研究的目的是希望利用自變數來對因變數做預測及推論時,此統計稱之為變數關連性模型。反之,若資料集只存在有眾多自變數,且研究的目的是希望將眾多資料化繁為簡,且不 犧牲資料的資訊,此統計稱之 為資料集簡化模型。著名的變數關連性模型方法有迴歸分析(Regression analysis)、聯合分析 (conjoint analysis

6、)、多變量變異數分析 (Multivariate analysis of variance)、判別分析 (Discriminant analysis)、典型分析 (Canonical analysis)等,其可協助研究人員達到預測推論之研究目的。此外,資料集簡化模型有主成分分析 (principal component analysis) 、因素分析 (factor analysis) 、多尺度分析(Multi-dimensional scaling)及群集分析 (cluster analysis)等,其可協助研究人員達到(1)資料簡化 (2)群體分類與分群之研究目的 本標準乃針對判別分析、主

7、成分分析及因素分析等三種方法加以介紹 (參閱圖 1)。其他方法有興趣的讀者可參考文獻中 1, 9部分。 3 CNS 14788, Z 4062 3.1 判別分析 3.1.1 概述 判別分析係針對數個母群體內 自變數資料之間的差異特性,建立母群體的判別模型,進而將特定觀測值分類 (classify)到適當母群 體的統計方法。典型例子如下:醫生分別對正常人及患有肝病的病人進行血液中 GOT 值及GPT 值之差異性分析,並建立適當判別模型,做為診斷是否罹患慢性肝病的重要參考依據。由於此統計 方法計算較複雜,因此先介紹其基本原理並將配合統計套裝軟體來輔助說明求解步驟。 3.1.2 符號說明 假設資料集

8、有 g 個母群體,每個母群體有 p 個自變數, i :第 i 個母群體, .g,i L1= x :包含有 p 個自變數之行向量, txxxp),(1L= im:第 i 個母群體的樣本平均向量 (Sample mean vector) iS :第 i 個母群體的樣本共變異矩陣 (Sample covariance matrix) iS :iS 的行列式 (determinant) pS : g 個母群體的合併樣本共變異矩陣 (pooled covariance matrix) )x(Di:觀測值x 到母群體i 的統計距離, g,i L1= 備考:為易於瞭解本標準符號意義,可先參閱第 3.1.5

9、節實例說明。 3.1.3 基本原理 (1A ) 馬氏距離 (Mahalanobis distance) 多變量分析 變數關連性模型 (dependence models) 資料集簡化模型 (interdependence) 判別分析 (1) 馬氏距離 (2) 線性判別分析 (3) 二次判別分析 (4) 判別函數分析準則 主成分分析 (1) 多變量線性函數 (2) 主成分的求法 (3) 主成分的解釋 (4) 貢獻率的求法 因素分析 (1) 直交因素模型 (2) 主成分因素的求法 (3) 因素轉軸 (4) 因素的解釋 (5) 因素得分 圖 1 多變量分析內容架構圖 4 CNS 14788, Z 4

10、062 判別分析中,假設 g 個母群體共變異矩陣相同下,觀測值x 到第 i 個母群體 ( 樣本平均向量im 及樣本共變異矩陣pS ) 之統計馬氏距離 (Mahalanobis distance) 定義如下: .g,i),mx(S)mx()x(DipiiL1 1=(1) 若pS =pI ,則 )mx()mx()x(Diii= 為一般我們所熟悉的歐氏距離。 直觀的分類法則 (classification rule) 如下: 將0x 分類到i ,若且唯若 )x(Dmin)x(Djgji010= (2) 以圖 2 為例,0x 到3 之馬氏距離較0x 到1 及2 為短,因此我們可將0x分類到3 。 圖

11、2 2 (1B ) 線性判別分析 (Linear Discriminant Analysis) 因為 )x(Di可以展開成下式 ,g,i ,xSxmSmxSm)x(DpipipiiL1212111=+=若定義 g,i ,)mSm(xSm)x(CipipiiL12111=(3) 則公式 (2)可改寫成如下: 將0x 分類到i ,若且唯若 )x(Cmax)x(Cjgji010= (4) 0x13 5 CNS 14788, Z 4062 公式 (3) 中,若令11),.,(=pipSmaaa 且 )mSm(bipi121= ,則b)xa.xa()x(Cppi+=11。 由於 )x(Ci為x 的一階線

12、性函數,因此,上述判別分析稱為線性判別分析 (Linear Discriminant Analysis)。 (1C ) 二次判別分析 (Quadratic Discriminant Analysis) 實際狀況下, g 個母群體的共變異 矩陣不一定全部相同。此時馬氏距離的修正式可定義如下: iiii*iSln)mx(S)mx()x(D +=1(5) 且公式 (2)的分類準則可修改成如下: 將0x 分類到i 若且唯若 )x(Dmin)x(D*jgj*i010= (6) 公式 (5)中, )mx(S)mx(iii1可以表示為x 之二次函數,因此上述判別分析簡稱為二次判別分析 (Quadratic

13、Discriminant Analysis). (1D ) 判別函數的評估準則 一般來說,我們可經由判別函數錯誤分類的比率,來評估判 別法則之優劣。 令 )j|i(MC 表示資料來自j 而被錯誤分類到i 的個數,則 )nn/()j|i(MCMCRgji+=L1(7) 表示樣本總錯誤分類比率值,若 MCR 愈小,表 示判別效果愈佳。因此選用公式 (4)或公式 (6)來進行判別分析,可以其 MCR 做挑選準則。 3.1.4 計算步驟 (1) 計算個別母群體gii 1= 的樣本平均向量,樣本共變異矩陣及合併共變異矩陣。若iX 表示第 i 個群體之自變數資料集合,亦即 =pniipniiniiixxx

14、xxxXLLMMLLLL1221111,( 1 i g), 且 111=ppJ M , pppI*1001= O 則 6 CNS 14788, Z 4062 ( a) ()piiJXnm =1, ( b) X)JJI(X)(Sippnpini=11, gi L,1= ( c) ()gpSSgS += L11(2) 計算公式 (3)及公式 (5)之 )x(Ci0及 )x(Di0,並分別利用公式 (4)及公式 (6)進行判別分析。 (3) 利用分類矩陣 (classification matrix) 及其 MCR 值來評估判別分析之好壞。 3.1.5 實例說明 某管理學院想依照申請入學者 的成績表

15、現來建立一套判斷某申請者是否錄取的評估準則。經初步研究,申請者的在校成績 (1x )及其 GMAT 考試成績(2x )是決定申請者能否錄取的重要預測變數。今隨機從過去的申請案件中,抽出 85 位個案,其中共有 31 位錄取, 28 位不錄取, 26 位備取,其對應的資料如表 1。決策者希望 依據上述資料建立適當的判別法則並討論其正確分類之比率。此外,若有一申請人的 (0201, xx )t=(2.96, 595),試依照上述分類法則判斷此申請人是否錄取。 7 CNS 14788, Z 4062 表 1 管理學院申請入學者的在校成績 )(1x 及 GMAT )(2x 成績 1 (錄取 ) 2 (

16、不錄取 ) 3 (備取 ) 1x 2x 1x 2x 1x 2x 29.6 596 2.54 446 2.86 494 3.14 473 2.43 425 2.85 496 3.22 482 2.20 474 3.14 419 3.29 527 2.36 531 3.28 371 3.69 505 2.75 542 2.89 447 3.46 693 2.35 406 3.15 313 3.03 626 2.51 412 3.50 402 3.19 663 2.51 458 2.89 485 3.63 447 2.36 399 2.80 444 3.59 588 2.36 482 3.13 41

17、6 3.30 563 2.66 420 3.01 471 3.40 553 2.68 414 2.79 490 3.50 572 2.48 533 2.89 431 3.78 591 2.46 509 2.91 446 3.44 692 2.63 504 2.75 546 3.48 528 2.44 336 2.73 467 3.47 552 2.13 408 3.12 463 3.35 520 2.41 469 3.08 440 3.39 543 2.55 538 3.03 419 3.28 523 2.31 505 3.00 509 3.21 530 2.41 489 3.03 438 3

18、.58 564 2.19 411 3.05 399 3.33 565 2.35 321 2.85 483 3.40 431 2.60 394 3.01 453 3.38 605 2.55 528 3.03 414 3.26 664 2.72 399 3.04 446 3.60 609 2.85 381 3.37 559 2.90 384 3.80 521 3.76 646 3.24 467 求解步驟: (1) 先將上述資料整理後如下: 311=n 282=n 263=n 樣本平均量: 8 CNS 14788, Z 4062 =23.56140.31m , =07.44748.22m , =23

19、.44699.23m 個別母群體之樣本共變異矩陣: =2546180600600401S ,=2538911911910302S ,=9022464054050303S 合併後之樣本平均向量及共變異矩陣如下: ,.m=4548897462=903655022022040Sp(2) 線性判別分析 由上述資料代入公式 (3),可求得線性判別函數如下: =+=+=+=3170679232177217009789013312102510637240212121i ,x.xi ,x.xi ,x.x)x(Ci以=5969620.x為例, =.i 198.302i .i .)x(Ci356198129199

20、0因為 )x(Cmax.)x(C ii0310129199= ,故我們將0x 分類到i 。 (3) 計算錯誤分類比率 (MCR) 下面為此線性判別分析之分類矩陣 來自 分類 1 2 3 總數1 27 0 4 312 0 26 2 283 1 0 25 26總數 28 26 31 85由公式 (7)可以求得 MCR=(4+2+1)/(31+28+26)=8.2% 因此,其正確分類比率為 91.8%,且其錯誤分類的數據可參閱表 2 9 CNS 14788, Z 4062 表 2 線性判別函數錯誤分類表 觀測點 原母群體 被分類後母群體 群體 馬氏距離 事後機率值 (Obs) (True pop.)

21、 (Pred. Pop) (Group) (distance) Probability 2* 1 3 1 4.9246 0.120 2 13.0966 0.002 3 0.9477 0.878 3* 1 3 1 3.199 0.365 2 16.719 0.000 3 2.096 0.634 24* 1 3 1 4.803 0.477 2 16.719 0.000 3 2.096 0.634 31* 1 3 1 3.762 0.296 2 17.005 0.000 3 2.034 0.703 58* 2 3 1 21.099 0.000 2 4.329 0.245 3 2.078 0.755

22、59* 2 3 1 18.950 0.000 2 5.278 0.133 3 1.521 0.867 66* 3 1 1 6.937 0.534 2 28.744 0.000 3 7.206 0.466 若採用公式 (6)之二次判別函數進行分析,則步驟二 A 應修改如下: (4) 二次判別分析 若將上述資料代入公式 (5),可得到下列二次判別函數 =+=+=+=3 , )247.38ln(23.44699.290.224640.540.503.0)23.446 ,99.2(2 , )32.115ln(07.44748.225.389119.119.103.0)07.447 ,48.2(1 ,

23、)72.184ln(23.5614.325.461806.006.004.0)23.561 ,40.3()(211212112121121*ixxxxixxxxixxxxxDi因此, =+=+=+=3 , ln(38.247)2)23.4462(000784.0)23.4462)(99.21(2823.02)99.21(74.582 , ln(115.32)2)07.4472(00026.0)07.4472)(48.21(0206.02)48.21(47.331 , ln(184.72)2)23.5612(0002165.0)23.5612)(4.31(0006496.02)40.31(00.

24、25)(*ixxxxixxxxixxxxxiD(5) 計算錯誤分類比率 (MCR) 下面此二次判別函數之分類矩陣 (classification matrix): 10 CNS 14788, Z 4062 來自 分類 1 2 3 總數1 30 0 1 312 0 27 1 283 1 0 25 26總數 31 27 27 85由公式 (7)可以求得其錯誤分類比率為 MCR=(1+1+1)/(31+28+26)=3.5%. 其錯誤分類之數據可參閱表 3.1.3。 表 3.1.3 二次判別函數錯誤分類表 觀測點 原母群體 被分類後母群體 群體 馬氏距離 事後機率值 (obs.) (True pop

25、.) (Pred. Pop.) (Group) (distance) (Probability) 2* 1 3 1 8.575 0.274 2 18.341 0.002 3 6.628 0.724 59* 2 3 1 17.882 0.008 2 10.650 0.289 3 8.866 0.704 59* 3 1 1 11.01 0.826 2 35.65 0.000 3 14.12 0.174 以此例而言,二次判別值比線性判別函數之 MCR 值顯著地改善 4.7%,因此應該採用二次判別分析較恰當。 3.1.6 限制條件與注意事項 (1) 當1pS (或1iS ) 不存在時,亦即資料存在有多

26、重線性重合 (multi-collinearity)之現象時,此時上述判別分析將無法進行。研究人員應該將自變數之間的高相關現象排除。第 3.2 節主成分分析是克服變數間高度相關的統計方法。 (2) 在第 3.1.3 節之分析中,皆假設資料沒有任何事前資訊 (prior information),若資料來自i 的事前機率已知,我們 通常可合理的假設資料來自多變量常態分配,並由其事後機率來建構分類法則,有興趣的讀者,請參閱附錄 (3.1)。 (3) 若線性判別函數之 MCR 值與二次判別函數之 MCR 值差異不大時,我們建議讀者可採用線性判別函數來進行分析,其優點是簡單清楚且容易解釋。 (4) 在

27、實際問題中,如果我們所面臨的解釋變數之個數頗多,此時,我們可 11 CNS 14788, Z 4062 以類似逐次 (stepwise) 迴歸分析之處理方式,採用逐次判別分析來克服上述困難。詳細內容可參閱 SAS/STAT users manual. 3.2 主成分分析 3.2.1 概述 從事任何數據分析,經常面臨 的問題是如何將眾多資料變數給於適當的精簡。所謂主成分分析( principal component analysis,簡稱 PCA)是一種經由原先資料變數之線性函數所建構出來的主 ( 要 ) 成分( principal components)它可被用來解釋資料中變異數 -共變異數(

28、 variance-covariance)之結構性質,並達到資料簡化 之統計方法。舉一實例說明如下:十項運動的項目有 100m、 400m、 1500m、 110m 跨欄、跳高、跳遠、鉛球、鐵餅、標槍及撐竿跳。很明顯地,此 十項運動項目並非完全獨立,它們可能受某些主 (要 )成分( components)的影響。因此,如果我們找出好的十項運動選手必備的主 (要 )成分,進而以此訓練選手,當可達到事半功倍之效果。 3.2.2 符號說明 X :一隨機向量包含 p 個變數 :隨機向量X 的母體平均數 :隨機向量X 的母體共變異數矩陣 S:隨機向量X 的樣本共變異數矩陣 i :的第 i 個特徵值 (e

29、igen-value), p, , 1 L=i ie :的第 i 個特徵向量 (eigen-vector), p, , 1 L=i ie : S 的第 i 個特徵向量 (eigen-vector), p, , 1 L=i Pic :為X 的第 i 個主成分, p, , 1 L=i iPC為X 的第 i 個樣本主成分, p, , 1 L=i 3.2.3 基本原理 (2A ) 主成分 (Principal components) 令X=(X1,.,Xp)為一含有 p 個變數的隨機向量且假設其平均數及共變數矩陣分別為及 ,若 PC 為X 的一種線性轉換函數,亦即 ).(11ppXlXlXlPC +=

30、 (8) 則 PC 的變異數 (variance)可表示如下: Var (PC) = l l (9) 顯而易見,若l l 愈大,則表示資料經轉軸後皆能散佈在此新資料軸上,亦即表示 PC 解釋資料的總變異之能力愈強。然而 Var (PC)會隨l 之 12 CNS 14788, Z 4062 增大而增大,因此,我們希望在1l =1 之限制下,找尋一適當的向量1l 使得 Var(1Xl )為極大。 若存在此一組向量1l ,則我們稱此 PC1 (=1lX )為X 之第一個主要成分 (first principal component)。同理,若同時存在有另外一組向量2l 使得1l與2l 相互獨立 (亦

31、即1l2l =0)且 var(Xl2)可達極大化,則此 PC2(=2Xl ) 稱為X 之第二個主成分 (second principal component),依此類推,若同時存在il使得il與 (11,.,ill )皆為互相獨立 (亦即 iljl=0,j=1,.,i-1)且Var ( ilX )可達極大化,則此iPC(= ilX )稱為X 之第 i 個主成分。 (2B ) 主成分之求法 下面我們介紹求主成分之方法: (1) Case( ): 已知 對任何一個矩陣 而言,若存在一向量e 使得 e e (10) 則( ,e )稱 為 之特徵值 (eigen-value) 及特徵向量 (eigen

32、-vector)。 若 為一 p 階正定 ( positive definite) 矩 陣,令 (p ,1L ) 及 (pee1,L ) 分別代表 之 p 個特徵值及特徵向量,參閱 Johnson out=clear;“; options nodate nonotes ps=60; data fact1; input pop school employ health value; cards; 5.935 14.2 2.265 2.27 2.91 1.523 13.1 0.597 0.75 2.62 2.599 12.7 1.237 1.11 1.72 4.009 15.2 1.649 0.8

33、1 3.02 4.687 14.7 2.312 2.50 2.22 8.044 15.6 3.641 4.51 2.36 2.766 13.3 1.244 1.03 1.97 6.538 17.0 2.618 2.39 1.85 6.451 12.9 3.147 5.52 2.01 3.314 12.2 1.606 2.18 1.82 3.777 13.0 2.119 2.83 1.80 1.530 13.8 0.798 0.84 4.25 2.768 13.6 1.336 1.75 2.64 6.585 14.9 2.763 1.91 3.17 ; proc factor data=fact1 nfactors=2 simple corr rotate=var title3 Principal Component Analysis; run; proc print data=score1; run; proc gplot data=score1; plot factor1*factor2; run;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 标准规范 > 国际标准 > 其他

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1