logo821.gif (10572 bytes) 首頁          新增資料與公告

最新消息:

科學研究的系統化誤差

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
授課資料
人文關懷
無官御史台
智能生物產業
蘭花產業
蘭界感言篇
活動公告區
Orchids Cultivation

 

 

統計軟體的誤用

 

中興大學 生物系統工程研究室  陳加忠

 
 

隨著電腦的大量使用,統計軟體也為之普及化。多功能而且複雜的套裝軟體有SASSPSSSigmaStat等,而在EXCEL內建指令中也有統計之應用軟體。由於電腦與套裝軟體的方便,只要輸入數據,電腦自動運算而且列出計算結果。這種方便性,反而造成研究人員的誤解,認為電腦是萬能。可以替研究人員進行統計分析,此研究者只要依據計算結果進行解釋即可。這種誤解在1973即有學者提出警告。由下篇論文可得到四組數據:

AnscombeF.J.1973.Graphs in statistical analysis Am. Stat.27(1):17-21

此四組數據如表一,分別以試驗一,試驗二,試驗三與誨驗四加以表示。如果對此四組數據不進行任何分析,純粹以EXCEL軟體中「資料分析」指令內「迴歸」運算加以執行統計分析,其結果如表二,表三,表四與表五。

由於現代電腦之運算位址大為增加,表二~表四之統計結果有細微之不同,但是小數點加以四捨五入,可以發現完全相同的迴歸分析結果。

Y = 18.0 + 0.5XR2 = 0.666,標準差s = 7.42。以ANOVA進行分析,F(1, 9) = 18.0, p = 0.0022

直線迴歸公式為y = b0+ b1Xb0為截距,標準誤差為6.75t值為2.67 b1為斜率,標準誤差為0.118t值為4.24

四組數據的線性迴歸結果幾乎相同,但是由YiXi之分佈圖與線性迴歸殘差圖可以得到驚人的差異。

由圖1可知,Y1X1為線性分佈,圖5的殘差圖顯示殘差值沿著y = 0之兩側均勻分佈,因此線性迴歸可以用以說明Y1X1的關係。

2顯示,Y2X2為一多項式由線,線性迴歸的結果,b0b1值雖然由t檢定代表顯著(不等於零),但是由圖6殘差圖的分佈,代表線性迴歸公式無法代表Y2X2之關係,必須採用更高階的多項式。

3Y3X3的量測值有一離群值(onfliers),此離群值嚴重影響了R2s值。圖7之殘差圖也明顯的顯示此離群值。在X3 = 78Y3 =76.44此量測點需要再進行測試。

4代表不洽當的數據分佈,在所有的11個數據群,有10個數據群是X4 = 48Yi為不同數值的量測結結果,另一個獨特的數據為(11475),與其他10點數據相距很大。稱為影響點(influence point)。由圖8殘差分佈圖更是明顯。有可能此數據點(11475)與其他數據(48Xi)為來自兩組不同母群的量測點。因此需要更多量測數據加以瞭解YiXi之關係。

Anscombe先生其論文的四組數據,可以說明如果無統計學的基礎,純粹以電腦軟體運算,此四組數據都得到相同的結論,Y = 18.0 + 0.5X之線性式。但是以殘差圖分析即可顯示線性迴歸的不適當。有關outlierinfluence point的判別更需要深入的統計學理。而且Anscombe先生之數據是可繪出於YiXi之平面圖。在多變方分析(YiX1X2,…Xk),則無法使用平面圖進行判讀。

由於統計軟體的普遍性與方便性,統計往往被誤用(Misuse)或濫用(Abuse)。有心從事研究的學術人員,只有一條路,腳踏實地好好研修統計學。

 

表一 四組數據

Exper. 1

 

Exper. 2

 

Exper. 3

 

Exper. 4

X1

Y1

 

X2

Y2

 

X3

Y3

 

X4

Y4

30

34.08

 

42

43.56

 

54

42.66

 

48

46.26

48

41.7

 

48

48.84

 

24

32.34

 

114

75

78

45.48

 

60

54.84

 

72

48.9

 

48

39.48

36

43.44

 

30

28.44

 

66

46.86

 

48

33.36

24

25.56

 

66

55.56

 

60

44.76

 

48

53.04

54

52.86

 

24

18.6

 

78

76.44

 

48

31.5

60

48.24

 

36

36.78

 

42

38.52

 

48

34.56

42

28.92

 

54

52.62

 

48

40.62

 

48

50.82

66

49.88

 

72

54.78

 

30

34.38

 

48

47.46

84

59.76

 

84

48.6

 

36

36.48

 

48

41.34

72

65.04

 

78

52.44

 

84

53.04

 

48

42.24

  

表二 試驗一之線性迴歸結果

R12 = 0.666177s1 = 7.421222

 

自由度

SS

MS

F

顯著值(P)

 

迴歸

1

989.1602

989.1602

17.96039

0.002181

 

殘差

9

495.6709

55.07454

 

 

 

總和

10

1484.831

 

 

 

 

 

 

 

 

 

 

 

 

係數

標準誤

t 統計

P-

下限 95%

上限 95%

截距

18.00782

6.749938

2.667849

0.025713

2.738397

33.27724

X 變數 1

0.499788

0.117931

4.23797

0.002181

0.23301

0.766566

  

表三 試驗二之線性迴歸結果

R22 = 0.666242s2 = 7.423282

 

 

自由度

SS

MS

F

顯著值(P)

 

迴歸

1

990

990

17.96565

0.002179

 

殘差

9

495.9465

55.10516

 

 

 

總和

10

1485.946

 

 

 

 

 

 

 

 

 

 

 

 

係數

標準誤

t 統計

P-

下限 95%

上限 95%

截距

18.00545

6.751814

2.666758

0.025759

2.731789

33.27912

X 變數 1

0.5

0.117964

4.23859

0.002179

0.233147

0.766853

 

 

 

表四 試驗三之線性迴歸結果

R32 = 0.666324s3 = 7.417868

 

 

自由度

SS

MS

F

顯著值(P)

 

 

迴歸

1

988.9203

988.9203

17.97228

0.002176

 

 

殘差

9

495.2229

55.02477

 

 

 

 

總和

10

1484.143

 

 

 

 

 

 

 

 

 

 

 

 

 

 

係數

標準誤

t 統計

P-

下限 95%

上限 95%

 

截距

18.01473

6.746887

2.67008

0.025619

2.752208

33.27725

 

X 變數 1

0.499727

0.117878

4.239372

0.002176

0.233069

0.766385

 

 

 

表五 試驗四之線性迴歸結果

R42 = 0.666707s4 = 7.414173

 

 

自由度

SS

MS

F

顯著值(P)

 

迴歸

1

989.64

989.64

18.00329

0.002165

 

殘差

9

494.7296

54.96996

 

 

 

總和

10

1484.37

 

 

 

 

 

 

 

 

 

 

 

 

係數

標準誤

t 統計

P-

下限 95%

上限 95%

截距

18.01036

6.743526

2.670763

0.02559

2.755447

33.26528

X 變數 1

0.499909

0.117819

4.243028

0.002165

0.233384

0.766434

 

1. Y1X1之分佈圖

 

2. Y2X2之分佈圖

 

3. Y3X3之分佈圖

 

4. Y4X4之分佈圖

 

5. Y1X1線性迴歸之殘差圖

 

6. Y2X2 線性迴歸之殘差圖

 

7. Y3X3 線性迴歸之殘差圖

 

8. Y4X4 線性迴歸之殘差圖