logo821.gif (10572 bytes) 首頁          新增資料與公告

最新消息:

越南的4.0農業

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
授課資料
人文關懷
無官御史台
智能生物產業
蘭花產業
蘭界感言篇
活動公告區
Orchids Cultivation

 

 

好數據,壞結果

 

中興大學 生物系統工程研究室  陳加忠

 
 

這篇文章是來自M. BadertscherE. Pretsch兩位作者的評論論文 ”Bad results from good data”,發表於Trends in Analytical Chemistry , 25(11):1131-1138, 2006。文章中以實例說明分析化學研究者在數據整理最常見的錯誤。

一、線性迴歸之誤用

二、相關係數之濫用

三、數據轉換用以線性化之問題

四、不良數據能得到好結果?生物晶片的問題

一、線性迴歸之誤用

在分析化學中為了建立校正方程式,yi為量測之反應值,xi為已知的濃度,以(yi,xi)數據群配合最小平方法建立線性迴歸方程式y=a0+a1x。有許多研究論文採用此方式,但是其不合理處如下:

1.          在無濃度(x=0),y值應該為零,因此a0不存在。

2.          使用最小平方法,其假設條件是具有相同變異量。

典型的校正曲線如圖12。兩組校正數據之特點是通過原點,而且隨著樣本濃度的增加,數據(yi)的變異也為之增加。對原本數據進行對數ln (yi)轉換,新的校正曲線其預測曲線如圖3與圖4。圖1與圖3之殘差圖如圖56所示。由此呈現線性校正公式的不恰當。

研究人員使用原始數據進行線性方程式計算,往往未曾檢查數據之分佈特性,而認定數據之差異值是常數。以最小平方法計算參數之後,又未使用殘差圖以評估模式是否適用。這是線性迴歸的錯誤。

二、相關係數之濫用

統計軟體之執行結果往往呈現一個r值,代表相關係數。研究者通常認為r值愈大,迴歸方程式愈佳。因此r值接近1.0,幾手是研究人員夢寐以求的數據。而r值之真正意義度反而被忽略。r值與決定係數(coefficient of determinationR2不同,r值是代表兩個任意變數其相關的強度與方向。

在生化研究中,xi為已知濃度值,不是任意變數,因此以r值判斷迴歸公式是否適切,這是不適當的標準。對迴歸方程式而言,標準偏差s,(standard deviation of the errors)反而是更好的判別標準。

三、數據的轉換

在許多試驗中,yixi之數據佈往往不是直線。許多方程式如langmuir isotherm, Michaelis-Menten equation都是非線性。過去之研究方法是加以轉換為線性型式再進行迴歸分析。這種轉換技術有兩個錯誤:1. 誤差結構被轉換,因此變異均勻分佈特性不再存在。2. xi本身應該是無誤差之定值,轉換後反而不存在。

以下列公式加以討論

                            (1

xy為獨立與非獨立變數,αβ為參數。有兩個方法可加以線性轉換

            (2

        (3

以上述三個公式,分別執行非線性與線性迴歸,其數據分佈如圖7。結果如下:

公式

 

α

 

α信賴區間

 

β

 

β信賴區間

 

1.000

 

±0.024

 

1.000

 

±0.106

 

-0.056

 

±1.013

 

-0.662

 

±11.546

 

1.014

 

±0.516

 

1.026

 

±0.786

 

由上表可知,非線性方程式如果進行數據轉換後,再以線性迴歸之結果,其參數或許與原本非線性迴歸的參數相差不大。但是其變異數的差異極大。由信賴區間即可得知其預測能力之不足。

將數據轉換,主要的好處是可以以數據分佈圖判別是否可以線性化,但是不可以採用轉換後的數據進行線性迴歸分析。

四、好的結果來自壞數據

感測元件陣列(Sensor array),或稱電子鼻或電子舌,每年的論文為3000500篇。論文內容主要使用非選擇性(non-selective)的感測元件製成晶片,量測數據再以化學計量學加以處理。因此宣稱可同時量測多種離子。

這些研究者忽略了使用非選擇性感測元件,對於量測誤差將會強烈的放大。這種放大是來自校正公式中係數的相關性。對一組校正方程式而言,為感測器之反應值,為標準濃度,為校正係數之矩陣,代表誤差

的平均標準差為MSE,由量測誤差之變異數α2加以計算:

MSE2tr-1

Tr稱為matrix trace function

各校正方程式之參數Kij計算如下:

Kij = a k0j + (1-a) Rand (0, 1)

a為相關係數,範圍為0~0.95

不同數目的感測元件,在不同的相關程度下,對6種待測濃度其計算誤差的放大倍率如下表

感測元件數目

相關程度, a

0

0.5

0.9

0.95

6

49

329

17141

76793

12

9.8

39

987

3958

24

3.5

13.7

343

1374

 

由上述數據可知,相關程度愈高,誤差的放大愈嚴重。尤其以6元件檢測6種濃度,誤差的擴大更是明顯。唯有增加各元件的數目與加強元件的單一選擇性,才能減少誤差以增加精密性。

 

1. Phosphatidylethanol 量測之反應高度其原始數據分佈

 

2. DNA 量測之尖峰面積其原始數據分佈

 

3. Phosphatidylethanol 量測反應高度對數轉換之數據分佈

 

 

4. DNA量測尖峰面積對數轉換之數據分佈

5. Phosphatidylethanol 量測之反應高度與標準濃度以線性迴歸之殘差圖

 

6. DNA 量測之尖峰面積與標準濃度以線性迴歸之殘差圖

 

7. langmuir isotherm Michaelis-Menten equation之原數據