logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

荷蘭與 Maarel Orchids在國際市場上的突破

Westerlay Orchids的碳中和蘭花生產

農企業全面有機化的結局

 

 

數據分析與知識產業

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
生醫研究之統計方法
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區

 

 

一個非常簡單的定量數據分析指南

 

國立中興大學 生物產業機電工程學系 陳加忠

 
 

Peter Samuels

Birmingham City University

Technical Report · April 2020

DOI: 10.13140/RG.2.2.25915.36645

這個指南是什麼?

本指南的目的是幫助大學部學生、教職員工和研究人員了解分析他們在學習、教學或研究過程中,可能收集或遇到的典型定量數據的基本原則。

什麼是統計?

統計學是一門學術科目,涉及對從數據集中得出的數量進行呈現、解釋和推理。常見的統計量是中間值的度量,例如平均值、眾數和中位數,以及散佈的度量,例如範圍和標準差。

該學科有五個主要子領域:

1.描述性統計(也稱為探索性數據分析),這不涉及任何決策

2.數據挖掘。在大型數據集中尋找事先未預料到的關係的系統方法。此外數據分析應用在組織內的決策制定中使用數據挖掘。

3.時間序列分析,一種分析時間相關事件的系統方法,這些事件依賴於先前的事件(例如脈搏率或股價)。

4.統計檢驗(也稱為推論統計),這涉及對從總體樣本得出的統計量進行推理,假設事件是獨立的,並以一定的信賴度做出決策。

5.概率論,它提供了支持統計分析和決策推理的理論。

儘管統計學是數學的一個分支,但它的大部分推理都與數學非常不同。因為它不是定性,就是涉及基於概率的決策,而不是精確的數學證明。

定量研究過程

本指南偏重於描述性統計和統計測試,因為這些是大學和研究生級別所需的常見定量數據分析形式。在涉及以下階段的研究項目的背景下分析數據:

1.確定你的目標和研究問題。

2.進行文獻綜述。

3.對於原始數據研究:建立概念框架,並使用它來設計數據收集工具來收集您的原始數據。

4.對於二手數據研究:確定數據來源並評估其有效性和可靠性。

5.處理您的數據集,使其為分析做好準備。

6.使用描述性統計和非正式解釋進行探索性數據分析。

7.進行推論分析。

8.報告您的發現。

大學和研究等級數據分析

在大學和研究所的統計學經驗,通常與在學校教授統計學的方式大不相同。學校的統計教育通常涉及關於人為問題的摘要資訊,使用簡單、乾淨的數據和一種正確的分析方法。大學和研究所研究的數據經常被應用。這些數據集往往龐大、複雜和混亂,有些數據缺失。有些數據的有效性有問題。

需要提出一個可信的分析計劃,而以一種正確的方法來分析此類數據集。但是您應該願意在進行過程中修改您的計劃,這取決於您所發現的情況。如有必要,執行替代方案分析。這需要一種稱為啟發式或原始認知的額外技能,這代表著控制過程。

 什麼是定量數據?

從本質上講,定量數據是涉及數字和類別的事實資訊。類別通常是指選項之間的選擇,例如您最喜歡的食物類型或您的意見,範圍從非常不同意到非常同意。這導致了三種基本類型的數據:

1.數值數據(可以是整數或小數)。

2.具有自然排序的類別(如非常同意、同意、中立、不同意、非常不同意),這被稱為序數數據。

3.沒有任何約定順序的類別(如蛋白質、乳製品、碳水化合物、水果和蔬菜),這被稱為名義數據。

統計分析中最好的定量數據是數值型,其次是有序型,最後是名義型。了解您計劃收集或分析的數據類型很重要,因為這會影響您的分析方法。

定量數據分析的 12 步方法

1 步:從目標和研究問題開始

大多數研究都是從這些開始的。模糊的調查內容是危險的,因為它們沒有重點,並且可能無法系統地進行。還有一個更大的風險是你會發現一些只是隨機事件的東西。

2 步:收集與您的目標和研究問題一致的數據

假設您已經開始進行一個研究問題,您需要考慮需要收集哪些數據才能調查此問題。然後還有一些問題:你將從哪裡獲得這些數據?你將如何處理這個過程?以及你應該獲得多少數據?

其中數據收集被稱為你的樣品,這是假定來自一個更大的群體。如何取樣,這是你的抽樣方法,是隨機的還是非隨機的?大多數統計檢定假設數據是隨機抽樣的。對於問卷,您還應該考慮如何最大化您的回覆率以減少偏差。

基本上,你應該盡可能收集多的數據。它也應該是盡可能有好的品質。關於可接受的最小數據量是多少,以及稱為樣本量計算的正式過程有一些經驗公式。然而,這兩種方法都存在弱點。

3 步:處理您的數據並創建原始數據電子表格

這一步經常被忽視。數據分析應從電子表格開始,其中列中收集的數據類型和行中的實例,而不是源自原始數據的匯總統計。如果您從線上調查問卷中下載數據,通常會非常混亂,需要先進行整理。

4 步:通過描述性分析了解您的數據

描述性分析涉及從原始數據創建表格、圖表和匯整統計。這可能從收集到的各種類型的數據(稱為變數)開始,但是將一個變數與另一個變數進行比較通常更有用。選擇要相互比較的變數,應該以您的目標和研究問題為指導。不要隨意執行此操作,也不需要報告所有內容。

此外,表格或圖表的選擇應基於最能解釋內容的形式。如果表格包含太多數字,讀者可能難以處理。在解釋其含義時,數據的形式通常比具體的數值更重要。

5 步:非正式地解釋和報告您的分析

現在你可以寫一個敘述來配合你的描述性統計數據。這應該通過對描述性統計數據的含義,進行非正式解釋,來尋求回答您的研究問題。不要同時使用圖表和表格來表示同一件事。選擇最好的,並始終寫一個敘述來配合它。注意不要使用不恰當的統計語言,例如在您沒有進行任何統計測試時就使用顯著一詞。 

描述性分析到此結束:其餘步驟與統計測試相關。

6 步:決定是分析數據集中的變數組還是僅分析單個變數

例如,問卷通常包含關於同一事物的問題組,稱為數量表。這使得分析更容易並且可能更準確,因為您只需分析量表的值(數字),而不是來自構成量表(通常是有序的)的單個問題(稱為項目)的數據。

如果您選擇使用其他人的問卷並希望使用其量表,您首先需要評估有關它的已發表文獻,以確保其量表有效且可靠量測他們應該準確量測的內容。如果您設計了自己的問卷並希望使用您設計的量表,您首先需要進行可靠性分析,但準備刪除您建立的大約一半的項目。還有一個介於兩者之間的選項,您可以使用他人問卷的一部分或對其進行修改,但這超出了本指南的範圍。

7 步:了解您的統計設計

統計測試主要做兩件事:調查組之間的差異和探索變數之間的關係。稱為關聯性或相關性。還有一個問題是是否多次量測相同的對象,或是否正在量測不同的對象。最後有兩種主要類型的測試,稱為參數測試和非參數測試。

參數測試通常更敏感,但它們有一些假設,您首先需要檢查,然後才能運行它們。下圖顯示了選擇簡單測試的決策樹。

8 步:生成高級描述性統計數據並檢查測試假設

大多數參數檢驗的假設是數據呈常態分佈。這可以通過生成具有擬合常態曲線的直方圖來檢查。還有常態性檢驗,例如 Shapiro-Wilk 檢驗。其他假設是:獨立樣本 t 檢驗的差異數相等,可以使用 Levene 檢驗進行評估。以及用於線性相關和迴歸的散點圖的橢圓分佈形狀,可以用以定性評估。

信賴區間是一種有用的高級描述性統計數據,可以彌補探索數據和統計檢驗之間的差距。這些通常顯示在誤差條形圖上。

9 步:了解虛無假設統計檢驗過程

雖然它經常受到批評,但虛無假設統計檢驗過程提供了一種明確的方法,來做出關於組間或變數之間比較的決定。想像一下,您是法庭上的一名法官,您的數據正在接受審判。您的數據是無辜的,此假設被稱為虛無假設。這通常是指兩組之間沒有差異或兩個變數之間沒有關係。您的工作是評估以決定,是否有足夠的證據證明您的數據存在差異或存在關係,或宣告您的數據無罪。超出合理懷疑水平通常設置為 95% 的信賴度。證據通常有兩種形式 - 一個統計值代表您的樣本中發生的事件,一個相關的概率值(稱為顯著性值)衡量您的事件發生的可能性或可​​能性。如果顯著性值小於 0.05,則拒絕虛無假設。例如如果您擲硬幣 20 次並且您擲出 6 個正面(您的統計值),則此事件的概率約為 0.037,但其顯著性值為 0.115,因為它是通過將正面較少的事件的概率相加(即從 0 5 次)。因此在 20 次拋硬幣中得到 6 次正面並不是什麼重大事件。您會得出結論,沒有足夠的證據來確定您的硬幣有偏見。

10 :運行並解釋適當的測試

通常使用 Excel SPSS 等統計軟體來運行統計測試。這些測試的輸出需要解釋。例如,右表是 SPSS 的輸出,用於進行卡方檢驗,以確定騷亂的原因與警察使用的警察之間是否存在關聯。要解釋的數字是 Pearson 卡方行 (0.172) 的漸近顯著性(兩側)。但是,Exact sign可以解釋 Fisher 精確檢驗 (0.214) 的(兩側)。由於這兩個值都高於 0.05 臨界值。我們會得出結論,沒有足夠的關聯證據。

11 步:報告結果

結果需要在解釋後報告。這需要引用相關的概率值,將它們與顯著性臨界值進行比較,以便做出關於虛無假設的決定,並將此決定返回到您的研究問題。將軟體輸出直接複製並粘貼到您的發現報告中通常是不合適的,但這可以在附錄中提供。您可能還需要將您的發現與文獻中其他人的發現進行比較,並討論任何差異或影響。

12 步:準備好使用大量認知,重新分析您的數據

如前所述,在應用統計學中,數據集複雜而混亂,可以通過多種方式對其進行分析。有鑑於此,您應該考慮是否進行額外的分析,以進一步調查您的研究問題。但是請注意,每次運行統計測試時,都會引入偽陽性結果(稱為第一類錯誤)的可能性。如果您決定運行多個測試,您可能希望增加您的信賴度臨界值,例如從 95% 99%。並尋找相應較低的顯著性數值,例如小於 0.01 而不是小於 0.05