2009年12月28日

資料正規化

在講正規化之前必需先說明的是「功能相依」,假設一個學生資料表之中,學號的欄位值是唯一的,所以學號的欄位值決定了姓名的欄位值;我們就可以說姓名功能相依於學號,或者說學號功能相依姓名。

將表格細分成多個更小的表格,直到每個表格只描述一種事實為止,這一連串的調整過程就稱為資料正規化(Normalization)

正規化的目的何在?簡單的說就是要將資料的重覆性降至最低(避免資料重複的狀況發生)。倘若在不同的表格中都有學生的姓名時,一旦有個學生改名了,則必須 同步更改多個表格的內容;修改的過程中若稍有遺漏,有些資料沒更正,就會發生不一致的狀況。因此,避免資料重複是相當重要的。

一般來說,正規化的步驟分為四個
第一正規化(1NF):每個一表格都會有一個 主鍵 ( Primary Key ),同時每一個表格 ( Table ) 中的每一列 ( Row ) 的每一欄 ( Column ),都只能存放單一的資料值。
第二正規化(2NF):在表格中的每一個不是主鍵的欄位都只能與主鍵有功能相依性。
第三正規化(3NF):在表格中的每一個不是主鍵的欄位都必須與完整的主鍵有功能相依性。
廣義第三正規化(BCNF):如果主鍵為單一欄位時,就不需要考慮這個狀況了。但是當主鍵為複合欄位時,必須逐一檢視主鍵中每一個單獨的欄位是否與其他欄位有相依性的關係,如果有的話就必須進一步拆解表格。
每一步驟的正規化都是往下包含的,也就是說符合第三正規化也就一定符合第二正規化,也就一定符合第一正規化。

當然也是有人提出第四、五正規化,但是一般的資料庫設計並不需要用到那麼細緻的分割,有時甚至還需要反正規化,因此,就不詳細介紹第四、五正規化。

2009年12月18日

抽樣分配與區間估計

群體:
社會科學的研究者將其研究的整個對象稱為群體、母體或全體(population或universe)。群體是由個體(individual)組合而成,這個群體至少擁有一種或一種以上共同的特性,如同屬某市的市民,某團體的會員,同一種族,同一年級或同一所學校的學生,或都是十八歲以下的青少年,或都是六十五歲以上的老年人口等共有的特性。

樣本:
研究人員因受到時間、經費、人力及其他各種資源或取樣條件的限制,其研究資料收集的對象通常無法普及於群體中的每個個體,而是其中的一部分,此群體中的一部分便稱之為樣本(sample)。如某市部分的市民,某族群分的人,或某社區六十五歲老年人口中的獨居老人,都是某特定群體的一部分,因此都可稱之為樣本。

社會科學的研究人員便是透過抽樣過程(sampling process),從群體中取出部分的樣本,然後透過對這些樣本的研究,而把研究的結果推論到樣本來自的整個群體。不論我們採用何種抽樣方式,我們都希望抽出的樣本具有代表性,也就是樣本能充分反映群體的特性。但無論研究者的押樣計畫如何完善,抽樣實施的過程如何謹慎,抽樣誤差(sampling error)是免不了的,因為樣本畢竟只是群體的一部分。實際上,我們會發現樣本平均數剛好等於群體平均數的機會非常小,樣本標準差等於群體標準差的機會也很小。

抽樣分配:
所謂「抽樣分配」是指「統計量」的機率分配,與「原始資料」的分配是有區別的。統計量(statistic)乃是指代表樣本特性的數,如樣本平均數、標準差及比例等都是統計量,因為它們分別表示樣本集中、離散的趨勢或某分類比例的特性。群體的特性則以參數或母數(parameters)表示,參數是指用以表示群體特徵的數位,如群體平均數、標準差及比例等都是參數。通常參數的數值我們都是不知道的,此時統計量就是用來做為估計參數的估計值(estimate)。以樣本估計群體會產生偏誤(bias),指的就是以統計量估計參數所產生的誤差。我們研究統計量的抽樣分配就是希望了解這些誤差產生的機率。

信賴區間:
如果不考慮抽樣誤差,樣本平均數就是群體平均數的估計值,此種估計法我們稱之為點估計(point estimate)。但是抽樣誤差是不可避免的,所以我們在以樣本平均數估計群體平均數時,我們會以樣本平均數加上抽樣誤差的考慮來估計群體平均數,則稱此估計方法為區間估計(interval estimate)。真正的做法是以樣本平均數加減某一倍數的標準誤差所形成的數值區間來估計,此數值區間我們稱之為信賴區間(confidence intervals),而平均數及標準差的大小,就影響了區間的大小,區間愈大我們對區間包含真正的群體平均數愈有信心,區間愈小我們對區間包含真正的群體平均數的信心就會變小。這個信心的大小就牽涉到估計誤差大小問題,也就是信賴度(或稱信心水準)的機率問題。

2009年12月17日

常用的統計檢定

統計檢定的目的,是要協助你從資料中去判定一件事情的狀況是或不是這樣。由於統計檢定的基本原理,是利用下面的這種邏輯來判定事情的狀況:數字實在是差得太遠,以致於這個狀況成立的可能性實在是太低了 (就是我們所說的「有顯著的...」)。在這個陳述中所謂的「狀況」,就是虛無假設。因此,對於研究人員來說,其實虛無假設就是想要否定掉的那種可能性。相對地,虛無假設的對立狀態,就是對立假設。虛無假設與對立假設兩個要周延互斥,也就是說,所有的情形如果不是符合虛無假設,就是要符合對立假設,不可以有例外。其中要特別注意一點,統計檢定的結果只有「拒絕」虛無假設以及「不拒絕」虛無假設,沒有「接受」虛無假設這種說法。有些時候會有人把「不拒絕」當作「接受」,其實這是不正確的使用方式。

以下介紹幾種社會科學常用的統計檢定:

1.卡方檢定:主要解答的問題是從樣本或母體觀察而得的次數資料和理論上的是否有顯著的差異。通常依資料的特性與分析目的之不同,可分為適合度檢定以及獨立性(是否相關)檢定。

2.T檢定:與Z檢定相同,必需假設所考慮之變項為常態分配。一般研究設計,常以樣本平均數對母群體中某數值做假設檢定(單一獨立樣本檢定),或是以實驗組與對照組兩母群體樣本的樣本平均數做假設檢定(兩獨立樣本檢定);並藉由 t 值換算與對照「t分佈表」,以判定統計量差異是否顯著(落在拒絕區域,p≦α)。為比較兩樣本平均數差異之顯著性的典型檢定法。

3.Z檢定:假設所考慮之變項為常態分配,或者為大樣本。然後以計算所得的Z值來檢定是否拒絕虛無假設。

4.F檢定(ANOVA):簡單來說,F檢定用來檢定兩個樣本的變異數(Variance)是否相同。為迴歸模型之中常用來檢定迴歸關係的檢定法。