2009年12月18日

抽樣分配與區間估計

群體:
社會科學的研究者將其研究的整個對象稱為群體、母體或全體(population或universe)。群體是由個體(individual)組合而成,這個群體至少擁有一種或一種以上共同的特性,如同屬某市的市民,某團體的會員,同一種族,同一年級或同一所學校的學生,或都是十八歲以下的青少年,或都是六十五歲以上的老年人口等共有的特性。

樣本:
研究人員因受到時間、經費、人力及其他各種資源或取樣條件的限制,其研究資料收集的對象通常無法普及於群體中的每個個體,而是其中的一部分,此群體中的一部分便稱之為樣本(sample)。如某市部分的市民,某族群分的人,或某社區六十五歲老年人口中的獨居老人,都是某特定群體的一部分,因此都可稱之為樣本。

社會科學的研究人員便是透過抽樣過程(sampling process),從群體中取出部分的樣本,然後透過對這些樣本的研究,而把研究的結果推論到樣本來自的整個群體。不論我們採用何種抽樣方式,我們都希望抽出的樣本具有代表性,也就是樣本能充分反映群體的特性。但無論研究者的押樣計畫如何完善,抽樣實施的過程如何謹慎,抽樣誤差(sampling error)是免不了的,因為樣本畢竟只是群體的一部分。實際上,我們會發現樣本平均數剛好等於群體平均數的機會非常小,樣本標準差等於群體標準差的機會也很小。

抽樣分配:
所謂「抽樣分配」是指「統計量」的機率分配,與「原始資料」的分配是有區別的。統計量(statistic)乃是指代表樣本特性的數,如樣本平均數、標準差及比例等都是統計量,因為它們分別表示樣本集中、離散的趨勢或某分類比例的特性。群體的特性則以參數或母數(parameters)表示,參數是指用以表示群體特徵的數位,如群體平均數、標準差及比例等都是參數。通常參數的數值我們都是不知道的,此時統計量就是用來做為估計參數的估計值(estimate)。以樣本估計群體會產生偏誤(bias),指的就是以統計量估計參數所產生的誤差。我們研究統計量的抽樣分配就是希望了解這些誤差產生的機率。

信賴區間:
如果不考慮抽樣誤差,樣本平均數就是群體平均數的估計值,此種估計法我們稱之為點估計(point estimate)。但是抽樣誤差是不可避免的,所以我們在以樣本平均數估計群體平均數時,我們會以樣本平均數加上抽樣誤差的考慮來估計群體平均數,則稱此估計方法為區間估計(interval estimate)。真正的做法是以樣本平均數加減某一倍數的標準誤差所形成的數值區間來估計,此數值區間我們稱之為信賴區間(confidence intervals),而平均數及標準差的大小,就影響了區間的大小,區間愈大我們對區間包含真正的群體平均數愈有信心,區間愈小我們對區間包含真正的群體平均數的信心就會變小。這個信心的大小就牽涉到估計誤差大小問題,也就是信賴度(或稱信心水準)的機率問題。

沒有留言:

張貼留言