lird's hole: 心理與教育統計之統計簡述

keyword：民調敘述統計推論統計隨機樣本抽樣誤差信心水準規律型態

談統計

先從民調談起

媒體報導說，有67%民眾曾經接到過詐騙電話。
做這個調查時有問到你家或我家嗎？
67%是怎麼來的？問了多少人？
負責任的民調，都會提供這項數字及其他相關訊息。
這項調查報告當中說：這次調查於九十三年四月十九日至二十日進行，成功訪問了912位成年民眾；在95%的信心水準下，抽樣誤差在正負3.2%以內。調查是以台灣地區住宅電話為母體，做尾數兩位隨機抽樣。

這樣又有新的問題了。
全台灣成年人一共有多少？
既然才選過總統，不妨就以合格選民來算，這個數目大約在一千六百萬附近；我們就當作全台灣共有一千六百萬成年人。
只問了912人的經驗，就可以說全台灣一千六百萬老百姓當中，有67%接到過詐騙電話，到底有沒有搞錯？有根據嗎？
以上問題的答案，可以在今天的主題－統計裡面找到，是叫做推論統計的部分。

我們先說說統計是什麼。如果要用一句話來定義的話，可以這樣說：統計是從數據當中找訊息的科學。

推論統計又是什麼呢？
有人把統計分為兩大類，敘述統計及推論統計。敘述統計的內容是數據的整理和呈現；整理的目的，是要把數據本身的訊息，清楚顯現出來。這包括畫直方圖、算四分位差或平均數、標準差等等。
敘述統計對於整體統計來說，只佔極小的一部份，它的功能比起推論統計要少得多，學問也小得多；基本上只要會加減乘除，就可以把敘述統計搞定。
而推論統計要由小推大、從樣本推母體。

如果我們把全班同學的身高，算出平均數，以便瞭解班上同學身高的一個「中心位置」，這只是敘述統計的內容。然而如果我們試圖用這個平均身高，來推估全台灣同年級同學的平均身高，就進入了推論統計的範疇，這當中最常見的實際例子，就是民意調查。

「推論」是指從小推大、從樣本推母體、甚至從現在推將來。民調只不過是應用推論統計的一個例子而已。
許多重要的事，比如：若干年後台灣地區用電量的預估（從現在推將來），新藥是否有效（只有很小一部份人試用，卻要評估對所有病人的療效），向工廠訂購的大量零件產品是否符合要求（只抽一部份檢驗，卻要估計整批貨的不良品比率）等等許許多多的例子，都要用到統計推論的觀念。

現在用例子來說明民調的依據。
假設我們有興趣知道，究竟有多少百分比的成年人曾經買過樂透彩券。這個數字沒有辦法知道，因為不可能問到每一個人。所以只能抽一個成年人樣本，再把樣本中買過樂透彩的比例，當作母體（全台灣成年人）比例的估計。為了方便說明，需要用一些數字，但是沒有看到這方面的民調結果。因此我們將利用蓋洛普在美國做的調查結果來當例子。蓋洛普歷史悠久，他們做出的民調，品質獲得許多人的信任。

一項2000年左右做的蓋洛普民調，成功訪問了1,523位美國成年人的樣本，其中有868人在過去一年當中買過樂透彩。蓋洛普的報告中有這樣的內容（注1）：「…最近一項以賭博為主題的蓋洛普社會調查指出，過去12個月當中，有57％的美國人曾經購買過樂透彩券，這使得樂透成了當今賭博大眾的最愛。」

報告再讀下去，會了解到蓋洛普是和1,523位隨機選出的成人談過之後，才得到這些結論的。這裡的「隨機」兩個字，是關鍵之所在；從樣本推母體，一定要用隨機樣本才行，因為統計推論的背後依據，就是建立在隨機樣本上的。

57%這個數字，是用868除以1,523得來的。但是人口普查局說美國大約有兩億成年人。光是1,523個人的資料，即便它是一個隨機樣本，到底是怎樣能夠告訴我們兩億人的習慣？還有，如果重新抽一個1,523個人的隨機樣本，樣本中買過樂透的比例，還會是57%嗎？那當然是不會（除非碰巧），因為樣本的組成不一樣。再抽一次樣本，應該又不一樣。
既然樣本結果會變來變去，我們居然只用一次抽樣的結果來推估母體比例，而且樣本還比母體小非常多，是否叫人很難對這樣的結果有信心？以下的說明，會對這些疑惑提供答案。

其實樣本絕對沒有辦法告訴我們有關母體的確實資訊。
所以負責任的民意調查，都會提供一個誤差界限以及信心水準。
蓋洛普會在報告中列入以下訊息：「我們可以有95％的信心，此次民調之誤差界限，是正負三個百分點。」所以在讀民調結果時，不能只看57%這一個數字，必須加上95%信心、以及正負三個百分點這兩個數字，才能完整解讀這項民調結果。
解讀的方式如下：把57%分別加減3%的誤差界限，就可以得到一個區間，即從54%到60%，這提供了母體比例（全美國成年人，在過去一年當中買過樂透彩的比例，我們用符號p表示）可能「落腳」的範圍，而信心水準是95%。
統計裡面把這叫做95%信賴區間。

95%信賴區間的意思是這樣的：如果我們不斷重複的抽取隨機樣本，每次都抽1,523個成人訪問，每次所得到的買過樂透彩的比例，都會隨著樣本而改變；加減3%之後的區間，也會隨著樣本而改變。這許許多多的區間當中，有的會把母體比例p包含在裡面、有的不會。信心水準95%的意思，就是說所有這些區間當中，有95%會「抓到」真正的母體比例p。所以運氣不太差的話，我們的信賴區間（0.54, 0.60）就把p包含在裡面了，這個意思就是說，美國成年人買過樂透彩的比例，在54%和60%之間。如果運氣不好，我們抽到的樣本恰好屬於另外那5%，則p就沒有落在0.54和0.60之間。這時候它有可能大於0.60，也有可能小於0.54。
信心水準和誤差界限怎麼來的？
隨機樣本有一項非常重要的特質是這樣的：
雖然每一次抽樣的結果事先無法預知，然而許許多多次抽樣的結果放在一起考慮的時候，會出現某種規律的型態，這個規律的型態是我們可以掌握的（有理論依據），而信心水準和誤差界限，就是根據這個規律型態計算出來的。
如果我們的抽樣方式不正確，得到亂七八糟樣本的話，不僅上述對於民調結果的解讀方式不適用，也找不到其他有根據的解讀方式；這時候還要用樣本比例來估計母體比例的話，可以說和瞎猜也就沒什麼兩樣。
常見樣本中有哪些可歸類為「亂七八糟樣本」呢？
一種是自發性回應樣本，比如扣應(call-in)，一種是方便樣本，比如想知道全校同學的意見，卻只問自己身邊的同班同學。會扣應的人，可能有某些共同特質，不能代表一般大眾。同班同學的意見，也不見得可代表全校同學。

上面所提到的規律型態當中，包括以下兩項重要訊息：
第一、樣本比例是母體比例的不偏估計，第二、樣本愈大、樣本比例的變化範圍就愈小。
不偏的意思，是既不會系統性的高估、也不會系統性的低估。也就是說，如果一直重複抽隨機樣本的動作，每次都抽1523個人，樣本比例會隨著樣本而變，然而所有可能的樣本比例的平均，會等於母體比例。
有了這個性質，如果再加上樣本夠大、樣本比例的變化範圍很小的話，則不論我們抽到哪一個樣本，都可以預期所得到的樣本比例，會和真正的母體比例差距很小。這就等於回答了之前的「樣本結果一直變、要怎麼辦」的問題了，因為只要變來變去都沒差多少，都和真正的母體比例很接近的話，就不成其為問題了。

媒體還常常報導一些「研究結果」，比如「出生體重愈重，愈易罹癌」；或者「死會的男人比較會賺錢」等等。這些結果都可信嗎？

如果要做出因果關係的結論，取得數據的方式非常重要；方式正確，結果才可信。

注一：取材自「統計學的世界」第3章及第5章，天下文化出版
天下文化網站：www.bookzone.com.tw

該文轉貼自天下文化網站

lird's hole

2010年9月17日星期五

心理與教育統計之統計簡述

沒有留言:

張貼留言

2010年9月17日 星期五

心理與教育統計之統計簡述

沒有留言:

張貼留言

2010年9月17日星期五