2010年9月17日 星期五

心理與教育統計之統計簡述

keyword:民調 敘述統計 推論統計 隨機樣本 抽樣誤差 信心水準 規律型態

談統計

先從民調談起

媒體報導說,有67%民眾曾經接到過詐騙電話。
做這個調查時有問到你家或我家嗎?
67%是怎麼來的?問了多少人?
負責任的民調,都會提供這項數字及其他相關訊息。
這項調查報告當中說:這次調查於九十三年四月十九日至二十日進行,成功訪問了912位成年民眾;在95%的信心水準下,抽樣誤差在正負3.2%以內。調查是以台灣地區住宅電話為母體,做尾數兩位隨機抽樣。

這樣又有新的問題了。
全台灣成年人一共有多少?
既然才選過總統,不妨就以合格選民來算,這個數目大約在一千六百萬附近;我們就當作全台灣共有一千六百萬成年人。
只問了912人的經驗,就可以說全台灣一千六百萬老百姓當中,有67%接到過詐騙電話,到底有沒有搞錯?有根據嗎?
以上問題的答案,可以在今天的主題-統計裡面找到,是叫做推論統計的部分。

我們先說說統計是什麼。如果要用一句話來定義的話,可以這樣說:統計是從數據當中找訊息的科學。

推論統計又是什麼呢?
有人把統計分為兩大類,敘述統計及推論統計。敘述統計的內容是數據的整理和呈現;整理的目的,是要把數據本身的訊息,清楚顯現出來。這包括畫直方圖、算四分位差或平均數、標準差等等。
敘述統計對於整體統計來說,只佔極小的一部份,它的功能比起推論統計要少得多,學問也小得多;基本上只要會加減乘除,就可以把敘述統計搞定。
推論統計要由小推大、從樣本推母體。

如果我們把全班同學的身高,算出平均數,以便瞭解班上同學身高的一個「中心位置」,這只是敘述統計的內容。然而如果我們試圖用這個平均身高,來推估全台灣同年級同學的平均身高,就進入了推論統計的範疇,這當中最常見的實際例子,就是民意調查。

「推論」是指從小推大、從樣本推母體、甚至從現在推將來。民調只不過是應用推論統計的一個例子而已。
許多重要的事,比如:若干年後台灣地區用電量的預估(從現在推將來),新藥是否有效(只有很小一部份人試用,卻要評估對所有病人的療效),向工廠訂購的大量零件產品是否符合要求(只抽一部份檢驗,卻要估計整批貨的不良品比率)等等許許多多的例子,都要用到統計推論的觀念。

現在用例子來說明民調的依據。
假設我們有興趣知道,究竟有多少百分比的成年人曾經買過樂透彩券。這個數字沒有辦法知道,因為不可能問到每一個人。所以只能抽一個成年人樣本,再把樣本中買過樂透彩的比例,當作母體(全台灣成年人)比例的估計。為了方便說明,需要用一些數字,但是沒有看到這方面的民調結果。因此我們將利用蓋洛普在美國做的調查結果來當例子。蓋洛普歷史悠久,他們做出的民調,品質獲得許多人的信任。

一項2000年左右做的蓋洛普民調,成功訪問了1,523位美國成年人的樣本,其中有868人在過去一年當中買過樂透彩。蓋洛普的報告中有這樣的內容(注1):「…最近一項以賭博為主題的蓋洛普社會調查指出,過去12個月當中,有57%的美國人曾經購買過樂透彩券,這使得樂透成了當今賭博大眾的最愛。」

報告再讀下去,會了解到蓋洛普是和1,523位隨機選出的成人談過之後,才得到這些結論的。這裡的「隨機」兩個字,是關鍵之所在;從樣本推母體,一定要用隨機樣本才行,因為統計推論的背後依據,就是建立在隨機樣本上的。

57%這個數字,是用868除以1,523得來的。但是人口普查局說美國大約有兩億成年人。光是1,523個人的資料,即便它是一個隨機樣本,到底是怎樣能夠告訴我們兩億人的習慣?還有,如果重新抽一個1,523個人的隨機樣本,樣本中買過樂透的比例,還會是57%嗎?那當然是不會(除非碰巧),因為樣本的組成不一樣。再抽一次樣本,應該又不一樣。
既然樣本結果會變來變去,我們居然只用一次抽樣的結果來推估母體比例,而且樣本還比母體小非常多,是否叫人很難對這樣的結果有信心?以下的說明,會對這些疑惑提供答案。

其實樣本絕對沒有辦法告訴我們有關母體的確實資訊。
所以負責任的民意調查,都會提供一個誤差界限以及信心水準。
蓋洛普會在報告中列入以下訊息:「我們可以有95%的信心,此次民調之誤差界限,是正負三個百分點。」所以在讀民調結果時,不能只看57%這一個數字,必須加上95%信心、以及正負三個百分點這兩個數字,才能完整解讀這項民調結果。
解讀的方式如下:把57%分別加減3%的誤差界限,就可以得到一個區間,即從54%到60%,這提供了母體比例(全美國成年人,在過去一年當中買過樂透彩的比例,我們用符號p表示)可能「落腳」的範圍,而信心水準是95%。
統計裡面把這叫做95%信賴區間。

95%信賴區間的意思是這樣的:如果我們不斷重複的抽取隨機樣本,每次都抽1,523個成人訪問,每次所得到的買過樂透彩的比例,都會隨著樣本而改變;加減3%之後的區間,也會隨著樣本而改變。這許許多多的區間當中,有的會把母體比例p包含在裡面、有的不會。信心水準95%的意思,就是說所有這些區間當中,有95%會「抓到」真正的母體比例p。所以運氣不太差的話,我們的信賴區間(0.54, 0.60)就把p包含在裡面了,這個意思就是說,美國成年人買過樂透彩的比例,在54%和60%之間。如果運氣不好,我們抽到的樣本恰好屬於另外那5%,則p就沒有落在0.54和0.60之間。這時候它有可能大於0.60,也有可能小於0.54。
信心水準和誤差界限怎麼來的?
隨機樣本有一項非常重要的特質是這樣的:
雖然每一次抽樣的結果事先無法預知,然而許許多多次抽樣的結果放在一起考慮的時候,會出現某種規律的型態,這個規律的型態是我們可以掌握的(有理論依據),而信心水準和誤差界限,就是根據這個規律型態計算出來的。
如果我們的抽樣方式不正確,得到亂七八糟樣本的話,不僅上述對於民調結果的解讀方式不適用,也找不到其他有根據的解讀方式;這時候還要用樣本比例來估計母體比例的話,可以說和瞎猜也就沒什麼兩樣。
常見樣本中有哪些可歸類為「亂七八糟樣本」呢?
一種是自發性回應樣本,比如扣應(call-in),一種是方便樣本,比如想知道全校同學的意見,卻只問自己身邊的同班同學。會扣應的人,可能有某些共同特質,不能代表一般大眾。同班同學的意見,也不見得可代表全校同學。

上面所提到的規律型態當中,包括以下兩項重要訊息:
第一、樣本比例是母體比例的不偏估計,第二、樣本愈大、樣本比例的變化範圍就愈小。
不偏的意思,是既不會系統性的高估、也不會系統性的低估。也就是說,如果一直重複抽隨機樣本的動作,每次都抽1523個人,樣本比例會隨著樣本而變,然而所有可能的樣本比例的平均,會等於母體比例。
有了這個性質,如果再加上樣本夠大、樣本比例的變化範圍很小的話,則不論我們抽到哪一個樣本,都可以預期所得到的樣本比例,會和真正的母體比例差距很小。這就等於回答了之前的「樣本結果一直變、要怎麼辦」的問題了,因為只要變來變去都沒差多少,都和真正的母體比例很接近的話,就不成其為問題了。

媒體還常常報導一些「研究結果」,比如「出生體重愈重,愈易罹癌」;或者「死會的男人比較會賺錢」等等。這些結果都可信嗎?

如果要做出因果關係的結論,取得數據的方式非常重要;方式正確,結果才可信。


注一:取材自「統計學的世界」第3章及第5章,天下文化出版
天下文化網站:www.bookzone.com.tw


該文轉貼自天下文化網站

沒有留言:

張貼留言