lird's hole: 9月 2010

2010年9月27日星期一

心理與教育統計之spss的接觸與操作

這學期同時選修了別校的統計分析技術，課程中單純介紹spss的操作與功能，故在尋找有關統計的資料時，同時就會有些許的共鳴，雖說spss是一套知名且功能強大的統計軟體，不過運用相同的網路搜尋方式，一樣可以有許多的範例檔案(畢竟不是人人都已經寫好前五章了)以及軟體介紹、指令運用等資料~

第一章SPSS系統總論與基本操作
第二章資料轉換與處理(Data)
第三章SPSS的統計圖形製作

多變量分析—SPSS的操作與應用(書籍中的範例檔案)
~資料僅供學習使用~

有了範例檔，其實能運用的範圍也很廣，接下來才能實際去操作到底....什麼叫T檢定、作ANOVA(變異數分析)了，時間真是一分一秒不等人啊~~~。

2010年9月22日星期三

心理與教育統計之blog分享

作者blog：http://kurtghost.blogspot.com/search/label/%E7%B5%B1%E8%A8%88%E5%AD%B8

該blog中所列文章標題：
統計1 統計的用途
統計第一章序論
統計第二章集中量數
統計第三章變異量數與分佈形狀
統計第四章常態分布
統計第五章間段機率分布
[統計] 第六章連續機率分佈
[統計] 第七章抽樣分佈與估計式

在網路世界中瀏覽人們所整理、撰寫的資料，往往會落到一困境：學海無涯，或許先不判斷該資料是正確錯誤，最少會認定自己所知的確是有限，需要多作思索及學習，就如同上述blog中內容，由上至下瀏覽，的確相對應出來的keyword以及更深入的資料，我想真的不是簡單就能說明，光看教統的教科書就這麼厚，的確有時會冒出三條線，在文字敘述的過程中，可以循序地瞭解，但當進入符號計算的同時，應該需要有統計軟體等相關的資料繼續作研讀了。

2010年9月17日星期五

心理與教育統計之統計簡述

keyword：民調敘述統計推論統計隨機樣本抽樣誤差信心水準規律型態

談統計

先從民調談起

媒體報導說，有67%民眾曾經接到過詐騙電話。
做這個調查時有問到你家或我家嗎？
67%是怎麼來的？問了多少人？
負責任的民調，都會提供這項數字及其他相關訊息。
這項調查報告當中說：這次調查於九十三年四月十九日至二十日進行，成功訪問了912位成年民眾；在95%的信心水準下，抽樣誤差在正負3.2%以內。調查是以台灣地區住宅電話為母體，做尾數兩位隨機抽樣。

這樣又有新的問題了。
全台灣成年人一共有多少？
既然才選過總統，不妨就以合格選民來算，這個數目大約在一千六百萬附近；我們就當作全台灣共有一千六百萬成年人。
只問了912人的經驗，就可以說全台灣一千六百萬老百姓當中，有67%接到過詐騙電話，到底有沒有搞錯？有根據嗎？
以上問題的答案，可以在今天的主題－統計裡面找到，是叫做推論統計的部分。

我們先說說統計是什麼。如果要用一句話來定義的話，可以這樣說：統計是從數據當中找訊息的科學。

推論統計又是什麼呢？
有人把統計分為兩大類，敘述統計及推論統計。敘述統計的內容是數據的整理和呈現；整理的目的，是要把數據本身的訊息，清楚顯現出來。這包括畫直方圖、算四分位差或平均數、標準差等等。
敘述統計對於整體統計來說，只佔極小的一部份，它的功能比起推論統計要少得多，學問也小得多；基本上只要會加減乘除，就可以把敘述統計搞定。
而推論統計要由小推大、從樣本推母體。

如果我們把全班同學的身高，算出平均數，以便瞭解班上同學身高的一個「中心位置」，這只是敘述統計的內容。然而如果我們試圖用這個平均身高，來推估全台灣同年級同學的平均身高，就進入了推論統計的範疇，這當中最常見的實際例子，就是民意調查。

「推論」是指從小推大、從樣本推母體、甚至從現在推將來。民調只不過是應用推論統計的一個例子而已。
許多重要的事，比如：若干年後台灣地區用電量的預估（從現在推將來），新藥是否有效（只有很小一部份人試用，卻要評估對所有病人的療效），向工廠訂購的大量零件產品是否符合要求（只抽一部份檢驗，卻要估計整批貨的不良品比率）等等許許多多的例子，都要用到統計推論的觀念。

現在用例子來說明民調的依據。
假設我們有興趣知道，究竟有多少百分比的成年人曾經買過樂透彩券。這個數字沒有辦法知道，因為不可能問到每一個人。所以只能抽一個成年人樣本，再把樣本中買過樂透彩的比例，當作母體（全台灣成年人）比例的估計。為了方便說明，需要用一些數字，但是沒有看到這方面的民調結果。因此我們將利用蓋洛普在美國做的調查結果來當例子。蓋洛普歷史悠久，他們做出的民調，品質獲得許多人的信任。

一項2000年左右做的蓋洛普民調，成功訪問了1,523位美國成年人的樣本，其中有868人在過去一年當中買過樂透彩。蓋洛普的報告中有這樣的內容（注1）：「…最近一項以賭博為主題的蓋洛普社會調查指出，過去12個月當中，有57％的美國人曾經購買過樂透彩券，這使得樂透成了當今賭博大眾的最愛。」

報告再讀下去，會了解到蓋洛普是和1,523位隨機選出的成人談過之後，才得到這些結論的。這裡的「隨機」兩個字，是關鍵之所在；從樣本推母體，一定要用隨機樣本才行，因為統計推論的背後依據，就是建立在隨機樣本上的。

57%這個數字，是用868除以1,523得來的。但是人口普查局說美國大約有兩億成年人。光是1,523個人的資料，即便它是一個隨機樣本，到底是怎樣能夠告訴我們兩億人的習慣？還有，如果重新抽一個1,523個人的隨機樣本，樣本中買過樂透的比例，還會是57%嗎？那當然是不會（除非碰巧），因為樣本的組成不一樣。再抽一次樣本，應該又不一樣。
既然樣本結果會變來變去，我們居然只用一次抽樣的結果來推估母體比例，而且樣本還比母體小非常多，是否叫人很難對這樣的結果有信心？以下的說明，會對這些疑惑提供答案。

其實樣本絕對沒有辦法告訴我們有關母體的確實資訊。
所以負責任的民意調查，都會提供一個誤差界限以及信心水準。
蓋洛普會在報告中列入以下訊息：「我們可以有95％的信心，此次民調之誤差界限，是正負三個百分點。」所以在讀民調結果時，不能只看57%這一個數字，必須加上95%信心、以及正負三個百分點這兩個數字，才能完整解讀這項民調結果。
解讀的方式如下：把57%分別加減3%的誤差界限，就可以得到一個區間，即從54%到60%，這提供了母體比例（全美國成年人，在過去一年當中買過樂透彩的比例，我們用符號p表示）可能「落腳」的範圍，而信心水準是95%。
統計裡面把這叫做95%信賴區間。

95%信賴區間的意思是這樣的：如果我們不斷重複的抽取隨機樣本，每次都抽1,523個成人訪問，每次所得到的買過樂透彩的比例，都會隨著樣本而改變；加減3%之後的區間，也會隨著樣本而改變。這許許多多的區間當中，有的會把母體比例p包含在裡面、有的不會。信心水準95%的意思，就是說所有這些區間當中，有95%會「抓到」真正的母體比例p。所以運氣不太差的話，我們的信賴區間（0.54, 0.60）就把p包含在裡面了，這個意思就是說，美國成年人買過樂透彩的比例，在54%和60%之間。如果運氣不好，我們抽到的樣本恰好屬於另外那5%，則p就沒有落在0.54和0.60之間。這時候它有可能大於0.60，也有可能小於0.54。
信心水準和誤差界限怎麼來的？
隨機樣本有一項非常重要的特質是這樣的：
雖然每一次抽樣的結果事先無法預知，然而許許多多次抽樣的結果放在一起考慮的時候，會出現某種規律的型態，這個規律的型態是我們可以掌握的（有理論依據），而信心水準和誤差界限，就是根據這個規律型態計算出來的。
如果我們的抽樣方式不正確，得到亂七八糟樣本的話，不僅上述對於民調結果的解讀方式不適用，也找不到其他有根據的解讀方式；這時候還要用樣本比例來估計母體比例的話，可以說和瞎猜也就沒什麼兩樣。
常見樣本中有哪些可歸類為「亂七八糟樣本」呢？
一種是自發性回應樣本，比如扣應(call-in)，一種是方便樣本，比如想知道全校同學的意見，卻只問自己身邊的同班同學。會扣應的人，可能有某些共同特質，不能代表一般大眾。同班同學的意見，也不見得可代表全校同學。

上面所提到的規律型態當中，包括以下兩項重要訊息：
第一、樣本比例是母體比例的不偏估計，第二、樣本愈大、樣本比例的變化範圍就愈小。
不偏的意思，是既不會系統性的高估、也不會系統性的低估。也就是說，如果一直重複抽隨機樣本的動作，每次都抽1523個人，樣本比例會隨著樣本而變，然而所有可能的樣本比例的平均，會等於母體比例。
有了這個性質，如果再加上樣本夠大、樣本比例的變化範圍很小的話，則不論我們抽到哪一個樣本，都可以預期所得到的樣本比例，會和真正的母體比例差距很小。這就等於回答了之前的「樣本結果一直變、要怎麼辦」的問題了，因為只要變來變去都沒差多少，都和真正的母體比例很接近的話，就不成其為問題了。

媒體還常常報導一些「研究結果」，比如「出生體重愈重，愈易罹癌」；或者「死會的男人比較會賺錢」等等。這些結果都可信嗎？

如果要做出因果關係的結論，取得數據的方式非常重要；方式正確，結果才可信。

注一：取材自「統計學的世界」第3章及第5章，天下文化出版
天下文化網站：www.bookzone.com.tw

該文轉貼自天下文化網站

心理與教育統計之一二(現代統計學的發展續)

上篇文章內容中，有以下連結：

對外搜尋關鍵字：
．平均數
．標準差
．統計學
．機率論
．Galton
．Karl Pearson
．中位數
．眾數
．Bessel
．相關
．相關係數
．常態曲線
．De Moivre
．費雪
．中央極限定理
．假說檢定
．Hilbert
．Von Neumann
．對局論
．Kolmogorov

2010年9月16日星期四

心理與教育統計之一二(現代統計學的發展)

由開學第一周，老師大致上介紹了該課的上課進行方式及重點整理方法，話說網路世界是永無止盡的，so~老師所提之「推論統計」與「敘述統計」，下列文章有簡略的介紹。

現代統計學的發展

戴久永

      「統計」這個名詞的意義因人而異，對一般人而言，統計是任何方面專家們用以支持其論點的一大堆數字；對於略具常識的人來講，這個名詞代表用以摘要和解釋一堆數據如計算平均數 (mean) 與標準差 (Standard deviation) 的程序之類的概念。但是對於從事統計工作的人員而言，統計是依小量數據（樣本）所提供的資料以估計預測某研究對象如群體的方法。或者更廣義地說，統計為面對不定狀況制定決策提供方法的科學。
         雖然統計的起源可追溯至十八世紀甚至更早，然而統計學主要的發展卻遲至十九世紀末葉二十世紀初期才真正開始。到了四十年代才逐漸成熟，統計學和機率論的關係異常密切，事實上任何統計問題的研究都必須牽涉到機率論的運用，因為後者實為前者的主要工具。
        統計人員對如下所舉之類問題的答案深感興趣：是否接受本批送驗成品？吸煙與得癌症有關嗎？張三會於下屆選舉中獲勝嗎？為了回答上述問題，我們必須由具「代表性」的特殊狀況以「瞭解」一般的狀況，由樣本「推測」群體。因此，由統計人員所推測得到的結論都不是絕對肯定可以接受。事實上，統計人員的職責之一是量度他所得結論肯定的程度，但是我們不能以為統計的缺乏肯定性而誤認為統計數學不嚴密，因為構成統計基礎的數學是機率論，它有固若磐石的數理化基礎和經嚴密證明的定理。
        一般而言，我們可以把統計問題分成兩類：敘述統計和推論統計，簡單的說：任何對數據（即樣本）的處理導致預測或推論群體的統計稱為推論統計。反之，如果我們的興趣只限於手頭現有的數據，而不準備把結果用來推論群體則稱為敘述統計。舉個例子來說，依據過去十年來的統計，每年來華觀光的人數，平均每人在臺停留的日數，平均每人每天在華的花費，十年內那一年創最高記錄等等都是屬於敘述統計的範圍；但是如果我們根據這些年所得的數據來預測來年可能的觀光客人數就是推論統計的問題了。十年前的初級統計課本大多談敘述統計，如今由於計算機的盛行，這部份的工作大多利用計算機來解決，稱為數據處理，而一般統計書的重點別放在推論統計。
……等等

以下截取內容轉貼於http://episte.math.ntu.edu.tw/articles/mm/mm_03_3_09/index.html
以上供參，內容也頗多。仔細研讀完自然就對統計有一點認知，另外於該網頁中也列出有關「教育統計」相關的keyword，看樣子可找的資料也是一拖拉庫了~

2010年9月27日 星期一