如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 tel: 04-22053366-6107 e-mail:...
Post on 21-Dec-2015
229 views
TRANSCRIPT
如何建立檔案
• 從資料庫的觀點 ***
資料分析第一階段建檔
• 從表格的觀點 資料分析最後階段呈現結果
建檔方式 --- 範例• 三個人測量兩密閉室 ( 甲 , 乙 ) 的溫度
個案1 個案2 個案3
甲室 29度 30 度 31度乙室 0度 30度 60度
個案 甲 乙1 29 02 30 303 31 60
或
x
x
如何建立檔案1. 確立變項
2. 對變項命名及變項命名原則
3. 以“欄 (Column)” 為單位,建立每一個變項
4. 以“列 (Row)” 為單位,建立每一筆資料 (Record)
5. 保持原始資料的單純性及可擴充性
1. 確立變項• 每一個變項 (Variable) 代表一種訊息 (Informatio
n)
• 例如密閉室溫度範例中的訊息包括: 室別 ( 甲 , 乙 ) 、溫度 ( 攝氏 ) 、 個案代號 ( 可
表示該溫度是誰測量的 ) ,故共有三個變項
• 變項命名: ( 補充 : 變項命名原則 )
室別、溫度、 個案代號
2. 對變項命名
• 中文命名
( 正確 : 室別、溫度、 個案代號 ) ( 錯誤 : 室別 -1 、 2 溫度、 @ 個案代號 )
• 英文命名
( 正確 : roomname 、 temp 、 subj_id) ( 錯誤 : 2room 、 temperature 、 subject-id)
2. 對變項命名 -- 變項命名原則• 中文命名1. 第一個字母不為特殊字元或數字,如: #2 人口 _ 男
( 錯誤 )2. 名稱中不要放入特殊符號,如:人口 -male2( 錯誤 )3. 名稱不要超過 4 個中文字,如:人口數男生 _2( 錯誤 )** 正確名稱:人口 _ 男 2 或 人口 _m2 或 人口男 _2
• 英文命名1. 第一個字母不為特殊字元或數字,如: 2pop_m( 錯誤 )2. 名稱中不要放入特殊符號,如: pop&m-2( 錯誤 )3. 名稱不要超過 8 個英文字,如: popmale_2( 錯誤 )** 正確名稱: pop_m2 或 pop_m_2 或 popmale2
3. 以“欄 (Column)” 為單位,建立每一個變項---- 在第一欄建立變項名稱
A B C1 個案代號 室別 溫度2 1 甲 293 2 甲 304 3 甲 315 1 乙 06 2 乙 307 3 乙 60
一個 EXCEL 檔可開多個工作表 將原始資料檔單獨放在一個工作表中
4. 以“列 (Row)” 為單位,建立每一筆資料 (Record, Observation)----- 共 6 筆資料
按滑鼠右鍵
重新命名 將工作表重新命名為 : 原始資料
5. 保持原始資料的單純性及可擴充性--- 單純性 : 若要處理 . 把資料依需要貼在其他工作表上
插入
工作表
重新命名
5. 保持原始資料的單純性及可擴充性---- 可擴充性 : 4 個變項、 9 筆資料
A B C D
1 個案代號 室別 溫度 時段
2 1 甲 29 早上
3 2 甲 30 早上
4 3 甲 31 早上
5 1 乙 0 晚上
6 2 乙 30 早上
7 3 乙 60 中午
8 4 甲 30 中午
9 5 乙 20 中午
10 1 丙 10 晚上
原始資料增加為
4 個變項、 9 筆資料
變數類型及分布
變數 , 變項( Variable ) ( 相對於常數, Co
nstant) 及變數名稱 (Variable Name) •資料依不同的人,而有不同的數值或特性,故稱為變數,例如抽取 5個學生,有男有女,有高有矮,資料會隨著樣本不同而變化,故稱為變數;
•每種變數的代號稱為變數名稱 (Variable Name) 或變數,例如:性別、身高為變數名稱或變數。
隨機變數 (Random Variable)
•搜集資料時,若決定抽取 n個樣本,則資料會隨著抽取樣本不同而不同,例如抽取坐在前排的 5個女生的身高,會與抽取坐在後排的 5個女生的身高不同。
•在做決定抽取何者為樣本時,若沒有預設立場,完全隨機會 (by chance) 決定,該資料稱為隨機變數。
變數類型( Variable Type )•類別變數( Nominal variable ): 將資料分門別類,各類資料之間沒有程度或次序性的 b. 關係,且為彼此互斥的,屬定性的測量。
•例如 : 性別 (男、女 ),血型 (A, B, O, AB, other) ,抽煙與否 (抽煙、不抽煙 )。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable) 。
變數類型( Variable Type )• 序位變數( Ordinal Variable ): 和類別尺度一樣,將資料分類且為彼此互斥的,但彼此之間有程度上的差異。
• 例如癌症病人病況分期 (I、 II 、 III 、 IV 期 ),抽煙程度狀況 (未抽煙、曾抽煙但已戒煙、少於1包 /每日、 1包以上 /每日 ),病人對醫生問診態度的滿意度 (非常滿意、滿意、普通、不滿意、非常不滿意 )。
• 各類之間不一定有倍數或距離的關係,是屬於半定量的測量,例如:癌症 IV期病人的病況並非癌症 II期病人的病況的兩倍。
變數類型( Variable Type )• 等距變數 (Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的
大小,屬定量的測量。• 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天
抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。
• 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒有絕對的零點的存在。攝氏 30.7 度到 28.7 度的距離與攝氏 16.7 度到 14.7 度的距離相等,但我們不能描述攝氏 30度 (華氏 86度 )是攝氏 15度 (華氏 59度 )的兩倍,因為若以華氏則不到兩倍 (86/59=1.46) 。所以氣溫的尺度是一種等距尺度,但不是一種等比尺度。
變數類型( Variable Type )• 等比變數 (Ratio Variable) : 若等距尺度中具有絕對的零點,稱為等比尺度。可以用來計算倍數或比率。
• 例如:年齡,身高,體重,每分鐘心跳的次數,每天抽煙的支數。我們可以描述新生兒體重 9磅(4082 公克, 1 磅 =453.592 公克 )是 6磅 (2722公克 )的 1.5 倍,若換算為公克測量則亦為 1.5倍 (4082/2722=1.5) 。所以體重的尺度是一種等距尺度,也是一種等比尺度。
分佈概論 :•何謂分佈 (Distribution)?
在統計思維中,分佈係指針對某一我們感興趣的變數 (Variable) 。將其搜集到的值 (Observation) 以有系統的方式加以整理並呈現出來。•可以長條圖 (Bar Charts): categorical data
或直方圖 (Histograms): continuous data 表示
變數分佈 (Distribution)
例 1 :不連續變數 ( 類別或序位 ) 的分佈: 2560 位 AIDS 病人中, Kaposis sacoma 疾病狀態的分佈情形 , 以 Bar Charts 表
示。
個案 Kaposis1 1
2 0
3 1
4 1
5 0
6 0
… …
… …
2560 1
個案 Kaposis
1 1
3 1
4 1
50 1
198 1
200 1
… …
… …
2550 0
相對次數
0.10
0.90
0.00
0.50
1.00
Yes No
Kaposis 次數 相對次數
Yes 246246/2560=0
.10
No 23142314/2560=
0.90
246
2314
0500
1000150020002500
Yes No
Kaposis Sarcoma
個數
相對次數 = 次數 / 總次數
排序
例 2 :連續變數 ( 等距或等比 ) 的分佈:新生兒體重的分佈,將資料分組,以直方圖 (Histogram) 表示。
新生兒體重 次數
0-499 4843
500-999 17,487
1000-1499 23,139
1500-1999 49,112
2000-2499 160,919
2500-2999 597,738
3000-3499 1,376,008
3500-3999 1,106,634
4000-4499 344,390
4500-4999 62,769
5000-5500 8236
總計 3,751,275
0200000400000600000800000
1000000120000014000001600000
0-499
1000
-1499
2000
-2499
3000
-3499
4000
-4499
5000
-5500
出生嬰兒體重
嬰兒個數
0
10
20
30
40
出生嬰兒體重
(%)
相對次數
新生兒體重 相對次數 (%)
0-499 4843/3751275=0.1
500-999 17487/3751275=0.5
1000-1499 0.6
1500-1999 1.3
2000-2499 4.3
2500-2999 15.9
3000-3499 36.7
3500-3999 29.5
4000-4499 9.2
4500-4999 1.7
5000-5500 0.2
總計 100
相對次數 = 次數 / 總次數
樣本平均數
• 【樣本平均數 (Sample Mean, Arithmetic Mean) 】
• 兩密閉室 ( 甲 , 乙 ) 的溫度的集中趨勢
平均數甲室 (29 +30 +31 )/3=30度 度 度 度乙室 (0 +30 +60 )/3=30度 度 度 度
兩 室平均數相同
xx
n
ii
n
1
個案 甲 乙1 29 02 30 303 31 60
樣本變異數與樣本標準差
• 【樣本變異數 (Sample Variance) (s2) , 樣本標準差 (Sample Standard Deviation)
(s) 】
• 兩密閉室 ( 甲 , 乙 ) 的溫度的分散趨勢
變異數 標準差=變異數 0.5
甲室 [(29-30)2+(30-30) 2+(31-30) 2]/2=(1+0+1)/2=1 1
乙室 [(0-30)2+(30-30) 2+(60-30) 2]/2=(900+0+900)/2=900 30
兩室變異數不同 兩室標準差不同
1
)( 2
12
n
xxs
n
ii
1
)( 2
1
n
xxs
n
ii
個案 甲 乙1 29 02 30 303 31 60
1
)( 2
12
n
xxs
n
ii
1
)( 2
1
n
xxs
n
ii
xx
n
ii
n
1
許多變項的分佈服從常態分佈常態分佈
圖形隨平均數及標準差不同而不同
AV值
70
60
50
40
30
20
10
0
= 1.52 標準差
= 10.07平均數
N = 500.00
AV值
80
60
40
20
0
= 3.82 標準差
= 20.0平均數
N = 500.00
平均數 =10
標準差 =1.5
平均數 =20
標準差 =4
• 範例: AV 為臨床指標 • 若無腫瘤患者 AV 值的分佈為常態分佈 X~N(10,1.52)
理論上可得到有 68%的機率落在 (8.5,11.5) 中間 可得到有 95%的機率落在 (7,13) 中間 可得到有 99%的機率落在 (5.5,14.5) 中間
無腫瘤
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0 5 10 15 20 25 30 35
AV指標值
機率密度
無腫瘤68%
若有 無腫瘤患者 AV 值的分佈為常態分佈 X~N(20,42)
• 任何常態資料若經標準化, 理論上可得到有 68%的機率落在 (16,24) 中間 可得到有 95%的機率落在 (12,28) 中間 可得到有 99%的機率落在 (8,32) 中間
有腫瘤
0
0.02
0.04
0.06
0.08
0.1
0.12
0 5 10 15 20 25 30 35
AV指標值
機率密度
有腫瘤68%
*** 由平均值及標準差可知兩族群人 AV 值的分佈 , 進而… .
Thanks for your attention~