如何建立檔案中國醫藥大學公衛系梁文敏副教授 tel: 04-22053366-6107 e-mail:...

如何建立檔案中國醫藥大學公衛系

梁文敏副教授TEL: 04-22053366-6107

E-mail: [email protected]

如何建立檔案

• 從資料庫的觀點 ***

資料分析第一階段建檔

• 從表格的觀點資料分析最後階段呈現結果

建檔方式 --- 範例• 三個人測量兩密閉室 ( 甲 , 乙 ) 的溫度

個案1 個案2 個案3

甲室 29度 30 度 31度乙室 0度 30度 60度

個案甲乙1 29 02 30 303 31 60

或

x

x

如何建立檔案1. 確立變項

2. 對變項命名及變項命名原則

3. 以“欄 (Column)” 為單位，建立每一個變項

4. 以“列 (Row)” 為單位，建立每一筆資料 (Record)

5. 保持原始資料的單純性及可擴充性

1. 確立變項• 每一個變項 (Variable) 代表一種訊息 (Informatio

n)

• 例如密閉室溫度範例中的訊息包括：室別 ( 甲 , 乙 ) 、溫度 ( 攝氏 ) 、個案代號 ( 可

表示該溫度是誰測量的 ) ，故共有三個變項

• 變項命名： ( 補充 : 變項命名原則 )

室別、溫度、個案代號

2. 對變項命名

• 中文命名

( 正確 : 室別、溫度、個案代號 ) ( 錯誤 : 室別 -1 、 2 溫度、 @ 個案代號 )

• 英文命名

( 正確 : roomname 、 temp 、 subj_id) ( 錯誤 : 2room 、 temperature 、 subject-id)

2. 對變項命名 -- 變項命名原則• 中文命名1. 第一個字母不為特殊字元或數字，如： #2 人口 _ 男

( 錯誤 )2. 名稱中不要放入特殊符號，如：人口 -male2( 錯誤 )3. 名稱不要超過 4 個中文字，如：人口數男生 _2( 錯誤 )** 正確名稱：人口 _ 男 2 或人口 _m2 或人口男 _2

• 英文命名1. 第一個字母不為特殊字元或數字，如： 2pop_m( 錯誤 )2. 名稱中不要放入特殊符號，如： pop&m-2( 錯誤 )3. 名稱不要超過 8 個英文字，如： popmale_2( 錯誤 )** 正確名稱： pop_m2 或 pop_m_2 或 popmale2

3. 以“欄 (Column)” 為單位，建立每一個變項---- 在第一欄建立變項名稱

A B C1 個案代號室別溫度2 1 甲 293 2 甲 304 3 甲 315 1 乙 06 2 乙 307 3 乙 60

一個 EXCEL 檔可開多個工作表將原始資料檔單獨放在一個工作表中

4. 以“列 (Row)” 為單位，建立每一筆資料 (Record, Observation)----- 共 6 筆資料

按滑鼠右鍵

重新命名將工作表重新命名為 : 原始資料

5. 保持原始資料的單純性及可擴充性--- 單純性 : 若要處理 . 把資料依需要貼在其他工作表上

插入

工作表

重新命名

5. 保持原始資料的單純性及可擴充性---- 可擴充性 : 4 個變項、 9 筆資料

A B C D

1 個案代號室別溫度時段

2 1 甲 29 早上

3 2 甲 30 早上

4 3 甲 31 早上

5 1 乙 0 晚上

6 2 乙 30 早上

7 3 乙 60 中午

8 4 甲 30 中午

9 5 乙 20 中午

10 1 丙 10 晚上

原始資料增加為

4 個變項、 9 筆資料

變數類型及分布

變數 , 變項（ Variable ） ( 相對於常數， Co

nstant) 及變數名稱 (Variable Name) •資料依不同的人，而有不同的數值或特性，故稱為變數，例如抽取 5個學生，有男有女，有高有矮，資料會隨著樣本不同而變化，故稱為變數；

•每種變數的代號稱為變數名稱 (Variable Name) 或變數，例如：性別、身高為變數名稱或變數。

隨機變數 (Random Variable)

•搜集資料時，若決定抽取 n個樣本，則資料會隨著抽取樣本不同而不同，例如抽取坐在前排的 5個女生的身高，會與抽取坐在後排的 5個女生的身高不同。

•在做決定抽取何者為樣本時，若沒有預設立場，完全隨機會 (by chance) 決定，該資料稱為隨機變數。

變數類型（ Variable Type ）•類別變數（ Nominal variable ）：將資料分門別類，各類資料之間沒有程度或次序性的 b. 關係，且為彼此互斥的，屬定性的測量。

•例如 : 性別 (男、女 )，血型 (A, B, O, AB, other) ，抽煙與否 (抽煙、不抽煙 )。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable) 。

變數類型（ Variable Type ）• 序位變數（ Ordinal Variable ）：和類別尺度一樣，將資料分類且為彼此互斥的，但彼此之間有程度上的差異。

• 例如癌症病人病況分期 (I、 II 、 III 、 IV 期 )，抽煙程度狀況 (未抽煙、曾抽煙但已戒煙、少於1包 /每日、 1包以上 /每日 )，病人對醫生問診態度的滿意度 (非常滿意、滿意、普通、不滿意、非常不滿意 )。

• 各類之間不一定有倍數或距離的關係，是屬於半定量的測量，例如：癌症 IV期病人的病況並非癌症 II期病人的病況的兩倍。

變數類型（ Variable Type ）• 等距變數 (Interval Variable) ：每個單位都是一樣大小，且測量值可以完全表現出程度的

大小，屬定量的測量。• 例如年齡，身高，體重，氣溫，每分鐘心跳的次數，每天

抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。

• 例如氣溫，華氏與攝氏溫度的零點，是人為決定的，並沒有絕對的零點的存在。攝氏 30.7 度到 28.7 度的距離與攝氏 16.7 度到 14.7 度的距離相等，但我們不能描述攝氏 30度 (華氏 86度 )是攝氏 15度 (華氏 59度 )的兩倍，因為若以華氏則不到兩倍 (86/59=1.46) 。所以氣溫的尺度是一種等距尺度，但不是一種等比尺度。

變數類型（ Variable Type ）• 等比變數 (Ratio Variable) ：若等距尺度中具有絕對的零點，稱為等比尺度。可以用來計算倍數或比率。

• 例如：年齡，身高，體重，每分鐘心跳的次數，每天抽煙的支數。我們可以描述新生兒體重 9磅(4082 公克， 1 磅 =453.592 公克 )是 6磅 (2722公克 )的 1.5 倍，若換算為公克測量則亦為 1.5倍 (4082/2722=1.5) 。所以體重的尺度是一種等距尺度，也是一種等比尺度。

分佈概論 :•何謂分佈 (Distribution)?

在統計思維中，分佈係指針對某一我們感興趣的變數 (Variable) 。將其搜集到的值 (Observation) 以有系統的方式加以整理並呈現出來。•可以長條圖 (Bar Charts): categorical data

或直方圖 (Histograms): continuous data 表示

變數分佈 (Distribution)

例 1 ：不連續變數 ( 類別或序位 ) 的分佈： 2560 位 AIDS 病人中， Kaposis sacoma 疾病狀態的分佈情形 , 以 Bar Charts 表

示。

個案 Kaposis1 1

2 0

3 1

4 1

5 0

6 0

… …

… …

2560 1

個案 Kaposis

1 1

3 1

4 1

50 1

198 1

200 1

… …

… …

2550 0

相對次數

0.10

0.90

0.00

0.50

1.00

Yes No

Kaposis 次數相對次數

Yes 246246/2560=0

.10

No 23142314/2560=

0.90

246

2314

0500

1000150020002500

Yes No

Kaposis Sarcoma

個數

相對次數 = 次數 / 總次數

排序

例 2 ：連續變數 ( 等距或等比 ) 的分佈：新生兒體重的分佈，將資料分組，以直方圖 (Histogram) 表示。

新生兒體重次數

0-499 4843

500-999 17,487

1000-1499 23,139

1500-1999 49,112

2000-2499 160,919

2500-2999 597,738

3000-3499 1,376,008

3500-3999 1,106,634

4000-4499 344,390

4500-4999 62,769

5000-5500 8236

總計 3,751,275

0200000400000600000800000

1000000120000014000001600000

0-499

1000

-1499

2000

-2499

3000

-3499

4000

-4499

5000

-5500

出生嬰兒體重

嬰兒個數

0

10

20

30

40

出生嬰兒體重

(%)

相對次數

新生兒體重相對次數 (%)

0-499 4843/3751275=0.1

500-999 17487/3751275=0.5

1000-1499 0.6

1500-1999 1.3

2000-2499 4.3

2500-2999 15.9

3000-3499 36.7

3500-3999 29.5

4000-4499 9.2

4500-4999 1.7

5000-5500 0.2

總計 100

相對次數 = 次數 / 總次數

樣本平均數

• 【樣本平均數 (Sample Mean, Arithmetic Mean) 】

• 兩密閉室 ( 甲 , 乙 ) 的溫度的集中趨勢

平均數甲室 (29 +30 +31 )/3=30度度度度乙室 (0 +30 +60 )/3=30度度度度

兩室平均數相同

xx

n

ii

n

1

個案甲乙1 29 02 30 303 31 60

樣本變異數與樣本標準差

• 【樣本變異數 (Sample Variance) (s2) ，樣本標準差 (Sample Standard Deviation)

(s) 】

• 兩密閉室 ( 甲 , 乙 ) 的溫度的分散趨勢

變異數標準差=變異數 0.5

甲室 [(29-30)2+(30-30) 2+(31-30) 2]/2=(1+0+1)/2=1 1

乙室 [(0-30)2+(30-30) 2+(60-30) 2]/2=(900+0+900)/2=900 30

兩室變異數不同兩室標準差不同

1

)( 2

12

n

xxs

n

ii

1

)( 2

1

n

xxs

n

ii

個案甲乙1 29 02 30 303 31 60

1

)( 2

12

n

xxs

n

ii

1

)( 2

1

n

xxs

n

ii

xx

n

ii

n

1

許多變項的分佈服從常態分佈常態分佈

圖形隨平均數及標準差不同而不同

AV值

70

60

50

40

30

20

10

0

= 1.52 標準差

= 10.07平均數

N = 500.00

AV值

80

60

40

20

0

= 3.82 標準差

= 20.0平均數

N = 500.00

平均數 =10

標準差 =1.5

平均數 =20

標準差 =4

• 範例： AV 為臨床指標 • 若無腫瘤患者 AV 值的分佈為常態分佈 X~N(10,1.52)

理論上可得到有 68％的機率落在 (8.5,11.5) 中間可得到有 95％的機率落在 (7,13) 中間可得到有 99％的機率落在 (5.5,14.5) 中間

無腫瘤

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0 5 10 15 20 25 30 35

AV指標值

機率密度

無腫瘤68%

若有　無腫瘤患者 AV 值的分佈為常態分佈 X~N(20,42)

• 任何常態資料若經標準化，理論上可得到有 68％的機率落在 (16,24) 中間可得到有 95％的機率落在 (12,28) 中間可得到有 99％的機率落在 (8,32) 中間

有腫瘤

0

0.02

0.04

0.06

0.08

0.1

0.12

0 5 10 15 20 25 30 35

AV指標值

機率密度

有腫瘤68%

＊＊＊　由平均值及標準差可知兩族群人 AV 值的分佈 , 進而… .

Thanks for your attention~

如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 tel: 04-22053366-6107 e-mail:...

Documents

如何建立檔案中國醫藥大學公衛系梁文敏副教授 tel: 04-22053366-6107 e-mail:...