giáo trình phương pháp nghiên cứu khoa học 2

90
1 ỦY BAN NHÂN DÂN THAØNH PHOÁ HOÀ CHÍ MINH TRƯỜNG ĐẠI HỌC Y KHOA PHẠM NGỌC THẠCH LIEÂN BOÄ MOÂ N Y HOÏC COÄNG ÑOÀNG BOÄ MOÂN DÒCH TEÃ HOÏC CÔ BAÛN-DÂN SỐ HỌC GIÁO TRÌNH 2 PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC LỚP CHUYÊN KHOA 2 – NĂM HỌC 2012 – 2013 Tháng 12 năm 2012

Upload: lop-ckii-dh-pham-ngoc-thach

Post on 21-Jun-2015

1.290 views

Category:

Education


12 download

TRANSCRIPT

Page 1: Giáo trình Phương pháp Nghiên cứu Khoa học 2

1

ỦY BAN NHÂN DÂN THAØNH PHOÁ HOÀ CHÍ MINH

TRƯỜNG ĐẠI HỌC Y KHOA PHẠM NGỌC THẠCH

LIEÂN BOÄ MOÂN Y HOÏC COÄNG ÑOÀNG

BOÄ MOÂN DÒCH TEÃ HOÏC CÔ BAÛN-DÂN SỐ HỌC

GIÁO TRÌNH 2

PHƯƠNG PHÁP

NGHIÊN CỨU KHOA HỌC

LỚP CHUYÊN KHOA 2 – NĂM HỌC 2012 – 2013

Tháng 12 năm 2012

Page 2: Giáo trình Phương pháp Nghiên cứu Khoa học 2

2

Baøi 1

Baøi 1

ThS. BS. Nguyeãn Theá Duõng

MUÏC TIEÂU: Sau khi hoïc xong baøi naøy, hoïc vieân coù theå:

1/ Phaân bieät ñuùng caùc loaïi bieán soá thöôøng duøng trong thoáng keâ y hoïc

2/ Phaân bieät ñöôïc caùc thang ño löôøng duøng trong thoáng keâ y hoïc

3/ Bieát caùch thieát laäp caùc baûng phaân phoái taàn soá, taàn soá töông ñoái, taàn soá doàn, taàn

soá töông ñoái doàn

4/ Phaùt bieåu ñuùng yù nghóa cuûa soá lieäu trong caùc baûng phaân phoái taàn soá, taàn soá

töông ñoái, taàn soá doàn, taàn soá töông ñoái doàn

I. MOÄT SOÁ KHAÙI NIEÄM CÔ BAÛN :

Thoáng keâ hoïc (Statistics): laø moân hoïc veà caùch :

1 thu thaäp, toå chöùc, toùm taét vaø phaân tích soá lieäu

2 ruùt ra nhöõng suy dieãn cho toaøn boä (soá lieäu) töø keát quaû khaûo saùt 1 phaàn

cuûa soá lieäu.

Thoáng keâ sinh hoïc (Biostatistics): laø thoáng keâ hoïc coù soá lieäu phaân tích coù

nguoàn goác sinh hoïc hoaëc y hoïc.

Bieán soá (Variable): laø ñaëc tính coù theå mang nhieàu giaù trò khaùc nhau ôû ngöôøi,

nôi choán, vaät khaùc nhau. Thí dụ: tuổi, chiều cao, nghề nghiệp, …

– Bieán soá ñònh löôïng (Quantitative variable): laø bieán soá coù theå ño ñaïc ñöôïc

baèng caùc pheùp ño löôøng thoâng thöôøng. Soá ño thöïc hieän treân caùc bieán soá

ñònh löôïng chuyeån taûi thoâng tin veà soá (khoái) löôïng. Thí dụ: chiều cao, cân nặng, ..

– Bieán soá ñònh tính (Qualitative variable) : laø bieán soá khoâng theå ñöôïc ño

baèng nhöõng pheùp ño löôøng thoâng thöôøng, maø chæ coù theå ñöôïc nhoùm loaïi

(categorized). Soá ño thöïc hieän treân caùc bieán soá ñònh tính chuyeån taûi thoâng

tin veà thuoäc tính. Thí dụ: phái tính, nghề nghiệp, ….

– Bieán soá ngaãu nhieân (Random variable): laø bieán soá maø caùc giaù trò coù ñöôïc

laø keát quaû cuûa caùc yeáu toá mang tính cô hoäi (chance factors) khoâng theå

tieân ñoaùn chính xaùc tröôùc ñöôïc. Caùc giaù trò coù ñöôïc qua caùc phöông phaùp

ño löôøng ñöôïc goïi laø caùc quan saùt (observations) hoaëc soá ño (measurements)

– Bieán soá ngaãu nhieân rôøi (Discrete random variable): laø bieán soá ñaëc tröng bôûi

caùc khoaûng troáng giöõa caùc giaù trò. Thí dụ: phái tính (1 người nam, 2 người nam; không có 1,2 người nam), bệnh nhân tim mạch (không có 1,5 bệnh nhân tim mạch), …

– Bieán soá ngaãu nhieân lieân tuïc (Continous random variable): laø bieán soá khoâng coù caùc

khoaûng troáng giöõa caùc giaù trò. Thí dụ: chiều cao (giữa 1,0 mét và 2,0 mét có hàng hà sa số các giá trị - 1,11, 1,12,…, 1,5, 1,51), dung tích, …

KHAÙI NIEÄM veà THOÁNG KEÂ Y HOÏC vaø

CAÙCH SAÉP XEÁP & TOÅ CHÖÙC SOÁ LIEÄU

Page 3: Giáo trình Phương pháp Nghiên cứu Khoa học 2

3

DAÂN SOÁ (Quaàn theå – Population): laø taäp hôïp lôùn nhaát caùc thöïc theå maø ta quan taâm ôû 1

thôøi ñieåm xaùc ñònh.

Neáu ño moät bieán soá treân töøng thöïc theå cuûa daân soá, chuùng ta seõ coù 1 daân soá caùc giaù trò

cuûa bieán soá ñoù. Daân soá caùc giaù trò laø taäp hôïp lôùn nhaát caùc giaù trò cuûa 1 bieán soá ngaãu nhieân

maø ta quan taâm ôû 1 thôøi ñieåm xaùc ñònh.

MAÃU (Sample): laø 1 phaàn (boä phaän) cuûa 1 daân soá.

II. SÖÏÏ ÑO LÖÔØNG vaø THANG ÑO LÖÔØNG (Measurement & Measurement Scale)

Söï ño löôøng ñöôïc ñònh nghóa laø söï gaùn con soá cho caùc vaät theå hoaëc bieán coá theo 1 heä

thoáng qui taéc. Do vieäc ño löôøng ñöôïc thöïc hieän vôùi nhieàu heä thoáng qui taéc khaùc nhau neân

phaûi coù nhieàu thang ño löôøng khaùc nhau.

1. Thang ñònh danh (Nominal Scale): laø thang ño löôøng (ôû möùc ñoä) thaáp nhaát vaø chæ

bao goàm vieäc “ñaët teân” cho caùc quan saùt hoaëc phaân loaïi chuùng vaøo caùc nhoùm ñoäc laäp

hoã töông1 (mutually exclusive). Thí duï: caùc chaån ñoaùn y khoa (beänh cao huyeát aùp, beänh

noäi tieát, v.v.), caùc thöïc theå nhò phaân nhö Nam-Nöõ, Beänh-Khoûe, v..v

Taàn soá TL%

Nam 222 52,9

Nöõ 198 47,1

Toång 420 100,0

2. Thang thöù töï (Ordinal Scale): laø thang ño löôøng bao goàm khoâng chæ vieäc ñònh

danh maø coøn phaân haïng (rank) caùc nhoùm loaïi theo 1 soá tieâu chuaån naøo ñoù. Thí duï:

beänh (raát naëng, naëng, vöøa, nheï), tình traïng kinh teá (cao, vöøa, keùm), v..v..

Löu yù laø möùc ñoä khaùc bieät giöõa 2 soá ño thuoäc 2 nhoùm loaïi ñaõ phaân haïng khoâng ñöôïc

bieát chính xaùc laø baèng bao nhieâu. Thí duï: khoâng theå bieát söï khaùc bieät giöõa beänh naëng

vaø beänh vöøa laø bao nhieâu ñôn vò.

Kinh teá gia ñình Taàn soá TL%

Xoùa ñoùi giaûm ngheøo 15 3,7

Ngheøo 93 22,9

Ñuû aên 292 71,7

Khaù giaû - Giaøu 7 1,7

Toång 407 100,0

1 Hai bieán coá ñöôïc goïi laø ñoäc laäp hoã töông khi chuùng khoâng theå xaûy ra ñoàng thôøi vaø toång xaùc suaát cuûa caùc bieán coá ñoäc laäp

ngaãu nhieân baèng 1. Keát quaû cuûa vieäc thaûy ñoàng xu seõ ñöôïc 1 trong 2 bieán coá: maët saáp hoaëc maët ngöõa; toång xaùc suaát cuûa

2 bieán coá naøy baèng 1.

Page 4: Giáo trình Phương pháp Nghiên cứu Khoa học 2

4

3. Thang khoaûng (Interval Scale): tinh vi hôn thang thöù töï ôû choã khoaûng caùch giöõa hai soá

ño baát kyø ñöôïc bieát roõ. Thí duï: hieäu cuûa soá ño IQ giöõa 80 vaø 100 baèng vôùi hieäu cuûa soá ño

giöõa 100 vaø 120. Thang khoaûng duøng 1 ñôn vò veà khoaûng caùch vaø moät ñieåm zero ñöôïc

choïn tuøy yù. Tuy nhieân ñieåm zero trong tröôøng hôïp naøy khoâng phaûi laø zero thaät söï (chæ thò

söï hoaøn toaøn khoâng coù khoái löôïng ñang ñöôïc ño). Thí duï roõ nhaát veà thang khoaûng laø caùch

ño nhieät ñoä, trong ñoù 00 C khoâng ñoàng nghóa vôùi vieäc hoaøn toaøn khoâng coù nhieät löôïng

naøo.Thang khoaûng laø moät thang ñònh löôïng.

IQ

> 140

120 - 140

100 - 119

80 - 99

4. Thang Tæ soá (Ratio Scale): laø thang ño löôøng ôû möùc ñoä cao nhaát, ñaëc tröng bôûi söï

baèng nhau cuûa caùc tæ soá cuõng nhö cuûa caùc khoaûng coù theå ñöôïc ñònh roõ. Ñieåm cô baûn

cuûa thang tæ soá laø coù ñieåm zero thaät. Thí duï: chieàu cao, caân naëng, chieàu daøi,v.v.

Kg

130 - 139

120 - 129

110 - 119

100 - 109

Vieäc hieåu bieát soá lieäu thuoäc thang ño löôøng naøo seõ giuùp choïn kyõ thuaät toå chöùc, toùm taét, vaø

phaân tích soá lieäu chính xaùc vaø phuø hôïp.

III. CHUOÃI THOÁNG KEÂ (Ordered array) :

laø danh muïc caùc giaù trò cuûa 1 taäp hôïp soá lieäu xeáp theo thöù töï töø giaù trò nhoû ñeán giaù trò

lôùn. Ñaây laø caùch saép xeáp soá lieäu ñôn giaûn vaø deã thöïc hieän nhaát.

IV. PHAÂN PHOÁI TAÀN SOÁ (Frequency Distribution)

1. Phaân nhoùm soá lieäu: töø moät khối loän xoän, soá lieäu coù theå ñöôïc toå chöùc, saép xeáp

baèng caùch phaân vaøo nhieàu nhoùm (Khoaûng caùch lôùp – KCL) ñeå deã nhaän ñònh hôn.

Do coù zero tuøy choïn

neân khoâng theå noùi

raèng ngöôøi coù IQ

120 thoâng minh gaáp

1,5 laàn ngöôøi coù IQ

80.

Do coù zero thaät neân coù theå noùi raèng

vaät coù troïng löôïng 150 kg naëng gaáp

1,5 laàn vaät coù troïng löôïng 100 kg.

Page 5: Giáo trình Phương pháp Nghiên cứu Khoa học 2

5

Caùch tính soá KCL

Soá lieäu neân ñöôïc saép xeáp vaøo bao nhieâu KCL thì vöøa?

KCL cuûa 1 taäp hôïp soá lieäu thöôøng khoâng neân nhoû hôn 6 vaø khoâng lôùn hôn 15.

Ñeå chính xaùc hôn, coù theå duøng coâng thöùc Sturges ñeå tính soá KCL :

k = 1 + 3,322 (log10 n)

vôùi k : soá KCL & n : soá giaù trò coù ñöôïc

Thí du: coù taäp hôïp soá lieäu goàm 57 giaù trò, neân phaân vaøo bao nhieâu KCL thì vöøa?

n = 57 log10 57 = 1,7559

k = 1 + 3,322 (1,7559) 7

Caùch tính ñoä roäng cuûa KCL

Moãi KCL neân coù ñoä roäng laø bao nhieâu?

w : ñoä roäng cuûa KCL

w = k

R vôùi R : bieân ñoä cuûa chuoãi soá lieäu

Thí duï: coù taäp hôïp soá lieäu goàm 57 giaù trò, giaù trò lôùn nhaát laø 79 vaø giaù trò nhoû

nhaát laø 12. Tính ñoä roäng cuûa caùc KCL?

w = 79 12

9,67

10

Taäp hôïp 57 giaù trò laø caân naëng tính baèng ounces cuûa 57 khoái u aùc tính laáy ra töø buïng

cuûa 57 beänh nhaân :

68 63 42 27 30 36 28 32 79 27 22 23

24 25 44 65 43 25 74 51 36 42 28 31

28 25 45 12 57 51 12 32 49 38 42 27

31 50 38 21 16 24 69 47 23 22 43 27

49 28 23 19 46 30 43 49 12

2. Laäp baûng phaân phoái taàn soá

KCL Taàn soá

10 – 19 5

20 – 29 19

30 – 39 10

40 – 49 13

50 – 59 4

60 – 69 4

70 – 79 2

57

Page 6: Giáo trình Phương pháp Nghiên cứu Khoa học 2

6

Baûng phaân phoái taàn soá cho thaáy coù 19 khoái u coù troïng löôïng trong khoaûng 20-29 ounces;

13 khoái u troïng löôïng trong khoaûng 40-49 ounces; ..v..v..

Löu yù: Baûng phaân phoái taàn soá neân coù giôùi haïn döôùi (lower limits) hoaëc giôùi haïn treân (upper

limits) laø moät soá coù soá haøng ñôn vò baèng 0 hoaëc 5 ñeå deã nhaän ñònh. Thí duï treân coù giôùi haïn

döôùi laø caùc soá 10, 20, 30, ..v..v.

3. Laäp baûng phaân phoái taàn soá, taàn soá doàn, taàn soá töông ñoái, taàn soá töông ñoái doàn

KCL Taàn soá Taàn soá doàn Taàn soá Taàn soá

töông ñoái töông ñoái doàn

10 – 19 5 5 0,0877 0,0877

20 – 29 19 24 0,3333 0,4210

30 – 39 10 34 0,1754 0,5964

40 – 49 13 47 0,2281 0,8245

50 – 59 4 51 0,0702 0,8947

60 – 69 4 55 0,0702 0,9649

70 – 79 2 57 0,0351 1,0000

57 1,0000

Phaùt bieåu veà taàn soá töông ñoái:

+ coù 33,3% caùc khoái u coù troïng löôïng trong khoaûng 20-29 ounces

+ coù 22,8% caùc khoái u troïng löôïng trong khoaûng 40-49 ounces

+ .. ..v..v..

Phaùt bieåu veà taàn soá doàn vaø taàn soá töông ñoái doàn:

+ coù 47 khoái u coù troïng löôïng töø 49 ounces trôû xuoáng.

+ coù 24 khoái u coù troïng löôïng töø 29 ounces trôû xuoáng.

+ ..v…v.

+ coù 82,5% caùc khoái u coù troïng löôïng töø 49 ounces trôû xuoáng.

+ coù 42,1% caùc khoái u coù troïng löôïng töø 29 ounces trôû xuoáng.

+ ..v…v...

Löu yù: Tuøy theo nhu caàu maø choïn coät (taàn soá, taàn soá töông ñoái, taàn soá doàn, taàn soá töông ñoái

doàn) ñeå trình baøy. Thoâng thöôøng nhaát laø trình baøy taàn soá vaø taàn soá töông ñoái (tính

baèng %) trong cuøng 1 baûng.

4. Laäp bieåu ñoà Histogram

Histogram laø bieåu ñoà phaân phoái taàn soá hình que (coät) ñaëc bieät cuûa caùc bieán soá lieân

tuïc. Do laø bieåu ñoà laø cuûa bieán soá lieân tuïc neân khi trình baøy caàn phaûi duøng caùc giôùi haïn thaät

Page 7: Giáo trình Phương pháp Nghiên cứu Khoa học 2

7

cuûa caùc KCL. Tìm giôùi haïn thaät cuûa 1 KCL baèng caùch tröø ñi ½ ñôn vò ñoái vôùi giôùi haïn

döôùi vaø coäng theâm ½ ñôn vò ñoái vôùi giôùi haïn treân.

Baûng phaân phoái taàn soá duøng giôùi haïn thaät (ñeå veõ histogram)

Giôùi haïn thaät Taàn soá

cuûa KCL

9,5 – 19,5 5

19,5 – 29,5 19

29,5 – 39,5 10

39,5 – 49,5 13

49,5 – 59,5 4

59,5 – 69,5 4

69,5 – 79,5 2

5. Laäp bieåu ñoà ña giaùc taàn soá

Bieåu ñoà ña giaùc taàn soá ñöôïc thieát laäp döïa treân histogram. Baèng caùch noái trung ñieåm

cuûa caùc maët treân cuûa töøng oâ chöõ nhaät töôïng tröng cho taàn soá cuûa caùc KCL, ta seõ coù 1

ña giaùc taàn soá.

Taàn soá

X

2

4

6

8

10

12

14

16

18

20

9,5 19,5 29,5 39,5 49,5 59,5 69,5 79,5

Taàn s oá

X 2

4 6 8

10 12 14

16

18 20

9,5 19,5 29,5 39,5 49,5 59,5 69,5 79,5

Page 8: Giáo trình Phương pháp Nghiên cứu Khoa học 2

8

6. Laäp bieåu ñoà thaân–vaø–laù (Stem-and-leaf)

Bieåu ñoà thaân-vaø-laù laø 1 coâng cuï bieåu dieãn phaân phoái taàn soá cuûa bieán soá ñònh löôïng

gioáng nhö histogram. Chuoãi thoáng keâ ñöôïc bieåu dieãn thaønh 2 coät: 1 coät thaân vaø 1 coät la ù.

Thoâng thöôøng, coät laù seõ chöùa con soá haøng ñôn vò cuûa giaù trò, vaø coät thaân seõ chöùa caùc con

soá coøn laïi.

12 12 12 16 19 21 22 22 23 23 23 24

24 25 25 25 27 27 27 27 28 28 28 28

30 30 31 31 32 32 36 36 38 38 42 42

42 43 43 43 44 45 46 47 49 49 49 50

51 51 57 63 65 68 69 74 79

Thaân Laù

1 2 2 2 6 9

2 1 2 2 3 3 3 4 4 5 5 5 7 7 7 7 8 8 8 8

3 0 0 1 1 2 2 6 6 8 8

4 2 2 2 3 3 3 4 5 6 7 9 9 9

5 0 1 1 7

6 3 5 8 9

7 4 9

----------------------------------------------------------

TAØI LIEÄU THAM KHAÛO

Wayne W. Daniel. Biostatistics: A foundation for analysis in the health sciences 7thedition. John

Wiley & Sons Inc, 1998.

Page 9: Giáo trình Phương pháp Nghiên cứu Khoa học 2

9

Baøi 2

MUÏC TIEÂU: Sau khi hoïc xong baøi naøy, hoïc vieân coù theå:

1/ Bieát caùch tính caùc soá ño khuynh höôùng taäp trung vaø phaùt bieåu ñuùng yù nghóa cuûa caùc soá

ño naøy

2/ Bieát caùch tính caùc soá ño khuynh höôùng phaân taùn vaø phaùt bieåu ñuùng yù nghóa cuûa caùc soá

ño naøy

3/ Bieát caùch thieát laäp caùc bieåu trình baøy caùc soá ño khuynh höôùng taäp trung vaø phaân

taùn

I. GIÔÙI THIEÄU :

Maëc duø caùc baûng vaø bieåu ñoà phaân phoái taàn soá ñaõ giuùp ích raát nhieàu cho vieäc nhaän

ñònh yù nghóa cuûa khoái soá lieäu, nhöng trong nhieàu tình huoáng khoái soá lieäu caàn ñöôïc toùm taét

ôû möùc 1 hoaëc vaøi soá ño, ñaëc bieät tröôùc khi vieäc suy dieãn thoáng keâ ñöôïc tieán haønh (nghóa laø

suy dieãn keát quaû tìm thaáy töø 1 maãu nghieân cöùu cho toaøn theå daân soá coù lieân quan).

Soá ño moâ taû (descriptive measures) laø phöông tieän toùm taét soá lieäu (TTSL).

– Soá ño moâ taû tính ñöôïc töø soá lieäu cuûa 1 maãu ñöôïc goïi laø soá thoáng keâ (statistic). Soá

thoáng keâ thöôøng ñöôïc kyù hieäu vieát taét baèng caùc maãu töï Latin thoâng thöôøng (thí duï: “s” cho

ñoä leäch chuaån, “r” cho heä soá töông quan)

– Soá ño moâ taû tính ñöôïc töø soá lieäu cuûa 1 daân soá ñöôïc goïi laø thoâng soá (parameter).

Thoâng soá thöôøng ñöôïc goïi teân baèng caùc maãu töï Hi Laïp. Thí duï: µ (ñoïc laø muy) cho m; σ

(ñoïc laø sigma) cho s; ρ (ñoïc laø rhoâ) cho r)

II. SOÁ ÑO KHUYNH HÖÔÙNG TAÄP TRUNG (Measures of Central Tendency) :

Soá ño khuynh höôùng taäp trung chuyeån taûi thoâng tin veà giaù trò ñöùng ôû giöõa cuûa moät taäp

hôïp soá lieäu. Ba soá ño khuynh höôùng taäp trung thöôøng duøng nhaát laø: soá troäi, soá trung vò, vaø

soá trung bình.

1. Soá troäi (Mode) :

Soá troäi cuûa moät taäp hôïp giaù trò laø giaù trò xuaát hieän nhieàu laàn nhaát. Moät taäp hôïp giaù trò

coù theå khoâng coù soá troäi naøo, hoaëc coù nhieàu hôn 1 soá troäi.

Thí dụ: chuỗi số liệu 5 15 20 20 35 40 52 52 có hai số trội là 20 và 52.

Ñaëc ñieåm cuûa soá troäi

Soá troäi coù theå ñöôïc söû duïng ñeå moâ taû soá lieäu ñònh tính.

TOÙM TAÉT SOÁ LIEÄU

Page 10: Giáo trình Phương pháp Nghiên cứu Khoa học 2

10

2. Soá trung vò (Median)

Soá trung vò cuûa moät taäp hôïp soá lieäu laø giaù trò ñöùng giöõa 2 phaàn baèng nhau cuûa taäp hôïp

(soá giaù trò baèng hoaëc lôùn hôn soá trung vò baèng vôùi soá giaù trò baèng hoaëc nhoû hôn soá trung

vò). Neáu soá giaù trò laø moät soá leû, soá trung vò seõ laø giaù trò ñöùng ngay giöõa chuoãi thoáng keâ.

10 21 33 53 56

Số trung vị

Neáu soá giaù trò laø moät soá chaün, soá trung vò seõ baèng soá trung bình cuûa 2 giaù trò ñöùng ngay

giöõa chuoãi thoáng keâ.

10 21 31 33 53 56

32 (Số trung vị)

Ñaëc ñieåm cuûa soá trung vò:

– Ñoäc nhaát (ñoái vôùi moãi taäp hôïp soá lieäu chæ coù 1 soá trung vò)

– Ñôn giaûn (deã hieåu vaø deã tính toaùn)

– Giaù trò cöïc (extreme values) – giaù trò quaù lôùn hoaëc giaù trò quaù nhoû trong

chuoãi soá lieäu – khoâng gaây aûnh höôûng nhieàu ñeán soá trung vò.

3. Soá trung bình toaùn hoïc (Arithmatic Mean):

Soá trung bình toaùn hoïc laø soá ño khuynh höôùng taäp trung toát nhaát moät phaàn laø do noù söû

duïng thoâng tin veà soá lieäu nhieàu hôn caùc soá ño khuynh höôùng taäp trung khaùc (theå hieän qua

caùch tính soá trung bình toaùn hoïc)

Được tính bằng cách lấy tổng của tất cả các giá trị (đo được) chia cho tổng số giá trị

Trung bình (cuûa) daân soá (Population Mean):

N

xN

ii

1 N: soá giaù trò cuûa daân soá

Trung bình (cuûa) maãu (Sample Mean):

n

xn

ii

x 1

n: soá giaù trò cuûa maãu

Page 11: Giáo trình Phương pháp Nghiên cứu Khoa học 2

11

Chuỗi thống kê của 57 giaù trò laø caân naëng tính baèng ounces cuûa 57 khoái u aùc tính laáy ra töø

buïng cuûa 57 beänh nhaân :

12 12 12 16 19 21 22 22 23 23 23 24

24 25 25 25 27 27 27 27 28 28 28 28

30 30 31 31 32 32 36 36 38 38 42 42

42 43 43 43 44 45 46 47 49 49 49 50

51 51 57 63 65 68 69 74 79

Trung bình caân naëng cuûa maãu bao goàm 57 khoái u aùc tính laø 36,7 ounces.

Ñaëc ñieåm cuûa soá trung bình:

– Ñoäc nhaát (ñoái vôùi moãi taäp hôïp soá lieäu chæ coù 1 soá trung bình)

– Ñôn giaûn (deã hieåu vaø deã tính toaùn)

– Giaù trò cöïc (extreme values) gaây aûnh höôûng nhieàu ñeán soá trung bình.

Thí dụ về giá trị cực: xem thu nhập tính bằng VND của 6 phòng mạch tư hàng ngày

BS 1: 500.000 BS 2: 550.000 BS 3: 520.000 BS 4: 570.000 BS 5: 480.000 BS 6: 5.000.000

Số trung bình bị ảnh hưởng rất nhiều do giá trị thu nhập của BS 6 quá lớn (giá trị cực) so với các giá trị còn lại.

Soá trung bình gia troïng (Weighted mean)

Laø soá trung bình ñöôïc tính khi phaân tích soá lieäu töø nhieàu maãu veà cuøng 1 loaïi thoâng tin

nhöng ñöôïc thu thaäp ôû nhöõng thôøi ñieåm khaùc nhau vaø coù côõ maãu khaùc nhau. Soá trung bình

gia troïng ñöôïc tính nhö sau:

Weighted x = ∑ ni x i/N

ni soá giaù trò cuûa maãu i

x I soá trung bình cuûa maãu i

N toång soá giaù trò cuûa caùc maãu

7,3657

7974......12121

n

xn

ii

x

524.000x 1.270 .000x

Page 12: Giáo trình Phương pháp Nghiên cứu Khoa học 2

12

Thí dụ: Điểm trung bình học tập Môn học Số đơn vị học trình Điểm trung bình

Sinh Lý Học 4 8 Mô Học 3 7 Ngoại Ngữ 2 5 9

Điểm trung bình (các môn học): (8 + 7 + 5)/3 = 6,67 (hạng trung bình-khá) Điểm trung bình gia trọng: [(8 x 4) + (7 x 3) + (5 x 2)]/9 = 7,0 (hạng khá)

Thí dụ 2: Số ngày nằm viện trung bình theo töøng thaùng Tháng Xuất viện (số b/n) Số ngày nằm viện Trung bình

1 974 4.228 4,46 2 763 3.965 5,20 3 574 1.842 3,21 2.311

Trung bình (ngaøy nằm viện) cuûa caùc soá trung bình: (4,46 + 5,20 + 3,21)/3 = 4,29

Trung bình (ngaøy nằm viện) gia troïng:

[(4,46 x 974) + (5,20 x 763) + (3,21 x 574)]/2.311 = 4,39

Söï khaùc bieät giöõa 4,29 vaø 4,39 tuy khoâng lôùn veà giaù trò nhöng coù theå seõ aûnh höôûng raát lôùn veà

maët kinh teá khi tính toaùn caùc chi phí naèm vieän.

III. SOÁ ÑO KHUYNH HÖÔÙNG PHAÂN TAÙN (Measures of Dispersion) :

Soá ño phaân taùn chuyeån taûi thoâng tin veà khoái löôïng (möùc ñoä) bieán thieân hieän dieän

trong taäp hôïp soá lieäu.

1. Bieân ñoä(Range) :

R = xL – xs

Coâng duïng cuûa bieân ñoä raát giôùi haïn (vì chæ duøng coù 2 giaù trò).

Chuỗi thống kê của 57 giaù trò laø caân naëng tính baèng ounces cuûa 57 khoái u aùc tính laáy ra töø

buïng cuûa 57 beänh nhaân

12 12 12 16 19 21 22 22 23 23 23 24

24 25 25 25 27 27 27 27 28 28 28 28

30 30 31 31 32 32 36 36 38 38 42 42

42 43 43 43 44 45 46 47 49 49 49 50

51 51 57 63 65 68 69 74 79

Thí dụ: R = 79 – 12 = 67

Page 13: Giáo trình Phương pháp Nghiên cứu Khoa học 2

13

2. Phöông sai (Variance) :

Phöông sai cuûa moät taäp hôïp soá lieäu laø soá ño ñoä phaân taùn töông ñoái cuûa caùc giaù

trò (thuoäc taäp hôïp) xung quanh soá trung bình (cuûa taäp hôïp soá lieäu).

+ Phöông sai (cuûa) daân soá (Population Variance)

2

12N

xN

ii

N: soá giaù trò cuûa daân soá

+ Phöông sai (cuûa) maãu (Sample Variance)

Tröôøng hôïp maãu nhoû :

2

1

12

n

xxn

ii

S n: soá giaù trò cuûa maãu

Thí dụ:

Phöông sai caân naëng cuûa maãu goàm 57 khoái u aùc tính laø 251,7.

Tröôøng hôïp maãu lôùn :

1

2

12 1

2

nn

xxn

S

n

ii

n

ii

3. Ñoä leäch chuaån – ĐLC (Standard Deviation)

ÑLC laø soá ño ñoä phaân taùn gioáng nhö phöông sai, nhöng ñöôïc dieãn taû baèng ñôn

vò ño ban ñaàu. ÑLC ñöôïc tính baèng caùch ruùt caên 2 cuûa phöông sai.

ÑLC cuûa daân soá coù kyù hieäu (sigma), ÑLC cuûa maãu coù kyù hieäu laø s

Thí dụ: 251,7 15,9s (ounces)

2 2 2[(12 36,7) (12 36,7) ..... (79 36,7) ]2 251,757 1s

Page 14: Giáo trình Phương pháp Nghiên cứu Khoa học 2

14

IV. Baùch phaân vò vaø Töù phaân vò (Percentiles and Quartiles)

Baùch phaân vò laø caùc soá ño toùm taét chia moät chuoãi thoáng keâ thaønh 100 phaàn ñeàu nhau.

Phaàn traêm thöù k, goïi laø Pk, laø giaù trò maø ôû ñoù coù k% caùc soá ño nhoû hôn k, vaø

(100-k)% caùc soá ño lôùn hôn k.

P10 chæ baùch phaân vò thöù 10, P50 chæ baùch phaân vò thöù 50, v..v..

Töù phaân vò (quartiles) laø 3 soá ño chia chuoãi thoáng keâ thaønh 4 phaàn ñeàu nhau.

Baùch phaân vò thöù 25 thöôøng ñöôïc goïi laø Töù phaân vò thöù nhaát (Q1)

Baùch phaân vò thöù 50 (soá trung vò) thöôøng ñöôïc goïi laø Töù phaân vò thöù hai (hoaëc Töù phaân vò

giöõa – Q2)

Baùch phaân vò thöù 75 thöôøng ñöôïc goïi laø Töù phaân vò thöù ba (Q3)

Thí duï: chuoãi thoáng keâ coù giaù trò nhoû nhaát baèng 5 vaø giaù trò lôùn nhaát baèng 120. Chuoãi thoáng

keâ naøy ñöôïc phaân thaønh 100 phaàn ñeàu nhau. Caùc giaù trò ôû vò trí thöù 25, 50, vaø 75 chia chuoãi

soá lieäu thaønh 4 phaàn ñeàu nhau.

5 30 75 90 120

Vò trí thöù 25 Vò trí thöù 50 Vò trí thöù 75

(P25 – Q1) (P50 – Q2 – Median) (P75 – Q3)

P25 (Q1) = 30 Coù 25% caùc giaù trò cuûa chuoãi thoáng keâ nhoû hôn 30.

P50 (Q2) = 75 Coù 50% caùc giaù trò cuûa chuoãi thoáng keâ nhoû hôn 75.

P75 (Q3) = 90 Coù 75% caùc giaù trò cuûa chuoãi thoáng keâ nhoû hôn 90.

Thoâng thöôøng, baùch phaân vò vaø töù phaân vò ñöôïc tính trong caùc tröôøng hôïp taäp hôïp soá

lieäu lôùn.

Vò trí cuûa töù phaân vò coù theå ñöôïc tính nhö sau:

12 12 12 16 19 21 22 22 23 23 23 24

24 25 25 25 27 27 27 27 28 28 28 28

30 30 31 31 32 32 36 36 38 38 42 42

42 43 43 43 44 45 46 47 49 49 49 50

51 51 57 63 65 68 69 74 79

thn

Q

thn

Q

thn

Q

4

)1(3

4

)1(2

4

1

3

2

1

5,14

4

1571

Q

294

)157(22

Q

5,434

)157(33

Q

Page 15: Giáo trình Phương pháp Nghiên cứu Khoa học 2

15

+ ÔÛ vò trí thöù 14,5 laø soá ño mang giaù trò (25+25)/2 = 25 Q1 = 25 ounces

Coù 25% caùc giaù trò cuûa chuoãi soá lieäu nhoû hôn 25 ounces.

+ ÔÛ vò trí thöù 29 laø soá ño mang giaù trò 32 Q2 = 32 ounces

Coù 50% caùc giaù trò cuûa chuoãi soá lieäu nhoû hôn 32 ounces.

+ ÔÛ vò trí thöù 43,5 laø soá ño mang giaù trò (46+47)/2 = 46,5 Q3 = 46,5 ounces

Coù 75% caùc giaù trò cuûa chuoãi soá lieäu nhoû hôn 46,5 ounces.

Hoäp vaø Daây keùo (Box-and-Whisker Plots)

Laø coâng cuï hình aûnh ñeå trình baøy caùc töù phaân vò. Naêm böôùc ñeå veõ:

– Ñaët bieán soá leân truïc ngang (hoaønh)

– Veõ moät box vaøo khoaûng khoâng naèm treân truïc ngang vôùi caùc ñaëc ñieåm: ñaàu

beân traùi cuûa box öùng vôùi Q1, vaø ñaàu beân phaûi cuûa box öùng vôùi Q3.

– Chia box laøm 2 phaàn baèng 1 ñöôøng doïc öùng vôùi Q2.

– Keû 1 ñöôøng naèm ngang goïi laø whisker töø ñaàu traùi cuûa box ñeán ñieåm öùng vôùi

giaù trò nhoû nhaát cuûa chuoãi soá lieäu.

– Keû 1 ñöôøng naèm ngang khaùc, cuõng goïi laø whisker töø ñaàu phaûi cuûa box ñeán

ñieåm öùng vôùi giaù trò lôùn nhaát cuûa chuoãi soá lieäu.

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Q1 = 25 Q2 = 32 Q3 = 46,5

-----------------------------------------------------------------------------------------------------------------

TAØI LIEÄU THAM KHAÛO 1/ Wayne W. Daniel. Biostatistics: A foundation for analysis in the health sciences 7thedition.

John Wiley & Sons Inc, 1998.

2. Carol E. Osborn. Statistical Applications for Health Information Management. Massachusetts,

John and Barlett Publishers., 2006.

Page 16: Giáo trình Phương pháp Nghiên cứu Khoa học 2

16

Baøi 3

I. PHAÂN PHOÁI XAÙC SUAÁT (PPXS) CUÛA CAÙC BIEÁN SOÁ RÔØI

Ñònh nghóa: PPXS cuûa moät bieán soá ngaãu nhieân rôøi laø moät baûng, bieåu, coâng thöùc,

hoaëc coâng cuï khaùc ñöôïc söû duïng ñeå bieåu thò taát caû caùc giaù trò coù theå coù cuûa moät bieán soá

rôøi cuøng vôùi xaùc suaát töông öùng cuûa chuùng.

Thí duï: Moät nhaân vieân Ban DS-KHHGÑ phuï traùch 50 hoä gia ñình. Haõy thieát laäp PPXS cuûa

X, laø soá treû em cuûa töøng hoä, cho daân soá naøy.

Phaân phoái xaùc suaát cuûa soá treû em/hoä gia ñình trong 1 daân soá coù 50 gia ñình

x Taàn soá xuaát hieän P(X=x)

cuûa x (Soá hoä gia ñình) 0 1 1/50

1 4 4/50

2 6 6/50

3 4 4/50

4 9 9/50

5 10 10/50

6 7 7/50

7 4 4/50

8 2 2/50

9 2 2/50

10 1 1/50

50 50/50

Xaùc suaát

10/50

9/50

8/50

7/50

6/50

5/50

4/50

3/50

2/50

1/50

0

0 1 2 3 4 5 6 7 8 9 10 x

PHAÂN PHOÁI XAÙC SUAÁT

(Probability distributions)

Page 17: Giáo trình Phương pháp Nghiên cứu Khoa học 2

17

Ñaëc ñieåm chung: (1) 0 P(X=x) 1

(2) P (X=x) = 1

Dieãn giaûi:

+ Giaû söû nhaân vieân naøy choïn ngaãu nhieân moät hoä gia ñình ñeå ñi thaêm. Xaùc suaát ñeå thaêm

truùng moät hoä gia ñình coù 3 treû laø bao nhieâu?

Nhìn vaøo baûng PPXS: P(X=x) = 4/50 = 0,08 (8%)

Ñi thaêm 100 laàn ngaãu nhieân, seõcoù 8 laàn thaêm truùng vaøo hoä gia ñình coù 3 treû.

+ Xaùc suaát ñeå thaêm truùng moät gia ñình coù 3 hoaëc 4 treû laø bao nhieâu?

P(X=3 hoaëc X=4) = P(X=3) + P(X=4) = 0,26 (26%)

Ñi thaêm 100 laàn ngaãu nhieân, seõcoù 26 laàn thaêm truùng vaøo hoä gia ñình coù 3 treû hoaëc coù 4 treûû.

1.1. PPXS doàn (Cummulative Distrubitions)

Phaân phoái xaùc suaát doàn cuûa soá treû em/hoä gia ñình trong 1 daân soá coù 50 gia ñình

x Taàn soá xuaát hieän P(X=x) P(X x)

cuûa x (Soá hoä gia ñình) 0 1 1/50 1/50

1 4 4/50 5/50

2 6 6/50 11/50

3 4 4/50 15/50

4 9 9/50 24/50

5 10 10/50 34/50

6 7 7/50 41/50

7 4 4/50 45/50

8 2 2/50 47/50

9 2 2/50 49/50

10 1 1/50 50/50

50 50/50

Dieãn giaûi:

+ Tìm xaùc suaát ñeå thaêm truùng moät hoä gia ñình ñöôïc choïn ngaãu nhieân coù töø 5 con trôû leân?

P(X 5) = 1 – P(X < 5) = 1 – 0,48 = 0,52

+ Tìm xaùc suaát ñeå thaêm truùng moät hoä gia ñình ñöôïc choïn ngaãu nhieân coù töø 3 ñeán 6 con?

P(3 X 6) = P(X 6) – P(X < 3) = 4/50 – 11/50 = 0,82 – 0,22 = 0,60

1.2. Phaân Phoái Nhò Phaân (Binomial Distribution)

Laø moät trong caùc PPXS raát thöôøng gaëp trong thoáng keâ öùng duïng.

Tieán trình Bernoulli: bao goàm moät loaït caùc thöû nghieäm Bernoulli (Bernoulli trials) ñöôïc

tieán haønh lieân tieáp nhau döôùi nhöõng ñieàu kieän sau:

1. Moãi thöû nghieäm chæ cho ra moät trong hai keát quaû ñoäc laäp hoã töông. Moät loaïi keát quaû

ñöôïc ñaët laø thaønh coâng, vaø keát quaû coøn laïi ñöôïc ñaët laø thaát baïi.

Page 18: Giáo trình Phương pháp Nghiên cứu Khoa học 2

18

2. Xaùc suaát cuûa moät laàn thaønh coâng, goïi laø p, khoâng ñoåi töø thöû nghieäm sang thöû nghieäm

khaùc. Xaùc suaát cuûa 1 laàn thaát baïi, 1 – p, goïi laø q.

3. Caùc thöû nghieäm ñoäc laäp vôùi nhau; nghóa laø keát quaû cuûa 1 thöû nghieäm baát kyø khoâng bò

aûnh höôûng bôûi keát quaû cuûa baát kyø laàn thöû nghieäm naøo khaùc.

Thí duï: Taïi moät beänh vieän phuï saûn coù 52% soá saûn aùn ghi nhaän sinh con trai (xaùc suaát ñeå

choïn moät saûn aùn sinh con trai laø 0,52), neáu choïn ngaãu nhieân 5 saûn aùn töø daân soá saûn aùn cuûa

BV naøy thì xaùc suaát ñeå choïn ñöôïc ñuùng 3 saûn aùn sinh con trai laø bao nhieâu?

– Ñaët keát quaû choïn ñöôïc saûn aùn sinh con trai laø 1 vaø

keát quaû choïn ñöôïc saûn aùn sinh con gaùi laø 0

– Ñaët xaùc suaát cuûa 1 laàn thaønh coâng laø p (choïn ñöôïc saûn aùn sinh con trai)

xaùc suaát cuûa 1 laàn thaát baïi laø q (choïn ñöôïc saûn aùn sinh con gaùi)

– Giaû söû sau khi choïn 1 ñôït, coù keát quaû nhö sau: 10110

– Theo pheùp nhaân xaùc suaát,

P (1,0,1,1,0) = pqppq = p3q2

Neáu khoâng quan taâm ñeán thöù töï saûn aùn trong töøng ñôït ruùt maø chæ quan taâm ñeán vieäc ruùt

ñöôïc 3 saûn aùn sinh con trai thoâi thì coù caùc caùch ruùt sau:

Laàn ruùt Thöù töï

----------------------------------------------------------------------.

1 10110

2 11100

3 10011

4 11010

5 11001

6 10101

7 01110

8 00111

9 01011

10 01101

-----------------------------------------------------------------------

Xaùc suaát ñeå choïn ñöôïc saûn aùn sinh con trai cuûa moãi ñôït ruùt ñeàu baèng nhau (= p3q2).

Theo luaät (pheùp) coäng xaùc suaát, xaùc suaát ñeå ruùt 1 laàn ñöôïc 3 saûn aùn sinh con trai baèng:

10 (0,52)3 (0,48)2 = 10 (0,140608) (0,2304) = 0,32 (32%)

Ruùt 100 laàn moãi laàn 5 saûn aùn thì coù 32 laàn ruùt ñöôïc 5 saûn aùn maø trong ñoù coù 3 saûn aùn sinh

con trai.

Page 19: Giáo trình Phương pháp Nghiên cứu Khoa học 2

19

Qui ra coâng thöùc,

f(3) = 5C3 p3q5 – 3

Coâng thöùc chung:

xnx

xn qpCxf )( vôùi x = 0,1,2,…….. ..,n

Phaân phoái nhò phaân

II. PHAÂN PHOÁI XAÙC SUAÁT (PPXS) CUÛA CAÙC BIEÁN SOÁ LIEÂN TUÏC :

1. Giôùi thieäu :

Taàn

soá

20

18 16

14

12 10

8

6

4 2 9,5 19,5 29,5 39,5 49,5 59,5 69,5 79,5

X

Histogram cuûa 57 giaù trò caân naëng (ounces) cuûa caùc khoái u aùc tính:

Moãi hình chöõ nhaät (khoaûng caùch lôùp) coù ñaëc ñieåm

+ Chieàu roäng: khoaûng caùch giöõa 2 ñieåm (giaù trò) ñònh tröôùc treân truïc x

+ Beà cao: taàn soá cuûa caùc giaù trò naèm trong khoaûng 2 ñieåm naøy.

Taàn soá cuûa töøng KCL seõ ñöôïc tính baèng tæ leä töông öùng vôùi phaàn dieän tích giôùi haïn bôûi 2

ñieåm treân truïc x vaø beà cao cuûa hình chöõ nhaät.

Giaû söû tình huoáng bieán soá ngaãu nhieân lieân tuïc coù moät soá löôïng raát lôùn caùc giaù trò vaø KCL

ñöôïc chia raát nhoû, histogram coù theå seõ troâng gioáng nhö bieàu ñoà döôùi ñaây:

Page 20: Giáo trình Phương pháp Nghiên cứu Khoa học 2

20

f x

Neáu noái caùc ñieåm giöõa cuûa caùc KCL laïi ñeå thieát laäp ña giaùc taàn soá, chaéc chaén seõ ñöôïc 1

ñöôøng cong ít goùc caïnh hôn.

Giaû söû soá löôïng caùc giaù trò, n, tieán ñeán voâ cöïc, vaø beà roäng cuûa caùc KCL tieán ñeán 0, ña giaùc

taàn soá seõ coù daïng 1 ñöôøng cong troøn tròa

Caùc ñöôøng cong troøn tròa naøy thöôøng ñöôïc duøng ñeå bieåu thò phaân phoái cuûa caùc bieán soá lieân

tuïc. Caùc ñöôøng cong naøy coù ñaëc ñieåm nhö sau:

+ Toång dieän tích naèm beân döôùi ñöôøng cong baèng 1 (töông töï nhö cuûa histogram)

+ Taàn soá töông ñoái cuûa caùc giaù trò naèm giöõa 2 ñieåm treân truïc x baèng vôùi toång dieän

tích giôùi haïn bôûi ñöôøng cong, truïc x, vaø 2 ñöôøng thaúng ñöùng döïng leân töø 2 ñieåm naøy treân

truïc x.

Xaùc suaát cuûa baát kyø 1 giaù trò ñaëc hieäu naøo cuûa bieán soá naøy ñeàu baèng 0 (vì 1 giaù trò chæ ñöôïc

tieâu bieåu baèng 1 ñieåm treân truïc x, vaø vuøng dieän tích ôû phía treân 1 ñieåm baèng 0).

Ñònh nghóa: Moät haøm soá khoâng aâm f(x) ñöôïc goïi laø phaân phoái xaùc suaát cuûa 1 bieán soá ngaãu

nhieân lieân tuïc X neáu toång dieän tích giôùi haïn bôûi ñöôøng cong vaø truïc x cuûa noù baèng 1, vaø

neáu phaàn dieän tích naèm döôùi ñöôøng cong giôùi haïn bôûi ñöôøng cong, truïc x vaø caùc ñöôøng

thaúng ñöùng döïng leân töø 2 ñieåm a vaø b baát kyø cho bieát xaùc suaát cuûa X giöõa 2 ñieåm a vaø b.

2. PHAÂN PHOÁI BÌNH THÖÔØNG (Normal distribution)

Phaân phoái bình thöôøng (PPBT), coøn goïi laø phaân phoái Gauss (Gaussian

distribution), coù coâng thöùc bieåu thò:

ex

xf22 2/)(

2

1)(

, - < x < +

F(x)

x

a b

Page 21: Giáo trình Phương pháp Nghiên cứu Khoa học 2

21

x

Phaân phoái Bình thöôøng coù 2 thoâng soá laø , soá trung bình, vaø , ñoä leäch chuaån. Ñöôøng bieåu

dieãn laø ñöôøng cong hình chuoâng.

Ñaëc ñieåm:

1/ Ñoái xöùng xung quanh soá trung bình cuûa noù.

2/ Soá trung bình = soá trung vò = soá troäi

3/ Toång dieän tích döôùi ñöôøng cong baèng 1 ñôn vò vuoâng.

4/ Neáu döïng caùc ñöôøng thaúng ñöùng ôû caùch soá trung bình (1 khoaûng caùch baèng) 1 ÑLC veà

caû hai phía, phaàn dieän tích giôùi haïn bôûi 2 ñöôøng thaúng naøy, truïc x, vaø ñöôøng cong seõ

gaàn baèng 68% cuûa toång dieän tích (hình a).

Neáu nôùi roäng giôùi haïn beân moät khoaûng caùch baèng 2 ÑLC veà caû hai phía, phaàn dieän

tích giôùi haïn seõ gaàn baèng 95% (hình b), vaø con soá naøy seõ gaàn baèng 99,7% neáu khoaûng

caùch laø 3 ÑLC (hình c).

6

(a)

1 1 x

(b)

2 2 x

(c)

3 3 x

0,68

1 1

0,95

2 2 0,025 0,025

0,997

3 3 0,0015 0,0015

Page 22: Giáo trình Phương pháp Nghiên cứu Khoa học 2

22

5/ PPBT hoaøn toaøn ñöôïc xaùc ñònh bôûi caùc thoâng soá vaø . Nghóa laø coù raát nhieàu PPBT

ñöôïc xaùc ñònh bôûi caùc giaù trò vaø/hoaëc khaùc nhau, vaø chuùng hôïp thaønh moät hoï

(family) PPBT.

1 2 3 x

1 < 2 < 3

1 < 2 < 3 x

PHAÂN PHOÁI BÌNH THÖÔØNG CHUAÅN (Standard Normal Distribution)

Laø thaønh vieân quan troïng nhaát cuûa hoï PPBT, coøn goïi laø PPBT ñôn vò, vì coù

= 0 vaø = 1.

Bieán soá cuûa PPBT chuaån ñöôïc ñaët laø z vôùi z = (x – )/

Coâng thöùc tính PPBT chuaån

ez

zf2/2

2

1)(

, - < x < +

Ñeå tìm xaùc suaát cuûa giaù trò z naèm trong khoaûng xaùc ñònh bôûi 2 ñieåm baát kyø z0 vaø z1 treân

truïc z, phaûi tìm phaàn dieän tích giôùi haïn bôûi

1

2

3

= 1

µ z

Page 23: Giáo trình Phương pháp Nghiên cứu Khoa học 2

23

1caùc ñöôøng thaúng ñöùng döïng leân töø z0 vaø z1,

2 ñöôøng cong, vaø 3 truïc hoaønh.

Phaàn dieän tích naøy ñöôïc tính baèng pheùp tính tích phaân

dzezz

zz

2/21

0 2

1)(

Tuy nhieân, coù theå duøng baûng ñaõ tính saün ñeå tra ra caùc keát quaû tích phaân naøy.

Thí duï:

1/ Cho PPBT chuaån, tìm phaàn dieän tích döôùi ñöôøng cong, treân truïc z giöõa = – vaø z = 2.

Tra baûng thaáy z = 2 töông öùng vôùi phaàn dieän tích laø 0,9772.

Dieãn giaûi: 1 Xaùc suaát ñeå choïn ngaãu nhieân vaø tìm ñöôïc 1 giaù trò z naèm trong khoaûng ( – - 2)

laø 0,9772; hoaëc 2 Taàn soá töông ñoái cuûa caùc giaù trò cuûa z naèm trong khoaûng (– - 2) laø 97,72%; 3 92,72% caùc giaù trò cuûa z naèm trong khoaûng (– - 2) .

2/ Tính xaùc suaát ñeå choïn ngaãu nhieân ñöôïc moät z coù giaù trò trong khoaûng – 2,55 vaø + 2,55.

P(–2,55 < z < 2,55) = P(z < 2,55) – P(z < –2,55) = 0,9946 – 0,0054 = 0,9892

3/ Tìm P(z 2,71).

P(z 2,71) = 1 – P(z 2,71) = 1 – 0,9966 = 0,0034

ÖÙNG DUÏNG CUÛA PPBT

Moâ hình PPBT raát höõu ích vaø tieän lôïi hôn caùc moâ hình phöùc taïp khaùc trong vieäc tính xaùc

suaát cuûa moät soá bieán soá (coù phaân phoái bình thöôøng hoaëc gaàn nhö bình thöôøng)

Thí duï:

1/ Trong 1 nghieân cöùu veà beänh Alzheimer, veà troïng löôïng cuûa naõo beänh nhaân, ngöôøi ta

tính ñöôïc µ = 1076,80 grams vaø = 105,76 grams. Ñöôïc bieát (bieán soá) troïng löôïng naõo

cuûa beänh nhaân bò Alzheimer phaân phoái gaàn nhö bình thöôøng, haõy tìm xaùc suaát ñeå choïn

ngaãu nhieân ñöôïc 1 beänh nhaân coù naõo naëng < 800 grams.

– veõ hình phaân phoái

– chuyeån soá lieäu töø x sang z (PPBT chuaån):

xz 62,2

76,105

80,1076800

z

Page 24: Giáo trình Phương pháp Nghiên cứu Khoa học 2

24

– trình baøy

0044,062,276,105

80,1076800)800(

zPzPxP

Xaùc suaát ñeå choïn ngaãu nhieân ñöôïc moät beänh nhaân coù naõo naëng < 800 grams laø 0,0044.

2/ Bieát ñöôïc chieàu cao cuûa moät daân soá coù 10.000 ngöôøi phaân phoái gaàn nhö bình thöôøng

vôùi trung bình baèng 70 inches vaø ÑLC baèng 3 inches.

a/ Tính xaùc suaát ñeå choïn ngaãu nhieân ñöôïc 1 ngöôøi coù chieàu cao trong khoaûng

65 vaø 74 inches.

Vôùi x = 65 67,13

7065

z

Vôùi x = 74 33,13

7074

z

µ = 1.076,8

= 105,76

µ = 0

= 1

x

z

800

-2.62

Page 25: Giáo trình Phương pháp Nghiên cứu Khoa học 2

25

65 70 74 70

P 65 x 74 P z3 3

= P(– 1,67 z 1,33)

= P(– z 1,33) – P(– z –1,67)

= 0,9082 – 0,0475

= 0,8607

Xaùc suaát tìm ñöôïc laø 0,8607.

b/ Tính xem coù bao nhieâu ngöôøi 77 inches.

Xaùc suaát ñeå 1 ngöôøi ñöôïc choïn ngaãu nhieân coù chieàu cao 77 inches,

77 70

P(x 77) P z P(z 2,33) 1 0,9901 0,00993

Coù 10.000 (0,0099) = 99 ngöôøi coù chieàu cao > 77 inches.

-----------------------------------------------------------------------------------------------------------------------------

µ = 70

= 3

µ = 0

= 1

-1,67 1,33

65 74 x

z

Page 26: Giáo trình Phương pháp Nghiên cứu Khoa học 2

26

Baøi 4

PHAÂN PHOÁI MAÃU

(Sampling Distributions)

I. GIÔÙI THIEÄU

Phaân phoái (PP) maãu laø chìa khoùa ñeå hieåu ñöôïc caùc suy luaän thoáng keâ.

Vieäc hieåu bieát PPXS (ñaõ hoïc trong baøi 3) nhaèm hai muïc ñích:

1 Tìm lôøi giaûi cho caùc caâu hoûi veà xaùc suaát cuûa caùc soá thoáng keâ cuûa maãu 2 Cung caáp neàn taûng lyù thuyeát caàn thieát cho vieäc ñöa ra nhöõng suy luaän thoáng keâ

ñuùng ñaén.

PP maãu nhaèm vaøo muïc ñích thöù nhaát.

Ñònh nghóa

PP. cuûa taát caû caùc giaù trò ñöôïc xem laø caùc soá thoáng keâ (statistics) tính ñöôïc töø caùc

maãu (samples) coù cuøng kích thöôùc maãu (sample size) ruùt ngaãu nhieân töø cuøng moät

daân soá, ñöôïc goïi laø PP. maãu cuûa soá thoáng keâ ñoù.

Caùc böôùc thieát laäp PP. maãu

+ Töø moät daân soá höõu haïn coù kích thöôùc N, ruùt ngaãu nhieân taát caû caùc maãu (coù theå

ruùt ñöôïc) coù kích thöôùc n.

+ Tính soá thoáng keâ coù lieân quan cho töøng maãu

+ Laäp baûng phaân phoái taàn soá cho caùc soá thoáng keâ tính ñöôïc naøy.

Ñaëc ñieåm quan troïng

03 ñieàu caàn ñöôïc bieát veà 1 PP. maãu: soá trung bình, phöông sai, vaø daïng haøm soá.

Vieäc thieát laäp PP. maãu theo 3 böôùc noùi treân seõ trôû neân raát khoù khaên vôùi daân soá coù

kích thöôùc lôùn, vaø trôû neân baát khaû thi khi gaëp daân soá voâ haïn. Caùch toát nhaát ñeå giaûi

quyeát 2 vaán ñeà naøy laø duøng caùc lyù thuyeát toaùn hoïc ñeå tính gaàn ñuùng PP. maãu cuûa 1

soá thoáng keâ.

II. PP. (CUÛA SOÁ) TRUNG BÌNH MAÃU (Distribution of the Sample Mean)

Thí duï daãn nhaäp

Giaû söû coù 1 daân soá coù kích thöôùc N = 5 (tuoåi cuûa 5 ñöùa treû ñieàu trò ngoaïi truù taïi

PKSK Taâm Thaàn Quaän) vôùi x1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14.

Soá trung bình (daân soá): 105

50

ix

Phöông sai (daân soá):

85

402

2

N

xi

Page 27: Giáo trình Phương pháp Nghiên cứu Khoa học 2

27

Phöông sai:

104

40

1

2

2

N

xS

i

(tính caùch khaùc)

Thieát laäp PP. maãu cuûa soá trung bình maãu, x , döïa treân kích thöôùc maãu n = 2 ruùt ra töø daân

soá naøy. Ruùt taát caû caùc maãu coù theå ruùt ñöôïc vôùi n = 2 töø daân soá naøy theo caùch “ñeå laïi” (with

replacement), nghóa laø ruùt ra xem keát quaû xong thì traû laïi vaøo daân soá; toång soá maãu ruùt ñöôïc

baèng Nn = 25

RUÙT LAÀN 2

6 8 10 12 14

6 6, 6 8, 6 10, 6 12, 6 14, 6

RUÙT (6) (7) (8) (9) (10)

8 6, 8 8, 8 10, 8 12, 8 14, 8

LAÀN (7) (8) (9) (10) (11)

10 6, 10 8, 10 10, 10 12, 10 14, 10

1 (8) (9) (10) (11) (12)

12 6, 12 8, 12 10, 12 12, 12 14, 12

(9) (10) (11) (12) (13)

14 6, 14 8, 14 10, 14 12, 14 14, 14

(10) (11) (12) (13) (14)

(Soá trong ngoaëc laø soá trung bình, x )

Laäp baûng phaân phoái taàn soá cuûa x

x Taàn soá Taàn soá töông ñoái

6

7

8

9

10

11

12

13

14

1

2

3

4

5

4

3

2

1

1/25

2/25

3/25

4/25

5/25

4/25

3/25

2/25

1/25

Toång 25 25/25

Daïng haøm soá cuûa PP. daân soá: Phaân phoái ñôn ñeàu

Page 28: Giáo trình Phương pháp Nghiên cứu Khoa học 2

28

f ( x ) 6 5 4 3 2 1 6 8 10 12 14 x

Daïng haøm soá cuûa PP. trung bình maãu: phaân phoái daïng bình thöôøng

f ( x ) 6

5

4

3

2

1

6 7 8 9 10 11 12 13 14 x

Tính thoâng soá cuûa PP. Trung bình maãu

i

nx

x 6 7 8 .... 14 25010

25 25N

soá trung bình cuûa PP. trung bình maãu (x

) baèng soá trung bình cuûa daân soá goác ( = 10)

2 2 2 2i2 xnx

(x ) (6 10) (7 10) ... (14 10)

25N

= 100

425

Phöông sai cuûa PP. maãu (2

x ) khoâng baèng phöông sai daân soá, maø baèng phöông sai daân soá

chia cho kích thöôùc maãu

Page 29: Giáo trình Phương pháp Nghiên cứu Khoa học 2

29

22

x

84

n 2

Caên soá baäc 2 cuûa phöông sai cuûa PP. maãu, 2

x n

, ñöôïc goïi laø sai soá chuaån cuûa soá

trung bình, hoaëc goïi ñôn giaûn laø sai soá chuaån (standard error).

Ñaëc ñieåm cuûa PP. Trung bình maãu

Khi laáy maãu theo caùch “ñeå laïi” hoaëc laáy maãu töø 1 daân soá voâ haïn

1. Töø moät daân soá phaân phoái bình thöôøng, PP. Trung bình maãu coù nhöõng ñaëc ñieåm sau:

+ PP. cuûa x seõ bình thöôøng

+ Soá trung bình, x

, cuûa phaân phoái x seõ baèng vôùi soá trung bình cuûa daân soá, , maø

töø ñoù caùc maãu ñöôïc ruùt ra.

+ Phöông sai, 2

x , cuûa phaân phoái x seõ baèng phöông sai cuûa daân soá chia cho kích

thöôùc maãu.

2. Töø moät daân soá phaân phoái khoâng bình thöôøng

Lyù thuyeát giôùi haïn trung taâm (Central Limit Theorem)

Cho moät daân soá coù daïng haøm soá khoâng bình thöôøng vôùi soá trung bình laø vaø

phöông sai höõu haïn 2, phaân phoái maãu cuûa x (laø caùc soá trung bình tính ñöôïc töø caùc maãu coù

kích thöôùc n töø daân soá naøy) seõ coù soá trung bình x

= vaø phöông sai 2

x = 2 / n vaø seõ

phaân phoái gaàn nhö bình thöôøng khi kích thöôùc maãu lôùn.

Trong thöïc tieãn, kích thöôùc maãu baèng 30 ñöôïc xem laø ñuû lôùn. Noùi chung, PP. Trung bình

maãu caøng gaàn vôùi bình thöôøng hôn khi kích thöôùc maãu caøng lôùn.

Laáy maãu “Khoâng ñeå laïi” (without replacement)

Trong haàu heát caùc tình huoáng thöïc teá, vieäc laáy maãu nhaát thieát phaûi ñöôïc thöïc hieän vôùi 1

daân soá höõu haïn vaø PP. Trung bình maãu trong nhöõng ñieàu kieän naøy cuõng coù phaàn naøo thay

ñoåi.

Vôùi thí duï daãn nhaäp, neáu vieäc laáy maãu ñöôïc tieán haønh theo caùch “khoâng ñeå laïi” vaø khoâng

quan taâm ñeán thöù töï ñöôïc ruùt ra cuûa caùc giaù trò (trong caùc maãu), thì chæ coù 10 maãu (5C2).

Soá trung bình cuûa phaân phoái x:

i

xN n

x 7 8 9 ... 13 10010

C 10 10

Soá trung bình cuûa PP. maãu cuõng baèng vôùi soá trung bình daân soá.

Page 30: Giáo trình Phương pháp Nghiên cứu Khoa học 2

30

Phöông sai cuûa PP. maãu

2

i2 x

xN n

(x ) 303

C 10

Phöông sai cuûa PP. Trung bình maãu, 2

x , khoâng baèng 42

82

n maø baèng

33

25

2

8

1

2

N

nN

n

(Neáu kích thöôùc maãu lôùn, lyù thuyeát giôùi haïn trung taâm seõ ñöôïc aùp duïng vaø x seõ phaân phoái

gaàn nhö bình thöôøng)

Yeáu toá 1

N

nN ñöôïc goïi laø yeáu toá ñieàu chænh daân soá höõu haïn (finite population

correction) vaø coù theå ñöôïc boû qua khi kích thöôùc maãu töông ñoái nhoû so vôùi daân soá.

(n / N 0,05)

TOÙM TAÉT PHAÂN PHOÁI TRUNG BÌNH MAÃU

1. Khi vieäc laáy maãu ñöôïc thöïc hieän treân 1 daân soá phaân phoái bình thöôøng vôùi phöông sai

bieát tröôùc:

a. x

=

b. x

/ n

c. Phaân phoái trung bình maãu laø phaân phoái bình thöôøng

2. Khi vieäc laáy maãu ñöôïc thöïc hieän treân 1 daân soá phaân phoái khoâng bình thöôøng vôùi

phöông sai bieát tröôùc:

a. Soá trung bình x

=

b. Sai soá chuaån x

/ n khi n / N 0,05

x

N n( / n )

N 1

khi n / N > 0,05

c. Phaân phoái trung bình maãu laø phaân phoái gaàn nhö bình thöôøng

Page 31: Giáo trình Phương pháp Nghiên cứu Khoa học 2

31

Thí duï aùp duïng

Giaû söû ngöôøi ta bieát ñöôïc raèng chieàu daøi hoäp soï cuûa 1 daân soá ngöôøi phaân phoái gaàn nhö bình

thöôøng vôùi soá trung bình laø 185,6 mmm vaø ÑLC baèng 12,7 mmm. Xaùc suaát ñeå tìm thaáy 1

maãu coù n = 10 (ruùt ra töø daân soá naøy) coù soá trung bình, x , lôùn hôn 190 laø bao nhieâu?

+ Maãu khaûo saùt naøy (n = 10) chæ laø moät trong raát nhieàu maãu coù n = 10 ruùt ra töø daân soá,

nhö vaäy soá trung bình cuûa noù seõ laø 1 trong raát nhieàu x caáu taïo neân phaân phoái trung bình

maãu ((phaùt xuaát töø daân soá naøy)

+ Daân soá khaûo saùt phaân phoái gaàn nhö bình thöôøng, nhö vaäy PP. Trung bình maãu cuõng phaân

phoái gaàn nhö bình thöôøng vôùi

x

= = 185,6 vaø x = 12,7 / 10 = 4,02

(giaû ñònh laø daân soá töông ñoái lôùn so vôùi maãu

neân coù theå boû qua heä soá ñieàu chænh daân soá höõu haïn)

+ AÙp duïng PP. bình thöôøng chuaån ñeå tính vôùi coâng thöùc tính z bieán ñoåi

xx

z/ n

Page 32: Giáo trình Phương pháp Nghiên cứu Khoa học 2

32

190 185,6 4, 4

z 1,094,02 4,02

P(z > 1,09) = 1 – P(z 1,09) = 1 – 0,8621 = 0,1379

Xaùc suaát ñeå choïn ñöôïc moät maãu n = 10 coù x > 190 laø 13,79%.

III. PHAÂN PHOÁI HIEÄU CUÛA 2 TRUNG BÌNH MAÃU

(Distribution of the Difference Between Two Sample Means)

Giôùi thieäu

Vieäc khaûo saùt 2 daân soá ñeå tìm hieåu xem soá trung bình cuûa chuùng coù khaùc nhau khoâng, vaø

ñoä lôùn cuûa söï khaùc bieät giöõa chuùng (hieäu soá) laø bao nhieâu raát thöôøng ñöôïc tieán haønh trong

thöïc teá. Söï hieåu bieát veà PP. Hieäu cuûa 2 trung bình maãu raát höõu ích trong tröôøng hôïp naøy.

Thí duï chöùng minh: Giaû söû coù 2 daân soá – daân soá 1 ñaõ töøng maéc moät soá beänh coù lieân quan

vôùi chaäm phaùt trieån taâm thaàn (mental retardation), vaø daân soá 2 chöa töøng maéc caùc beänh coù

lieân quan naøy. Heä soá thoâng minh (HSTM) cuûa hai daân soá naøy ñöôïc xem laø phaân phoái gaàn

nhö bình thöôøng vôùi ÑLC baèng 20.

Giaû söû töø moãi daân soá laáy 1 maãu coù n = 15, tính trung bình HSTM vaø coù keát quaû

1x = 92 vaø 2x = 105. Neáu khoâng coù söï khaùc bieät giöõa 2 daân soá, xeùt veà maët soá trung bình

thöïc söï cuûa HSTM, thì xaùc suaát ñeå tìm ñöôïc 1 hieäu lôùn baèng hoaëc lôùn hôn 2 1x x laø bao

nhieâu.

1,09

Page 33: Giáo trình Phương pháp Nghiên cứu Khoa học 2

33

Thieát laäp PP. maãu cuûa 2 1x x

+ Ruùt taát caû caùc maãu (coù theå ruùt ñöôïc) coù n1 = 15 töø daân soá 1

Ruùt taát caû caùc maãu (coù theå ruùt ñöôïc) coù n2 = 15 töø daân soá 2

+ Tính trung bình cho taát caû caùc maãu treân.

+ Laáy hieäu cuûa töøng caëp soá trung bình maãu (1 töø daân soá 1, vaø 1 töø daân soá 2)

+ Laäp phaân phoái maãu cho caùc hieäu ñaõ tính ñöôïc naøy.

Ñaëc ñieåm cuûa PP. hieäu 2 trung bình maãu

+ Phaân phoái bình thöôøng

+ Soá trung bình 2 1x x

= 2 – 1

+ Sai soá chuaån 2 1x x =

nn 2

2

2

1

2

1

Thí duï treân cho thaáy phaân phoái hieäu 2 trung bình maãu laø moät phaân phoái bình thöôøng vôùi

Soá trung bình : 2 – 1 = 0 (1 vaø 2 khoâng khaùc nhau), vaø

Phöông sai : 2 1x x = 2 2

1 1 2 2/ n / n = [(20)2 / 15 + (20)2 / 15] = 53,33

Chuyeån qua z : z = 2 1 2 1

2 21 2

1 2

(x x ) ( )

n n

Phaàn dieän tích döôùi ñöôøng cong cuûa 2 1x x töông öùng vôùi xaùc suaát ñang tìm laø phaàn

dieän tích naèm beân phaûi cuûa 2 1x x = 105 – 93 = 13. Giaù trò cuûa z töông öùng vôùi 13

trong tröôøng hôïp khoâng coù söï khaùc bieät giöõa 2 trung bình daân soá ñöôïc tính

z = 13 0

53,3

=

13

53,3 = 1,78

Tra baûng tìm xaùc suaát, dieän tích döôùi ñöôøng cong phaân phoái bình thöôøng chuaån ôû beân phaûi

cuûa 1,78 baèng 0,0375 (1 – 0,9625) .

Neáu khoâng coù söï khaùc nhau giöõa hai soá trung bình daân soá, xaùc suaát ñeå tìm thaáy hieäu cuûa 2

soá trung bình maãu lôùn baèng hoaëc lôùn hôn 13 laø 0,0375.

Page 34: Giáo trình Phương pháp Nghiên cứu Khoa học 2

34

Laáy maãu töø caùc daân soá PP. bình thöôøng

Tieán trình tính toaùn noùi treân vaãn ñuùng khi 2 maãu coù kích thöôùc khaùc nhau n1 n2, vaø

khi phöông sai daân soá khaùc nhau 1 2.

Laáy maãu töø caùc daân soá phaân phoái khoâng bình thöôøng hoaëc khoâng bieát daïng phaân phoái:

Laáy maãu lôùn ñeå aùp duïng lyù thuyeát giôùi haïn trung taâm.

IV. PHAÂN PHOÁI TÆ LEÄ MAÃU (Distribution of the Sample Proportion)

Thí duï chöùng minh: Giaû söû trong moät daân soá coù 8% soá ngöôøi bò muø maøu (p = 0,08).

Neáu choïn ngaãu nhieân 150 ngöôøi töø daân soá naøy thì xaùc suaát ñeå coù ñöôïc tæ leä muø maøu (cuûa

maãu) lôùn baèng hoaëc lôùn hôn 0,15 laø bao nhieâu.

Thieát laäp PP. maãu cuûa p̂

(Caùch tieán haønh gioáng heät nhö caùch tieán haønh thieát laäp PP. trung bình maãu).

+ Ruùt taát caû caùc maãu (coù theå ruùt ñöôïc) coù n = 150 töø daân soá

+ Tính tæ leä maãu (sample proportion) p̂ cho taát caû caùc maãu treân.

+ Laäp phaân phoái maãu cho caùc p̂ ñaõ tính ñöôïc naøy.

Page 35: Giáo trình Phương pháp Nghiên cứu Khoa học 2

35

Ñaëc ñieåm cuûa PP. Tæ leä maãu: khi côõ maãu lôùn, PP. Tæ leä maãu phaân phoái gaàn nhö bình

thöôøng (theo lyù thuyeát giôùi haïn trung taâm). Soá trung bình cuûa phaân phoái, p̂baèng trung

bình coäng cuûa taát caû caùc tæ leä maãu), seõ baèng vôùi tæ leä daân soá p, vaø phöông sai cuûa phaân

phoái 2

p̂ seõ baèng p (1 – p) /n.

Ñeå traû lôøi caâu hoûi, duøng PP. bình thöôøng chuaån vôùi

z =

n

pp

pp

)1(

ˆ

=

00049,0

08,015,0 =

0222,0

07,0= 3,15

Tra baûng PP.bình thöôøng ñeå tìm ñöôïc p(z = 3,15) = 1 – 0,9992 = 0,0008. Xaùc suaát ñeå tìm

thaáy moät p̂ 0,15 cuûa moät maãu coù n = 150 töø moät daân soá coù p = 0,08 laø 0,08%. Vieäc ruùt

ñöôïc moät maãu nhö theá naøy, trong thöïc teá, ñöôïc xem laø hieám xaûy ra.

Vaán ñeà kích thöôùc maãu lôùn ñeå coù theå chuyeån töø PP. nhò phaân sang PP. bình thöôøng

Tieâu chuaån thöôøng ñöôïc aùp duïng laø khi caû np vaø n(1 – p) ñeàu > 5.

(Vôùi n = 150 vaø p cuûa daân soá baèng 0,08: np (150 x 0,08) = 12, vaø nq (150 x 0,92) = 138

ñeàu lôùn hôn 5)

V. PHAÂN PHOÁI HIEÄU 2 TÆ LEÄ MAÃU

(Distribution of the Difference between Two Sample Proportions)

Ñaëc ñieåm cuûa phaân phoái hieäu 2 tæ leä maãu: Neáu 2 maãu ñoäc laäp coù kích thöôùc maãu n1 vaø n2 ñöôïc ruùt ngaãu nhieân töø 2 daân soá coù caùc bieán soá nhò phaân vôùi tæ leä (ñaëc ñieåm ñöôïc quan taâm)

Page 36: Giáo trình Phương pháp Nghiên cứu Khoa học 2

36

laàn löôït laø 1p vaø 2p thì phaân phoái hieäu cuûa 2 tæ leä maãu 1 2

ˆ ˆp p seõ phaân phoái gaàn nhö bình

thöôøng vôùi :

Soá trung bình : pppp 21ˆˆ21

Sai soá chuaån: 2

22

1

11

ˆˆ

)1()1(

21 n

pp

n

pppp

khi n1 vaø n2 lôùn.

Thieát laäp phaân phoái maãu cuûa 21ˆˆ pp

+ Ruùt taát caû caùc maãu (coù theå ruùt ñöôïc) coù kích thöôùc maãu laø n1 töø daân soá 1

Ruùt taát caû caùc maãu (coù theå ruùt ñöôïc) coù kích thöôùc maãu laø n2 töø daân soá 2

+ Tính tæ leä maãu cho taát caû caùc maãu treân.

+ Laáy hieäu cuûa töøng caëp tæ leä maãu (1 töø daân soá 1, vaø töø daân soá 2).

+ Laäp phaân phoái maãu cho caùc hieäu ñaõ tính ñöôïc naøy.

Xaùc suaát cuûa hieäu 2 tæ leä maãu ñöôïc tính baèng

2

22

1

11

2121

11

ˆˆ

n

pp

n

pp

ppppz

Thí duï chöùng minh : Giaû söû tæ leä cuûa ngöôøi nghieän ma tuùy vöøa vaø naëng trong daân soá thöù 1

baèng 0,50 vaø trong daân soá thöù hai baèng 0,33. Tính xaùc suaát tìm thaáy 21ˆˆ pp lôùn baèng

hoaëc lôùn hôn 0,30 ?

Giaû ñònh laø phaân phoái maãu cuûa 21ˆˆ pp laø phaân phoái gaàn nhö bình thöôøng vôùi

17,033,050,0ˆˆ

21

pp

004711,0100

50,050,0

100

67,033,0ˆˆ

2

21

pp

Page 37: Giáo trình Phương pháp Nghiên cứu Khoa học 2

37

Phaàn dieän tích töông öùng vôùi xaùc suaát caàn tìm laø dieän tích naèm döôùi ñöôøng cong

21ˆˆ pp veà phía beân traùi cuûa 0,30.

89,1004711,0

17,030,0

)1()1(

)()ˆˆ(

2

22

1

11

2121

n

pp

n

pp

ppppz

Tra baûng tìm thaáy dieän tích naèm döôùi ñöôøng cong phaân phoái bình thöôøng chuaån ôû

phía beân phaûi cuûa 1,89 baèng 1 - 0,9706 = 0,0294. Xaùc suaát ñeå tìm thaáy moät hieäu lôùn hôn

hoaëc lôùn baèng 0,30 laø 2,94%.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Page 38: Giáo trình Phương pháp Nghiên cứu Khoa học 2

38

Baøi 5

PHEÙP ÖÔÙC LÖÔÏNG

(Estimation)

I. GIÔÙI THIEÄU

Thoáng keâ suy luaän: laø tieán trình qua ñoù chuùng ta coù theå ñaït ñöôïc keát luaän veà moät daân

soá treân cô sôû caùc thoâng tin chöùa trong 1 maãu ruùt ra töø daân soá ñoù.

Öôùc löôïng laø moät trong 2 lónh vöïc chung cuûa thoáng keâ suy luaän. Tieán trình öôùc löôïng

nhö vaäy seõ bao goàm vieäc tính toaùn, töø soá lieäu cuûa maãu, moät soá soá thoáng keâ ñöôïc xem nhö

ñaïi bieåu gaàn ñuùng cuûa thoâng soá töông öùng cuûa daân soá (maø töø ñoù maãu ñöôïc ruùt ra).

Cô sôû lyù luaän cuûa pheùp öôùc löôïng trong lónh vöïc khoa hoïc söùc khoûe döïa treân giaû ñònh

raèng ngöôøi laøm coâng taùc y teá quan taâm ñeán nhöõng thoâng soá, nhö soá trung bình vaø tæ leä, cuûa

caùc daân soá khaùc nhau; vaø nhö vaäy, coù 2 lyù do giaûi thích taïi sao caàn phaûi öôùc löôïng. Lyù do

thöù nhaát: Haàu heát caùc daân soá, tuy laø höõu haïn, nhöng cuõng khoâng theå khaûo saùt toaøn boä

(100%) ñöôïc do vaán ñeà chi phí. Lyù do thöù hai: khoâng coù khaû naêng khaûo saùt ñaày ñuû caùc

daân soá voâ haïn.

Ñoái vôùi moãi thoâng soá, coù theå tính ñöôïc 2 loaïi soá öôùc löôïng: soá öôùc löôïng ñieåm (point

estimate) vaø soá öôùc löôïng khoaûng (interval estimate).

Ñònh nghóa:

+ Soá öôùc löôïng ñieåm laø moät giaù trò ñôn baèng soá ñöôïc duøng ñeå öôùc löôïng thoâng soá töông

öùng cuûa daân soá.

+ Soá öôùc löôïng khoaûng goàm coù 2 giaù trò baèng soá xaùc ñònh 1 khoaûng caùc giaù trò, vôùi 1 ñoä

tin caäy cho tröôùc, maø chuùng ta tin raèng seõ bao goàm thoâng soá ñang ñöôïc öôùc löôïng.

Coâng Cuï Öôùc Löôïng (Estimator) thích hôïp

Coâng cuï öôùc löôïng laø qui taéc tính caùc soá öôùc löôïng, thöôøng ñöôïc trình baøy döôùi daïng coâng

thöùc. Thí duï:

x = n

xi

laø moät coâng cuï öôùc löôïng cuûa soá trung bình daân soá . Giaù trò ñôn baèng soá laø keát quaû cuûa

coâng thöùc naøy, x , ñöôïc goïi laø soá öôùc löôïng cuûa thoâng soá .

Daân soá choïn maãu (Sampled Population) vaø daân soá ñích (Target Population)

+ Daân soá choïn maãu laø daân soá maø töø ñoù ngöôøi ta thöïc söï ruùt 1 maãu ra.

+ Daân soá ñích laø daân soá maø ngöôøi ta muoán tìm moät keát luaän cho noù.

Hai daân soá naøy coù theå gioáng nhau hoaëc khaùc nhau. Caùc phöông phaùp suy luaän thoáng keâ

chæ cho pheùp ruùt ra nhöõng keát luaän veà daân soá choïn maãu (vôùi ñieàu kieän phaûi aùp duïng

phöông phaùp choïn maãu thích hôïp). Neáu:

– Daân soá choïn maãu = daân soá ñích: keát luaän veà daân soá ñích mang tính suy luaän thoáng keâ.

Page 39: Giáo trình Phương pháp Nghiên cứu Khoa học 2

39

– Daân soá choïn maãu daân soá ñích: keát luaän veà daân soá ñích chæ döïa treân caùc xem xeùt

khoâng mang tính thoáng keâ.

Maãu ngaãu nhieân (Random sample) vaø Maãu khoâng ngaãu nhieân (Nonrandom sample)

Maãu ngaãu nhieân: Neáu 1 maãu coù kích thöôùc n ñöôïc ruùt ra töø moät daân soá N theo caùch

maø taát caû caùc maãu coù kích thöôùc n (coù theå ruùt ra ñöôïc töø N) ñeàu coù cô hoäi baèng nhau

ñeå ñöôïc ruùt ra, thì maãu naøy ñöôïc goïi laø maãu ngaãu nhieân.

Ñoä chính xaùc cuûa caùc suy luaän thoáng keâ phuï thuoäc raát lôùn vaøo maãu ngaãu nhieân.

Maãu khoâng ngaãu nhieân (Maãu thuaän tieän): laø maãu ñöôïc laáy khoâng theo caùch ngaãu

nhieân. Vieäc toång quaùt hoùa keát quaû phaûi döïa nhieàu treân nhöõng xem xeùt khoâng coù tính

thoáng keâ.

II. KHOAÛNG TIN CAÄY CHO TRUNG BÌNH DAÂN SOÁ

(Confidence Interval for a Population Mean)

Ruùt moät maãu ngaãu nhieân coù kích thöôùc n töø 1 daân soá phaân phoái bình thöôøng, tính x .

Tuy coù theåå duøng x laøm soá öôùc löôïng ñieåm cho , nhöng khoâng theå kyø voïng laø x baèng

ñöôïc (vì tính khoâng nhaát quaùn cuûa caùch choïn maãu). Do vaäy, öôùc löôïng baèng 1 khoaûng

(interval) seõ phaàn naøo chuyeån taûi ñöôïc caùc thoâng tin veà ñoä lôùn coù theå coù cuûa hôn.

Phaân phoái maãu vaø Pheùp öôùc löôïng

Nhaéc laïi ñaëc ñieåm cuûa PP. Trung bình maãu

Neáu vieäc laáy maãu ñöôïc tieán haønh treân 1 daân soá PP. bình thöôøng thì PP. Trung bình maãu

cuõng PP. Bình thöôøng vôùi x

vaø 2

x =

n

2. Tính chaát PP. Bình thöôøng cuûa x

giuùp bieát ñöôïc raèng coù khoaûng 95% caùc giaù trò cuûa x (giuùp caáu taïo neân phaân phoái) naèm

trong khoaûng 2 ÑLC tính töø soá trung bình. Hai ñieåm caùch ñeàu soá trung bình 1 khoaûng baèng

2 ÑLC laø ( - x

2 ) vaøø ( +x

2 ), nhö vaäy khoaûng caùch x

2 seõ chöùa khoaûng 95% caùc

giaù trò coù theå coù cuûa x .

Pheùp öôùc löôïng

Vì khoâng bieát giaù trò cuûa neân bieåu thöùc x

2 seõ khoâng coù yù nghóa gì lôùn. Tuy nhieân,

vôùi soá öôùc löôïng ñieåm cuûa laø x , vaán ñeà coù theå giaûi quyeát ñöôïc. Giaû söû döïng ñöôïc caùc

khoaûng caùch ñeàu 2 beân cho taát caû caùc x (tính ñöôïc töø taát caû caùc maãu coù kích thöôùc n ruùt ra

töø daân soá coù lieân quan), chuùng ta seõ coù 1 soá löôïng raát lôùn caùc khoaûng caùch coù daïng xx 2

coù beà roäng baèng vôùi beà roäng cuûa khoaûng caùch xung quanh (maø ta khoâng bieát). Gaàn 95%

cuûa caùc khoaûng naøy chaéc chaén seõ coù taâm ñieåm naèm trong khoaûng x

2 xung quanh . Moãi

khoaûng coù taâm ñieåm naèm trong khoaûng x

2 xung quanh seõ chöùa .

Page 40: Giáo trình Phương pháp Nghiên cứu Khoa học 2

40

Thí duï chöùng minh: Giaû söû moät nhaø nghieân cöùu quan taâm taâm ñeán vieäc tìm soá öôùc löôïng

cuûa noàng ñoä trung bình cuûa 1 soá enzymes cuûa daân soá ngöôøi. Laáy 1 maãu 10 ngöôøi, ño noàng

ñoä enzyme cho töøng ngöôøi roài tính trung bình maãu, ñöôïc x = 22. Giaû söû bieát ñöôïc bieán soá

naøy phaân phoái gaàn nhö bình thöôøng vôùi phöông sai baèng 45. Haõy öôùc löôïng .

Khoaûng tin caäy 95% cho ñöôïc tính baèng:

x

x 2 = 22 10

45 = 22 (2,1213)

17,76, 26,24

Phaùt bieåu: Chuùng ta 95% tin töôûng raèng µ (noàng ñoä trung bình cuûa enzyme) naèm (ñaâu

ñoù) trong khoaûng 17,76 vaø 26,24 ñôn vò.

Thaønh phaàn cuûa khoaûng öôùc löôïng

x

x 2

CCÖL (Heä soá tin caäy) x (Sai soá chuaån)

Khi laáy maãu töø 1 daân soá PP. Bình thöôøng vôùi phöông sai bieát tröôùc, khoaûng öôùc löôïng

cho ñöôïc tính bôûi:

x(1 / 2)

x z (1)

Page 41: Giáo trình Phương pháp Nghiên cứu Khoa học 2

41

Dieãn giaûi Khoaûng Tin Caäy (KTC)

Vôùi heä soá tin caäy (HSTC) baèng 2, trong tröôøng hôïp laáy maãu laäp laïi nhieàu laàn, gaàn

95% caùc khoaûng [ñöôïc thieát laäp theo bieåu thöùc (1)] seõ chöùa trung bình daân soá. Coù theå

toång quaùt hoùa dieãn giaûi naøy neáu ñaët toaøn boä phaàn dieän tích döôùi ñöôøng cong cuûa x vaø naèm

ngoaøi khoaûng x

2 laø , vaø phaàn dieän tích naèm trong khoaûng x

2 laø (1– ).

Dieãn giaûi theo xaùc suaát: Trong tröôøng hôïp laáy maãu laäp laïi nhieàu laàn, töø 1 daân soá PP.

Bình thöôøng vôùi ÑLC bieát tröôùc, 100(1–)% cuûa taát caû caùc khoaûng coù daïng

x(1 / 2)

x z cuoái cuøng cuõng seõ chöùa trung bình daân soá, .

Ñaïi löôïng 1–, trong tröôøng hôïp naøy baèng 0,95, ñöôïc goïi laø heä soá tin caäy (hoaëc möùc

ñoä tin caäy), vaø khoaûng x(1 / 2)

x z ñöôïc goïi laø khoaûng tin caäy 95% cho .

Dieãn giaûi thöïc teá: Khi laáy maãu töø 1 daân soá PP. Bình thöôøng vôùi ÑLC bieát tröôùc,

chuùng ta 100(1–)% tin caäy laø khoaûng tính ñôn leû, x(1 / 2)

x z , coù chöùa trung bình daân

soá, .

HSTC trong thí duï treân, ñöôïc tính chính xaùc hôn, seõ baèng 1,96 (thay vì 2). Trong caùc ñieàu

kieän khaùc coù theå duøng baát cöù HSTC naøo, nhöng caùc giaù trò thöôøng duøng nhaát laø

0,95 töông öùng vôùi z baèng 1,96 0,90 töông öùng vôùi z baèng 1,645

0,99 töông öùng vôùi z baèng 2,58.

Ñaïi löôïng coù ñöôïc do nhaân HSTC vôùi sai soá chuaån ñöôïc goïi laø ñoä tin cậy cuûa soá öôùc löôïng

(coøn goïi laø bieân cuûa sai soá).

III. PHAÂN PHOÁI t (Student’s t distribution)

Vieäc thieát laäp KTC 95% cho moät trung bình daân soá (tröôøng hôïp daân soá PP. Bình

thöôøng hoaëc laáy maãu lôùn) seõ döôøng nhö khoâng thöïc hieän ñöôïc neáu khoâng bieát . Tuy

nhieân, vaán ñeà ñöôïc giaûi quyeát khi laáy maãu lôùn (n 30) vì khi ñoù coù theå duøng s (ÑLC cuûa

maãu) thay cho .

Khi chæ coù maãu nhoû (n 30), bieän phaùp thay theá ñeå thieát laäp caùc KTC laø duøng phaân

phoái t (phaân phoái Student)

Ñaïi löôïng

t = ns

x

/

coù phaân phoái naøy

Ñaëc ñieåm cuûa PP. t

Page 42: Giáo trình Phương pháp Nghiên cứu Khoa học 2

42

– Coù soá trung bình baèng 0

– Ñoái xöùng xung quanh soá trung bình

– Coù phöông sai 1, nhöng phöông sai seõ tieán ñeán 1 khi côõ maãu lôùn daàn leân.

Phöông sai cuûa PP. t ñöôïc tính theo ñoä töï do (degrees of freedom – df)

– Bieán soá t bieán thieân trong khoaûng – ñeán +

– PP. t laø moät hoï caùc PP., khaùc nhau ôû giaù trò (n–1), maãu soá duøng ñeå tính s2. Giaù trò

(n–1) ñöôïc xem laø ñoä töï do.

– So saùnh vôùi PP. Bình thöôøng thì PP. t coù ñænh khoâng cao baèng, nhöng laïi coù ñuoâi

naèm cao hôn

– PP. t tieán ñeán PP. Bình thöôøng khi n–1 tieán ñeán voâ cöïc.

PP. t (df=5) PPBT GT tới hạn của t: ±2,57 (α=0,05, 2 đuôi)

KTC duøng t CCÖL (HSTC) x (Sai soá chuaån)

Khi laáy maãu töø moät daân soá PP. Bình thöôøng coù ÑLC, , khoâng ñöôïc bieát, KTC 100(1–)%

cho trung bình daân soá ñöôïc cho bôûi

n

stx )2/1(

Löu yù : ñeå duøng ñöôïc PP. t vieäc laáy maãu phaûi ñöôïc tieán haønh treân 1 daân soá coù PP. Bình

thöôøng hoaëc gaàn nhö bình thöôøng.

Thí duï chöùng minh: moät maãu goàm 16 beù gaùi 10 tuoåi cho caân naëng trung bình laø 71,5

pounds vaø ÑLC laø 12 pounds. Giaû ñònh laø tuoåi cuûa caùc beù gaùi naøy PP. Bình thöôøng, tìm

KTC 95% cho .

– Duøng trung bình maãu, 71,5 laø soá öôùc löôïng ñieåm cuûa

Page 43: Giáo trình Phương pháp Nghiên cứu Khoa học 2

43

– Sai soá chuaån baèng s/ n = 12/ 16 = 3

– Ñoä töï do, df = n–1=16–1= 15

Tra baûng ñeå coù 975,0)2/1( tt = 2,1315

71,5 (2,1315) (3)

65,1 77,9

Chuùng ta 95% tin töôûng raèng caân naëng trung bình cuûa daân soá beù gaùi 10 tuoåi naèm ñaâu ñoù

giöõa 65,1 vaø 77,9 pounds.

IV. KTC CHO HIEÄU 2 TRUNG BÌNH DAÂN SOÁ

Khi laáy maãu töø hai daân soá PP. Bình thöôøng vôùi caùc phöông sai bieát tröôùc

KTC 95% cho (1–2)

2

2

1

1

)2/1(21 )(nn

xx z

Thí duï chöùng minh: moät nhoùm nghieân cöùu quan taâm ñeán söï khaùc bieät veà noàng ñoä

uric acid trong huyeát thanh ôû beänh nhaân khoâng coù vaø beänh nhaân coù H/C Down.

Töø 1 beänh vieän ñieàu trò treû chaäm phaùt trieån trí tueä:

choïn 12 treû coù H/C Down, cho keát quaû 1x = 4,5/100 ml

Töø 1 beänh vieän ña khoa:

choïn 15 treû coù cuøng tuoåi vaø phaùi (vôùi nhoùm treân), cho keát quaû 2x = 3,4/100 ml

Giaû ñònh raèng 2 daân soá (caùc giaù trò noàng ñoä uric acid) treân PP. Bình thöôøng vôùi phöông sai

laàn löôït laø 1 vaø 1,5. Tìm KTC 95% cho (1–2).

– Soá öôùc löôïng ñieåm cho (1–2) baèng: 21 xx = 4,5 – 3,4 = 1,1

– HSTC töông öùng vôùi 0,95 (tra baûng PP. Bình thöôøng) laø 1,96

– Sai soá chuaån

15

5,1

12

1

2

22

1

21

21

nnxx

= 0,4282

KTC 95% baèng

1,1 1,96 (0,4282) = 1,1 0,84

0,26 1,94

Chuùng ta 95% tin caäy (tin töôûng) raèng hieäu cuûa 2 daân soá, 1–2, naèm ñaâu ñoù giöõa 0,26 vaø

1,94 (vì khi laáy maãu laäp laïi nhieàu laàn, 95% caùc KTC döïng leân theo caùch naøy seõ chöùa hieäu

cuûa 2 daân soá).

Page 44: Giáo trình Phương pháp Nghiên cứu Khoa học 2

44

Khi laáy maãu töø hai daân soá PP. khoâng bình thöôøng: laáy maãu lôùn ñeå aùp duïng lyù thuyeát

giôùi haïn trung taâm. Trong tröôøng hôïp naøy neáu phöông sai cuûa 2 daân soá khoâng ñöôïc bieát,

duøng phöông sai cuûa 2 maãu laøm soá öôùc löôïng cuûa chuùng.

Khi laáy maãu töø hai daân soá PP. B.thöôøng vôùi caùc phöông sai khoâng bieát tröôùc + n nhoû

Tröôøng hôïp phöông sai daân soá baèng nhau (ñoàng phöông sai):

Phaûi tính soá öôùc löôïng hôïp (pooled estimate) cuûa ñoàng phöông sai

2

)1()1(

21

222

2112

nn

snsnsp

Sai soá chuaån ñöôïc cho bôûi

2

2

1

2

21 n

s

n

s pp

xxs

vaø KTC 100(1–) cho 1–2 ñöôïc cho bôûi

2

2

1

2

)2/1(21n

s

n

sxx

pp

t

Ñoä töï do ñeå xaùc ñònh giaù trò cuûa t ñöôïc tính baèng (n1 + n2 –2)

Thí duï chöùng minh: Moät nghieân cöùu nhaèm xaùc ñònh hieäu quaû cuûa vieäc taäp theå duïc keùo daøi

treân söùc beàn. Choïn hai nhoùm ngöôøi: nhoùm 1 ñaõ tham gia chöông trình taäp theå löïc vaø duy trì

taäp trung bình 13 naêm; nhoùm 2 bao goàm nhöõng ngöôøi khoâng taäp bao giôø. Söùc beàn ñöôïc

ñaùnh giaù qua soá laàn ngoài leân trong 30 giaây.

Nhoùm 1: 0,211 x s1 = 4,9 Nhoùm 2: 1,122 x s2 = 5,6

Giaû ñònh raèng 2 daân soá caùc soá ño söùc beàn naøy PP. gaàn nhö bình thöôøng vaø 2 phöông sai

ñöôïc bieát laø baèng nhau. Thieát laäp KTC 95% cho hieäu cuûa 2 daân soá treân.

Tính soá öôùc löôïng hôïp cuûa ñoàng phöông sai

21713

)6,5)(117()9,4)(113( 222

sp

= 28,21

Tra baûng vôùi df = 13+17-2= 28, HSTC tt 975,0)2/1(

= 2,0484

KTC 95% baèng

(21,0 – 12,1) 2,048417

21,28

13

21,28

8,9 4,0085

4,9 12,9

Page 45: Giáo trình Phương pháp Nghiên cứu Khoa học 2

45

Chuùng ta 95% tin töôûng raèng hieäu cuûa 2 trung bình daân soá naèm ñaâu ñoù trong khoaûng 4,9 vaø

12,9.

Tröôøng hôïp phöông sai daân soá khoâng baèng nhau

Giaûi phaùp ñeà ra (theo Cochran) laø tính HSTC t’(1-/2)

t’(1-/2) =

21

2211

ww

twtw

w1 = s2

1 /n1 w2 = s22 / n2

t1 = t(1-/2) cho (n1–1) ñoä töï do t2 = t(1-/2) cho (n2–1) ñoä töï do

KTC 100(1-)% cuûa 1–2

2

2

1

2

)2/1(21n

s

n

sxx

pp

t

V. KTC CHO TÆ LEÄ DAÂN SOÁ

Khi caû np vaø n(1–p) ñeàu 5, phaân phoái cuûa p

seõ gaàn nhö bình thöôøng vôùi sai soá

chuaån laø nppp

/)1( . Duøng p

laøm soá öôùc löôïng cho p (daân soá), vaø nhö vaäy seõ öôùc

löôïng p baèng npp /)1(

. KTC 100(1-) cho p ñöôïc tính baèng

nppp z /)1()2/1(

Thí duï chöùng minh: Taïi 1 BV. Taâm Thaàn, trong 1 maãu 591 ngöôøi nhaäp vieän coù 204 ngöôøi

ñaõ duøng caàn sa ít nhaát 1 laàn trong ñôøi. Thieát laäp KTC 95% cho tæ leä ngöôøi duøng caàn sa cuûa

daân soá choïn maãu naøy.

Soá öôùc löôïng ñieåm cuûa tæ leä daân soá (p) laø p

= 204/591 = 0,3452.

Kích thöôùc maãu vaø p

ñuû lôùn ñeå coù theå duøng PP. Bình thöôøng chuaån khi thieát laäp KTC.

HSTC töông öùng vôùi KTC 95% laø 1,96

Soá öôùc löôïng cuûa sai soá chuaån nppp

/)1( = 591/)6548,0)(3452,0( = 0,01956

KTC 95% cho p

0,3452 1,96(0,01956)

0,3452 0,0383

0,3069 0,3835

VI. KTC CHO HIEÄU CUÛA 2 TÆ LEÄ DAÂN SOÁ

Khi n1 vaø n2 ñeàu lôùn vaø caùc tæ leä daân soá khoâng quaù gaàn 0 hoaëc 1, aùp duïng lyù thuyeát

giôùi haïn trung taâm ñeå duøng PP. Bình thöôøng. Sai soá chuaån cuûa soá öôùc löôïng ñöôïc öôùc

löôïng baèng

Page 46: Giáo trình Phương pháp Nghiên cứu Khoa học 2

46

2

22

1

11 )1()1(21 n

pp

n

pppp

Vôùi tæ leä daân soá khoâng bieát, KTC 100(1-) cho (p1–p2) ñöôïc cho bôûi

2

22

1

11

)2/1(21

)1()1()(

n

pp

n

pppp z

-----------------------------------------------------------------------------------------------------------------------------------------------------

Page 47: Giáo trình Phương pháp Nghiên cứu Khoa học 2

47

Baøi 6

KIEÅM ÑÒNH GIAÛ THUYEÁT

(Hypothesis Testing)

I. GIÔÙI THIEÄU

Cuõng gioáng nhö pheùp öôùc löôïng, muïc ñích cuûa kieåm ñònh giaû thuyeát (KÑGT) nhaèm giuùp

ñaït ñöôïc moät keát luaän lieân quan ñeán 1 daân soá baèng caùch khaûo saùt 1 maãu ruùt ra töø daân soá

ñoù.

1. Khaùi nieäm cô baûn

Moät giaû thuyeát (hypothesis) coù theå ñöôïc ñònh nghóa laø moät phaùt bieåu veà moät hoaëc nhieàu

daân soá.

Giaû thuyeát thöôøng lieân quan vôùi caùc thoâng soá cuûa nhöõng daân soá ñöôïc phaùt bieåu ñeán.

Baèng caùch KÑGT ngöôøi ta xaùc ñònh ñöôïc laø caùc phaùt bieåu naøy coù phuø hôïp vôùi soá lieäu coù

saün hay khoâng.

2. Loaïi giaû thuyeát: coù hai loaïi giaû thuyeát (GT): GT nghieân cöùu vaø GT thoángkeâ.

GT nghieân cöùu laø söï öùc ñoaùn hoaëc giaû ñònh thuùc ñaåy vieäc nghieân cöùu. Giaû thuyeát nghieân

cöùu daãn tröïc tieáp ñeán giaû thuyeát thoáng keâ.

GT thoáng keâ laø nhöõng giaû thuyeát ñöôïc phaùt bieåu sao cho chuùng coù theå ñöôïc löôïng giaù

baèng nhöõng kyõ thuaät thoáng keâ thích hôïp.

3. Caùc böôùc KÑGT: phöông phaùp chín böôùc

3.1 Soá lieäu (Data) : Baûn chaát cuûa soá lieäu laøm cô sôû cho phöông phaùp kieåm ñònh phaûi ñöôïc

bieát roõ.

3.2 Giaû ñònh (Assumptions): Caùc giaû ñònh quan troïng trong pheùp öôùc löôïng cuõng quan

troïng trong KÑGT, bao goàm: phaân phoái bình thöôøng cuûa daân soá, phöông sai baèng nhau,

maãu ñoäc laäp.

3.3 Giaû thuyeát (Hypothesis): Trong KÑGT coù 2 giaû thuyeát thoáng keâ,

Giaû thuyeát troáng (Null hypothesis): laø giaû thuyeát caàn ñöôïc kieåm ñònh. Kyù hieäu H0.

Ñoâi khi ñöôïc goïi laø giaû thuyeát veà söï khoâng khaùc bieät, vì laø phaùt bieåu ñoàng yù vôùi (hoaëc

khoâng khaùc bieät) nhöõng ñieàu kieän ñöôïc giaû ñònh laø ñuùng trong daân soá ñöôïc quan taâm.

Noùi chung, giaû thuyeát troáng ñöôïc thieát laäp nhaèm muïc ñích ñaëc bieät laø ñeå bò phuû ñònh.

Trong tieán trình kieåm ñònh H0 hoaëc bò töø choái hoaëc khoâng bò töø choái. Neáu H0 khoâng bò

töø choái, chuùng ta noùi raèng soá lieäu ñeå tieán haønh kieåm ñònh khoâng cung caáp ñuû baèng

chöùng ñeå ñöa ñeán söï töø choái. Neáu tieán trình kieåm ñònh ñöa ñeán söï töø choái, chuùng ta

Page 48: Giáo trình Phương pháp Nghiên cứu Khoa học 2

48

noùi raèng soá lieäu hieän coù khoâng thích hôïp vôùi H0, nhöng laïi thích hôïp vôùi 1 soá giaû

thuyeát khaùc.

Giaû thuyeát thay theá (Alternative hypothesis): kyù hieäu HA, laø 1 phaùt bieåu veà ñieàu

chuùng ta seõ tin laø ñuùng neáu soá lieäu cuûa maãu laøm cho ta phaûi töø choái H0. Thoâng

thöôøng, giaû thuyeát thay theá vaø giaû thuyeát nghieân cöùu gioáng nhau.

Qui taéc phaùt bieåu giaû thuyeát thoáng keâ

+ Keát quaû maø ta hi voïng hoaëc mong muoán coù ñöôïc töø pheùp kieåm thöôøng ñöôïc ñaët

trong HA.

+ H0 phaûi bao goàm 1 phaùt bieåu veà ñaúng thöùc (= , , ) nghóa laø phaûi coù daáu (=).

+ H0 laø giaû thuyeát caàn ñöôïc kieåm ñònh.

+ H0 vaø HA ñöôïc xem laø hai taäp hôïp phuï cuûa nhau.

Thí duï:

Giaû söû chuùng ta muoán traû lôøi caâu hoûi:

Coù theå keát luaän laø trung bình daân soá khoâng baèng 50 khoâng?

H0: = 50 HA: 50

Coù theå keát luaän laø trung bình daân soá lôùn hôn 50 khoâng?

H0: 50 HA: 50

Coù theå keát luaän laø trung bình daân soá nhoû hôn 50 khoâng?

H0: 50 HA: 50

Löu yù: Khi khoâng theå töø choái H0 (chaáp nhaän H0), khoâng ñöôïc noùi laø H0 ñuùng, maø chæ

noùi laø “coù theå ñuùng”.

3.4 Soá thoáng keâ kieåm ñònh (Test Statistic): laø caùc soá thoáng keâ coù theå tính ñöôïc töø soá lieäu

cuûa maãu. Soá thoáng keâ kieåm ñònh (soá TKKÑ) ñoùng vai troø “ra quyeát ñònh”, vì quyeát

ñònh töø choái hoaëc khoâng töø choái tuøy thuoäc vaøo ñoä lôùn cuûa soá TKKÑ. Moät thí duï cuûa soá

TKKÑ laø ñaïi löôïng

z = n

x

/

0

0 laø giaù trò cuûa trung bình daân soá theo giaû thuyeát

Coâng thöùc chung ñeå tính soá TKKÑ

Soá thoáng keâ saùt hôïp – thoâng soá theo giaû thuyeát

Soá TK kieåm ñònh =

sai soá chuaån cuûa soá thoáng keâ saùt hôïp

3.5 Phaân phoái cuûa soá TKKÑ (Distribution of the Test Statistic): caàn phaûi cho bieát roõ phaân

phoái xaùc suaát cuûa soá TKKÑ. Thí duï: phaân phoái cuûa soá TKKÑ

z = n

x

/

0

laø PP. Bình thöôøng chuaån neáu H0 ñuùng vaø caùc giaû ñònh ñöôïc thoûa

3.6 Qui taéc quyeát ñònh (Decision Rule): Taát caû caùc giaù trò maø soá TKKÑ coù theå giaû ñònh laø

nhöõng ñieåm naèm treân truïc hoaønh cuûa ñoà thò phaân phoái soá TKKÑ vaø ñöôïc chia laøm 2

Page 49: Giáo trình Phương pháp Nghiên cứu Khoa học 2

49

nhoùm : moät nhoùm caáu taïo neân vuøng töø choái, vaø nhoùm kia caáu taïo neân vuøng khoâng töø choái.

Caùc giaù trò cuûa soá TKKÑ caáu taïo neân vuøng töø choái laø nhöõng giaù trò ít coù khaû naêng xaûy ra

neáu H0 ñuùng.

Qui taéc quyeát ñònh baûo ta :

+ Töø choái H0 neáu giaù trò cuûa soá TKKÑ tính ñöôïc töø maãu laø 1 trong nhöõng giaù trò naèm trong

vuøng töø choái

+ Khoâng töø choái H0 neáu giaù trò cuûa soá TKKÑ tính ñöôïc töø maãu laø 1 trong nhöõng giaù trò

naèm trong vuøng khoâng töø choái.

Ngöôõng coù yù nghóa thoáng keâ (Significance Level): quyeát ñònh xem giaù trò naøo naèm

trong vuøng töø choái vaø giaù trò naøo naèm trong vuøng khoâng töø choái ñöôïc thöïc hieän döïa treân cô

sôû cuûa ngöôõng coù yù nghóa thoáng keâ mong muoán, kyù hieäu laø .

bieåu thò dieän tích naèm döôùi ñöôøng cong cuûa phaân phoái soá TKKÑ, phía treân caùc giaù trò

caáu taïo neân vuøng töø choái naèm treân truïc hoaønh.

Ngöôõng coù yù nghóa thoáng keâ laø moät xaùc suaát, vaø thöïc teá, laø xaùc suaát ñeå töø choái moät

H0 khi noù ñuùng.

Page 50: Giáo trình Phương pháp Nghiên cứu Khoa học 2

50

Vì töø choái H0 khi noù ñuùng laø moät sai laàm, vaø trong thöïc teá chuùng ta muoán xaùc suaát xaûy ra

sai laàm naøy nhoû. Giaù trò cuûa thöôøng ñöôïc choïn laø 0,01 0,05 0,10.

Loaïi sai laàm (Types of Errors): Sai laàm phaïm phaûi trong vieäc töø choái H0 khi noù ñuùng

ñöôïc goïi laø Sai laàm loaïi I (type I error). Sai laàm loaïi II (type II error) laø sai laàm phaïm phaûi

trong vieäc khoâng töø choái H0 khi noù sai. Xaùc suaát cuûa vieäc phaïm phaûi sai laàm loaïi II ñöôïc

kyù hieäu baèng .

Ñieàu kieän cuûa H0

Ñuùng Sai

Haønh

ñoäng

coù theå thöïc

hieän

Khoâng töø choái

H0

Haønh ñoäng ñuùng

Sai laàm loaïi II

Töø choái H0 Sai laàm loaïi I Haønh ñoäng ñuùng

3.7 Tính soá TKKÑ (Calculation of the Test Statistic): Töø soá lieäu cuûa maãu, tính 1 giaù trò

cuûa soá TKKÑ vaø so noù vôùi caùc vuøng töø choái vaø khoâng töø choái ñaõ ñöôïc chæ roõ.

3.8 Quyeát ñònh thoáng keâ (Statistical Decision) :

bao goàm vieäc töø choái hoaëc khoâng töø choái H0.

H0 bò töø choái neáu giaù trò cuûa soá TKKÑ naèm trong vuøng töø choái, vaø khoâng bò töø choái

neáu giaù trò cuûa soá TKKÑ naèm trong vuøng khoâng töø choái.

3.9 Keát luaän (Conclusion) : Neáu H0 bò töø choái, chuùng ta keát luaän laø HA ñuùng. Neáu H0

khoâng bò töø choái, chuùng ta keát luaän laø H0 coù theå ñuùng.

4. Muïc ñích cuûa Kieåm Ñònh Giaû Thuyeát

Muïc ñích cuûa KÑGT laø nhaèm giuùp cho caùc CBYT phuï traùch quaûn trò, laâm

saøng vaø coäng ñoàng ra ñöôïc caùc quyeát ñònh (döïa treân caùc quyeát ñònh mang tính thoáng keâ).

Neáu H0 bò töø choái, CBYT coù theå ñöa ra nhöõng quyeát ñònh phuø hôïp vôùi HA. Neáu H0 khoâng

bò töø choái, quyeát ñònh ñöa ra coù theå seõ khoâng theo HA, hoaëc quyeát ñònh phaûi thu thaäp

theâm soá lieäu (ñeå nghieân cöùu tieáp). Caàn löu yù laø keát quaû cuûa pheùp kieåm thoáng keâ chæ laø 1

phaàn baèng chöùng coù aûnh höôûng ñeán quyeát ñònh ñeà ra. Quyeát ñònh mang tính thoáng keâ

khoâng neân ñöôïc xem laø caùi gì xaùc quyeát maø caàn ñöôïc caân nhaéc cuøng vôùi caùc thoâng tin saùt

hôïp khaùc hieän coù.

Page 51: Giáo trình Phương pháp Nghiên cứu Khoa học 2

51

II. KÑGT VEÀ MOÄT TRUNG BÌNH DAÂN SOÁ

1. Laáy maãu töø caùc daân soá PP. Bình thöôøng

Thí duï: Tuoåi cuûa 1 daân soá PP. Bình thöôøng vôùi phöông sai baèng 20. Coù theå keát luaän

laø tuoåi trung bình cuûa daân soá naøy khoâng phaûi laø 30 khoâng, neáu laáy maãu ngaãu nhieân ñôn giaûn

n = 10 vaø tính ñöôïc trung bình maãu laø 27?.

Coù theå keát luaän laø tuoåi trung bình cuûa daân soá khoâng phaûi laø 30 neáu chuùng ta coù theå töø choái

giaû thuyeát troáng veà trung bình daân soá baèng 30.

a/ Soá lieäu: Maãu ngaãu nhieân ñôn giaûn n = 10 x = 27

b/ Giaû ñònh: Maãu ñöôïc ruùt ra töø daân soá PP. Bình thöôøng vôùi 2 = 20

c/ Giaû thuyeát: H0 = 30 Choïn = 0,05

HA 30

d/ Soá TKKÑ: vì chuùng ta kieåm ñònh giaû thuyeát veà 1moät trung bình daân soá 2maø daân soá naøy

PP. Bình thöôøng 3vôùi phöông sai bieát tröôùc neân soá thoáng keâ kieåm ñònh laø

z = n

x

/

0

e/ Phaân phoái cuûa soá TKKÑ

PP. cuûa soá TKKÑ seõ laø PP. Bình thöôøng chuaån neáu H0 ñuùng.

f/ Qui taéc quyeát ñònh: Töø choái H0 neáu giaù trò tính ñöôïc cuûa soá TKKÑ naèm trong vuøng töø

choái, vaø khoâng töø choái H0 neáu giaù trò tính ñöôïc cuûa soá TKKÑ naèm trong vuøng khoâng töø

choái.

Caùch xaùc ñònh vuøng töø choái vaø vuøng khoâng töø choái: H0 seõ sai neáu 30 hoaëc 30. Nhö

vaäy, caùc giaù trò ñuû nhoû (so vôùi 30) hoaëc ñuû lôùn (so vôùi 30) cuûa soá TKKÑ seõ giuùp chuùng ta töø

choái H0, vaø chính caùc giaù trò naøy caáu taïo neân vuøng töø choái. Giaù trò nhö theá naøo seõ ñöôïc xem

laø ñuû nhoû hoaëc ñuû lôùn? Caâu traû lôøi tuøy thuoäc vaøo ngöôõng coù yù nghóa thoáng keâ (xaùc suaát cuûa

vieäc phaïm sai laàm loaïi I) maø chuùng ta ñaõ choïn.

Xaùc suaát ñeå töø choái H0 khi noù ñuùng ñaõ choïn laø = 0,05. Vì vuøng töø choái trong tröôøng hôïp

naøy bao goàm 2 phaàn: 1 phaàn chöùa caùc giaù trò ñuû lôùn, vaø 2 phaàn chöùa caùc giaù trò ñuû nhoû neân

seõ ñöôïc chia laøm 2. /2 = 0,025 laø xaùc suaát ñi keøm vôùi caùc giaù trò ñuû lôùn, vaø /2 = 0,025 laø

xaùc suaát ñi keøm vôùi caùc giaù trò ñuû nhoû.

Giaù trò tôùi haïn (Critical value) cuûa soá TKKÑ

Khi H0 ñuùng, giaù trò cuûa soá TKKÑ phaûi lôùn ñeán möùc naøo ñeå xaùc suaát tìm ñöôïc moät giaù trò

lôùn baèng hoaëc lôùn hôn noù laø 0,025.

Noùi caùch khaùc, giaù trò naøo cuûa z naèm ôû phía beân phaûi nôi chieám 0,025 dieän tích döôùi ñöôøng

cong PP. Bình thöôøng chuaån?

Giaù trò cuûa z naèm ôû phía beân phaûi nôi chieám phaàn dieän tích 0,025 döôùi ñöôøng cong PP. Bình

thöôøng chuaån cuõng laø giaù trò chieám phaàn dieän tích 0,975 (giöõa giaù trò naøy vaø –). Tra baûng

ñeå coù giaù trò naøy baèng 1,96.

Page 52: Giáo trình Phương pháp Nghiên cứu Khoa học 2

52

Töông töï, tra baûng ñeå tìm thaáy giaù trò –1,96, laø giaù trò cuûa soá TKKÑ nhoû ñeán möùc khi Ho

ñuùng thì xaùc suaát ñeå tìm ñöôïc giaù trò nhoû baèng hoaëc nhoû hôn (giaù trò naøy) baèng 0,025.

Vuøng töø choái nhö vaäy seõ bao goàm taát caû caùc giaù trò lôùn baèng hoaëc lôùn hôn 1,96, hoaëc nhoû

baèng hoaëc nhoû hôn –1,96. Vuøng khoâng töø choái bao goàm taát caû caùc giaù trò naèm giöõa 1,96

vaø –1,96.

Chuùng ta coù theå phaùt bieåu qui taéc quyeát cho pheùp kieåm naøy nhö sau: Töø choái H0 neáu giaù

trò tính ñöôïc cuûa soá TKKÑ 1,96 hoaëc –1,96. Ngoaøi ra, khoâng töø choái H0.

Giaù trò cuûa soá TKKÑ phaân caùch vuøng töø choái vaø vuøng khoâng töø choái ñöôïc goïi laø giaù trò tôùi

haïn cuûa soá TKKÑ, vaø vuøng töø choái ñoâi khi coøn goïi laø vuøng tôùi haïn

g/ Tính soá TKKÑ

z = 10/20

3027 =

4142,1

3 = –2,12

Page 53: Giáo trình Phương pháp Nghiên cứu Khoa học 2

53

h/ Quyeát ñònh thoáng keâ: Theo qui taéc quyeát ñònh, chuùng ta coù theå töø choái H0 vì –2,12 naèm

trong vuøng töø choái. Chuùng ta coù theå noùi raèng giaù trò tính ñöôïc cuûa soá TKKÑ coù yù nghóa

thoáng keâ ôû ngöôõng 0,05.

i/ Keát luaän: Trung bình daân soá khoâng baèng 30.

Giaù trò p (p values):

Thay vì noùi raèng giaù trò quan saùt ñöôïc cuûa soá TKKÑ coù yù nghóa hoaëc khoâng coù yù nghóa

thoáng keâ, chuùng ta coù theå cho bieát xaùc suaát cuï theå cuûa vieäc tìm ñöôïc 1 giaù trò lôùn baèng

hoaëc lôùn hôn giaù trò cuûa soá TKKÑ (neáu H0 ñuùng) . Ñoù laø phaùt bieåu veà giaù trò p. Trong thí

duï treân, giaù trò p = 0,034 vaø coù nghóa laø xaùc suaát ñeå tìm thaáy 1 giaù trò lôùn baèng hoaëc lôùn

hôn 2,12 theo caû 2 höôùng, khi H0 ñuùng, baèng 0,034. Giaù trò 0,034 ñöôïc tính sau khi tra

baûng vaø laø xaùc suaát ñeå tìm thaáy 1 giaù trò z 2,12 (baèng 0,017) hoaëc 1 giaù trò z –2,12

(baèng 0,017) khi H0 ñuùng. p =0,017 + 0,017 = 0,0340.

Ñònh nghóa: Giaù trò p cuûa 1 pheùp kieåm ñònh giaû thuyeát laø xaùc suaát ñeå tìm thaáy, khi H0

ñuùng, moät giaù trò cuûa soá TKKÑ lôùn baèng hoaëc lôùn hôn (theo höôùng thích hôïp) giaù trò (cuûa

soá TKKÑ) tính ñöôïc.

Giaù trò p cuûa 1 pheùp kieåm cuõng coù theå ñöôïc xem laø giaù trò nhoû nhaát cuûa maø theo ñoù H0 coù

theå bò töø choái. Vì qua thí duï treân, vôùi p = 0,034, chuùng ta coù theå choïn giaù trò cuûa nhoû

baèng 0,034 vaø vaãn coù theå töø choái H0. Neáu choïn < 0,034, chuùng ta khoâng chaéc ñaõ coù theå

töø choái ñöôïc H0.

Nhö vaäy: Neáu giaù trò p nhoû baèng hoaëc nhoû hôn , chuùng ta töø choái H0. Neáu giaù trò p lôùn

hôn , chuùng ta khoâng töø choái H0.

Page 54: Giáo trình Phương pháp Nghiên cứu Khoa học 2

54

Pheùp kieåm ñònh giaû thuyeát 1 ñuoâi (One-sided Hypothesis Tests)

Pheùp KÑGT coù theå laø moät ñuoâi khi taát caû vuøng töø choái naèm veà 1 phía (1 ñuoâi) cuûa ñöôøng

bieåu dieãn phaân phoái.

Thí duï: (nhö thí duï treân nhöng vôùi keát luaän muoán tìm laø 30). Baøi giaûi sau ñaây chæ trình

baøy nhöõng ñieåm khaùc giöõa 2 thí duï.

c/ Giaû thuyeát:

H0: 30 HA: 30

f/ Qui taéc quyeát ñònh: Vôùi = 0,05. Vieäc xaùc ñònh vuøng töø choái vaø giaù trò tôùi haïn naèm ôû lyù

luaän nhö sau : caùc giaù trò ñuû nhoû seõ gaây töø choái H0, nhö vaäy vuøng töø choái seõ chöùa caùc giaù trò

nhoû vaø naèm ôû ñuoâi thaáp (lower tail). Toaøn boä seõ naèm ôû phía ñuoâi naøy. Tra baûng thaáy giaù

trò cuûa z naèm ôû phía beân traùi nôi chieám phaàn dieän tích 0,05 döôùi ñöôøng cong PP. Bình

thöôøng chuaån laø –1,645. Qui taéc quyeát ñònh : töø choái H0 neáu giaù trò tính ñöôïc cuûa soá TKKÑ

nhoû hôn hoaëc baèng –1,645.

h/ Quyeát ñònh thoáng keâ: Töø choái H0 vì –2,12 < –1,645. p = 0,017 < 0,05

i/ Keát luaän : Trung bình daân soá <30.

Giaù trò p: trong tröôøng hôïp naøy baèng 0,017, vì khi H0 ñuùng, P(z –2,12) = 0,017.

2. Laáy maãu töø daân soá PP. Khoâng bình thöôøng + 2 khoâng bieát + n nhoû

Thí duï: Choïn ngaãu nhieân 1 maãu n =14 ngöôøi, ño BMI, x = 30,5 s = 10,6392

Coù theå keát luaän laø BMI trung bình cuûa daân soá choïn maãu khoâng phaûi laø 35 khoâng?

a/ Soá lieäu: Soá ño BMI cuûa 14 ngöôøi vôùi x = 30,5.

b/ Giaû ñònh: 1 Soá ño BMI trong daân soá naøy PP. Bình thöôøng,

2 Phöông sai khoâng bieát

3 Maãu ngaãu nhieân ñôn giaûn

Page 55: Giáo trình Phương pháp Nghiên cứu Khoa học 2

55

c/ Giaû thuyeát:

H0: = 35 HA: 35

Ñaët = 0,05

d/ Soá TKKÑ: Vì phöông sai khoâng bieát + n nhoû, neân soá TKKÑ laø

t = ns

x

/

0

e/ Phaân phoái cuûa soá TKKÑ:

Soá TKKÑ phaân phoái theo t vôùi n–1 = 14 – 1 = 13 df neáu H0 ñuùng.

f/ Qui taéc quyeát ñònh: Vôùi = 0,05, pheùp kieåm 2 ñuoâi vôùi moãi ñuoâi baèng /2 = 0,025.

Giaù trò t naèm ôû phía beân traùi vaø beân phaûi cuûa dieän tích 0,025 laø 2,1604 vaø –2,1604.

Töø choái H0 neáu giaù trò tính ñöôïc cuûa soá TKKÑ lôùn hôn hoaëc baèng 2,1604 hoaëc nhoû hôn

hoaëc baèng –2,1604.

g/ Tính soá TKKÑ

t = 14/6392,10

355,30 =

8434,2

5,4 = –1,58

h/ Quyeát ñònh thoáng keâ: Khoâng töø choái H0 vì –1,58 naèm trong vuøng khoâng töø choái.

0,05 < p (t –1,58) < 0,10

i/ Keát luaän: Trung bình daân soá coù theå baèng 35.

Giaù trò p: trong tröôøng hôïp naøy tra baûng chæ coù theå xaùc ñònh giaù trò p baèng 1 khoaûng.

Vôùi ñoä töï do baèng 13, tìm thaáy: –1,58 < –1,350 t0,90: 0,10

– 1,58 > – 1,771 t0,95:0,05

Khi H0 ñuùng, xaùc suaát ñeå tìm ñöôïc moät giaù trò cuûa t –1,58 baèng

0,05 < P(t –1,58) < 0,10

Vì ñaây laø pheùp kieåm 2 ñuoâi neân phaûi nhaân hai, nhö vaäy 0,10 < p < 0,20.

Page 56: Giáo trình Phương pháp Nghiên cứu Khoa học 2

56

III. KÑGT VEÀ HIEÄU CUÛA 2 TRUNG BÌNH DAÂN SOÁ

KÑGT veà hieäu cuûa 2 trung bình daân soá raát thöôøng ñöôïc duøng ñeå ñònh roõ xem coù theå keát

luaän ñöôïc laø 2 trung bình daân soá naøy khoâng baèng nhau hay khoâng. Giaû thuyeát lieân quan

ñeán tröôøng hôïp so saùnh naøy thöôøng ñöôïc thieát laäp nhö sau:

H0: 1 – 2 = 0 HA: 1 – 2 0 (1 2)

H0: 1 – 2 0 HA: 1 – 2 0 (1 2)

H0: 1 – 2 0 HA: 1 – 2 0 (1 2)

1. Laáy maãu töø caùc daân soá PP. Bình thöôøng + caùc 2 bieát

Thí duï chöùng minh: Caùc nhaø nghieân cöùu muoán bieát xem soá lieäu maø hoï ñaõ thu thaäp

coù cung caáp ñuû baèng chöùng ñeå keát luaän laø coù söï khaùc bieät veà noàng ñoä uric acid/HT giöõa treû

bình thöøông vaø treû coù H/C Down khoâng. Soá lieäu bao goàm keát quaû noàng ñoä trung bình uric

acid/HT cuûa moät maãu goàm 12 treû coù H/C Down laø 1x = 4,5/100 ml vaø cuûa moät maãu khaùc

goàm 15 treû bình thöôøng laø 2x = 3,4/100 ml. Ñöôïc bieát 21 = 1 vaø 2

2 = 1,5.

a. Soá lieäu: (xem ñeà baøi)

b. Giaû ñònh: Soá lieäu bao goàm 2 maãu ngaãu nhieân ñôn giaûn ñoäc laäp vôùi nhau ruùt ra töø 2 daân

soá PP. Bình thöôøng vôùi 21 = 1 (daân soá treû coù H/C Down) vaø 2

2 = 1,5 (daân soá treû bình

thöôøng).

c. Giaû thuyeát:

H0: 1 – 2 = 0 ( 1 = 2 )

HA: 1 – 2 0 (1 2 )

d. Soá TKKÑ

z =

2

22

1

21

02121 )()(

nn

xx

e. PP. cuûa soá TKKÑ: khi H0 ñuùng, soá TKKÑ seõ PP. Bình thöôøng chuaån.

f. Qui taéc quyeát ñònh: Ñaët = 0,05. Caùc giaù trò tôùi haïn cuûa z laø 1,96.

Töø choái H0 tröø phi – 1,96 < ztínhñöôïc < 1,96

g. Tính soá TKKÑ

z =

15

5,1

12

1

0)4,35,4(

=

4282,0

1,1 = 2,57

h. Quyeát ñònh thoáng keâ: Töø choái H0 vì 2,57 > 1,96

i. Keát luaän: Hai trung bình daân soá naøy khoâng baèng nhau. Giaù trò p = 0,0102.

2. Laáy maãu töø caùc daân soá PP. Khoâng Bình thöôøng

Laáy maãu lôùn ñeå aùp duïng Lyù thuyeát giôùi haïn trung taâm vaø PP. Bình thöôøng chuaån

Page 57: Giáo trình Phương pháp Nghiên cứu Khoa học 2

57

3. Laáy maãu töø caùc daân soá PP. Bình thöôøng + caùc 2 khoâng ñöôïc bieát nhöng giaû

ñònh ñöôïc laø baèng nhau + caùc n nhoû

Thí duï chöùng minh: Moät nhaø nghieân cöùu muoán khaûo saùt baûn chaát cuûa söï huûy hoaïi

phoåi ôû phoåi cuûa ngöôøi huùt thuoác laù xaûy ra tröôùc khi phaùt trieån khí pheá thuûng naëng. Coù 3 chæ

soá ñeå ño vaø soá ño caøng lôùn chöùng toû toån thöông phoåi caøng naëng. Moät chæ soá ño ñöôïc ôû

1 maãu 16 ngöôøi huùt thuoác laù cho Sx = 17,5 sS = 4,4711

1 maãu 9 ngöôøi khoâng huùt thuoác laù cho NSx = 12,4 sNS = 4,8492

Nhaø nghieân cöùu muoán keát luaän (döïa treân cô sôû caùc soá lieäu naøy) laø noùi chung, ngöôøi huùt

thuoác laù bò toån thöông phoåi naëng hôn ngöôøi khoâng huùt theo chæ soá naøy.

a. Soá lieäu: (Xem ñeà baøi)

b. Giaû ñònh: Soá lieäu bao goàm 2 maãu ngaãu nhieân ñôn giaûn ñoäc laäp ruùt ra töø 1 daân soá bao

goàm ngöôøi huùt thuoác laù vaø daân soá kia bao goàm ngöôøi khoâng huùt thuoác laù. Soá ño chæ soá huûy

hoaïi phoåi ôû caû 2 daân soá ñeàu PP. gaàn nhö bình thöôøng. Phöông sai cuûa 2 daân soá khoâng ñöôïc

bieát nhöng ñöôïc giaû ñònh laø baèng nhau.

c. Giaû thuyeát:

H0: S NS HA: S NS

d. Soá TKKÑ

2

2

1

2

0)()(

n

s

n

s

xxt

pp

NSsNSS

e. PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù PP. t vôùi (n1 + n2 – 2) ñoä töï do.

f. Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa t laø + 1,7139 (vì caàn caùc soá döông

ñeå phuû ñònh H0). Töø choái H0 tröø phi soá TKKÑ tính ñöôïc < 1,7139.

g. Tính soá TKKÑ

Tính sp

2

815

)8492,4(8)4711,4(15 222

sp

= 21,2165

t =

9

2165,21

16

2165,21

0)4,125,17(

= 2,6573

h. Quyeát ñònh thoáng keâ: Töø choái H0 vì 2,6573 > 1,7139, nghóa laø 2,6573 naèm trong vuøng

töø choái.

i. Keát luaän: Treân cô sôû soá lieäu noùi treân, chuùng ta keát luaän raèng ngöôøi huùt thuoác laù coù toån

thöông naëng hôn ngöôøi khoâng huùt. 0,01 > p > 0,005 (vì 2,500 < 2,6573 < 2,8073).

Page 58: Giáo trình Phương pháp Nghiên cứu Khoa học 2

58

4. Laáy maãu töø caùc daân soá PP. Bình thöôøng + caùc 2 khoâng ñöôïc bieát vaø khoâng baèng

nhau + caùc n nhoû

Soá TKKÑ seõ laø

t =

2

2

1

2

02121 )()(

n

s

n

s

xx

pp

vôùi caùc giaù trò tôùi haïn ñöôïc tính baèng

tröôøng hôïp hai ñuoâi

21

2211)2/1(

'

ww

twtwt

tröôøng hôïp 1 ñuoâi

21

2211)1(

'

ww

twtwt

21

2211)1(

'

ww

twtwt

IV. SO SAÙNH CAËP ÑOÂI (Paired Comparisons)

Kyõ thuaät thöôøng duøng ñeå ñaùnh giaù hieäu quaû ñieàu trò hoaëc phöông phaùp thöïc nghieäm

laø kyõ thuaät taän duïng caùc soá ño coù ñöôïc töø caùc maãu khoâng ñoäc laäp. Vieäc KÑGT döïa treân

loaïi soá lieäu naøy ñöôïc goïi laø kieåm ñònh so saùnh caëp ñoâi (paired comparisons test).

Muïc tieâu cuûa kieåm ñònh so saùnh caëp ñoâi laø nhaèm loaïi tröø toái ña caùc nguoàn bieán thieân ngoaïi

lai baèng caùch laøm cho caùc caëp caøng coù nhieàu bieán soá gioáng nhau caøng toát.

Caùc quan saùt caëp ñoâi coù theå ñöôïc laáy baèng nhieàu caùch: 1 Cuøng 1 ñoái töôïng ñöôïc ño tröôùc

vaø sau khi can thieäp, 2 Vaät nuoâi thuaàn chuûng, 3 Anh chò em sinh ñoâi hoaëc anh chò em ruoät, 4 Ngöôøi coù cuøng ñaëc ñieåm baåm sinh (thuaän tay traùi chaúng haïn),……… .. ..

Thay vì thöïc hieän phaân tích caùc quan saùt ñôn leû, chuùng ta duøng di, laø hieäu cuûa 1 caëp quan

saùt laøm bieán soá lieân quan.

Khi n hieäu cuûa maãu tính ñöôïc töø n caëp soá ño (caáu taïo neân 1 maãu ngaãu nhieân ñôn giaûn) ruùt

ra töø 1 daân soá caùc hieäu coù PP. Bình thöôøng, thì soá TKKÑ ñeå KÑGT veà hieäu Trung bình

daân soá, d laø

d

d

s

dt 0

n

ss d

d sai soá chuaån cuûa PP. d

d hieäu cuûa TB maãu 0d hieäu cuûa TB daân soá theo H0

Khi H0 ñuùng, soá TKKÑ seõ phaân phoái t vôùi (n–1) ñoä töï do.

Thí duï chöùng minh

Nhaèm ñaùnh giaù hieäu quaû cuûa 1 chöông trình böõa aên naêng löôïng raát thaáp (VLCD – Very –

Low-Calorie Diet) treân phuï nöõ beùo phì keùo daøi trong 12 tuaàn, 9 phuï nöõ ñöôïc choïn ñeå tham

gia vaø troïng löôïng tröôùc–sau cuûa hoï ñöôïc ghi nhaän nhö sau:

Page 59: Giáo trình Phương pháp Nghiên cứu Khoa học 2

59

Tröôùc 117,3 111,4 98,6 104,3 105,4 100,4 81,7 89,5 78,2

Sau 83,3 85,9 75,8 82,9 82,3 77,7 62,7 69,0 63,9

Caùc nhaø nghieân cöùu muoán bieát caùc soá lieäu treân coù giuùp keát luaän laø chöông trình naøy coù

hieäu quaû trong vieäc laøm giaûm caân ô phuï nöõ beùo phì khoâng?

1. Soá lieäu: Hieäu cuûa troïng löôïng (sau – tröôùc) cuûa 9 phuï nöõ

(di = sau – tröôùc) –34,0 –25,5 –22,8 –21,4 –23,1 –22,7 –19,0 –20,5 –14,3

2. Giaû ñònh: Caùc hieäu tính ñöôïc caáu taïo neân 1 maãu ngaãu nhieân ñôn giaûn ruùt ra töø moät

daân soá hieäu PP. Bình thöôøng.

3. Giaû thuyeát: H0 : 0d

HA: 0d

neáu laáy hieäu (tröôùc – sau), giaû thuyeát seõ ñaët khaùc H0: d ≤ 0 HA: d > 0

neáu caâu hoûi chæ nhaèm chöùng minh laø troïng löôïng tröôùc vaø sau coù thay ñoåi (khaùc nhau)

nhöng khoâng caàn xaùc ñònh khaùc ra sao H0: d = 0 HA: 0d ]

4. Soá TKKÑ: d

d

s

dt 0

5. PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù PP. t vôùi (n–1) ñoä töï do

6. Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa t baèng –1,8595. Töø choái H0 neáu

t tính ñöôïc nhoû hôn hoaëc baèng giaù trò tôùi haïn.

df = n-1 = 9 – 1 = 8

Vuøng töø choái H0

05,0

-12,7395 -1,8595 0 t

7. Tính soá TKKÑ: n = 9, vôùi 9 di (hieäu sau – tröùôc)

5889,229

3,203

9

)3,14(......)5,25()0,34(

n

dd i

2961,28)8(9

)3,203()69,4818(9

)1(

)(

1

)( 22222

nn

ddn

n

dds iii

d

Vuøng khoâng

töø choái H0

Page 60: Giáo trình Phương pháp Nghiên cứu Khoa học 2

60

7395,1277314,1

5889,22

9/2961,28

05889,22

t

8. Quyeát ñònh thoáng keâ: Töø choái H0 vì –12,7395 naèm trong vuøng töø choái.

9. Keát luaän: Coù theå keát luaän laø chöông trình VLCD coù hieäu quaû.

p < 0,005 vì –12,7395 < –3,3554.

Khoaûng tin caäy cho d: KTC 95% cho d coù theå ñöôïc thieát laäp nhö sau:

d

std )2/1( = – 22,5889 9/2961,283060,2

– 22,5889 4,0888

– 26,68 – 18,50

V. KIEÅM ÑÒNH GIAÛ THUYEÁT VEÀ TÆ LEÄ MOÄT DAÂN SOÁ

KÑGT veà tæ leä cuûa moät daân soá cuõng ñöôïc tieán haønh nhö KÑGT veà trung bình cuûa 1 daân

soá, khi kích thöôùc maãu ñuû lôùn ñeå coù theá aùp duïng lyù thuyeát giôùi haïn trung taâm, soá TKKÑ seõ

laø :

n

qp

ppz

00

0

maø khi H0 ñuùng seõ PP. Bình thöôøng chuaån.

Thí duï chöùng minh

Trong moät khaûo saùt veà ngöôøi nghieän chích ma tuùy ôû 1 thaønh phoá lôùn, ngöôøi ta tìm thaáy 18

ngöôøi bò nhieãm HIV trong 423 tröôøng hôïp. Coù theå keát luaän laø coù chöa tôùi 5% ngöôøi nghieän

chích ma tuùy trong daân soá choïn maãu coù HIV döông tính khoâng?

1. Soá lieäu: Soá lieäu thu thaäp töø 423 ngöôøi, trong ñoù coù 18 coù HIV+, 0426,0423

18p

2. Giaû ñònh: PP. Maãu cuûa p

laø PP. gaàn nhö bình thöôøng theo lyù thuyeát giôùi haïn trung

taâm.

3. Giaû thuyeát:

H0: p 0,05 HA: p < 0,05

4. Soá TKKÑ:

n

qp

ppz

00

0

5. PP. cuûa soá TKKÑ: Neáu H0 ñuùng, soá TKKÑ seõ coù PP. gaàn nhö bình thöôøng vôùi soá

trung bình baèng 0.

6. Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa z baèng –1,645. Töø choái H0 neáu

giaù trò cuûa z tính ñöôïc –1,645.

Page 61: Giáo trình Phương pháp Nghiên cứu Khoa học 2

61

7. Tính soá TKKÑ:

70,0

423

)95,0)(05,0(

05,00426,0

z

8. Quyeát ñònh thoáng keâ: Khoâng töø choái H0 vì – 0,70 > –1,645

9. Keát luaän: Trong daân soá choïn maãu tæ leä coù HIV+ coù theå 5%.

VI. KIEÅM ÑÒNH GIAÛ THUYEÁT VEÀ HIEÄU CUÛA 2 TÆ LEÄ DAÂN SOÁ

Trong tröôøng hôïp H0 : 21 pp = 0 coù nghóa laø hai tæ leä daân soá ñöôïc giaû thuyeát laø

baèng nhau (ñoàng tæ leä). Coù theå duøng 2 tæ leä maãu ñeå tính soá öôùc löôïng hôïp (pooled estimate)

cuûa ñoàng tæ leä theo H0 :

21

21

nn

xxp

x1 vaø x2 laø soá thöïc theå mang ñaëc tính coù lieân quan cuûa maãu 1 vaø maãu 2.

Sai soá chuaån :

21

)1()1(21 n

pp

n

pppp

Soá TKKÑ :

21

02121 )()(

pp

ppppz

seõ PP. gaàn nhö bình thöôøng chuaån neáu H0 ñuùng.

Thí duï chöùng minh: Trong 1 nghieân cöùu veà chaêm soùc dinh döôõng, ngöôøi ta tìm thaáy trong

soá 55 beänh nhaân bò cao huyeát aùp coù 24 ngöôøi ñang aên cheá ñoä kieâng muoái Na+. Trong 149

beänh nhaân khoâng bò cao huyeát aùp coù 36 ngöôøi ñang aên cheá ñoä kieâng muoái Na+. Coù theå keát

luaän laø trong daân soá choïn maãu tæ leä beänh nhaân aên cheá ñoä kieâng muoái Na+ ôû nhoùm cao

huyeát aùp cao hôn tæ leä naøy ôû nhoùm khoâng cao huyeát aùp khoâng?

1. Soá lieäu: (xem ñeà baøi)

2. Giaû ñònh: caùc beänh nhaân trong nghieân cöùu thuoäc caùc maãu ngaãu nhieân ñôn giaûn vaø ñoäc

laäp nhau.

3. Giaû thuyeát: H0: HH Pp hoaëc 0HH Pp

HA: HH PP hoaëc 0

HH Pp

Hp : tæ leä ngöôøi aên kieâng muoái Na+ trong daân soá cao huyeát aùp

H

p : tæ leä ngöôøi aên kieâng muoái Na+ trong daân soá khoâng cao huyeát aùp

4. Soá TKKÑ:

21

02121 )()(

pp

ppppz

5. PP. cuûa soá TKKÑ: Neáu H0 ñuùng, soá TKKÑ seõ PP. gaàn nhö bình thöôøng chuaån.

Page 62: Giáo trình Phương pháp Nghiên cứu Khoa học 2

62

6. Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa z baèng 1,645. Töø choái H0 neáu z

tính ñöôïc lôùn hôn 1,645

7. Tính soá TKKÑ:

4364,055

24Hp 2416,0

149

36

Hp 2941,0

14955

3624

p

71,2

149

)7059,02941,0(

55

)7059,0)(2941,0(

)2416,04364,0(

z

8. Quyeát ñònh thoáng keâ: Töø choái H0 vì 2,71 > 1,645

9. Keát luaän: Tæ leä beänh nhaân aên kieâng muoái Na+ ôû daân soá cao huyeát aùp cao hôn tæ leä naøy

ôû daân soá khoâng cao huyeát aùp (p = 0,0034).

VII. KIEÅM ÑÒNH GIAÛ THUYEÁT VEÀ TÆ SOÁ PHÖÔNG SAI CUûA 2 DAÂN SOÁ

Kieåm ñònh Tæ soá Phöông sai (Variance Ratio Test) ñöôïc söû duïng ñeå so saùnh 2 phöông

sai cuûa 2 daân soá. Khi kieåm ñònh xem 2 phöông sai daân soá coù baèng nhau hay khoâng thì cuõng

coù nghóa laø chuùng ta kieåm ñònh xem tæ soá cuûa chuùng coù baèng 1 hay khoâng.

Khi moät soá giaû ñònh ñöôïc thoûa, tæ soá 22

22

21

21

/

/

s

s seõ coù phaân phoái F vôùi (n – 1) ñoä töï do ôû töû soá

vaø (n – 2) ñoä töï do ôû maãu soá. Neáu giaû thuyeát raèng 22

21 vaø neáu giaû thuyeát naøy ñuùng thì

22

21

s

s seõ cuõng coù phaân phoái F. Tæ soá

22

21

s

s ñöôïc goïi laø V.R (tæ soá phöông sai – Variance

Ratio).

Thí duï chöùng minh: Moät nhaø nghieân cöùu khaûo saùt nhöõng thay ñoåi veà ñieàu hoøa thaân nhieät

ôû beänh nhaân bò adenoma ôû tuyeán naõo thuøy. Moät maãu goàm 12 beänh nhaân coù ÑLC cuûa caân

naëng laø 21,4 kg. Moät maãu chöùng goàm 5 ngöôøi bình thöôøng cho ÑLC cuûa caân naëng laø 12,4.

Nhaø nghieân cöùu muoán bieát xem lieäu mình coù theå keát luaän laø caân naëng cuûa caùc beänh nhaân

bieán thieân nhieàu hôn caân naëng cuûa ngöôøi bình thöôøng khoâng?

1. Soá lieäu: (xem ñeà baøi)

2. Giaû ñònh: Caùc maãu ngaãu nhieân ñôn giaûn vaø ñoäc laäp vôùi nhau. Caân naëng cuûa caû hai daân

soá ñeàu PP. gaàn nhö bình thöôøng.

3. Giaû thuyeát:

22

0 :CP

H 22

:cpAH

4. Soá TKKÑ:

V.R. = 2

2

C

P

s

s

5. PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù phaân phoái F vôùi (nP – 1) ñoä töï do töû

soá vaø (nC – 1) ñoä töï do maãu soá.

Page 63: Giáo trình Phương pháp Nghiên cứu Khoa học 2

63

6. Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa F (tra baûng) baèng 5,91. Töø choái

H0 neáu V.R. 5,91.

0 2,98 5,91 F

7. Tính soá TKKÑ:

98,2)4,12(

)4,21(.

2

2

RV

8. Quyeát ñònh thoáng keâ: Khoâng theå töø choái H0 vì 2,98 < 5,91.

9. Keát luaän: Caân naëng cuûa daân soá beänh nhaân khoâng chaéc bieán thieân nhieàu hôn daân soá

ngöôøi bình thöôøng. p > 0,10.

---------------------------------------------------------

Vuøng khoâng

töø choái H0

Vuøng töø choái H0

= 0,05

Page 64: Giáo trình Phương pháp Nghiên cứu Khoa học 2

64

Bài 7 (TKYH) I. GIỚI THIỆU ANOVA là kỹ thuật thống kê được sử dụng khi chúng ta muốn so sánh số trung bình của ≥ 3 nhóm. Kỹ thuật này chia phương sai của 1 quan sát (observation) thành 2 phần: 1phương sai giữa các nhóm (between groups) và 2phương sai nội nhóm (within group). Do phương sai là độ phân tán tương đối của các quan sát so với số trung bình nên việc phân tích phương sai giúp so sánh các số trung bình dễ dàng (bên cạnh việc so sánh các phương sai). Phần này chỉ đề cập đến ANOVA một chiều (one-way ANOVA) theo đó các nhóm được so sánh dựa trên 1 biến số (yếu tố). II. NGUYÊN LÝ CỦA ANOVA Thí dụ minh họa: Thời gian nằm viện của các bệnh nhân đã được tiểu phẫu không có biến chứng được so sánh với nhau theo ba bác sĩ điều trị (A, B, C). Chọn 1 mẫu ngẫu nhiên bao gồm 8 bệnh án cho từng bác sĩ, số liệu như sau: Bảng 1. Thời gian nằm viện của bệnh nhân theo bác sĩ điều trị

A B C 4 4 5 5 5 3 5 4 3 4 3 3 6 4 3 6 5 3 4 3 4 5 3 5

∑A = 39 ∑B = 31 ∑C = 29

4,875A 3,875B 3,625C

4,125X

Biến số (yếu tố) để so sánh chỉ độc nhất là thời gian nằm viện của bệnh nhân (tính bằng ngày). Số liệu được phân bố với các ký hiệu như sau:

B/n của BS. A: x1A = 4, x2A = 5, …………………………….., x8A = 5 B/n của BS. B: x1B = 4, x2B = 5, …………………………….., x8B = 3 B/n của BS. C: x1C = 5, x2C = 3, …………………………….., x8C = 5

ijx : quan sát thứ i thuộc nhóm j

PHÂN TÍCH PHƯƠNG SAI

(ANALYSIS OF VARIANCE/ANOVA)

Page 65: Giáo trình Phương pháp Nghiên cứu Khoa học 2

65

X : đại trung bình (số trung bình tính được từ 24 b/n)

, ,A B C : số trung bình của các nhóm A, B, và C (tính từ 8 b/n của mỗi nhóm)

Chọn x2A làm mẫu:

(x2A – X ) = (5 – 4,125) = 0,875 Hiệu 0,875 có thể được tách ra làm 2:

(x2A – X ) = (x2A – A ) + ( A X ) = (5 – 4,875) + (4,875 – 4,125) = (0,125) + (0,750) = 0,875 ANOVA xem xét biến thiên của tất cả các quan sát với số đại trung bình và phân chúng ra làm 2: biến thiên nội nhóm và biến thiên giữa các nhóm.

Nếu số trung bình của các nhóm khác nhau nhiều ( 1 2 3, , ,....x x x khác nhau nhiều) thì sự biến

thiên giữa chúng và đại trung bình (biến thiên giữa các nhóm) sẽ đáng kể hơn so với các biến thiên giữa các quan sát trong 1 nhóm với trung bình của nhóm (biến thiên nội nhóm).

Biến thiên giữa 1 quan sát thuộc nhóm A và đại trung bình. (Biến thiên tổng)

Biến thiên giữa 1 quan sát thuộc nhóm A và trung bình của nhóm A. (Biến thiên nội nhóm)

Biến thiên giữa trung bình của nhóm A và đại trung bình. (Biến thiên giữa các nhóm)

Page 66: Giáo trình Phương pháp Nghiên cứu Khoa học 2

66

Thí dụ: có 5 mẫu với 5 số trung bình

Các số trung bình khác nhau nhiều nên B lớn so với A. Nếu số trung bình của các nhóm không khác nhau nhiều thì biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm.

Các số trung bình không khác nhau nhiều nên B nhỏ so với A.

112A x x

1B x X

Lưu ý: do các x khác nhau nhiều nên khoảng cách giữa

chúng với X cũng xa (các B đều khá lớn)

Lưu ý: do các x không khác nhau nhiều nên khoảng cách giữa chúng với

X cũng gần nhau (các B đều nhỏ)

Page 67: Giáo trình Phương pháp Nghiên cứu Khoa học 2

67

Phép kiểm định giả thuyết về 2 phương sai, F test, có thể được sử dụng để kiểm định tỉ số phương sai giữa các nhóm và phương sai nội nhóm. Giả thuyết trống của F test cho rằng 2 phương sai này bằng nhau; nếu H0 đúng thì có nghĩa là biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm. Trong tình huống này, không thể kết luận là các trung bình khác lẫn nhau (không có 1 cặp trung bình nào khác nhau). Ngược lại, nếu từ chối được H0 thì kết luận được là không phải tất cả các trung bình đều bằng nhau (có ít nhất 1 cặp trung bình khác nhau). III. CÁCH TÍNH TRONG ANOVA

+ Tính tổng bình phương giữa các số trung bình nhóm so với đại trung bình (Tổng bình phương giữa các nhóm – Sum of Squares Between – SSB)

2( )jjSSB n x X

jn : số quan sát trong từng nhóm jx : số trung bình của từng nhóm

X : đại trung bình

2 2 2[8(4,875 4,125) ] [8(3,875 4,125) ] [8(3,625 4,125) ] 7SSB

+ Tính tổng bình phương giữa các quan sát trong từng nhóm so với số trung

bình của nhóm (Tổng bình phương nội nhóm – Sum of Squares Within – SSW)

82

1

( )AA iAi

S S W x x

= 2 2 2(4 4,875) (5 4,875) ..... (5 4,875)

= 4,875

82

1

( )BB iBi

S S W x x

= 2 2 2(4 3,875) (5 3,875) ..... (3 3,875)

= 4,875

82

1

( )CC iCi

S S W x x

= 2 2 2(5 3,625) (3 3,625) ..... (5 3,625)

= 5,875

Page 68: Giáo trình Phương pháp Nghiên cứu Khoa học 2

68

SSW = 4,875 + 4,875 + 5,875 = 15,625

+ Tính tổng tổng bình phương (Total Sum of Squares – TSS) Xem cả 3 nhóm như một mẫu duy nhất để tính và thực tế sẽ bằng SSB+SSW

2

1 1

( )n k

iji j

TSS x X

= SSB + SSW = 7 + 15,625 = 22,625

k: số nhóm + Tính các trung bình bình phương (Mean Squares) Mỗi tổng bình phương có độ tự do riêng Nguồn biến thiên Độ tự do SSB k – 1 = 3 – 1 = 2 (số nhóm trừ 1) SSW k ( 1jn ) = 3 (8 – 1) = 21 (chỉ áp dụng khi

các nhóm bằng nhau về cỡ mẫu) TSS n – 1 = 24 – 1 = 23 (n là tổng số các quan

sát của tất cả các nhóm, xem như 1 mẫu lớn) Các trung bình bình phương được tính bằng cách lấy tổng bình phương chia cho độ tự do

tương ứng Trung bình bình phương giữa các nhóm – Mean Square Between

MSB = SSB/(k – 1)

Trung bình bình phương nội nhóm – Mean Square Within MSW = SSW/ k( 1jn )

+ Lập tỉ số phương sai (Variance Ratio – VR = F ratio): V.R = MSB

MSW

IV. PHÉP KIỂM ANOVA Với thí dụ minh họa trên: Thời gian nằm viện của b/n theo các bác sĩ A, B, C có khác nhau? 1/ Số liệu: bao gồm 1 biến số liên tục (như đã cho) 2/ Giả định: + Thời gian nằm viện (theo 3 BS) phân phối bình thường. + Phương sai của các dân số (thời gian nằm viện theo A, B, C) bằng nhau + Các mẫu được rút ngẫu nhiên và độc lập.

Page 69: Giáo trình Phương pháp Nghiên cứu Khoa học 2

69

3/ Giả thuyết: H0: μA = μB = μC HA: Có ít nhất 1 cặp μ khác nhau (μA ≠ μB hoặc μB ≠ μC hoặc μA ≠ μC) α = 0,05 4/ Số TKKĐ:

V.R = MSB

MSW với

5/ PP. cuûa soá TKKÑ: Khi H0 ñuùng, soá TKKÑ seõ coù phaân phoái F vôùi (3 – 1) ñoä töï do ở töû

soá vaø (24 – 3) ñoä töï do ở maãu soá.

6/ Qui taéc quyeát ñònh: Ñaët = 0,05. Giaù trò tôùi haïn cuûa F (tra baûng) baèng 3,47. Töø choái

H0 neáu V.R. 3,47.

7/ Tính số TKKĐ : V.R = MSB

MSW

Tính

2( )

1 1

jjn x XSSBMSB

k k

2 2 2[8(4,875 4,125) ] [8(3,875 4,125) ] [8(3,625 4,125) ] 4,5 0,5 2,0

3,53 1 2

MSB

Tính

2( 1)

( 1)

j j

j

n s S S WM S W

n N j

2 2 2[ (8 1) 0 , 8 3 4 5 ] [ (8 1) 0 , 8 3 4 5 ] [ (8 1) 0 , 9 1 6 1 ]

2 4 3M S W

4,875 4,875 5,875

0,7421

MSW

V.R = 3,5

4,730,74

8/ Quyết định thống kê: Từ chối H0 vì V.R = 4,73 > 3,47 9/ Kết luận: Có ít nhất 1 cặp μ khác nhau. p = 0,021

j – 1 df

N– j df

Page 70: Giáo trình Phương pháp Nghiên cứu Khoa học 2

70

Cách trình bày kết quả ANOVA Bảng 2. Kết quả so sánh thời gian nằm viện trung bình của b/n thuộc các BS điều trị A, B, C Tổng bình

phương (Sum of Squares)

Độ tự do

(df)

Trung bình bình phương

(Mean square)

F (V.R)

Giá trị p

Giữa các nhóm (Between groups)

7,000 2 3,500 4,704 0,021

Nội nhóm (Within groups)

15,625 21 0,744

Tổng (Total)

22,625 23

V. KỸ THUẬT HẬU KIỂM (Post hoc procedures) Kết quả của ANOVA không cho biết cặp nào của μ khác nhau. Việc tiến hành các kỹ thuật hậu kiểm sẽ giúp kết luận về việc này. Phần này sẽ giới thiệu 2 phép hậu kiểm: Tukey’s HSD test (Honestly Significant Difference) sử dụng cho trường hợp các mẫu bằng nhau, và Scheffé test sử dụng cho trường hợp các mẫu không bằng nhau. 1/ Tukey’s HSD test

Số TKKĐ của HSD: ( )q a

MSWHSD Multiplier

n

MSW: Trung bình bình phương giữa các nhóm a: số lượng số trung bình cần so sánh q: df của MSW Tính số TKKĐ:

+ Với 3 số trung bình cần so sánh và 21 df (của SMW) ở ngưỡng α = 0,05, tra bảng để có multiplier (bội số) là khoảng 3,55;

+ MSW = 0,74; + n = 8

0,743,55 1,08

8HSD

Hiệu giữa 2 số trung bình ít nhất phải bằng 1,08 thì mới được xem là có sự khác biệt có ý nghĩa thống kê (ở ngưỡng 0,05).

Page 71: Giáo trình Phương pháp Nghiên cứu Khoa học 2

71

Như vậy: 4,875 3,875 1,000A B μA = μB

3,875 3,625 0,250B C μB = μC

4,875 3,625 1,250A C μA ≠ μC Kết luận: Thời gian nằm viện trung bình của b/n thuộc BS. A khác có ý nghĩa thống kê với thời gian nằm viện trung bình của b/n thuộc BS. C. 2/ Scheffé test

Số TKKĐ: 2

1 2

1 2 1 2

( )

( ) /

X XF

MSW n n n n

Với A và B : 2(4,875 3,875)

5, 410,74(8 8) / 64

F

Với B và C : 2(3,875 3,625)

0,340,74(8 8) / 64

F

Với A và C : 2(4,875 3,625)

8, 450,74(8 8) / 64

F

Giá trị tới hạn của F được tính bằng cách lấy số nhóm trừ 1 (3-1) rồi nhân cho giá trị tới hạn của F đã tính được trong phép kiểm ANOVA (4,73).

F (tới hạn) = 2 x 3,47 = 6,94 Sự khác biệt giữa 2 số trung bình được xem là có ý nghĩa thống kê khi F tính được lớn hơn

6,94. Như vậy chỉ có cặp A và C thỏa điều kiện này. Kết luận tương tự như kết luận trong Tukey’s HSD test.

-------------------------------------------------------------------------------------------------------------------------------------------------

Page 72: Giáo trình Phương pháp Nghiên cứu Khoa học 2

72

Baøi 8 (TKYH)

PHÂN PHỐI 2 & PHÂN TÍCH TẦN SỐ

(Chi-Square Distribution & Analysis of Frequencies)

I. GIÔÙI THIEÄU

PP. 2 laø moät kyõ thuaät thoáng keâ thöôøng ñöôïc söû duïng nhaát ñeå phaân tích soá lieäu daïng

soá ñeám hoaëc taàn soá.

Trong KÑGT, PP. 2 ñöôïc söû duïng cho soá lieäu döôùi daïng taàn soá trong 3 tröôøng hôïp:

+ Pheùp kieåm tính PP. Bình thöôøng (Test of goodness-of-fit)

+ Pheùp kieåm tính ñoäc laäp (Test of independence)

+ Pheùp kieåm tính ñoàng nhaát (test of homogeneity)

Phaàn naøy ñaëc bieät chæ xem xeùt pheùp kieåm tính ñoäc laäp.

Taàn soá quan saùt (Observed frequencies) vaø Taàn soá mong ñôïi (Expected frequencies)

Soá thoáng keâ 2 thích hôïp nhaát vôùi caùc bieán soá nhoùm loaïi (categorical variables). Coù hai taäp

hôïp taàn soá ñöôïc quan taâm: 1 Taàn soá quan saùt: laø soá ñoái töôïng hoaëc vaät theå thuoäc maãu naèm trong caùc nhoùm loaïi khaùc

nhau cuûa bieán soá. Thí duï: n = 100, trong ñoù thaáy coù 50 coù gia ñình, 30 ngöôøi ñoäc thaân,

15 ngöôøi goùa, vaø 5 ngöôøi ñaõ li dò. 2 Taàn soá mong ñôïi: laø soá ñoái töôïng hoaëc vaät theå thuoäc maãu maø chuùng ta mong ñôïi seõ

quan saùt thaáy neáu (moät soá) giaû thuyeát troáng (veà bieán soá) ñuùng. Thí duï:H0 coù theå laø trong

daân soá maø ta ruùt maãu boán nhoùm tình traïng gia ñình ñeàu coù tæ leä baèng nhau, nghóa laø

chuùng ta mong ñôïi seõ thaáy (maãu n = 100) coù 25 ngöôøi coù gia ñình, 25 ngöôøi ñoäc thaân, 25

ngöôøi goùa, vaø 25 ngöôøi ñaõ li dò.

Soá TKKÑ 2: Soá TKKÑ cho caùc pheùp kieåm 2 laø:

Oi: taàn soá quan saùt thuoäc nhoùm loaïi thöù i

i

ii

E

EOX

22 )(

Ei: taàn soá mong ñôïi (vôùi ñieàu kieän H0 ñuùng)

cuûa nhoùm loaïi thö ù i Khi H0 ñuùng, X2 coù PP. 2 vôùi (r – 1)(c – 1) ñoä töï do.

r: soá haøng c: soá coät

Ñaïi löôïng X2 laø soá ño möùc ñoä, trong ñieàu kieän cho tröôùc, töông ñoàng giöõa caùc caëp taàn soá

quan saùt vaø mong ñôïi. Khi Oi vaø Ei caøng töông ñoàng vôùi nhau thì X2 caøng nhoû, vaø khi

chuùng caøng ít töông ñoàng vôùi nhau thì X2 caøng lôùn.

0,05

0 x2

Page 73: Giáo trình Phương pháp Nghiên cứu Khoa học 2

73

Qui taéc quyeát ñònh: Ñaïi löôïng

i

ii

E

EO 2)( seõ nhoû neáu caùc taàn soá quan saùt vaø

mong ñôïi gaàn baèng nhau, vaø seõ lôùn neáu hieäu cuûa chuùng lôùn. Töø choái H0 neáu X2 lôùn

hôn hoaëc baèng giaù trò cuûa X2 ôû giaù trò ñaõ choïn.

II. PHEÙP KIEÅM TÍNH ÑOÄC LAÄP (Tests of Independence)

Hai tieâu chuaån phaân loaïi ñöôïc xem laø ñoäc laäp nhau neáu phaân phoái cuûa 1 tieâu chuaån

vaãn khoâng ñoåi cho duø phaân phoái cuûa tieâu chuaån kia coù laø gì ñi nöõa. Thí duï: neáu cho raèng

tình traïng kinh teá-xaõ hoäi vaø nôi cö truù (trong moät thaønh phoá) ñoäc laäp vôùi nhau, ta seõ mong

ñôïi tìm thaáy tæ leä baèng nhau cuûa caùc gia ñình thuoäc caùc nhoùm tình traïng kinh teá-xaõ hoäi thaáp,

trung bình, vaø cao ôû taát caû caùc khu vöïc cuûa thaønh phoá.

Caùch tính taàn soá mong ñôïi: taàn soá mong ñôïi, döôùi giaû thuyeát troáng cho raèng 2 tieâu chuaån

phaân loaïi ñoäc laäp vôùi nhau, ñöôïc tính cho töøng oâ (cell) baèng caùch nhaân toång cuûa haøng (coù

chöùa cell) vôùi toång cuûa coät (coù chöùa cell) roài chia tích naøy cho ñaïi toång soá n.

Thí duï chöùng minh: Muïc ñích nghieân cöùu cuûa 1 nhoùm taùc giaû laø nhaèm khaûo saùt giaû thuyeát

cho raèng phuï nöõ nhieãm HIV ñoàng thôøi vôùi nhieãm Papilomavirus (HPV) seõ coù nhieàu khaû

naêng coù caùc baát thöôøng veà maët teá baøo ôû coå töû cung hôn phuï nöõ chæ nhieãm 1 hoaëc khoâng

nhieãm loaïi virus naøo. Soá lieäu sau ñaây do nhaø nghieân cöùu cung caáp,

HIV

HPV HT+, TCLS+ HT+, TCLS– HT– Toång

Döông tính 23 04 10 37

AÂm tính 10 14 35 59

Toång 33 18 45 96

Nhaø nghieân cöùu muoán bieát lieäu hoï coù theå keát luaän laø coù moái lieân heä giöõa tình traïng nhieãm

HPV vaø caùc giai ñoaïn nhieãm HIV khoâng?

1. Soá lieäu: (xem ñeà baøi)

2. Giaû ñònh: Maãu hieän coù ñeå phaân tích töông ñöông vôùi 1 maãu ngaãu nhieân ñôn giaûn

ruùt ra töø daân soá coù lieân quan.

3. Giaû thuyeát:

H0: Tình traïng nhieãm HPV vaø caùc giai ñoaïn nhieãm HIV ñoäc laäp vôùi nhau (khoâng coù

moái lieân quan vôùi nhau)

HA: Tình traïng nhieãm HPV vaø caùc giai ñoaïn nhieãm HIV khoâng ñoäc laäp vôùi nhau (coù

moái lieân quan vôùi nhau)

Ñaët = 0,05

Page 74: Giáo trình Phương pháp Nghiên cứu Khoa học 2

74

4. Soá TKKÑ X2 =

k

i i

ii

E

EO

1

2)(

5. PP. cuûa soá TKKÑ: Khi H0 ñuùng X2 coù phaân phoái gaàn nhö 2 vôùi

(r – 1)(c – 1) = (2 – 1)(3 – 1) = 2 ñoä töï do

6. Qui taéc quyeát ñònh: Töø choái H0 neáu giaù trò X2 tính ñöôïc baèng hoaëc lôùn hôn 5,991.

7. Tính soá TKKÑ:

Taàn soá mong ñôïi cuûa oâ thöù nhaát ñöôïc tính baèng (33 x 37)/96 = 12,72. Caùc oâ khaùc

ñöôïc tính töông töï

HPV HIV

HT+, TCLS+ HT+, TCLS– HT– Toång

Döông tính 23 (12,72) 4 (6,94) 10 (17,34) 37

AÂm tính 10 (20,28) 14 (11,06) 35 (27,66) 59

33 18 45 96

X2=

k

i i

ii

E

EO

1

2)(=

66,27

)66,2735(.....

94,6

)94,64(

72,12

)72,1223( 222

= 8,30805 + 1,24548 + .. ..+ 1,94778 = 20,60081

8. Quyeát ñònh thoáng keâ: Töø choái H0 vì 20,60081 > 5,991

9. Keát luaän: Coù moái lieân quan giöõa tình traïng nhieãm HPV vaø caùc giai ñoaïn nhieãm HIV.

p < 0,005.

Tröôøng hôïp taàn soá mong ñôïi nhoû: Theo Cochran:

+ Ñoái vôùi caùc baûng cheùo (contingency table) coù > 1 ñoä töï do (ít nhaát laø baûng 3x2 hoaëc

baûng 2x3), giaù trò cuûa taàn soá mong ñôïi nhoû nhaát cho pheùp laø baèng 1 vôùi ñieàu kieän

khoâng coù > 20% soá oâ coù taàn soá mong ñôïi < 5. Ñeå thoûa ñöôïc ñieàu kieän naøy, ngöôøi ta

thöôøng phaûi doàn coät hoaëc haøng laïi.

+ Ñoái vôùi tröôøng hôïp PP. 2 vôùi < 30 ñoä töï do, coù theå chaáp nhaän giaù trò cuûa taàn soá

mong ñôïi nhoû baèng 2.

TRÖÔØNG HÔÏP BAÛNG CHEÙO 2 X 2

Tieâu chuaån phaân Tieâu chuaån phaân loaïi thöù nhaát Toång

loaïi thöù hai 1 2

1 a b a + b

2 c d c + d

Toång a + c b + d n

X2 coù theå ñöôïc tính baèng caùch ñon giaûn hôn:

Page 75: Giáo trình Phương pháp Nghiên cứu Khoa học 2

75

X2 = ))()()((

)( 2

dcbadbca

bcadn

a, b, c, d: taàn soá quan saùt cuûa caùc oâ. Phaân phoái 2 naøy coù (r – 1)(c –1) = 1 ñoä töï do.

Tröôøng hôïp taàn soá mong ñôïi nhoû cuûa baûng 2 x 2: Cochran cho raèng khoâng neân duøng

pheùp kieåm 2 neáu

+ n < 20 hoaëc

+ 20 < n < 40 + coù taàn soá mong ñôïi < 5

Khi n 40, coù theå chaáp nhaän 1 taàn soá mong ñôïi nhoû baèng 1.

Ñieàu chænh Yates (Yates’s correction)

Caùc taàn soá quan saùt trong baûng cheùo laø bieán soá rôøi, nhöng laïi ñöa ñeán PP. maãu X2 coù

PP. lieân tuïc. Ñieàu chænh Yates laø coâng cuï ñeå ñieàu chænh söï vieäc naøy cho tröôøng hôïp baûng 2

x 2. Vieäc ñieàu chænh ñöôïc tieán haønh baèng caùch laáy giaù trò tuyeät ñoái cuûa ñaïi löôïng

\ad – bc\ tröø cho 2

1 toång soá caùc quan saùt tröôùc khi bình phöông. Khi naøy,

X2 = ))()()((

)5,0\(\ 2

dcbadbca

nbcadn

Ghi chuù: Trong caùc software veà TKYH, keát quaû X2 cuûa test of independence thöôøng

ñöôïc trình baøy döôùi daïng keát quaû cuûa Pearson (laáy theo teân Karl Pearson, moät trong

nhöõng ngöôøi ñaõ phaùt trieån pheùp kieåm 2).

III. FISHER EXACT TEST

Trong tröôøng hôïp baûng 2 x2, khi caùc ñieàu kieän veà côõ maãu khoâng ñöôïc thoûa thì

Fisher Exact Test coù theå laø moät löïa choïn thay theá.

-----------------------------------------------------------

Page 76: Giáo trình Phương pháp Nghiên cứu Khoa học 2

76

Bài 9 (TKYH) I. GIỚI THIỆU

Phân tích tương quan (Correlation) là kỹ thuật rất thường dùng trong thống kê y học nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tượng thông qua hệ số tương quan (correlation coefficient). Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày hệ số tương quan r của Pearson (Pearson r correlation coefficient). Pearson r là số đo mối liên quan tuyến tính của 2 biến số, và được sử dụng khi 2 biến số thuộc thang đo lường tỉ số hoặc thang khoảng. II. CÁCH TÍNH và ĐẶC ĐIỂM CỦA PEARSON r

Để tính được Pearson r, cần phải đo dược 2 biến số, x và y – thí dụ, chiều cao (x) và cân nặng (y). Các số đo này phải được lấy thành cặp đối với từng thành viên của 1 mẫu ngẫu nhiên đơn giản rút ra từ 1 dân số.

Công thức tính: 2 2

xyr

x y

ĐẶC ĐIỂM:

+ Giá trị của Pearson r nằm trong khoảng –1 đến +1.

Một HSTQ bằng –1 cho thấy 2 biến số có mối liên quan nghịch chiều tuyệt đối (perfect negative relationship) (liên quan nghịch chiều: x tăng, y giảm; x giảm, y tăng). Một HSTQ bằng +1 cho thấy 2 biến số có mối liên quan thuận chiều tuyệt đối. (perfect positive relationship) (liên quan thuận chiều : x tăng, y tăng; x giảm, y giảm) Một HSTQ bằng 0 cho thấy không có mối liên quan giữa 2 biến số.

+ Giá trị tính được của Pearson r không phụ thuộc vào các đơn vị của x và y.

+ Giá trị của Pearson r bị ảnh hưởng rất nhiều bởi giá trị cực (giống như ĐLC).

+ Giả định cơ bản của Pearson r là mối liên quan giữa 2 biến số là mối liên quan tuyến tính. Do vậy, việc dựng các biểu đồ phân tán (scatter diagram) với x ở trục ngang và y ở trục dọc của đồ thị sẽ giúp đánh giá mối liên quan giữa 2 biến số. Nếu các điểm (trên đồ thị) nằm sát 1 đường thẳng hướng chéo lên trên hoặc chéo xuống dưới thì 2 biến số được xem là có mối liên quan tuyến tính, và việc sử dụng Pearson r là hoàn toàn thích hợp.

TƯƠNG QUAN TUYẾN TÍNH (Linear correlation)

Page 77: Giáo trình Phương pháp Nghiên cứu Khoa học 2

77

A B C D E F

Hình 1. Scatter plot và correlation. A: r = +1; B: r = 0,7; C: r = –0,9; D: r =–0,4; E: r = 0,0; F: r = 0,0

III. KIỂM ĐỊNH GIẢ THUYẾT VỀ PEARSON r Pearson r là số thống kê tính được từ 1 mẫu rút ra từ 1 dân số có hệ số tương quan ρ (đọc là rho). Khi tính r, chúng ta quan tâm đến việc tìm hiểu xem ρ ra sao, và điều này được thực hiện qua phép kiểm định gỉa thuyết về ρ. H0: ρ = 0 ρ ≥ 0 ρ ≤ 0 HA: ρ ≠ 0 ρ < 0 ρ > 0

Dùng số kiểm định tỉ số t (t ratio) khi ρ trong H0 có số không 2

2

1

nt r

r

Dùng số kiểm định zr (Fisher Z transformation) 1 1

ln2 1

r

rz

r

khi ρ trong H0 là một số bất kỳ không phải bằng không Thí dụ minh họa: Tìm và kiểm định mối liên quan giữa thời gian nằm việc (Length of Stay –LOS) và viện phí (Total charges) trên nhóm b/n bị phù phổi và suy hô hấp (DRG 087). B/n LOS

(x) Vphí

(USD) (y)

B/n LOS (x)

Vphí (USD)

(y) 1 1 6,507 18 4 9,389

2 2 8,771 19 5 9,660

3 2 6,971 20 5 15,106

4 2 7,405 21 5 16,289

5 3 11,290 22 5 8,285

6 3 8,944 23 6 12,893

7 3 11,133 24 6 14,840

8 3 4,304 25 7 17,375

9 3 6,702 26 7 16,925

10 3 12,143 27 8 16,892

11 3 5,867 28 8 12,462

12 3 11,061 29 8 16,955

13 3 9,494 30 8 21,754

14 4 10,920 31 9 20,830

15 4 14,917 32 10 23,915

16 4 8,222 33 10 27,245

17 4 10,566 34 12 41,410

Page 78: Giáo trình Phương pháp Nghiên cứu Khoa học 2

78

1/ Số liệu: (như trên) 2/ Giả định: 2 biến số LOS và viện phí cùng biến thiên trong 1 phân phối hợp có dạng phân phối bình thường (gọi là PPBT nhị biến – bivariate normal distribution); mẫu ngẫu nhiên.

3/ Giả thuyết: H0: ρ = 0 HA: ρ ≠ 0 α = 0,05

4/ Số TKKĐ: 2

2

1

nt r

r

5/ Phân phối của số TKKĐ: phân phối t với 32 df khi H0 đúng và các giả định được thỏa.

6/ Qui tắc quyết định: giá trị tới hạn của t ở 32 df đối với test 1 đuôi là 0,287. Nếu t tính được lớn hơn 0,287 thì từ chối H0. 7/ Tính số TKKĐ: với r = 0,88

2

2 34 20,88 0,88(16,3) 14,3

1 1 0.88

nt r

r

8/ Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 14,3 (> 0,287). 9/ Kết luận: Trong dân số b/n phù phổi và suy hô hấp (DRG 087), LOS và viện phí có mối tương quan tuyến tính với nhau. p = 0,0001. IV. CÁC GHI NHỚ QUAN TRỌNG + Hai biến số có tương quan với nhau không nhất thiết phải có mối liên hệ nhân- quả (không thể kết luận rằng LOS làm tăng viện phí.)

Page 79: Giáo trình Phương pháp Nghiên cứu Khoa học 2

79

+ Cỡ mẫu đóng vai trò quan trọng trong tính toán pearson r. r nhỏ có thể có ý nghĩa thống kê khi cỡ mẫu lớn, trong khi r lớn có thể không có ý nghĩa thống kê khi cỡ mẫu nhỏ. + Hệ số quyết định (coefficient of determination) r2 là một giá trị quan trọng. r2 cho biết bao nhiêu phần thay đổi (biến thiên) của Y được qui là do X, và ngược lại. (Trong thí dụ minh họa chúng ta có r2=0,774 (0,88)2. Có thể kết luận là 77,4% các biến thiên trong viện phí của DRG 087 được giải thích là do LOS của b/n). Hệ số quyết định giúp đánh giá tốt hơn độ mạnh của mối liên hệ giữa 2 biến số.

----------------------------------------------------------------------------------------------------------------------------------------------

Page 80: Giáo trình Phương pháp Nghiên cứu Khoa học 2

80

Bài 9b (TKYH) I. GIỚI THIỆU

Phân tích hồi qui (Regression) là kỹ thuật rất thường dùng trong thống kê y học nhằm tiên đoán giá trị của một đặc điểm khi đã biết giá trị của một đặc điểm khác. Như vậy, phân tích hồi qui chỉ giúp tiên đoán (hoặc ước lượng) khi 2 biến số có mối tương quan khá tốt. Sở dĩ gọi là hồi qui tuyến tính vì kỹ thuật chỉ giúp đo đạc các mối liên quan tuyến tính (theo đường thẳng). Sở dĩ gọi là hồi đơn biến (simple linear regression) vì chỉ dùng 1 biến số này (gọi là biến số độc lập – independent variable hay biến số giải thích – explanatory variable) để tiên đoán (hay ước lượng) ra biến số kia (biến số phụ thuộc – dependent variable). Trong hồi qui đa biến – multiple regression có nhiều hơn 1 independent variable được sử dụng để tiên đoán. II. THIẾT LẬP PHƯƠNG TRÌNH HỒI QUI MẪU (Sample regression equation) Phương trình (pt) hồi qui mẫu là pt được thiết lập từ số liệu của 1 mẫu (rút ra từ dân số) và sẽ được suy diễn như 1 pt hồi qui cho dân số (nếu thích hợp).

Khái niệm về đường thẳng vừa khít nhất (line of best fit) Giống như trường hợp với Pearson r, giả định quan trọng nhất trong hồi qui tuyến tính là 2 biến số được xem xét có mối liên quan tuyến tính với nhau. Nghĩa là một đường thẳng có thể được sử dụng để mô tả mối liên quan này. Công thức đại số của pt đường thẳng là: y = a + bx theo đó b là độ dốc (slope) của đường thẳng và a là điểm cắt (intercept) của đường thẳng vào trục y. Độ dốc cho biết sự thay đổi trung bình ở y có được khi x thay đổi. Độ dốc càng nhiều (đường thẳng dựng đứng hơn) thì y cũng thay đổi nhiều hơn tương ứng với mỗi thay đổi của x, và mối tương quan của 2 biến số cũng mạnh hơn. Giá trị tại điểm cắt a cho biết giá trị trung bình của y khi x = 0. y x

HỒI QUI TUYẾN TÍNH

(Linear regression)

Page 81: Giáo trình Phương pháp Nghiên cứu Khoa học 2

81

Với 2 điểm bất kỳ, rất dễ để xác định phương trình đường thẳng. Tuy nhiên, khi có nhiều điểm hơn (≥ 3 điểm), khó có thể tìm thấy 1 đường thẳng đi qua các điểm này cùng 1 lúc ngoại trừ khi có mối tương quan tuyệt đối ± 1. Như vậy, trong hồi qui tuyến tính, cần phải tìm một đường thẳng “vừa khít nhất” với các điểm. Đó cũng chính là đường hồi qui (regression line). Công thức của pt đường thẳng cho thấy tương ứng với mỗi giá trị của x, chỉ có 1 giá trị của Y, và đây cũng là phép đo chính xác, nghĩa là không có sai số. Trong thực tế, hầu hết các khảo sát về mối tương quan đều không chính xác. Do vậy, pt hồi qui lẽ ra nên được viết là: y = a + bx + e theo đó e (error) là sai số. Chính điều này đã thừa nhận là pt tiên đoán không thể giúp tiên đoán y chính xác tuyệt đối được. Như vậy, với một x cho trước, có thể có nhiều hơn một y. Thí dụ chứng minh: x Y x Y

0 4 3 10 0 5 3 11 0 6 3 12 1 6 4 12 1 7 4 13 1 8 4 14 2 8 5 14 2 9 5 15 2 10 5 16

Với mỗi giá trị của x biết trước, có 3 giá trị khác nhau của y. Như vậy, đường hồi qui không thể đi qua tất cả các điểm có tọa độ (x, y).

Page 82: Giáo trình Phương pháp Nghiên cứu Khoa học 2

82

Đường thẳng trong đồ thị phân tán là đường “vừa khít nhất” cho tất cả các điểm. Khoảng cách giữa các điểm và đường hồi qui tiêu biểu cho sai số (e) trong công thức. Khoảng cách giữa các điểm và đường “vừa khít nhất” được tính:

di = yi – y

y là giá trị tiên đoán được của Y từ x

là số trung bình của dân số (bao gồm) các Y có thể có tương ứng với một x đã cho trước. Tính tổng độ lệch (từ đường hồi qui) bình phương (sum of the squared deviations) để đo tổng độ vừa khít của đường hồi qui:

(Sum of Squared Errors) SSE =

2 2( )i id y y

Đường hồi qui đi qua các số trung bình của các giá trị Y có thực (observed) tương ứng với x đã cho trước.

Phương trình hồi qui mẫu

Pt hồi qui mẫu có thể được viết như sau:

0 1Y x Y là giá trị ước lượng được của Y cho bởi đường

hồi qui

0 là hằng số chỉ nơi đường hồi qui cắt trục Y, và

ước lượng giá trị trung bình của Y khi x=0

1 là số ước lượng độ dốc, cho biết sự thay đổi

trung bình của Y đi kèm với 1 sự thay đổi ở x.

Page 83: Giáo trình Phương pháp Nghiên cứu Khoa học 2

83

0 và

1 đều được suy diễn cho hệ số hồi qui dân số (thay đổi từ mẫu này qua mẫu

khác).

Công thức tính:

21 /xy x

0 1Y x

Thí dụ minh họa b/n X

Cao (inches) Y

Cân nặng (lbs) X2 Y2 XY

1 60 135 3.600 18.225 8.100 2 60 120 3.600 14.400 7.200 3 62 140 3.844 19.600 8.680 4 62 130 3.844 16.900 8.060 5 62 135 3.844 18.225 8.370 6 64 145 4.096 21.025 9.280 7 66 150 4.356 22.500 9.900 8 68 150 4.624 22.500 10.200 9 68 160 4.624 25.600 10.880

Total 572 1.265 36.432 178.975 80.670 x = 63,6

sx = 3,13 y = 104,6

sy = 12,1

2 36.432X 2 78,2x

2 178.975Y 2 1.172, 2y

80.670XY 272,2xy

Pearson r = 0,973

21 /xy x

0 1Y x

= 272,2/78,2 = 140,6 – 3,48(63,3) = 3,48 = –80,7 Như vậy, để tiên đoán trọng lượng từ chiều cao, pt hồi qui là:

80,7 3,84Y X

III. KIỂM ĐỊNH GIẢ THUYẾT Trước khi sử dụng pt hồi qui để tiên đoán, cần phải tiến hành kiểm định để xem độ dốc của đường hồi qui (thuộc dân số) có khác không (zero) hay không. Kiểm định H0: β1 = 0 với số TKKĐ t (t statistic) + Số liệu: (sử dụng thí dụ minh họa) + Giả định: 1 Đối với mỗi giá trị của X có 1 tiểu dân số (các giá trị) Y. Các tiểu dân số Y phân phối bình thường 2 Các tiểu dân số Y có phương sai bằng nhau 3 Số trung bình của các tiểu dân số Y cùng nằm trên 1 đường thẳng 4 Các giá trị của Y độc lập về mặt thống kê.

Page 84: Giáo trình Phương pháp Nghiên cứu Khoa học 2

84

+ Giả thuyết H0: 1 0

HA: 1 0 α = 0,05

+ Số TKKĐ:

21 / ( / )yxt s x

+ Phân phối của số TKKĐ: PP. t với df = n–2 khi H0 đúng và các giả định được thỏa. + Qui tắc quyết định: giá trị tới hạn của t ở 7 df bằng 2,365.

+ Tính số TKKĐ: Standard error syx = sy21 r =12,1 1 0,808 =5,30

3, 48 / (5,30 / 78,2) 3,84 / 0,60t

= 5,84 + Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 5,84 (> 2,365). + Kết luận: Độ dốc của đường hồi qui không phải bằng zero. Kiểm định H0: β1 = 0 với số TKKĐ F (F statistic) Dùng ANOVA với số TKKĐ là tỉ số phương sai V.R.

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

Page 85: Giáo trình Phương pháp Nghiên cứu Khoa học 2

85

Bài 10 (TKYH) I. GIỚI THIỆU

Hồi qui logistic là một kỹ thuật phân tích hồi qui trong đó biến số phụ thuộc (Y) là một biến số nhị phân (dichotomous – binary variable), theo đó Y thường được mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại). Biến số độc lập trong hồi qui logistic có thể là biến số rời hoặc liên tục, biến số đơn hoặc đa biến số.

Phần này chỉ trình bày những nguyên lý và hiểu biết cơ bản của hồi qui logistic. II. MÔ HÌNH HỒI QUI LOGISTIC

Phương trình hồi qui tuyến tính:

/ 0 1y x X /y x là số trung bình của tiểu dân số Y ở 1 X biết

trước 0 là hằng số chỉ nơi đường hồi qui cắt trục Y, và

ước lượng giá trị trung bình của Y khi X = 0 1 là số ước lượng độ dốc, cho biết sự thay đổi

trung bình của Y đi kèm với 1 sự thay đổi ở x. 0 1 biến thiên từ đến

Khi Y là biến số nhị phân, phương trình trên không sử dụng được vì giá trị mong đợi (số trung bình) của Y là xác suất để Y = 1 với giới hạn biến thiên là từ 0 đến 1. Nếu đặt p = P(Y=1) thì tỉ số (p/1–p) có thể biến thiên trong khoảng 0 đến . Ngoài ra, logarithm tự nhiên (ln) của p/(1-p) có thể biến thiên trong khoảng đến . Như vậy:

Ln 1

p

p

= 0 1X (1)

(1) được gọi là mô hình hồi qui logistic vì sự chuyển dạng của /y x (hoặc p)

thành ln [p/(1–p)] được gọi là sự chuyển dạng logit (logit transformation).

(1) cũng được trình bày như sau:

p = 0 1

0 1

exp( )

1 exp( )

X

X

exp: nghịch đảo của ln

HỒI QUI LOGISTIC

(Logistic Regression)

Page 86: Giáo trình Phương pháp Nghiên cứu Khoa học 2

86

III. HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP NHỊ PHÂN Sử dụng bảng 2x2 với số TKKĐ là Tỉ số chênh (Odds Ratio). IV. HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP LIÊN TỤC Thí dụ minh hoạ: Xác định mối tương quan giữa tuổi và nồng độ Cholesterol toàn phần (TC) thực hiện trên cộng đồng người Mỹ gốc Mỹ La tinh (Hispanic Americans), và dựa trên đó để tiên đoán khả năng của 1 người Hispanic American có nồng TC ≥ 240 nếu biết trước tuổi của người đó. Hispanic Americans với nồng độ TC ≥ 240 mg% phân bố theo Tuổi

Nhóm tuổi (năm) Số được khám (ni) Số có TC ≥ 240 (ni1) 25 – 34 522 41 35 – 44 330 51 45 – 54 344 81 55 – 64 219 81 65 – 74 114 50 Biến số độc lập là biến số liên tục (Tuổi). Do không có số liệu về tuổi của từng cá nhân nên việc phân tích Biến số phụ thuộc là biến số nhị phân (TC ≥ 240 và TC < 240).

Kết quả: 0 4,04 1 0,06

PT. Hồi qui: 4,04 0,06iy x

trong đó 1 2ln( / )i i iy n n ni1: số người trong nhóm tuổi thứ I có TC ≥

240 ni1 + ni2 = ni

Kiểm định giả thuyết H0: 1 0 cho kết quả p < 0,0001 (Chisquare test vói 1 df)

Kết luận: Phương trình hồi qui thích hợp để sử dụng. Sử dụng hồi qui logistic để tiên đoán: tìm xác suất để 1 Hispanic American ở độ tuổi 29,5 có TC ≥ 240.

exp[ 4,04 (0,06)(29,5)]

0,0871 exp[ 4,04 (0,06)(29,5)]

p

Page 87: Giáo trình Phương pháp Nghiên cứu Khoa học 2

87

V. HỒI QUI LOGISTIC VỚI ĐA BIẾN SỐ ĐỘC LẬP RỜI

Mô hình hồi qui logistic (với 3 biến số độc lập rời – discrete independent variables)

exp[ ( )]

X

0 1 1 2 2 3 3

1P

1 X X X

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Page 88: Giáo trình Phương pháp Nghiên cứu Khoa học 2

88

BAÛNG PHAÂN PHOÁI BÌNH THÖÔØNG CHUAÅN (Z TABLE)

Page 89: Giáo trình Phương pháp Nghiên cứu Khoa học 2

89

Page 90: Giáo trình Phương pháp Nghiên cứu Khoa học 2

90

BAÛNG PHAÂN PHOÁI t