huong dan su dung medcalc

76
0 NGUYN HỮU SƠN SDNG PHN MM MedCalc TRONG THNG KÊ Y HC Hu , 11-2010

Upload: huy-hoang

Post on 06-Aug-2015

186 views

Category:

Health & Medicine


39 download

TRANSCRIPT

0

NGUYỄN HỮU SƠN

SỬ DỤNG PHẦN MỀM

MedCalc

TRONG THỐNG KÊ Y HỌC

Hu , 11-2010

1

LỜI NÓI ĐẦU

Thống kê và phân tích số liệu là một khâu rất quan trọng trong tiến trình thực hiện các công trình nghiên cứu y học. Ngƣời làm công tác nghiên cứu khoa học bên cạnh kiến thức chuyên môn

giỏi, cần có những hiểu biết về phƣơng pháp thống kê y học.

Thống kê y học đƣợc thực hiện qua các thuật toán thống kê (test thống kê) với những công

thức tính toán khá phức tạp. Các phần mềm thống kê chạy trên máy vi tính là công cụ hữu ích để thực hiện các test thống kê này nhanh chóng, thuận tiện và chính xác. Đối với ngƣời làm nghiên cứu khoa học, điều quan trọng là phải nắm đƣợc thuật toán nào phù hợp với mô hình nghiên cứu của

mình, còn việc tính toán sẽ tiến hành trên máy tính với các phần mềm tùy chọn.

Hiện nay, có rất nhiều phần mềm thống kê đang đƣợc sử dụng nhƣ: Epi, Stata, Medcalc,

Spss... trong đó phần mềm Medcalc đƣợc ứng dụng đặc thù trong nghiên cứu y học. Medcalc có dung lƣợng nhỏ, dễ cài đặt. Việc thực hiện các lệnh bằng con chuột (Epi và Stata thực hiện bằng câu lệnh) với cửa sổ thao tác trực quan, dễ hiểu. Kết quả phân tích số liệu cho ra các bảng, biểu đồ

rõ ràng, màu sắc đẹp, có thể cắt dán dễ dàng vào các trang nghiên cứu khoa học hoặc luận văn, luận án. Chƣơng trình Medcalc còn cho phép thực hiện các test thống kê trực tiếp từ các bảng trình bày

, rất hữu ích cho các nhà phản biện muốn kiểm tra tính chính xác của các kết quả này. Đây là một tiện ích của chƣơng trình medcalc mà không phải phần mềm xử lý số liệu nào cũng có đƣợc.

Trong phạm vi cuốn sách này, chúng tôi giới thiệu những thuật toán thống kê cơ bản nhất thƣờng đƣợc sử dụng khi viết luận văn, luận án y khoa.

ọa, hy vọng rằng các bạn sinh viên Y6, học viên sau đại học và quý đồng nghiệp có thể

ứng dụng chƣơng trình Medcalc vào phân tích số liệu khi thực hiện các đề tài nghiên cứu .

Rất mong nhận đƣợc sự góp ý của quý bạn đọc, của học viên và đồng nghiệp để tập sách

ngày càng hoàn chỉnh và hữu ích hơn. Các ý kiến đóng góp xin gử i qua hộp thƣ điện tử [email protected].

Huế, tháng 11 năm 2010

Tác giả

Ths.Bs.

-

2

Chƣơng 1

GIỚI THIỆU CHƢƠNG TRÌNH MEDCALC

Sách hƣớng dẫn này dựa trên phiên bản Medcalc 11.3.1.0 (updated 8/2010). Bạn đọc có thể download phần mềm từ website http://www.medcalc.be để có đƣợc phiên bản cập nhật sau cùng.

Phần mềm Medcalc đƣợc cài đặt tƣơng thích với Window 7, Vista, XP.

1.1. Cửa sổ chính

Cửa sổ làm việc của chƣơng trình nhƣ sau:

Thanh thực đơn (menu) bao gồm:

+ File: để tạo file mới (new), mở file đã có (open); lƣu (save/ save as)..

+ Edit: để thực hiện lệnh copy, cắt (cut), dán (paste)...

+ Statistics : chứa các lệnh để thực hiện tất cả các test thống kê.

+ Graphs : vào menu này để vẽ các biểu đồ.

+ Test: vào menu này để thực hiện các test thống kê trực tiếp từ các bảng trình bày trong luận văn, luận án. Phần này rất hữu ích để tính "giá trị p" mà không cần có số liệu gốc.

1.2. Cửa sổ số liệu (data)

Kích chuột vào nút (data) để mở cửa sổ số liệu.

Cửa sổ số liệu có hình thức giống một bảng tính excel (microsoft excel). Hàng trên cùng

(ngay trên hàng số 1) để ghi tên biến. Từ hàng số 1 trở đi nhập giá trị của biến.

Cửa sổ sổ liệu

(Data)

Kích đôi chuột vào

Data để mở cửa sổ

nhập số liệu

3

Các thao tác chính trong cửa sổ số liệu:

- Nhập số liệu.

- Di chuyển giữa các ô: dùng phím Tab hoặc phím mũi tên.

- Chọn (highlight):

+ Chọn 1 hoặc nhiều ô liền nhau: Dùng chuột kích vào ô cần chọn hoặc rê chuột qua tất cả

các ô cần chọn.

+ Chọn cột: Đƣa chuột đến vị trí cột (vị trí các chữ cái A, B,..), con trỏ chuột biến thành mũi tên hƣớng xuống, kích chuột vào cột cần chọn.

+ Chọn hàng: Đƣa chuột đến vị trí hàng (vị trí số thứ tự 1, 2,..), con trỏ chuột biến thành mũi tên hƣớng sang phải, kích chuột vào hàng cần chọn

+ Xóa hàng (cột): Kích chuột phải (right click) vào hàng (cột) cần xóa, chọn Remove --> Rows (Columns)

+ Chèn thêm hàng (cột): Kích chuột phải vào vị trí cần chèn thêm hàng (cột), chọn Insert --

> Rows (Columns). Hàng mới chèn thêm vào bên trên hàng đƣợc chọn, cột mới chèn thêm vào bên trái cột đƣợc chọn.

- Biên tập số liệu: copy, cắt (cut), dán (paste) vùng đƣợc chọn. Tại các ô của cửa sổ số liệu, có thể thực hiện các phép tính từ đơn giản đến phức tạp. Ví dụ: nhập 3*12 sẽ hiển thị kết quả 36.

Ghi chú: Trong quá trình biên tập số liệu, muốn quay lại những thao tác trƣớc đó (ví dụ xóa

nhầm, nhập sai...), kích chuột vào nút Undo trên thanh công cụ.

Có thể thay đổi độ rộng của cột bằng cách giữ và rê chuột ở vị trí đƣờng phân cách giữa 2

cột (lúc này con trỏ chuột có hình 2 mũi tên):

4

1.3. Hộp thoại

Các thao tác trong medcalc đƣợc thực hiện thông qua hộp thoại (dialog box). Hộp thoại đƣợc dùng để lựa chọn các tính năng và rút các biến đƣa vào phân tích.

Một hộp thoại thƣờng có các thành phần sau:

- Variable: Chứa danh sách các biến nguồn. Kích chuột vào nút để sổ xuống danh sách các biến này. Các biến đƣợc xếp theo thứ tự alphabet.

- Select: Để chọn một đặc tính nào đó của biến. Dùng chức năng này khi muốn chọn một nhóm để đƣa vào phân tích. Ví dụ sau sẽ tính tuổi trung bình của những ngƣời có HATT > 140

mmHg.

- More Options: Các tùy chọn. Khi bấm chuột vào nút này sẽ mở ra một hộp thoại phụ.

1.4. Mở một bảng số liệu đã có

- Vào menu File Open

Giữ và rê chuột ở đây để

giãn độ rộng của cột

5

- Tìm đến vị trí lƣu file số liệu trong ổ đĩa máy tính, chọn file cần mở và kích vào nút Open.

- Chƣơng trình Medcalc sử dụng đƣợc file số liệu đƣợc tạo ra từ các chƣơng trình Excel, Stata, Spss... Khi đó tại mục File of type ta chọn kiểu file là Excel, Stata, Spss... hoặc All file để

hiển thị file cần mở trong hộp thoại.

1.5. Lƣu số liệu

- Vào File Save

- Đặt tên file cần lƣu và nhấn nút Save.

- Nếu muốn lƣu bằng một tên file khác, vào menu File Save As (thao tác tƣơng tự).

- File số liệu mặc định của medcalc có phần mở rộng mc1 (ví dụ solieu.mc1). Nếu cần lƣu thành file excel, spss... kích chuột vào mục Save as type để chọn kiểu file tƣơng ứng.

6

Chƣơng 2

NHẬP SỐ LIỆU

2.1. Kích hoạt cửa sổ nhập số liệu

Kích chuột (double click) vào nút Data trên thanh công cụ để mở cửa sổ nhập số liệu.

Hàng trên cùng (ngay trên hàng số 1) dùng để ghi tên biến (variable name). Từ hàng số 1 trở đi nhập giá trị của biến (variable value).

Chú ý:

- Tên biến không giới hạn số ký tự 11.0). Nếu khi nhập tên biến nếu có khoảng cách giữa 2 chữ, phần mềm sẽ tự động thêm dấu gạch ngang ( _ ) giữa hai chữ đó (ví dụ

nhập ho va ten sẽ tự động chuyển thành ho_va_ten). Không nên dùng 2 tên biến giống nhau, không nên đánh tiếng việt có dấu.

Ví dụ: ho_va_ten, tuoi, gioi, ngay_vao_vien, chan_doan,..

- Cần phân biệt tên biến (variable name) với giá trị trị của biến (variable value). Có thể hiểu tên biến là tên của mỗi cột trong bảng. Trong ví dụ trên: tên biến tuổi có giá trị là tuổi thực của từng

ngƣời; tên biến giới có 2 giá trị đƣợc mã hóa là 1=nam, 2=nữ.

2.2. Nhập số liệu

Thao tác nhập số liệu tƣơng tự trong excel. Để thuận tiện cho việc xử lý số liệu, khi nhập số liệu cần chú ý:

Đối với biến chuổi (string) nhƣ họ tên hoặc biến số thực (numeric) nhƣ tuổi, huyết áp...:

nhập trực tiếp giá trị của biến. Không cần phân chia thành các nhóm (nhóm tuổi, phân độ tăng huyết áp...) từ lúc này. Phần mềm có các công cụ để thực hiện công việc đó một cách nhanh chóng, chính

xác (xem phần tạo biến mới).

Đối với các biến định tính:

- Mã hóa các giá trị của biến định tính bằng số:

Ví dụ: Giới: 1=nam; 2=nữ

TĐVH: 1=cấp 1; 2=cấp 2; 3=cấp 3; ...

- Đối với câu hỏi đóng mà kết quả có thể nhiều hơn 1 sự lựa chọn:

Ví dụ: Tiền sử: 1: đái đƣờng

2: tăng huyết áp

3: béo phì

Một bệnh nhân có thể có nhiều hơn một tiền sử + THA). Trong tình huống

Ghi tên biến vào hàng này (ngay

trên hàng số 1)

7

này, câu hỏi đƣợc chia ra nhƣ sau:

Tiền sử đái đƣờng: 0=không; 1=có

Tiền sử tăng huyết áp: 0=không; 1=có

Tiền sử béo phì: 0=không; 1=có

Nhƣ vậy, những câu hỏi mà kết quả có thể nhiều hơn 1 sự lựa chọn thì mỗi sự lựa chọn

đó là một tên biến (variable name) mang 2 giá trị "không" hoặc "có"

Chú ý: các phần tiếp theo, chúng tôi qui ƣớc mã hóa 0=không; 1=có cho tất cả các biến định tính xác định hai trạng thái: có / không

A B C D E

hot_ten Ts_THA Ts_DTD Ts_BeoPhi

1 Nguyen Van A 0 1 1

2 Le Thi C 1 0 1

3 Tran Van Nguyen 1 1 0

Phần mềm sẽ dễ dàng chọn ra đƣợc những bệnh nhân có 1, 2 hoặc 3 tiền sử bằng thuật toán AND (xem phần tạo biến mới). Ví dụ: để chọn những bệnh nhân có tiền sử ĐTĐ + THA (và không

béo phì), dùng thuật toán sau:

AND(Ts_DTD=1, Ts_THA=1, Ts_BeoPhi=0)

- Đối với câu hỏi mở:

Ví dụ: Lý do vào viện: .................................................

Chẩn đoán: .......................................................

Nên mã hóa các kết quả khi số lƣợng các câu trả lời có giới hạn, chẳng hạn:

Chẩn đoán: 1= Thông liên thất + Thông liên nhĩ

2= Còn ống động mạch + hẹp ĐM phổi

3= Thông sàn nhĩ thất + .....

4= .........

Tất nhiên có những câu hỏi mở mà sự trả lời không thể mã hóa đƣợc thì nhập trực tiếp các kết quả từ bàn phím.

Đối với biến ngày tháng (date) nhƣ ngày vào viện, ngày ra viện... ban đầu nhập vào có thể không hiển thị ngày tháng, ví dụ nhập 1/2/2009 nhƣng hiển thị 0,00049776 (tức là kết quả của một phép chia). Vì vậy phải định dạng lại cột chứa biến ngày tháng. Thao tác nhƣ sau:

- Chọn (highlight) cột có chứa biến ngày tháng

- Thao tác lệnh:

Format

Spreadsheet

8

- Tại bảng Column: chọn vào Text format, có nghĩa định dạng cột kiểu text (ký tự)

Ghi chú: Nếu không chọn Text format sẽ định dạng cột kiểu số (numeric): chọn tiếp

Column with (số ký tự tối đa), Decimals (số thập phân: bao nhiêu số sau dấu phẩy).

2.3. Tạo một biến mới từ các biến đã có

Trong quá trình phân tích số liệu, nhiều khi số liệu ban đầu nhập vào chƣa đáp ứng với yêu

cầu của phƣơng pháp phân tích đƣợc sử dụng, mà cần phải thực hiện các phép biến đổi để tạo ra các biến mới thích hợp. Ví dụ: từ biến ban đầu nhập vào là huyết áp tạo ra biến mới phân độ tăng huyết

áp, từ 2 biến chiều cao và cân nặng tạo ra biến BMI

2.3.1. Từ biến định lượng, tạo ra các nhóm định tính

Thủ tục này sẽ định tính hóa biến định lƣợng bằng cách chia biến định lƣợng thành các

khoảng (hay nhóm).

Ví dụ: từ số liệu ban đầu nhập vào là tuổi bệnh nhân, muốn lập bảng sau:

Nhóm tuổi Số lƣợng (n) Tỷ lệ (%)

< 20 (nhóm 1)

20 - 40 (nhóm 2)

> 40 (nhóm 3)

Thao tác lệnh:

Tool

Create Groups

User Defined Groups

Tùy chọn:

Column: cột chứa biến mới. Phần mềm tự động chọn cột trống cuối cùng của bảng (không cần chọn lại nếu không cần thiết).

Header: (ví dụ: nhóm tuổi)

Variable: (tuổi) (dùng chuột kích vào mũi tên sổ xuống để chọn biến)

Operator: Chọn dấu thích hợp: >, <

Criterion value:

9

Group/category: : 1, 2, 3,..

Diễn giải thuật toán if... else if (nếu ... không thì nếu...):

Nếu tuổi < 20 --> qui ƣớc nhóm 1,

Nếu không (tức chỉ còn lại tuổi ≥ 20) thì:

Nếu tuổi ≤ 40 (tức 20 - 40) --> qui ƣớc nhóm 2,

Nếu không (tức chỉ còn lại tuổi > 40) thì:

Nếu tuổi > 40 --> qui ƣớc nhóm 3.

Kết quả: Biến nhóm tuổi đƣợc tự động thêm vào cột cuối cùng của bảng số liệu, có giá trị

đƣợc mã hóa theo các độ tuổi nói trên. A B C D E

hot_ten tuoi gioi nhom_tuoi

1 Nguyen Van A 15 1 1

2 Le Thi C 30 2 2

3 Tran Van Nguyen 55 1 3

4 Tran Hoang 19 1 1

2.3.2. Tạo ra biến mới bằng các thuật toán

Ví dụ 1: từ 2 biến đã có là chiều cao và cân nặng, tạo ra biến BMI bằng thuật toán:

BMI=

Nhập tên biến mới BMI vào cột thích hợp. Đặt con trỏ vào cột chứa biến đó (ở hàng nào cũng đƣợc).

10

A B C D E

hot_ten cannang chieucao BMI beo_phi

1 Nguyen Van A 45 1,60

2 Le Thi C 49 1,58

3 Tran Van Nguyen 62 1,65

4 Tran Hoang 60 1,68

Thao tác lệnh:

Format

SpreadSheet

Chọn Tab Column

Hộp thoại Format Spreadsheet mở ra, kích chuột vào nút sẽ mở ra hộp thoại Formula editor.

Thực hiện công thức tính toán tại khung Formula: chọn biến cần đƣa vào công thức tính toán, kích đôi chuột vào biến đó để đƣa vào khung Formula

Kích

đôi

chuột

11

Nhấn OK để kết thúc. Các giá trị của biến BMI sẽ đƣợc tạo ra và điền vào cột chứa biến đó.

Ví dụ 2: Đánh giá béo phì dựa vào BMI (theo từng giới): nam béo phì nếu BMI>24; nữ béo phì nếu BMI>22

giới = 1 và BMI>24 Thuật toán: Béo phì =

giới = 2 và BMI>22

(mã hóa: giới=1: nam; giới=2: nữ)

Nhập tên biến mới béo phì vào cột thích hợp, đặt con trỏ vào cột chứa biến đó.

Thao tác lệnh:

Format

Spread Sheet

Chọn Tab Column, kích chuột vào nút fx.

Thực hiện thuật toán tại ô Formula: Tại khung Functions có chứa sẵn các loại hàm số, chọn

hàm số thích hợp và kích chuột đôi để đƣa hàm đó vào khung Formula. Trên cơ sở đó chèn thêm các biến vào hàm số.

Nhấn OK để kết thúc.

Kết quả: Biến mới béo phì sẽ có 2 giá trị: 0=không; 1=có

Ví dụ 3: Tiền sử bệnh nhân, muốn lập bảng sau

Tiền sử Số lƣợng (n) Tỷ lệ (%)

Đái đƣờng + THA

Đái đƣờng + Béo phì

THA+Béo phì

..................

12

Từ bảng số liệu ban đầu: A B C D E F

hot_ten Ts_THA Ts_DTD Ts_BeoPhi Ts_THA_DTD Ts_THA_BP

1 Nguyen Van A 0 1 1

2 Le Thi C 1 0 1

3 Tr Van Nguyen 1 1 0

Nhập tên biến mới Tiền sử ĐTĐ + THA vào cột thích hợp, đặt con trỏ tại vị trí cột chứa biến mới tạo ra. Sử dụng thuật toán sau:

Ts_DTD=1 và Ts_THA=1 và Ts_Beophi=0

Thao tác lệnh:

Format

SpreadSheet

Chọn Tab Column, kích chuột vào fx

Thực hiện thuật toán tại ô Formula:

Nhấn OK để kết thúc.

Kết quả: Tiền sử ĐTĐ + THA sẽ có 2 giá trị: 0=không; 1=có

Thực hiện tƣơng tự đối với các tổ hợp còn lại (ĐTĐ+Béo phì; THA+Béo phì...)

".

Sử dụng thuật : = >37,5

Nhập tên biến mới Sốt vào cột trống thích hợp, đặt con trỏ tại cột đó.

Thao tác lệnh

Format

SpreadSheet

13

Chọn Tab Column, kích chuột vào fx.

T :

Nhấn OK để kết thúc.

: 0= ; 1=

2.4. Kiểm soát bảng số liệu

Sắp xếp số liệu (sort): nhằm dễ dàng phát hiện những giá trị bất thƣờng nhƣ: giá trị

khuyết (missing value), giá trị nhập sai (quá lớn hoặc quá nhỏ)...

Thao tác lệnh:

Tool

Sort rows

Tùy chọn:

Sort by column: Xác định sắp xếp số liệu theo cột (biến) nào

Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu.

Sort options: Ascending (tăng dần); Descending (giảm dần).

Nhấn OK để kết thúc.

14

Thay thế trị khuyết:

Thao tác lệnh:

Tool

Fill column

Tùy chọn:

Column: Chọn cột cần điền giá trị khuyết

Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu.

Fill with: nhập giá trị cần thay thế hoặc thực hiện các công thức tính toán bằng cách nhấn

chuột vào nút fx để mở hộp thoại formula editor.

Nhấn OK để kết thúc.

2.5. Lọc số liệu

Trong quá trình xử lý số liệu, có lúc ta cần chọn ra một nhóm nhỏ để khảo sát các đặc tính trong phạm vi nhóm đó. Ví dụ bảng số liệu sau:

A B C D E

hot_ten cannang chieucao Nhom_NC

1 Nguyen Van A 45 1,60 1

2 Le Thi C 49 1,58 2

3 Tran Van Nguyen 62 1,65 1

4 Tran Hoang 60 1,68 2

)

Nếu muốn thực hiện các tính toán riêng biệt ở nhóm chứng (hoặc nhóm bệnh), ta phải tiến hành lọc số liệu, tức phải chọn ra nhóm chứng (hoặc nhóm bệnh).

Để thực hiện thủ tục này, ở tất cả các hộp thoại đều có mục Select, sử dụng mục này để lọc số liệu. Trong mục Select không chứa sẵn danh sách các biến mà phải đánh vào từ bàn phím. Vì vậy cần phải nhập chính xác tên biến.

Ví dụ sau sẽ tính tỉ lệ giới ở nhóm chứng:

15

Hình 2.15. Chọn nhóm nghiên cứu

Ví dụ này sẽ tính tỉ lệ giới ở nhóm bệnh nhân > 40 tuổi:

Hình 2.16. Chọn tuổi > 40

16

Chƣơng 3

THỐNG KÊ MÔ TẢ

Thống kê mô tả là bƣớc cơ bản và cũng là bƣớc khởi đầu của một nghiên cứu y học. Thống kê mô tả là phƣơng pháp thống kê giúp mô tả những đặc tính (giá trị trung bình, độ phân tán, tỉ lệ...)

của một mẫu nghiên cứu xác định, trên cơ sở những số liệu thu thập đƣợc từ mẫu ấy.

Nhƣ vậy, thống kê mô tả xử lý những thông tin trên mẫu (sample). Những kết quả đạt đƣợc hiển nhiên đúng và tin cậy 100% đối với mẫu đó (nhƣng chƣa hẳn đúng khi áp dụng cho mẫu khác

hoặc quần thể), vì thế khi đƣa ra những kết luận trên mẫu nghiên cứu không cần phải xác định độ tin cậy (hoặc giá trị p) là bao nhiêu.

Ví dụ: trong ngày có 100 bệnh nhân sốt xuất huyết vào viện, phát hiện 20 trƣờng hợp bị choáng. Kết luận 20/100 bệnh nhân sốt xuất huyết vào viện trong ngày hôm đó bị choáng (chiếm tỉ lệ 20%, không thể hiện giá trị p ở đây).

3.1. Thống kê mô tả biến định tính

3.1.1. Một số khái niệm

Khi giá trị khảo sát không phải là một đại lƣợng có thể cân, đong, đo, đếm đƣợc mà chỉ thể hiện một đặc tính nào đó của đối tƣợng khảo sát (ví dụ đặc tính giới tính của đối tƣợng khảo sát là nam, nữ). Tùy theo tính chất các giá trị, biến số định tính có thể phân thành 2 loại:

- Biến số định danh: Biến số có 2 hay nhiều giá trị, mỗi giá trị đƣợc gọi bằng một tên, không có ý nghĩa về độ lớn của sự đo dƣờng và cũng không có ý nghĩa so sánh với nhau. Ví dụ giới tính

của một ngƣời (nam, nữ), hay nhóm máu (A, B, AB, 0)...

- Biến số định tính nhiều giá trị thứ tự: Biến số có nhiều giá trị. Các giá trị của biến số thể hiện một mức độ tăng dần hoặc giảm dần. Ví dụ mức độ tăng huyết áp: độ I, độ II, độ III, độ IV; xét

nghiệm định tính hồng cầu niệu: +, ++, +++.

3.1.2. Lập bảng phân phối tần số

Đối với biến định tính, kết quả thƣờng trình bày dƣới dạng bảng phân phối tần số (từ đó có thể vẽ các biểu đồ).

* Bảng phân phối tần số một chiều:

Sử dụng bảng phân phối tần số một chiều để mô tả sự phân phối của một đặc tính nào đó.

Yêu cầu thiết kế: có một biến định tính chứa các đặc điểm cần khảo sát.

Thao tác lệnh:

Statistics

Categorical data

Frequency table & Chi-square test

Tùy chọn:

Codes X: chọn biến định tính

Codes Y: để trống

Ví dụ: Phân bố đối tƣợng nghiên cứu theo các nhóm tuổi

Nhóm tuổi Tần số (n) Tỉ lệ (%)

< 20 12 10.0

20 - 40 54 45.0

17

> 40 54 45.0

Tổng 120 100.0

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc.

Kết quả:

Codes X nhom_tuoi

1 12 10.0%

2 54 45.0%

3 54 45.0%

Total 120 100.0%

Ghi chú: Để copy bảng kết quả này vào trang văn bản Word: kích chuột phải chọn Select

All, kích chuột phải lần 2 chọn Copy, sau đó dán (paste) vào trang Word.

Kích chuột vào Frequency chart sẽ cho ra biểu đồ

0

10

20

30

40

50

60

Nhom tuoi

So l

uong

(n)

1 2 3

18

Để copy biểu đồ: kích chuột phải vào biểu đồ, chọn Copy graph. Sau đó có thể dán (paste) vào trang Word.

* Bảng phân phối tần số 2 chiều:

Dùng để trình bày sự phân phối của một đặc tính khảo sát liên quan với một đặc tính khác

Yêu cầu thiết kế: gồm hai biến định tính.

Thao tác lệnh:

Statistics

Categorical data

Frequency table & Chi-square test

Tùy chọn:

Codes X: chọn biến định tính thứ nhất

Codes Y: chọn biến định tính thứ hai

Ví dụ: Thống kê số bệnh nhân tử vong theo giới

Giới Tử vong

Không Có

Nam 27 18

Nữ 34 11

Tổng 61 29

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại:

Nhấn OK để kết thúc

Codes X tu_vong

Codes Y gioi

Codes X

Codes Y 0 1

1 27 18 45 (50.0%)

2 34 11 45 (50.0%)

61

(67.8%)

29

(32.2%)

90

19

Kích chuôt vào Frequency chart sẽ cho ra biểu đồ

0

5

10

15

20

25

30

35

0= khong; 1= co (tu vong)

So

lu

on

g (

n)

0 1

gioi

1

2

* Bảng phân phối nhiều chiều

Sử dụng bảng phân phối nhiều chiều để trình bày sự phân phối của một đặc tính khảo sát liên quan với một đặc tính khác và có xem xét đến sự ảnh hƣởng của một yếu tố thứ 3. Kỹ thuật này còn đƣợc gọi là phân tích tầng.

Yêu cầu thiết kế: gồm 3 biến định tính.

Thao tác lệnh:

Statistics

Categorical data

Frequency table & Chi-square test

Tùy chọn:

Select: chứ . Chọ .

Ví dụ: Tăng huyết áp không những có liên quan với hút thuốc lá mà còn bị ảnh hƣởng của yếu tố béo phì. Để khảo sát điều này, sử dụng kỹ thuật phân tích tầng.

Lập bảng nhƣ sau:

Béo phì Hút thuốc lá Tăng huyết áp

Có Không

Có Có

Không

Không Có

Không

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

Đầu tiên chọn beo_phi=1 (nhóm có béo phì)

20

Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm có béo phì

Sau đó chọn beo_phi=0 (nhóm không béo phì)

Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm không béo phì

3.2. Thống kê mô tả biến định lƣợng

3.2.1. Một số khái niệm

Biến định lƣợng:

Khi giá trị của đặc tính, sự kiện nghiên cứu đƣợc thu thập bằng một sự đo lƣờng (cân, đong, đo, đếm). Thí dụ: chiều cao, đƣờng huyết, nhịp tim... của một ngƣời.

- Biến định lƣợng liên tục: Ví dụ: chiều cao, huyết áp, số lƣợng nƣớc tiểu...

- Biến định lƣợng rời rạc: nếu giá trị của đặc tính nghiên cứu chỉ có thể biểu thị bằng những

số nguyên, thƣờng là kết quả của sự đếm. Ví dụ: số con trong gia đình, số lần tái khám.

Ghi chú: nếu biến định lƣợng đƣợc chia thành các nhóm định tính (ví dụ nhóm tuổi, mức độ tăng huyết áp), việc xử lý số liệu nhƣ một biến định tính.

Phân phối chuẩn:

Khi xử lý số liệu biến định lƣợng trƣớc hết phải xem sự phân phối của biến đó có theo luật

chuẩn hay không, điều này sẽ quyết định việc lựa chọn giá trị đặc trƣng và các test thống kê thích hợp.

21

Một dãy số đƣợc coi là phân bố chuẩn nếu trung bình cộng, trung vị và mode cùng ở vị trí chính giữa. Đồ thị biểu diễn phân phối chuẩn có dạng hình chuông úp, đối xứng qua trục x = µ (giá

trị trung bình). 50% giá trị quan sát nằm một bên giá trị trung bình và 50% còn lại nằm phía bên kia.

Chƣơng trình medcalc sẽ kiểm tra tính chuẩn của một biến định lƣợng bằng thủ tục

Summary statistic (xem phần thống kê tóm tắt)

Trung bình hay trung vị:

Trong các tập san nghiên cứu khoa học, chúng ta thƣờng thấy những cột số dƣới hình thức

X±SD: X là trung bình, SD là độ lệch chuẩn. Cách trình bày thông dụng nhƣ thế đến nỗi một số chuyên gia và các ban biên tập tập san y học phải lên tiếng khuyến cáo.

Theo khuyến cáo chung cũng là qui ƣớc nghiên cứu y học:

- Để mô tả một biến số lâm sàng theo luật phân phối chuẩn: nên trình bày trung bình kèm độ lệch chuẩn (không phải sai số chuẩn SE).

- Để mô tả một biến số lâm sàng không theo luật phân phối chuẩn: nên trình trung vị (median) và tứ phân vị (số ở vị trí 25% và 75%)

Nếu một phân phối không theo luật phân phối chuẩn SD có thể lớn hơn X. Một số ngƣời hiểu nhầm "giá trị trung bình âm" (X-SD < 0), thực chất đây không phải là một phép trừ.

Bách phân vị:

Trong một số nghiên cứu y học thực hiện trên quần thể lớn (quần thể tham chiếu), các đặc tính định lƣợng thƣờng đƣợc trình bày dƣới dạng bách phân vị. Thƣờng gặp trong các nghiên cứu

xác định chỉ số nhân trắc, các hằng số sinh lý bình thƣờng nhƣ huyết áp, lƣợng nƣớc tiểu...

Vậy bách phân vị là gì?

Để hiểu đƣợc bách phân vị, trƣớc hết chúng ta tìm hiểu đƣờng biểu diễn tần số tƣơng đối

dồn:

+ Đƣợc vẽ từ cột tần số tƣơng đối dồn.

+ Đƣờng biểu diễn tần số tƣơng đối dồn giúp ta tính toán các bách phân vị của một phân phối. Ta có 99 bách phân vị, từ bách phân vị thứ 1 đến bách phân vị thứ 99.

Bách phân vị thứ n là giá trị mà dƣới giá trị ấy sẽ có n% số trƣờng hợp của tập thể khảo sát.

Giá trị bách phân vị thứ 25 còn đƣợc gọi là tứ phân vị dƣới.

Giá trị bách phân vị thứ 50 chính là trung vị.

Giá trị bách phân vị thứ 75 còn đƣợc gọi là tứ phân vị trên.

22

3.2.2. Thống kê tóm tắt (Summary Statistic)

Thủ tục thống kê tóm tắt dùng để xác định các giá trị đặc trƣng của một biến định lƣợng bao gồm: trị trung bình, trung vị, độ lệch chuẩn, các giá trị cực tiểu, cực đại, test phân phối (chuẩn hay

không chuẩn), bách phân vị...

Thao tác lệnh:

Statistic

Sumary statistic

Tùy chọn:

Variable: (ví dụ: tuổi)

Test for Normal distribution: test phân phối (xem phân phối có chuẩn hay không): Chi-

square test, Kolmogorov-Smirnov test hoặc D'Agostino Pearson test

More Options: kích vào nút này sẽ mở ra hộp thoại phụ

Tùy chọn:

Percentiles: chọn các bách phân vị

Categorcal variable to identify subgroups: Chọn biến phân nhóm nếu muốn thống kê tóm

tắt theo từng nhóm.

Ví dụ: tính tuổi trung bình theo giới.

23

Variable tuoi (Bảng này thống kê chung)

Sample size (cỡ mẫu chung) 90

Lowest value (giá trị bé nhất) 15.0000

Highest value (giá trị lớn nhất ) 92.0000

Arithmetic mean (trung bình) 56.8778

95% CI for the mean 52.4969 to 61.2587

Median (trung vị) 59.0000

95% CI for the median 53.0000 to 62.7724

Variance 437.5017

Standard deviation (độ lệch

chuẩn)

20.9165

D'Agostino-Pearson test

for Normal distribution

accept Normality (P=0.1732) Phân phối

chuẩn

Nếu phân phối không chuẩn sẽ hiển thị:

reject Normality

Percentiles 95% Confidence Interval

25 (tứ phân vị dưới ) 40.0000 31.2186 to 47.7780

75 (tứ phân vị trên) 74.0000 67.7407 to 82.7814

Subgroup gioi 1 (bảng này thống kê theo giới nam)

Sample size 45

Lowest value 22.0000

Highest value 92.0000

Arithmetic mean 53.1111

95% CI for the mean 47.5809 to 58.6413

Median 53.0000

95% CI for the median 44.0000 to 59.5392

Variance 338.8283

Standard deviation 18.4073

Percentiles 95% Confidence Interval

25 39.7500 30.3421 to 45.2806

75 67.7500 59.0000 to 76.6579

Subgroup gioi 2 (bảng này thống kê theo giới nữ)

Sample size 45

Lowest value 15.0000

Highest value 90.0000

Arithmetic mean 60.6444

95% CI for the mean 53.8127 to 67.4762

Median 64.0000

95% CI for the median 55.3824 to 73.0784

Variance 517.0980

Standard deviation 22.7398

Percentiles 95% Confidence Interval

24

25 42.2500 29.6841 to 58.9209

75 83.2500 70.0791 to 86.0000

3.2.3. Vẽ biểu đồ thể hiện trung vị, tứ phân vị, giá trị cực tiểu, cực đại

Ví dụ 1: Tiến hành đo huyết áp 90 bệnh nhân (45 nam, 45 nữ). Vẽ biểu đồ hộp (box-and-whisker) thể hiện huyết áp tâm thu của toàn bộ 90 bệnh nhân.

Yêu cầu thiết kế: có một biến định lƣợng.

Thao tác lệnh:

Graph

Multiple variables graphs

Tùy chọn:

Variables: chọn biến định lƣợng cần vẽ biểu đồ (HATT)

Graph: chọn kiểu biểu đồ Box-and-whisher

Nhấn OK để kết thúc:

Box-and-whisker

40

60

80

100

120

140

160

180

200

HA

TT

(m

mH

g)

25

Chú thích biểu đồ:

- Đƣờng ngang giữa hộp: giá trị trung vị (median)

- Cạnh dƣới và trên của hộp: tứ phân vị dƣới (con số ở vị trí 25%) và tứ phân vị trên (con số

ở vị trí 75%)

- Gạch ngang dƣới cùng và trên cùng: giá trị nhỏ nhất và lớn nhất.

Ví dụ 2: Vẽ biểu đồ thể hiện huyết áp tối đa của nam và nữ.

Yêu cầu thiết kế: có một biến định lƣợng (HATT) và một biến định tính (giới)

Thao tác lệnh:

Graph

Multiple comparison graphs

Tùy chọn:

Data: chọn biến định lƣợng cần vẽ biểu đồ (HATT)

Factor codes: chọn biến định tính phân nhóm (giới)

Graphs : chọn kiểu biểu đồ Box-and-whisher

Nhấn OK để kết thúc

40

60

80

100

120

140

160

180

200

Gioi: 1=nam; 2=nu

HA

TT

(m

mH

g)

1 2

26

Chƣơng 4

THỐNG KÊ SUY DIỄN

Thống kê suy diễn là phƣơng pháp suy luận thống kê theo kiểu qui nạp. Từ kết quả nghiên cứu trên một mẫu xác định (thống kê mô tả), suy luận áp dụng cho cả một quần thể lớn.

Ví dụ 1: trở lại ví dụ 100 bệnh nhân sốt xuất huyết vào viện có 20 trƣờng hợp bị sốc (chiếm tỉ lệ 20%, thống kê mô tả). Bằng phƣơng pháp suy diễn, ta ƣớc lƣợng đƣợc tỉ lệ sốc sốt xuất huyết trong quần thể dao động từ 12,2 - 30,9% (với độ tin cậy 95%).

Ví dụ 2: đo huyết áp của 85 ngƣời trƣởng thành khỏe mạnh có kết quả: huyết áp tâm thu trung bình 117 mmHg, độ lệch chuẩn 4 mmHg (đây là phạm vi của thống kê mô tả). Từ đó ƣớc

lƣợng huyết áp tâm thu trung bình của ngƣời trƣởng thành trong quân thể là 113 - 121 mmHg (với độ tin cậy 95%).

Khi suy diễn từ mẫu nghiên cứu ra quần thể thì không dùng số trung bình (hay tỉ lệ) mà chỉ

nêu từ mức thấp đến mức cao của giới hạn tin cậy 95%.

4.1. Khoảng tin cậy (CI95%)

Khoảng tin cậy đƣợc dùng để mô tả mối quan hệ giữa chỉ số đo lƣờng của mẫu (trung bình, trung vị, tỉ lệ, OR, RR...) với các chỉ số tƣơng ứng của quần thể nghiên, tức diễn tả giới hạn sai số chọn mẫu.

Trong y học thƣờng dùng khoảng tin cậy 95% (viết tắt CI95%). Khoảng tin cậy của một số trung bình (hoặc tỉ lệ) có nghĩa là có 95% hy vọng là giá trị thật của số trung bình (hoặc tỉ lệ) của

quần thể nằm trong khoảng này.

Ví dụ: glucose máu trung bình ở nhóm 76 bệnh nhân là 5,13 mmol/l (CI 95%: 4,76 - 5,50). Có nghĩa glucose máu trung bình trong quần thể đƣợc ƣớc tính từ 4,76 - 5,50 mmol/l với độ tin cậy

95% (chấp nhận sai số 5%).

4.2. Ƣớc lƣợng khoảng tin cậy 95% cho một tỉ lệ

Thao tác lệnh:

Test

Rates

Confidence Interval for a rate

Tùy chọn:

Numerator: tử số (ví dụ: số trƣờng hợp mắc bệnh).

Denominator: mẫu số (cỡ mẫu).

Ví dụ: ƣớc lƣợng tỉ lệ sốc sốt xuất huyết dựa trên kết quả điều tra mẫu 100 bệnh nhân sốt

xuất huyết nói trên.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

27

Kết quả: Incidence rate: tỉ lệ hiện mắc = 20%; 95% CI: tỉ lệ ƣớc lƣợng = 12,217 - 30,888% (với độ tin cậy 95%).

4.3. Ƣớc lƣợng khoảng tin cậy 95% cho một số trung bình, trung vị

Thao tác lệnh và đọc kết quả: xem phần thống kê tóm tắt

4.4. Vẽ biểu đồ thể hiện giá trị trung bình, trung vị và 95%CI

Ví dụ 1: Trở lại ví dụ vẽ biểu đồ thể hiện huyết áp tâm thu của 90 bệnh nhân đƣợc đề cập trong phần thống kê mô tả. Ở đây, thống kê suy diễn sẽ diễn tả khoảng tin cậy 95% CI của giá trị trung bình hoặc trung vị trên biểu đồ.

Thao tác lệnh:

Graph

Multiple variables graph

Tùy chọn:

Variables: chọn biến định lƣợng HATT

Graphs: chọn kiểu biểu đồ Bars:

for means: biểu thị giá trị trung bình

for medians: biểu thị trung vị

Error bars: chọn 95% CI for mean (hoặc for median)

28

Nhấn OK để kết thúc

Mean (error bars: 95% CI for mean)

0

20

40

60

80

100

120

HA

TT

(m

mH

g)

Chú thích biểu đồ:

- Cạnh trên của hộp: giá trị trung bình

- Hai đƣờng gạch ngang: khoảng tin cậy 95%CI của giá trị trung bình

29

Chƣơng 5

THỐNG KÊ SO SÁNH

Thống kê so sánh là loại thống kê đƣợc ứng dụng rộng rãi trong y học, nhằm so sánh một mẫu này với một mẫu hoặc nhiều mẫu khác, so sánh một mẫu nghiên cứu với một chuẩn, nghiên

cứu những mối tƣơng quan giữa các mẫu.

Thống kê so sánh sử dụng các test thống kê tùy theo từng kiểu mô hình nghiên cứu. Việc lựa chọn các test thống kê phải dựa vào các điều kiện khá chặt chẽ. Phần này sẽ lần lƣợt giới thiệu các

test thống kê thƣờng đƣợc sử dụng trong nghiên cứu y học.

Để lựa chọn một test so sánh thích hợp, phải dựa vào các yếu tố sau:

- Loại biến số khảo sát: định tính hai giá trị, hoặc định danh nhiều giá trị, hoặc định tính có thứ bậc, hoặc định lƣợng.

- Số nhóm khảo sát:

+ Một nhóm: nhằm so sánh giá trị đặc trƣng của mẫu khảo sát với một giá trị đã có.

+ Nhiều nhóm (≥ 2 nhóm): có hai tình huống sau:

(1) Các nhóm do một biến định tính tạo ra. Ví dụ biến giới phân ra nhóm nam và nữ.

(2) Mỗi nhóm tƣơng ứng với một biến. Ví dụ: để so sánh tỉ lệ nhiễm giun trƣớc và sau khi dùng thuốc xổ giun, ta lập 2 biến nhiễm giun trước điều trị và nhiễm giun sau điều trị.

- Tính chất của mẫu khảo sát:

+ Mẫu độc lập: Hai hay nhiều mẫu khảo sát độc lập với nhau, giá trị của mỗi cá thể của mẫu

này không có mối liên hệ đặc biệt nào với những cá thể của mẫu khác.

+ Mẫu phụ thuộc: gồm có 2 biến: biến độc lập và biến phụ thuộc

Biến độc lập: Là biến để mô tả hoặc đo lƣờng các yếu tố mà ngƣời nghiên cứu cho rằng nó

là nguyên nhân hoặc là yếu tố ảnh hƣởng đến các vấn đề đang đƣợc nghiên cứu. Biến độ lập là yếu tố "nhân", biến này không phụ thuộc vào sự biến đổi của yếu tố "quả".

Biến phụ thuộc: là biến đƣợc sử dụng để mô tả hoặc đo lƣờng các vấn đề nghiên cứu.

Ví dụ: Nghiên cứu mối liên quan giữa hút thuốc lá và ung thƣ phổi thì khoảng thời gian hút thuốc lá và số điều thuốc lá hút mỗi ngày là biến độc lập, trong khi đó ung thƣ phổi là biến phụ

thuộc

Biến độc lập Biến phụ thuộc

"nhân" "quả"

+ Mẫu từng cặp: Hai biến số (định lƣợng, định tính) đƣợc gọi là ghép cặp với nhau nếu mỗi giá trị của biến thứ nhất liên hệ với một giá trị của biến thứ hai, hình thành một cặp số liệu. Ví dụ: tỉ

lệ nhiễm giun trƣớc và sau uống thuốc xổ giun (biến định tính); huyết áp trƣớc và sau khi uống thuốc adalat (biến định lƣợng), nhịp tim trƣớc và sau khi thực hiện nghiệm pháp gắng sức...

5.1. Test thống kê so sánh các tỉ lệ

Dùng các test này để khẳng định sự khác biệt giữa các tỉ lệ quan sát đƣợc có ý nghĩa thống kê hay không (đối với bảng phân phối tần số một chiều) hoặc sự liên quan giữa các đặc tính định

tính có ý nghĩa thống kê hay không (đối với bảng phân phối tần số 2 chiều).

TEST CHI BÌNH PHƢƠNG (χ2)

Điều kiện: Test χ2 là một test phi tham số rất thông dụng để so sánh 2 hay nhiều tỉ lệ của 2 hay nhiều nhóm độc lập (các nhóm độc lập do một biến định tính phân ra). Điều kiện để có thể sử

30

dụng test là các tần số lý thuyết phải > 4.

Yêu cầu thiết kế: gồm một hoặc hai biến định tính.

Thao tác lệnh:

Statistics

Categorical data

Frequency table & Chi-square test

Ví dụ: So sánh tỉ lệ tăng huyết áp ở nhóm có và không có rối loạn lipid máu.

Lập bảng 2 x 2:

Rối loạn lipid Tăng huyết áp

Có Không

Có 114 183

Không 105 338

p = ?

Vấn đề khảo sát là tăng huyết áp trên 2 nhóm đối tƣợng có và không có rối loạn lipid máu. Hai nhóm này độc lập với nhau do một biến địnhh tính tạo ra. Vì vậy ta sử dụng test χ2.

Nhập số liệu: A B C D E

hot_ten RLLP THA DTD

1 Nguyen Van A 0 0 0

2 Le Thi C 1 1 0

3 Tran Van Nguyen 1 0 1

4 Tran Hoang 1 1 1

Thực hiện thao tác lệnh nhƣ trên: chọn biến tăng huyết áp vào Code X và rối loạn lipid máu vào Code Y.

Nhấn OK để kết thúc

Codes X THA

Codes Y RLLP

31

Codes X

Codes Y 0 (không) 1 (THA)

0 (không RLLP) 338 105 443 (59.9%)

1 (có RLLP) 183 114 297 (40.1%)

521

(70.4%)

219

(29.6%)

740

Chi-square 17.696

DF 1

Significance level P<0.0001

Contingency coefficient 0.153

Kết quả: χ2 = 17,696; DF: bậc tự do; p < 0,0001. Nhƣ vậy có sự liên quan giữa rối loạn lipid máu với tăng huyết áp.

Ghi chú: Khi có một hay nhiều tần số lý thuyết ≤ 4 (và >2), ta phải dùng test χ2 có hiệu

chỉnh Yates (phần mềm medcalc sẽ tự động hiệu chỉnh theo Yates), hay test chính sác Fisher (khi các tần số lý thuyết ≤ 4, kể cả khi < 2 hay bằng 0)

TEST CHÍNH XÁC FISHER

Yêu cầu thiết kế: gồm hai biến định tính là biến nhị phân.

Thao tác lệnh:

Statistics

Categorical data

Fisher's exact

Tùy chọn:

Classification X: chọn biến định tính thứ nhất

Classification Y: chọn biến định tính thứ hai

TEST MC NEMAR

Điều kiện: Hai nhóm khảo sát có quan hệ cặp đôi với nhau.

Yêu cầu thiết kế: gồm 2 biến định tính là biến nhị phân và có mối quan hệ bắt cặp với nhau.

Thao tác lệnh:

Statistics

32

Categorical data

Mcnemar test

Tùy chọn:

Classification X: chọn biến định tính thứ nhất

Classification Y: chọn biến định tính thứ hai

Nhập số liệu: A B C

hot_ten Xuat_huyet_truoc_DT Xuat_huyet_sau_DT

1 Nguyen Van A 0 0

2 Le Thi C 1 1

3 Tran Van Nguyen 1 0

4 Tran Hoang 1 1

Hai nhóm xuất huyết trước điều trị và xuất huyết sau điều trị có quan hệ cặp đôi với nhau. Vì vậy sử dụng test Mc Nemar để kiểm định sự khác biệt giữa 2 tỉ lệ đó.

Thực hiện các thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc

Classification A Xuat_huyet_truoc_DT

Classification B Xuat_huyet_sau_DT

Classification A

Classification B 0 1

0 10 2 12 (36.4%)

1 11 12 21 (63.6%)

21

(63.6%)

12

(36.4%)

33

Exact probability (biomial distribution)

Significance P=0.0225

Kết quả: p = 0,0225. Nhƣ vậy có sự khác biệt về tỉ lệ xuất huyết trong bệnh leucemie trƣớc và sau điều trị.

33

Bảng 5.1. Lựa chọn test thống kê so sánh các tỉ lệ

Số nhóm

khảo sát

Số giá trị của

biến khảo sát

Tính chất nhóm

khảo sát

Tính chất phân

phối

Test so sánh

1 k χ2 (1 mẫu)

2 2

Độc lập

TSLT≥4 χ2

2 TSLT<4 Chính xác Fisher

2 k (định danh) TSLT≥4 χ2

k (định danh) TSLT<4 Dồn lớp (giảm k) để có

TSLT ≥4

k (định danh)

k (định danh) TSLT≥4 χ2

k (định danh) TSLT<4 Dồn lớp (giảm k) để có TSLT ≥4

2 k (thứ tự) χ2

k (thứ tự

hay định danh)

k (thứ tự) Gamma,

Kendall's tau-b

Kendall's tau-c

2 2 Từng cặp Mc Nemar

5.2. Test khảo sát mức độ liên quan giữa các biến định tính

Các test χ2, Fisher, Mc Nemar chỉ cho biết có hay không sự liên quan giữa các biến định tính mà không thể hiện đƣợc mức độ (hay độ mạnh) của mối liên quan đó. Để diễn tả mức độ mạnh của

các mối liên quan ta sử dụng tỉ suất chênh (OR) và nguy cơ tƣơng đối (RR).

TỈ SUẤT CHÊNH (OR)

Tỉ suất chênh (Odd ratio) đo lƣờng mối liên quan giữa 2 biến nhị phân có cân nhắc tới mức

độ mạnh yếu của mối liên quan đó. Trong nghiên cứu sinh y học, tỉ suất chênh cũng dùng để đánh giá mối liên quan giữa yếu tố phơi nhiễm và bệnh.

Tỉ suất chênh sử dụng cho nghiên cứu bệnh chứng, nghiên cứu cắt ngang sử dụng tỉ lệ hiện mắc.

Yêu cầu thiết kế: đƣợc tính trực tiếp từ bảng 2 x 2.

Phơi nhiễm Bệnh

(+) (-)

(+) 45 16

(-) 23 37

Chú ý thứ tự giá trị dƣơng tính (+): cột - trƣớc, hàng - trên

Thao tác lệnh:

Test

Odd ratio

Lần lƣợt nhập các giá trị vào bảng

34

Nhấn nút Test để kết thúc (hoặc Enter).

Kết quả: OR=4,52, có nghĩa là ở nhóm phơi nhiễm với yếu tố nguy cơ, tỉ lệ bệnh cao gấp 4,52 lần so với nhóm không phơi nhiễm, sự chênh lệch là đáng tin cậy (p<0,01).

Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù OR lớn hay nhỏ).

NGUY CƠ TƢƠNG ĐỐI (RR)

Nguy cơ tƣơng đối (Relative Risk) đo lƣờng mối liên quan giữa 2 biến nhị phân có cân nhắc tới mức độ mạnh yếu của mối liên quan đó. Trong nghiên cứu sinh y học, RR đƣợc dùng để đánh giá độ mạnh của mối liên quan giữa yếu tố phơi nhiễm và bệnh. Nó nói lên khả năng phát triển bệnh

ở nhóm có phơi nhiễm so với nhóm không phơi nhiễm với yếu tố nguy cơ

Sử dụng cho nghiên cứu thuần tập (nghiên cứu tƣơng lai)

Yêu cầu thiết kế: đƣợc tính trực tiếp từ bảng 2 x 2

Ví dụ: Theo dõi bệnh mạch vành ở hai nhóm ngƣời: nhóm hút thuốc lá và nhóm không hút thuốc lá. Theo dõi liên tục trong 3 năm, thu đƣợc kết quả nhƣ sau.

Hút thuốc lá BMV

(+) (-)

(+) 100 55

(-) 900 945

Thao tác lệnh:

Test

Relative risk

Lần lƣợt nhập các số vào các ô tƣơng ứng

35

Nhấn nút Test để kết thúc (hoặc Enter)

Kết quả: Tỉ số nguy cơ RR=1,82, có nghĩa nguy cơ bệnh mạch vành ở nhóm hút thuốc lá

cao gấp 1,82 lần so với nhóm không hút thuốc lá. Sự khác biệt có ý nghĩa thống kê (p=0,0002).

Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù RR lớn hay nhỏ).

Bảng 5.2. Diễn giải ý nghĩa của OR và RR

OR Diễn giải RR Diễn giải

OR>1 Khả năng mắc bệnh cao hơn khả

năng không mắc bệnh

RR>1 Yếu tố phơi nhiễm làm tăng khả năng

mắc bệnh

OR=1 Khả năng mắc bệnh bằng khả năng không mắc bệnh

RR=1 Không có mối liên hệ nào giữa yếu tố phơi nhiễm và khả năng mắc bệnh

OR<1 Khả năng mắc bệnh thấp hơn khả

năng không mắc bệnh

RR<1 Yếu tố phơi nhiễm làm giảm khả

năng mắc bệnh

5.3. Test khảo sát độ phù hợp, độ chính xác

ĐỘ PHÙ HỢP KAPPA

Áp dụng: xác định mức độ phù hợp giữa lâm sàng và xét nghiệm, độ phù hợp giữa 2 kỹ thuật chẩn đoán khác nhau (siêu âm, chụp cắt lớp vi tính), sự đồng thuận của 2 bác sĩ về chẩn đoán một bệnh nào đó (ví dụ cùng chẩn đoán về điện não hoặc điện tim hoặc X-quang trên một số bệnh

nhân).

Yêu cầu của thiết kế: Cần phân rõ hai đối tƣợng A và B (hai cán bộ hoặc 2 phƣơng pháp

khác nhau cần đối chiếu) và 2 dạng thức: có bệnh hoặc không bệnh, bệnh nặng hoặc bệnh nhẹ... Không yêu cầu cần phải có tiêu chuẩn vàng.

Xác định mức độ phù hợp:

Kappa: Độ phù hợp:

< 0.20 Rất ít

0.21 - 0.40 Nhẹ

0.41 - 0.60 Trung bình

0.61 - 0.80 Chặt chẽ

36

0.81 - 1.00 Hầu nhƣ hoàn toàn

Ví dụ: Khảo sát mức độ phù hợp giữa chẩn đoán lâm sàng và siêu âm ruột thừa viêm.

Siêu âm Chẩn đoán lâm sàng

(+) (-)

(+)

(-)

Kappa=?

Nhập số liệu: A B C

hot_ten ChandoanLS sieuam

1 Nguyen Van A 0 0

2 Le Thi C 1 1

3 Tran Van Nguyen 1 0

4 Tran Hoang 1 1

(Mã hóa: 0=âm tính; 1=dương tính)

Ghi chú: các giá trị mã hóa của 2 biến tính phải giống nhau. Chẳng hạn biến thứ nhất mã hóa: 1, 2, 3 thì biến thứ hai cũng phải mã hóa: 1, 2, 3 (mã hóa nhƣ sau sẽ không sẽ cho kết quả sai: 0, 1, 2 hoặc 1, 2, 3, 4)

Thao tác lệnh:

Statistic

Method comparision

Inter-rater agreement (kappa)

Tùy chọn:

Data for observer A: Chọn biến định tính thứ nhất

Data for observer B : Chọn biến định tính thứ hai

Weighted Kappa: chọn test Kappa

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

Observer A chandoanLS

37

Observer B sieuam

Observer A

Observer B + -

+ 5 2 7 (50.0%)

- 1 6 7 (50.0%)

6

(42.9%)

8

(57.1%)

14

Weighted Kappa 0.571

Kết quả: Kappa=0,571, có nghĩa chẩn đoán ruột thừa viêm bằng lâm sàng và siêu âm có mức độ phù hợp trung bình.

ĐỘ

Yêu cầu của thiết kế:

- Phải có 2 nhóm: nhóm có bệnh và nhóm không có bệnh.

- Phải có tiêu chuẩn vàng: nghĩa là phải có tiêu chuẩn chính xác về bệnh và không bệnh.

Đƣợc tính trực tiếp từ bảng 2 x 2.

Ví dụ: Tính độ nhạy, độ đặc hiệu, giá trị chẩn đoán dƣơng tính - âm tính của siêu âm ruột thừa viêm (đối chiếu với giải phẫu bệnh).

Siêu âm Giải phẫu bệnh

(+) (-)

(+) 29 7

(-) 3 53

Thao tác lệnh:

Test

Diagnostic test (2 x 2 table)

Lần lƣợt nhập các số vào trong các ô tƣơng ứng.

38

Nhấn nút Test để kết thúc (hoặc nhấn Enter)

Kết quả:

Độ nhạy 90.62%

Độ đặc hiệu 88.33%

Giá trị chẩn đoán dƣơng tính 80.56%

Giá trị chẩn đoán âm tính 94.64%

5.4. Test so sánh các giá trị trung bình

So sánh các giá trị trung bình để tìm ra sự khác biệt, sự liên quan có ý nghĩa thống kê giữa

các giá trị trung bình đó.

TEST ANOVA MỘT CHIỀU

Test ANOVA một chiều đƣợc dùng để so sánh 2 hay nhiều số trung bình của các nhóm độc lập (các nhóm độc lập do một biến định tính tạo ra).

Điều kiện: (1) Các nhóm định lƣợng phân phối theo luật chuẩn; và (2) có sự đồng nhất

phƣơng sai của các nhóm.

Yêu cầu thiết kế: Gồm một biến định lƣợng và một biến định tính để phân nhóm.

Thao tác lệnh:

Statistic

ANOVA

One-way analysis of variance

Tùy chọn:

Data: chọn biến định lƣợng

Factor codes: chọn biến định phân nhóm

Ví dụ: So sánh số lƣợng tiểu cầu trung bình của nam và nữ trong bệnh leucemie cấp.

Nhập số liệu: A B C

hot_ten gioi so_luong_TC

1 Nguyen Van A 0 43,1

2 Le Thi C 1 36,7

3 Tran Van Nguyen 1 50,4

4 Tran Hoang 1 37,3

Giả sử số lượng tiểu cầu theo giới phân phối theo luật chuẩn.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

39

Nhấn OK để kết thúc

Levene's Test for Equality of Variances

Levene statistic 0.107

DF 1 1

DF 2 88

Significance level P = 0.745

ANOVA

Source of variation Sum of squares DF Mean square

Between groups

(influence factor)

0.002778 1 0.002778

Within groups

(other fluctuations)

44.3884 88 0.5044

Total 44.3912 89

F-ratio 0.00551

Significance level P = 0.941

Factor n Mean (trung bình)

(1) 1=nam 45 40.44

(2) 2=nữ 45 49.11

Kết quả:

Bảng Levene's Test for Equality of Variances: so sánh phƣơng sai của 2 nhóm. Nếu

p>0,05, kết luận có sự đồng nhất phƣơng sai của 2 nhóm. Đây là một điều kiện để có thể thực hiện test ANOVA (cùng với điều kiện phân phối chuẩn). Nếu p<0,05 hoặc p<0,01, tức không có sự đồng

nhất phƣơng sai của 2 nhóm, khi đó không thực hiện đƣợc test ANOVA mà phải dùng test Kruskal - Walis.

Bảng ANOVA: Giá trị của test ANOVA (F-ratio) = 0,00551; p=0,941. Kết luận sự khác biệt

số lƣợng tiểu cầu trung bình giữa nam và nữ mắc bệnh leucemie không có ý nghĩa thống kê.

Bảng cuối cùng: thể hiện giá trị tiểu cầu trung bình của nam và nữ.

Nếu sự khác biệt có ý nghĩa, dùng test Student - Newman - Keuls để tìm sự khác biệt của từng cặp nhóm (trong tình huống > 2 nhóm).

40

Ví dụ: Student-Newman-Keuls test for all pairwise comparisons

Factor n Mean Different (P<0.05)

from factor nr

(1) 1 47 10.0877 (3)

(2) 2 18 25.3030

(3) 3 25 35.3187 (1)

Kết quả: có sự khác biệt có ý nghĩa giữa (1) với (3), không có sự khác biệt khi so sánh (2)

với (1), (2) với (3)

Kích vào Multiple comparison graph sẽ cho ra biểu đồ.

TEST T

* Test t đối với một mẫu

Ứng dụng: So sánh giá trị trung bình của mẫu với một kỳ vọng lý thuyết

Điều kiện: biến định lƣợng phân phối theo luật chuẩn.

Thao tác lệnh:

Statistic

T-test

One sample T-test

Tùy chọn:

Variable: Chọn biến định lƣợng cần khảo sát

Test value: Nhập giá trị trung bình kỳ vọng lý thuyết.

Ví dụ: Số lƣợng tiểu cầu trung bình ở ngƣời trƣởng thành là 150 (x 109/l). Hãy so sánh số lƣợng tiểu cầu trung bình ở bệnh nhân leucemie với số lƣợng tiểu cầu trung bình ở ngƣời trƣờng

thành để xem trong bệnh leucemie có hiện tƣợng giảm số lƣợng tiểu cầu hay không.

Thao tác nhƣ trên:

41

Nhấn OK để kết thúc:

Variable So_luong_TC

Sample size 90

Lowest value 15.0000

Highest value 92.0000

Arithmetic mean 56.8778

95% CI for the mean 52.4969 to 61.2587

Median 59.0000

95% CI for the median 53.0000 to 62.7724

Variance 437.5017

Standard deviation 20.9165

Standard error of the mean 2.2048

One sample t-test

Test value 150

Difference -93.1222

95% CI -97.5031 to -88.7413

Degrees of Freedom (DF) 89

Test statistic t 42.23619

Significance level P < 0.0001

Kết quả: Số lƣợng tiểu cầu trung bình ở bệnh nhân leucemie là 56,87 (x 109). Test t = 14,05689, p<0,001. Kết luận: có sự khác biệt giữa số lƣợng tiểu cầu trung bình ở bệnh nhân

leucemie và ở ngƣời trƣờng thành.

Kích chuột vào Box - and - Whisker plot sẽ cho ra biểu đồ

* Test t đối với 2 biến độc lập

Ứng dụng: So sánh 2 giá trị trung bình của 2 biến độc lập.

Điều kiện: (1) hai biến định lƣợng phân phối theo luật chuẩn; và (2) có sự đồng nhất phƣơng

sai giữa hai biến.

Yêu cầu thiết kế: gồm hai biến định lƣợng độc lập với nhau. Khác với test ANOVA gồm một biến định lƣợng và một biến định tính, các nhóm độc lập do một biến định tính tạo ra.

Thao tác lệnh:

Statistic

T-tests

Independent Sample t test

Tùy chọn:

Sample 1/ Variable 1: chọn biến định lƣợng thứ nhất

Sample 2/ Variable 2: chọn biến định lƣợng thứ hai

Ví dụ: So sánh huyết áp tâm thu trung bình của với .

Nhập số liệu:

42

A B C

HA_benh HA_chung

1 156 123

2 162 127

3 154 116

4 158 134

162 124

Hai nhóm HA bệnh và HA chứng độc lập với nhau, giả sử phân phối theo luật chuẩn. Áp

dụng test t đối với hai biến độc lập.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

Sample 1

Variable HA_benh

Sample 2

Variable HA_chung

Sample 1 Sample 2

Sample size 90 90

Arithmetic mean 147.8000 121.0000

95% CI for the mean 102.1486 to 113.4514 92.7144 to 139.2856

Variance 728.0494 246.0899

Standard deviation 26.9824 15.6873

Standard error of the mean 2.8442 1.6536

F-test for equal variances P > 0.05

T-test (assuming equal variance)

Difference -41.8000

Standard Error 3.2899

95% CI of difference -48.2923 to -35.3077

Test statistic t -12.705

Degrees of Freedom (DF) 178

Two-tailed probability P < 0.0001

Chú thích kết quả:

43

- F test for equal variances: test kiểm định sự đồng nhất phƣơng sai của hai nhóm (p>0,05: đồng nhất, p<0,05 hoặc <0,01: không đồng nhất). Trƣờng hợp này có sự đồng nhất phƣơng sai của hai nhóm (p>0,05), vì vậy sử dụng đƣợc test t đối với hai nhóm độc lập.

- Test t: kết quả -12,705, p<0,01. Kết luận: có sự khác biệt huyết áp tâm thu trung bình giữa nhóm bệnh và nhóm chứng.

Ghi chú: nếu bảng số liệu đƣợc thiết kế lại nhƣ sau: A B C

hot_ten HA Nhom_NC

1 Nguyen Van A 156 1

2 Le Thi C 132 2

3 Tran Van Nguyen 154 1

4 Tran Hoang 127 2

(nhóm NC: 1=bệnh; 2= chứng)

Trong tình huống này, hai nhóm bệnh và chứng do một biến định tính tạo ra, nên đƣợc so

sánh bằng test ANOVA 1 chiều:

* Test t ghép cặp

Ứng dụng: so sánh giá trị trung bình của 2 biến có quan hệ ghép cặp.

Điều kiện: hai biến phân phối theo luật chuẩn

Thao tác lệnh:

Statistic

T-tests

Pared samples t - test

Tùy chọn:

Sample 1: Chọn biến định lƣợng thứ nhất

Sample 2: Chọn biến định lƣợng thứ hai

Ví dụ: So sánh số lƣợng tiểu cầu trung bình ở bệnh nhân leucemie trƣớc và sau điều trị.

Nhập số liệu:

44

A B C

hot_ten SLTC_truocDT SLTC_sauDT

1 Nguyen Van A 46,7 29,4

2 Le Thi C 37,5 25,6

3 Tran Van Nguyen 41,3 26,9

4 Tran Hoang 43,6 27,1

Hai biến số lượng tiểu cầu trước điều trị và số lượng tiểu cầu sau điều trị có quan hệ ghép

cặp với nhau, giả sử phân phối theo luật chuẩn. Nhƣ vậy đủ điều kiện để áp dụng test t ghép đôi.

Thao tác nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

Sample 1 Sample 2

Sample size 33 33

Arithmetic mean 45.1515 21.9394

95% CI for the mean 29.9583 to 60.3447 14.9190 to 28.9598

Paired samples t-test

Mean difference -23.2121

Standard deviation 43.1435

95% CI -38.5101 to -7.9141

Test statistic t -3.091

Degrees of Freedom (DF) 32

Two-tailed probability P = 0.0041

Kết quả: test t = -3,091, p=0,0041. Kết luận: có sự khác biệt về số lƣợng tiểu cầu trung bình

trƣớc và sau điều trị.

Kích chuột vào Dot-and-Line diagram sẽ cho ra biểu đồ.

5.6. Test phi tham số so sánh hai hay nhiều số trung bình

Các test để so sánh hai hay nhiều số trung bình đƣợc dùng trên đây là những test tham số (trong công thức tính toán của test có sử dụng các tham số thống kê nhƣ trung bình, độ lệch

chuẩn...). Đó là những test mạnh, thông dụng, nhƣng đòi hỏi phải thỏa mãn hai điều kiện thiết yếu: các mẫu khảo sát phải có phân phối chuẩn và sự khác biệt giữa các phƣơng sai không có ý nghĩa. Do đó, trong những trƣờng hợp các mẫu khảo sát không thỏa đƣợc hai điều kiện của test tham số,

nhất là những trƣờng hợp mẫu nhỏ hay quá nhỏ, ta phải sử dụng các test không dựa vào hình thái

45

phân phối, gọi là test phi tham số.

SIGN RANK SUM TEST

Test này thay thế cho test t đối với một mẫu (one sample t test) khi muốn so sánh giá trị

trung bình của một biến khảo sát với một kỳ vọng lý thuyết.

Thao tác lệnh:

Statistics

Rank sum tests

Signed rank sum test

Tùy chọn:

Variable : chọn biến định lƣợng cần khảo sát

Test value: số trung bình kỳ vọng lý thuyết

TEST MANN WHITNEY

Dùng để so sánh hai số trung bình của hai mẫu khảo sát độc lập khi không đủ điều kiện để

thực hiện test t đối với 2 biến độc lập (independent sample t test).

Yêu cầu thiết kế: Hai biến định lƣợng nằm trên hai cột của bảng số liệu và quan hệ độc lập với nhau.

Thao tác lệnh:

Statistics

Rank sum tests

Mann-Whitney test (independent samples)

Tùy chọn:

Sample 1/ Variable: chọn biến định lƣợng thứ nhất

Sample 2/ Variable: chọn biến định lƣợng thứ hai

46

TEST WILCOXON

Để so sánh hai số trung bình trƣờng hợp số liệu từng cặp khi không đủ điều kiện thực hiện test t đối với 2 biến ghép cặp (pared samples t test).

Yêu cầu thiết kế: Hai biến định lƣợng nằm trên hai cột của bảng số liệu và quan hệ cặp đôi với nhau.

Thao tác lệnh:

Statistics

Rank sum tests

Wilcoxon test (paired samples)

Tùy chọn:

Sample 1: chọn biến định lƣợng thứ nhất

Sample 2: chọn biến định lƣợng thứ hai.

TEST KRUSKALL - WALLIS

Để so sánh hai hay nhiều số trung bình của nhiều mẫu khảo sát độc lập khi không đủ điều kiện để sử dụng test ANOVA một chiều.

Yêu cầu thiết kế: gồm một biến định lƣợng cần khảo sát và một biến định tính để phân ra các nhóm độc lập.

Thao tác lệnh:

Statistics

Anova

Kruskal-Wallis test

Tùy chọn:

Data: chọn biến định lƣợng cần khảo sát

Factor codes: chọn biến định tính phân nhóm.

47

Bảng 5.3. Các test so sánh các số trung bình

Số nhóm

khảo sát

Tính chất nhóm

khảo sát

Tính chất phân phối Test so sánh

1 Chuẩn (mẫu lớn) t (1 mẫu)

1 Không chuẩn Sign rank sum test

2 Độc lập Chuẩn và đồng nhất t test (độc lập)

2 Không chuẩn, không

đồng nhất

Mann Whitney

2 Từng cặp d (=xA-xB) chuẩn t test (từng cặp)

2 d (=xA-xB) không chuẩn Wilcoxon

≥ 2 Độc lập

Phân nhóm theo 1

biến

Chuẩn và đồng nhất ANOVA

Nếu sự khác biệt có ý nghĩa, dùng

test Student-Newman-Keuls để tìm sự khác biệt của từng cặp nhóm

≥ 2 Độc lập

Phân nhóm theo 1 biến

Không chuẩn và không

đồng nhất

Kruskal - Walis

48

Chƣơng 6

TƢƠNG QUAN VÀ HỒI QUI

Trong nghiên cứu chúng ta có thể gặp những trƣờng hợp có mối liên quan rõ rệt theo những chiều hƣớng nhất định giữa các sự kiện. Ví dụ: khi mức dinh dƣỡng kém trẻ em bị còi xƣơng, ở

vùng thiếu iod trong thức ăn nƣớc uống, nhân dân sẽ có nhiều ngƣời bị bệnh bƣớu cổ, tuổi của vận động viên càng cao thể lực càng giảm sút... đó là những mối tƣơng quan. Trong y học ít có những tƣơng quan tuyệt đối, mà chỉ tƣơng quan với nhau trong một chứng mực nhất định vì cơ thể con

ngƣời, điều kiện sống môi trƣờng... luôn luôn biến động.

6.1. Hệ số tƣơng quan r (tƣơng quan Pearson)

Sử dụng hệ số tƣơng quan để xem xét mối tƣơng quan tuyến tính giữa hai biến định lƣợng không cân nhắc tới yếu tố nhân quả.

Xác định mức độ tƣơng quan dựa vào hệ số r:

|r| > 0,8 tƣơng quan mạnh

|r| = 0,4 - 0,8 tƣơng quan trung bình

|r| < 0,4 tƣơng quan yếu

|r| càng lớn thì tƣơng quan giữa X và Y càng chặt

0 < r ≤ 1: gọi là tƣơng quan tuyến tính thuận (X↑, Y↑)

-1 ≤ r ≤ 0: gọi là tƣơng quan tuyến tính nghịch (X↑, Y↓)

Điều kiện: hai biến định lƣợng phân phối theo luật chuẩn.

Thao tác lệnh:

Statistic

Relation

Relation Coefficent

Tùy chọn:

Variable Y: Chọn biến định lƣợng thứ nhất

Variable X: Chọn biến định lƣợng thứ hai.

Ví dụ: Phân tích mối tƣơng quan giữa áp lực động mạch phổi và kích thƣớc lỗ thông trong

bệnh thông liên thất.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

49

Nhấn OK để kết thúc:

Variable Y ALDMP

Variable X KT_lothong

Sample size 399

Correlation coefficient r 0,6978

Significance level P<0,0001

95% Confidence interval for r 0,6438 to 0,7450

Kết quả: hệ số tƣơng quan r=0,6978 (tƣơng quan trung bình, có ý nghĩa thống kê p<0,0001).

Ghi chú: nếu p > 0,05 sự tƣơng quan không có ý nghĩa thống kê (dù r lớn hay nhỏ).

Kích vào Scatter diagram sẽ cho biểu đồ tƣơng quan (biểu đồ chấm)

6.2. Tƣơng quan hạng Spearman rs

Khi phân phối các giá trị x và y không thỏa các điều kiện qui định để tính hệ số tƣơng quan r, nhất là khi mẫu khảo sát quá nhỏ, ta phải dùng test phi tham số Spearman. Hệ số r tính đƣợc từ

test Spearman gọi là hệ số tƣơng quan hạng rs.

Trong trƣờng hợp có tƣơng quan tuyến tính, r và rs gần nhƣ giống nhau, nhƣng trong tƣơng

quan không tuyến tính r và rs khác nhau nhiều.

Trong thực hành, ta chỉ tính r hoặc rs. Do đó, trƣớc khi tính toán, phải dựa vào đồ thị phân tán để quyết định tính r hay rs. Nếu đồ thị phân tán nghĩ đến một tƣơng quan tuyến tính, ta sẽ tính r.

Nếu đồ thì phân tán cho thấy có thể có một tƣơng quan không tuyến tính, ta sẽ tính rs. Chú ý: khi hệ số tƣơng quan r không có ý nghĩa, ta chỉ kết luận là không có tƣơng quan tuyến tính mà thôi; cũng

có thể giữa hai đặc tính có tƣơng quan không tuyến tính.

Đánh giá mức độ tƣơng quan dựa vào hệ số rs cũng giống nhƣ hệ số tƣơng quan r.

Yêu cầu thiết kế: Hai biến số đƣa vào khảo sát là biến định lƣợng hoặc biến định tính có thứ

hạng.

Thao tác lệnh:

Statistics

Correlation

Rank correlation

Tùy chọn:

Variable Y: chọn biến phụ thuộc

Variable X: chọn biến độc lập

Spearman's rho: mặc định chọn test Spearman

Ví dụ: Một cán bộ y tế theo dõi tình hình bệnh nhân sốt xuất huyết, nhận thấy có mối liên

quan giữa số lƣợng tiểu cầu và mức độ xuất huyết (độ 1, độ 2, độ 3, độ 4).

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

50

Nhấn OK để kết thúc

Variable Y so_luong_TC

Variable X muc_do_XH

Sample size 90

Spearman's coefficient of rank correlation (rho) 0.465

Significance level P<0.0001

95% Confidence Interval for rho 0.285 to 0.613

Kết quả: rs = 0,465, p<0,01. Kết luận: có sự tƣơng quan mức độ vừa giữa số lƣợng tiểu cầu và mức độ xuất huyết.

6.3. Phân tích hồi qui

Khi hai biến số liên quan phụ thuộc lẫn nhau thì biến số này thay đổi biến số kia sẽ thay đổi theo. Nếu ta gọi y là biến số phụ thuộc và x là biến số độc lập thì mối liên quan này đƣợc gọi là hồi

qui (regression) của y đối với x và sẽ đƣợc thể hiện bằng một phƣơng trình hồi qui (regression equation).

Phƣơng trình hồi qui tuyến tính có dạng nhƣ sau:

y = a + bx.

Trong đó: a là hằng số (constant) hoặc còn gọi là intercept.

b là hệ số (coefficient)

y là biến số phụ thuộc

x là biến số độc lập

Trên cơ sở phƣơng trình trên, ta có thể từ một điểm x bất kỳ tính ra đƣợc y tƣơng ứng (sai số 5%).

Điều kiện: Hai biến định lƣợng phân phối theo luật chuẩn.

Thao tác lệnh:

Statistic

Regression

Regression

Tùy chọn:

Variable Y: Chọn biến định lƣợng phụ thuộc

51

Variable X: Chọn biến định lƣợng độc lập

Regression equation: Chọn phƣơng trình Y = a + bX. Những dạng phƣơng trình khác ít dùng nên không giới thiệu ở đây.

Kết quả cho ra hệ số R2 (tức bình phƣơng hệ số tƣơng quan r), phƣơng trình hồi qui.

Ví dụ: Xác định phƣơng trình hồi qui thể hiện mối tƣơng quan tuổi thai và mức độ tăng cân

của bà mẹ trong thai kỳ.

Thao tác nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc

Dependent Y muc_do_tang_can_me

Independent X tuoi_thai

Sample size 90

Coefficient of determination R2 0.06758

Residual standard deviation 8337.6716

Regression Equation

y = 139336.0776 + -3160.2925 x

Parameter Coefficient Std. Error 95% CI t P

Intercept 139336.0776 48455.2363 43041.4777 to 235630.6775 2.8756 0.0051

Slope -3160.2925 1251.4002 -5647.1875 to -673.3974 -2.5254 0.0133

Analysis of Variance

Source DF Sum of Squares Mean Square

Regression 1 443355040.1 443355040.1

Residual 88 6117475608.8 69516768.3

F-ratio 6.4

Significance level P=0.013

Kết quả: hệ số R2 = 0,0675, phƣơng trình hồi qui y = 139336,0776 + -3160,2925x, p=0,0051.

Để vẽ biểu đồ tƣơng quan, kích chuột vào Scatter diagram with regression line

52

Chƣơng 7

PHÂN TÍCH ĐA BIẾN

7.1. Hồi qui tuyến tính đa biến

Kỹ thuật phân tích hồi qui đa biến thƣờng đƣợc dùng để khảo sát sự tƣơng quan giữa một

biến phụ thuộc là biến định lƣợng với nhiều biến số độc lập thƣờng cũng là biến định lƣợng, nhằm xác định phƣơng trình hồi qui tuyến tính và giá trị tiên đoán của biến số phụ thuộc theo giá trị của các biến số độc lập.

Phƣơng trình hội qui tuyến tính có dạng:

y = a + b1x1 + b2x2 +...+ bnxn.

Thao tác lệnh:

Statistic

Regression

Multiple regression

Tùy chọn:

Depentdent variable: chọn biến phụ thuộc

Indepentdent variable: chọn các biến độc lập

Ví dụ: Một nghiên cứu về lƣợng oxy trong máu của 31 cá thể sau một thời gian chạy, hai

biến độc lập khác cũng đƣợc xem xét vì nghi ngờ có liên quan là cân nặng và tuổi của cá thể.

Biến phụ thuộc: lƣợng oxy trong máu

Biến độc lập: thời gian chạy, câng nặng, tuổi

Thao tác nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

Sample size 90

R2-adjusted 0.2341

Regression Equation

53

Independent variables Coefficient Std. Error t P

(Constant) 2.9399

thoi_gian_chay 0.1240 0.03136 3.952 0.0002

can_nang 0.2659 0.0003352 0.793 0.0498

tuoi 0.3939 0.002301 3.885 0.0002

Zero order correlation coefficients

Variable r

thoi_gian_chay 0.359

can_nang 0.374

tuoi 0.351

Kết quả: Ở bảng Regression Equation cho thấy hệ số hồi qui từng phần (cột Coefficient) và

giá trị p của lần lƣợt các yếu tố đối với oxy máu. Nhƣ vậy có sự tƣơng quan giữa thời gian chạy, cân nặng và tuổi đối với lƣợng oxy máu xét trong mối quan hệ đa yếu tố (p<0,05).

Bảng Zero order correlation coefficients thể hiện hệ số tƣơng quan r của từng yếu tố riêng

biệt đối với lƣợng oxy máu xét trong từng mối tƣơng quan riêng biệt.

Ngoài ra kết quả còn cho giá trị hệ số xác định (R2 - adjusted). Hệ số này cho phép ta ƣớc

đoán đƣợc bao nhiêu phần trăm của y là do hậu quả biến đổi của các biến số x1, x2, x3..., xi. Trong ví dụ trên, ta có R2=0,2341, có nghĩa là 23,41% sự biến đổi của oxy máu đƣợc qui thuộc là do sự biến đổi của thời gian chạy, cân nặng và tuổi.

7.2. Hồi qui logistic

Hồi qui logicstic là kỹ thuật phân tích đa biến dùng để khảo sát tƣơng quan giữa một biến số

định tính y có 2 giá trị nhƣ tình trạng có bệnh hoặc không có bệnh, với một hay nhiều biến số độc lập xi. Các biến số độc lập xi thƣờng là biến định tính nhị phân nhƣng cũng có thể là biến số định tính có nhiều giá trị (định danh, thứ tự) hoặc là biến định lƣợng.

Sử dụng hồi qui logistic nhằm thiết lập một mô hình toán học cho phép vừa tính đƣợc mức độ tƣơng quan giữa bệnh với yếu tố nguy cơ, cùng lúc kiểm soát dƣợc các yếu tố gây nhầm lẫn,

cũng nhƣ phát hiện đƣợc các yếu tố thay đổi hiệu quả tƣơng quan, nếu kỹ thuật phân tích theo lớp (bảng phân phối tần số nhiều chiều) sẽ không đủ mạnh để có thể có đƣợc một kết luận có ý nghĩa thống kê.

Phƣơng trình hồi qui logistic cũng tƣơng tự phƣơng trình hồi qui đa biến tuyến tính, nhƣng thay vì tính y, ngƣời ta tính logit(p)

Logit(p) = a + b1x1 + b2x2 +...+ bnxn

Trƣờng hợp biến số xi là những yếu tố ảnh hƣởng (yếu tố nguy cơ hay yếu tố bảo vệ) đối với biến phụ thuộc y (là tình trạng mắc bệnh, tử vong hay tai nạn...), sử dụng hồi qui logistic ta có thể:

- Xác định sự tƣơng quan giữa biến số y với một biến số x1 sau khi đã kiểm soát ảnh hƣởng của các biến số x2, x3... khác, có thể là những yếu tố gây nhầm lẫn hoặc thay đổi hiệu quả tƣơng

quan.

- Đo lƣờng mức độ nguy cơ (nguy cơ tƣơng đối RR hoặc tỉ số chênh OR) của một biến x1 đối với y sau khi đã kiểm soát ảnh hƣởng của các biến số x khác x2, x3...)

- Đo lƣờng đƣợc xác suất xảy ra y (mắc bệnh, tử vong...) của từng nhóm ngƣời mang một hay nhiều yếu tố nguy cơ, yếu tố bảo vệ.

- Phát hiện đƣợc yếu tố gây nhầm lẫn, yếu tố thay đổi hiệu quả tƣơng quan.

54

Ví dụ: Bệnh tăng huyết áp có các yếu tố nguy cơ nhƣ: tố béo phì, hút thuốc lá, đái đƣờng, rối loạn lipid máu. Các yếu tố này không tách rời nhau mà cùng góp phần ảnh hƣởng lên bệnh tăng huyết áp của một cá nhân. Để khảo sát vấn đề này, ta có thể xây dựng mô hình hồi qui logistic,

trong đó biến phụ thuộc nhân hai giá trị, ứng với việc mỗi cá nhân có mắc bệnh tăng huyết áp (mã hóa: 1) hay không (mã hóa: 0). Các biến độc lập có thể cho biết các cá nhân trong mẫu có béo phì,

hút thuốc lá, đái đƣờng, rối loạn lipid máu hay không. Các hệ số ƣớc lƣợng đƣợc bên cạnh các biến độc lập sẽ cho biết mức độ ảnh hƣởng của các yếu tố kia tới bệnh huyết áp.

Yêu cầu thiết kế: gồm một biến phụ thuộc là biến nhị nguyên, qui ƣớc mã hóa: 0=không,

1=có. Các biến độc lập có thể bao gồm cả biến định tính và biến định lƣợng.

Thao tác lệnh:

Statistic

Regression

Logistic Regression

Tùy chọn:

Dependent variable: Chọn biến phụ thuộc cần khảo sát (tăng huyết áp)

Independent variable: Lần lƣợt chọn các biến độc lập (béo phì, hút thuốc lá, đái đường, rối loạn lipid máu).

Nhấn OK để kết thúc

Dependent Y THA

Method Enter

Sample size 90

Cases with Y=0 63 (70.00%)

Cases with Y=1 27 (30.00%)

Coefficients and Standard Errors

55

Variable Coefficient Std. Error P

BeoPhi 0.1119 0.7697 0.0084

DaiDuong 3.0367 0.5989 <0.0001

HutThuoc 0.1251 0.4010 0.0071

RLLP 0.3656 0.5881 0.0442

Constant 8.1895

Odds Ratios and 95% Confidence Intervals

Variable Odds Ratio 95% CI

BeoPhi 0.8941 0.1978 to 4.0414

DaiDuong 20.8368 6.4420 to 67.3977

HutThuoc 1.1332 0.5164 to 2.4870

RLLP 1.4414 0.4551 to 4.5648

Kết quả:

Bảng Coefficients and Standard Errors xác định hệ số tƣơng quan (cột Coefficent) bi của yếu tố xi với yếu tố y và p là mức ý nghĩa thống kê. Nhƣ vậy mỗi yếu tố nói trên đều có ảnh hƣởng đến bệnh tăng huyết áp sau khi đã kiểm soát các yếu tố kia (p<0,05).

Bảng Odds Ratios and 95% Confidence Intervals xác định tỉ suất chênh của mỗi yếu tố xi đối với y.

56

Chƣơng 8

ĐƢỜNG CONG ROC

Từ ROC (Receiver Operating Characteristic) bắt nguồn từ một phần của lĩnh vực đƣợc gọi là thuyết phát hiện tín hiệu (Signal Detection Theory) dùng để phân tích hình ảnh trên radar trong

thế chiến thứ hai. Từ các tín hiệu nhận đƣợc, máy sẽ phân tích và vẽ đƣờng cong ROC, dự đoán đƣợc tín hiệu nào là của máy bay địch hoặc tín hiệu nào do nhiễu (noise) Từ sau những năm 1970, thuyết phát hiện tín hiệu này đƣợc dùng để diễn dịch kết quả các test trong chẩn đoán y học.

Mỗi điểm trên đƣờng cong ROC là tọa độ tƣơng ứng với tần suất dƣơng tính thật (độ nhạy) trên trục tung và tần suất dƣơng tính giả (1- độ đặc hiệu) trên trục hoành. Đƣờng biểu diễn càng

lệch về phía bên trên và bên trái thì sự phân biệt giữa 2 trạng thái (ví dụ có bệnh hoặc không bệnh) càng rõ.

Độ chính xác (accuracy) đƣợc đo lƣờng bằng diện tích dƣới đƣờng cong ROC (AUC). Nếu

diện tích bằng 1 là test rất tốt và nếu bằng 0,5 thì test không có giá trị. Xác định đơn giản mức độ chính xác của test chẩn đoán dựa vào hệ thống điểm sau đây:

0,90 -1 : rất tốt

0,80 - 0,90 : tốt

0,70 - 0,80 : khá tốt

0,60 - 0,70 : tồi

0,50 - 0,60 : không giá trị

Ứng dụng đƣờng cong ROC trong nghiên cứu y học:

1. Xác định điểm cắt (cut off): Trong các test chẩn đoán bệnh, đƣờng cong ROC đƣợc dùng để tìm điểm cắt (cut off) của các biến định lƣợng có giá trị phân biệt 2 trạng thái (ví dụ:

bệnh/không bệnh) tốt nhất, có nghĩa là tìm ngƣỡng (threshold) có độ nhạy và độ đặc hiệu cao nhất. Ví dụ để phân biệt viêm phổi do vi trùng hoặc do virus ngƣời ta đo nồng độ CRP trong máu và tìm

điểm cắt có độ nhạy và độ đặc hiệu cao nhất để chẩn đoán phân biệt giữa viêm phổi do vi trùng hoặc do virus.

2. Tính độ nhạy, độ đặc hiệu, giá trị tiên đoán dƣơng và giá trị tiên đoán âm tính.

3. So sánh độ nhạy, độ đặc hiệu của 2 test chẩn đoán: So sánh độ nhạy, độ đặc hiệu của ≥ 2 tests chẩn đoán bằng cách so sánh diện tích dƣới đƣờng cong ROC (Area Under the Curve). Test

nào có AUC lớn nhất sẽ có giá trị cao nhất để chẩn đoán. Diện tích dƣới đƣờng cong (AUC) chính là tích phân của của hàm y (độ nhạy) theo x (1- độ đặc hiệu) với x từ 0->1

Yêu cầu thiết kế: bảng số liệu có một biến định lƣợng cần khảo sát độ nhạy, độ đặc hiệu và

một biến định tính xác định hai trạng thái: có và không.

Mã hóa bắt buộc: 0=không; 1=có.

Tùy theo vấn đề nghiên cứu mà ta xác định hai trạng thái đó. Ví dụ trong tiên lƣợng tử vong: 0=sống, 1=tử vong; trong xác định viêm màng não mũ (để phân biệt với viêm màng não virus): 0=viêm màng não virus, 1=viêm màng não mũ.

8.1. Xác định điểm cắt và tính độ nhạy, độ đặc hiệu

Thao tác lệnh:

Statistic

ROC curves

ROC curve analysis

57

Tùy chọn:

Variable : chọn biến định lƣợng cần khảo sát

Classification variable : chọn biến định tính xác định hai trạng thái cần phân biệt.

Ví dụ: Tìm độ nhạy, độ đặc hiệu của CRP trong chẩn đoán viêm phổi nhiễm khuẩn (phân biệt với viêm phổi virus).

Bảng số liệu: gồm biến định lƣợng CRP và biến định tính viêm phổi đƣợc mã hóa: 0=viêm phổi virus, 1=viêm phổi nhiễm khuẩn.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

0 20 40 60 80 100

0

20

40

60

80

100

100-Specificity

Sen

siti

vit

y

Variable CRP

Classification variable viem_phoi

Area under the ROC curve (AUC) 0.741

58

Significance level P (Area=0.5) 0.0001

Criterion values and coordinates of the ROC curve [Hide]

Criterion Sensitivity 95% CI Specificity 95% CI +LR -LR

>=0.105 100.00 86.3 - 100.0 0.00 0.0 - 5.5 1.00

>12.5 * 76.00 54.9 - 90.6 75.38 63.1 - 85.2 3.09 0.32

>125 0.00 0.0 - 13.7 100.00 94.5 - 100.0 1.00

Kết quả: Diện tích dƣới đƣờng cong AUC=0,741, p=0,0001, ở điểm cắt CRP>12,5 cho độ nhạy và độ đặc hiệu tối ƣu (76% và 75,38%).

8.2. So sánh độ nhạy, độ đặc hiệu của 2 test chẩn đoán

Thao tác lệnh:

Statistic

ROC curves

Comparision of ROC curve

Tùy chọn:

Variable : lần lƣợt chọn các biến định lƣợng cần so sánh

Classification variable : chọn biến định tính xác định hai trạng thái.

Ví dụ: So sánh độ nhạy, độ đặc hiệu của CRP với Hs-CRP trong chẩn đoán viêm phổi.

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau.

Kết quả sẽ cho biết diện tích dƣới đƣờng cong của mỗi test chẩn đoán.

59

Chƣơng 9

PHÂN TÍCH THỜI GIAN SỐNG

Trong nghiên cứu y học chúng ta thƣờng gặp những câu hỏi nhƣ: thời gian sống trung bình của những bệnh nhân ghép gan, thời gian sống trung bình của bệnh nhân leucemie hoặc tỉ lệ bệnh

nhân leucemie sống sót sau 5 năm.

Trong các trƣờng hợp trên, biến số khảo sát là một khoảng thời gian liên tục, trong đó có những bệnh nhân đã chết trong thời gian thực hiện nghiên cứu (tức sự kiện đã sảy ra) nhƣng có

những bệnh nhân vẫn còn sống sót vào thời điểm kết thúc cuộc nghiên cứu (tức sự kiện nghiên cứu đã không xảy ra) và ta không thể biết chính xác thời gian sống của những bệnh nhân này.

Các kỹ thuật phân tích thời gian sống đƣợc sử dụng để thực hiện các cuộc khảo sát tƣơng tự nhƣ trên và đƣợc mở rộng cho các cuộc khảo sát có tính chất tƣơng tự : Thời gian không có triệu chứng của ngƣời nhiễm HIV, hoặc thời gian sốt trung bình của bệnh nhân sốt xuất huyết.

Các kỹ thuật phân tích thời gian sống, ngoài tác dụng mô tả thời gian sống của một quần thể khảo sát, còn đƣợc dùng để so sánh hiệu quả của các phƣơng thức điều trị khác nhau đối với việc

kéo dài thời gian sống của ngƣời mắc bệnh.

Cách tính thời gian sống:

- Trƣờng hợp bệnh nhân chết trong thời gian thực hiện cuộc khảo sát:

Thời gian sống = Thời điểm BN chết - Thời điểm bắt đầu của bệnh nhân

- Trƣờng hợp bệnh nhân vẫn còn sống vào thời điểm kết thúc cuộc khảo sát hoặc trong thời

gian thực hiện khảo sát:

Thời gian sống = Thời điểm kết thúc cuộc khảo sát (hoặc thời điểm ghi nhận thông tin lần cuối) - Thời điểm bắt đầu của bệnh nhân.

Trong trƣờng hợp này, thời gian sống đƣợc tính không đúng với thực tế (không chính xác) và đƣợc gọi là censored.

Yêu cầu thiết kế:

- Biến định lƣợng thời gian sống

- Biến định tính xác nhận kết cục: qui ƣớc mã hóa: 0=sống (censored), 1= chết.

9.1. Phân tích thời gian sống bằng phƣơng pháp Kaplan - Meier

Phƣơng pháp này cho biết tỷ lệ sống sau từng khoảng thời gian.

Thao tác lệnh:

Statistics

Survival analysis

Kaplan-Meier survival curve

Tùy chọn:

Survival time: chọn biến thời gian sống.

Enpoint: chọn biến xác nhận kết quả (chết, censored)

Ví dụ: Phân tích thời gian sống của bệnh nhân ung thƣ dạ dày.

Thao tác nhƣ trên, xuất hiện hộp thoại sau:

60

Nhấn OK để kết thúc:

ketcuc

0 10 20 30 40

40

50

60

70

80

90

100

Thoi gian song (thang)

Sur

viva

l pr

obab

ilit

y (%

)

Bảng kết quả:

Survival time Thoigiansong

Endpoint ketcuc

Sample size 90

Median survival 31

Survival time

Survival Proportion

Standard Error

1 0.978 0.0155

2 0.967 0.0189

31 0.400 0.124

Chú thích bảng: Survival time: thời gian sống; Survival Proportion: tỉ lệ tƣơng ứng với các

mốc thời gian sống. Trong ví dụ trên, 98,7% bệnh nhân leucemie sống thêm 1 tháng, 96,7% sống thêm 2 tháng,.. 40% sống thêm 31 tháng.

9.2. So sánh thời gian sống của các nhóm bệnh nhân bằng test Logrank

Ví dụ: Để đánh giá hiệu quả thời gian sống của một phƣơng thức điều trị mới (kết hợp phẫu thuật với hóa trị) đố với một bệnh ung thƣ so với phƣơng thức điều trị phẫu thuật đơn thuần, ngƣời

ta chọn 2 nhóm bệnh nhân: 1= phẫu thuật đơn thuần; 2= phẫu thuật kết hợp hóa trị.

Yêu cầu thiết kế:

61

- Biến định lƣợng thời gian sống

- Biến định tính xác nhận kết cục (censored, chết)

- Biến định tính phân nhóm để so sánh.

Thao tác lệnh

Statistics

Survival analysis

Kaplan-Meier survival curve

Tùy chọn:

Survival time: chọn biến thời gian sống.

Enpoint: chọn biến xác nhận kết quả (chết, censored)

Factors: Chọn biến định tính phân nhóm

Ví dụ: So sánh thời gian sống của 2 nhóm bệnh nhân đƣợc điều trị hóa chất đơn thuần và nhóm điều trị phối hợp phẫu thuật + hóa trị.

Thao tác nhƣ trên, xuất hiện hộp thoại sau:

Nhấn OK để kết thúc:

ketcuc

0 10 20 30 40

30

40

50

60

70

80

90

100

Thoi gian song (thang)

Surv

ival

pro

bab

ilit

y (

%)

PP DT

Hoa chat

PT+HC

62

Survival time Thoigiansong

Endpoint ketcuc

Factor codes Phuongphap_DT

Comparison of survival curves (Logrank test)

Endpoint: Observed n 18.0 11.0

Expected n 15.0 14.0

Chi-square 1.2762

DF 1

Significance P = 0.2586

Kết quả: p>0,05, kết luận không có sự khác biệt về thời gian sống giữa nhóm bệnh nhân đƣợc điều trị hóa chất đơn thuần và nhóm đƣợc điều trị phẫu thuật + hóa trị trong ung thƣ dạ dày.

9.3. Khảo sát tƣơng quan giữa thời gian sống và nhiều yếu tố ảnh hƣởng

Phƣơng pháp logrank chỉ cho phép chúng ta so sánh tím sự khác biệt thời gian sống của hai

hay nhiều nhóm bệnh nhân đƣợc chia nhóm bằng một biến (phân tích một chiều). Khi cuộc nghiên cứu muốn tìm hiều ảnh hƣởng đối với thời gian sống của cùng lúc nhiều yếu tố, ta phải sử dụng kỹ thuật phân tích hồi qui Cox.

Các yếu tố ảnh hƣởng đến thời gian sống có thể là:

- Hai hay nhiều phƣơng thức điều trị

- Tình trạng lâm sàng, cận lâm sàng của bệnh nhân: giai đoạn ung thƣ, kích thƣớc của bƣớu, loại ung thƣ...

- Đặc điểm của bệnh nhân: giới tính, tuổi, chủng tộc.

Thao tác lệnh:

Statistics

Survival analysis

Cox proportional-hazards regression

Tùy chọn:

Survival time: chọn biến thời gian sống

Endpoint: chọn biến kết cục

Predictor variable: chọn các biến cần khảo sát mức độ ảnh hƣởng của nó đối với thời gian sống.

Ví dụ: Khảo sát tƣơng quan giữa thời gian sống của 90 bệnh nhân ung thƣ dạ dày với các

yếu tố ảnh hƣởng: tuổi bệnh nhân (1= <50; 2= ≥50), giai đoạn (1, 2, 3, 4), tình trạng di căn (0=không; 1=có).

Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:

63

Bảng kết quả:

Coefficients and Standard Errors

Covariate b SE P Exp(b) 95% CI of Exp(b)

tuoi 0.5046 0.2579 0.05041 1.6564 1.0017 to 2.7389

giai_doan 0.4811 0.2575 0.03169 1.6178 0.9792 to 2.6729

di_can 0.02814 0.4068 0.0448 0.9723 0.4398 to 2.1491

Kết quả: b là hệ số hồi qui từng phẩn của các yếu tố đối với thời gian sống, p là ý nghĩa thống kê. Ở ví dụ này thời gian sống có tƣơng quan có ý nghĩa với giai đoạn ung thƣ và tình trạng

di căn (p<0,05), không tƣơng quan với tuổi (p>0,05).

64

Chƣơng 10

CÁC TEST THỐNG KÊ TRỰC TIẾP

TỪ BẢNG TRÌNH BÀY

Chƣơng trình medcalc cung cấp các công cụ thực hiện các test thống kê trực tiếp từ các bảng

trình bày mà không cần số liệu gốc. Đây là một tiện ích mà không phải bất cứ một phần mềm xử lý số liệu nào cũng làm đƣợc. Điều này rất hữu ích cho các nhà phản biện muốn kiểm tra tính chính xác của các bảng trình bày trong luận văn, luận án.

Điều kiện áp dụng các test thống kê này nhƣ đã trình bày trong chƣơng 3. Chúng tôi sẽ lần lƣợt trình bày cách sử dụng của từng test theo thứ tự của nó trên menu.

10.1. Test for one mean

Ứng dụng: kiểm định một trung bình mẫu với một kỳ vọng lý thuyết

Ví dụ: Một hãng sản xuất aspirin công bố mỗi viên có hàm lƣợng 0,5g. Cơ quan kiểm tra chất lƣợng đã chọn ngẫu nhiên 100 viên trên thị trƣờng, xét nghiệm thấy hàm lƣợng trung bình là 0,487, độ lệch chuẩn 0,035. Căn cứ vào kết quả kiểm tra đó, đã đi đến kết luận: thuốc đóng gói

không đảm bảo đủ hàm lƣợng, cần phải thu hồi. Hãng thuốc có chấp nhận những kết luận đó không hay là có thể kiện lại?

Thao tác lệnh:

Test

Test for one mean

Tùy chọn:

Mean: nhập giá trị trung bình của mẫu

Standard deviation: độ lệch chuẩn.

Sample size: cỡ mẫu.

Test mean equal to: giá trị trung bình kỳ vọng theo lý thuyết (để so sánh).

Áp dụng cho ví dụ trên:

65

Kết quả: p<0,01. Kết luận: Thuốc đóng gói thiếu hàm lƣợng so với tiêu chuẩn qui định. Thuốc phải đƣợc thu hồi và hãng thuốc không thể chối cãi đƣợc.

10.2. Test for one proportion

Ứng dụng: Kiểm định một lệ nghiên cứu với một tỉ lệ chuẩn

Ví dụ: Theo công bố của hội Tim mạch học Việt Nam, tỉ lệ tăng huyết áp ở ngƣời lớn tuổi

trong cộng đồng là 30%. Một nghiên cứu khác trên mẫu 600 ngƣời lớn tuổi tại một xã A, thấy có 210 bị tăng huyết áp (35%). Có thể kết luận chính xác tỉ lệ tăng huyết áp ở xã này tăng lên hay không?

Thao tác lệnh:

Tests

Test for one proportion

Tùy chọn:

Observed proportion (%): nhập tỉ lệ % của mẫu.

Sample size: cỡ mẫu.

Null Nypothesis: nhập tỉ lệ giả định.

Trong ví dụ trên, ta thực hiện các bƣớc nhƣ sau:

66

Kết quả: p=0,0075. Kết luận: sự khác biệt về tỉ lệ tăng huyết áp ở xã A so với cộng đồng là có cơ sở khoa học (có ý nghĩa thống kê).

10.3. Test χ2

Đối với bảng phân phối tần số một chiều

: Trong một đợt sốt xuất huyết, có 30 bệnh nhân vào viện, trong đó có 20 nữ và 10

nam. Có thể kết luận là nữ có xu hƣớng bị sốt xuất huyết nhiều hơn nam không?

Lập bảng:

Giới Sốt xuất huyết (n) Tỉ lệ (%)

Nam 10 33,3

Nữ 20 66,7

p=?

Thao tác lệnh:

Test

Chi-squre test

Tùy chọn: lần lƣợt nhập các số (không phải tỉ lệ) vào các ô của hộp thoại.

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

Ghi chú: các số có thể nhập theo cột hoặc theo hàng kết quả đều nhƣ nhau.

Kết quả: χ2=2,7, p>0,05. Kết luận: sự chênh lệch giữa số lƣợng bệnh nhân nam và nữ chƣa đạt độ tin cậy, cần phải nghiên cứu tiếp với số lƣợng lớn hơn.

Đối với bảng phân phối tần số hai chiều

Ví dụ: Khảo sát sự liên quan giữa trình độ văn hóa mẹ và mức độ suy dinh dƣỡng của con.

Lập bảng:

67

SDD

TĐVH

1 21 12 41

2 42 12 47

3 15 42 25

ĐH,... 18 15 27

Thao tác lệnh:

Test

Chi-squre test

Tùy chọn: nhập các số (không phải tỉ lệ) của bảng lần lƣợt vào các ô của hộp thoại.

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

Kết quả: χ2=45,032, p<0,01. Kết luận: có sự liên quan giữa trình độ văn hóa mẹ với mức độ

suy dinh dƣỡng của con.

10.4. Test Fisher

Yêu cầu thiết kế: bảng 2 x 2.

Thao tác lệnh:

Tests

Fisher's exact test

Tùy chọn: nhập các số (không phải tỉ lệ) trong bảng vào các ô tƣơng ứng của hộp thoại sau:

68

10.5. Test Mc Nemar

Yêu cầu thiết kế: bảng 2 x 2.

Thao tác lệnh:

Tests

McNemar test

Tùy chọn: nhập các số trong bảng vào các ô tƣơng ứng của hộp thoại sau:

10.6. Test so sánh 2 giá trị trung bình

Ví dụ: So sánh huyết áp trung bình của nam và nữ

Giới n HATT trung bình Độ lệch chuẩn (SD)

Nam 245 125,7 4,6

Nữ 154 107,3 3,9

p=?

.

Thao tác lệnh:

Test

Comparision of

69

Comparision of means (t-test)

Tùy chọn:

1st set of data: lần lƣợt nhập giá trị trung bình, độ lệch chuẩn, số trƣờng hợp của nhóm thứ

nhất vào các ô tƣơng ứng.

2st set of data: lần lƣợt nhập giá trị trung bình, độ lệch chuẩn, số trƣờng hợp của nhóm thứ

hai vào các ô tƣơng ứng.

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

Kết quả: p<0,01. Kết luận: sự khác biệt về huyết áp tối đa trung bình của nam và nữ có ý

nghĩa thống kê.

10.7. Test so sánh 2 tỉ lệ %

Ví dụ : So sánh tỉ lệ nhiễm HP ở nhóm có và không có tổn thƣơng loét dạ dày

Tổn thƣơng loét dạ dày N Nhiễm HP (n) % (n/N)

Có 61 48/61 78,7

Không 132 21/132 15,9

p=?

.

Thao tác lệnh:

Test

Comparision of

Proportions

Tùy chọn:

70

1st set of data:

Proportion (%): nhập tỉ lệ % thứ nhất

Number of case: nhập số mẫu số của phép chia cho ra tỉ lệ % thứ nhất.

2st set of data:

Proportion (%): nhập tỉ lệ % thứ hai

Number of case: nhập số mẫu số của phép chia cho ra tỉ lệ % thứ hai.

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

Kết quả: p<0,01. Kết luận: có sự khác biệt về tỉ lệ nhiễm HP ở nhóm có và không có tổn

thƣơng loét dạ dày.

10.8. Ƣớc lƣợng khoảng tin cậy 95% của một tỉ lệ

Khi suy diễn từ mẫu nghiên cứu ra cho quần thể thì không dùng một tỉ lệ cụ thể mà nêu từ mức thấp đến mức cao của giới hạn tin cậy 95% (viết tắt 95% CI).

Ví dụ: Nhằm phát hiện tật khúc xạ mắt ở một trƣờng tiểu học A, chọn ngẫu nhiên 100 học

sinh phát hiện có 21 em có tật khúc xạ. Ƣớc tính tỉ lệ học sinh có tật khúc xạ tại trƣờng tiểu học đó là bao nhiêu?

Thao tác lệnh:

Test

Rates

Confidence interval for a rate

Tùy chọn:

Numerator: tử số (ví dụ: số trƣờng hợp mắc bệnh)

Denominator: mẫu số (ví dụ: cỡ mẫu nghiên cứu)

Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:

71

Kết quả: tỉ lệ mắc tật khúc xạ của mẫu nghiên cứu 21%, ƣớc lƣợng cho toàn bộ học sinh trong trƣờng, tỉ lệ này từ 12,99% đến 32,10% với độ tin cậy 95%.

10.9. Nguy cơ tƣơng đối (RR)

(tƣơng lai).

Yêu cầu thiết kế: bảng 2 x 2. Chú ý thứ tự của các giá trị (+) và (-) trong hàng và cột: trên - trƣớc, dƣới - sau.

(+) (-)

(+) a b

(-) c d

Thao tác lệnh:

Test

Relative risk

Tùy chọn:

Exposed group: nhập các số trong cột thứ nhất vào các ô tƣơng ứng

Control group: nhập các số trong cột thứ hai vào các ô tƣơng ứng

72

10.10. Tỉ suất chênh (OR)

.

Yêu cầu thiết kế: bảng 2 x2. Thứ tự của các giá trị (+) và (-) giống nhƣ trong thủ tục tính

RR.

Thao tác lệnh:

Test

Odds ratio

Tùy chọn:

Cases with positive outcome: lần lƣợt nhập các số trong cột thứ nhất vào các ô tƣơng ứng.

Cases with negative outcome: lần lƣợt nhập các số trong cột thứ hai vào các ô tƣơng ứng.

10.11. Chỉ số phù hợp Kappa

.

Yêu cầu thiết kế: bảng k x k (số hàng và số cột bằng nhau)

Thao tác lệnh:

Test

Inter - Rater argument

Tùy chọn: nhập các số trong bảng lần lƣợt vào các ô tƣơng ứng trong hộp thoại sau.

73

10.12. Độ nhạy, độ đặc hiệu

Yêu cầu thiết kế: bảng 2 x 2.

Thao tác lệnh:

Test

Diagnostic test (2x2 table)

Tùy chọn: nhập các số trong bảng vào các ô tƣơng ứng trong hộp thoại sau.

Nhấn test hoặc enter để kết thúc.

74

MỤC LỤC

Chƣơng 1. GIỚI THIỆU CHƢƠNG TRÌNH MEDCALC .................................................................. 2

1.1. Cửa sổ chính .............................................................................................................................. 2

1.2. Cửa sổ số liệu (data) .................................................................................................................. 2

1.3. Hộp thoại ................................................................................................................................... 4

1.4. Mở một bảng số liệu đã có ........................................................................................................ 4

1.5. Lƣu số liệu................................................................................................................................. 5

Chƣơng 2. NHẬP SỐ LIỆU................................................................................................................. 6

2.1. Kích hoạt cửa sổ nhập số liệu.................................................................................................... 6

2.2. Nhập số liệu............................................................................................................................... 6

2.3. Tạo một biến mới từ các biến đã có .......................................................................................... 8

2.3.1. Từ biến định lƣợng, tạo ra các nhóm định tính................................................................... 8 2.3.2. Tạo ra biến mới bằng các thuật toán ................................................................................... 9

2.4. Kiểm soát bảng số liệu ............................................................................................................ 13

2.5. Lọc số liệu ............................................................................................................................... 14

Chƣơng 3. THỐNG KÊ MÔ TẢ........................................................................................................ 16

3.1. Thống kê mô tả biến định tính ................................................................................................ 16

3.1.1. Một số khái niệm .............................................................................................................. 16 3.1.2. Lập bảng phân phối tần số ................................................................................................ 16

3.2. Thống kê mô tả biến định lƣợng ............................................................................................. 20

3.2.1. Một số khái niệm .............................................................................................................. 20 3.2.2. Thống kê tóm tắt (Summary Statistic) .............................................................................. 22

3.2.3. Vẽ biểu đồ thể hiện trung vị, tứ phân vị, giá trị cực tiểu, cực đại..................................... 24 Chƣơng 4. THỐNG KÊ SUY DIỄN .................................................................................................. 26

4.1. Khoảng tin cậy (CI95%) ......................................................................................................... 26

4.2. Ƣớc lƣợng khoảng tin cậy 95% cho một tỉ lệ ........................................................................ 26 4.3. Ƣớc lƣợng khoảng tin cậy 95% cho một số trung bình, trung vị ........................................... 27 4.4. Vẽ biểu đồ thể hiện giá trị trung bình, trung vị và 95%CI ..................................................... 27

Chƣơng 5 THỐNG KÊ SO SÁNH .................................................................................................... 29

5.1. Test thống kê so sánh các tỉ lệ ................................................................................................. 29

Test χ2...................................................................................................................................... 29

Test chính xác Fisher .............................................................................................................. 31

Test Mc Nemar........................................................................................................................ 31

5.2. Test khảo sát mức độ liên quan giữa các biến định tính ......................................................... 33

Tỉ suất chênh (OR) .................................................................................................................. 33

Nguy cơ tƣơng đối (RR) ......................................................................................................... 34

5.3. Test khảo sát độ phù hợp, độ chính xác .................................................................................. 35

Độ phù hợp Kappa .................................................................................................................. 35

Độc chính xác.......................................................................................................................... 37

5.4. Test so sánh các giá trị trung bình........................................................................................... 38

Test ANOVA một chiều ......................................................................................................... 38

Test T ...................................................................................................................................... 40

Test t đối với một mẫu ........................................................................................................ 40

Test t đối với 2 biến độc lập ................................................................................................ 41

75

Test t ghép cặp..................................................................................................................... 43

5.6. Test phi tham số so sánh hai hay nhiều số trung bình............................................................. 44

Sign rank sum test ................................................................................................................... 45

Test Mann Whitney................................................................................................................. 45

Test Wilcoxon ......................................................................................................................... 46

Test Kruskall - Wallis ............................................................................................................. 46

Chƣơng 6. TƢƠNG QUAN VÀ HỒI QUI ........................................................................................ 48

6.1. Hệ số tƣơng quan r (tƣơng quan Pearson)............................................................................... 48

6.2. Tƣơng quan hạng Spearman rs ................................................................................................ 49

6.3. Phân tích hồi qui...................................................................................................................... 50

Chƣơng 7. PHÂN TÍCH ĐA BIẾN ................................................................................................... 52

7.1. Hồi qui tuyến tính đa biến ....................................................................................................... 52

7.2. Hồi qui logistic ........................................................................................................................ 53

Chƣơng 8. ĐƢỜNG CONG ROC ..................................................................................................... 56

8.1. Xác định điểm cắt và tính độ nhạy, độ đặc hiệu ..................................................................... 56

8.2. So sánh độ nhạy, độ đặc hiệu của 2 test chẩn đoán................................................................. 58

Chƣơng 9. PHÂN TÍCH THỜI GIAN SỐNG ................................................................................... 59

9.1. Phân tích thời gian sống bằng phƣơng pháp Kaplan - Meier .................................................. 59

9.2. So sánh thời gian sống của các nhóm bệnh nhân bằng test Logrank ...................................... 60

9.3. Khảo sát tƣơng quan giữa thời gian sống và nhiều yếu tố ảnh hƣởng .................................... 62

Chƣơng 10. CÁC TEST THỐNG KÊ TRỰC TIẾP TỪ BẢNG TRÌNH BÀY............................... 64

10.1. Test for one mean .................................................................................................................. 64

10.2. Test for one proportion.......................................................................................................... 65

10.3. Test χ2 .................................................................................................................................... 66

10.4. Test Fisher ............................................................................................................................. 67

10.5. Test Mc Nemar ...................................................................................................................... 68

10.6. Test so sánh 2 giá trị trung bình ............................................................................................ 68

10.7. Test so sánh 2 tỉ lệ %............................................................................................................. 69

10.8. Ƣớc lƣợng khoảng tin cậy 95% của một tỉ lệ........................................................................ 70

10.9. Nguy cơ tƣơng đối (RR)........................................................................................................ 71

10.10. Tỉ suất chênh (OR) .............................................................................................................. 72

10.11. Chỉ số phù hợp Kappa ......................................................................................................... 72

10.12. Độ nhạy, độ đặc hiệu ........................................................................................................... 73