1
THỐNG KÊ CƠ BẢN VÀ PHÂN TÍCH SỐ LIỆU
PGS. TS. Hoàng Văn MinhHà nội- tháng 12 năm 2012
NỘI DUNG
1. Khái niệm thống kê cơ bản
2. Lựa chọn trắc nghiệm thống kê
3. Thực hành thống kê với Stata
2
Thống kê
“Phân môn toán học có nhiệm vụ thu thập,
phân tích, phiên giải và trình bày SỐ LIỆU”
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê suy luận
Thống kê mô tả
3
Số liệu là đối tượng chính của thống kê
Biến số# Hằng số
Biến số
Định lượng
Định tính
4
Số liệu ?
Tuổi,
Giới
Trị số huyết áp
Hàm lượng ure máu
Mức độ trầm trọng của bệnh
Các phương pháp điều trị
Tử vong/sống sót
THỐNG KÊ
Mô tả biến định lượng
Mô tả biến định tính
Suy luận biến định
lượng
Suy luận biến định
tính
5
Thống kê mô tả biến định lượng
Đo lường độ tập trung (Location)
Trung bình (mean)
Trung vị (median)
Mode
Đo lường độ phân tán (Spread )
Khoảng số liệu (range)
Khoảng tứ phân vị (25%-75%) (Interquartile )
Độ lệch chuẩn (Standard deviation)
Phương sai (Variance)
Bài tập: tm1_ureamau
sum urea
sum urea, d
histogram urea, normal
graph box urea
6
Thống kê mô tả biến định tính
Tần số
Tỷ lệ phần trăm
Bài tập: tm1_ureamau
tab urecao
graph pie, over(urecao) plabel(_all percent)
7
Bài tập: tm1_ureamau
tabstat urea, by( caotuoi) stat(n mean median sd min max) f(%9.2g)
tab urecao caotuoi, colgraph pie, over(urecao) by(caotuoi)
plabel(_all percent)graph bar (mean) urecao, over(caotuoi)
blabel(bar)
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê suy luận
Thống kê mô tả
8
Thống kê suy luận
Ước lượng khoảng
Kiểm định giả thuyết
Quần thể
Mẫu
Chọn mẫu
Mẫu
Chọn mẫu Thống kê suy luậnThống kê suy luận
Thống kê mô tả
Ước lượng khoảng-khoảng tin cậy
(confidence interval)
Thường chọn khoảng tin cậy 95% (95%CI)
Khi thực hiện đo đạc 100 lần thì it nhất 95 lầnkết quả nằm trong khoảng tin cậy
95% tin tưởng rằng giá trị thực của quần thểnằm trong khoảng tin cậy
95%CI= Trung bình± 1,96*sai số chuẩn
9
Sai số chuẩn (standard errors)
95%CI= Trung bình± 1,96*sai số chuẩn
10
Bài tập: tm1_ureamau
ci urea
by caotuoi, sort: ci urea
ci urecao
by caotuoi, sort: ci urecao
proportion urecao
Quần thể
Mẫu NC
Chọn mẫu Ngoại suy Trắc nghiệm thống kê
Kiểm định giả thuyếtsử dụng trắc nghiệm (test) thống kê để đưa ra kết luận vềgiả thuyết của nhà nghiên cứu là chấp nhận được hay không
11
Giả thuyết
Giả thuyết Ho: Không có sự khác biệt
Giả thuyết Ha: Có sự khác biệt
Giả thuyết
Giả thuyết Ho:
Giả thuyết Ha:
Tác dụng của tiêm nitrate tĩnh mạch có tác dụng
giảm tỷ lệ tử vong ở bệnh nhân nhồi máu cơ tim?
12
Sai lầm
Thực tế
Quyết định
H0 đúng H0 sai
Chấp nhận H0 Sai lầm II ()
Loại bỏ H0 Sai lầm I ()
Phiên giải kết quả
Tỷ lệ tử vong ở bệnh nhân nhồi máu cơ tim được
tiêm nitrate tĩnh mạch thấp hơn tỷ lệ tử vong ở
những bệnh nhân bị nhồi máu cơ tim mà không
được tiêm, sự khác biệt là có ý nghĩa thống kê
(p<0.05)
13
Phiên giải kết quả
Có sự khác biệt không?
(Nêu rõ sự khác biệt)
Có ý nghĩa thống kê không?
Căn cứ vào đâu?
Tỷ lệ tử vong ở bệnh nhân nhồi máu cơ tim được tiêm nitrate tĩnh mạch thấp hơn
Sự khác biệt là có ý nghĩa thống kê
( p< 0.05, trắc nghiệm khi bình phương)
Mức ý nghĩa thống kê
Loại bỏ sai lầm loại I
= 0.05
p = probability= Xác suất để giả thuyết Ho đúng
P<0.05 = Xác suất để giả thuyết Ho đúng là < 5%
= Ho xảy ra chỉ là may rủi
= Bác bỏ Ho
= Xác suất để giả thuyết Ha đúng là > 95%
= Ha xảy ra là chắc chắn
= Chấp nhận Ha
P>0.05 = ???
14
z (1-/2)
.01 (99) 2.576
.02 (98) 2.326
.05 (95) 1.960
.10 (90) 1.645
Mức ý nghĩa thống kê
Độ mạnh
Loại bỏ sai lầm loại II
1- = 80%
Thường dùng trong tính toán cỡ mẫu
1- z (1-)
.80 0.842
.85 1.036
.90 1.282
.95 1.645
15
Thống kê
Quần thể
Mẫu
Chọn mẫu Thống kê suy luận
Thống kê mô tả
Trắc nghiệm thống kê
Lựa chọn trắc nghiệm thống kê
Xác định sự khác biệt
Xác định liên quan
Biến định lượng
Biến định tính
1
2
3
4
MỤC TIÊU BIẾN SỐ
16
Xác định sự khác biệt của biến định lượng
Test tham số
(Phân bố chuẩn)
Tes phi tham số
(Phân bố chuẩn & không chuẩn)
Kiểm định phân bố số liệu
17
Kiểm định phân bố số liệu
• histogram urea, bin (40) normal
• sum urea, d
• sktest urea
• gladder urea
1. Xác định sự khác biệt
biến định lượng
1
nhóm
2
nhóm
t testANOVA
(ph.sai đnhất)
>2
nhóm
Mann-Whitney
test
Kruskal-Wallis test
t test(ph.sai đ
nhất)
Ph bố
Chuẩn
Chuẩn &
K chuẩn
Sign testWilcoxon
test
Ph bố
Chuẩn
Chuẩn &
K chuẩnPh bố
Chuẩn
Chuẩn &
K chuẩn
2 nhóm ghép cặp (repeated measure): ttest, signtest ghép cặp
18
Bài tập: tm1_ureamau
ttest urea=5
signtest urea=5
ttest urea,by(caotuoi)
oneway urea caotuoi
ranksum urea,by(caotuoi)
Bài tập: tm2_oxygen
ttest vaovien= sau6h
signtest vaovien= sau6h
19
Bài tập (tm3_alht.dta)
Kiểm định sự khác biệt về áp lực huyết tương
của các bệnh nhi nhập viện theo 3 nhóm tuổi?
oneway alht tuoi
kwallis alht, by( tuoi)
kwallis2 alht, by( tuoi)
Giá trị mong đợi <5Giá trị mong đợi >=5
Xác địnhsự khác
biệt biến định
tính
Fisher's exact test Khi bình phương
>1 NHÓM
1 NHÓM Ztest
20
Giá trị quan sát và mong đợi
Tốt Không tốt Tổng
Điều trị 1 4 5 9
Điều trị 2 3 3 6
Tổng 7 8 15
Giá trị mong đợi = (Tổng hàng * Tổng cột) / Tổng chung
Bài tập (tm4_benhcotim)
So sánh tỷ lệ bệnh cơ tim
ci benhcotim
prtest benhcotim=.35
tab benhcotim hutthuoc, expect
tab benhcotim hutthuoc, col chi2
tab benhcotim hutthuoc, col exact
21
Xác định mối liên quan
3. Biến định lượng:
Hệ số tương quan (r)
pearson
spearman
Hồi quy tuyến tính
4. Biến định tính
Tỷ suất chênh (OR), nguy cơ tương đối (RR)
Hồi quy logistic
Tương quan biến định lượng (r)
• Hệ số tương quan r
– Có giá trị từ -1 đến +1• Khi HSTQ > 0 tương quan đồng biến
• Khi HSTQ < 0 tương quan nghịch biến
• Càng gần 1 tương quan càng chặt
– Quy ước: • <0,3: tương quan yếu
• >=0,3-0,5: tương quan TB
• >=0,5-0,7: tương quan chặt chẽ
• >=0,7: tương quan rất chặt chẽ
22
Bài tập (tm5_songcon1)
twoway scatter tuoi thoigian
twoway (scatter tuoi thoigian) (lfit hatdtb tuoi)
corr tuoi thoigian
pwcorr tuoi thoigian, sig
spearman tuoi thoigian
Tương quan của 2 biến định tính
Khi muốn tìm cường độ mối liên quan giữa hai
biến định tính=> có thể sử dụng:
– Tỷ suất chênh: OR
– Nguy cơ tương đối: RR
Tốt Không tốt Tổng
Điều trị 1 4 5 9
Điều trị 2 3 3 6
Tổng 7 8 15
23
OR và RR
>1 Yếu tố nguy cơ
=1 Không liên quan
<1 Yếu tố bảo vệ
CI không chứa 1 Có ý nghĩa thống kê
Bài tập
Liên quan giữa phương pháp điều trị và nguy
cơ tử vong?
tabodds ketqua dieutri, or
recode dieutri 1=0 2=1
cc ketqua dieutri
cs ketqua dieutri
24
Hiệu quả điều trị
RR: Relative Risk= nguy cơ tương đối
Tỷ số giữa 2 tỷ lệ ở nhóm can thiệp và nhóm chứng
RRR: Relative Risk Reduction = Giảm nguy cơ tươngđốiMức giảm (%) biến cố ở nhóm can thiệp so với nhómchứng
ARR: Absolute Risk Reduction = Giảm nguy cơ tuyệtđốiSự khác biệt về con số tuyệt đối của tỉ lệ biến cố giữanhóm can thiệp va nhóm chứng
NNT: Number Needed to Treat = Số cá thể cần canthiệpSố cá thể cần can thiệp để tránh khỏi việc xảy ra 1 biến cốxấu
Nghiên cứu hiệu quả can thiệp
Can thiệp A Can thiệp B
Bệnh 30 50
Không bệnh 220 200
Tổng 250 250
Tỷ lệ bệnh can thiệp A: 30/250=12%
Tỷ lệ bệnh can thiệp B: 50/250=20%
Nguy cơ tương đối (RR): (30/250)/(50/250)=0.6
Giảm nguy cơ tương đối (RRR): |12%-20%| / 20%=40%
Giảm nguy cơ tuyệt đối (ARR): |12%-20%| =8%
Số cá thể cần can thiệp (NNT): 1/8%=12.5
25
Can thiệp A Can thiệp B
Bệnh 25 60
Không bệnh 175 140
Tổng 200 200
Bài tập
csi 25 60 175 140