nỘi dung - vai.org.vnvai.org.vn/docs/daotao/tke-spss/tke_spss.pdf · 30/11/2018 3 1. thống kê...
TRANSCRIPT
30/11/2018
1
PHÂN TÍCH DỮ LIỆU THỐNG KÊ
ỨNG DỤNG SPSS
1
NỘI DUNG
Giới thiệu chung về phân tích và dự đoán thống kê1
Mô tả dữ liệu thống kê 2
Ước lượng và kiểm định giả thuyết thống kê 3
Phân tích dãy số thời gian và dự đoán5
2
Phân tích hồi quy tương quan4
30/11/2018
2
I
MỘT SỐ KHÁI NIỆM CHUNG
II
GIỚI THIỆU PHẦN MỀM
SPSS
BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ
III
QUẢN LÝ DỮ LIỆU TRONG
SPSS
1. Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thốngphương pháp (thu thập, xử lý, phân tích) con số (mặtlượng) của các hiện tượng số lớn tìm bản chất và tínhquy luật (mặt chất) trong những điều kiện nhất định.
30/11/2018
3
1. Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích vàdiễn giải các dữ liệu dưới dạng số (Croxton và ctg)
Thống kêsuy luận
Thốngkê mô tả
Phương pháp thống kê
Các phương pháp thống kê
30/11/2018
4
1. Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn
vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.
2. Tiêu thức thống kê
Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu
30/11/2018
5
3. Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chấtcủa các hiện tượng trong điều kiện thời gian và địađiểm cụ thể.
THANG ĐO TỶ LỆ(Ratio Scale)
THANG ĐO KHOẢNG(Interval Scale)
THANG ĐO THỨ BẬC(Ordinal Scale)
THANG ĐO ĐỊNH DANH(Nominal Scale)
Có gốc 0
Có khoảng cáchbằng nhau
Biểu hiệu có thứ tự hơn kém
CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện cùng loại của tiêu thức
Tiêu thứcthuộc tính
Tiêu thứcSố lượng
30/11/2018
6
II. Giới thiệu chung về SPSS
SPSS (Statistical Package for Social Sciences)Là phần mềm chuyên dụng xử lý thông tin sơcấp (thông tin được thu thập trực tiếp từ đốitượng nghiên cứu thông qua bảng hỏi đượcthiết kế sẵn)
11
Các màn hình SPSS
- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp
12
30/11/2018
7
Màn hình quản lý dữ liệu (data view)
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu baogồm cột, hàng 13
Màn hình quản lý biến (variables view)
Dùng để quản lý các biến và các thông tin liên quan đến biến, cơsở dữ liệu được lưu trữ dưới dạng *.SAV 14
30/11/2018
8
Màn hình hiện thị kết quả (output)
Các kết quả có thể copy hoặc copy object hoặc export sang cácphần mềm khác như word hay Excel,... Màn hình này cho phép taxem và lưu giữ các kết quả phân tích (*.SPO)
15
Màn hình cú pháp (syntax)
Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnhphân tích (các câu lệnh). Các cú pháp được lưu trữ với phầnmở rộng (*.SPS) 16
30/11/2018
9
File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
Các menu chính
17
III. Quản lý dữ liệu trong SPSS
1. Tạo lập Cơ sở dữ liệu
2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát
18
30/11/2018
10
1. Tạo lập cơ sở dữ liệu trong SPSS
Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là một tập hợp thông tin có cấu trúc.
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính củaquan sát
19
Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)Biến nhiều trả lời (câu hỏi tuỳ chọn)
20
30/11/2018
11
Biến một trả lời
Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số những nhóm tuổi sau:
Nhóm tuổi codeDưới 18 118 đến 30 231 đến 40 341 đến 50 4Trên 50 5
Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng21
Biến nhiều trả lờiCâu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệunào trong danh sách liệt kê dưới đây:
Nhãn hiệu codeVinataba 1Marlboro 2KENT 3JET 4
Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22
30/11/2018
12
Phân loại biến theo kiểu dữ liệu
Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)
23
Các loại/dạng dữ liệu trong SPSS
Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”
24
30/11/2018
13
Variable Name (tên biến)Các qui tắc dưới đây được áp dụng cho tên biến:• Tên phải bắt đầu bằng một chữ.• Độ dài của tên biến không vượt quá 8 ký tự.• Tên biến không được kết thúc bằng một dấu chấm.• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) khôngđược sử dụng• Tên biến phải duy nhất (không được phép trùng lặp), phân biệtchữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xemlà giống nhau.• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (đểtránh xung đột với các biến được tự động lập bởi một số thủ tục)
Khai báo biến trong SPSS
25
Variable Type (kiểu biến)
Khai báo biến trong SPSS
26
30/11/2018
14
Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từngbiến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”
Khai báo biến trong SPSS
27
Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệuVí dụ: 1 là nam
2 là nữ
Khai báo biến trong SPSS
28
30/11/2018
15
Missing (giá trị khuyết) – dùng để loại những giá trị không có ý nghĩa
Khai báo biến trong SPSS
Các giá trị khuyết sẽ không tham gia vào quá trình phân tích29
Measure (thang đo)SPSS phân ra 3 loại thang đo- Nominal (thang đo định danh)- Ordinal (thang đo thứ bậc)- Scale (thang đo khoảng và thang đo tỷ lệ)
Khai báo biến trong SPSS
30
30/11/2018
16
Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)
Khai báo biến trong SPSS
31
32
Ví dụ thực hànhTạo cơ cở dữ liệu
30/11/2018
17
33
Nhập dữ liệu
Thường nhập dữ liệu theo từng đối tượng (từng bảnghi) hoặc cũng có thể theo từng biến
34
30/11/2018
18
TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…
• Trong mục File of type chọn định dạng file phù hợp hoặcchọn All Files (*.*)
35
36
Mở một tệp tin {file} Excel
-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data... - Trong hộp thoại Open File, chọn file mà bạn muốn mở- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loạifile (Files of type) và sau đó chọn tên file (File name)- Nhắp Open
30/11/2018
19
2. Tạo biến trong cơ sở dữ liệuTransform > Compute Variable…
Tạo ra một biến mới theo biểuthức mô tả (Numeric expression)Biểu thức có thể là một phép tính, một hàm,…
Nếu tính theo một điều kiện nào đó thì nhấn vào if (đặt điều kiện vào tính toán cho biểu thức)
37
2. Tạo biến trong cơ sở dữ liệu
Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa
Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc
38
30/11/2018
20
2. Tạo biến trong cơ sở dữ liệu
Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa
Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc
39
2. Tạo biến trong cơ sở dữ liệuMỘT SỐ HÀM THÔNG DỤNG:
ABS(numexpr) – Trả về giá trị tuyệt đối
EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn
40
30/11/2018
21
2. Tạo biến trong cơ sở dữ liệuLOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41
3. Mã hoá lại dữ liệu- Mã hoá lại dữ liệu thành một biến khác
• Chọn các biến muốn mã hoá, Nếuchọn nhiều biến, chúng phải có cùngdạng (chuỗi hoặc số)• Click vào Old and New Values vàđịnh rõ cách mã hoá lại trị số.• Sau đó nhấn Change
Transform > Recode into Different Variables…
Nhấn If để xác định một nhóm các đốitượng cũng giống như đã được mô tảtrong mục tính toán biến {Compute Variable}
42
30/11/2018
22
3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)Thực hiện tương tự như trường hợp trên nhưng biến mới được tạora thay cho biến cũ
43
3. Mã hoá dữ liệu tự động
• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang dạng số vào trong một biến mới. Biến mới này sẽ chứa các con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.Transform > Automatic Recode
44
30/11/2018
23
4. Lựa chọn các quan sátMặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn thực hiện trên một số quan sát sẽ tiến hành như sau:Data > Select cases
- Các quan sát không lựa chọnđược giữ và có dấu gạch chéochọn Filtered -> máy sẽ tạo ramột biến Filter_$ (lần sau nếuchọn tương tự thì sử dụng biếnnày để đưa vào ô Use filter variable)- Các quan sát được chọn sẽđược lưu sang cơ sở dữ liệu mớichọn Copy selected cases to a new dataset và đặt tên trong ô Dataset name- Các quan sát không lựa chọnbị xoá, chọn Deleted unselected cases
45
5. Tách dữ liệuTheo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theotừng nhóm nào đó sử dụng công cụ tách dữ liệuData > Split File
Đưa biến phân loại đưa sang ô Groups Based on:Chọn Compare groups nếu muốnso sánh giữa các nhómChọn Organize output by groups nếu muốn tách theo từng nhómriêng biệt
46
30/11/2018
24
Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:Data/ Aggregate Data
- Chuyển biến được chọn làm cơ sở để tập hợpdữ liệu sang cửa sổ Break Variable(s)- Chuyển biến muốn tập hợp sang cửa sổSummaries of Variables- Chọn Funtion để xác định các hàm tập hợp- Vào Name & Label để đặt tên và nhãn chobiến mới
47
6. Gộp dữ liệu
Tạo file dữ liệumới cho kết quả
tập hợp
Để biến mới tập hợptrong file dữ liệu hiện tại
7. Lựa chọn quyền số cho các quan sátMặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện cho một số lượng các quan sát, sử dụng quyền số.Data > Weight cases
Chọn Weight case by và đưa biến làm quyền số vào ô Frequency variable
48
30/11/2018
25
I
MÔ TẢ DỮ LIỆU QUA CÁC THAM SỐ THỐNG KÊ
II
MÔ TẢ DỮ LIỆU QUA BẢNG THỐNG KÊ
III
MÔ TẢ DỮ LIỆU QUA ĐỒ THỊ THỐNG KÊ
BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ
1. Các mức độ trung tâm
- Số bình quân (trung bình)- Mốt (Mo)- Số trung vị (Me)
50
30/11/2018
26
2. Các phân vị
- Phân vị thứ p là giá trị mà có p% số quan sát có giá trịnhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giátrị phân vị mức p.- Tứ phân vị- Thập phân vị
51
3. Các tham số đo độ phân tán
- Khoảng biến thiên: R = Xmax - Xmin
- Phương sai:
- Độ lệch tiêu chuẩn:
- Sai số chuẩn trung bình:
11
2
1
2
1
2
2
n
xnx
n
)xx(S
n
ii
n
ii
2SS
nS
x
52
30/11/2018
27
4. Các tham số phản ánh phân phối
- Hệ số bất đối xứng:)2)(1(
1
3
nnS
xxnSkewness
n
i
i
Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại càng đối xứng qua giá trị μ. Khi hệ số này nhỏ hơn 0, dãy số phân phối chuẩn lệch trái. Khi hệ số này lớn hơn 0, dãy số phân phối chuẩn lệch phải.
53
4. Các tham số phản ánh phân phối
- Hệ số độ nhọn:
Đối với phân phối chuẩn thì giá trị của hệ số Kurtosis bằng 3.
)n)(n)(n(S
xx)n(nKurtosis
n
i
i
321
11
4
)n)(n()n(
)n)(n)(n(S
xx)n(n
K
n
i
i
3213
321
1 21
4
Khi giá trị này bằng 0 thì đó là phân phối chuẩn, nếu giá trị mang dấu dương thì phân phối nhọn hơn so với phân phối chuẩn và ngược 54
30/11/2018
28
Sơ đồ hộp (box plot)
Me Q3Q1 XmaxXmin
• Là sơ đồ biểu diễn cùng lúc các đặc trưng trungtâm và độ biến thiên (phân tán)
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).
56
Me Q3Q1 XmaxXmin
• Nhận biết độ lệch phân phối của dữ liệu
30/11/2018
29
Hình dáng của phân phốivà box plot
57
Lệch phảiLệch trái Đối xứngQ1 Me Q3Q1 Me Q3 Q1 Me Q3
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).
• Nhận biết độ lệch phân phối của dữ liệu• Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất
58
30/11/2018
30
Nhận biết lượng biến đột xuất
Bài 2 59
IQR1.5 IQR1.5 IQR
Giới hạn trong
Giới hạn ngoài
Q1 Me Q3
Nghi ngờ là lượng biến
đột xuất
Nghi ngờ là lượng biến
đột xuất
Lượng biến đột xuất
Lượng biến đột xuất
Outer fence
Inner fence
hinger
1.5 IQR1.5 IQR
Nhận biết lượng biến đột xuất
30/11/2018
31
Nhận biết lượng biến đột xuất
Thực hiện bằng SPSSTrường hợp 1:Chọn Analyze > Descriptive Statistics > Frequencies…
Đưa các biến cần tính toán cáctham số sang Variable(s)Nhấn Statistic…
62
30/11/2018
32
Thực hiện bằng SPSS
Chọn Analyze > Descriptive Statistics > Frequencies…
Chọn các thống kê cần tính toán63
Thực hiện bằng SPSS
Trường hợp 2:Chọn Analyze > Descriptive Statistics > Explore …
Đưa các biến cần tính toán cáctham số sang Dependent ListMuốn phân tích theo biến nàođó thì đưa sang biến sangFactor ListTrong mục Display chọnStatistics hoặc Both
64
30/11/2018
33
Thực hiện bằng SPSSTrường hợp 3:Chọn Analyze > Descriptive Statistics > Descriptives…
Đưa các biến sang Variable(s) và nhấn Options…65
Thực hiện bằng SPSS
Chọn Analyze > Descriptive Statistics > Descriptives…
Chọn các thống kê cần tính toán66
30/11/2018
34
II. Mô tả dữ liệu qua bảng thống kê
Bảng thống kê là một hình thức trình bày các tài liệu thống
kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các
đặc trưng về mặt lượng của hiện tượng nghiên cứu
Cấu trúc bảng thống kê
TIÊU ĐỀ BẢNG
Tiêu đềdòng
Tiêu đề cột
Dữ liệu
Ghi chú (nếu có)Nguồn thông tin:
30/11/2018
35
Nguyên tắc khi trình bày bảng thống kê
- Quy mô bảng vừa phải
- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn
- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc
phải phía trên bảng
- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý
- Không được để trống ô nào trong bảng, nếu không có
dữ liệu thì ghi bằng các ký hiệu
Nguyên tắc ghi ký hiệu
- Nếu hiện tượng không có số liệu, ghi ( - )
- Nếu số liệu còn thiếu, có thể bổ sung ( … )
- Nếu hiện tượng không liên quan ( x )
30/11/2018
36
Lập bảng thống kêLập bảng tần số cho 1 biến thuộc tínhAnalyze Descriptive Statistics Frequencies…
Đưa các biến cầnlập bảng sang ôVariable(s)
Hiện thị bảng tần số
Lập bảng thống kê
Lập bảng tần số cho 1 biến thuộc tính
Analyze > Tables > Custom Tables...
Đưa 1 biến chủ đề vào
Rows hoặc Columns
Chọn các thống kê theo Cột
(Columns) hoặc dòng
(Rows), Ẩn nhãn (tên) các
thống kê (Hide),
30/11/2018
37
Chọn N Summary Statistic…
Chọn các thống kê cần hiện thị chuyển sang mục Display
Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)
Nhấn Apply to Selection
Chọn Catagories and Total…
Sắp xếp các biểu hiện chọn Sort categories by (value, count,….) và theo thứ tự tang
(Ascending) hoặc giảm (Descending)
Nhấn Apply
Không muốn hiện thị biểu hiện nào đó ->
chuyển biểu hiện đó sang Exclude
Chọn Total và đặt lại nhãn (Label) nếu
muốn hiện thị dòng tổng số
Hiện thị giá trị khuyết thiếu tích vào
Missing Value
Hiện thị biểu hiện không có quan sát tích
Empty categories
Dòng tổng số để trên (Above) dưới (Below)
30/11/2018
38
Đặt tiêu đề bảng,… (Titles)
Ghi tên bảng vào ô Titles:
Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption
Điền tiêu đề (giữa cột và dòng) vào ô Corner
Lập bảng thống kê
Bảng kết hợp nhiều biến (định tính –
định tính; định tính – định lượng)
Analyze > Tables > Custom Tables...
Đưa các biến (định tính hoặc định lượng)
vào Rows và Columns
30/11/2018
39
Lập bảng thống kê
Đưa các biến của câu trả lời sang ô
Variables in Set
Chọn Dichotomies nếu biến có 2 biểu
hiện hoặc Categories nếu biến có
nhiều biểu hiện
Nhập giá trị cần đếm vào Counted
Value
Đặt tên biến Name và nhãn biến
Label
Nhấn Add -> OK
Lập bảng cho biến tuỳ chọn (Multiple Answer)Analyze > Tables > Multiple Response Sets
III. Mô tả dữ liệu qua đồ thị thống kê
Là các hình vẽ hoặc đường nét hình học dùng để
miêu tả có tính chất quy ước các tài liệu thống kê
30/11/2018
40
Các loại đồ thị
- Đồ thị phát triển
- Đồ thị kết cấu
- Đồ thị so sánh
- Đồ thị liên hệ
- Đồ thị “tháp dân số”
Đồ thị thống kê
Simple đồ thị thanh cho 1 biến
Clustered đồ thị thanh kết hợp 2 biến (theo
nhóm với nhiều cột cạnh nhau)
Stacked Đồ thị thanh kết hợp 2 biến (biến
được biệu hiện trên 1 cột)
Summaries for groups cases Mỗi thanh
của đồ thị thể hiện số lượng các quan sát có
cùng 1 giá trị của biến
Summaries for separate variables Mỗi
thanh của đồ thị thể hiện giá trị thống kê
của biến
Value of individual cases Mỗi thanh của
đồ thị thể hiện giá trị 1 quan sát của biến
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...
30/11/2018
41
Đồ thị thống kê
Bars Represent tham số thống kê thể
hiện trên đồ thị
Category Axis Trục hoành
Define Clusters by biến phân loại
Có thể vẽ theo dòng hay cột (theo biến
phân loại thứ 2) đưa biến vào Panel
by Rows (Columns)
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...
I
NHỮNG VẤN ĐỀ CƠ BẢN VỀ PHÂN PHỐI
II
ƯỚC LƯỢNG ĐIỀU TRA
III
KIỂM ĐỊNH GIẢ THUYẾT THỐNG
KÊ
BÀI 3
ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
30/11/2018
42
I. NHỮNG VẤN ĐỀ CƠ BẢN VỀ PHÂN PHỐI
Biến ngẫu nhiên• Biến ngẫu nhiên là biến nhận một trong các giá trị có
thể có của nó tuỳ thuộc vào sự tác động của các nhântố ngẫu nhiên trong một phép thử.
• Biến ngẫu nhiên là biến mà các giá trị không được xácđịnh trước qua mỗi lần thực nghiệm (phép thử).
30/11/2018
43
85
Quy luật phân phối xác suất
• Quy luật phân phối xác suất của biến ngẫu nhiên là sự
tương ứng giữa giá trị có thể có của nó và xác suất
tương ứng với giá trị đó.
0
II. Ước lượng kết quả điều tra• Với mức ý nghĩa α• Ước lượng trung bình
xn
xn txtx .. 11
2/2/
xntx .1
xntx .1
Hai phíaVế phảiVế trái
30/11/2018
44
III. Kiểm định giả thuyết thống kê
Những vấn đề chung về kiểm định giả thuyết thống kê 1
Kiểm định trung bình2
Kiểm định Khi bình phương3
1. Những vấn đề chung về kiểm định
Là giả thuyết về một vấn đề nào đó của tổng
thể chung (về các tham số như trung bình, tỷ
lệ, phương sai, dạng phân phối,…)
30/11/2018
45
Giả thuyết thống kê
Giả thuyết mà ta muốn kiểm định (H0)
Giả thuyết đối lập (Ha, H1, H)
Giả thuyết thống kê
Ví dụ
H0: = 0
H1: 0
0
Bác bỏ H0 Bác bỏ H0
30/11/2018
46
Sai lầm và mức ý nghĩa trong kiểm định
- Sai lầm loại I là bác bỏ H0 khi H0 đúng
- Sai lầm loại II là chấp nhận H0 khi H0 sai
Sai lầm và mức ý nghĩa trong kiểm định
Kết luậnThực tế Chấp nhận H0 Bác bỏ H0
H0 đúng Kết luận đúng Sai lầm loại I
H0 sai Sai lầm loại II Kết luận đúng
30/11/2018
47
Sai lầm và mức ý nghĩa trong kiểm định
Mức ý nghĩa của kiểm định () là xác suất mắc sai
lầm loại I
= P(Bác bỏ H0/H0 đúng)
Tiêu chuẩn kiểm định
Tiêu chuẩn kiểm định là quy luật phân phối xác
suất nào đó dùng để kiểm định.
Trong tập hợp các kiểm định thống kê có cùng
mức ý nghĩa , kiểm định nào có xác suất mắc sai
lầm loại 2 nhỏ nhất được xem là “tốt nhất”.
30/11/2018
48
Các bước tiến hành kiểm định
- Xây dựng giả thuyết H0 và giả thuyết đối H1
- Xác định mức ý nghĩa
- Chọn tiêu chuẩn kiểm định
- Tính giá trị của tiêu chuẩn kiểm định từ mẫu
quan sát
- Kết luận
Phương pháp tiếp cận P-value trong kiểm định giả thuyết
• Rất nhiều phần mềm thống kê tính P-value (sig) khi thực hiện kiểm định giảthuyết.
• P-value là xác suất lớn nhất để cóthể bác bỏ giả thuyết H0. P-value thường được xem như là mức ý nghĩa quan sát.
• Các nguyên tắc ra quyết định để bácbỏ giả thuyết H0 với P-value là:
• Nếu p-value lớn hơn hoặc bằng α, chưa đủ cơ sở để bác bỏ giả thuyếtH0.
• Nếu p-value nhỏ hơn α, bác bỏ giảthuyết H0.
30/11/2018
49
2. Kiểm định trung bình
Kiểm định giả thiết về giá trị trung bình của một tổng thểa
Kiểm định hai giá trị trung bình của hai tổng thểb
Kiểm định trung bình thuộc nhiều tổng thể (ANOVA)c
97
Kiểm định giả thiết về giá trị trung bình của một tổng thể
H0: = 0
H1: ≠ 0
Tiêu chuẩn kiểm định
)1(0 ~
/)(
ntnS
xT
98
30/11/2018
50
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Analyze > Compare Means > One-Sample T Test…
Đưa các biến cần kiểm định giá trị trung bình vào Test Variable(s)
Nhập giá trị cần kiểm định trung bình vào Test Value
Nhấn Options...
99
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Analyze > Compare Means > One-Sample T Test…
Nhập độ tin cậy của kiểm định vào Confidence Interval
Chỉ kiểm định đối với các quan sát có ý nghĩa của biến chọn Exclude cases analysis by analysis
Chỉ kiểm định đối với các quan sát có đầy đủ trong các biến chọn Exclude cases listwise (n nhưnhau)
100
30/11/2018
51
Kiểm định hai giá trị trung bình của hai tổng thể
H0: 1 = 2
H1: 1 ≠ 2
- Hai mẫu độc lập
- Hai mẫu phụ thuộc
101
Hai mẫu độc lập
- Phương sai bằng nhau
- Phương sai không bằng nhau
102
30/11/2018
52
Kiểm định phương sai
H0: 12 = 2
2
H1: 12 ≠ 2
2
Tiêu chuẩn kiểm định )1,1,(~ 2122
21 nn
SSF
Kiểm định phương saiKiểm định phương sai của k tổng thể(dùng tiêu chuẩn kiểm định Levene)
),1,(~)/()(
)1/()(
1 1
2
1
2
knkfknzz
kzznF
k
i
n
jiij
k
iii
i
iijij xxz
in
jij
ii z
nz
1
1
k
i
n
jij
i
zn
z1 1
1
xij – là giá trị của đơn vị thứ j nhóm thứ i (i=1,k) (j=1,ni)
30/11/2018
53
Hai mẫu độc lậpTrường hợp phương sai bằng nhau:
Tiêu chuẩn kiểm định
)2(
2
2
1
221
21~)(
nnt
nS
nS
xxT
)1()1()1()1(
21
222
2112
nn
SnSnSTrong đó105
Hai mẫu độc lậpTrường hợp phương sai không bằng nhau:Tiêu chuẩn kiểm định
vt
nn
xxT ,
2
22
1
21
21 ~SS
2
2
22
2
2
1
21
1
2
2
22
1
21
11
11
nS
nnS
n
nS
nS
vTrong đó
106
30/11/2018
54
Hai mẫu độc lậpAnalyze > Compare Means > Independent-Samples T Test…
Đưa các biến cần kiểm định giá trị trung bình vào Test Variable(s)
Đưa biến phân loại vào Grouping Variable
Nhấn Define Groups... Để định nghĩa nhóm
107
Hai mẫu độc lậpAnalyze > Compare Means > Independent-Samples T Test…
Nếu sử dụng biến phân loại lựa chọn Use specified values và nhập giá trị tương ứng
Nếu chọn giá trị của biến lớn hơn hoặc bằng một giá trị nào đó thì chọn Cut point rồi nhập giá trị phân chia
108
30/11/2018
55
Hai mẫu phụ thuộc
H0: d = 0 hay 1 - 2 = 0
H1: d ≠ 0
Trong đó: di = x1i - x2i
Tiêu chuẩn kiểm định
)1(~/
)0(
n
d
tnS
dT
109
Hai mẫu phụ thuộcAnalyze > Compare Means > Paired-Samples T Test…
Đưa các cặp biến cần kiểm định giá trị trung bình vào Paired Variable(s)
110
30/11/2018
56
Kiểm định nhiều trung bình của tổng thểPhân tích phương sai - ANOVA
Một số giả thiết:
+ Các tổng thể phải độc lập và được chọn ngẫu nhiên
+ Các tổng thể phải có phân phối chuẩn
+ Phương sai các tổng thể phải đồng nhất
Phân tích phương sai 1 nhân tố(one-way ANOVA)
Nhân tố
1 2 ... i ... k
x11 x21 ... x11 ... xk1
x12 x22 ... xi2 ... xk2
... ... ... ... ... ...
x1j x2j ... xij ... xkj
... ... ... ... ... ...
... ...11nx
22nx2inx 2knx
112
30/11/2018
57
Phân tích phương sai 1 nhân tố(one-way ANOVA)
H0 : 1 = 2 = …. = k
H1: Tồn tại ít nhất 1 cặp khác nhau
- Tiêu chuẩn kiểm định ),1(~ knkfMSEMSFF
1
kSSFMSF
knSSEMSE
113
Phân tích phương sai 1 nhân tố (one-way ANOVA)
k
j
n
iij
j
xxSST1 1
2
j
k
jj nxxSSF .
1
2
k
j
n
ijij
j
xxSSE1 1
2
SSESSFSST
Total Sum of Squares)
(Sum of Squares for Factor)
(Sum of Squares for Error)
114
30/11/2018
58
Phân tích phương sai 1 nhân tố (one-way ANOVA)
ANOVA
Sum of Squares df Mean Square F Sig.
Between Groups SSF k-1 MSF *** P-value
Within Groups SSE n-k MSE
Total SST n-1
115
Phân tích phương sai 1 nhân tố (one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Đưa các biến cần phân tích vào Dependent List
Đưa biến nhân tố vào Factor
Nếu bác bỏ H0 thì nhấn vào Post Hoc... Để phân tích sâu nhằm xác định trung bình của nhóm nào khác nhóm nào.
Nhấn Options...
116
30/11/2018
59
Phân tích phương sai 1 nhân tố (one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Lựa chọn Descriptive để tính toán các thống kê mô tả
Chọn Homogeneity of variance test để kiểm định phương sai giữa các nhóm
Chọn tiêu chuẩn kiểm định Brown-Forsythe nếu phương sai khôngđồng nhất
117
Phân tích phương sai 1 nhân tố (one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Lựa chọn các kiểm định tương ứng
Nếu phương sai bằng nhau:
Thường chọn tiêu chuẩn: Tukey
hay Bonferroni
Nếu phương sai không bằngnhau:
Thường chọn tiêu chuẩn: Games-Howell
118
30/11/2018
60
3. Kiểm định Khi bình phương (2) và phân phối
Kiểm định Khi bình phương Kiểm định về dạng phân phối
119
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Có ý kiến cho rằng tỷ lệ nghèo ở 3 địa phương (A, B
và C) là khác nhau? Từ mỗi địa phương chọn ngẫu
nhiên 1 số hộ gia đình và có kết quả như sau:
30/11/2018
61
Kiểm định sự độc lập, phụ thuộc 2 mẫu
ĐPLoại hộ A B C
Hộ nghèo 20 50 25
Hộ không nghèo 180 350 95
-Hãy đưa ra kết luận với mức ý nghĩa 5%
-Bảng trên được gọi là bảng ngẫu nhiên 2 dòng
(i=1,2) và 3 cột (j=1,3)
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Gọi tỷ lệ hộ nghèo của địa phương A, B và C lần
lượt là p1, p2 và p3
Cặp giả thuyết cần kiểm định là
H0: p1 = p2 = p3
H1: pi pj (i j)
30/11/2018
62
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Gọi nij là tần số thực nghiệm (số quan sát ở dòng
thứ i và cột thứ j)
Tính tần số lý thuyết ( )ijn
nnij
jcét tængi dßng tæng
i j
ijnn Tổng số đơn vị điều tra
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Tiêu chuẩn kiểm định
2,
22 ~ df
i j ij
ijij
nnn
1)cét 1).(sèdßng (sè df
30/11/2018
63
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Miền bác bỏ W:2
,2
dfqs
Ví dụ
ĐP Loại hộ A B C Tổng
Hộ nghèo
20 50 25 9526,39 52,78 15,831,547 0,146 5,307
Hộ khôngnghèo
180 350 95 625173,61 347,22 104,170,235 0,022 0,807
Tổng 200 400 120 720
30/11/2018
64
Ví dụ
064,8
22
i j ij
ijijqs n
nn
991,522;05,0
2, df
22;05,0
2 qs
Bác bỏ giả thuyết H0 (->Tỷ lệ hộ nghèo ở các địaphương là khác nhau)
Kiểm định sự phụ thuộc của 2 mẫuAnalyze > Descriptive Statistics > Crosstabs…
Đưa 1 biến sang Row(s) và 1 biến sang Column(s)
Nhấn Statistics...
128
30/11/2018
65
Kiểm định sự phụ thuộc của 2 mẫuAnalyze > Descriptive Statistics > Crosstabs…
Lựa chọn các kiểm định tương ứng
129
Kiểm định sự phụ thuộc của 2 mẫuAnalyze > Descriptive Statistics > Crosstabs…
130
30/11/2018
66
Kiểm định Khi bình phương 1 mẫu
Ví dụ: - Nghiên cứu tỷ lệ nhân viên ở các khu vực như nhau?
- Tỷ lệ nhân viên nam gấp 2 lần tỷ lệ nữ?
- Trình độ đào tạo trung cấp gấp 3 lần đại học và gấp 5 lần sau ĐH
131
H0: Tỷ lệ thực tế bằng với tỷ lệ lý thuyết (kỳ vọng)
H1: Tỷ lệ thực tế khác với tỷ lệ lý thuyết (kỳ vọng)
Kiểm định Khi bình phương 1 mẫu
Đưa biến cần kiểm định sang Test Variable List
Sử dụng toàn bộ các quan sát chọn Get from data
Sử dụng trong một khoảng nào đó chọn Use specified range và nhập giá trị nhỏ nhất (Lower) và lớn nhất (Upper)
Tất cả các lựa chọn có tần số lý thuyết bằng nhau chọn All catagories equal
Tần số lý thuyết khác nhau chọn Values
Analyze > Nonparametric > Legacy Dialogs >Chi-Square…
132
30/11/2018
67
Kiểm định về dạng phân phối(Kiểm định Kolmogorov – Smirnov một mẫu)Analyze\Nonparametric Tests\Legacy Dialogs\1-Sample K-S…
Chọn các biến cần kiểm định sang Test Variable List
Chọn các phân phối cần kiểm định:
- Phân phối chuẩn Normal
- Phân phối đều Uniform
- Phân phối luỹ thừa Exponetial
- Phân phối Poisson
133
I
PHÂN TÍCH TƯƠNG QUAN
II
PHÂN TÍCH HỒI QUY
BÀI 4
PHÂN TÍCH HỒI QUY TƯƠNG QUAN
30/11/2018
68
Phân tích tương quan nhằm đo mức độ phụ thuộc
tuyến tính giữa hai biến ngẫu nhiên
Hệ số tương quan đơn (Pearson)
I. Phân tích tương quan
135
yxyx
yxxyyxr
.),cov(
Hệ số tương quan hạng (Spearman)
I. Phân tích tương quan
136
)1(61 2
2
nn
dr is
30/11/2018
69
I. Phân tích tương quan
-1 0 +1
Liên hệ hàm số
Không có mối liên hệ
Mối liên hệ thuận càng chặt chẽ
Liên hệ hàm số
Mối liên hệ nghịch càng chặt chẽ
137
Kiểm định hệ số tương quanH0: = 0H1: ≠ 0Tiêu chuẩn kiểm định
H0: s = 0H1: s ≠ 0Tiêu chuẩn kiểm định
I. Phân tích tương quan
138
21 2
nr
rt
11/1
0
nrn
rz ss
30/11/2018
70
I. Phân tích tương quanAnalyze > Correlate > Bivariate…
Đưa các biến cần phân tích tươngquan sang Variables
Lựa chọn các hệ số tương quan
Hệ số tương quan - Pearson
Hệ số tương quan hạng-Spearman
139
II. PHÂN TÍCH HỒI QUY
Hồi quy giữa hai tiêu thức số lượng1
Hồi quy tuyến tính giữa nhiều tiêu thức số lượng2
Hồi quy với biến giả3
140
Hồi quy Logistic4
30/11/2018
71
* PHÂN TÍCH HỒI QUY ĐƠN
Đánh giá mô hình hồi quy (kiểm định các hệ số)2
Xây dựng phương trình hồi quy1
Dự đoán dựa vào mô hình hồi quy3
1. Phương trình hồi quy
Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ cácchênh lệch ngẫu nhiên nêu ra mối liên hệ cơ bản của hiện tượng.
Đường hồi quy lý thuyết
x
y
0
Phương trình hồi quy: là phương trình xác định vị trí củađường hồi quy lý thuyết
30/11/2018
72
Phương trình hồi quy tổng thể
ii xxyE 10)/(
Tham số tự do (hệ số chặn)
Biến độc lậpNguyên nhân
Hệ số hồi quy (hệ số góc)
Biến phụ thuộcKết quả
Ý nghĩa các tham số
• β0: phản ánh ảnh hưởng của các nguyên nhân khác(ngoài nguyên nhân x) tới kết quả y
• β1: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tớikết quả y. Cụ thể, khi x tăng thêm 1 đơn vị thì giá trị trungbình của y thay đổi là β1 đơn vị
- β1 > 0: x và y có mối liên hệ thuận (cùng chiều)- β1 < 0: x và y có mối liên hệ nghịch (ngược chiều)
30/11/2018
73
Phương trình hồi quy mẫu
ii xbby 10ˆ Ước lượng của tham số β0 Ước lượng của tham số β1
Với một mẫu ngẫu nhiên kích thước n, chúng ta có phương trình hồi quy mẫu như sau:
Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)
x
y
0
146min)ˆ( 2 ii yyS
30/11/2018
74
Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)
147
0))(.(2
0)1)(.(2
101
100
iii
ii
xxbbybS
xbbybS
210
10
....
iiii
ii
xbxbxyxbbny
min)( 210 ii xbbyS
Các giả thiết cơ bản của OLS
• Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
• Kỳ vọng toán của sai số bằng không
• Sai số tuân theo quy luật phân bố chuẩn
• Phương sai của sai số không đổi
• Không có tương quan giữa các phần dư (tự tương quan)
• Không có mối tương quan giữa các biến độc lập (đa cộngtuyến) – đối với hồi quy bội
148
30/11/2018
75
Thực hiện bằng SPSSAnalyze > Regression > Linear…
Đưa biến phụ thuộc sang Dependent
Đưa một biến độc lập sang Independent(s)
149
2. Kiểm định hệ số hồi quy
Giả thuyết: H0: 1 = 0
Tiêu chuẩn kiểm định: )2(~)( 1
1 ntbSe
bT
21)(
)(xx
bSei
2)ˆ(
2
22
nyy
ne iii
150
30/11/2018
76
Ước lượng hệ số hồi quy
• Hai phía:
• Phái phải:
)()( 22
22 j
njjj
nj bsetbbsetb
)(2j
njj bsetb
• Phái trái: jj
nj bsetb )(2
Đánh giá độ phù hợp của mô hình
x
y
0
n
ii yySST
1
2
n
iii yySSE
1
2ˆ
n
i yySSR1
2ˆ
30/11/2018
77
Đánh giá độ phù hợp của mô hình
SSRSSESSTyyyyyy iiii
222 )ˆ()ˆ()(
2
22
)()ˆ(1
1
yyyyR
SSTSSE
SSTSSR
i
ii
153
R2 phản ánh phần trăm thay đổi của biến phụ thuộcđược giải thích bởi biến độc lập (mức độ phù hợpcủa mô hình)
Kiểm định ý nghĩa mô hình
Giả thuyết: H0: Mô hình không có ý nghĩa (β1=0)
Tiêu chuẩn kiểm định:
)2,1(~
2)ˆ()ˆ(
2
2
nF
nyyyyF
ii
i
154
30/11/2018
78
3. Dự đoán dựa vào mô hình hồi quy
Khoảng tin cậy ước lượng giá trị trung bình với độ tin cậy (1-α)
n
ii
n
xx
xxn
ty
1
2
20)2(
0
)(
)(1..ˆ2/
155
ii xbby 10ˆ
3. Dự đoán dựa vào mô hình hồi quy
Khoảng ước lượng giá trị cá biệt của Y
156
n
ii
n
xx
xxn
ty
1
2
20)2(
0
)(
)(11..ˆ2/
30/11/2018
79
Ước lượng giá trị dự đoánThực hiện Regression -> Nhấn save
157
Dự đoán điểm
Dự đoán bằng khoảng tin cậy
2. Hồi quy tuyến tính giữa nhiều tiêuthức số lượng
kikiii xbxbxbbY ....ˆ22110
Phương trình hồi quy
158
30/11/2018
80
Ý nghĩa các hệ số hồi quy riêng
Phản ánh ảnh hưởng thuần của nguyên nhân xj tới kếtquả y (khi các yếu tố khác không đổi). Cụ thể, khi xj
tăng thêm 1 đơn vị thì y thay đổi trung bình là βj đơn vị
159
Kiểm định hệ số hồi quy
• Giả thuyết:
)(
*
j
jj
bseb
T
*0 : jjH
• Tiêu chuẩn kiểm định:
• Nếu H0 đúng thống kê T sẽ tuân theo quy luật phân phốistudent với (n-k-1) bậc tự do.
30/11/2018
81
Ước lượng hệ số hồi quy
• Hai phía:
• Phái phải:
)()( 12
12 j
knjjj
knj bsetbbsetb
)(1j
knjj bsetb
• Phái trái:
jjkn
j bsetb )(1
Hệ số hồi quy chuẩn hoá
• Công thức: y
xjjj bBêta
• Biểu hiện vai trò của từng biến độc lập tới biến thuộc
30/11/2018
82
Đánh giá độ phù hợp của mô hình hồi quy tuyến tính bội
Sử dụng R2 điều chỉnh để so sánh độ phù hợp của môhình hồi quy có số lượng biến độc lập khác nhau
SSTSSER 12
163
1)1()1(1
1
11 22
kn
nR
nSST
knSSE
Ra
Kiểm định ý nghĩa của mô hình
Ho: ….p Hoặc: Ho: R2 = 0
)1(,1(~)1/()1(
)1/(2
2
knkF
knRkRF
164
30/11/2018
83
Hồi quy tuyến tính giữa nhiều tiêu thức số lượngAnalyze > Regression > Linear…
Đưa biến phụ thuộc sang Dependent
Đưa các biến độc lập sang Independent(s)
165
Thực hiện bằng SPSSLựa chọn Statistics…
Các lựa chọn
Estimates các ước lượng (lý thuyết)
Confidence intervals khoảng tin cậyước lượng
Covariance matrix ma trận hiệpphương sai
Model fit phân tích ANOVA
Descriptives thống kê mô tả
166
30/11/2018
84
3. Hồi quy với biến giả
Cách đặt biến giảa
Hồi quy với biến giảb
167
Đặt biến giả
Khi biến độc lập là biến định danh (biến phân loại)Biến giả là biến có 2 giá trị 0 và 1 phụ thuộc vào việc các quan sátcó chứa các tính chất được quan tâm hay không.Ví dụ: tiêu thức giới tính (nam, nữ)D1 = 0 nếu là nữD1 = 1 nếu là nam
168
30/11/2018
85
Đặt biến giả
Khu vực sinh sống (thành thị, nông thôn, miền núi)D1 = 1 nếu sống ở nông thônD1 = 0 nếu không sống ở nông thônD2 = 1 nếu sống ở thành thịD2 = 0 nếu không sống ở thành thị
169
Khu vực sinh sống D1 D2 D3 =1-D1-D2Nông thôn 1 0 0Thành thị 0 1 0Miền núi 0 0 1
Tiêu thức có k biểu hiện thì sẽ dùng k-1 biến giả, biểu hiện đượcgán trị trị 0 ở các biến giả được gọi là cơ sở
Hồi quy với biến giả
30/11/2018
86
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và giới tính (Nam, nữ)
b0
b2
iii DbXbbY 12110ˆ
171
Nữ (D1=0)
Nam (D1=1)
iii XbbbXbbY 1102110 0.ˆ
iii XbbbbXbbY 11202110 )(1.ˆ
Nữ:
Nam:
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và Khu vực (Thành thị, nông thôn, miền núi)
b0
b2
iiii DbDbXbbY 2312110ˆ
172
b3Miền núi (D1=0; D2=0)
Nông thôn (D1=1; D2=0)
Thành thị (D1=0; D2=1)
iii XbbbbXbbY 11032110 0.0.ˆ Miền núi:
iii XbbbbbXbbY 112032110 )(0.1.ˆ Nông thôn:
iii XbbbbbXbbY 113032110 )(1.0.ˆ Thành thị:
30/11/2018
87
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi, bằng cấp (có, không) và biến tương tác (tuổi và bằng cấp)
b0
b2
iiiii DXbDbXbbY 11312110 *ˆ
173
Không có bằng cấp (D1=0)
Có bằng cấp (D1=1)
iiii XbbXbbXbbY 110132110 0*.0.ˆ Không BC:
iiii XbbbbXbbXbbY 13120132110 )()(1*.1.ˆ Có BC:
Phân tích hồi qui logistic là một kỹ thuật thống kê để
xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến
phân loại) với biến phụ thuộc là biến nhị phân (biến có
2 biểu hiện 0 và 1).
4. Phương trình hồi quy logistic
174
30/11/2018
88
Phương trình hồi quy
175
Nếu gọi p là xác suất để một biến cố xảy ra, thì 1-p
là xác suất để biến cố không xảy ra. Phương trình
hồi qui logistic được xây dựng như sau:
Phương trình hồi quy logistic
176
ixp
podds
)1
ln()ln(
ixep
p 1
i
i
x
x
eep
1
30/11/2018
89
Phương pháp xác định các hệ số hồi quy là phương
pháp hợp lý tối đa - maximum likelihood
Yi là biến phụ thuộc (biến nhị phân – 1 là xảy ra biến cố,
0 là không xảy ra biến cố)
Phương trình hồi quy logistic
177
)ˆˆ(
1)ˆˆ(
11
i
i
xiii
xi
exyxey
: Khi x tăng lên một đơn vị thì làm cho ln(odds) tăng lên lần
Nếu gọi odds0 khi xi=0 thì odds0=e
Nếu gọi odds1 khi xi = 1 thì odds1=e+
Tỷ số chênh (odds ratio - OR)
Như vậy, khi x tăng lên một đơn vị thì làm cho khả năng (xác
suất) biến cố xảy ra bằng e lần (so với với cũ)
Ý nghĩa của các hệ số
178
ee
eoddsoddsOR
0
1
ixp
podds
)1
ln()ln(
30/11/2018
90
Kiểm định Wald Chi-Square
.
Quy tắc đưa ra kết luận như quy tắc kiểm định
Kiểm định hệ số hồi quy
179
2
)ˆ(
ˆ
seSquareChiWald
Đo lường độ phù hợp tổng quát của mô hình hồi quy
logistic dựa vào chỉ tiêu -2LL
-2LL càng nhỏ thể hiện độ phù hợp mô hình càng cao
(bằng 0 tức là không có sai số)
Cũng có thể đánh giá mô hình dựa vào bảng phân loại
(clasification table)
Độ phù hợp của mô hình
180
30/11/2018
91
Dùng kiểm định Chi-Square:
Căn cứ vào mức ý nghĩa quan sát trong bảng Omnibus
Tests of Model
Kiểm định độ phù hợp của mô hình
181
Chọn Analysis> Regression> Binary Logistic…
Thực hiện bằng SPSS
182
30/11/2018
92
Nhấn Options…
Thực hiện bằng SPSS
183
I
KHÁI NIỆM CHUNG VỀ DÃY SỐ THỜI GIAN
II
PHÂN TÍCH ĐẶC ĐIỂM BIẾN
ĐỘNG CỦA HIỆN TƯỢNG QUA THỜI GIAN
III
PHÂN TÍCH CÁC THÀNH PHẦN CỦA DÃY SỐ THỜI GIAN
BÀI 5
PHÂN TÍCH DÃY SỐ THỜI GIAN VÀ DỰ ĐOÁN THỐNG KÊ
IV
DỰ ĐOÁN THỐNG KÊ
30/11/2018
93
I. Khái niệm chung về DSTG
Dãy số thời gian là một dãy trị số của chỉ tiêuthống kê được sắp xếp theo thứ tự thời gian
Năm 2013 2014 2015 2016 2017GO (trđ) 6.000 6.400 7.000 7.200 7.500
Có số liệu về giá trị hàng hoá dự trữ của một doanh nghiệptrong năm 2017 như sau:Ngày 1/1 1/4 1/7 1/10 31/12Gtrị(trđ) 300 320 360 340 380
Ví dụ: Có số liệu về giá trị sản xuất (GO) của doanh nghiệp A quacác năm:
II. Các chỉ tiêu phân tích đặc điểm biến động của hiện tượng qua thời gian
Mức độ bình quân qua thời gian1
Tốc độ phát triển 3
Giá trị tuyệt đối của 1% của tốc độ tăng (giảm)5
Tốc độ tăng (giảm)4
Lượng tăng (giảm) tuyệt đối 2
30/11/2018
94
1. Mức độ bình quân qua thời gian
Ý nghĩa: Mức độ bình quân theo thời gian phản ánh
mức độ đại biểu của tất cả các mức độ của dãy số.
n
y
nyyyyy
n
ii
nn
1121 ...
* Cách tính
+ Đối với dãy số thời kỳ:
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
2CKDK yyy
* Dãy số biến động đều:
30/11/2018
95
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
12
...2 12
1
n
yyyy
yn
n
* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian bằng nhau:
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
i
ii
ttyy
* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian không bằng nhau:
30/11/2018
96
Chỉ tiêu Liên hoàn Định gốc MLH Bình quân
2. Lượng tăng (giảm) tuyệt đối
3. Tốc độ phát triển
4 Tốc độ tăng (giảm)
x
5. Giá trị tuyệt đối của 1% tốc độ tang (giảm) x x
1 iii yy 1yyii
i
iii
2
111
12
nyy
nnnn
n
ii
)100(1
i
ii y
yt )100(1y
yT ii
i
iii tT
21
1
11
2
n
nnn
nn
ii y
yTtt
)100(1(%)
)100(
)100(
1
1
1
i
i
i
i
iii
ty
yyya
)100(1(%)
)100(
)100(
1
1
1
i
i
ii
Ty
yyyA
)100(1(%) ta
100100
(%)
1
1
i
i
i
i
i
ii
y
y
ag
100100
(%)
1
1
y
y
AG
i
i
i
ii
Không tính
III. Phân tích các thành phần dãy số thời gian
Xu hướng (T)
Thời vụ/chu kỳ (S) Các yếu tố
ngẫu nhiên (I)
ISTY
ISTY
Mô hình kết hợp cộng
Mô hình kết hợp nhân
30/11/2018
97
III. Phân tích các thành phần dãy số thời gian
III. Phân tích các thành phần dãy số thời gian
Phương pháp biểu hiện biến động thời vụ2
Phương pháp biểu diễn xu hướng1
30/11/2018
98
1. Phương pháp biểu diễn xu hướng
Phương pháp bình quân trượta
Phương pháp hàm xu thếb
Dãy số được hình thànhbởi các số bình quân trượt
số bình quân cộng của mộtnhóm nhất định các mức độđược tính bằng cách lầnlượt loại trừ dần mức độđầu đồng thời thêm vào cácmức độ tiếp theo sao chosố lượng các mức độ thamgia tính số bình quân làkhông đổi
Số bình quân trượt
Dãy số bình quân trượt
a. Phương pháp bình quân trượt
30/11/2018
99
3321
2yyyy
312
1nnn
nyyyy
a. Phương pháp bình quân trượt
Yi Bình quân trượtY1 -Y2 Ỹ2
Y3 Ỹ3
Y4 :Y5 :
:Yn-1 Ỹn-1
yn -
3432
3yyyy
a. Phương pháp bình quân trượt
k
yyyy
kiiki
i
5,0
25,0
2
......
k
yyyy
kiiki
i
122
......
Giả sử có dãy số thời gian: y1, y2, y3,… yn
Nếu k lẻ:
Nếu k chẵn:
)5,02
;5,02
( knki
)12
;12
( knki
30/11/2018
100
a. Phương pháp bình quân trượt
0
50
100
150
200
250
300
350
400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Hàm số biểu hiện các mức độ của hiện
tượng qua thời gian
Khái niệm Một số dạng hàm
xu thế
b. Hàm xu thế
ii tbby 10ˆ
2210ˆ iii tbtbby
ii t
bby 10ˆ )(ˆ ii tfy
30/11/2018
101
Hàm xu thế tuyến tính
210
10
...
iiii
ii
tbtbyttbbny
ii tbby 10ˆ
Hàm xu thế parabol
n
i
n
iii
n
ii
n
iii
n
i
n
i
n
i
n
iiiiii
n
i
n
i
n
iiii
tbtbtbyt
tbtbtbyt
tbtbbny
1 1
42
31
1
20
1
2
1 1 1 1
32
210
1 1 1
2210
.
.
.
2210ˆ iii tbtbby
30/11/2018
102
Hàm xu thế Hyperbol
n
i
n
i
n
i iii
i
n
i
n
i ii
tb
tb
ty
tbbny
1 1 1210
1 110
11
1.
ii t
bby 10ˆ
Tiêu chuẩn lựa chọn hàm xu thế
minˆ 2
pnyySE ii
30/11/2018
103
Định nghĩa yếu tố thời gian
Data>Define Dates..
205
Dữ liệu thời gian (dữ liệu chuỗi) là dữ liệu mà mỗi dòng (quan sát) làsố liệu ở một thời gian nhất định (tháng, quý, năm,...)
Dự đoán dựa vào hàm xu thếAnalyze>Regression > Curve Estimation…
206
30/11/2018
104
Biến động thời vụ là sự biến động của
hiện tượng có tính chất lặp đi lặp lại
trong từng thời gian nhất định của năm
Cách xác định
2. Phương pháp biểu hiện biến động thời vụ
Cách xác định
2. Phương pháp biểu hiện biến động thời vụ
Chỉ số thời vụ (khi dãy số không có xu thế)
30/11/2018
105
Cách xác định
2. Phương pháp biểu hiện biến động thời vụ
Chỉ số thời vụ (khi dãy số không có xu thế)Gọi yij là mức độ của hiện tượng ở thời vụ thứ j của năm thứ i, (i=1,n);(j=1,m)
nm
y
n
y
m
y
n
y
yy
S m
j
n
iij
n
iij
m
jj
n
iij
jj
1 1
1
1
1
0
Cách xác định
2. Phương pháp biểu hiện biến động thời vụ
Chỉ số thời vụ (khi dãy số có xu thế)
30/11/2018
106
Cách xác định
2. Phương pháp biểu hiện biến động thời vụ
Chỉ số thời vụ (khi dãy số có xu thế)
Tính chỉ số thời vụ lần lượt theo từng bước sau:
- Xác định xu thế (bình quân trượt, hàm xu thế,…)
- Khử yếu tố xu thế
- Khử yếu tố ngẫu nhiên (tính bình quân)
- Điều chỉnh chỉ số thời vụ
Cách xác định
B1. Xác định xu thế
Tính bình quân trượt (với k =m)
- Nếu số liệu theo quý, tính bình quân trượt 4 mức độ (đặt
mức độ đầu tại y3)
- Nếu số liệu theo tháng, tính bình quân trượt 12 mức độ
(đặt mức độ đầu tại y7)
30/11/2018
107
Cách xác định
B2. Loại trừ xu thế
- Đối với mô hình cộng: Y –T = S + I
- Đối với mô hình nhân: Y/T = S * I
Cách xác định
B3. Loại bỏ ngẫu nhiên
- Đối với mô hình cộng: Tính bình quân cộng giản đơn
- Đối với mô hình nhân: Tính bình quân cộng trung tâm
(Medial average – Trung bình cộng của các lượng biến
loại trừ lượng biến nhỏ nhất và lớn nhất)
30/11/2018
108
Cách xác định
B4. Điều chỉnh chỉ số thời vụ
- Đối với mô hình cộng: Tổng chỉ số thời vụ bằng không (0).
Mức độ điều chỉnh bằng tổng chỉ số thời vụ chia cho m
- Đối với mô hình nhân: Tổng chỉ số thời vụ bằng m. Hệ số
điều chỉnh bằng Tổng chỉ số thời vụ chia cho m
Chỉ số thời vụAnalyze>Forecasting > Seasonal Decomposition…
216
30/11/2018
109
IV. Một số phương pháp dự đoán thống kê
Dự đoán dựa vào xu thế1
Dự đoán dựa vào san bằng mũ3
Dự đoán dựa vào xu thế kết hợp thời vụ2
1. Dự đoán dựa vào hàm xu thếAnalyze>Regression > Curve Estimation…
218
30/11/2018
110
2. Dự đoán dựa vào hàm xu thếvà chỉ số thời vụ
219
Sử dụng khi dãy số thời gian có xu thế rõ ràng theo thời gian vàbiến động mùa vụ:- Loại bỏ yếu tố thời vụ khỏi dãy số- Tiến hành biểu diễn xu thế f(t) (dãy số đã loại thời vụ).
jt Stfy ˆ
jt Stfy ˆ
Mô hình kết hợp cộng
Mô hình kết hợp nhân
Trong đó Sj là các chỉ số ở thời vụ thứ j
- San bằng mũ giản đơn
- San bằng mũ kết hợp xu hướng
- San bằng mũ kết hợp xu hướng và thời vụ
+ Kết hợp cộng
+ Kết hợp nhân
Lựa chọn mô hình san bằng mũ tốt nhất (dựa
vào RMSE)
3. Dự đoán dựa vào san bằng mũ
220
30/11/2018
111
Vấn đề là việc chọn thông thường chọn
San bằng mũ giản đơn
)yy.(yy tttt 1
ttt yyy ˆ).1(.ˆ 1
11 ˆ).1(.ˆ ttt yyy
10 Trong đó
Hoặc
Thay
12
1111 ˆ.)1(.).1(.ˆ).1(.).1(.ˆ ttttttt yyyyyyy
Tiếp tục thay thế, ta có:
111
33
22
11 11111 y.)(y......y..y.).(y)..(y.y ttttttt
1y 11ˆ yy
221
Dự đoán dựa vào san bằng mũ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
222
30/11/2018
112
San bằng mũ kết hợp xu hướng – mô hình Holt
hbLy ttht .ˆ
))(1(. 11 tttt bLyL
11 ).1( tttt bLLb
10
121 yyb Thông thường chọn và
,
11 yL
223
San bằng mũ kết hợp xu hướng,
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
224
30/11/2018
113
Mô hình kết hợp nhân
San bằng mũ kết hợp xu hướng và thời vụ(Mô hình Holt – Winters)
hstttht ShbLy ..ˆ
)).(1(. 11
tt
st
tt bL
SyL
11 ).1(. tttt bLLb
stt
tt S
LyS
).1(.
225
Mô hình kết hợp nhân
San bằng mũ kết hợp xu hướng và thời vụ
43214 41 yyyyL
444441 444334224114
4yyyyyyyy
b
41
1 LyS
42
2 LyS
43
3 LyS
44
4 LyS
226
30/11/2018
114
Mô hình kết nhân
San bằng mũ kết hợp xu hướng và thời vụ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
227
Mô hình kết cộng
San bằng mũ kết hợp xu hướng và thời vụ
hstttht ShbLy .ˆ )).(1(. 11 ttsttt bLSyL
11 ).1(. tttt bLLb
stttt SLyS ).1(.
228
30/11/2018
115
Mô hình kết hợp cộng
San bằng mũ kết hợp xu hướng và thời vụ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
229
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
230
30/11/2018
116
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
231
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
232
30/11/2018
117
Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…
233
Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…
234