nỘi dung - vai.org.vnvai.org.vn/docs/daotao/tke-spss/tke_spss.pdf · 30/11/2018 3 1. thống kê...

30/11/2018

1

PHÂN TÍCH DỮ LIỆU THỐNG KÊ

ỨNG DỤNG SPSS

1

NỘI DUNG

Giới thiệu chung về phân tích và dự đoán thống kê1

Mô tả dữ liệu thống kê 2

Ước lượng và kiểm định giả thuyết thống kê 3

Phân tích dãy số thời gian và dự đoán5

2

Phân tích hồi quy tương quan4

30/11/2018

2

I

MỘT SỐ KHÁI NIỆM CHUNG

II

GIỚI THIỆU PHẦN MỀM

SPSS

BÀI 1

GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ

III

QUẢN LÝ DỮ LIỆU TRONG

SPSS

1. Thống kê học:

Thống kê học là khoa học nghiên cứu hệ thốngphương pháp (thu thập, xử lý, phân tích) con số (mặtlượng) của các hiện tượng số lớn tìm bản chất và tínhquy luật (mặt chất) trong những điều kiện nhất định.

30/11/2018

3

1. Thống kê học:

Thống kê là việc thu thập, trình bày, phân tích vàdiễn giải các dữ liệu dưới dạng số (Croxton và ctg)

Thống kêsuy luận

Thốngkê mô tả

Phương pháp thống kê

Các phương pháp thống kê

30/11/2018

4

1. Tổng thể thống kê và đơn vị tổng thể

Tổng thể thống kê là hiện tượng số lớn gồm các đơn

vị (phần tử) cần quan sát và phân tích mặt lượng.

Các đơn vị (phần tử) - đơn vị tổng thể.

2. Tiêu thức thống kê

Tiêu thức thống kê - đặc điểm của đơn vị tổng thể

được chọn để nghiên cứu

30/11/2018

5

3. Chỉ tiêu thống kê

Chỉ tiêu thống kê phản ánh mặt lượng gắn với chấtcủa các hiện tượng trong điều kiện thời gian và địađiểm cụ thể.

THANG ĐO TỶ LỆ(Ratio Scale)

THANG ĐO KHOẢNG(Interval Scale)

THANG ĐO THỨ BẬC(Ordinal Scale)

THANG ĐO ĐỊNH DANH(Nominal Scale)

Có gốc 0

Có khoảng cáchbằng nhau

Biểu hiệu có thứ tự hơn kém

CÁC THANG ĐO TRONG THỐNG KÊ

Đánh số các biểu hiện cùng loại của tiêu thức

Tiêu thứcthuộc tính

Tiêu thứcSố lượng

30/11/2018

6

II. Giới thiệu chung về SPSS

SPSS (Statistical Package for Social Sciences)Là phần mềm chuyên dụng xử lý thông tin sơcấp (thông tin được thu thập trực tiếp từ đốitượng nghiên cứu thông qua bảng hỏi đượcthiết kế sẵn)

11

Các màn hình SPSS

- Màn hình quản lý dữ liệu

- Màn hình quản lý biến

- Màn hình hiển thị kết quả

- Màn hình cú pháp

12

30/11/2018

7

Màn hình quản lý dữ liệu (data view)

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu baogồm cột, hàng 13

Màn hình quản lý biến (variables view)

Dùng để quản lý các biến và các thông tin liên quan đến biến, cơsở dữ liệu được lưu trữ dưới dạng *.SAV 14

30/11/2018

8

Màn hình hiện thị kết quả (output)

Các kết quả có thể copy hoặc copy object hoặc export sang cácphần mềm khác như word hay Excel,... Màn hình này cho phép taxem và lưu giữ các kết quả phân tích (*.SPO)

15

Màn hình cú pháp (syntax)

Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnhphân tích (các câu lệnh). Các cú pháp được lưu trữ với phầnmở rộng (*.SPS) 16

30/11/2018

9

File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…

Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…

View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…

Data: các vấn đề liên quan đến dữ liệu,…

Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…

Analyze: các phân tích thống kê,…

Graphs: biểu đồ và đồ thị,…

Utilities: thông tin về các biến và file,…

Window: sắp xếp và di chuyển các cửa sổ làm việc

Help: trợ giúp

Các menu chính

17

III. Quản lý dữ liệu trong SPSS

1. Tạo lập Cơ sở dữ liệu

2. Tạo biến trong cơ sở dữ liệu

3. Mã hóa lại dữ liệu

4. Lựa chọn các quan sát

5. Tách dữ liệu

6. Gộp dữ liệu

7. Lựa chọn quyền số cho các quan sát

18

30/11/2018

10

1. Tạo lập cơ sở dữ liệu trong SPSS

Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là một tập hợp thông tin có cấu trúc.

Thành phần của CSDL

• Quan sát (Observation): chứa thông tin về 1đối tượng điều tra/thời gian nghiên cứu

• Biến (variable): thể hiện các thuộc tính củaquan sát

19

Phân loại biến theo số lượng câu trả lời

Biến một trả lời (câu hỏi lựa chọn)Biến nhiều trả lời (câu hỏi tuỳ chọn)

20

30/11/2018

11

Biến một trả lời

Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số những nhóm tuổi sau:

Nhóm tuổi codeDưới 18 118 đến 30 231 đến 40 341 đến 50 4Trên 50 5

Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng21

Biến nhiều trả lờiCâu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệunào trong danh sách liệt kê dưới đây:

Nhãn hiệu codeVinataba 1Marlboro 2KENT 3JET 4

Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)

22

30/11/2018

12

Phân loại biến theo kiểu dữ liệu

Biến định tính

• Thang đo định danh (nominal scale)

• Thanh đo thứ bậc (ordinal scale)

Biến định lượng

• Thang đo khoảng (interval scale)

• Thang đo tỷ lệ (ratio scale)

23

Các loại/dạng dữ liệu trong SPSS

Dữ liệu chéo – cross data: Mỗi quan sát là một

đơn vị theo “không gian”

Dữ liệu chuỗi/thời gian – time serial data: Mỗi

quan sát là một đơn vị theo “thời gian”

24

30/11/2018

13

Variable Name (tên biến)Các qui tắc dưới đây được áp dụng cho tên biến:• Tên phải bắt đầu bằng một chữ.• Độ dài của tên biến không vượt quá 8 ký tự.• Tên biến không được kết thúc bằng một dấu chấm.• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) khôngđược sử dụng• Tên biến phải duy nhất (không được phép trùng lặp), phân biệtchữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xemlà giống nhau.• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (đểtránh xung đột với các biến được tự động lập bởi một số thủ tục)

Khai báo biến trong SPSS

25

Variable Type (kiểu biến)


26

30/11/2018

14

Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từngbiến và hiện thị kết quả khi chạy dữ liệu

Ví dụ: biến “q1” là biến “giới tính”


27

Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệuVí dụ: 1 là nam

2 là nữ


28

30/11/2018

15

Missing (giá trị khuyết) – dùng để loại những giá trị không có ý nghĩa


Các giá trị khuyết sẽ không tham gia vào quá trình phân tích29

Measure (thang đo)SPSS phân ra 3 loại thang đo- Nominal (thang đo định danh)- Ordinal (thang đo thứ bậc)- Scale (thang đo khoảng và thang đo tỷ lệ)


30

30/11/2018

16

Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có

giá trị với biến String)

Decimals (số lượng số hiện thị sau dấu phẩy)

Column format (Định kích cỡ cho cột- độ rộng của cột)

Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)


31

32

Ví dụ thực hànhTạo cơ cở dữ liệu

30/11/2018

17

33

Nhập dữ liệu

Thường nhập dữ liệu theo từng đối tượng (từng bảnghi) hoặc cũng có thể theo từng biến

34

30/11/2018

18

TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC

• File > Open > Data…

• Trong mục File of type chọn định dạng file phù hợp hoặcchọn All Files (*.*)

35

36

Mở một tệp tin {file} Excel

-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data... - Trong hộp thoại Open File, chọn file mà bạn muốn mở- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loạifile (Files of type) và sau đó chọn tên file (File name)- Nhắp Open

30/11/2018

19

2. Tạo biến trong cơ sở dữ liệuTransform > Compute Variable…

Tạo ra một biến mới theo biểuthức mô tả (Numeric expression)Biểu thức có thể là một phép tính, một hàm,…

Nếu tính theo một điều kiện nào đó thì nhấn vào if (đặt điều kiện vào tính toán cho biểu thức)

37


Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa

Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc

38

30/11/2018

20


Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa

Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc

39

2. Tạo biến trong cơ sở dữ liệuMỘT SỐ HÀM THÔNG DỤNG:

ABS(numexpr) – Trả về giá trị tuyệt đối

EXP(numexpr) – Trả về luỹ thừa của cơ số e

SQRT(numexpr) – Lấy căn bậc 2 của biểu thức

MIN(value,value[,...]) – Lấy giá trị nhỏ nhất

MAX(value,value[,...]) – Lấy giá trị lớn nhất

SUM(numexpr, numexpr[,...]) – Tính tổng của các số

MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng

MEDIAN(numexpr, numexpr[,...]) – Tính trung vị

VARIAN(numexpr, numexpr[,...]) – Tính phương sai

SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn

40

30/11/2018

21

2. Tạo biến trong cơ sở dữ liệuLOWER(strexpr) – Viết thường các ký tự

UPCASE(strexpr) – Viết hoa các ký tự

LTRIM(strexpr) – Cắt khoảng trắng phía trái

RTRIM(strexpr) – Cắt khoảng trắng phía phải

STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định

dạng [F##.##]

CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự

CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào

bên phải strexpr1 với độ ký tự xác định

CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào

bên trái strexpr1 với độ ký tự xác định

CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định

theo độ dài xác định [hoặc đến hết]

41

3. Mã hoá lại dữ liệu- Mã hoá lại dữ liệu thành một biến khác

• Chọn các biến muốn mã hoá, Nếuchọn nhiều biến, chúng phải có cùngdạng (chuỗi hoặc số)• Click vào Old and New Values vàđịnh rõ cách mã hoá lại trị số.• Sau đó nhấn Change

Transform > Recode into Different Variables…

Nhấn If để xác định một nhóm các đốitượng cũng giống như đã được mô tảtrong mục tính toán biến {Compute Variable}

42

30/11/2018

22

3. Mã hoá lại dữ liệu

- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)

Transform > Recode into Same Variables…

(không khuyến nghị thực hiện theo cách này!)Thực hiện tương tự như trường hợp trên nhưng biến mới được tạora thay cho biến cũ

43

3. Mã hoá dữ liệu tự động

• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang dạng số vào trong một biến mới. Biến mới này sẽ chứa các con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau .

• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.Transform > Automatic Recode

44

30/11/2018

23

4. Lựa chọn các quan sátMặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn thực hiện trên một số quan sát sẽ tiến hành như sau:Data > Select cases

- Các quan sát không lựa chọnđược giữ và có dấu gạch chéochọn Filtered -> máy sẽ tạo ramột biến Filter_$ (lần sau nếuchọn tương tự thì sử dụng biếnnày để đưa vào ô Use filter variable)- Các quan sát được chọn sẽđược lưu sang cơ sở dữ liệu mớichọn Copy selected cases to a new dataset và đặt tên trong ô Dataset name- Các quan sát không lựa chọnbị xoá, chọn Deleted unselected cases

45

5. Tách dữ liệuTheo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theotừng nhóm nào đó sử dụng công cụ tách dữ liệuData > Split File

Đưa biến phân loại đưa sang ô Groups Based on:Chọn Compare groups nếu muốnso sánh giữa các nhómChọn Organize output by groups nếu muốn tách theo từng nhómriêng biệt

46

30/11/2018

24

Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:Data/ Aggregate Data

- Chuyển biến được chọn làm cơ sở để tập hợpdữ liệu sang cửa sổ Break Variable(s)- Chuyển biến muốn tập hợp sang cửa sổSummaries of Variables- Chọn Funtion để xác định các hàm tập hợp- Vào Name & Label để đặt tên và nhãn chobiến mới

47

6. Gộp dữ liệu

Tạo file dữ liệumới cho kết quả

tập hợp

Để biến mới tập hợptrong file dữ liệu hiện tại

7. Lựa chọn quyền số cho các quan sátMặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện cho một số lượng các quan sát, sử dụng quyền số.Data > Weight cases

Chọn Weight case by và đưa biến làm quyền số vào ô Frequency variable

48

30/11/2018

25

I

MÔ TẢ DỮ LIỆU QUA CÁC THAM SỐ THỐNG KÊ

II

MÔ TẢ DỮ LIỆU QUA BẢNG THỐNG KÊ

III

MÔ TẢ DỮ LIỆU QUA ĐỒ THỊ THỐNG KÊ

BÀI 2

MÔ TẢ DỮ LIỆU THỐNG KÊ

1. Các mức độ trung tâm

- Số bình quân (trung bình)- Mốt (Mo)- Số trung vị (Me)

50

30/11/2018

26

2. Các phân vị

- Phân vị thứ p là giá trị mà có p% số quan sát có giá trịnhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giátrị phân vị mức p.- Tứ phân vị- Thập phân vị

51

3. Các tham số đo độ phân tán

- Khoảng biến thiên: R = Xmax - Xmin

- Phương sai:

- Độ lệch tiêu chuẩn:

- Sai số chuẩn trung bình:

11

2

1

2

1

2

2

n

xnx

n

)xx(S

n

ii

n

ii

2SS

nS

x

52

30/11/2018

27

4. Các tham số phản ánh phân phối

- Hệ số bất đối xứng:)2)(1(

1

3

nnS

xxnSkewness

n

i

i

Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại càng đối xứng qua giá trị μ. Khi hệ số này nhỏ hơn 0, dãy số phân phối chuẩn lệch trái. Khi hệ số này lớn hơn 0, dãy số phân phối chuẩn lệch phải.

53

4. Các tham số phản ánh phân phối

- Hệ số độ nhọn:

Đối với phân phối chuẩn thì giá trị của hệ số Kurtosis bằng 3.

)n)(n)(n(S

xx)n(nKurtosis

n

i

i

321

11

4

)n)(n()n(

)n)(n)(n(S

xx)n(n

K

n

i

i

3213

321

1 21

4

Khi giá trị này bằng 0 thì đó là phân phối chuẩn, nếu giá trị mang dấu dương thì phân phối nhọn hơn so với phân phối chuẩn và ngược 54

30/11/2018

28

Sơ đồ hộp (box plot)

Me Q3Q1 XmaxXmin

• Là sơ đồ biểu diễn cùng lúc các đặc trưng trungtâm và độ biến thiên (phân tán)

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).

56

Me Q3Q1 XmaxXmin

• Nhận biết độ lệch phân phối của dữ liệu

30/11/2018

29

Hình dáng của phân phốivà box plot

57

Lệch phảiLệch trái Đối xứngQ1 Me Q3Q1 Me Q3 Q1 Me Q3

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).

• Nhận biết độ lệch phân phối của dữ liệu• Nhận biết lượng biến đột xuất và nghi ngờ là đột

xuất

58

30/11/2018

30

Nhận biết lượng biến đột xuất

Bài 2 59

IQR1.5 IQR1.5 IQR

Giới hạn trong

Giới hạn ngoài

Q1 Me Q3

Nghi ngờ là lượng biến

đột xuất

Nghi ngờ là lượng biến

đột xuất

Lượng biến đột xuất

Lượng biến đột xuất

Outer fence

Inner fence

hinger

1.5 IQR1.5 IQR


30/11/2018

31


Thực hiện bằng SPSSTrường hợp 1:Chọn Analyze > Descriptive Statistics > Frequencies…

Đưa các biến cần tính toán cáctham số sang Variable(s)Nhấn Statistic…

62

30/11/2018

32

Thực hiện bằng SPSS

Chọn Analyze > Descriptive Statistics > Frequencies…

Chọn các thống kê cần tính toán63


Trường hợp 2:Chọn Analyze > Descriptive Statistics > Explore …

Đưa các biến cần tính toán cáctham số sang Dependent ListMuốn phân tích theo biến nàođó thì đưa sang biến sangFactor ListTrong mục Display chọnStatistics hoặc Both

64

30/11/2018

33

Thực hiện bằng SPSSTrường hợp 3:Chọn Analyze > Descriptive Statistics > Descriptives…

Đưa các biến sang Variable(s) và nhấn Options…65


Chọn Analyze > Descriptive Statistics > Descriptives…

Chọn các thống kê cần tính toán66

30/11/2018

34

II. Mô tả dữ liệu qua bảng thống kê

Bảng thống kê là một hình thức trình bày các tài liệu thống

kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các

đặc trưng về mặt lượng của hiện tượng nghiên cứu

Cấu trúc bảng thống kê

TIÊU ĐỀ BẢNG

Tiêu đềdòng

Tiêu đề cột

Dữ liệu

Ghi chú (nếu có)Nguồn thông tin:

30/11/2018

35

Nguyên tắc khi trình bày bảng thống kê

- Quy mô bảng vừa phải

- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn

- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc

phải phía trên bảng

- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý

- Không được để trống ô nào trong bảng, nếu không có

dữ liệu thì ghi bằng các ký hiệu

Nguyên tắc ghi ký hiệu

- Nếu hiện tượng không có số liệu, ghi ( - )

- Nếu số liệu còn thiếu, có thể bổ sung ( … )

- Nếu hiện tượng không liên quan ( x )

30/11/2018

36

Lập bảng thống kêLập bảng tần số cho 1 biến thuộc tínhAnalyze Descriptive Statistics Frequencies…

Đưa các biến cầnlập bảng sang ôVariable(s)

Hiện thị bảng tần số

Lập bảng thống kê

Lập bảng tần số cho 1 biến thuộc tính

Analyze > Tables > Custom Tables...

Đưa 1 biến chủ đề vào

Rows hoặc Columns

Chọn các thống kê theo Cột

(Columns) hoặc dòng

(Rows), Ẩn nhãn (tên) các

thống kê (Hide),

30/11/2018

37

Chọn N Summary Statistic…

Chọn các thống kê cần hiện thị chuyển sang mục Display

Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)

Nhấn Apply to Selection

Chọn Catagories and Total…

Sắp xếp các biểu hiện chọn Sort categories by (value, count,….) và theo thứ tự tang

(Ascending) hoặc giảm (Descending)

Nhấn Apply

Không muốn hiện thị biểu hiện nào đó ->

chuyển biểu hiện đó sang Exclude

Chọn Total và đặt lại nhãn (Label) nếu

muốn hiện thị dòng tổng số

Hiện thị giá trị khuyết thiếu tích vào

Missing Value

Hiện thị biểu hiện không có quan sát tích

Empty categories

Dòng tổng số để trên (Above) dưới (Below)

30/11/2018

38

Đặt tiêu đề bảng,… (Titles)

Ghi tên bảng vào ô Titles:

Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption

Điền tiêu đề (giữa cột và dòng) vào ô Corner


Bảng kết hợp nhiều biến (định tính –

định tính; định tính – định lượng)

Analyze > Tables > Custom Tables...

Đưa các biến (định tính hoặc định lượng)

vào Rows và Columns

30/11/2018

39


Đưa các biến của câu trả lời sang ô

Variables in Set

Chọn Dichotomies nếu biến có 2 biểu

hiện hoặc Categories nếu biến có

nhiều biểu hiện

Nhập giá trị cần đếm vào Counted

Value

Đặt tên biến Name và nhãn biến

Label

Nhấn Add -> OK

Lập bảng cho biến tuỳ chọn (Multiple Answer)Analyze > Tables > Multiple Response Sets

III. Mô tả dữ liệu qua đồ thị thống kê

Là các hình vẽ hoặc đường nét hình học dùng để

miêu tả có tính chất quy ước các tài liệu thống kê

30/11/2018

40

Các loại đồ thị

- Đồ thị phát triển

- Đồ thị kết cấu

- Đồ thị so sánh

- Đồ thị liên hệ

- Đồ thị “tháp dân số”

Đồ thị thống kê

Simple đồ thị thanh cho 1 biến

Clustered đồ thị thanh kết hợp 2 biến (theo

nhóm với nhiều cột cạnh nhau)

Stacked Đồ thị thanh kết hợp 2 biến (biến

được biệu hiện trên 1 cột)

Summaries for groups cases Mỗi thanh

của đồ thị thể hiện số lượng các quan sát có

cùng 1 giá trị của biến

Summaries for separate variables Mỗi

thanh của đồ thị thể hiện giá trị thống kê

của biến

Value of individual cases Mỗi thanh của

đồ thị thể hiện giá trị 1 quan sát của biến

Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...

30/11/2018

41

Đồ thị thống kê

Bars Represent tham số thống kê thể

hiện trên đồ thị

Category Axis Trục hoành

Define Clusters by biến phân loại

Có thể vẽ theo dòng hay cột (theo biến

phân loại thứ 2) đưa biến vào Panel

by Rows (Columns)

Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...

I

NHỮNG VẤN ĐỀ CƠ BẢN VỀ PHÂN PHỐI

II

ƯỚC LƯỢNG ĐIỀU TRA

III

KIỂM ĐỊNH GIẢ THUYẾT THỐNG

KÊ

BÀI 3

ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

30/11/2018

42

I. NHỮNG VẤN ĐỀ CƠ BẢN VỀ PHÂN PHỐI

Biến ngẫu nhiên• Biến ngẫu nhiên là biến nhận một trong các giá trị có

thể có của nó tuỳ thuộc vào sự tác động của các nhântố ngẫu nhiên trong một phép thử.

• Biến ngẫu nhiên là biến mà các giá trị không được xácđịnh trước qua mỗi lần thực nghiệm (phép thử).

30/11/2018

43

85

Quy luật phân phối xác suất

• Quy luật phân phối xác suất của biến ngẫu nhiên là sự

tương ứng giữa giá trị có thể có của nó và xác suất

tương ứng với giá trị đó.

0

II. Ước lượng kết quả điều tra• Với mức ý nghĩa α• Ước lượng trung bình

xn

xn txtx .. 11

2/2/

xntx .1

xntx .1

Hai phíaVế phảiVế trái

30/11/2018

44

III. Kiểm định giả thuyết thống kê

Những vấn đề chung về kiểm định giả thuyết thống kê 1

Kiểm định trung bình2

Kiểm định Khi bình phương3

1. Những vấn đề chung về kiểm định

Là giả thuyết về một vấn đề nào đó của tổng

thể chung (về các tham số như trung bình, tỷ

lệ, phương sai, dạng phân phối,…)

30/11/2018

45

Giả thuyết thống kê

Giả thuyết mà ta muốn kiểm định (H0)

Giả thuyết đối lập (Ha, H1, H)

Giả thuyết thống kê

Ví dụ

H0: = 0

H1: 0

0

Bác bỏ H0 Bác bỏ H0

30/11/2018

46

Sai lầm và mức ý nghĩa trong kiểm định

- Sai lầm loại I là bác bỏ H0 khi H0 đúng

- Sai lầm loại II là chấp nhận H0 khi H0 sai


Kết luậnThực tế Chấp nhận H0 Bác bỏ H0

H0 đúng Kết luận đúng Sai lầm loại I

H0 sai Sai lầm loại II Kết luận đúng

30/11/2018

47


Mức ý nghĩa của kiểm định () là xác suất mắc sai

lầm loại I

= P(Bác bỏ H0/H0 đúng)

Tiêu chuẩn kiểm định

Tiêu chuẩn kiểm định là quy luật phân phối xác

suất nào đó dùng để kiểm định.

Trong tập hợp các kiểm định thống kê có cùng

mức ý nghĩa , kiểm định nào có xác suất mắc sai

lầm loại 2 nhỏ nhất được xem là “tốt nhất”.

30/11/2018

48

Các bước tiến hành kiểm định

- Xây dựng giả thuyết H0 và giả thuyết đối H1

- Xác định mức ý nghĩa

- Chọn tiêu chuẩn kiểm định

- Tính giá trị của tiêu chuẩn kiểm định từ mẫu

quan sát

- Kết luận

Phương pháp tiếp cận P-value trong kiểm định giả thuyết

• Rất nhiều phần mềm thống kê tính P-value (sig) khi thực hiện kiểm định giảthuyết.

• P-value là xác suất lớn nhất để cóthể bác bỏ giả thuyết H0. P-value thường được xem như là mức ý nghĩa quan sát.

• Các nguyên tắc ra quyết định để bácbỏ giả thuyết H0 với P-value là:

• Nếu p-value lớn hơn hoặc bằng α, chưa đủ cơ sở để bác bỏ giả thuyếtH0.

• Nếu p-value nhỏ hơn α, bác bỏ giảthuyết H0.

30/11/2018

49

2. Kiểm định trung bình

Kiểm định giả thiết về giá trị trung bình của một tổng thểa

Kiểm định hai giá trị trung bình của hai tổng thểb

Kiểm định trung bình thuộc nhiều tổng thể (ANOVA)c

97

Kiểm định giả thiết về giá trị trung bình của một tổng thể

H0: = 0

H1: ≠ 0


)1(0 ~

/)(

ntnS

xT

98

30/11/2018

50


Analyze > Compare Means > One-Sample T Test…

Đưa các biến cần kiểm định giá trị trung bình vào Test Variable(s)

Nhập giá trị cần kiểm định trung bình vào Test Value

Nhấn Options...

99


Analyze > Compare Means > One-Sample T Test…

Nhập độ tin cậy của kiểm định vào Confidence Interval

Chỉ kiểm định đối với các quan sát có ý nghĩa của biến chọn Exclude cases analysis by analysis

Chỉ kiểm định đối với các quan sát có đầy đủ trong các biến chọn Exclude cases listwise (n nhưnhau)

100

30/11/2018

51

Kiểm định hai giá trị trung bình của hai tổng thể

H0: 1 = 2

H1: 1 ≠ 2

- Hai mẫu độc lập

- Hai mẫu phụ thuộc

101

Hai mẫu độc lập

- Phương sai bằng nhau

- Phương sai không bằng nhau

102

30/11/2018

52

Kiểm định phương sai

H0: 12 = 2

2

H1: 12 ≠ 2

2

Tiêu chuẩn kiểm định )1,1,(~ 2122

21 nn

SSF

Kiểm định phương saiKiểm định phương sai của k tổng thể(dùng tiêu chuẩn kiểm định Levene)

),1,(~)/()(

)1/()(

1 1

2

1

2

knkfknzz

kzznF

k

i

n

jiij

k

iii

i

iijij xxz

in

jij

ii z

nz

1

1

k

i

n

jij

i

zn

z1 1

1

xij – là giá trị của đơn vị thứ j nhóm thứ i (i=1,k) (j=1,ni)

30/11/2018

53

Hai mẫu độc lậpTrường hợp phương sai bằng nhau:


)2(

2

2

1

221

21~)(

nnt

nS

nS

xxT

)1()1()1()1(

21

222

2112

nn

SnSnSTrong đó105

Hai mẫu độc lậpTrường hợp phương sai không bằng nhau:Tiêu chuẩn kiểm định

vt

nn

xxT ,

2

22

1

21

21 ~SS

2

2

22

2

2

1

21

1

2

2

22

1

21

11

11

nS

nnS

n

nS

nS

vTrong đó

106

30/11/2018

54

Hai mẫu độc lậpAnalyze > Compare Means > Independent-Samples T Test…

Đưa các biến cần kiểm định giá trị trung bình vào Test Variable(s)

Đưa biến phân loại vào Grouping Variable

Nhấn Define Groups... Để định nghĩa nhóm

107

Hai mẫu độc lậpAnalyze > Compare Means > Independent-Samples T Test…

Nếu sử dụng biến phân loại lựa chọn Use specified values và nhập giá trị tương ứng

Nếu chọn giá trị của biến lớn hơn hoặc bằng một giá trị nào đó thì chọn Cut point rồi nhập giá trị phân chia

108

30/11/2018

55

Hai mẫu phụ thuộc

H0: d = 0 hay 1 - 2 = 0

H1: d ≠ 0

Trong đó: di = x1i - x2i


)1(~/

)0(

n

d

tnS

dT

109

Hai mẫu phụ thuộcAnalyze > Compare Means > Paired-Samples T Test…

Đưa các cặp biến cần kiểm định giá trị trung bình vào Paired Variable(s)

110

30/11/2018

56

Kiểm định nhiều trung bình của tổng thểPhân tích phương sai - ANOVA

Một số giả thiết:

+ Các tổng thể phải độc lập và được chọn ngẫu nhiên

+ Các tổng thể phải có phân phối chuẩn

+ Phương sai các tổng thể phải đồng nhất

Phân tích phương sai 1 nhân tố(one-way ANOVA)

Nhân tố

1 2 ... i ... k

x11 x21 ... x11 ... xk1

x12 x22 ... xi2 ... xk2

... ... ... ... ... ...

x1j x2j ... xij ... xkj

... ... ... ... ... ...

... ...11nx

22nx2inx 2knx

112

30/11/2018

57

Phân tích phương sai 1 nhân tố(one-way ANOVA)

H0 : 1 = 2 = …. = k

H1: Tồn tại ít nhất 1 cặp khác nhau

- Tiêu chuẩn kiểm định ),1(~ knkfMSEMSFF

1

kSSFMSF

knSSEMSE

113

Phân tích phương sai 1 nhân tố (one-way ANOVA)

k

j

n

iij

j

xxSST1 1

2

j

k

jj nxxSSF .

1

2

k

j

n

ijij

j

xxSSE1 1

2

SSESSFSST

Total Sum of Squares)

(Sum of Squares for Factor)

(Sum of Squares for Error)

114

30/11/2018

58


ANOVA

Sum of Squares df Mean Square F Sig.

Between Groups SSF k-1 MSF *** P-value

Within Groups SSE n-k MSE

Total SST n-1

115


Analyze > Compare Means > One-Way ANOVA…

Đưa các biến cần phân tích vào Dependent List

Đưa biến nhân tố vào Factor

Nếu bác bỏ H0 thì nhấn vào Post Hoc... Để phân tích sâu nhằm xác định trung bình của nhóm nào khác nhóm nào.

Nhấn Options...

116

30/11/2018

59



Lựa chọn Descriptive để tính toán các thống kê mô tả

Chọn Homogeneity of variance test để kiểm định phương sai giữa các nhóm

Chọn tiêu chuẩn kiểm định Brown-Forsythe nếu phương sai khôngđồng nhất

117



Lựa chọn các kiểm định tương ứng

Nếu phương sai bằng nhau:

Thường chọn tiêu chuẩn: Tukey

hay Bonferroni

Nếu phương sai không bằngnhau:

Thường chọn tiêu chuẩn: Games-Howell

118

30/11/2018

60

3. Kiểm định Khi bình phương (2) và phân phối

Kiểm định Khi bình phương Kiểm định về dạng phân phối

119

Kiểm định sự độc lập, phụ thuộc 2 mẫu

Có ý kiến cho rằng tỷ lệ nghèo ở 3 địa phương (A, B

và C) là khác nhau? Từ mỗi địa phương chọn ngẫu

nhiên 1 số hộ gia đình và có kết quả như sau:

30/11/2018

61


ĐPLoại hộ A B C

Hộ nghèo 20 50 25

Hộ không nghèo 180 350 95

-Hãy đưa ra kết luận với mức ý nghĩa 5%

-Bảng trên được gọi là bảng ngẫu nhiên 2 dòng

(i=1,2) và 3 cột (j=1,3)


Gọi tỷ lệ hộ nghèo của địa phương A, B và C lần

lượt là p1, p2 và p3

Cặp giả thuyết cần kiểm định là

H0: p1 = p2 = p3

H1: pi pj (i j)

30/11/2018

62


Gọi nij là tần số thực nghiệm (số quan sát ở dòng

thứ i và cột thứ j)

Tính tần số lý thuyết ( )ijn

nnij

jcét tængi dßng tæng

i j

ijnn Tổng số đơn vị điều tra



2,

22 ~ df

i j ij

ijij

nnn

1)cét 1).(sèdßng (sè df

30/11/2018

63


Miền bác bỏ W:2

,2

dfqs

Ví dụ

ĐP Loại hộ A B C Tổng

Hộ nghèo

20 50 25 9526,39 52,78 15,831,547 0,146 5,307

Hộ khôngnghèo

180 350 95 625173,61 347,22 104,170,235 0,022 0,807

Tổng 200 400 120 720

30/11/2018

64

Ví dụ

064,8

22

i j ij

ijijqs n

nn

991,522;05,0

2, df

22;05,0

2 qs

Bác bỏ giả thuyết H0 (->Tỷ lệ hộ nghèo ở các địaphương là khác nhau)

Kiểm định sự phụ thuộc của 2 mẫuAnalyze > Descriptive Statistics > Crosstabs…

Đưa 1 biến sang Row(s) và 1 biến sang Column(s)

Nhấn Statistics...

128

30/11/2018

65


Lựa chọn các kiểm định tương ứng

129


130

30/11/2018

66

Kiểm định Khi bình phương 1 mẫu

Ví dụ: - Nghiên cứu tỷ lệ nhân viên ở các khu vực như nhau?

- Tỷ lệ nhân viên nam gấp 2 lần tỷ lệ nữ?

- Trình độ đào tạo trung cấp gấp 3 lần đại học và gấp 5 lần sau ĐH

131

H0: Tỷ lệ thực tế bằng với tỷ lệ lý thuyết (kỳ vọng)

H1: Tỷ lệ thực tế khác với tỷ lệ lý thuyết (kỳ vọng)

Kiểm định Khi bình phương 1 mẫu

Đưa biến cần kiểm định sang Test Variable List

Sử dụng toàn bộ các quan sát chọn Get from data

Sử dụng trong một khoảng nào đó chọn Use specified range và nhập giá trị nhỏ nhất (Lower) và lớn nhất (Upper)

Tất cả các lựa chọn có tần số lý thuyết bằng nhau chọn All catagories equal

Tần số lý thuyết khác nhau chọn Values

Analyze > Nonparametric > Legacy Dialogs >Chi-Square…

132

30/11/2018

67

Kiểm định về dạng phân phối(Kiểm định Kolmogorov – Smirnov một mẫu)Analyze\Nonparametric Tests\Legacy Dialogs\1-Sample K-S…

Chọn các biến cần kiểm định sang Test Variable List

Chọn các phân phối cần kiểm định:

- Phân phối chuẩn Normal

- Phân phối đều Uniform

- Phân phối luỹ thừa Exponetial

- Phân phối Poisson

133

I

PHÂN TÍCH TƯƠNG QUAN

II

PHÂN TÍCH HỒI QUY

BÀI 4

PHÂN TÍCH HỒI QUY TƯƠNG QUAN

30/11/2018

68

Phân tích tương quan nhằm đo mức độ phụ thuộc

tuyến tính giữa hai biến ngẫu nhiên

Hệ số tương quan đơn (Pearson)

I. Phân tích tương quan

135

yxyx

yxxyyxr

.),cov(

Hệ số tương quan hạng (Spearman)


136

)1(61 2

2

nn

dr is

30/11/2018

69


-1 0 +1

Liên hệ hàm số

Không có mối liên hệ

Mối liên hệ thuận càng chặt chẽ

Liên hệ hàm số

Mối liên hệ nghịch càng chặt chẽ

137

Kiểm định hệ số tương quanH0: = 0H1: ≠ 0Tiêu chuẩn kiểm định

H0: s = 0H1: s ≠ 0Tiêu chuẩn kiểm định


138

21 2

nr

rt

11/1

0

nrn

rz ss

30/11/2018

70

I. Phân tích tương quanAnalyze > Correlate > Bivariate…

Đưa các biến cần phân tích tươngquan sang Variables

Lựa chọn các hệ số tương quan

Hệ số tương quan - Pearson

Hệ số tương quan hạng-Spearman

139

II. PHÂN TÍCH HỒI QUY

Hồi quy giữa hai tiêu thức số lượng1

Hồi quy tuyến tính giữa nhiều tiêu thức số lượng2

Hồi quy với biến giả3

140

Hồi quy Logistic4

30/11/2018

71

* PHÂN TÍCH HỒI QUY ĐƠN

Đánh giá mô hình hồi quy (kiểm định các hệ số)2

Xây dựng phương trình hồi quy1

Dự đoán dựa vào mô hình hồi quy3

1. Phương trình hồi quy

Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ cácchênh lệch ngẫu nhiên nêu ra mối liên hệ cơ bản của hiện tượng.

Đường hồi quy lý thuyết

x

y

0

Phương trình hồi quy: là phương trình xác định vị trí củađường hồi quy lý thuyết

30/11/2018

72

Phương trình hồi quy tổng thể

ii xxyE 10)/(

Tham số tự do (hệ số chặn)

Biến độc lậpNguyên nhân

Hệ số hồi quy (hệ số góc)

Biến phụ thuộcKết quả

Ý nghĩa các tham số

• β0: phản ánh ảnh hưởng của các nguyên nhân khác(ngoài nguyên nhân x) tới kết quả y

• β1: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tớikết quả y. Cụ thể, khi x tăng thêm 1 đơn vị thì giá trị trungbình của y thay đổi là β1 đơn vị

- β1 > 0: x và y có mối liên hệ thuận (cùng chiều)- β1 < 0: x và y có mối liên hệ nghịch (ngược chiều)

30/11/2018

73

Phương trình hồi quy mẫu

ii xbby 10ˆ Ước lượng của tham số β0 Ước lượng của tham số β1

Với một mẫu ngẫu nhiên kích thước n, chúng ta có phương trình hồi quy mẫu như sau:

Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)

x

y

0

146min)ˆ( 2 ii yyS

30/11/2018

74

Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)

147

0))(.(2

0)1)(.(2

101

100

iii

ii

xxbbybS

xbbybS

210

10

....

iiii

ii

xbxbxyxbbny

min)( 210 ii xbbyS

Các giả thiết cơ bản của OLS

• Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên

• Kỳ vọng toán của sai số bằng không

• Sai số tuân theo quy luật phân bố chuẩn

• Phương sai của sai số không đổi

• Không có tương quan giữa các phần dư (tự tương quan)

• Không có mối tương quan giữa các biến độc lập (đa cộngtuyến) – đối với hồi quy bội

148

30/11/2018

75

Thực hiện bằng SPSSAnalyze > Regression > Linear…

Đưa biến phụ thuộc sang Dependent

Đưa một biến độc lập sang Independent(s)

149

2. Kiểm định hệ số hồi quy

Giả thuyết: H0: 1 = 0

Tiêu chuẩn kiểm định: )2(~)( 1

1 ntbSe

bT

21)(

)(xx

bSei

2)ˆ(

2

22

nyy

ne iii

150

30/11/2018

76

Ước lượng hệ số hồi quy

• Hai phía:

• Phái phải:

)()( 22

22 j

njjj

nj bsetbbsetb

)(2j

njj bsetb

• Phái trái: jj

nj bsetb )(2

Đánh giá độ phù hợp của mô hình

x

y

0

n

ii yySST

1

2

n

iii yySSE

1

2ˆ

n

i yySSR1

2ˆ

30/11/2018

77

Đánh giá độ phù hợp của mô hình

SSRSSESSTyyyyyy iiii

222 )ˆ()ˆ()(

2

22

)()ˆ(1

1

yyyyR

SSTSSE

SSTSSR

i

ii

153

R2 phản ánh phần trăm thay đổi của biến phụ thuộcđược giải thích bởi biến độc lập (mức độ phù hợpcủa mô hình)

Kiểm định ý nghĩa mô hình

Giả thuyết: H0: Mô hình không có ý nghĩa (β1=0)

Tiêu chuẩn kiểm định:

)2,1(~

2)ˆ()ˆ(

2

2

nF

nyyyyF

ii

i

154

30/11/2018

78

3. Dự đoán dựa vào mô hình hồi quy

Khoảng tin cậy ước lượng giá trị trung bình với độ tin cậy (1-α)

n

ii

n

xx

xxn

ty

1

2

20)2(

0

)(

)(1..ˆ2/

155

ii xbby 10ˆ

3. Dự đoán dựa vào mô hình hồi quy

Khoảng ước lượng giá trị cá biệt của Y

156

n

ii

n

xx

xxn

ty

1

2

20)2(

0

)(

)(11..ˆ2/

30/11/2018

79

Ước lượng giá trị dự đoánThực hiện Regression -> Nhấn save

157

Dự đoán điểm

Dự đoán bằng khoảng tin cậy

2. Hồi quy tuyến tính giữa nhiều tiêuthức số lượng

kikiii xbxbxbbY ....ˆ22110

Phương trình hồi quy

158

30/11/2018

80

Ý nghĩa các hệ số hồi quy riêng

Phản ánh ảnh hưởng thuần của nguyên nhân xj tới kếtquả y (khi các yếu tố khác không đổi). Cụ thể, khi xj

tăng thêm 1 đơn vị thì y thay đổi trung bình là βj đơn vị

159

Kiểm định hệ số hồi quy

• Giả thuyết:

)(

*

j

jj

bseb

T

*0 : jjH

• Tiêu chuẩn kiểm định:

• Nếu H0 đúng thống kê T sẽ tuân theo quy luật phân phốistudent với (n-k-1) bậc tự do.

30/11/2018

81

Ước lượng hệ số hồi quy

• Hai phía:

• Phái phải:

)()( 12

12 j

knjjj

knj bsetbbsetb

)(1j

knjj bsetb

• Phái trái:

jjkn

j bsetb )(1

Hệ số hồi quy chuẩn hoá

• Công thức: y

xjjj bBêta

• Biểu hiện vai trò của từng biến độc lập tới biến thuộc

30/11/2018

82

Đánh giá độ phù hợp của mô hình hồi quy tuyến tính bội

Sử dụng R2 điều chỉnh để so sánh độ phù hợp của môhình hồi quy có số lượng biến độc lập khác nhau

SSTSSER 12

163

1)1()1(1

1

11 22

kn

nR

nSST

knSSE

Ra

Kiểm định ý nghĩa của mô hình

Ho: ….p Hoặc: Ho: R2 = 0

)1(,1(~)1/()1(

)1/(2

2

knkF

knRkRF

164

30/11/2018

83

Hồi quy tuyến tính giữa nhiều tiêu thức số lượngAnalyze > Regression > Linear…

Đưa biến phụ thuộc sang Dependent

Đưa các biến độc lập sang Independent(s)

165

Thực hiện bằng SPSSLựa chọn Statistics…

Các lựa chọn

Estimates các ước lượng (lý thuyết)

Confidence intervals khoảng tin cậyước lượng

Covariance matrix ma trận hiệpphương sai

Model fit phân tích ANOVA

Descriptives thống kê mô tả

166

30/11/2018

84

3. Hồi quy với biến giả

Cách đặt biến giảa

Hồi quy với biến giảb

167

Đặt biến giả

Khi biến độc lập là biến định danh (biến phân loại)Biến giả là biến có 2 giá trị 0 và 1 phụ thuộc vào việc các quan sátcó chứa các tính chất được quan tâm hay không.Ví dụ: tiêu thức giới tính (nam, nữ)D1 = 0 nếu là nữD1 = 1 nếu là nam

168

30/11/2018

85

Đặt biến giả

Khu vực sinh sống (thành thị, nông thôn, miền núi)D1 = 1 nếu sống ở nông thônD1 = 0 nếu không sống ở nông thônD2 = 1 nếu sống ở thành thịD2 = 0 nếu không sống ở thành thị

169

Khu vực sinh sống D1 D2 D3 =1-D1-D2Nông thôn 1 0 0Thành thị 0 1 0Miền núi 0 0 1

Tiêu thức có k biểu hiện thì sẽ dùng k-1 biến giả, biểu hiện đượcgán trị trị 0 ở các biến giả được gọi là cơ sở

Hồi quy với biến giả

30/11/2018

86

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và giới tính (Nam, nữ)

b0

b2

iii DbXbbY 12110ˆ

171

Nữ (D1=0)

Nam (D1=1)

iii XbbbXbbY 1102110 0.ˆ

iii XbbbbXbbY 11202110 )(1.ˆ

Nữ:

Nam:

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và Khu vực (Thành thị, nông thôn, miền núi)

b0

b2

iiii DbDbXbbY 2312110ˆ

172

b3Miền núi (D1=0; D2=0)

Nông thôn (D1=1; D2=0)

Thành thị (D1=0; D2=1)

iii XbbbbXbbY 11032110 0.0.ˆ Miền núi:

iii XbbbbbXbbY 112032110 )(0.1.ˆ Nông thôn:

iii XbbbbbXbbY 113032110 )(1.0.ˆ Thành thị:

30/11/2018

87

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi, bằng cấp (có, không) và biến tương tác (tuổi và bằng cấp)

b0

b2

iiiii DXbDbXbbY 11312110 *ˆ

173

Không có bằng cấp (D1=0)

Có bằng cấp (D1=1)

iiii XbbXbbXbbY 110132110 0*.0.ˆ Không BC:

iiii XbbbbXbbXbbY 13120132110 )()(1*.1.ˆ Có BC:

Phân tích hồi qui logistic là một kỹ thuật thống kê để

xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến

phân loại) với biến phụ thuộc là biến nhị phân (biến có

2 biểu hiện 0 và 1).

4. Phương trình hồi quy logistic

174

30/11/2018

88

Phương trình hồi quy

175

Nếu gọi p là xác suất để một biến cố xảy ra, thì 1-p

là xác suất để biến cố không xảy ra. Phương trình

hồi qui logistic được xây dựng như sau:

Phương trình hồi quy logistic

176

ixp

podds

)1

ln()ln(

ixep

p 1

i

i

x

x

eep

1

30/11/2018

89

Phương pháp xác định các hệ số hồi quy là phương

pháp hợp lý tối đa - maximum likelihood

Yi là biến phụ thuộc (biến nhị phân – 1 là xảy ra biến cố,

0 là không xảy ra biến cố)

Phương trình hồi quy logistic

177

)ˆˆ(

1)ˆˆ(

11

i

i

xiii

xi

exyxey

: Khi x tăng lên một đơn vị thì làm cho ln(odds) tăng lên lần

Nếu gọi odds0 khi xi=0 thì odds0=e

Nếu gọi odds1 khi xi = 1 thì odds1=e+

Tỷ số chênh (odds ratio - OR)

Như vậy, khi x tăng lên một đơn vị thì làm cho khả năng (xác

suất) biến cố xảy ra bằng e lần (so với với cũ)

Ý nghĩa của các hệ số

178

ee

eoddsoddsOR

0

1

ixp

podds

)1

ln()ln(

30/11/2018

90

Kiểm định Wald Chi-Square

.

Quy tắc đưa ra kết luận như quy tắc kiểm định

Kiểm định hệ số hồi quy

179

2

)ˆ(

ˆ

seSquareChiWald

Đo lường độ phù hợp tổng quát của mô hình hồi quy

logistic dựa vào chỉ tiêu -2LL

-2LL càng nhỏ thể hiện độ phù hợp mô hình càng cao

(bằng 0 tức là không có sai số)

Cũng có thể đánh giá mô hình dựa vào bảng phân loại

(clasification table)

Độ phù hợp của mô hình

180

30/11/2018

91

Dùng kiểm định Chi-Square:

Căn cứ vào mức ý nghĩa quan sát trong bảng Omnibus

Tests of Model

Kiểm định độ phù hợp của mô hình

181

Chọn Analysis> Regression> Binary Logistic…


182

30/11/2018

92

Nhấn Options…


183

I

KHÁI NIỆM CHUNG VỀ DÃY SỐ THỜI GIAN

II

PHÂN TÍCH ĐẶC ĐIỂM BIẾN

ĐỘNG CỦA HIỆN TƯỢNG QUA THỜI GIAN

III

PHÂN TÍCH CÁC THÀNH PHẦN CỦA DÃY SỐ THỜI GIAN

BÀI 5

PHÂN TÍCH DÃY SỐ THỜI GIAN VÀ DỰ ĐOÁN THỐNG KÊ

IV

DỰ ĐOÁN THỐNG KÊ

30/11/2018

93

I. Khái niệm chung về DSTG

Dãy số thời gian là một dãy trị số của chỉ tiêuthống kê được sắp xếp theo thứ tự thời gian

Năm 2013 2014 2015 2016 2017GO (trđ) 6.000 6.400 7.000 7.200 7.500

Có số liệu về giá trị hàng hoá dự trữ của một doanh nghiệptrong năm 2017 như sau:Ngày 1/1 1/4 1/7 1/10 31/12Gtrị(trđ) 300 320 360 340 380

Ví dụ: Có số liệu về giá trị sản xuất (GO) của doanh nghiệp A quacác năm:

II. Các chỉ tiêu phân tích đặc điểm biến động của hiện tượng qua thời gian

Mức độ bình quân qua thời gian1

Tốc độ phát triển 3

Giá trị tuyệt đối của 1% của tốc độ tăng (giảm)5

Tốc độ tăng (giảm)4

Lượng tăng (giảm) tuyệt đối 2

30/11/2018

94

1. Mức độ bình quân qua thời gian

Ý nghĩa: Mức độ bình quân theo thời gian phản ánh

mức độ đại biểu của tất cả các mức độ của dãy số.

n

y

nyyyyy

n

ii

nn

1121 ...

* Cách tính

+ Đối với dãy số thời kỳ:


+ Đối với dãy số thời điểm:

2CKDK yyy

* Dãy số biến động đều:

30/11/2018

95



12

...2 12

1

n

yyyy

yn

n

* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian bằng nhau:



i

ii

ttyy

* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian không bằng nhau:

30/11/2018

96

Chỉ tiêu Liên hoàn Định gốc MLH Bình quân

2. Lượng tăng (giảm) tuyệt đối

3. Tốc độ phát triển

4 Tốc độ tăng (giảm)

x

5. Giá trị tuyệt đối của 1% tốc độ tang (giảm) x x

1 iii yy 1yyii

i

iii

2

111

12

nyy

nnnn

n

ii

)100(1

i

ii y

yt )100(1y

yT ii

i

iii tT

21

1

11

2

n

nnn

nn

ii y

yTtt

)100(1(%)

)100(

)100(

1

1

1

i

i

i

i

iii

ty

yyya

)100(1(%)

)100(

)100(

1

1

1

i

i

ii

Ty

yyyA

)100(1(%) ta

100100

(%)

1

1

i

i

i

i

i

ii

y

y

ag

100100

(%)

1

1

y

y

AG

i

i

i

ii

Không tính

III. Phân tích các thành phần dãy số thời gian

Xu hướng (T)

Thời vụ/chu kỳ (S) Các yếu tố

ngẫu nhiên (I)

ISTY

ISTY

Mô hình kết hợp cộng

Mô hình kết hợp nhân

30/11/2018

97



Phương pháp biểu hiện biến động thời vụ2

Phương pháp biểu diễn xu hướng1

30/11/2018

98

1. Phương pháp biểu diễn xu hướng

Phương pháp bình quân trượta

Phương pháp hàm xu thếb

Dãy số được hình thànhbởi các số bình quân trượt

số bình quân cộng của mộtnhóm nhất định các mức độđược tính bằng cách lầnlượt loại trừ dần mức độđầu đồng thời thêm vào cácmức độ tiếp theo sao chosố lượng các mức độ thamgia tính số bình quân làkhông đổi

Số bình quân trượt

Dãy số bình quân trượt

a. Phương pháp bình quân trượt

30/11/2018

99

3321

2yyyy

312

1nnn

nyyyy


Yi Bình quân trượtY1 -Y2 Ỹ2

Y3 Ỹ3

Y4 :Y5 :

:Yn-1 Ỹn-1

yn -

3432

3yyyy


k

yyyy

kiiki

i

5,0

25,0

2

......

k

yyyy

kiiki

i

122

......

Giả sử có dãy số thời gian: y1, y2, y3,… yn

Nếu k lẻ:

Nếu k chẵn:

)5,02

;5,02

( knki

)12

;12

( knki

30/11/2018

100


0

50

100

150

200

250

300

350

400

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

Hàm số biểu hiện các mức độ của hiện

tượng qua thời gian

Khái niệm Một số dạng hàm

xu thế

b. Hàm xu thế

ii tbby 10ˆ

2210ˆ iii tbtbby

ii t

bby 10ˆ )(ˆ ii tfy

30/11/2018

101

Hàm xu thế tuyến tính

210

10

...

iiii

ii

tbtbyttbbny

ii tbby 10ˆ

Hàm xu thế parabol

n

i

n

iii

n

ii

n

iii

n

i

n

i

n

i

n

iiiiii

n

i

n

i

n

iiii

tbtbtbyt

tbtbtbyt

tbtbbny

1 1

42

31

1

20

1

2

1 1 1 1

32

210

1 1 1

2210

.

.

.

2210ˆ iii tbtbby

30/11/2018

102

Hàm xu thế Hyperbol

n

i

n

i

n

i iii

i

n

i

n

i ii

tb

tb

ty

tbbny

1 1 1210

1 110

11

1.

ii t

bby 10ˆ

Tiêu chuẩn lựa chọn hàm xu thế

minˆ 2

pnyySE ii

30/11/2018

103

Định nghĩa yếu tố thời gian

Data>Define Dates..

205

Dữ liệu thời gian (dữ liệu chuỗi) là dữ liệu mà mỗi dòng (quan sát) làsố liệu ở một thời gian nhất định (tháng, quý, năm,...)

Dự đoán dựa vào hàm xu thếAnalyze>Regression > Curve Estimation…

206

30/11/2018

104

Biến động thời vụ là sự biến động của

hiện tượng có tính chất lặp đi lặp lại

trong từng thời gian nhất định của năm

Cách xác định

2. Phương pháp biểu hiện biến động thời vụ

Cách xác định


Chỉ số thời vụ (khi dãy số không có xu thế)

30/11/2018

105

Cách xác định


Chỉ số thời vụ (khi dãy số không có xu thế)Gọi yij là mức độ của hiện tượng ở thời vụ thứ j của năm thứ i, (i=1,n);(j=1,m)

nm

y

n

y

m

y

n

y

yy

S m

j

n

iij

n

iij

m

jj

n

iij

jj

1 1

1

1

1

0

Cách xác định


Chỉ số thời vụ (khi dãy số có xu thế)

30/11/2018

106

Cách xác định


Chỉ số thời vụ (khi dãy số có xu thế)

Tính chỉ số thời vụ lần lượt theo từng bước sau:

- Xác định xu thế (bình quân trượt, hàm xu thế,…)

- Khử yếu tố xu thế

- Khử yếu tố ngẫu nhiên (tính bình quân)

- Điều chỉnh chỉ số thời vụ

Cách xác định

B1. Xác định xu thế

Tính bình quân trượt (với k =m)

- Nếu số liệu theo quý, tính bình quân trượt 4 mức độ (đặt

mức độ đầu tại y3)

- Nếu số liệu theo tháng, tính bình quân trượt 12 mức độ

(đặt mức độ đầu tại y7)

30/11/2018

107

Cách xác định

B2. Loại trừ xu thế

- Đối với mô hình cộng: Y –T = S + I

- Đối với mô hình nhân: Y/T = S * I

Cách xác định

B3. Loại bỏ ngẫu nhiên

- Đối với mô hình cộng: Tính bình quân cộng giản đơn

- Đối với mô hình nhân: Tính bình quân cộng trung tâm

(Medial average – Trung bình cộng của các lượng biến

loại trừ lượng biến nhỏ nhất và lớn nhất)

30/11/2018

108

Cách xác định

B4. Điều chỉnh chỉ số thời vụ

- Đối với mô hình cộng: Tổng chỉ số thời vụ bằng không (0).

Mức độ điều chỉnh bằng tổng chỉ số thời vụ chia cho m

- Đối với mô hình nhân: Tổng chỉ số thời vụ bằng m. Hệ số

điều chỉnh bằng Tổng chỉ số thời vụ chia cho m

Chỉ số thời vụAnalyze>Forecasting > Seasonal Decomposition…

216

30/11/2018

109

IV. Một số phương pháp dự đoán thống kê

Dự đoán dựa vào xu thế1

Dự đoán dựa vào san bằng mũ3

Dự đoán dựa vào xu thế kết hợp thời vụ2

1. Dự đoán dựa vào hàm xu thếAnalyze>Regression > Curve Estimation…

218

30/11/2018

110

2. Dự đoán dựa vào hàm xu thếvà chỉ số thời vụ

219

Sử dụng khi dãy số thời gian có xu thế rõ ràng theo thời gian vàbiến động mùa vụ:- Loại bỏ yếu tố thời vụ khỏi dãy số- Tiến hành biểu diễn xu thế f(t) (dãy số đã loại thời vụ).

jt Stfy ˆ

jt Stfy ˆ



Trong đó Sj là các chỉ số ở thời vụ thứ j

- San bằng mũ giản đơn

- San bằng mũ kết hợp xu hướng

- San bằng mũ kết hợp xu hướng và thời vụ

+ Kết hợp cộng

+ Kết hợp nhân

Lựa chọn mô hình san bằng mũ tốt nhất (dựa

vào RMSE)

3. Dự đoán dựa vào san bằng mũ

220

30/11/2018

111

Vấn đề là việc chọn thông thường chọn

San bằng mũ giản đơn

)yy.(yy tttt 1

ttt yyy ˆ).1(.ˆ 1

11 ˆ).1(.ˆ ttt yyy

10 Trong đó

Hoặc

Thay

12

1111 ˆ.)1(.).1(.ˆ).1(.).1(.ˆ ttttttt yyyyyyy

Tiếp tục thay thế, ta có:

111

33

22

11 11111 y.)(y......y..y.).(y)..(y.y ttttttt

1y 11ˆ yy

221

Dự đoán dựa vào san bằng mũ

Date

Q4 2000

Q3 2000

Q2 2000

Q1 2000

Q4 1999

Q3 1999

Q2 1999

Q1 1999

Q4 1998

Q3 1998

Q2 1998

Q1 1998

Q4 1997

Q3 1997

Q2 1997

Q1 1997

Q4 1996

Q3 1996

Q2 1996

Q1 1996

Number

250

200

150

100

50

VAR00001-Model_1

222

30/11/2018

112

San bằng mũ kết hợp xu hướng – mô hình Holt

hbLy ttht .ˆ

))(1(. 11 tttt bLyL

11 ).1( tttt bLLb

10

121 yyb Thông thường chọn và

,

11 yL

223

San bằng mũ kết hợp xu hướng,

Date

Q4 2000

Q3 2000

Q2 2000

Q1 2000

Q4 1999

Q3 1999

Q2 1999

Q1 1999

Q4 1998

Q3 1998

Q2 1998

Q1 1998

Q4 1997

Q3 1997

Q2 1997

Q1 1997

Q4 1996

Q3 1996

Q2 1996

Q1 1996

Number

250

200

150

100

50

VAR00001-Model_1

224

30/11/2018

113


San bằng mũ kết hợp xu hướng và thời vụ(Mô hình Holt – Winters)

hstttht ShbLy ..ˆ

)).(1(. 11

tt

st

tt bL

SyL

11 ).1(. tttt bLLb

stt

tt S

LyS

).1(.

225


San bằng mũ kết hợp xu hướng và thời vụ

43214 41 yyyyL

444441 444334224114

4yyyyyyyy

b

41

1 LyS

42

2 LyS

43

3 LyS

44

4 LyS

226

30/11/2018

114

Mô hình kết nhân


Date

Q4 2000

Q3 2000

Q2 2000

Q1 2000

Q4 1999

Q3 1999

Q2 1999

Q1 1999

Q4 1998

Q3 1998

Q2 1998

Q1 1998

Q4 1997

Q3 1997

Q2 1997

Q1 1997

Q4 1996

Q3 1996

Q2 1996

Q1 1996

Number

250

200

150

100

50

VAR00001-Model_1

227

Mô hình kết cộng


hstttht ShbLy .ˆ )).(1(. 11 ttsttt bLSyL

11 ).1(. tttt bLLb

stttt SLyS ).1(.

228

30/11/2018

115



Date

Q4 2000

Q3 2000

Q2 2000

Q1 2000

Q4 1999

Q3 1999

Q2 1999

Q1 1999

Q4 1998

Q3 1998

Q2 1998

Q1 1998

Q4 1997

Q3 1997

Q2 1997

Q1 1997

Q4 1996

Q3 1996

Q2 1996

Q1 1996

Number

250

200

150

100

50

VAR00001-Model_1

229

Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…

230

30/11/2018

116


231


232

30/11/2018

117

Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…

233

Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…

234

nỘi dung - vai.org.vnvai.org.vn/docs/daotao/tke-spss/tke_spss.pdf · 30/11/2018 3 1. thống kê...

Documents