spss lesson5.1 phan tich_tuong_quan_correlation

25
Hoàng Sĩ Thính Học viện Nông nghiệp Việt Nam Email: [email protected] Facebook: [email protected] Điện thoại: 0942293689 CHUYÊN GIA TƯ VẤN TỰ DO VỀ SỬ DỤNG SPSS, THIẾT KẾ NGHIÊN CỨU, THIẾT KẾ CÔNG CỤ THU THẬP (PHIẾU ĐIỀU TRA), XỬ LÝ VÀ PHÂN TÍCH SỐ LIỆU KINH TẾ XÃ HỘI Phần 4 – Kỹ thuật thống kê phân tích mối quan hệ giữa các biến 11 – Phân tích tương quan (Correlation)

Upload: si-thinh-hoang

Post on 16-Jul-2015

394 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Hoàng Sĩ ThínhHọc viện Nông nghiệp Việt NamEmail: [email protected]: [email protected]Điện thoại: 0942293689

CHUYÊN GIA TƯ VẤN TỰ DO VỀ SỬ DỤNG SPSS, THIẾT KẾ NGHIÊN CỨU, THIẾT KẾ CÔNG

CỤ THU THẬP (PHIẾU ĐIỀU TRA), XỬ LÝ VÀ PHÂN TÍCH SỐ LIỆU KINH TẾ XÃ HỘI

Phần 4 – Kỹ thuật thống kê phân tích mối quan hệgiữa các biến

11 – Phân tích tương quan (Correlation)

1. Ôn lại khái quát về Correlation

• Correlation để làm gì???

Dựa vào đặc điểm số liệu, có 2 dạng Correlation:

• Pearson’s Correlation: được thiết kế cho biến liên tục (interval và ratio),

hoặc cho cặp biến bao gồm một biến liên tục và một biến dichotomous

(???)

• Pearman Rho (hay Pearman Rank Order Correlation): được sử dụng

cho các số liệu dạng ranking (ordinal), và các số liệu không thỏa mãn

giả định của thống kê Pearson’s Correlation

SPSS sẽ giúp tính cả hai dạng Correlation trên ở các cấp độ khác nhau:

• Tương quan chỉ có hai biến (bivariate correlation, hay tương quan không

thứ bậc – zero order correlation)

• Tương quan từng phần (Partial Correlation): bạn còn nhớ gì nào???

Có rất nhiều những yếu tố cần quan tâm khi sử dụng hệ số tương quan:

Ảnh hưởng của phi tuyến (non-linear), outliers, restriction of range,

correlation versus causality and statistical versus practical significance.

2. Quy trình sử dụng kỹ thuật CorrelationHãy mở file Survey5ED ra

Câu hỏi nghiên cứu: “có mối quan hệ giữa mức độ tự kiểm soát và mức độ áp

lực trong cuộc sống? Có phải mức độ tự kiểm soát bản thân cao thường cảm

thấy ít áp lực hơn?”

Bạn cần phải có:

• Hai biến: cả hai biến đều liên tục, hoặc một biến liên tục, một biến dạng

dichotomous (two values)

Kỹ thuật sẽ giúp gì?:

Chỉ ra mối liên hệ giữa hai biến (cả độ mạnh và chiều hướng)

Những giả định nào cần quan tâm?: Xem lại Phần 4 – Khái quát

Thống kê phi tham số có thể thay thế: Spearman’s Rank Order Correlation

(Rho)

Tiếp theo: bạn sẽ chạy các phân tích chuẩn bị cho Correlation

Chạy Scatter plot. Để làm gì???

• Kiểm tra các giả định về Non-linear, về homoscedasticity

• Cho bạn biết căn bản về mối quan hệ giữa hai biến

Các bước thực hiện để chạy Scatter plot:

1. Graph/ Legacy Dialogs/ Simple Scatter/ Define

2. Đưa biến thứ nhất vào hộp Y-Axis. Thông thường, đó là phiến phụthuộc (vd: total perceived stress)

3. Chọn và đưa biến thứ hai vào hộp X-Axis. Thông thường, đó là biếnđộc lập (vd: total PCOISS)

4. Trong hộp Label Cases by, hãy chọ ID. Tại sao??? (outliers can beidentified)

5. Continue/ Ok hoặc Paste để ghi lại Syntax Editor

Bạn sẽ có một biểu đồ như ở Slide sau:

2. Quy trình sử dụng kỹ thuật Correlation (tiếp) Các phân tích chuẩn bị cho Correlation - Hãy mở file Survey3ED ra

Bạn nhận thức kết quả từ Scatter Plot ra sao???

Bước 1: nhận thức về Outliers

1. Các giá trị quá thấp, quá cao so với xu hướng chính

2. Cần kiểm tra tại sao có outliers???

3. Chỉ ra cases có outliers:

– Double click vào biểu đồ, vào Elements/ Data Label Model

– Đưa con trỏ chuột đến các cases là outliers, click vào đó bạn sẽ biết tên của cases

Bước 2: Kiểm tra phân bố của số liệu

1. Số liệu quả tỏa quá rộng không? Nếu có, correlation sẽ thấp

2. Tất cả các điểm có tập trung như một điếu thuốc không? Nếu có, nó ngụ ý một mối tương quan chặt

chẽ

3. Một đường thẳng hay một đường cong sẽ đại diện cho các điểm trên biểu đồ? Chú ý, nếu là đường

thẳng thì việc sử dụng tương quan Pearson mới hợp lý.

4. Hình dáng của các đám đông (các điểm tụ tập thế nào) có được đều đặn ở cả hai đầu không? Nếu

không, số liệu có thể vi phạm giả định về homoncedascity

Bước 3: Nhận thức về chiều hướng mối quan hệ giữa hai biến

Sau khi bạn đã chắc chắn rằng có một mối quan hệ linear giữa hai biến, và các điểm quan hệ tạo thành

hình một điếu thuốc, bạn đã thực sự sẵn sàng cho việc tính hệ số tương quan Pearson hoặc Pearman

Trước khi chạy, hãy chắc chắn bạn vào Edit/ Options/ No scientific notation for small numbers in tables

1. Analyze/ Correlate/ Bivariate

2. Chọn các biến (2 biến) cần phân tích đưa vào hộp

Variables (vd: biến total perceived stress và total

PCOISS)

3. Trong phần Correlation Coefficients chọn Pearson

hoặc Pearman Rho (tùy vào hướng đi của bạn)

4. Options/ Missing Values/ Exclude Cases Pairwise; Có

thể chọn thêm mean, standard deviation (nếu muốn)

5. Continue/ Ok, hoặc Paste để ghi lại Syntax Editor

2. Quy trình sử dụng kỹ thuật Correlation (tiếp) Chạy Correlation (hoặc là Pearson r hoặc Pearman Rho)

Hãy mở file Survey3ED ra

3. Nhận thức kết quả Correlation như thế nào???

Bước 1: Kiểm tra thông tin về mẫu

• Số N (số mẫu): có đúng hay không?

• Có quá nhiều số liệu missing không? Tại sao lại như vậy? Bạn đã chọn Exclude

cases pairwise trong khi phân tích không? (có liên quan gì đến N???)

Bước 2: Kiểm tra xu hướng mối quan hệ giữa hai biến: positive or negative? Hãy

chú ý đến các items trong các biến (nếu có), liệu chúng có đang bị “tiêu cực” trong

cách đặt câu hỏi (ở phiếu điều tra) không? Nhớ rằng điều này sẽ ảnh hưởng

nghiêm trọng đến chiều hướng mối quan hệ giữa 2 biến.

Bước 3: Kiểm tra độ mạnh của mối quan hệ

• Các giá trị đặc biệt của r (hoặc rho): -1, 0, 1???

• Quan hệ thế nào được gọi là mạnh??? Học giả Cohen (1988, pp. 79-81) cho

rằng:

– Small: r = 0.10 đến 0.29

– Medium: r = 0.30 đến 0.49

– Large: r = 0.50 đến 1.00

Bước 4: Tính ra hệ số xác định mối quan hệ (coefficient of determination)

• Hệ số này cho biết mức độ biến động chung xu thế của cả hai biến(shared variance). Vẽ hình để giải thích!!!

• Tính như thế nào? Lấy bình phương hệ số r hoặc rho. Giải thích!!! Mô tả ví dụ trong slide trước!!!

Bước 5: Đánh giá về độ tin cậy (significant level)

• Độ tin cậy cho biết về khả năng tin cậy được đối với hệ số r hoặcrho

• Độ tin cậy phụ thuộc nhiều vào mẫu, mẫu càng lớn độ tin cậy càngcao

• One-tailed hoặc Two-tailed:

3. Nhận thức kết quả Correlation như thế nào??? (tiếp)

4. Báo cáo kết quả chạy tương quan như thế nào???

4. Báo cáo kết quả chạy tương quan như thế nào??? (tiếp)

5. Tính hệ số tương quan giữa các nhóm biến(Obtaining correlation coefficient between groups of variables)

• Cách thức tìm ra hệ số tương quan giữa các nhóm biến cũng có thể được thực hiệnnhư đối với hai biến (bằng cách đưa tất cả các biến vào hộp Variables), nhưng SPSSsẽ tạo ra một ma trận correlation rất phức tạp

• Ví dụ: bạn chỉ muốn tính hệ số correlation giữa các biến thuộc hai nhóm gồmControl measures (bao gồm biến Mastery, và PCOISS) và nhóm different measures(bao gồm positive effect, negative effect, và life satisfaction), chứ không phải tính rahệ số correlation cho tất cả các biến ở hai nhóm này (rất nhiều). Syntax Editor sẽgiúp bạn làm việc này

Các bước thực hiện như sau:

1. Analyze/ Correlate/ Bivariate

2. Chuyển tất cả các biến bạn muốn tính hệ số correlation vào hộp Variables. Chú ýchuyển hết biến của nhóm 1 (tposaff, tnegaff, tlifesat) rồi đến nhóm 2 (tpcoiss,tmast)

3. Suy nghĩ này: Trong phần output mà mình sẽ có, thông tin sẽ được mô tả theokiểu các biến nhóm 1 sẽ được liệt kê theo dòng, các biến thuộc nhóm 2 sẽ đượcliệt kê theo cột của một bảng. Do đó, bạn nên chú ý nhập biến ở nhóm có nhiềubiến hơn trước rồi đến biến ở nhóm còn lại.

4. Nhấn vào Paste, bạn sẽ thấy xuất hiện Syntax Editor

Sau bước 4 bạn sẽ thấy xuất hiện cửa sổ như sau:

5. Hãy để con trỏ chuột vào giữa hai nhóm biến trong cửa sổ trên (tposaff, tnegaff, tlifesat, và tpcoiss, tmast) rồi gõ chữ “with” như sau:

5. Tính hệ số tương quan giữa các nhóm biến(Obtaining correlation coefficient between groups of variables)Các bước thực hiện như sau (tiếp):

Tôi đố bạn biết bước 5 ở trên là để làm gì???

6. Để tính ra các hệ số correlation như mục tiêu bạn muốn (trước bước 1), bạnhãy bôi đen (highlight) từ chữ CORELATION đến hết dấu chấm (.) trong Syntax Editor mà bạn vừa hoàn thành ở bước 5

7. Ấn vào nút hình tam giác trên Syntax Editor (hoặc vào Menu/Run)

5. Tính hệ số tương quan giữa các nhóm biến(Obtaining correlation coefficient between groups of variables)Các bước thực hiện như sau (tiếp):

5. (tiếp) Kết quả như sau:

Nhìn trực diện, kết quả ở bảng này có thể dùng để so sánh một cách dễ dàng vềđộ mạnh trong tương quan giữa các biến kiểm soát (Total PCOISS và Total Mastery) và các biến hiệu chỉnh (total positive effect, total negative affect, vàtotal life satisfaction)

6. So sánh hệ số tương quan giữa hai nhóm

Đôi khi vì mục đích nào đó bạn cần so sánh độ mạnh trong tương quan giữa các

biến của hai nhóm khác nhau. Vd: bạn muốn so sánh quan hệ giữa tổng mức độ

lạc quan (Total optimisms) và tổng ảnh hưởng tiêu cực (Total negative affect) giữa

hai nhóm nam (males) và nữ (females)

Các bước thực hiện sẽ như sau:

Bước 1: Chia mẫu điều tra thành hai nhóm (split the sample)

1. Hãy chắc chắn bạn đang ở cửa sổ Data Editor

2. Data/ Split File

3. Nhấn Compare Group

4. Chuyển biến mà bạn muốn phân nhóm (vd: sex) vào hộp Group based on/

Ok

Đến đây, số liệu của bạn đã được chia thành hai nhóm dựa trên tiêu thức sex. Và

cũng từ đây, tất cả các phân tích sẽ được thực hiện riêng rẽ cho hai nhóm này.

Bước 2: chạy Correlation

Bạn sẽ thao tác bình thường như đã trình bày trong phần chạy ra hệ số tương quan. Bạn thử xem nào???

Và đây là kết quả:

6. So sánh hệ số tương quan giữa hai nhómCác bước thực hiện sẽ như sau: (tiếp)

Chú ý: Nếu từ các phân tích sau bạn không muốn so sánh giữa hai nhóm male và female

nữa, hãy tắt chức năng Split File đi là được. Cách làm như sau:

Trên cửa sổ Data Editor, vào Data/ Split File/ Analyze all cases, do not create groups/ Ok

Bạn hãy xem lại bảng ở slide trước. Bạn sẽ thấy:

• Hệ số tương quan giữa Total optimism và Total negative affect của nhóm

male là: r = -.22

• Trong khi đó, ở nhóm female thì r = -.39

Bạn có kết luận gì???

Liệu chúng có đủ khác nhau đến mức statistical significant? Để trả lời câu hỏi

đó, “Tôi” (chứ không phải SPSS) sẽ giúp bạn test sự khác biệt giữa hai hệ số này

(nhớ nhé, cái này khác với kiểm định ý nghĩa của từng hệ số r trong bảng ở slide

trước!!!)

• Kiểm định sự khác biệt giữa r của hai nhóm (male và female) nghĩa là đánh

giá khả năng (xác xuất) của sự kiện rằng sự khác biệt giữa hệ số tương quan

(giữa total optimism và total negative affect) của hai nhóm này (male và

female) có thể xảy ra bởi lý do sai số mẫu (sample error), trong khi trên thực

tế không hề có sự khác biệt này.

• Nội dung này được trình bày trong một vài slide tiếp theo:

6. So sánh hệ số tương quan giữa hai nhóm

Nhận thức kết quả ra sao???

7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quan

Rất tiếc SPSS không có chức năng này!!! Do đó, ta phải làm bằng công nghệ

thủ công.

Nó hơi phức tạp, nhưng đại khái trải qua các bước gồm:

• bước 1 – chuyển giá trị r sang giá trị z;

• bước 2 – tính giá trị zobs;;

• bước 3 – sử dụng giá trị zobs cùng với một số luật thống kê để kết luận về ý

nghĩa của sự khác biệt giữa hai giá trị r của hai nhóm cần nghiên cứu.

Ta sẽ làm dần từng bước ở slide sau

Các giả định trước khi thực hiện:

• Các r của mỗi nhóm có được từ các mẫu ngẫu nhiên (random samples)

• Các cases (người trả lời) trong mỗi nhóm là độc lập (không phải là điều tra

lặp)

• Giá trị các biến quan sát của mỗi nhóm phải có phân phối chuẩn

• Mỗi nhóm cần có ít nhất 20 cases (phiếu điều tra)

Bước 1: Chuyển giá trị r của mỗi nhóm thành giá trị z. Vì sao???

• Từ kết quả tính tương quan, hãy tìm ra giá trị r và N cho mỗi nhóm

• Sau đó hãy dùng bảng ở slide phía sau để tìm ra giá trị z cho mỗinhóm như sau:

7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quanCác bước thực hiện:

• Bước 2: Tính giá trị zobs theo công thức sau:

• Bước 3: Kết luận về ý nghĩa thống kê về sự khác biệt giữa hai giá trịr của hai nhóm theo hướng dẫn sau:

• Bạn kết luận gì về sự khác biệt giữa hai giá trị r cho nhóm male vàfemale trên?

7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quanCác bước thực hiện:

Bài tập thực hành - Health

Bạn hãy mở file sleep3ED ra

1. Hãy kiểm tra độ mạnh trong tương quan giữa các biến

Sleepiness and Associated Sensation Scale (totSAS) và biến

Epworth Sleepiness Scale (ess)

2. Hãy sử dụng chức năng Syntax Editor để kiểm tra tương quan

giữa biến Epworth Sleepiness Scale (ess) và các thành phần

tạo nên biến Sleepiness and Associated Sensations Scale

(bao gồm fatigue, lethargy, tired, sleepy, energy)

Tham khảo

CÁC KIẾN THỨC TRONG SLIDES ĐƯỢC KHAI THÁC TỪ NGUỒN www.openup.co.uk/spss