spssnotes

ΣΗΜΕΙΩΣΕΙΣ SPSS

Γενικά

Κάθε γραμμή αντιστοιχεί σε πειραματική μονάδα (ερωτηματολόγιο). Κάθε στήλη

αντιστοιχεί σε διαφορετικές ερωτήσεις του ερωτηματολογίου.

Μεταβλητές: Scale= ποσοτική, Ordinal= ποιοτική Διατάξιμη, Nomimal= ποιοτική Ονοματική

Μεταβλητές Πολλαπλής Επιλογής

Σε πολλές περιπτώσεις υπάρχουν ερωτήσεις με δυνατότητα να πάρουμε περισσότερες

από μια απαντήσεις (π.χ. ποιο άθλημα σας άρεσε: ποδόσφαιρο, βόλευ, μπάσκετ, …). Αν

σε κάποιον αρέσει πάνω από ένα άθλημα πως γίνεται η εισαγωγή της ερώτησης αυτής;

Για τις ερωτήσεις αυτού του τύπου ακολουθούμε τα παρακάτω βήματα.

1. Δημιουργούμε μια στήλη (μεταβλητή) στην οποία θ δώσουμε το όνομα “name_1”. Ο

τύπος της είναι αριθμητική (numeric) και η μεταβλητή θα είναι ποιοτική.

2. Δημιουργούμε τόσες φορές την προηγούμενη μεταβλητή όσες και οι διαφορετικές

επιλογές απάντησης που έχουμε. Οι μεταβλητές αυτές θα πάρουν ονόματα

name_1, name_2, … Η διαδικασία αυτή θα γίνει ως εξής Με το ποντίκι πάμε στην

γραμμή της μεταβλητής name_1 και με δεξό κλικ κάνω ντιγραφή. Στην συνέχεια

επιλέγω τόσες γραμμές όσες και οι μεταβλητές που θέλω να δημιουργήσω και κάνω

επικόλληση ή επικόλληση μεταβλητών.

3. Εισαγωγή δεδομένων. Αν υπάρχει μια μόνον απάντηση καταχωρείτε ανεξαρτήτως

κωδικού στην στήλη name_1. Αν υπάρχουν 2, 3, … ή πεισσότερες απαντήσεις

καταχωρούνται αντίστοιχα στις 2 πρώτες ή 3πρώτες, … κλπ. αντίστοιχα στήλες

ανεξαρτήτου κωδικού. Είναι φανερό ότι αν δεν υπάρχει απάντηση δεν καταχωρείτε

τίποτα. Με βάση τα παραπάνω στις στήλες name_1 .. _2… κλπ μπορεί να μην έχω

δεδομένα.

athlima_1 athlima_2 athlima_3 athlima_41 ποδόσφαιρο - - -2 μπάσκετ πόλο - -3 - - - -4 ποδόσφαιρο βόλευ πόλο μπάσκετ5 ποδόσφαιρο - - -6 βόλεϊ - - -7 βόλεϊ πόλο - -

1

4. Για να καταλάβει το SPSS ότι οι στήλες αυτές συνηστούν μια μεταβλητή

ακολουθούμε τα βήματα: analyze multiple response define sets. Στο

παράθυρο variable set κάνω συγχώνευση της μεταβλητής στο name το όνομα

χωρίς προέκταση _1… και στο label βάζω την ετικέτα. Ενεργοποιώ την επιλογή

categories και εισάγω στην περιοχή range την κωδικοποίηση που έδωσα (π.χ. 1-4

…1.ποδόσφαιρο, 2.βόλευ….) Στην συνέχεια πατάω το add (το $ σημαίνει

μεταβλητή πολλαπλής μεταβλητής) Στον data editor δεν παρατηρώ καμία

μεταβολή. Η μεταβολή του $ name έχει δημιουργηθεί. (με το save δεν σώζεται η $

name)

Ομαδοποίηση Δεδομένων

Ομαδοποίηση Ποσοτικών Δεδομένων

Όταν έχω στην διάθεσή μου μια ποσοτική μεταβλητή πολλές φορές είναι απαραίτητη η

ομαδοποίησή της έτσι ώστε να έχω την μεταβλητή αυτή σε πιο ανεπτυγμένη μορφή. Η

διαδικασία αυτή επιτυγχάνεται με την παρακάτω διαδικασία.

1. transform recode into deferent variable (για δημιουργία νέας) Επιλέγω πάντα

την deferent έτσι ώστε η ποσοτική μεταβλητή να ομαδοποιηθεί σε νέα και να μην

χαθεί η αρχική.

2. Επιλέγω την ποσοτική μεταβλητή και την εισαγάγω στο παράθυρο input - output

variable. Εμφανίζεται η ένδειξη name_? ενώ ταυτόχρονα ενεργοποιούνται τα πεδία

name και label δεξιά. Ορίζω στο πεδίο name το όνομα ης νέας μεταβλητής (δεν

πρέπει να υπάρχει μεταβλητή με το ίδιο όνομα, π.χ. g_name) και στο πεδίο label

την περιγραφή της. Στην συνέχεια ενεργοποιώ το πλήκτρο change και

αντικαθίσταται το ερωτηματικό με το όνομα της μεταβλητής.

3. Ενεργοποιώ το πλήκτρο old & new value. Ο πίνακας είναι χωρισμένος σε δύο

ενότητες. Τα διαστήματα είναι της μορφής (α,β), (α,β], [α,β), [α,β], (α,+οο), [α,+οο],

(-οο,β), (-οο,β]. Για την δημιουργία αυτών των διαστημάτων χρησημοποιούνται οι

τρις επιλογές range. Η επιλογή _through_ χρησιμοποιείται για διαστήματα με τιμές

μεταξύ δύο άκρων και είναι ( , ]. Η επιλογή lowest through_ χρησημοποιείται για

διαστήματα όπου το αριστερό άκρο απειρίζει. Η επιλογή _ through heist

χρησιμοποιείτε για διαστήματα όπου το δεξί άκρο απειρίζει. Σημειώνουμε ότι όταν

μια τιμή είναι κάτω άκρο ενός διαστήματος στις επιλογές range αυτή δεν ανήκει στο

διάστημα. Αν είναι άνω άκρο αυτή ανήκει στο διάστημα ( (_through_] ). Σε κάθε

επιλογή range αφού σημειώσω τα όρια θα πρέπει να σημειώσω στο πεδίο value

2

στην περιοχή new value αντίστοιχο κωδικό (π.χ. 1,2,3,…) και να πατήσω το

πλήκτρο add (αντιστοιχίζετε το διάστημα με μια τιμή της ομάδας). Αφού

ολοκληρωθεί όλη η κωδικοποίηση ενεργοποιούμε το continue και στην συνέχεια το

ΟΚ και δημιουργείτε η νέα μεταβλητή που ζητήσαμε.

Για ομάδες ίσου μεγέθους επιλέγω frequency cut to equal points αρ. Ομάδων

Για ομάδες ίσου μήκους έχω : Κ(αρ. ομάδων) = 1 + 3,322logΝ(αρ. μετρήσεων) και d(μήκος

ομάδας) = R(=max-min, εύρος μετρήσεων) / K(αρ. ομάδων) και οι ομάδες μου είναι min,

min+d και προσθέτω κάθε φορά το d έως το max.

Πίνακας Συχνοτήτων Μεταβλητών Πολλαπλής Επιλογής

Για την δημιουργία πινάκων συχνοτήτων μεταβλητών πολλαπλής επιλογής ακολουθούμε

τα εξής βήματα.

1. Εισάγουμε τα δεδομένα με τον γνωστό τρόπο

2. Analyze multiple response frequencies Εισάγω την μεταβλητή μου από το

παράθυρο multi response sets στο παράθυρο tables for και πατάω ΟΚ.

Στον πίνακα συχνοτήτων που εμφανίζετε μας δίνονται οι εξής πληροφορίες

1. Ο αριθμός χαμένων και έγκυρων μετρήσεων

2. Η συχνότητα για κάθε κατηγορία της πολλαπλής μεταβλητής (count)

3. Ποσοστό επι των απαντήσεων (pct of responses) Οι τιμές της στήλης αυτής

προκύπτουν από το πηλίκο των συχνοτήτων προς τον συνολικό αριθμό

απαντήσεων (set of response = (counts / total response) %) Η ποσότητα αυτή

εκφράζει το ποσοστό επί των συνολικών απαντήσεων

4. Ποσοστό επί των περιπτώσεων (pct of cases = counts / valid cases) Οι τιμές της

στήλης αυτής προκύπτουν από το πηλίκο των συχνοτήτων

Η στήλη pct of responses αθροίζει πάντα στο 100% ενώ η στήλη pct of cases αθροίζει

πάντα άνω του 100%

Cases = ερωτηματολόγιο = μέτρηση = ερωτώμενος

Πίνακες Συνάφειας

Οι διασταυρούμενες απαντήσεις δίνονται με την βοήθεια των πινάκων συνάφειας. Οι

πίνακες αυτοί αποτελούνται από τόσες γραμμές και τόσες στήλες όσες και οι κατηγορίες

3

των υπο εξέταση ποιοτικών μεταβλητών. (π.χ. sex: 1.M, 2.F και Maridge: 1.ME, 2.DE,

3.Si) Ακολουθούμε τα παρακάτω βήματα

1. analyze descriptive statistics cross tabs

2. Επιλέγω τις δύο ποιοτικές μεταβλητές και τις εισαγάγω μια στο παράθυρο row και

μια στο παράθυρο column

3. Ενεργοποιώ το ΟΚ

Για την εισαγωγή ενός πίνακα συνάφειας στον data editor ακολουθώ τα εξής βήματα.

1. Δημιουργώ 3 στήλες τις οποίες ονομάζω αντίστοιχα row, col, freq

2. Ελέγχω την διάσταση του πίνακα συνάφειας. Έστω ότι αυτή είναι m γραμμές * n

στήλες. Τότε στην μεταβλητή row εισαγάγω τους αριθμούς 1, 2, 3, …., m κατά

τέτοιον τρόπο ώστε το 1 να εμφανίζεται n συνεχόμενες φορές, το 2 n συνεχόμενες

φορές κλπ. Στην στήλη col εισάγω τους αριθμούς 1, 2, 3, …, n διαδοχικά για κάθε

τιμή της στήλης row. Στην στήλη freq εισάγω την αντίστοιχη τιμή του πίνακα

συνάφειας που δημιουργείται από τον συνδυασμό τιμών των στηλών row και col.

π.χ.

colrow

1 2 3

0-4 5-7 8-101 2 5 212 7 10 23n * m = 3 * 2

3. data weight cases Εισάγω στο παράθυρο weight cases by την μεταβλητή freq

4. analyze descriptive statistics crosstabs Όπου row την στήλη row, όπου

column την στήλη col. (η στήλη freq έχει χρησιμοποιηθεί στο πεδίο weight cases)

(για labelsβάζω στο values 1:…, 2:…., …)

Crosstabs: Στο label βάζω την 3η μεταβλητή και εάν θέλω με το next βάζω 4η κλπ. (π.χ.

πόσοι άντρες είναι λευκοί, εισόδημα άνω των …, μέγεθος παπουτσιού…)

Analyze descriptive statistics crosstabs statistics

Το chi - square πραγματοποιεί το τέστ Χ2 του Pearson

Το correlation μας δίνει τον συντελεστή συσχέτησης του Pearson

Το Cell με ένδειξη observed μας εμφανίζει τις παρατηρούμενες συχνότητες σε έναν πίνακα

συνάφειας

row col freq1 1 21 2 51 3 212 1 72 2 102 3 23

4

Το Cell με ένδειξη expected μας εμφανίζει τις αναμενόμενες συχνότητες (θεωρητικές) σε

έναν πίνακα συνάφειας. Με τον όρο αναμενόμενη συχνότητα εννοούμε την συχνότητα που

θα έπρεπε να εμφανίζεται στην αντίστοιχη (I,j) θέση του πίνακα συνάφειας έτσι ώστε οι

μεταβλητές που εξετάζουμε να είναι ανεξάρτητες.

Το percentages (ποσοστό) μας δίνει ποσοστιαία : row με σημείο αναφοράς την γραμμή,

col την στήλη και total με σημείο αναφοράς το σύνολο.

Γραφήματα

Ποσοτικές (scale) Ιστόγραμμα Πολύγωνο Συχνοτήτων

Αθροιστικό Ιστόγραμμαcum N

Αθροιστικό Πολύγωνο Συχνοτήτων

Ποιοτικές (ordinal, Nominal)

Ραβδόγραμμα Κυκλικό Διάγραμμα

Στατιστικός Χάρτης

Ποσοτικές Μεταβλητές

Για την κατασκευή ιστογράμματος ακολουθώ τα βήματα: graphs histogram εισαγωγή

μεταβλητών στο variable

Για την κατασκευή ραβδογράμματος : graph bar simple define εισαγωγή στο

category axis

Για την κατασκευή σύνθετου ραβδογράμματος : Δίδεται η γραφική παράσταση μιας

μεταβλητής ως προς τις κατηγορίες μιας άλλης (οικογενειακή κατάσταση ως προς το

φύλλο, category axis : φύλο, define clusters by: οικογενειακή κατάσταση)

Για την κατασκευή κυκλικού διαγράμματος : graphs pie για missing graphs pie

options display groups defined by missing values

Μετατροπή γραφήματος : 2πλό κλικ δεξί κλικ properties variables element type

Κύρτωση

Αν μέση τιμή = διάμεσο = κορυφή Ẋ=Μ=Κ τότε έχω συμμετρική κατανομή και η λοξότητα

(κλίση κύρτωσης, skewness) είναι sk=0, Αν Ẋ>Μ>Κ έχω λοξή δεξιά και sk>0, Αν Ẋ<Μ<Κ

έχω λοξή αριστερά και sk<0

Αν κύρτωση (ku) > 0 έχω λεπτόκυρτη, Αν ku<0 έχω πλατύκυρτη

Φυλλογράφημα (steam (κλαδί) & leaf(φύλλο))

π.χ. ηλικίες

5

Συχνότητα steam leaf25 2* 0112333444*73 2 555566666777788888889986 3 0000Steam width = 10 each leaf 3 cases

*Steam =2 & leaf = 4 => έχω 3 +3 +3= 9 σε ηλικία 24 διότι κάθε leaf είναι 3 περιπτώσεις

Box Plot

Αριθμητικά Μεγέθη

Μέτρα Θέσης Μέση Τιμή(Ẋ, mean)

Διάμεσος(Μ, median)

Κορυφή(Κ, mode)

Τεταρτημόρια

Μέτρα Διασποράς

Διακύμανση(S2)

Τυπική Απόκλιση(S)

CV Εύρος(R, max - min, range)

Εάν θέλω να υπολογίσω διάφορα αριθμητικά μεγέθη (μέτρα θέσης ή διασποράς) ως προς

τις διάφορες κατηγορίες μιας ποιοτικής μεταβλητής τότε χρησιμοποιούμε την διαδικασία

explore ως παρακάτω.

1. analyze descriptive statistics explore

2. Στο πεδίο dependent list εισαγάγουμε την ποσοτική μεταβλητή (ή μεταβλητές) για

την οποία θέλουμε να υπολογίσουμε τα αριθμητικά μεγέθη.

3. Στο παράθυρο factor list εισαγάγουμε την ποιοτική μεταβλητή για τις κατηγορίες

της οποίας θα υπολογιστούν τα διάφορα αριθμητικά μεγέθη

4. Αν στην ένδειξη display είναι ενεργοποιημένη η both τότε στα αποτελέσματα

λαμβάνουμε τόσο στατιστικά μέτρα όσο και γραφικές παραστάσεις αυτών. Με το

descriptives βγάζω μέτρα θέσης και διασποράς. Με την ένδειξη M. estimators μας

δίνει έναν εκτιμητή των μέτρων θέσεως που ζητάμε. Με την ένδειξη outliers θα μας

6

Q4

Αρχή μετρήσεων

Q1

Q2, διάμεσος, εάν είναι κοντά στο Q1 τότε η κατανομή είναι λοξή δεξιά, κοντά στο Q3 έχω λοξή αριστερά, στην μέση έχω συμμετρική

Q3Ενδοτεταρτημοριακό εύρος, περιέχει το 50% των μετρήσεων

δώσει τις ακραίες τιμές της ποσοτικής μεταβλητής για κάθε κατηγορία της ποιοτικής.

Με την ένδειξη percentile θα μας δώσει το 5ο, 10ο, 25ο, 50ο,75ο, 90ο, 95ο

εκατοστημόριο για κάθε κατηγορία της ποιοτικής μεταβλητής.

Επιλογή Δεδομένων

Data select cases if βγάζει μόνο αυτά που θέλουμε ενώ τα υπόλοιπα τα αγνοεί. Στον

data view η μεταβλητή που αγνοείται φαίνεται ως

Τεταρτημόρια

Τεταρτημόρια : Q1, Q2, Q3, Ενδοτεταρτημοριακό εύρος = Q = Q3 - Q1 Εδώ ανήκει το 50%

των μετρήσεων

Διάστημα Εμπιστοσύνης

Η έκφραση (1-α)*100% διάστημα εμπιστοσύνης (confidence interval (CI)) σημαίνει

1. Αν πάρω 100 μετρήσεις τότε οι 95 ανήκουν σε αυτό το διάστημα

2. Αν πάρω 100 δείγματα του πληθυσμού και υπολογίσω για αυτό την άγνωστη

παράμετρο του πληθυσμού (π.χ. μέση τιμή για την μ πραγματική μέση τιμή του

πληθυσμού) τότε τα 95 από αυτά θα μας δίνουν τιμή της παραμέτρου που να ανήκει σ

αυτό το διάστημα. (από τα 100 δείγματα τα 95 θα μας δίνουν μέση τιμή που θα ανήκει σε

αυτό το διάστημα) (α=5% ή α=0,05 => 95% διάστημα εμπιστοσύνης

Crosstabs

Στους πίνακες συνάφειας χρησιμοποιώ 2 ποιοτικές μεταβλητές στο Crosstabs

Στατιστικά Τεστ

Ένα στατιστικό τέστ (οδηγεί στην αποδοχή ή όχι του τεστ) αποτελείται από τα εξής

στατιστικά στοιχεία

1. Στατιστική συνάρτηση ή στατιστικό (Χ2, t2, F, …)

2. Δύο υποθέσεις α. μηδενική υπόθεση Ηο και β. εναλλακτική υπόθεση Ηα (Ηο αυτό

που ρωτάμε, Ηα το αντίθετο) (το ερώτημα που θέτω είναι για να πάρω απάντηση

όχι)

3. Επίπεδο σημαντικότητας

a. είναι πιθανή η απόρριψη της μηδενικής υπόθεσης όταν αυτή είναι αληθής

(δεσμευμένη πιθανότητα Ρ(Α/Β)= Ρ(Α∩Β))/Ρ(Β)), α=Ρ(απόρριψη Ηο / Ηο

αληθής) (αριθμός μεταξύ 0 και 1)θέλω να είναι όσο πιο μικρός γίνετε. Είναι η

7

πιθανότητα σφάλματος που γίνεται κατά την απόρριψη της μηδενικής

υπόθεσης όταν η μηδενική είναι αληθής.

b. Ρ(δεχόμαστε Ηο / Ηα αληθής) είναι πιθανότητα σφάλματος που γίνεται κατά

την αποδοχή της μηδενικής υπόθεσης όταν η εναλλακτική είναι αληθής.

Η ποσότητα (1-β) ονομάζεται ισχύς του τεστ. Το τεστ είναι ισχυρό όταν το β τείνει στο 0.

Το β δύσκολα υπολογίζεται. Η κατασκευή του τεστ πρέπει να κατασκευάζετε ώστε να

απορρίπτεται η μηδενική υπόθεση(γίνετε γνωστό το επίπεδο σημαντικότητα).

Είναι γνωστό ότι αν αυξάνεται το α ελαττώνετε το β και αντίστροφα. Δεν μπορώ να

ελαττώσω το α και το β ταυτόχρονα.

4. κρίσιμη τιμή του τεστ (sig(test)) υπολογίζετε από το SPSS και χρησιμοποιείται

a. Αν η κρίσιμη τιμή του τεστ είναι ≤ α τότε η μηδενική υπόθεση απορρίπτεται

και το τεστ είναι στατιστικά σημαντικό.

b. Αν η κρίσιμη τιμή του τεστ είναι > α τότε η Ηο δεν μπορεί να απορριφθεί. (δεν

λέω ποτέ ότι το τεστ δεν είναι στατιστικά σημαντικό)

Τεστ του Pierson: analyze descriptive statistics crosstabs, Εισαγάγω στο row και στο

col τις μεταβλητές μου, Ενεργοποιώ το πεδίο statistics, Επιλέγω chi-test Το τεστ αυτό είναι

ο συντελεστής συσχέτισης και δείχνει το πόσο εξαρτημένες είναι οι μεταβλητές.

Στις ασκήσεις γράφω: «Για να ελεγχθεί η ανεξαρτησία θα χρησιμοποιήσω το Χ2 τεστ του

Pierson. Οι υποθέσεις μου είναι (για να βρώ ότι υπάρχει σχέση): Ηο οι μεταβλητές Χ και Ψ

είναι ανεξάρτητες, Ηα οι μεταβλητές Χ και Ψ δεν είναι ανεξάρτητες. ….. Από την στατιστική

ανάλυση προκύπτει ότι η τιμή του Χ2 είναι αβγ,δε με αντίστοιχη κρίσιμη τιμή του test

sig(X2)= ζη,θ. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει sig(X2) ≤ α άρα η

μηδενική υπόθεση απορρίπτεται και το τεστ είναι στατιστικά σημαντικό. Άρα οι μεταβλητές

Χ και Ψ είναι εξαρτημένες Ή ……. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει

sig(X2) > α άρα η μηδενική υπόθεση δεν μπορεί να απορριφτεί. Άρα οι μεταβλητές Χ και Ψ

είναι ανεξάρτητες

Αξιοπιστία

Για να είναι αξιόπιστα τα συμπεράσματα του Χ2 τεστ ανεξαρτησίας θα πρέπει μέχρι το 20%

των κελιών του πίνακα συνάφειας να έχει αναμενόμενη συχνότητα κάτω από 5. Αν αυτό

δεν συμβεί θα πρέπει να συγχωνευθούν είτε γραμμές είτε στήλες του πίνακα συνάφειας

μέχρι να πετύχουμε τον κανόνα.

8

spssnotes

Documents