spssnotes
TRANSCRIPT
![Page 1: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/1.jpg)
ΣΗΜΕΙΩΣΕΙΣ SPSS
Γενικά
Κάθε γραμμή αντιστοιχεί σε πειραματική μονάδα (ερωτηματολόγιο). Κάθε στήλη
αντιστοιχεί σε διαφορετικές ερωτήσεις του ερωτηματολογίου.
Μεταβλητές: Scale= ποσοτική, Ordinal= ποιοτική Διατάξιμη, Nomimal= ποιοτική Ονοματική
Μεταβλητές Πολλαπλής Επιλογής
Σε πολλές περιπτώσεις υπάρχουν ερωτήσεις με δυνατότητα να πάρουμε περισσότερες
από μια απαντήσεις (π.χ. ποιο άθλημα σας άρεσε: ποδόσφαιρο, βόλευ, μπάσκετ, …). Αν
σε κάποιον αρέσει πάνω από ένα άθλημα πως γίνεται η εισαγωγή της ερώτησης αυτής;
Για τις ερωτήσεις αυτού του τύπου ακολουθούμε τα παρακάτω βήματα.
1. Δημιουργούμε μια στήλη (μεταβλητή) στην οποία θ δώσουμε το όνομα “name_1”. Ο
τύπος της είναι αριθμητική (numeric) και η μεταβλητή θα είναι ποιοτική.
2. Δημιουργούμε τόσες φορές την προηγούμενη μεταβλητή όσες και οι διαφορετικές
επιλογές απάντησης που έχουμε. Οι μεταβλητές αυτές θα πάρουν ονόματα
name_1, name_2, … Η διαδικασία αυτή θα γίνει ως εξής Με το ποντίκι πάμε στην
γραμμή της μεταβλητής name_1 και με δεξό κλικ κάνω ντιγραφή. Στην συνέχεια
επιλέγω τόσες γραμμές όσες και οι μεταβλητές που θέλω να δημιουργήσω και κάνω
επικόλληση ή επικόλληση μεταβλητών.
3. Εισαγωγή δεδομένων. Αν υπάρχει μια μόνον απάντηση καταχωρείτε ανεξαρτήτως
κωδικού στην στήλη name_1. Αν υπάρχουν 2, 3, … ή πεισσότερες απαντήσεις
καταχωρούνται αντίστοιχα στις 2 πρώτες ή 3πρώτες, … κλπ. αντίστοιχα στήλες
ανεξαρτήτου κωδικού. Είναι φανερό ότι αν δεν υπάρχει απάντηση δεν καταχωρείτε
τίποτα. Με βάση τα παραπάνω στις στήλες name_1 .. _2… κλπ μπορεί να μην έχω
δεδομένα.
athlima_1 athlima_2 athlima_3 athlima_41 ποδόσφαιρο - - -2 μπάσκετ πόλο - -3 - - - -4 ποδόσφαιρο βόλευ πόλο μπάσκετ5 ποδόσφαιρο - - -6 βόλεϊ - - -7 βόλεϊ πόλο - -
1
![Page 2: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/2.jpg)
4. Για να καταλάβει το SPSS ότι οι στήλες αυτές συνηστούν μια μεταβλητή
ακολουθούμε τα βήματα: analyze multiple response define sets. Στο
παράθυρο variable set κάνω συγχώνευση της μεταβλητής στο name το όνομα
χωρίς προέκταση _1… και στο label βάζω την ετικέτα. Ενεργοποιώ την επιλογή
categories και εισάγω στην περιοχή range την κωδικοποίηση που έδωσα (π.χ. 1-4
…1.ποδόσφαιρο, 2.βόλευ….) Στην συνέχεια πατάω το add (το $ σημαίνει
μεταβλητή πολλαπλής μεταβλητής) Στον data editor δεν παρατηρώ καμία
μεταβολή. Η μεταβολή του $ name έχει δημιουργηθεί. (με το save δεν σώζεται η $
name)
Ομαδοποίηση Δεδομένων
Ομαδοποίηση Ποσοτικών Δεδομένων
Όταν έχω στην διάθεσή μου μια ποσοτική μεταβλητή πολλές φορές είναι απαραίτητη η
ομαδοποίησή της έτσι ώστε να έχω την μεταβλητή αυτή σε πιο ανεπτυγμένη μορφή. Η
διαδικασία αυτή επιτυγχάνεται με την παρακάτω διαδικασία.
1. transform recode into deferent variable (για δημιουργία νέας) Επιλέγω πάντα
την deferent έτσι ώστε η ποσοτική μεταβλητή να ομαδοποιηθεί σε νέα και να μην
χαθεί η αρχική.
2. Επιλέγω την ποσοτική μεταβλητή και την εισαγάγω στο παράθυρο input - output
variable. Εμφανίζεται η ένδειξη name_? ενώ ταυτόχρονα ενεργοποιούνται τα πεδία
name και label δεξιά. Ορίζω στο πεδίο name το όνομα ης νέας μεταβλητής (δεν
πρέπει να υπάρχει μεταβλητή με το ίδιο όνομα, π.χ. g_name) και στο πεδίο label
την περιγραφή της. Στην συνέχεια ενεργοποιώ το πλήκτρο change και
αντικαθίσταται το ερωτηματικό με το όνομα της μεταβλητής.
3. Ενεργοποιώ το πλήκτρο old & new value. Ο πίνακας είναι χωρισμένος σε δύο
ενότητες. Τα διαστήματα είναι της μορφής (α,β), (α,β], [α,β), [α,β], (α,+οο), [α,+οο],
(-οο,β), (-οο,β]. Για την δημιουργία αυτών των διαστημάτων χρησημοποιούνται οι
τρις επιλογές range. Η επιλογή _through_ χρησιμοποιείται για διαστήματα με τιμές
μεταξύ δύο άκρων και είναι ( , ]. Η επιλογή lowest through_ χρησημοποιείται για
διαστήματα όπου το αριστερό άκρο απειρίζει. Η επιλογή _ through heist
χρησιμοποιείτε για διαστήματα όπου το δεξί άκρο απειρίζει. Σημειώνουμε ότι όταν
μια τιμή είναι κάτω άκρο ενός διαστήματος στις επιλογές range αυτή δεν ανήκει στο
διάστημα. Αν είναι άνω άκρο αυτή ανήκει στο διάστημα ( (_through_] ). Σε κάθε
επιλογή range αφού σημειώσω τα όρια θα πρέπει να σημειώσω στο πεδίο value
2
![Page 3: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/3.jpg)
στην περιοχή new value αντίστοιχο κωδικό (π.χ. 1,2,3,…) και να πατήσω το
πλήκτρο add (αντιστοιχίζετε το διάστημα με μια τιμή της ομάδας). Αφού
ολοκληρωθεί όλη η κωδικοποίηση ενεργοποιούμε το continue και στην συνέχεια το
ΟΚ και δημιουργείτε η νέα μεταβλητή που ζητήσαμε.
Για ομάδες ίσου μεγέθους επιλέγω frequency cut to equal points αρ. Ομάδων
Για ομάδες ίσου μήκους έχω : Κ(αρ. ομάδων) = 1 + 3,322logΝ(αρ. μετρήσεων) και d(μήκος
ομάδας) = R(=max-min, εύρος μετρήσεων) / K(αρ. ομάδων) και οι ομάδες μου είναι min,
min+d και προσθέτω κάθε φορά το d έως το max.
Πίνακας Συχνοτήτων Μεταβλητών Πολλαπλής Επιλογής
Για την δημιουργία πινάκων συχνοτήτων μεταβλητών πολλαπλής επιλογής ακολουθούμε
τα εξής βήματα.
1. Εισάγουμε τα δεδομένα με τον γνωστό τρόπο
2. Analyze multiple response frequencies Εισάγω την μεταβλητή μου από το
παράθυρο multi response sets στο παράθυρο tables for και πατάω ΟΚ.
Στον πίνακα συχνοτήτων που εμφανίζετε μας δίνονται οι εξής πληροφορίες
1. Ο αριθμός χαμένων και έγκυρων μετρήσεων
2. Η συχνότητα για κάθε κατηγορία της πολλαπλής μεταβλητής (count)
3. Ποσοστό επι των απαντήσεων (pct of responses) Οι τιμές της στήλης αυτής
προκύπτουν από το πηλίκο των συχνοτήτων προς τον συνολικό αριθμό
απαντήσεων (set of response = (counts / total response) %) Η ποσότητα αυτή
εκφράζει το ποσοστό επί των συνολικών απαντήσεων
4. Ποσοστό επί των περιπτώσεων (pct of cases = counts / valid cases) Οι τιμές της
στήλης αυτής προκύπτουν από το πηλίκο των συχνοτήτων
Η στήλη pct of responses αθροίζει πάντα στο 100% ενώ η στήλη pct of cases αθροίζει
πάντα άνω του 100%
Cases = ερωτηματολόγιο = μέτρηση = ερωτώμενος
Πίνακες Συνάφειας
Οι διασταυρούμενες απαντήσεις δίνονται με την βοήθεια των πινάκων συνάφειας. Οι
πίνακες αυτοί αποτελούνται από τόσες γραμμές και τόσες στήλες όσες και οι κατηγορίες
3
![Page 4: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/4.jpg)
των υπο εξέταση ποιοτικών μεταβλητών. (π.χ. sex: 1.M, 2.F και Maridge: 1.ME, 2.DE,
3.Si) Ακολουθούμε τα παρακάτω βήματα
1. analyze descriptive statistics cross tabs
2. Επιλέγω τις δύο ποιοτικές μεταβλητές και τις εισαγάγω μια στο παράθυρο row και
μια στο παράθυρο column
3. Ενεργοποιώ το ΟΚ
Για την εισαγωγή ενός πίνακα συνάφειας στον data editor ακολουθώ τα εξής βήματα.
1. Δημιουργώ 3 στήλες τις οποίες ονομάζω αντίστοιχα row, col, freq
2. Ελέγχω την διάσταση του πίνακα συνάφειας. Έστω ότι αυτή είναι m γραμμές * n
στήλες. Τότε στην μεταβλητή row εισαγάγω τους αριθμούς 1, 2, 3, …., m κατά
τέτοιον τρόπο ώστε το 1 να εμφανίζεται n συνεχόμενες φορές, το 2 n συνεχόμενες
φορές κλπ. Στην στήλη col εισάγω τους αριθμούς 1, 2, 3, …, n διαδοχικά για κάθε
τιμή της στήλης row. Στην στήλη freq εισάγω την αντίστοιχη τιμή του πίνακα
συνάφειας που δημιουργείται από τον συνδυασμό τιμών των στηλών row και col.
π.χ.
colrow
1 2 3
0-4 5-7 8-101 2 5 212 7 10 23n * m = 3 * 2
3. data weight cases Εισάγω στο παράθυρο weight cases by την μεταβλητή freq
4. analyze descriptive statistics crosstabs Όπου row την στήλη row, όπου
column την στήλη col. (η στήλη freq έχει χρησιμοποιηθεί στο πεδίο weight cases)
(για labelsβάζω στο values 1:…, 2:…., …)
Crosstabs: Στο label βάζω την 3η μεταβλητή και εάν θέλω με το next βάζω 4η κλπ. (π.χ.
πόσοι άντρες είναι λευκοί, εισόδημα άνω των …, μέγεθος παπουτσιού…)
Analyze descriptive statistics crosstabs statistics
Το chi - square πραγματοποιεί το τέστ Χ2 του Pearson
Το correlation μας δίνει τον συντελεστή συσχέτησης του Pearson
Το Cell με ένδειξη observed μας εμφανίζει τις παρατηρούμενες συχνότητες σε έναν πίνακα
συνάφειας
row col freq1 1 21 2 51 3 212 1 72 2 102 3 23
4
![Page 5: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/5.jpg)
Το Cell με ένδειξη expected μας εμφανίζει τις αναμενόμενες συχνότητες (θεωρητικές) σε
έναν πίνακα συνάφειας. Με τον όρο αναμενόμενη συχνότητα εννοούμε την συχνότητα που
θα έπρεπε να εμφανίζεται στην αντίστοιχη (I,j) θέση του πίνακα συνάφειας έτσι ώστε οι
μεταβλητές που εξετάζουμε να είναι ανεξάρτητες.
Το percentages (ποσοστό) μας δίνει ποσοστιαία : row με σημείο αναφοράς την γραμμή,
col την στήλη και total με σημείο αναφοράς το σύνολο.
Γραφήματα
Ποσοτικές (scale) Ιστόγραμμα Πολύγωνο Συχνοτήτων
Αθροιστικό Ιστόγραμμαcum N
Αθροιστικό Πολύγωνο Συχνοτήτων
Ποιοτικές (ordinal, Nominal)
Ραβδόγραμμα Κυκλικό Διάγραμμα
Στατιστικός Χάρτης
Ποσοτικές Μεταβλητές
Για την κατασκευή ιστογράμματος ακολουθώ τα βήματα: graphs histogram εισαγωγή
μεταβλητών στο variable
Για την κατασκευή ραβδογράμματος : graph bar simple define εισαγωγή στο
category axis
Για την κατασκευή σύνθετου ραβδογράμματος : Δίδεται η γραφική παράσταση μιας
μεταβλητής ως προς τις κατηγορίες μιας άλλης (οικογενειακή κατάσταση ως προς το
φύλλο, category axis : φύλο, define clusters by: οικογενειακή κατάσταση)
Για την κατασκευή κυκλικού διαγράμματος : graphs pie για missing graphs pie
options display groups defined by missing values
Μετατροπή γραφήματος : 2πλό κλικ δεξί κλικ properties variables element type
Κύρτωση
Αν μέση τιμή = διάμεσο = κορυφή Ẋ=Μ=Κ τότε έχω συμμετρική κατανομή και η λοξότητα
(κλίση κύρτωσης, skewness) είναι sk=0, Αν Ẋ>Μ>Κ έχω λοξή δεξιά και sk>0, Αν Ẋ<Μ<Κ
έχω λοξή αριστερά και sk<0
Αν κύρτωση (ku) > 0 έχω λεπτόκυρτη, Αν ku<0 έχω πλατύκυρτη
Φυλλογράφημα (steam (κλαδί) & leaf(φύλλο))
π.χ. ηλικίες
5
![Page 6: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/6.jpg)
Συχνότητα steam leaf25 2* 0112333444*73 2 555566666777788888889986 3 0000Steam width = 10 each leaf 3 cases
*Steam =2 & leaf = 4 => έχω 3 +3 +3= 9 σε ηλικία 24 διότι κάθε leaf είναι 3 περιπτώσεις
Box Plot
Αριθμητικά Μεγέθη
Μέτρα Θέσης Μέση Τιμή(Ẋ, mean)
Διάμεσος(Μ, median)
Κορυφή(Κ, mode)
Τεταρτημόρια
Μέτρα Διασποράς
Διακύμανση(S2)
Τυπική Απόκλιση(S)
CV Εύρος(R, max - min, range)
Εάν θέλω να υπολογίσω διάφορα αριθμητικά μεγέθη (μέτρα θέσης ή διασποράς) ως προς
τις διάφορες κατηγορίες μιας ποιοτικής μεταβλητής τότε χρησιμοποιούμε την διαδικασία
explore ως παρακάτω.
1. analyze descriptive statistics explore
2. Στο πεδίο dependent list εισαγάγουμε την ποσοτική μεταβλητή (ή μεταβλητές) για
την οποία θέλουμε να υπολογίσουμε τα αριθμητικά μεγέθη.
3. Στο παράθυρο factor list εισαγάγουμε την ποιοτική μεταβλητή για τις κατηγορίες
της οποίας θα υπολογιστούν τα διάφορα αριθμητικά μεγέθη
4. Αν στην ένδειξη display είναι ενεργοποιημένη η both τότε στα αποτελέσματα
λαμβάνουμε τόσο στατιστικά μέτρα όσο και γραφικές παραστάσεις αυτών. Με το
descriptives βγάζω μέτρα θέσης και διασποράς. Με την ένδειξη M. estimators μας
δίνει έναν εκτιμητή των μέτρων θέσεως που ζητάμε. Με την ένδειξη outliers θα μας
6
Q4
Αρχή μετρήσεων
Q1
Q2, διάμεσος, εάν είναι κοντά στο Q1 τότε η κατανομή είναι λοξή δεξιά, κοντά στο Q3 έχω λοξή αριστερά, στην μέση έχω συμμετρική
Q3Ενδοτεταρτημοριακό εύρος, περιέχει το 50% των μετρήσεων
![Page 7: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/7.jpg)
δώσει τις ακραίες τιμές της ποσοτικής μεταβλητής για κάθε κατηγορία της ποιοτικής.
Με την ένδειξη percentile θα μας δώσει το 5ο, 10ο, 25ο, 50ο,75ο, 90ο, 95ο
εκατοστημόριο για κάθε κατηγορία της ποιοτικής μεταβλητής.
Επιλογή Δεδομένων
Data select cases if βγάζει μόνο αυτά που θέλουμε ενώ τα υπόλοιπα τα αγνοεί. Στον
data view η μεταβλητή που αγνοείται φαίνεται ως
Τεταρτημόρια
Τεταρτημόρια : Q1, Q2, Q3, Ενδοτεταρτημοριακό εύρος = Q = Q3 - Q1 Εδώ ανήκει το 50%
των μετρήσεων
Διάστημα Εμπιστοσύνης
Η έκφραση (1-α)*100% διάστημα εμπιστοσύνης (confidence interval (CI)) σημαίνει
1. Αν πάρω 100 μετρήσεις τότε οι 95 ανήκουν σε αυτό το διάστημα
2. Αν πάρω 100 δείγματα του πληθυσμού και υπολογίσω για αυτό την άγνωστη
παράμετρο του πληθυσμού (π.χ. μέση τιμή για την μ πραγματική μέση τιμή του
πληθυσμού) τότε τα 95 από αυτά θα μας δίνουν τιμή της παραμέτρου που να ανήκει σ
αυτό το διάστημα. (από τα 100 δείγματα τα 95 θα μας δίνουν μέση τιμή που θα ανήκει σε
αυτό το διάστημα) (α=5% ή α=0,05 => 95% διάστημα εμπιστοσύνης
Crosstabs
Στους πίνακες συνάφειας χρησιμοποιώ 2 ποιοτικές μεταβλητές στο Crosstabs
Στατιστικά Τεστ
Ένα στατιστικό τέστ (οδηγεί στην αποδοχή ή όχι του τεστ) αποτελείται από τα εξής
στατιστικά στοιχεία
1. Στατιστική συνάρτηση ή στατιστικό (Χ2, t2, F, …)
2. Δύο υποθέσεις α. μηδενική υπόθεση Ηο και β. εναλλακτική υπόθεση Ηα (Ηο αυτό
που ρωτάμε, Ηα το αντίθετο) (το ερώτημα που θέτω είναι για να πάρω απάντηση
όχι)
3. Επίπεδο σημαντικότητας
a. είναι πιθανή η απόρριψη της μηδενικής υπόθεσης όταν αυτή είναι αληθής
(δεσμευμένη πιθανότητα Ρ(Α/Β)= Ρ(Α∩Β))/Ρ(Β)), α=Ρ(απόρριψη Ηο / Ηο
αληθής) (αριθμός μεταξύ 0 και 1)θέλω να είναι όσο πιο μικρός γίνετε. Είναι η
7
![Page 8: SPSSnotes](https://reader036.vdocuments.mx/reader036/viewer/2022082822/55cf9de7550346d033afc5a3/html5/thumbnails/8.jpg)
πιθανότητα σφάλματος που γίνεται κατά την απόρριψη της μηδενικής
υπόθεσης όταν η μηδενική είναι αληθής.
b. Ρ(δεχόμαστε Ηο / Ηα αληθής) είναι πιθανότητα σφάλματος που γίνεται κατά
την αποδοχή της μηδενικής υπόθεσης όταν η εναλλακτική είναι αληθής.
Η ποσότητα (1-β) ονομάζεται ισχύς του τεστ. Το τεστ είναι ισχυρό όταν το β τείνει στο 0.
Το β δύσκολα υπολογίζεται. Η κατασκευή του τεστ πρέπει να κατασκευάζετε ώστε να
απορρίπτεται η μηδενική υπόθεση(γίνετε γνωστό το επίπεδο σημαντικότητα).
Είναι γνωστό ότι αν αυξάνεται το α ελαττώνετε το β και αντίστροφα. Δεν μπορώ να
ελαττώσω το α και το β ταυτόχρονα.
4. κρίσιμη τιμή του τεστ (sig(test)) υπολογίζετε από το SPSS και χρησιμοποιείται
a. Αν η κρίσιμη τιμή του τεστ είναι ≤ α τότε η μηδενική υπόθεση απορρίπτεται
και το τεστ είναι στατιστικά σημαντικό.
b. Αν η κρίσιμη τιμή του τεστ είναι > α τότε η Ηο δεν μπορεί να απορριφθεί. (δεν
λέω ποτέ ότι το τεστ δεν είναι στατιστικά σημαντικό)
Τεστ του Pierson: analyze descriptive statistics crosstabs, Εισαγάγω στο row και στο
col τις μεταβλητές μου, Ενεργοποιώ το πεδίο statistics, Επιλέγω chi-test Το τεστ αυτό είναι
ο συντελεστής συσχέτισης και δείχνει το πόσο εξαρτημένες είναι οι μεταβλητές.
Στις ασκήσεις γράφω: «Για να ελεγχθεί η ανεξαρτησία θα χρησιμοποιήσω το Χ2 τεστ του
Pierson. Οι υποθέσεις μου είναι (για να βρώ ότι υπάρχει σχέση): Ηο οι μεταβλητές Χ και Ψ
είναι ανεξάρτητες, Ηα οι μεταβλητές Χ και Ψ δεν είναι ανεξάρτητες. ….. Από την στατιστική
ανάλυση προκύπτει ότι η τιμή του Χ2 είναι αβγ,δε με αντίστοιχη κρίσιμη τιμή του test
sig(X2)= ζη,θ. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει sig(X2) ≤ α άρα η
μηδενική υπόθεση απορρίπτεται και το τεστ είναι στατιστικά σημαντικό. Άρα οι μεταβλητές
Χ και Ψ είναι εξαρτημένες Ή ……. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει
sig(X2) > α άρα η μηδενική υπόθεση δεν μπορεί να απορριφτεί. Άρα οι μεταβλητές Χ και Ψ
είναι ανεξάρτητες
Αξιοπιστία
Για να είναι αξιόπιστα τα συμπεράσματα του Χ2 τεστ ανεξαρτησίας θα πρέπει μέχρι το 20%
των κελιών του πίνακα συνάφειας να έχει αναμενόμενη συχνότητα κάτω από 5. Αν αυτό
δεν συμβεί θα πρέπει να συγχωνευθούν είτε γραμμές είτε στήλες του πίνακα συνάφειας
μέχρι να πετύχουμε τον κανόνα.
8