Powered By Blogger

Τετάρτη 3 Ιουλίου 2013

Βασικές Σημειώσεις SPSS

ΣΗΜΕΙΩΣΕΙΣ SPSS

Γενικά
Κάθε γραμμή αντιστοιχεί σε πειραματική μονάδα (ερωτηματολόγιο). Κάθε στήλη αντιστοιχεί σε διαφορετικές ερωτήσεις του ερωτηματολογίου.
Μεταβλητές: Scale= ποσοτική, Ordinal= ποιοτική Διατάξιμη, Nomimal= ποιοτική Ονοματική
Μεταβλητές Πολλαπλής Επιλογής
Σε πολλές περιπτώσεις υπάρχουν ερωτήσεις με δυνατότητα να πάρουμε περισσότερες από μια απαντήσεις (π.χ. ποιο άθλημα σας άρεσε: ποδόσφαιρο, βόλευ, μπάσκετ, …). Αν σε κάποιον αρέσει πάνω από ένα άθλημα πως γίνεται η εισαγωγή της ερώτησης αυτής; Για τις ερωτήσεις αυτού του τύπου ακολουθούμε τα παρακάτω βήματα.
  1. Δημιουργούμε μια στήλη (μεταβλητή) στην οποία θ δώσουμε το όνομα “name_1”. Ο τύπος της είναι αριθμητική (numeric) και η μεταβλητή θα είναι ποιοτική.
  2. Δημιουργούμε τόσες φορές την προηγούμενη μεταβλητή όσες και οι διαφορετικές επιλογές απάντησης που έχουμε. Οι μεταβλητές αυτές θα πάρουν ονόματα name_1, name_2, … Η διαδικασία αυτή θα γίνει ως εξής Με το ποντίκι πάμε στην γραμμή της μεταβλητής name_1 και με δεξό κλικ κάνω ντιγραφή. Στην συνέχεια επιλέγω τόσες γραμμές όσες και οι μεταβλητές που θέλω να δημιουργήσω και κάνω επικόλληση ή επικόλληση μεταβλητών.
  3. Εισαγωγή δεδομένων. Αν υπάρχει μια μόνον απάντηση καταχωρείτε ανεξαρτήτως κωδικού στην στήλη name_1. Αν υπάρχουν 2, 3, … ή πεισσότερες απαντήσεις καταχωρούνται αντίστοιχα στις 2 πρώτες ή 3πρώτες, … κλπ. αντίστοιχα στήλες ανεξαρτήτου κωδικού. Είναι φανερό ότι αν δεν υπάρχει απάντηση δεν καταχωρείτε τίποτα. Με βάση τα παραπάνω στις στήλες name_1 .. _2… κλπ μπορεί να μην έχω δεδομένα.

athlima_1
athlima_2
athlima_3
athlima_4
1
ποδόσφαιρο
-
-
-
2
μπάσκετ
πόλο
-
-
3
-
-
-
-
4
ποδόσφαιρο
βόλευ
πόλο
μπάσκετ
5
ποδόσφαιρο
-
-
-
6
βόλεϊ
-
-
-
7
βόλεϊ
πόλο
-
-

  1. Για να καταλάβει το SPSS ότι οι στήλες αυτές συνηστούν μια μεταβλητή ακολουθούμε τα βήματα: analyze à multiple response à define sets. Στο παράθυρο variable set κάνω συγχώνευση της μεταβλητής στο name το όνομα χωρίς προέκταση _1… και στο label βάζω την ετικέτα. Ενεργοποιώ την επιλογή categories και εισάγω στην περιοχή range την κωδικοποίηση που έδωσα (π.χ. 1-4 …1.ποδόσφαιρο, 2.βόλευ….) Στην συνέχεια πατάω το add (το $ σημαίνει μεταβλητή πολλαπλής μεταβλητής) Στον data editor δεν παρατηρώ καμία μεταβολή. Η μεταβολή του $ name έχει δημιουργηθεί. (με το save δεν σώζεται η $ name)
Ομαδοποίηση Δεδομένων
Ομαδοποίηση Ποσοτικών Δεδομένων
Όταν έχω στην διάθεσή μου μια ποσοτική μεταβλητή πολλές φορές είναι απαραίτητη η ομαδοποίησή της έτσι ώστε να έχω την μεταβλητή αυτή σε πιο ανεπτυγμένη μορφή. Η διαδικασία αυτή επιτυγχάνεται με την παρακάτω διαδικασία.
  1. transform à recode à into deferent variable (για δημιουργία νέας) Επιλέγω πάντα την deferent έτσι ώστε η ποσοτική μεταβλητή να ομαδοποιηθεί σε νέα και να μην χαθεί η αρχική.
  2. Επιλέγω την ποσοτική μεταβλητή και την εισαγάγω στο παράθυρο input - output variable. Εμφανίζεται η ένδειξη name_? ενώ ταυτόχρονα ενεργοποιούνται τα πεδία name και label δεξιά. Ορίζω στο πεδίο name  το όνομα ης νέας μεταβλητής (δεν πρέπει να υπάρχει μεταβλητή με το ίδιο όνομα, π.χ. g_name) και στο πεδίο label την περιγραφή της. Στην συνέχεια ενεργοποιώ το πλήκτρο change  και αντικαθίσταται το ερωτηματικό με το όνομα της μεταβλητής.
  3. Ενεργοποιώ το πλήκτρο old & new value. Ο πίνακας είναι χωρισμένος σε δύο ενότητες. Τα διαστήματα είναι της μορφής (α,β), (α,β], [α,β), [α,β], (α,+οο), [α,+οο], (-οο,β), (-οο,β]. Για την δημιουργία αυτών των διαστημάτων χρησημοποιούνται οι τρις επιλογές range. Η επιλογή _through_ χρησιμοποιείται για διαστήματα με τιμές μεταξύ δύο άκρων και είναι ( , ]. Η επιλογή lowest through_ χρησημοποιείται για διαστήματα όπου το αριστερό άκρο απειρίζει. Η επιλογή _ through heist χρησιμοποιείτε για διαστήματα όπου το δεξί άκρο απειρίζει. Σημειώνουμε ότι όταν μια τιμή είναι κάτω άκρο ενός διαστήματος στις επιλογές range  αυτή δεν ανήκει στο διάστημα. Αν είναι άνω άκρο αυτή ανήκει στο διάστημα ( (_through_] ). Σε κάθε επιλογή range  αφού σημειώσω τα όρια θα πρέπει να σημειώσω στο πεδίο value στην περιοχή new value αντίστοιχο κωδικό (π.χ. 1,2,3,…) και να πατήσω το πλήκτρο add (αντιστοιχίζετε το διάστημα με μια τιμή της ομάδας). Αφού ολοκληρωθεί όλη η κωδικοποίηση ενεργοποιούμε το continue και στην συνέχεια το ΟΚ και δημιουργείτε η νέα μεταβλητή που ζητήσαμε.
Για ομάδες ίσου μεγέθους επιλέγω frequency à cut to equal points à αρ. Ομάδων
Για ομάδες ίσου μήκους έχω : Κ(αρ. ομάδων) = 1 + 3,322logΝ(αρ. μετρήσεων) και d(μήκος ομάδας) = R(=max-min, εύρος μετρήσεων) / K(αρ. ομάδων) και οι ομάδες μου είναι min, min+d και προσθέτω κάθε φορά το d  έως το max.
Πίνακας Συχνοτήτων Μεταβλητών Πολλαπλής Επιλογής
Για την δημιουργία πινάκων συχνοτήτων μεταβλητών πολλαπλής επιλογής ακολουθούμε τα εξής βήματα.
  1. Εισάγουμε τα δεδομένα με τον γνωστό τρόπο
  2. Analyze multiple response frequencies Εισάγω την μεταβλητή μου από το παράθυρο multi response sets στο παράθυρο tables for και πατάω ΟΚ.
Στον πίνακα συχνοτήτων που εμφανίζετε μας δίνονται οι εξής πληροφορίες
  1. Ο αριθμός χαμένων και έγκυρων μετρήσεων
  2. Η συχνότητα για κάθε κατηγορία της πολλαπλής μεταβλητής (count)
  3. Ποσοστό επι των απαντήσεων (pct of responses) Οι τιμές της στήλης αυτής προκύπτουν από το πηλίκο των συχνοτήτων προς τον συνολικό αριθμό απαντήσεων (set of response = (counts / total response) %) Η ποσότητα αυτή εκφράζει το ποσοστό επί των συνολικών απαντήσεων
  4. Ποσοστό επί των περιπτώσεων (pct of cases = counts / valid cases) Οι τιμές της στήλης αυτής προκύπτουν από το πηλίκο των συχνοτήτων

Η στήλη pct of responses αθροίζει πάντα στο 100% ενώ η στήλη pct of cases αθροίζει πάντα άνω του 100%
Cases = ερωτηματολόγιο = μέτρηση = ερωτώμενος
Πίνακες Συνάφειας
Οι διασταυρούμενες απαντήσεις δίνονται με την βοήθεια των πινάκων συνάφειας. Οι πίνακες αυτοί αποτελούνται από τόσες γραμμές και τόσες στήλες όσες και οι κατηγορίες των υπο εξέταση ποιοτικών μεταβλητών. (π.χ. sex: 1.M, 2.F και Maridge: 1.ME, 2.DE, 3.Si) Ακολουθούμε τα παρακάτω βήματα
  1. analyze à descriptive statistics à cross tabs
  2. Επιλέγω τις δύο ποιοτικές μεταβλητές και τις εισαγάγω μια στο παράθυρο row και μια στο παράθυρο column
  3. Ενεργοποιώ το ΟΚ
Για την εισαγωγή ενός πίνακα συνάφειας στον data editor ακολουθώ τα εξής βήματα.
  1. Δημιουργώ 3 στήλες τις οποίες ονομάζω αντίστοιχα row, col, freq
  2. Ελέγχω την διάσταση του πίνακα συνάφειας. Έστω ότι αυτή είναι m γραμμές * n στήλες. Τότε στην μεταβλητή row εισαγάγω τους αριθμούς 1, 2, 3, …., m κατά τέτοιον τρόπο ώστε το 1 να εμφανίζεται n συνεχόμενες φορές, το 2 n συνεχόμενες φορές κλπ. Στην στήλη col εισάγω τους αριθμούς 1, 2, 3, …, n διαδοχικά για κάθε τιμή της στήλης row. Στην στήλη freq εισάγω την αντίστοιχη τιμή του πίνακα συνάφειας που δημιουργείται από τον συνδυασμό τιμών των στηλών row και col.
π.χ.
            col
row
1
2
3

0-4
5-7
8-10
1
2
5
21
2
7
10
23
row
col
freq
1
1
2
1
2
5
1
3
21
2
1
7
2
2
10
2
3
23
n * m = 3 * 2
  1. data à weight cases Εισάγω στο παράθυρο weight cases by την μεταβλητή freq
  2. analyze à descriptive statistics à crosstabs Όπου row την στήλη row, όπου column την στήλη col. (η στήλη freq έχει χρησιμοποιηθεί στο πεδίο weight cases) (για labelsβάζω στο values 1:…, 2:…., …)
Crosstabs: Στο label βάζω την 3η μεταβλητή και εάν θέλω με το next βάζω 4η κλπ. (π.χ. πόσοι άντρες είναι λευκοί, εισόδημα άνω των …, μέγεθος παπουτσιού…)
Analyze à descriptive statistics à crosstabs à statistics
Το chi - square πραγματοποιεί το τέστ Χ2 του Pearson
Το correlation μας δίνει τον συντελεστή συσχέτησης του Pearson
Το Cell με ένδειξη observed μας εμφανίζει τις παρατηρούμενες συχνότητες σε έναν πίνακα συνάφειας
Το Cell με ένδειξη expected μας εμφανίζει τις αναμενόμενες συχνότητες (θεωρητικές) σε έναν πίνακα συνάφειας. Με τον όρο αναμενόμενη συχνότητα εννοούμε την συχνότητα που θα έπρεπε να εμφανίζεται στην αντίστοιχη (I,j) θέση του πίνακα συνάφειας έτσι ώστε οι μεταβλητές που εξετάζουμε να είναι ανεξάρτητες.
Το percentages  (ποσοστό) μας δίνει ποσοστιαία : row με σημείο αναφοράς την γραμμή, col την στήλη και total με σημείο αναφοράς το σύνολο.
Γραφήματα
Ποσοτικές (scale)
Ιστόγραμμα
Πολύγωνο Συχνοτήτων
Αθροιστικό Ιστόγραμμα
cum N
Αθροιστικό
Πολύγωνο Συχνοτήτων
Ποιοτικές
(ordinal, Nominal)
Ραβδόγραμμα
Κυκλικό Διάγραμμα
Στατιστικός Χάρτης


Ποσοτικές Μεταβλητές
Για την κατασκευή ιστογράμματος ακολουθώ τα βήματα: graphs à histogram à εισαγωγή μεταβλητών στο variable
Για την κατασκευή ραβδογράμματος : graph à bar à simple à define à εισαγωγή στο category axis
Για την κατασκευή σύνθετου ραβδογράμματος : Δίδεται η γραφική παράσταση μιας μεταβλητής ως προς τις κατηγορίες μιας άλλης (οικογενειακή κατάσταση ως προς το φύλλο, category axis : φύλο, define clusters by: οικογενειακή κατάσταση)
Για την κατασκευή κυκλικού διαγράμματος : graphs à pie για missing graphs à pie à options à display groups defined by missing values
Μετατροπή γραφήματος : 2πλό κλικ à δεξί κλικ à properties à variables à element type
Κύρτωση
Αν μέση τιμή = διάμεσο = κορυφή Ẋ=Μ=Κ τότε έχω συμμετρική κατανομή και η λοξότητα (κλίση κύρτωσης, skewness) είναι sk=0, Αν Ẋ>Μ>Κ έχω λοξή δεξιά και sk>0, Αν Ẋ<Μ<Κ έχω λοξή αριστερά και sk<0
Αν κύρτωση (ku) > 0 έχω λεπτόκυρτη, Αν ku<0 έχω πλατύκυρτη
Φυλλογράφημα (steam (κλαδί) & leaf(φύλλο))
π.χ. ηλικίες

Συχνότητα
steam
leaf
25
2*
0112333444*
73
2
5555666667777888888899
86
3
0000
Steam width = 10         each leaf 3 cases
*Steam =2 & leaf = 4 => έχω 3 +3 +3= 9 σε ηλικία 24 διότι κάθε leaf είναι 3 περιπτώσεις
 
Box Plot
 







Αριθμητικά Μεγέθη
Μέτρα Θέσης
Μέση Τιμή
(Ẋ, mean)
Διάμεσος
(Μ, median)
Κορυφή
(Κ, mode)
Τεταρτημόρια
Μέτρα Διασποράς
Διακύμανση
(S2)
Τυπική Απόκλιση
(S)
CV
Εύρος
(R, max - min, range)
Εάν θέλω να υπολογίσω διάφορα αριθμητικά μεγέθη (μέτρα θέσης ή  διασποράς) ως προς τις διάφορες κατηγορίες μιας ποιοτικής μεταβλητής τότε χρησιμοποιούμε την διαδικασία explore ως παρακάτω.
  1. analyze à descriptive statistics à explore
  2. Στο πεδίο dependent list  εισαγάγουμε την ποσοτική μεταβλητή (ή μεταβλητές) για την οποία θέλουμε να υπολογίσουμε τα αριθμητικά μεγέθη.
  3. Στο παράθυρο  factor list εισαγάγουμε την ποιοτική μεταβλητή για τις κατηγορίες της οποίας θα υπολογιστούν τα διάφορα αριθμητικά μεγέθη
  4. Αν στην ένδειξη display  είναι ενεργοποιημένη η both τότε στα αποτελέσματα λαμβάνουμε τόσο στατιστικά μέτρα όσο και γραφικές παραστάσεις αυτών. Με το descriptives βγάζω μέτρα θέσης και διασποράς. Με την ένδειξη M. estimators  μας δίνει έναν εκτιμητή των μέτρων θέσεως που ζητάμε. Με την ένδειξη outliers θα μας δώσει τις ακραίες τιμές της ποσοτικής μεταβλητής για κάθε κατηγορία της ποιοτικής. Με την ένδειξη percentile θα μας δώσει το 5ο, 10ο, 25ο, 50ο,75ο, 90ο, 95ο εκατοστημόριο για κάθε κατηγορία της ποιοτικής μεταβλητής.
Επιλογή Δεδομένων

 Data select cases à if βγάζει μόνο αυτά που θέλουμε ενώ τα υπόλοιπα τα αγνοεί. Στον data view η μεταβλητή που αγνοείται φαίνεται ως
Τεταρτημόρια
Τεταρτημόρια : Q1, Q2, Q3, Ενδοτεταρτημοριακό εύρος = Q = Q3 - Q1 Εδώ ανήκει το 50% των μετρήσεων
Διάστημα Εμπιστοσύνης
Η έκφραση (1-α)*100% διάστημα εμπιστοσύνης (confidence interval (CI)) σημαίνει
1. Αν πάρω 100 μετρήσεις τότε οι 95 ανήκουν σε αυτό το διάστημα
2. Αν πάρω 100 δείγματα του πληθυσμού και υπολογίσω για αυτό την άγνωστη παράμετρο του πληθυσμού (π.χ. μέση τιμή για την μ πραγματική μέση τιμή του πληθυσμού) τότε τα 95 από αυτά θα μας δίνουν τιμή της παραμέτρου που να ανήκει σ αυτό το διάστημα. (από τα 100 δείγματα τα 95 θα μας δίνουν μέση τιμή που θα ανήκει σε αυτό το διάστημα) (α=5% ή α=0,05 => 95% διάστημα εμπιστοσύνης
Crosstabs
Στους πίνακες συνάφειας χρησιμοποιώ 2 ποιοτικές μεταβλητές στο Crosstabs
Στατιστικά Τεστ
Ένα στατιστικό τέστ (οδηγεί στην αποδοχή ή όχι του τεστ) αποτελείται από τα εξής στατιστικά στοιχεία
  1. Στατιστική συνάρτηση ή στατιστικό (Χ2, t2, F, …)
  2. Δύο υποθέσεις α. μηδενική υπόθεση Ηο και β. εναλλακτική υπόθεση Ηα (Ηο αυτό που ρωτάμε, Ηα το αντίθετο) (το ερώτημα που θέτω είναι για να πάρω απάντηση όχι)
  3. Επίπεδο σημαντικότητας
    1. είναι πιθανή η απόρριψη της μηδενικής υπόθεσης όταν αυτή είναι αληθής (δεσμευμένη πιθανότητα Ρ(Α/Β)= Ρ(Α∩Β))/Ρ(Β)), α=Ρ(απόρριψη Ηο / Ηο αληθής) (αριθμός μεταξύ 0 και 1)θέλω να είναι όσο πιο μικρός γίνετε. Είναι η πιθανότητα σφάλματος που γίνεται κατά την απόρριψη της μηδενικής υπόθεσης όταν η μηδενική είναι αληθής.
    2. Ρ(δεχόμαστε Ηο / Ηα αληθής) είναι πιθανότητα σφάλματος που γίνεται κατά την αποδοχή της μηδενικής υπόθεσης όταν η εναλλακτική είναι αληθής.
Η ποσότητα (1-β) ονομάζεται ισχύς του τεστ. Το τεστ είναι ισχυρό όταν το β τείνει στο 0. Το β δύσκολα υπολογίζεται. Η κατασκευή του τεστ πρέπει να κατασκευάζετε ώστε να απορρίπτεται η μηδενική υπόθεση(γίνετε γνωστό το επίπεδο σημαντικότητα).
Είναι γνωστό ότι αν αυξάνεται το α ελαττώνετε το β και αντίστροφα. Δεν μπορώ να ελαττώσω το α και το β ταυτόχρονα.
  1. κρίσιμη τιμή του τεστ (sig(test)) υπολογίζετε από το SPSS και χρησιμοποιείται
    1. Αν η κρίσιμη τιμή του τεστ είναι ≤ α τότε η μηδενική υπόθεση απορρίπτεται και το τεστ είναι στατιστικά σημαντικό.
    2. Αν η κρίσιμη τιμή του τεστ είναι > α τότε η Ηο δεν μπορεί να απορριφθεί. (δεν λέω ποτέ ότι το τεστ δεν είναι στατιστικά σημαντικό)
Τεστ του Pierson: analyze à descriptive statistics à crosstabs, Εισαγάγω στο row και στο col τις μεταβλητές μου, Ενεργοποιώ το πεδίο statistics, Επιλέγω chi-test Το τεστ αυτό είναι ο συντελεστής συσχέτισης και δείχνει το πόσο εξαρτημένες είναι οι μεταβλητές.
Στις ασκήσεις γράφω: «Για να ελεγχθεί η ανεξαρτησία θα χρησιμοποιήσω το Χ2 τεστ του Pierson. Οι υποθέσεις μου είναι (για να βρώ ότι υπάρχει σχέση): Ηο οι μεταβλητές Χ και Ψ είναι ανεξάρτητες, Ηα οι μεταβλητές Χ και Ψ δεν είναι ανεξάρτητες. ….. Από την στατιστική ανάλυση προκύπτει ότι η τιμή του Χ2 είναι αβγ,δε με αντίστοιχη κρίσιμη τιμή του test sig(X2)= ζη,θ. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει sig(X2) ≤ α άρα η μηδενική υπόθεση απορρίπτεται και το τεστ είναι στατιστικά σημαντικό. Άρα οι μεταβλητές Χ και Ψ είναι εξαρτημένες Ή ……. Παρατηρώ ότι σε επίπεδο σημαντικότητας α=ω ισχύει sig(X2) > α άρα η μηδενική υπόθεση δεν μπορεί να απορριφτεί. Άρα οι μεταβλητές Χ και Ψ είναι ανεξάρτητες
Αξιοπιστία

Για να είναι αξιόπιστα τα συμπεράσματα του Χ2 τεστ ανεξαρτησίας θα πρέπει μέχρι το 20% των κελιών του πίνακα συνάφειας να έχει αναμενόμενη συχνότητα κάτω από 5. Αν αυτό δεν συμβεί θα πρέπει να συγχωνευθούν είτε γραμμές είτε στήλες του πίνακα συνάφειας μέχρι να πετύχουμε τον κανόνα.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου