statistiek - SPSS - masterproef / scriptie - data-analyse

Seminarie Masterproef 2015 - 2016
Analyse onderzoeksresultaten

De stappen voor een goede data-analyse
1.Opstellen analyseplan
2.Aanmaak werkbare SPSS-file
3.Data cleaning & bewerking
4.Steekproefomschrijving
5.Ontwikkeling + betrouwbaarheid schalen
6.Statistische analyses : manipulatiechecks en hypothesetoetsing
•Nominaal
•Ordinaal
•Correlatie
•Parametrische testen, 1 onafhankelijke variabele
•Parametrische testen, meerdere onafhankelijke variabelen
•Moderatie/mediatie
•Regressie
2

Hoofdstuk 1.
Bepaal vooraf wat je wilt meten, hoe je dit gaat meten, op
welk niveau je dit wilt meten en welke analysetechniek
hierbij het meest geschikt is
3

Het opstellen van een analyseplan
1. Opstellen hypothesen & onderzoeksvragen
• Eenduidige verwachtingen op basis van literatuur en
hypotheses
• Literatuur niet eenduidig?  research questions
2. Bepalen analysemethoden
• Welke statistische bewerking is nodig om dit te
beantwoorden?
• Wat is het meetniveau van de variabelen?
• Worden de assumpties voldaan?
4

Voorbeeld van een analyseplan
5
Omschrijving variabele Operationalisering Meetniveau
Aantrekkelijkheid van
filmster
(Onafhankelijke variabele)
1 stelling, zeven-
puntsschaal, 1 = totaal
onaantrekkelijk, 7 = zeer
aantrekkelijk
Ordinaal
Intentie om film te kijken 1 stelling, zeven-
puntsschaal, 1 = zeer
grote intentie, 7 =
Ordinaal
Hypothese Analysetechniek Operationalisering
Participanten die de uitvoering
van de film met Brad Pit zien,
geven een hogere waardering
aan de film dan de participanten
die dezelfde film met onbekende,
oudere acteurs zien.
ANOVA - Groepsvariabele voor 4
groepen maken
- …
- …

2. Aanmaak werkbare SPSS-file
8
Tip: houd in een Worddocument alle stappen bij die je in
SPSS uitvoert!

Data handmatig in SPSS invoeren
9
Papieren vragenlijst:
 Creatie SPSS datafile voor invoer
 Name/lable/Values & missings
 Type wordt standaard op ‘numeric’. Aanpassen indien nodig
(bv. string)
 Elk antwoord krijgt een cijfer. De betekenis van dit cijfer
aanduiden in ‘values’
 Geslacht: 1 = man / 2 = vrouw

Data downloaden uit Qualtrics (1)
10

11
Data downloaden uit Qualtrics (2)

Let op:
In het begin is dit bestand nog ‘onwerkbaar’
• Er staan geen ‘relevante’ labels en values. Enkel
vermelding question.
• Bij gebruik randomisatie in between-subjects
experiment: Veel ‘open stukken’ aangezien
respondenten slechts 1 van de reeksen hebben gezien.
• Missings krijgen een cijfer (-99 bijvoorbeeld)
12

Het SPSS-bestand voorbereiden voor analyse
• Geef logische namen, labels en values in ‘Variable View’
• Bij between subjects design (meerdere groepen):
• Knip en plak de juiste informatie onder elkaar
• Voeg variabelen toe om gepaste bewerkingen te kunnen
doen.
• Bv. variabele ‘versie advertentie’ of ‘reeks’
13

Je ziet hier: condities samengevoegd
15

STAP 2: data-cleaning + voorbereiding
• Delete testlijnen, blanco datalijnen
• Goed bijhouden + rapporteren in MP:
 Qualtrics: N survey starten – N survey completed
 N na delete testlijnen
 N na detectie outliers, onzorgvuldige antwoorden (scoren
helemaal verkeerd op manipulatiecheck bijv.)
• Sla datafile na deze fase als nieuw bestand op, zodat je
back-up hebt (zorg dus voor meerder versies)
16

Data checken & cleanen
• Frequentietabellen van elke variabele
• “Onmogelijke” waarden opsporen en corrigeren met FIND
• vb. code 3, 11 of 22 bij variabele geslacht, waar slechts 1 en 2
mogelijk zijn.
• Descriptives bij metrische variabelen.
• SPSS: analyze  descriptive statisics  options
• soms onoverzichtelijk vb. aantal minuten naar tv kijken 
gebruik dan “Sort Cases” in Data View
• Mean en st. Dev.
• Min. en max.
• outliers? Bijvoorbeeld: variabele leeftijd: min = 19 en max =
1972
17

Systematische fouten opsporen
• Bv de waarde 99 is niet aangeduid als missing
• Vertekening gemiddelden & bijhorende analyses!
• Veel voorkomende fout bij gebruik Qualtrics!
19

Systematische fouten oplossen
Definieer 99 als missing value (VARIABLE VIEW)
 USER MISSING VALUE
 Aanpassen 999 (typefout – kan niet voorvallen in qualtrics)
 Handmatig/ Recode into same
20

3. Databewerking
 Recode into different:
 bvb. Categorieën maken van de variabele leeftijd
 Labelen in variable view
 Hier behoud oorspronkelijke variabele (metrisch) en nieuwe
variabele (ordinaal)
 Recode into same:
 bvb. Items die in de omgekeerde richting zijn geschaald
 OPGELET: vaak veiliger om hier ook ‘into different’ te doen!
 Compute (bewerkingen):
 bvb. De variabele geboortejaar omzetten naar de variabele
leeftijd
• Variabele aanmaken in variable view
21

• Transform  recode into DIFFERENT
• Verzin een naam en label voor nieuwe variabele en klik op ‘change’
• Definieer de verschillende leeftijdscategorieën
22

OPGELET bij Recode!
• SPSS houdt in RECODE geen rekening met user missing
values (= in variabele view gedefinieerd)
• Stel: 99 als missing gedefinieerd „» wordt meegenomen
in hoogste leeftijdscategorie
• Dit is niet de bedoeling!
24

Geef betekenis aan de values m.b.v. labels
26

Schaalconstructie
• Manifeste variabele: gemeten aan de hand van 1 vraag/ 1
item > direct meetbaar.
Bijvoorbeeld:
• Geslacht (wat is je geslacht) = man of vrouw
• Internetgebruik (hoeveel uur / dag) = 4 uur / dag
• Latente variabele: gemeten aan de hand van meerdere
vragen/meerdere items > niet direct meetbaar: moeten in
schaal worden omgezet d.m.v. somscores of factorscores
27

Gebruik van bestaande schalen (aan te raden!)
• Kijk of alle items in dezelfde richting zijn geschaald
• Omschalen antwoordcategorieën: Transform > Recode
into different variables
• VB aandacht / vermijding
17/ 2  6 / 3  5 / 4 = 4 / 5  3 / 6  2 / 7  1
• Check Cronbach’s Alpha
• Analyze  scale  reliability
• Indien betrouwbaar: maak somsschaal aan
28

Gebruik van zelfgemaakte schalen
• Factoranalyse = multivariate statistische techniek die voor een
groot aantal geobserveerde variabelen een kleiner aantal
achterliggende variabelen identificeert.
• Check Cronbach’s Alpha
• Indien betrouwbaar: maak somsschaal aan
29

Bijvoorbeeld : 3 items in één vragenlijst die mogelijk een
onderliggend concept meten:
• Ik vind de Universiteit Antwerpen tof (Helemaal niet akkoord –
Helemaal Akkoord)
• Ik vind de Universiteit Antwerpen een goede unief (Helemaal niet
akkoord-Helemaal akkoord)
• De universiteit Antwerpen stelt mij nooit teleur (Helemaal niet
akkoord- Helemaal akkoord)
30

Exploratieve factoranalyse
1. Kijk eerst of alle items in dezelfde richting zijn geschaald
2. SPSS > Analyze > Dimension reduction > Factor
• Selecteer items waarvan je wenst na te gaan of ze
samen één of meerdere factoren vormen.
31

Cronbach’s Alpha (betrouwbaarheid schaal)
• Breng alle items van de schaal naar rechts
• Vink bij ‘statistics’ : ‘scale if item deleted’ aan
35

36
• Kolom 1: correlaties tussen elk item en de rest van de
schaal  Elk item moet groter zijn dan 0.30
• Kolom 2 = Cronbach’s Alpha wanneer we het item
weglaten  groter = betrouwbaarder

Item weglaten?  inhoudelijke afweging:
• Indien schaal betrouwbaarder wordt : item weglaten
• Correlatie item < 0.30
• Chronbach’s alpha wordt groter bij weglaten
Tenzij:
• Chronbach’s alpha is al relatief hoog (≥ 0.70)
• + Het item is inhoudelijk belangrijk voor de schaal
• Op basis van theoretische gronden
• Zo ook gebruikt in vorige onderzoeken
37

Somschalen aanmaken
Er zijn in SPSS verschillende manieren om een gemiddelde te
berekenen van een schaal, bv. de schaal “Openess” die origineel
bestond uit 10 items.
• De restrictieve somschaal
(item 1 + item 2 + … + item 10) / 10
Bij methode 1 wordt de score berekend voor de respondenten die
ALLE items hebben ingevuld. Indien ze er 1 of meer niet hebben
ingevuld, zal dit een missing worden.
• De niet restrictieve somschaal
MEAN (item 1, item 2, …, item 10)
Bij methode 2 wordt de score voor alle respondenten berekend,
ongeacht hoeveel items ze hebben ingevuld (maar wel minimum 1
item).
• De tussenoplossing / geïmputeerde somschaal
MEAN.x(item 1, item 2, …, item 10)
Bij methode 3 geef je zelf aan hoeveel missings er mogen zijn om
nog mee te worden opgenomen in de analyse (X > min aantal dat
ingevuld moet zijn). Voor elke missing kent hij de gemiddelde
waarde van de wel ingevulde items toe.
38

Hoofdstuk 4. Statistische analyses
40

ANALYSES PER MEETNIVEAU Nominaal Ordinaal Interval / Ratio
Beschrijven van een variabele Frequentietabel
Centrummaat Modus Mediaan Gemiddelde
Steekproefgemiddelde toetsen aan
ander “gemiddelde”
Binominale toets Tekentoets t-toets voor 1
steekproef
Verdeling variabele toetsen Chi-kwadraat
(verdelingstoets)
Chi-kwadraat
(verdelingstoets)
Chi-kwadraat
(verdelingstoets)
Beschrijving van groepen Kruistabel
Vergelijking van twee onafhankelijke
groepen
Chi-kwadraat
(kruistabel)
Mann-Whitney t-toets
Vergelijken van meer dan twee
onafhankelijke groepen
Chi-kwadraat
(kruistabel)
Kruskal-Wallis
Mediaantoets
F-toets
Variantieanalyse
(ANOVA)
Vergelijken van gerelateerde groepen
(gekoppelde paren)
Wilcoxon
rangtekentoets
Gepaarde t-toets
Bepalen van de samenhang tussen
twee variabelen
Chi-kwadraat
(kruistabel)
Spearman
rangcorrelatie
Pearson
Correlatieanalyse
Verklaren van een variabele Regressieanalyse
41

Nominale data
Beschrijvende analyses:
• Frequentietabel: beschrijving van een variabele
• Kruistabel:
• Toetsing samenhang: vergelijkt de verwachte aantallen in het
geval van GEEN afhankelijkheid (H0) tussen de variabelen met
de gevonden aantallen.
• Indien verschil groter dan verwacht: significante Chi2
• Chi2: uitspraak over samenhang variabelen van de
VOLLEDIGE tabel
• Percentagetoets: toetsing significantie tussen 2 cellen uit
tabel
• uitspraak over verschil in % binnen de tabel, tussen 2 cellen
42

Analyze > Descriptive Statistics > Crosstabs
43

Chi² toets
• Chi²:
 afhank varia = 0-1 (vb. recall, juist/fout) onafhankelijke variabele = 0-
1 (vb. LI vs. HI product)
• Hoofeffecten: vb. is er een verschil in recall voor low vs. high
involvement producten? -> chi²
• Interactie-effecten: vb. hangt dit verschil af van de prominentie
van
het merk?
 -> split file -> compare groups
• Rapportering: recall_LI= 23.3% vs. recall _HI=23.7% chi2(1, N =
90) = 0.89, p = .35
46

Voorwaarden Chi²
1.Max. 20% van de cellen mogen een expected count (Fe) <5
hebben.
 = er moeten voldoende waarnemingen zijn in elke cel
 = voldoende respondenten!
2.Iedere persoon / item mag maar in één cel voorkomen
 = repeated measures design is niet toegestaan.
 Aan beide voorwaarden moet voldaan zijn om de chi² waarde
en de sign. te mogen interpreteren
 Indien voorwaarden geschonden: samennemen van kolommen en
rijen  Verhogen aantallen, maar enkel indien dit inhoudelijk
zinvol is!
47

Voorwaarden Chi²
In dit geval is er dus niet aan de voorwaarden gedaan:
- 50% (dus meer dan 20%) hebben een expected count
van minder dan 5
- min. Expected count = 0,50 (>1)
48

2 x 2 tabel
• Niet kijken naar Pearson Chi2
• Interpretatie via Continuity correction bij 2 x 2 tabel
• Indien voorwaarden geschonden (te weinig
waarnemingen)
• Fisher’s Exact test
49

Ordinale data
Non-parametrische testen:
Beschrijvende analyse & hypothesetoetsing
• Geen vergelijking van gemiddelden, maar rangordes!
Non-parametrische testen
• Bij ordinale afhankelijke variabelen
• Ter vervanging parametrische toetsen wanneer assumptie
normaliteit niet voldaan
3 mogelijke analysemethodes:
• 2 independent samples: Mann-Whitney
• K (>2) independent samples: Kruskall Wallis
• 2 related samples: Wilcoxon rangtekentoets
50

Check assumpties voordat je deze testen uitvoert!
51
Interval / ratio niveau: Parametrische toetsen
Samenhang tussen twee variabelen Correlatiecoëfficiënt
Vergelijking van twee
Independent T-test
Vergelijken van meer dan twee
F-test
Vergelijking van gerelateerde
groepen
Dependent T-test

Parametrische data: assumpties
52
1. Interval data: data moet minimaal op interval niveau
gemeten zijn
2. De data is normaal verdeeld
3. Homogeniteit van variantie: de variantie moet over alle
groepen gelijk zijn

Correlaties
Beschrijvende analyses
• Lineair verband tussen 2 variabelen
• OPGELET: geen causaal verband (geen richting)!
• Bvb. Is er een sign. verband tussen attitude tov. alcohol
en leeftijd?
53

Correlatie
• Analyze  correlate  bivariate
• Wanneer duidelijke verwachting van de richting van het verband
• One-tailed correlatie
• Wanneer geen duidelijke verwachting
• Two-tailed
54

Correlaties
• Parametrische data: Pearson correlatie
• Vaststellen LINEAIR verband tussen 2 metrische / continue
variabelen:
• Bv: attitude t.o.v. alcohol * zelfvertrouwen
• Ordinale data: Spearman correlatie
• bvb. Attitude alcohol* klas (4e, 5e, 6e)
55

Interpretatie van correlatie
56

Independent t-test
• Vergelijking van gemiddelden van 2 groepen
• Afhank. varia = interval (vb. aantal minuten surfen)
• Onafhankelijke variabele = 0-1 (vb. man 0 – vrouw 1)
58

Independent T-test
59
• Analyze  compare means  independent samples t-test
• AV  test variable en OV  grouping variable
• Define groups….

T-test – toets eerst assumptie gelijke spreiding
60
• H0 = hypothese van gelijke varianties
• P-waarde > .05 = er zijn geen sign. verschillen in de
spreidingen
• Lees informatie af van de eerste lijn
• P-waarde < .05 = er zijn wel sign. Verschillen in de
spreidingen
• Lees informatie af van de gecorrigeerde t-test (aanpassing
aantal df)
• Assumptie is geschonden!

Independent t-test
• Voor de interpretatie van de gegevens: kijken naar de ‘Group
statistics’
• mannen surfen gemiddeld 396, 31 minuten vs vrouwen 266, 94
minuten per week
 Effect size = correlatiecoefficient r
 √(t2 /(t2+df))
 Naast maat voor sterkte relatie tussen 2 variabelen, ook maat voor
sterkte experimenteel effect.
 Afgeleid van R2 (proportie verklaarde variantie door experiment)
 Zelf uitrekenen m.b.v. cijfers tabel
61

Independent t-test: rapportering
62
• Mannen surfen gemiddeld langer (M = 396.31, SE =
23.29 ) dan vrouwen (M = 266.94, SE = 22.67)
• Dit verschil in surfgedrag is significant: t(483) = 3.98, p.
<.001)

Meer dan 2 gemiddelden vergelijken?  ANOVA-analyse
Soorten ANOVA’s:
1.Eerste helft naam = aantal onafhankelijke variabelen
• One-way ANOVA = 1 ov
• Two-way ANOVA = 2 ov
• Three-way Anova = 3 ov
• Meer kan, maar zeer moeilijke interpretatie.
2. Tweede helft naam : hoe de onafhankelijke variabelen gemeten worden
• Independent ANOVA = verschillende participanten in de condities
• Between subjects design
• Repeated measures ANOVA = dezelfde participanten in alle condities
• Within subjects design
• (Mixed ANOVA = tenminste 1 ov wordt gemeten adhv verschillende
participanten + Tenminste 1 ov wordt gemeten door het gebruiken van
dezelfde participanten)
63

1. One way ANOVA
• Toetsen van gemiddelden tussen 2 of meer groepen
• Analyze  compare means  One-Way ANOVA
• “One Way”: er is maar één onafhankelijke variabele
• Er is één afhankelijke variabele
• OV naar factor
• AV naar dependent list
• Options  descriptives aanvinken  homogenety of
variance aanklikken  continue
• Posthoc  Bonferonni aanvinken  continue
64

One-way independent ANOVA
• ANOVA tabel laat zien dat verschil tussen gemiddelden significant is
• Bonferroni Post Hoc test laat zien welke gemiddelden dan precies van elkaar
verschillen
• Levene’s test: homogeniteit v varianties: niet sig. = homogene varianties
65

One-way ANOVA: rapportering
ANOVA analyse toont een significant effect van
werkcontract op betrokkenheid, F(2,27) = 13.88, p <
0.001). Fulltime medewerkers zijn gemiddeld (…)
66

2. Two-way independent ANOVA
• = 2 FACTOR ANOVA.
• Factor = ander woord voor onafhankelijke variabele
• Net hadden we maar één factor ingevoerd. Nu voeren we er
twee in.
• 2 onafhankelijke variabelen zijn gemanipuleerd, met telkens
verschillende participanten in alle condities
= Between subjects design
• Bv: onderzoek naar de effecten van alcohol en geslacht op ‘mate
selection’
71

Two-way INDEPENDENT ANOVA
• VB: onderzoek naar de effecten van alcohol in ‘mate selection’
• Hypothese: beoordeling aantrekkelijkheid ander geslacht minder
accuraat naarmate meer er meer alcohol wordt gedronken
• Kijken of er een verschil is tussen mannen en vrouwen
• Kijken naar verschil in mate van alcohol
• 2 (man/vrouw) x 3 (Geen alcohol/ 2 glazen/4 glazen) between subjects
design
• Maak handmatig 2 variabelen aan (6 condities in totaal)
72

Two-way INDEPENDENT ANOVA
• Stappen SPSS
• Analyze → General Linear Model → Univariate
• OV naar Fixed Factor
• AV naar dependent variable
• Options  OVERALL naar display means for.. 
descriptive statistics, estimated effect sizes,
homogeneity tests en evt compare main effects
aanvinken  continue  ok
• Post Hoc  post hoc tests voor OV met meerdere
categorieën.
• Eventueel plots gebruiken voor visualisatie interactie-
effecten
73

Two-way INDEPENDENT ANOVA: interpretatie
74

• Kijk naar de means
voor interpretatie
van de effecten
• Gebruik Bonferroni
post-hoc test voor
onafhankelijke
variabelen met
MEER dan 2
categorieën (in dit
geval het aantal
pintjes)
75

• Om te kijken of er verschillen zijn tussen mannen en
vrouwen per alcoholniveau  pairwise comparisons
toevoegen (options  compare main effects)
76

3. ANCOVA
• Soms wil je weten of er naast de invloed van een
categorische onafhankelijke variabele (X1) op de
afhankelijke variabele (Y), ook nog beïnvloeding is van
een continue variabele (X2)
• Analysis of Covariance (ANCOVA)
• Model met meerdere predictors
• X2 = Continue, metrische variabele (niet categorisch)
• Bv. invloed van wel / geen Viagra op het libido.  speelt
het libido van de partner (continue variabele) hierbij ook
een rol?
77

ANCOVA
• Analyze  GLM  univariate
• Dezelfde procedure als two-wayANOVA, maar nu met
covariaat
78

ANCOVA: resultaten
• Zonder de covariaat ‘libido partner’ geen effect van dosis
viagra op libido
• MET covariaat wel een significante invloed
79

4. One-way repeated measures ANOVA
Te vergelijken met gepaarde t-test met meer dan 2 paren  dezelfde
respondenten, worden meerdere keren gemeten.
Te gebruiken bij
• Repeated measures
• Bv attitudemetingen 5 ≠ momenten (zelfde respondenten)
• Bv: onderzoek naar relatie tussen alcohol en ‘party enjoyment’
• Elke respondent start met geen alcohol, 2 pintjes, 4 pintjes…
= Within subjects design
Voorbeeld:
• ‘survival show’: wie gaat het verst?
• 8 proefpersonen moeten 4 vreemde dingen eten
• Insect, kangoeroe testikel, visoog, stierenbal
• Afhankelijke variabele: hoe lang het duurt om het in te slikken.
80

One-way repeated measures ANOVA
• Analyze  General Linear Model  Repeated measures.
• Within-subject-factor name: voer een naam in: vb ‘animal’
• Er is maar één groep, dus nu geen ‘between-subjects factors’
• Ingeven aantal levels = aantal experimentele condities
• Klik op ‘add’ en ‘define’
• Plaats 4 onafh. var.  within subject var.
81

• Options  descriptives  estimates of effect size  compare main
effects  display means for …
•  Descriptives aanvinken (gemiddeldes nodig voor interpretatie)
• Eventueel : Compair main effects (Bonferroni)
82

• Eerst kijken naar: “Mauchly’s test of sphericity”
• = vlgb. ‘homogeneity of variance’ assumptie, maar voor gekoppelde
paren
• Het verschil tussen elk paar moet gelijke variance hebben
• Significant (p < 0.05) = significant verschil tussen varianties  Niet
significant = WEL aan voorwaarde voldaan!
• VB: Animal: significant verschil.  gebruik Greenhousse-Geiser
83

• F-waarde hieronder mag je nu niet gebruiken:
• Kijk daarom naar tweede regel Greenhouse-Geisser
84

5. Two-way repeated measures ANOVA
• 2-way  2 onafhankelijke variabelen
• (3-way  3 ov)
• Voer dezelfde stappen uit als bij one-way ANOVA
• 2 within subject factoren moeten nu worden ingegeven
• Nu ook evt. interactie-effecten.
85

Mixed ANOVA
• Mix van ‘within’ en ‘between subjects’ design
• Bv. within subjects design, met opsplitsing naar geslacht
• Voorbeeld: 4x iets eten, groep met mannen en groep
met vrouwen
• Werken met ‘repeated measures design’
• Analyze  General Linear Model  Repeated
measures.
• Toevoegen ‘between subjects factors’ en eventueel
covariates
• Kijk ook naar interactie-effecten
86

6. MANOVA
• = Multivariate Analysis Of Variance
• ANOVA voor situaties met meerdere afhankelijke variabelen!
• Kan gebruikt worden voor eenvoudige of meer uitgebreide
designs (1 of meerdere onafhankelijke variabelen)
• Meerwaarde?
• MANOVA kijkt naar het effect van alle onafhankelijke
variabelen (+ interacties) = basis anova’s
• + kijkt of er een relatie is tussen de verschillende afhankelijke
variabelen
• Creatie van een nieuwe variabele: lineare combinatie van de
originele afhankelijke variabelen
• Controleert of de verschillen tussen groepen op de
gecombineerde av groter zijn dan verwacht obv toeval
87

MANOVA
• Bv. Personen die vaak alcohol drinken worden
gepercipieerd als het hebben van een hogere status dan
personen die weinig of geen alcohol drinken.
• Status wordt gemeten door 2 afhankelijke variabelen:
hoge werkfunctie, aantal vrienden
• Analyze  General Lineair Model  Multivariate
• Assumptie van gelijke covariantie: De variantie in elke
groep + de correlatie tussen elke twee afhankelijke
variabelen moet gelijk zijn voor alle afhankelijke
variabelen  Gebruik Box’s test
• Test vooraf normaliteit voor iedere onaf. variabele
88

89
• Analyze  General Lineair Model  Multivariate

MANOVA: assumpties testen
• Hier is de Box’s test significant… Geen gelijke covariantie.
• Maar: als de sample sizes ongeveer gelijk zijn, mag je toch
MANOVA uitvoeren  robuust genoeg
• Kijk dus ook naar andere tabellen
90

MANOVA
• Tabel ‘multivariate tests’  laat zien of nieuwe variabele
die de afhankelijke variabelen combineert significant
verschilt naargelang drinkfrequentie
• Pilai’s Trace meest robuste test!
• Waar zitten de verschillen?  kijk hiervoor naar de losse
ANOVA’s (tabellen hier niet weergegeven)
91

Moderatie
• Interactie-effect = moderatie.
• Moderator variabele beïnvloedt de relatie tussen een
OV & AV
• VB De relatie tussen het zien van een horror film &
angstgevoelens is gemodereerd door de levendigheid
van iemands verbeelding
95
Horrorfilm Angst
Levendigheid
verbeelding

Moderatie
• Mogelijk via ANOVA’s (interactie-effecten door
toevoegen extra factor/independent variabele).
• Soms makkelijker via aparte moderatie analyse
• Gebruik PROCESS tool van A. Hayes
• Uitleg installatie + introductie moderatie door Field:
• http://youtu.be/RqkGMqDU20Q
• Analyze  regression  PROCESS
96

Mediatie
• Wanneer de relatie tussen een OV en AV variabele verklaard kan worden
door hun relatie tot een derde variabele (mediator)
• Mediatie = wanneer de sterkte van de relatie tussen predictor en
outcome verminderd wanneer de mediator wordt opgenomen.
• = als c’ < c = als indirect effect < direct effect
• Via Hayes procedure: Zie YouTube voor uitleg:
http://youtu.be/RqkGMqDU20Q
• Via meerdere regressies is soms ook een optie
97

Lineaire regressie
In welke mate kunnen we het gedrag van een bepaald
kenmerk beter verklaren (of voorspellen) met behulp van de
kennis over één of meerdere andere kenmerken?
98

Voorwaarden voor lineaire regressie
Variabelen
• AV: interval – of rationiveau / ordinaal met minstens 6 waarden (mits
veronderstelling dat hier een interval-verdeling aan ten grondslag ligt)
• OV: interval / dichotome variabelen.
Categorale variabelen met meer dan 2 categorieën > dummificeren
Model assumpties (controleren!)
• Het verband tussen OV en AV is lineair van aard
• De errortermen zijn normaal verdeeld (normaliteitsvereiste)
• De errortermen zijn niet gecorreleerd (onafhankelijkheidsvoorwaarde)
• De errortermen zijn homoscedastisch
99

Problemen met de data (controleren!)
• Multicollineariteit
• Outliers
• Hefboompunten
• Invloedrijke punten
100

Stappenplan regressieanalyse
Acht stappen van regressieanalyse (Mortelmans & Dehertogh, 2007)
0. Datacleaning
1. Theoretisch-conceptuele fase
2. Uni- en bivariate verkenning
3. Eerste inhoudelijke inspectie
4. Controle van de assumpties van het regressiemodel
5. Multicollineariteitsanalyse
6. Residu-analyse
7. Tweede inhoudelijke inspectie
8. Rapportage
101

Assumpties testen – lineariteitsvereiste
= het verband tussen OV en AV moet lineair van aard zijn
Schending vaststellen:
1. Visuele inspectie scatterplot tussen X en Y
• Indien meerdere OV > meerdere scatterplots
2. Visuele inspectie van standardized residuals versus de voorspelde
waarden
3. Visuele inspectie van de partiële plots voor elke onafhankelijke
4. De Ramsey RESET test
Schending? > overgaan op niet-lineaire regressie (de OV dummificeren,
polynome regressie, Box-Cox transformaties, niet-additieve
regressiemodellen)
102

Assumpties testen - normaliteitsvereiste
= op elk punt van X moeten de waarden van de errortermen normaal
verdeeld zijn
1. Visuele inspectie van het histogram
2. Visuele inspectie van de P-P plot en de Q-Q plot
3. De Shapiro-Wilk of de Kolmogorov-Smirnov toets
Schending? > AV transformeren m.b.v. een Box-Cox transformatie
103

Assumpties testen - onafhankelijkheidsvereiste
= errortermen van verschillende personen mogen niet met elkaar
gecorreleerd zijn
Kans = klein bij:
- Survey-onderzoek bij at random steekproef van respondenten
- Mits je geen time series, longitudinale of geclusterde data hebt
1. Durbin-Watson test
Schending? > multilevelmodellen
104

Assumpties testen - homoscedasticiteitsvereiste
= de variantie van de residuelen is gelijk voor alle (combinaties van)
waarden van de OV
1. Visuele inspectie van de plot van de gestandaardiseerde voorspelde
afhankelijke (ZPRED) tegenover de gestandaardiseerde residuen (ZRESID)
2. Visuele inspectie van de plot van de geobserveerde afhankelijke
tegenover de gestandaardiseerde residuen (ZRESID)
3. De Goldfeld-Quandt test
4. De White test
Schending? > AV transformeren m.b.v. een Box-Cox transformatie OF
Weighted Least Squares (WLS) in regressie gebruiken (i.p.v. OLS)
105

Enkelvoudige regressie (één OV)
Analyze > regression > linear
106
AV: variabele die je
wil voorspellen.
OV: predictors

107
R Square: ons model
slaagt erin om 7,5% van
de totale variantie van
de AV te verklaren.
Het geschatte
regressiemodel verklaart
een significante
proportie variantie.
Geslacht is significante
voorspeller.

Meervoudige regressie (meerdere OV)
108

109
Adjusted R Square: Ons
model slaagt erin om
7,9% van de totale
variantie van de AV te
verklaren.
Enkel geslacht is
significante voorspeller.

Stapsgewijze (hiërarchische) regressie
In plaats van in één keer
de OV (in groepjes)
stapsgewijs toevoegen
aan model
110

Logistische regressie
AV = dichotoom
> logistische regressie
> probit regressie
AV = ordinaal met meer dan twee categorieën
> ordinale logistische regressie
> ordinale probit regressie
112

Enkele begrippen:
• pi = de kans voor een bepaald geval i om de waarde 1 van de AV aan te
nemen
• de odds = pi / (1 - pi)
• de log-odds of logit= LN (pi / (1 - pi)) = LN (odds)
• Odds-ration = odds (│X2 = 1 / odds (│ X2 = 0)
(X2 = dichotome variabele met waarden 0 en 1)
• Bv. Uitkomst = 1,35 = de odds dat de AV gelijk is aan 1, is 1.35 keer groter
wanneer X=1 dan wanneer X=0
113

Interpretatie coëfficiënten in logistische regressie
• Geen intuïtieve betekenis, wel richting van het effect.
Indien coëfficiënt:
> 0 = positief effect
< 0 = negatief effect
= 0 = geen effect
• EXP(bj) = effect op odds
> 1 = positief effect
< 1 = negatief effect
= 1 = geen effect
114

AV = dichotoom
> logistische regressie
> probit regressie
Probit regressie: alternatief model
• Relatie tussen OV en kans of proportie pi verloopt volgens curve van
cumulatieve normale verdelingsfunctie i.p.v. logistische curve
• In praktijk quasi dezelfde resultaten, maar met herschaalde coëfficiënten
115

Analyze > Regression > Binary Logistic
116
Covariates = OV van interval
of categoraal niveau
> categorale OV moeten
omgezet worden in dummy-
variabelen. SPSS doet dit
voor ons > klik hiervoor op
“categorical” > breng
categorale variabelen over
naar het vak “categorical
covariates” > kies
referentiecategorie (first /
last)

118
Aantal gevallen in analyse, en aantal dat
eruit valt wegens missings
SPSS werkt altijd met AV met
categorieën 0 en 1; eventuele omzetting
kun je hier aflezen
Bij gebruik categorale variabelen: tabel “categorical variables coding” >
geeft aan hoe dummy-variabelen zijn gedifinieerd / gecodeerd.

119
Geeft % correct voorspelde
gevallen

120
Geeft aan of het model als geheel een
statistisch significant effect op de AV heeft.
Geeft indicaties van de verklaringskracht
van het model als geheel.
Geeft aan of de logistische vergelijking
klopt.
Krijg je als je continue variabelen
hebt gebruikt

121
Stijging van het % dat
correct wordt voorspeld
t.o.v. dit % in block 0,
geeft zekere indicatie van
kwaliteit van het model.
Geslacht en extraversie zijn
significante voorspellers.

Rapporteren regressieanalyse
Wat bespreek je?
• Operationalisering (in methodesectie)
• Controle toetsen (in methodesectie, eventueel in resultatensectie)
• Resultaten in regressietabel (in resultatensectie)
O.a. duidelijke tabeltitel met voldoende info, kolom met variabelen,
kolom met parameters, kolom met significantietoetsen van
parameters, overzicht van de modeltoetsen
+ Bespreek de resultaten in tekst
122

Algemene tips
• Rapporteren: gebruik andere papers als voorbeeld
• Soms zijn er meerdere analysetechnieken mogelijk! 
zorg dat je jouw keuze kunt verantwoorden
• Handboeken en YouTube video’s bieden vaak uitkomst
• Je hoeft geen statistiek-wonder te zijn om data te
kunnen analyseren….
123

Lees ook eens deze boeken…:
• Handboek analyses
Andy Field: Discovering statistics using SPSS
• Mediatie-analyses:
• Website: http://www.afhayes.com/introduction-to-
mediationmoderation-and-conditional-process-
analysis.html (+ ook facebookpag. En dergelijke voor
FAQ)
• + evt. zijn boek: Hayes, A. F. (2013). An introduction to
mediation, moderation, and conditional process
analysis:
124

Keep calm and… become MsC
Succes!!!

Bronnen Slides
• Universiteit Gent
• Andy Field
• Dimitri Mortelmans
126

statistiek - SPSS - masterproef / scriptie - data-analyse

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to statistiek - SPSS - masterproef / scriptie - data-analyse

Similar to statistiek - SPSS - masterproef / scriptie - data-analyse (18)

More from Simone Krouwer

More from Simone Krouwer (20)

statistiek - SPSS - masterproef / scriptie - data-analyse