Hoofdstuk 9 Validiteit

Auteur: Gjalt-Jorn Peters en Natascha de Hoog; laatste update: 2023-08-17

In dit hoofdstuk wordt besproken:
  • cognitieve validiteit
  • validiteit van meetinstrumenten
  • het responsmodel en responspatronen
  • convergentie en divergentie
  • validiteit gaat over één enkele studie.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)

9.1 Inleiding

Validiteit is een breed concept met verschillende definities afhankelijk van de context. Over het algemeen kun je zeggen dat validiteit in wetenschappelijk onderzoek gaat over in hoeverre de metingen en resultaten overeenkomen met ‘de waarheid’. Om het concept validiteit in wetenschappelijk onderzoek beter te begrijpen, is het zinvol om te beginnen vanuit de conclusies van een wetenschappelijke studie. Die conclusies moeten valide zijn, dat wil zeggen dat ze logisch coherent zijn gegeven de data die zijn verzameld in de studie. Valide conclusies vereisen vervolgens dat de verschillende onderdelen van een studie valide zijn:

  • de conclusies moeten in lijn zijn met de uitkomsten van de analyses
  • de conclusies moeten in lijn zijn met het studieontwerp
  • het studieontwerp moet voldoende intern valide zijn
  • het studieontwerp moet voldoende extern valide zijn
  • de meetinstrumenten en manipulaties moeten voldoende intern valide zijn
  • de meetinstrumenten en manipulaties moeten voldoende extern valide zijn

De eerste twee punten volgen uit drie van de principes van wetenschappelijke integriteit: zorgvuldigheid, eerlijkheid en transparantie. Dit betekent dat het niet geoorloofd is om conclusies te trekken die niet helemaal worden gerechtvaardigd door de uitkomsten. Als een wetenschapper bijvoorbeeld sterkere conclusies trekt dan het studieontwerp toestaat, is diegene niet zorgvuldig, eerlijk en transparant.

De laatste vier punten betreffen de validiteit van specifieke onderdelen van een studie: het ontwerp, met bijzondere aandacht voor de meetinstrumenten en manipulaties; al deze onderdelen moeten zowel intern als extern valide zijn.

Interne validiteit gaat over de mate van interne cohesie van een studie. Een eerste voorwaarde voor interne validiteit is dat de gebruikte meetinstrumenten valide zijn. Daar gaat dit hoofdstuk over. Andere voorwaarden voor de interne validiteit hebben betrekking op de validiteit van manipulaties en de validiteit van ontwerpen.

Externe validiteit gaat over de mate waarin conclusies uit de studie te generaliseren zijn naar andere situaties, maar speelt soms ook een rol bij de validiteit van meetinstrumenten en manipulaties.

Voor zowel meetinstrumenten als manipulaties geldt dat ze bestaan uit een procedure, vaak een of meer stimuli, en voor meetinstrumenten bovendien uit een responsregistratie. Meetinstrumenten en manipulaties zijn alleen valide als die procedure, de stimuli en eventueel de methode voor responsregistratie ook goed begrepen worden door de deelnemers. Deze voorwaarde voor validiteit wordt cognitieve validiteit genoemd.

9.2 Cognitieve validiteit

Cognitieve validiteit betreft de mate waarin de procedure, de stimuli, en bij meetinstrumenten de responsregistratie door deelnemers worden geïnterpreteerd zoals de bedoeling is. Stel dat een vragenlijst het doel heeft om de intentie tot matiging van alcoholgebruik te meten met de vraag ‘Bent u van plan om de komende week maximaal 14 alcoholische drankjes te drinken?’ Als deelnemers deze vraag niet interpreteren zoals bedoeld, maar als een vraag naar de intentie om juist veel te gaan drinken, dan is die vraag niet cognitief valide. Ook een manipulatie waarbij het lezen van een verhaal angst moet opwekken, maar waarbij de dreiging niet duidelijk uit het verhaal naar voren komt en door de deelnemers niet wordt begrepen, is niet cognitief valide.

Cognitieve validiteit wordt meestal onderzocht met cognitieve interviews, een methode die specifiek hiervoor ontwikkeld is. Het onderzoeken van de cognitieve validiteit van een meetinstrument of manipulatie kan onderdeel zijn van een pilotstudie waarin ook de validiteit van het studieontwerp wordt geverifieerd.

Cognitieve validiteit gaat dus over de interpretatie van de onderdelen van een meetinstrument of manipulatie. Maar dit is niet het enige aspect van validiteit. Een meetinstrument kan niet-valide zijn, terwijl het wel cognitief valide is. Je kunt bijvoorbeeld een vragenlijst ontwerpen om blijdschap te meten met als enige vraag ‘hou je van augurken?’ en als antwoordopties ‘ja’, ‘gaat wel’ en ‘nee’. Waarschijnlijk is de cognitieve validiteit prima, maar de validiteit is nul: mensen die van augurken houden zijn niet systematisch blijer of minder blij dan mensen die niet van augurken houden. Het is dus ook belangrijk dat het juiste construct gemeten of gemanipuleerd wordt. Daarover gaat de volgende paragraaf.

9.3 Validiteit van meetinstrumenten en manipulaties

De menselijke psychologie kan niet rechtstreeks onderzocht worden. Daarom worden er constructen gedefinieerd. Deze constructen worden vervolgens geoperationaliseerd en gemeten of gemanipuleerd. Het doel van een meetinstrument is om informatie te krijgen over een construct: je wilt iets meten, maar niet veranderen. Dit doe je door mensen bloot te stellen aan een procedure (en eventueel aan stimuli) en vervolgens een respons te registreren. Een voorbeeld van een meetinstrument is een vragenlijst, waarbij stimuli worden aangeboden (vragen en antwoordopties) volgens een procedure (bijvoorbeeld in een online vragenlijst of op papier). Het is de bedoeling dat de procedure en stimuli op een bepaalde manier worden verwerkt door de deelnemers, zodat de respons die de deelnemers vertonen informatie geeft over een psychologisch construct (meestal betekent dit dat de antwoordoptie die iemand aankruist iets zegt over dat construct).

Het doel van een manipulatie is juist om een construct te veranderen (mensen worden bijvoorbeeld blij, gestrest of krijgen meer zelfvertrouwen) door mensen bloot te stellen aan de procedure en eventuele stimuli. Bij manipulaties wordt niets gemeten en ze genereren dus geen data, behalve dat in het bestand wordt aangegeven wie welke manipulatie heeft ontvangen. Voorbeelden zijn blootstelling aan een filmpje, aan een serie plaatjes, het laten uitvoeren van een taakje etc.

Validiteit van meetinstrumenten en manipulaties gaat over de mate waarin blootstelling aan een meetinstrument of manipulatie leidt tot het meten of veranderen van het doelconstruct, en uitsluitend het doelconstruct. Een meetinstrument dat is ontworpen om vrolijkheid te meten, maar dat eigenlijk optimisme meet, is niet valide. Een meetinstrument dat is ontworpen om vrolijkheid te meten, maar dat niet alleen vrolijkheid maar ook ontspanning meet, is niet valide. Tenzij ontspanning volgens de definitie van het doelconstruct (vrolijkheid) deel uitmaakt van dat doelconstruct. Zie voor meer achtergrond het hoofdstuk Constructen. Een manipulatie die is ontworpen om mensen vrolijk te maken, maar die geen effect heeft op hun vrolijkheid, is niet valide. Een manipulatie die is ontworpen om mensen vrolijk te maken en die mensen inderdaad vrolijk maakt, maar ze bovendien gestrest maakt, is ook niet valide.

9.4 Valide meetinstrumenten vereisen heldere constructen

Validiteit van een meetinstrument betekent dus dat het meetinstrument meet wat het moet meten. Borsboom, Mellenbergh en van Heerden (2004) formuleren validiteit van een meetinstrument als volgt: een meetinstrument is valide als variatie in het te meten construct variatie in de scores op het meetinstrument veroorzaakt. Belangrijk in deze definitie is de causaliteit: validiteit is geen uitspraak over verbanden, maar over causaliteit.

Nadenken over validiteit start dus met een duidelijke definitie van het betreffende construct. De definitie van een construct moet in die mate helder zijn dat duidelijk is welke aspecten van de menselijke psychologie er precies onder vallen. Dit is ideaal gezien geen opsomming van aspecten, maar een coherent theoretisch kader dat voldoende is uitgewerkt om het construct scherp te definiëren. De metafoor om over constructen na te denken die we in het hoofdstuk Constructen introduceerden is ook hier bruikbaar. Het voorbeeld uit dat hoofdstuk staat ook weer in Figuur 9.1.

Attitude en Waargenomen Normen geïllustreerd.

Figuur 9.1: Attitude en Waargenomen Normen geïllustreerd.

Als een voldoende expliciete en uitgebreide definitie van een construct niet beschikbaar is, kan een meetinstrument ook nooit valide zijn. Als niet heel duidelijk is wat er nu precies gemeten moet worden, kunnen geen zinnige uitspraken over validiteit worden gedaan. In zo’n situatie is het nodig om een stap terug te doen (of meerdere stappen) om eerst te zorgen voor een bruikbare definitie van het construct.

Dit kan een teleurstelling zijn: soms blijkt bij het opzetten van een studie dat de constructen waarin je geïnteresseerd bent, niet goed genoeg gedefinieerd zijn. Dit kan extra frustrerend zijn als andere onderzoekers desondanks onderzoek doen naar die constructen en daarbij dus meetinstrumenten gebruiken die in principe niet valide kunnen zijn. Het is in zo’n situatie belangrijk om je niet te laten verleiden om toch niet-valide meetinstrumenten te gebruiken. Onderzoek doen op basis van een slecht gedefinieerd construct betekent dat er niet zorgvuldig en verantwoordelijk wordt gehandeld, wat de wetenschappelijke integriteit schendt.

Een belangrijke vereiste voor het ontwikkelen van een valide meetinstrument is dus een goede definitie van het betreffende construct. De volgende stap is om goed te kijken naar het proces waarmee de toepassing van het meetinstrument leidt tot de scores en waarom het aannemelijk is dat die scores worden bepaald door het doelconstruct (het responsmodel).

9.5 Het responsmodel

Een meetinstrument bestaat uit een of meer items. Elk item bestaat uit een procedure, een responsregistratie en eventueel stimuli. Dit wordt gepresenteerd aan een deelnemer en dan start er een proces dat resulteert in de registratie van een respons.

Validiteit betekent dat de scores op het meetinstrument bepaald worden door het doelconstruct. Naast een duidelijk construct, vereist validiteit dus het nadenken over het responsmodel: over hoe blootstelling aan de procedure, responsregistratie(s) en eventuele stimuli van het meetinstrument een proces in gang zetten waarbij het doelconstruct de respons veroorzaakt.

Dit is relatief abstract, dus laten we dit illustreren met een voorbeeld. Stel dat we een meer specifieke vorm van descriptieve norm definiëren genaamd ‘waargenomen gedrag van de algemene bevolking’. Omdat dit construct al relatief specifiek is gedefinieerd, zou de operationalisatie van dit construct dicht in de buurt kunnen blijven van die definitie. We kunnen bijvoorbeeld dit construct meten door de volgende vraag te stellen: “Hoe waarschijnlijk denk je dat het is dat mensen in de algemene bevolking [DOELGEDRAG]…”. Hierbij zijn vijf antwoordopties met als linkeranker ‘Heel onwaarschijnlijk’ en als rechteranker ‘heel waarschijnlijk’. Als doelgedrag kiezen we ‘elke week een ijsje eten’. Op basis van deze definitie van het doelconstruct en deze operationalisatie ontwikkelen we het volgende meetinstrument:

Hoe waarschijnlijk eten mensen elke week een ijsje? Heel onwaarschijnlijk 🔾 🔾 🔾 🔾 🔾 Heel waarschijnlijk

Als we meer te weten willen komen over de validiteit van dit meetinstrument, moeten we hier een responsmodel bij hebben: we moeten een idee hebben over hoe het meetinstrument werkt. Als iemand wordt blootgesteld aan dit één-item-meetinstrument, wat gebeurt er dan waardoor we er vanuit kunnen gaan dat het doelconstruct ‘waargenomen gedrag van de algemene bevolking’ de score op het meetinstrument bepaalt, oftewel, bepaalt welke respons wordt geregistreerd?

In dit geval kan ons idee over het responsmodel zijn dat mensen de vraag en de ankers bij de antwoordopties lezen; dat ze deze informatie verwerken, en dan voor zichzelf een inschatting maken van hoe waarschijnlijk ze denken dat het is dat mensen in de algemene bevolking elke week een ijsje eten. Vervolgens proberen ze te bepalen welk van de antwoordopties correspondeert met die waarschijnlijkheid, en kruisen ze die aan.

Dit responsmodel maakt het mogelijk om beter na te denken over de validiteit van dit meetinstrument. Als dit meetinstrument valide is, dan moet het volgende het geval zijn:

  • Als een persoon wordt blootgesteld aan het meetinstrument verwerkt deze de gepresenteerde stimuli.
  • Dit start een proces waarbij deze persoon een inschatting maakt.
  • De inschatting van deze persoon wordt bepaald door het doelconstruct.
  • Als een inschatting is geproduceerd, zoekt deze persoon de responsoptie waarmee deze die inschatting het beste kan aangeven.
  • Die responsoptie wordt vervolgens ingevuld.

In dit responsmodel is de middelste voorwaarde, dat het doelconstruct de inschatting bepaalt, het minst duidelijk gedefinieerd. Dat komt deels omdat het voorbeeld bewust vereenvoudigd is. Er is bijvoorbeeld geen rekening gehouden met de kennis over hoe mensen nadenken over kansen. Dit specifieke responsmodel is dus wellicht onrealistisch gegeven wat er bekend is over hoe mensen tot een respons komen bij dit soort vragen.

Maar ook als een realistisch responsmodel wordt opgesteld – en er dus meer fundamentele kennis over de menselijke psychologie, cognitie, het geheugen, informatieverwerking en eventuele biases wordt betrokken in het opstellen van het responsmodel – zijn er vaak minder duidelijk omschreven stappen. De menselijke psychologie is geen machine en er is nog altijd meer dat we niet goed begrijpen dan dat we wel begrijpen. Naarmate er meer onderzoek wordt gedaan neemt ons begrip langzaam toe en kunnen de responsmodellen, en dus de validiteit van onze meetinstrumenten, worden verbeterd. Methoden zoals de response process evaluation method (Wolf et al., 2019) kunnen hierbij helpen.

9.6 Responspatronen

Als het responsmodel duidelijk is, is het mogelijk om per item het verwachte responspatroon te bepalen. Omdat responsen vaak worden gerepresenteerd op een continue schaal hebben die responspatronen meestal de vorm van een verdeling (zie het hoofdstuk Verdelingsvormen en -maten).

Soms verwacht je op basis van het responsmodel dat het responspatroon van een item bij benadering een normale verdeling is; bij andere items is de verwachting dat de responsen scheef verdeeld zijn, of juist uniform verdeeld. Het verwachte responspatroon per item kun je gebruiken om een inschatting te maken van de validiteit van het meetinstrument. Hiervoor vergelijk je de responspatronen die je in een steekproef vindt met de verwachte responspatronen.

Wat als je vooraf geen verwachtingen hebt over de verdelingsvorm van het responspatroon van een item? In dat geval kun je dus niet beoordelen of de verdeling ‘goed’ is. Bij de ontwikkeling van het meetinstrument kun je er dan voor kiezen om items met een bepaalde verdelingsvorm te selecteren. Wil je bijvoorbeeld dat alle items normaal verdeeld zijn en heb je meerdere items tot je beschikking die hetzelfde meten, dan kun je uit die set de items met linksscheve of rechtsscheve verdelingen verwijderen. Deze luxe heb je echter niet altijd: een initiële itempool bevat lang niet altijd meerdere items die hetzelfde meten.

Als een meetinstrument eenmaal is ontwikkeld, willen mensen het gebruiken. Dat kan niet zomaar. Eerst moet er gecontroleerd worden of het meetinstrument ook valide is in de specifieke populatie en context van die studie (zie hieronder Validiteit gaat over één studie). Daarvoor moet het meetinstrument toegepast worden in die populatie en context, waarna de verdelingsvormen van de item-responspatronen kunnen worden bestudeerd. Deze verdelingen kunnen dan vergeleken worden met de verdelingen zoals ze bij de ontwikkeling beschreven zijn.

Als de verdelingen overeenkomen, ondersteunt dit de aanname dat het meetinstrument ook in die populatie en context valide is. Als de verdelingen afwijken – bijvoorbeeld wanneer het responspatroon van een item tijdens de validatie in de ontwikkelingsfase linksscheef verdeeld is, maar in de populatie en context waar een onderzoeker het meetinstrument wil toepassen normaal verdeeld – kan dit twee dingen betekenen:

  • De deelnemers in deze populatie en context zijn anders dan de deelnemers uit de oorspronkelijke populatie waar het meetinstrument ontwikkeld is.
  • Het meetinstrument is niet valide in de betreffende populatie en context.

Door terug te gaan naar het responsmodel kan beredeneerd worden of het te verwachten is dat de deelnemers in de betreffende studie anders zullen reageren op het item dan de deelnemers in de oorspronkelijke studie. Op basis daarvan kan besloten worden welke van de twee genoemde situaties het geval is.

Als er niet meer informatie is over het responsmodel – bijvoorbeeld omdat er geen verwachting is over de verdelingsvorm – is het moeilijk te bepalen of de deelnemers anders zijn of dat het meetinstrument niet valide is in die populatie en context. Er is dan geen eenvoudige oplossing. De onderzoekers kunnen er in elk geval niet meer vanuit gaan dat het meetinstrument te gebruiken is in de populatie en context die ze willen onderzoeken. De inbreuk op de validiteit van het meetinstrument is echter maar klein als de verdeling van de scores slechts voor één item uit een set van tientallen items in een meetinstrument afwijkt (tenzij dat item tijdens de samenvoeging een hoog gewicht krijgt). Als bijna alle items afwijken, is de kans dat het meetinstrument valide is klein.

In de praktijk zal vaak voorkomen dat de deelnemers anders zijn én dat het meetinstrument minder valide is. Als de onderzoekers in zo’n geval besluiten om het meetinstrument in te zetten, is het belangrijk dat ze goed onderbouwen waarom ze ondanks de afwijkende verdelingen overtuigd zijn dat het meetinstrument voldoende valide is voor de populatie en context van de studie die ze willen doen.

Dit alles vereist dat de verdelingen van de itemscores goed gedocumenteerd worden door de onderzoekers die het meetinstrument ontwikkelen, het liefst vergezeld van een procedure die andere onderzoekers in staat stelt om te bepalen of de verdelingen van de scores op de items in hun populatie en context voldoende overeenkomen met de oorspronkelijke verdelingen.

9.7 Verbanden tussen items en interne consistentie

Als de items in een meetinstrument valide zijn (meten wat ze moeten meten), is dat niet alleen te zien aan de responspatronen per item, maar ook aan de verbanden tussen de responsen op de items. Deze verbanden kunnen geïnspecteerd worden om te kijken of ze in een gegeven steekproef voldoende overeenkomen met de te verwachten verbanden.

Een manier om dit te doen is om de zogenaamde correlatiematrices te vergelijken. In deze tabellen worden alle geobserveerde correlaties tussen alle items tegelijkertijd getoond (zie hoofdstuk Correlaties voor meer achtergrond informatie over correlaties). Omdat correlaties uit een steekproef puntschattingen zijn en daardoor niet informatief, bevatten correlatiematrices meestal ook de onder- en bovengrens van de bijbehorende betrouwbaarheidsintervallen (zie hoofdstuk Steekproevenverdelingen en betrouwbaarheidsintervallen).

Voor sommige responsmodellen is het mogelijk om op basis van die correlatiematrix een aantal statistische maten te berekenen om schattingen van de interne consistentie in één getal samen te vatten. Deze worden verder besproken in het hoofdstuk Betrouwbaarheid.

Als onderzoekers een meetinstrument willen gebruiken, moeten zij kunnen bepalen of de verbanden tussen items in hun populatie en context overeenkomen met de verbanden van het oorspronkelijk gevalideerde meetinstrument (dus of het meetinstrument in die populatie en context valide toegepast kan worden). Deze verbanden zullen nooit precies hetzelfde zijn. De gevonden correlaties tijdens de ontwikkeling van een meetinstrument moeten dus samen met betrouwbaarheidsintervallen gerapporteerd worden. Ook hier gaat deze rapportage ideaal gezien gepaard met richtlijnen over hoe de validiteit in de specifieke populatie en context bepaald kan worden op basis van de verbanden tussen de items en schattingen van de interne consistentie.

Bij de ontwikkeling van een meetinstrument hebben de onderzoekers dus de verantwoordelijkheid om duidelijk aan te geven binnen welke bandbreedte het meetinstrument nog valide kan worden beschouwd. Stel dat een meetinstrument de volgende twee items bevat.

Vakanties plannen vind ik… Vreselijk 🔾 🔾 🔾 🔾 🔾 Fantastisch
Ik maak… Nooit boodschappenlijstjes 🔾 🔾 🔾 🔾 🔾 Altijd boodschappenlijstjes

Als dit meetinstrument grondig gevalideerd is, is er een responsmodel beschikbaar. Het responsmodel voorspelt bijvoorbeeld dat deze twee items ongeveer een kwart van elkaars variantie voorspellen, oftewel \(r^2 = 25\% = .25\), dus \(\sqrt{.25} = r = .5\) (zie de paragraaf ‘De proportie verklaarde variantie’ in het hoofdstuk Correlaties).

Als er geen duidelijk responsmodel beschikbaar is, zijn er geen theoretische voorspellingen mogelijk en moeten op zijn minst de betrouwbaarheidsintervallen voor de correlaties tussen de items bekend zijn. De onderzoekers die het meetinstrument ontwikkeld hebben rapporteren bijvoorbeeld voor die correlatie een \(95\%\)-betrouwbaarheidsinterval van \(r = [.46; .53]\).

Bij de ontwikkeling van het meetinstrument moeten de onderzoekers zich dus afvragen bij welke correlaties het meetinstrument waarschijnlijk niet meer valide toepasbaar is. Stel dat andere onderzoekers willen weten of het meetinstrument bruikbaar is in een populatie van zorgmedewerkers in plaats van in de algemene populatie. In de voorbereidende studie vinden zij een \(95\%\)-betrouwbaarheidsinterval van \(r = [.38; .44]\). Hoe erg is dat dan?

9.7.1 Instructies voor toepassing

Wanneer onderzoekers rapporteren over de validiteit van een meetinstrument, geven ze hierbij dus ideaal gezien ook instructies over de grenzen van de betrouwbarheidsintervallen waarbinnen validiteit verondersteld kan worden.

Zo’n richtlijn kan er bijvoorbeeld als volgt uitzien.

Om te onderzoeken of dit meetinstrument valide toegepast kan worden in een populatie of context, kan het meetinstrument het beste worden afgenomen in een pilotsteekproef van \(219\) deelnemers. Op deze manier kunnen \(95\%\)-betrouwbaarheidsintervallen van de juiste breedte worden opgesteld.

Omdat dit meetinstrument uit \(10\) items bestaat, zijn er \(45\) correlaties tussen die items te berekenen. Het meetinstrument kan valide worden toegepast als alle betrouwbaarheidsintervallen voor de correlaties in de pilotstreekproef overlappen met de door ons gerapporteerde betrouwbaarheidsintervallen. Als meer dan \(5\) (ongeveer \(10\%\)) van de betrouwbaarheidsintervallen niet overlappen, kan er niet op vertrouwd worden dat het meetinstrument valide kan worden toegepast in de gegeven steekproef en context.

Als er al een grotere steekproef dan \(400\) deelnemers beschikbaar is, selecteer dan willekeurig \(219\) deelnemers. Bereken op basis van deze selectie de itemcorrelaties en betrouwbaarheidsintervallen. Het is ook mogelijk om het betrouwbaarheidsniveau van de betrouwbaarheidsintervallen zodanig te verhogen dat de totale breedte van een betrouwbaarheidsinterval voor een correlatie van \(r = .5\) gelijk is aan \(.2\) (dus een foutenmarge van \(.1\)).

In sommige gevallen stellen de onderzoekers dat alle correlaties tussen alle items hetzelfde moeten zijn. Dit kan als het responsmodel dit voorspelt of als dit gevonden wordt in de steekproef of steekproeven die worden gebruikt tijdens de ontwikkeling en validatie van het meetinstrument. In dat geval hoeven niet alle correlaties tussen alle item-paren te worden bekeken, maar kunnen de onderzoekers volstaan met het berekenen van de gemiddelde item-item-correlatie. Dit kan efficiënt worden berekend door de coëfficiënt alpha te berekenen (zie hiervoor paragraaf “Coëfficiënt alpha” in het hoofdstuk “Betrouwbaarheid”). Andere correlatiepatronen zijn ook mogelijk. Er kunnen bijvoorbeeld clusters items zijn die onderling even sterk zouden moeten correleren.

De instructie om vast te stellen of een meetinstrument valide kan worden toegepast kan allerlei vormen aannemen. Het belangrijkste is dat de instructies gespecificeerd worden op het moment dat het meetinstrument wordt ontwikkeld. De ontwikkelaars begrijpen het meetinstrument namelijk het beste, en als zij zulke instructies niet specificeren, kunnen andere onderzoekers nooit goed bepalen of zij dat meetinstrument ook kunnen gebruiken.

9.8 Latente constructen

Afhankelijk van het responsmodel kunnen er één of meerdere latente constructen ten grondslag liggen aan de responspatronen op de items van een meetinstrument. Dit is dan terug te zien in patronen in de correlatiematrix. Deze patronen zijn met het blote oog niet goed te zien, maar er bestaat een analysemethode om ze meer overzichtelijk in kaart te brengen. Deze methode heet factoranalyse en hiervan bestaan twee soorten: exploratieve factoranalyse en confirmatieve factoranalyse. Bij confirmatieve factoranalyse wordt een model gespecificeerd waarbij elk item gekoppeld is aan één construct (factor genoemd in dit type analyses). Vervolgens wordt getoetst of dit model past bij de data. Bij exploratieve factoranalyse liggen de koppelingen tussen constructen (factoren) en items nog niet vast en toont de analyse welk model het beste past bij de data (zie hoofdstuk Factoranalyse).

Bij responsmodellen waarbij wordt verondersteld dat de responspatronen veroorzaakt worden door één of meerdere latente constructen is factoranalyse vaak ook gebruikt om te bepalen hoe de responsen op de items het beste samengevoegd kunnen worden. Bij elke nieuwe toepassing van het meetinstrument moeten de patronen met factoranalyse geverifieerd worden.

9.9 Convergentie en divergentie

Een andere manier om de validiteit van een meetinstrument te beoordelen is om verbanden met uitkomsten van andere meetinstrumenten te onderzoeken. Als een ander meetinstrument hetzelfde construct meet, dan zouden de scores van beide meetinstrumenten sterk moeten samenhangen. Er is dan evidentie voor convergente validiteit.

Omgekeerd is er evidentie voor divergente validiteit als de scores op een meetinstrument niet samenhangen met de scores op een ander meetinstrument dat een volledig ongerelateerd construct meet. Als de scores in dit geval wel zouden sterk samenhangen, kun je twijfelen aan de validiteit.

Afhankelijk van het responsmodel kunnen de verbanden met andere meetinstrumenten worden onderzocht voor de responsen per item of voor de samengevoegde responsen. Bij een responsmodel dat veronderstelt dat alle items precies hetzelfde meten, is het logisch om naar de samenvoeging te kijken. Bij een responsmodel waarbij niet alle items hetzelfde meten, zoals een formatief model of een responsmodel waarbij clusters van items steeds iets anders meten, is het logischer om de verbanden per item te berekenen.

Ook hier geldt dat er soms geen responsmodel voorhanden is. In dat geval kunnen voor de validatie van een meetinstrument in een specifieke populatie en context de verbanden worden vergeleken met de geobserveerde verbanden tijdens de ontwikkeling en validatie van het meetinstrument.

9.9.1 Instructies voor toepassing

Ook voor convergente of divergente validiteit is het de verantwoordelijkheid van de onderzoekers die het meetinstrument ontwikkelen en valideren om duidelijke instructies te geven hoe vastgesteld kan worden of een meetinstrument valide kan worden toegepast in een specifieke populatie en context. Hieronder een voorbeeld van hoe zo’n richtlijn eruit kan zien.

Om te onderzoeken of dit meetinstrument valide toegepast kan worden in een populatie of context, kan het meetinstrument het beste worden afgenomen in een pilotsteekproef van \(219\) deelnemers. Op deze manier kunnen \(95\%\)-betrouwbaarheidsintervallen van de juiste breedte worden opgesteld. In de pilotsteekproef moeten de volgende meetinstrumenten worden afgenomen:

  • De Dutch Boredom Scale
  • De Neiging tot Nadenken Schaal
  • Alle vijf de schalen van de Nederlandse Big Five Inventory (BFI)

Het meetinstrument kan valide worden toegepast als alle betrouwbaarheidsintervallen voor de correlaties met deze zeven meetinstrumenten in de pilotstreekproef overlappen met de door ons gerapporteerde betrouwbaarheidsintervallen. Als twee of meer van de betrouwbaarheidsintervallen niet overlappen, kan er niet op vertrouwd worden dat het meetinstrument valide kan worden toegepast in de gegeven steekproef en context.

Als er al een grotere steekproef dan \(400\) deelnemers beschikbaar is, selecteer dan willekeurig \(219\) deelnemers. Bereken op basis van deze selectie de correlaties en betrouwbaarheidsintervallen. Het is ook mogelijk om het betrouwbaarheidsniveau van de betrouwbaarheidsintervallen zodanig te verhogen dat totale breedte van een betrouwbaarheidsinterval voor een correlatie van \(r = .5\) gelijk is aan \(.2\) (dus een foutenmarge van \(.1\)).

Dit is slechts een voorbeeld. De instructies om vast te stellen of een meetinstrument valide kan worden toegepast kunnen allerlei vormen aannemen. Het belangrijkste is dat ze worden gespecificeerd als het meetinstrument wordt ontwikkeld. De ontwikkelaars begrijpen het meetinstrument immers het beste, en als zij zulke instructies niet specificeren, kunnen andere onderzoekers nooit bepalen of zij dat meetinstrument ook kunnen gebruiken.

9.10 Geschiedenis van validiteitsmaten

Oorspronkelijk was validiteit van psychologische meetinstrumenten een eenvoudig concept: het was de mate waarin het meetinstrument de prestaties op een gegeven taak voorspelde (Kane, 2013). Die taak was het criterium, en het doel van die meetinstrumenten was alleen om die prestaties te voorspellen, zonder dat er noodzakelijkerwijs een psychologisch construct bij hoorde. Omdat dit model eenvoudig en objectief was, was criteriumvaliditeit rond het midden van de twintigste eeuw de gouden standaard om validiteit te bepalen.

Het was echter ook een zeer beperkt toepasbaar model. Langzaam ontstonden er meetinstrumenten die niet alleen de prestaties op een specifieke taak probeerden te voorspellen, maar de prestaties op een heel domein, zoals academische prestaties. Het is handiger om prestaties op meerdere taken te kunnen voorspellen met een enkel meetinstrument dan om voor elke taak een apart meetinstrument te moeten ontwikkelen en gebruiken. In die situaties ging het eenvoudige, objectieve model met een criterium niet langer op.

In plaats daarvan werd in zulke situaties de contentvaliditeit (of inhoudsvaliditeit) bepaald. Dit was simpelweg een inschatting van of de inhoud van een meetinstrument (dus de stimuli in het meetinstrument) het betreffende domein voldoende afdekten. Deze beoordeling werd gedaan door groepen experts in dat domein (Kane, 2013).

Vanaf de jaren vijftig van de twintigste eeuw wilden psychologen ook de validiteit van meetinstrumenten voor psychologische constructen in kaart kunnen brengen. Hiervoor bestonden geen criteria en bovendien was het niet mogelijk om een groep experts in te schakelen die de inhoud van een meetinstrument konden beoordelen. Op dat moment werd constructvaliditeit geïntroduceerd.

In deze benadering worden de rol van een construct in een theorie en de validiteit van dat construct tegelijk beoordeeld. Het idee van constructvaliditeit is dat als een construct wordt gedefinieerd in een theorie, dat altijd gepaard gaat met de specificatie van de rol van dat construct in de menselijke psychologie. De theorie definieert dus al een model waarmee de validiteit van een meetinstrument voor dat construct bepaald kan worden.

Als uit metingen met het meetinstrument blijkt dat de voorspellingen van de theorie kloppen, is dat evidentie voor zowel de theorie als voor de validiteit van het meetinstrument. Omgekeerd betekent dit dat als die voorspellingen niet kloppen, het meetinstrument niet valide is, de theorie niet klopt, of dat een andere aanname die nodig was in de studie niet klopte.

Constructvaliditeit gaat dus niet zozeer over of een meetinstrument meet wat het moet meten, maar stelt dat de validiteit een functie is van de beschikbare evidentie. Dit bleek echter geen goede oplossing. Het model bleek te kunnen resulteren in situaties waarin een meetinstrument dat duidelijk niet valide is, toch valide werd bevonden (Borsboom et al., 2009). Bovendien bleek in de praktijk dat onderzoekers constructvaliditeit niet gebruikten zoals het was ontworpen. Vaak werd volstaan met het postuleren van een aantal correlaties die dan werden berekend.

Door de jaren heen werden nog meer vormen van validiteit geopperd, waarvan we er hier drie zullen noemen.

  • Face validity, oftewel gezichtsvaliditeit, is de mate waarin een meetinstrument op het oog valide lijkt.
  • Concurrent validiteit is een vorm van criteriumvaliditeit en verwijst naar de mate van samenhang tussen meetinstrumentscores en het criterium als deze tegelijkertijd worden gemeten.
  • Predictieve validiteit is ook een vorm van criteriumvaliditeit en verwijst naar de samenhang tussen meetinstrumentscores en het criterium als dat laatste later in de tijd wordt gemeten. De term predictieve validiteit wordt ook vaak gebruikt als niet naar het criterium wordt gekeken in de oorspronkelijke betekenis, maar naar een variabele die men graag wil voorspellen.

In 1999 hebben de American Educational Research Association, de American Psychological Association en het (ook Amerikaanse) National Council on Measurement in Education aan deze wildgroei van validiteitsmaten een eind gemaakt in de Standards for Educational and Psychological Testing (AERA et al., 2014). Ze stelden daar expliciet dat er maar één validiteit bestaat. Wel onderscheiden ze meerdere bronnen van deze validiteit, maar ze bleven hierbij verre van de historische namen.

Het model van validiteit dat in dit hoofdstuk is besproken, is gebaseerd op het model van Borsboom, Mellenbergh en van Heerden (2004). Hun causale model, dat stelt dat validiteit vereist dat de scores op het meetinstrument (de responsen) worden bepaald door het te meten construct, is heel bruikbaar om over validiteit na te denken. Het dwingt je om een heldere definitie van het construct te formuleren en om goed na te denken over de operationalisatie van dit construct en over hoe je die kunt meten. Bovendien stelt dit model het responsmodel centraal. Dit is belangrijk omdat je in de praktijk naar het responsmodel kijkt als je de evidentie voor validiteit onderzoekt, namelijk naar de univariate en bivariate verdelingen. Daarnaast kan de response process evaluation method worden gebruikt om de validiteit op itemniveau te onderzoeken (Wolf et al., 2019).

9.11 Validiteit gaat over één studie

Het is verleidelijk om validiteit te zien als een kenmerk van een bepaald meetinstrument, een bepaalde manipulatie of een bepaalde procedure. Helaas is validiteit, net als betrouwbaarheid, iets dat van steekproef tot steekproef kan verschillen.

Dit is het makkelijkst uit te leggen aan de hand van de validiteit van meetinstrumenten. Neem bijvoorbeeld onderstaande vragenlijst die gebruikt kan worden om iemands attitude tegenover het eten van een ijsje te meten.

Voor mij is het eten van een ijsje… Heel slecht 🔾 🔾 🔾 🔾 🔾 Heel goed
Voor mij is het eten van een ijsje… Heel onprettig 🔾 🔾 🔾 🔾 🔾 Heel prettig

Stel deze vragenlijst wordt ontwikkeld en onderzocht in een steekproef van studenten van de Open Universiteit en hun kennissen en vrienden. Laten we ervan uitgaan dat alle procedures goed worden uitgevoerd en dat er goede redenen zijn om aan te nemen dat deze twee vragen een valide meting opleveren van de attitude tegenover het eten van een ijsje.

Is dit nu een valide meetinstrument? Jammer genoeg niet. Het meetinstrument is niet in de algemene bevolking onderzocht. Studenten van de Open Universiteit (of een andere universiteit) met hun kennissen en vrienden zijn niet representatief voor de algemene bevolking. In algemene zin is dit meetinstrument dus niet valide.

Is het meetinstrument dan valide voor studenten van de Open Universiteit en hun kennissen en vrienden? Ook niet. Het meetinstrument was kennelijk valide in de steekproef waar het is onderzocht. Maar die steekproef is deels door toeval tot stand gekomen. Het kan zijn dat die steekproef toevallig niet representatief was voor studenten van de Open Universiteit en hun kennissen en vrienden. De zorg rondom representativiteit is weg te nemen door in een validatiestudie meerdere onafhankelijke steekproeven te nemen. De kans dat drie of vier steekproeven allemaal toevallig uitzonderlijk zijn, is verwaarloosbaar.

Is het meetinstrument bij validatie in meerdere steekproeven valide voor studenten van de Open Universiteit en hun kennissen en vrienden? Nog steeds niet. Wél kan inmiddels worden gesteld dat het meetinstrument waarschijnlijk valide zal zijn in steekproeven van studenten van de Open Universiteit en hun kennissen en vrienden, in de nabije toekomst. Tijd is belangrijk omdat dit specifieke voorbeeld gebruik maakt van taal, en taal verandert over tijd. De toevoeging ‘waarschijnlijk’ is belangrijk omdat ook een toekomstige steekproef toevallig niet-representatief kan zijn, waardoor dit meetinstrument in die steekproef toevallig niet valide is.

Over het algemeen zal de validiteit van het meetinstrument lager zijn (of misschien praktisch afwezig) als het wordt toegepast in een steekproef uit een andere populatie, bijvoorbeeld in de algemene bevolking. Als de steekproef uit een populatie komt waar geen Nederlands wordt gesproken, zal de validiteit nog meer afnemen. De validiteit wordt vermoedelijk al aangetast als uitsluitend bijvoorbeeld Belgische studenten van de Open Universiteit en hun kennissen en vrienden worden onderzocht. Nederlands wordt namelijk anders gebruikt in Vlaanderen dan in Nederland.

Elke keer dat een meetinstrument wordt toegepast, heeft die toepassing een gegeven validiteit en betrouwbaarheid. In elke studie is het dus nodig om deze te schatten om te verifiëren of ze voldoende hoog zijn. Er zijn geen meetinstrumenten die in elke situatie betrouwbaar en valide zijn. Als een meetinstrument in de betreffende studie niet valide is, kunnen de scores niet beschouwd worden als informatief over de corresponderende doelconstructen.

Ditzelfde geldt voor de validiteit van manipulaties en procedures. Deze moet in elke studie worden geverifieerd voordat het zinnig is om de geplande hoofdanalyses uit te voeren. De volgende situaties kunnen de interne validiteit van een studie aantasten.

  • Een meetinstrument is niet valide, waardoor de metingen geen informatie geven over het corresponderende doelconstruct (of ook informatie geeft over andere constructen, terwijl dat niet de bedoeling is).
  • Een manipulatie is niet valide, waardoor het doelconstruct niet is beïnvloedt (of ook andere constructen zijn beïnvloedt, terwijl dat niet de bedoeling is).
  • De uitvoering van de studie is niet verlopen zoals bedoeld, waardoor het studieontwerp is aangetast.

Schendingen van de interne validiteit zijn meestal niet op te lossen. In dat geval zijn de geplande hoofdanalyses niet langer interessant. Interessanter is dan om te onderzoeken wat er fout is gegaan. Het is heel belangrijk om te evalueren en te proberen te ontdekken hoe de volgende keer voorkomen kan worden dat diezelfde fouten worden gemaakt.

Als een meetinstrument of een manipulatie niet valide bleek, kan dat bijvoorbeeld betekenen dat het instrumentarium dat in de studie is gebruikt (dus de meetinstrumenten en manipulaties) nog niet klaar waren voor toepassing in een studie. In zo’n geval is eerst meer onderzoek nodig om te zorgen dat het instrumentarium op orde is. Dit is te vergelijken met een scheikundige die ontdekt dat een thermometer het niet goed doet. Hierdoor is het niet mogelijk om onderzoek te doen met deze thermometer naar de temperatuur waarbij een bepaalde reactie plaatsvindt. Pas met een goedwerkende thermometer kan het onderzoek uitgevoerd worden.

Als het studieontwerp niet goed is uitgevoerd, kan het zijn dat de procedures moeten worden herzien. Is de randomisatie van deelnemers niet goed uitgevoerd? Ging er iets fout in de communicatie met deelnemers? Werkte bepaalde hardware of software niet goed?

Omdat schendingen van de interne validiteit fataal zijn, en dus kostbaar als deze pas achteraf aan het licht komen, is het belangrijk om alle aspecten van een studie van te voren grondig te testen. Dit wordt gedaan in zogenaamd pilotonderzoek.

Referenties

AERA, APA, & NCEM. (2014). Standards for Educational and Psychological Testing. American Educational Research Association.
Borsboom, D., Cramer, A. O. J., Kievit, R. A., Scholten, A. Z., & Franić, S. (2009). The end of construct validity. In The concept of validity: Revisions, new directions, and applications (pp. 135–170). IAP Information Age Publishing.
Borsboom, D., Mellenbergh, G. J., & Heerden, J. van. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. http://um0122.unimaas.nl:9003/sfx_local?sid=SP:PSYI&genre=article&atitle=The Concept of Validity.&title=Psychological-Review&isbn=&issn=0033-295X&date=2004&volume=111&issue=4&spage=1061&pid=%3CAN%3E2004-19012-010%3C/AN%3E%3CAU%3EBorsboom,-Denny%7C$%7CMell
Kane, M. (2013). The Argument-Based Approach to Validation. School Psychology Review, 42(4), 448–457. https://doi.org/10.1080/02796015.2013.12087465
Wolf, M. G., Ihm, E. D., Maul, A., & Taves, A. (2019). Survey Item Validation [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/k27w3