Hoofdstuk 22 t-toetsen en Cohen’s d

In dit hoofdstuk wordt besproken:
  • een verschil tussen twee gemiddelden
  • de steekproevenverdeling en het betrouwbaarheidsinterval voor het verschil tussen gemiddelden
  • cohen’s d
  • de onafhankelijke t-toets
  • de gepaarde t-toets
  • Levene’s toets.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
  • Onderzoekspracticum experimenteel onderzoek (PB0412)

22.1 Een verschil tussen twee gemiddelden

Het verband tussen een dichotome variabele en een continue variabele kan gezien worden als het verschil tussen twee gemiddelden. Dit is namelijk hoe zo’n verband zich manifesteert. Als het gemiddelde van de ene groep hoger is dan het gemiddelde van de andere groep, kunnen we iemands score op de afhankelijke variabele (de continue variabele in dit geval) beter voorspellen als we weten tot welke groep iemand behoort, dan als we dat niet weten. Als de gemiddelden van twee groepen aan elkaar gelijk zijn, is het niet mogelijk om op basis van de groep waartoe iemand behoort beter te voorspellen welke score deze persoon zal hebben. Zonder kennis over de groep waartoe iemand behoort, is de beste voorspelling altijd het algemeen gemiddelde.

In dit hoofdstuk gebruiken we weer de Palmer Penguins dataset ter illustratie. Deze dataset bevat informatie over drie pinguïnsoorten. Er is meer informatie beschikbaar op https://allisonhorst.github.io/palmerpenguins.

Figuur 22.1 toont de gemiddelde snavellengte van de pinguïns.

Scatterplot van snavellengte zonder voorspeller op de x-as

Figuur 22.1: Scatterplot van snavellengte zonder voorspeller op de x-as

Als we weten tot welke groep iemand behoort, kunnen we een betere voorspelling voor de snavellengte doen. In Figuur 22.2 is snavellengte gesplitst naar mannelijke en vrouwelijke pinguïns.

Scatterplot van snavellengte met geslacht als voorspeller

Figuur 22.2: Scatterplot van snavellengte met geslacht als voorspeller

Kortom, als twee groepsgemiddelden verschillen, hangt de dichotome variabele –waarvan de twee meetwaarden zich manifesteren als twee groepen – samen met de continue variabele.

Dit verschil tussen de twee groepsgemiddelden heeft ook een standaardfout. Het verschil tussen gemiddelden komt namelijk uit een steekproevenverdeling met alle mogelijke verschillen die we hadden kunnen vinden.

22.2 De steekproevenverdeling en het betrouwbaarheidsinterval voor het verschil tussen gemiddelden

De steekproevenverdeling van het verschil tussen gemiddelden is verdeeld volgens de \(t\)-verdeling met een aantal vrijheidsgraden gelijk aan de steekproefomvang minus twee. Elke keer dat een steekproef getrokken wordt, is het verschil tussen de gemiddelden dus afkomstig uit deze steekproevenverdeling. Net als voor andere steekproefwaarden geldt voor het verschil tussen gemiddelden dat de puntschatting hiervan uit een gegeven steekproef niet informatief is. We willen iets kunnen zeggen over de populatie. Dit kunnen we doen met behulp van een betrouwbaarheidsinterval.

De \(t\)-verdeling kan gebruikt worden om het betrouwbaarheidsinterval voor het verschil tussen gemiddelden op te stellen. Dit betrouwbaarheidsinterval kunnen we berekenen met de volgende standaardformule.

\[\begin{equation} \text{betrouwbaarheidsinterval} = \text{steekproefwaarde} \pm \text{breedte-index} \times \text{standaardfout} \tag{22.1} \end{equation}\]

Laten we als voorbeeld het betrouwbaarheidsinterval berekenen voor het verschil in snavellengte voor vrouwelijke (\(42.1\)) en mannelijke (\(45.85\)) pinguïns. De steekproefwaarde is het verschil tussen de gemiddelden.

\[\begin{equation} 45.85 - 42.1 = 3.76 \tag{22.2} \end{equation}\]

De standaardfout kunnen we met de hand berekenen, maar dit doen we in de praktijk nooit omdat deze door software wordt gegeven. In dit geval is de standaardfout \(0.56\).

We kunnen de formule voor het betrouwbaarheidsinterval dus al deels invullen.

\[\begin{equation} \text{betrouwbaarheidsinterval} = 3.76 \pm \text{breedte-index} \times 0.56 \tag{22.3} \end{equation}\]

De breedte-index komt in dit geval uit de \(t\)-verdeling en heet ook wel de kritieke \(t\)-waarde. Deze kritieke \(t\)-waarden kunnen in een tabel worden opgezocht, hoewel ze tegenwoordig in de praktijk met software worden berekend.

Onze steekproef bevat \(333\) pinguïns. Om te bepalen volgens welke \(t\)-verdeling het verschil tussen de gemiddelden verdeeld is, moeten we weten hoeveel vrijheidsgraden er zijn. Het aantal vrijheidsgraden van de \(t\)-verdeling is de steekproefomvang minus \(2\), in dit geval dus \(333 − 2 = 331\).

De kritieke \(t\)-waarde die we moeten gebruiken om het betrouwbaarheidsinterval te berekenen, kunnen we opzoeken in een tabel met kritieke \(t\)-waarden. Zo’n tabel bevat een aantal kolommen die de kritieke \(t\)-waarden tonen die corresponderen met een bepaald betrouwbaarheidsinterval. In dit geval willen we het \(95\%\)-betrouwbaarheidsinterval \((1 - .95 = .05)\) gebruiken. In de regel verschillen de kritieke \(t\)-waardes tot aan \(100\) vrijheidsgraden. Daarboven is de kritieke \(t\)-waarde altijd gelijk aan \(1.96\). Dit getal is dus de breedte-index voor de formule voor het betrouwbaarheidsinterval.

Nu kunnen we het betrouwbaarheidsinterval opstellen.

\[\begin{equation} \text{betrouwbaarheidsinterval} = 3.76 \pm 1.96 \times 0.56 \tag{22.4} \end{equation}\]

Het betrouwbaarheidsinterval loopt in dit geval dus van \(2.65\) tot \(4.86\). Kortom, op basis van deze steekproef is het verschil in snavellengte klein en positief. Dat houdt in dat mannetjes net iets langere snavels hebben dan vrouwtjes. Op basis van dit betrouwbaarheidsinterval lijkt het dus waarschijnlijk dat de gemiddelden tussen mannetjes en vrouwtjes in de populatie verschillen. Ook bij een negatief betrouwbaarheidsinterval – een interval met negatieve waarden aan beide uiteinden – is de conclusie dat in de populatie de gemiddelden waarschijnlijk verschillen. Als het betrouwbaarheidsinterval aan één uiteinde negatief is, maar aan het andere uiteinde positief (bijvoorbeeld \(-2.04\); \(4.04\)), kunnen we concluderen dat het niet plausibel is dat de gemiddelden in de populatie verschillen.

Stel dat we snavellengte niet in mm hadden gemeten, maar in cm. In dat geval waren alle waarden \(10\) keer zo klein geweest. Het betrouwbaarheidsinterval had er dan zo uitgezien:

\[\begin{equation} \text{betrouwbaarheidsinterval} = 0.38 \pm 1.96 \times 0.06 \tag{22.5} \end{equation}\]

Dit interval had dan van \(0.27\) tot \(0.49\) gelopen. Dat is nogal een verschil. Het feit dat dit verschil tussen de gemiddelden – en dus het bijbehorende betrouwbaarheidsinterval – afhankelijk is van de schaal waarop we de continue variabele gemeten hebben, heeft zowel voor- als nadelen. Een voordeel is dat het verschil in groepsgemiddelden wordt uitgedrukt in een concrete eenheid, in dit geval mm (of cm). Dat is voor veel mensen vrij gemakkelijk te interpreteren.

Een nadeel is dat het moeilijk te bepalen is hoe relevant dit verschil is. Hoeveel moeten de gemiddelden uit elkaar liggen voordat het zinvol is om te concluderen dat ze ook echt anders zijn? Een ander nadeel is dat de sterkte van dit verband niet te vergelijken is met verschillen uit andere studies, tenzij in die andere studies exact dezelfde meetinstrumenten gebruikt zijn. We willen dus eigenlijk een maat voor het verschil tussen deze gemiddelden die onafhankelijk is van de schaal van de continue variabele. Deze maat bestaat en heet Cohen’s \(d\).

22.3 Cohen’s \(d\)

Cohen’s \(d\) is het verschil tussen twee groepen, gecorrigeerd voor de standaarddeviatie. De standaarddeviatie is een maat voor de meetschaal van de betreffende variabele. Door het verschil tussen de gemiddelden hierdoor te delen krijgen we een schaalonafhankelijke maat voor het verschil tussen de groepen.

Zoals je je misschien nog herinnert, is dit bijna precies hetzelfde als we doen om een \(z\)-waarde te berekenen.

\[\begin{equation} z = \frac{x_i - \overline{x}}{sd_x} \tag{22.6} \end{equation}\]

Oftewel, de \(z\)-waarde die correspondeert met elk datapunt is gelijk aan het verschil tussen dat datapunt en het gemiddelde, gedeeld door de standaarddeviatie. In dit geval kijken we nu niet naar het verschil van een enkel datapunt ten opzichte van het gemiddelde (\(x_i - \overline{x}\)), maar naar het verschil tussen twee gemiddelden.

\[\begin{equation} \text{Cohen's } d = \frac{\overline{y}_1 - \overline{y}_2}{sd_y} \tag{22.7} \end{equation}\]

In deze formule wordt \(y\) gebruikt in plaats van \(x\) omdat het conventie is om de afhankelijke variabele met \(y\) aan te duiden en de onafhankelijke variabele met \(x\).

Wanneer we naar het verschil tussen gemiddelden kijken, is de variabele waarvan we het gemiddelde berekenen meestal de afhankelijke variabele (\(y\)) en de variabele waarvan de meetwaarden de groepen bepalen, de onafhankelijke variabele (\(x\)).

Cohen’s \(d\) is dus het verschil tussen de gemiddelden, uitgedrukt in standaarddeviaties. Een Cohen’s \(d\) van \(.50\) betekent dat de twee gemiddelden een halve standaarddeviatie uit elkaar liggen; een Cohen’s \(d\) van \(.80\) betekent dat ze acht tiende standaarddeviaties uit elkaar liggen.

22.3.1 Steekproevenverdeling van Cohen’s \(d\)

Ook de Cohen’s \(d\) heeft een bekende steekproevenverdeling en een bekende formule voor de standaardfout. In Figuur 22.3 zijn vier steekproevenverdelingen van Cohen’s \(d\) te zien.

Steekproevenverdelingen van Cohen's d voor steekproeven van $100$ deelnemers in populaties waar twee gemiddelden verschillen met respectievelijk $0$ (in grijs), $.20$ (in rood), $.50$ (in oranje) en $.80$ (in groen) standaarddeviaties

Figuur 22.3: Steekproevenverdelingen van Cohen’s d voor steekproeven van \(100\) deelnemers in populaties waar twee gemiddelden verschillen met respectievelijk \(0\) (in grijs), \(.20\) (in rood), \(.50\) (in oranje) en \(.80\) (in groen) standaarddeviaties

Omdat elke waarde van Cohen’s \(d\) die in een steekproef gevonden kan worden afkomstig is uit zo’n steekproevenverdeling, is ook hier de puntschatting weinig informatief en is het belangrijk om het bijbehorende betrouwbaarheidsinterval te berekenen.

22.3.2 Betrouwbaarheidsintervallen voor Cohen’s \(d\)

In de praktijk wordt het betrouwbaarheidsinterval voor Cohen’s \(d\) altijd berekend met statistische software. In ons voorbeeld over het verschil in snavellengte tussen mannelijke en vrouwelijke pinguïns is de puntschatting van Cohen’s \(d\) \(-0.73\). Het betrouwbaarheidsinterval is \([-0.95; -0.51]\). Het is dus aannemelijk dat de waarde van Cohen’s \(d\) in de populatie negatief is.

Of Cohen’s \(d\) positief of negatief is, ligt er maar net aan of het gemiddelde van de tweede groep groter of kleiner in dat van de eerste groep. Het gemiddelde van snavellengte van vrouwelijke pinguïns minus het gemiddelde van snavellengte van mannelijke pinguïns resulteert in een negatief verschil. Hadden we het gemiddelde van vrouwelijke pinguïns afgetrokken van dat van mannelijke pinguïns, was het verschil positief geweest.

In de praktijk vind je vaak een veel kleinere Cohen’s \(d\) dan in deze steekproef, maar in het pinguïnvoorbeeld is er een duidelijk verschil tussen mannetjes en vrouwtjes. In veel sociaalwetenschappelijk onderzoek zijn de verschillen tussen groepen meer subtiel. Het gevonden betrouwbaarheidsinterval is relatief smal, omdat er redelijk wat pinguïns in deze studie zitten. Hoe meer deelnemers, hoe smaller en hoe accurater het betrouwbaarheidsinterval.

22.3.3 Interpretatie Cohen’s \(d\): mogelijke waarden en richtlijnen

De correlatiecoëfficiënt, Pearson’s \(r\), heeft mogelijke waardes van \(-1\) tot \(1\). Cohen’s \(d\), ook wel de ‘standardized mean difference’ (SMD) genoemd, is niet beperkt en kan in theorie oneindig klein en oneindig groot worden.

Omdat Cohen’s \(d\) onafhankelijk is van de schaal waarop variabelen zijn gemeten, is het mogelijk om net als bij correlatiecoëfficiënten voorzichtige richtlijnen te formuleren om te bepalen of een verband zwak, middelsterk of sterk is. Cohen stelde zelf een aantal richtlijnen voor (maar gaf ook aan dat deze eigenlijk nooit gebruikt zouden moeten worden, omdat hoe sterk een verband is afhankelijk is van context). Een iets uitgebreide lijst is te zien in Tabel 22.1.

Tabel 22.1: Voorzichtige kwalitatieve labels voor de verschillende waarden van Cohen’s \(d\).
Cohen’s d Samenhang
kleiner dan -1.30 zeer sterk negatief
tussen -.1.30 en -0.80 sterk negatief
tussen -0.80 en -0.50 middelsterk negatief
tussen -0.50 en -0.20 zwak negatief
tussen -0.20 en 0.20 triviaal
tussen 0.20 en 0.50 zwak positief
tussen 0.50 en 0.80 middelsterk positief
tussen 0.80 en 1.30 sterk positief
groter dan 1.30 zeer sterk positief

In de praktijk worden in de psychologie en onderwijswetenschappen zelden verbanden gevonden die sterker zijn dan Cohen’s \(d = 1\) (Lipsey & Wilson, 1993) en zelfs zulke sterke verbanden zijn al zeldzaam: verbanden rond de \(d = 0.2\) zijn vaak gangbaarder. Het is inmiddels dus gebleken dat de kwalificatie van een verband van \(d = 0.2\) als “zwak” en een verband van \(d = 0.5\) als “middelsterk” wat misleidend is. Dit suggereert dat als je geen idee hebt hoe sterk een verband gaat zijn, \(d = 0.5\) wel een redelijk uitgangspunt is, terwijl het waarschijnlijk een forse overschatting is.

22.4 De onafhankelijke \(t\)-toets

Net als bij correlaties en regressiecoëfficiënten is het ook voor het verschil tussen twee gemiddelden mogelijk om een \(p\)-waarde te berekenen. Deze \(p\)-waarde is de \(p\)-waarde voor het ruwe verschil tussen de gemiddelden (in de oorspronkelijke meeteenheid) en ook de \(p\)-waarde van de bijbehorende Cohen’s \(d\). De methode om deze \(p\)-waarde te berekenen heet de onafhankelijke \(t\)-toets. Deze ‘\(t\)’ komt van de \(t\)-verdeling die hierbij gebruikt wordt. Het woord ‘toets’ wordt gebruikt omdat binnen de nulhypothese-significantietoetsing (NHST) de \(p\)-waarde wordt gezien als een middel om de nulhypothese te ‘toetsen.’ De nulhypothese is de hypothese dat de variabelen niet samenhangen, wat in dit geval betekent dat het verschil tussen de gemiddelden nul is.

De \(t\)-toets bestaat uit twee stappen. Eerst wordt de \(t\)-waarde berekend; daarna wordt met behulp van de \(t\)-verdeling de bijbehorende p-waarde bepaald. Net als bij de berekening voor Cohen’s \(d\) is de berekening voor de \(t\)-waarde bijna hetzelfde als die voor de \(z\)-waarde. De formule voor de \(t\)-waarde is

\[\begin{equation} t = \frac{\overline{y}_1 - \overline{y}_2}{se_\text{verschil}} \tag{22.8} \end{equation}\]

Om de \(t\)-waarde te verkrijgen, wordt het verschil tussen beide gemiddelden dus gedeeld door de standaardfout van dat verschil. De standaardfout is de naam voor de standaarddeviatie in een steekproevenverdeling. Een \(t\)-verdeling is zo’n steekproevenverdeling.

Voor \(z\)-scores geldt dat een \(z\)-score van bijvoorbeeld \(3\) betekent dat dat datapunt drie standaarddeviaties boven het gemiddelde ligt. Bij \(t\)-waarden geldt hetzelfde: een \(t\)-waarde van \(-4\) betekent dat de twee gemiddelden vier standaardfouten van elkaar af liggen.

De gemiddelde snavellengte voor mannelijke en vrouwelijke pinguïns waren respectievelijk \(45.85\) en \(42.1\) en de standaardfout voor het verschil tussen die twee was \(0.56\). Deze waardes kunnen we invullen in de formule voor de t-waarde.

\[\begin{equation} t = \frac{ 45.85 - 42.1 }{ 0.56 } = \frac{ 3.76 }{ 0.56 } = 6.67 \tag{22.9} \end{equation}\]

Als een \(t\)-waarde berekend is, kan de bijbehorende \(p\)-waarde worden opgezocht. Laten we, als opfrisser, weer even naar de steekproevenverdeling kijken waaruit \(p\)-waarden berekend worden. Binnen NHST nemen we aan dat er in de populatie geen verband bestaat tussen de twee variabelen. In dit geval nemen we dus aan dat het verschil tussen de gemiddelden in de populatie nul is. We weten de standaardfout van onze \(t\)-verdeling (0.56) en we weten het aantal vrijheidsgraden (\(333 - 2 = 331\)). We kunnen deze nulhypothese-steekproevenverdeling nu dus tekenen (zie Figuur 22.4).

Steekproevenverdeling van de $t$-waarde onder de nulhypothese dat er geen verschil is tussen twee gemiddelden bij een steekproefgrootte van $333$

Figuur 22.4: Steekproevenverdeling van de \(t\)-waarde onder de nulhypothese dat er geen verschil is tussen twee gemiddelden bij een steekproefgrootte van \(333\)

Binnen deze nulhypothese-steekproevenverdeling kunnen we vervolgens de \(t\)-waarde opzoeken (zie Figuur 22.5).

Dezelfde nulhypothese-steekproevenverdeling met daarin de gevonden $t$-waarde aangegeven

Figuur 22.5: Dezelfde nulhypothese-steekproevenverdeling met daarin de gevonden \(t\)-waarde aangegeven

De volgende stap is om deze verdeling te gebruiken om te bepalen wat de kans is, onder aanname van de nulhypothese, op een verschil in snavellengte voor mannelijke en vrouwelijke pinguïns dat minstens zo extreem is als het verschil dat wij gevonden hebben. In Figuur 22.6 is deze kans te zien als de oppervlakte onder de curve aan de rechterkant van de \(t\)-waarde.

Dezelfde nulhypothese-steekproevenverdeling met in rood de $t$-waarden die hoger zijn dan de door ons gevonden $t$-waarde

Figuur 22.6: Dezelfde nulhypothese-steekproevenverdeling met in rood de \(t\)-waarden die hoger zijn dan de door ons gevonden \(t\)-waarde

Om de \(p\)-waarde te bepalen, moeten we ook het oppervlak aan de andere kant van de verdeling meenemen. Een even grote negatieve \(t\)-waarde geeft namelijk hetzelfde extreme verschil aan als die wij gevonden hebben. Deze negatieve waarden moeten dus ook meegenomen worden (zie Figuur 22.7).

Dezelfde nulhypothese-steekproevenverdeling met in rood de $t$-waarden die *extremer* zijn dan de door ons gevonden $t-waarde$

Figuur 22.7: Dezelfde nulhypothese-steekproevenverdeling met in rood de \(t\)-waarden die extremer zijn dan de door ons gevonden \(t-waarde\)

Het percentage van de hele \(t\)-verdeling dat roodgekleurd is, is de \(p\)-waarde. Deze wordt berekend met statistische software. Vroeger werd deze opgezocht in tabellen. Per \(t\)-verdeling met een gegeven aantal vrijheidsgraden, kon voor een gegeven \(t\)-waarde worden opgezocht welke proportie van de verdeling lager (of hoger) lag dan die \(t\)-waarde.

In dit geval is de \(p\)-waarde gelijk aan \(p < .001\). Onder NHST wordt deze vervolgens vergeleken met het vooraf bepaalde significantieniveau, meestal \(5\%\) oftewel \(\alpha =.05\). De redenering is dat als de nulhypothese klopt, het wel héél toevallig zou zijn als net in deze ene steekproef zo’n extreem verschil gevonden wordt dat in minder dan \(5\%\) van de steekproeven voorkomt. Als dat toch gebeurt en de \(p\)-waarde dus lager is dan \(.05\), dan is de redenering dat de steekproevenverdeling die gebruikt is om die \(p\)-waarde te berekenen, waarschijnlijk niet zal kloppen. De verdeling waar de gevonden \(t\)-waarde uitkomt, heeft dus waarschijnlijk een andere vorm of een andere standaardfout of is verkeerd gecentreerd.

In de praktijk wordt altijd geconcludeerd dat de fout ligt bij dat laatste: de steekproevenverdeling zal in de populatie wel niet gecentreerd zijn rondom \(0\). Dit heet het ‘verwerpen’ van de nulhypothese. De conclusie is dan dat beide variabelen samenhangen, oftewel, dat de gemiddelden verschillen. In dit geval kan deze conclusie ook getrokken worden, omdat de kans op een \(t\)-waarde die je in minder dan \(0.1\%\) van de steekproeven vindt, zo klein is dat de aanname van de nulhypothese verworpen kan worden.

Om rekening te houden met mogelijk verschillende varianties tussen de twee groepen, bestaat er een correctie voor deze \(t\)-toets. Inmiddels is de conventie om altijd deze correctie, die ook wel Welch’s \(t\)-toets wordt genoemd, te gebruiken (zie Delacre et al. (2017); Ruxton (2006)). Die correctie kan niet eenvoudig met de hand berekend worden, maar statistische software kan dit wel.

Of varianties tussen twee groepen gelijk zijn, kan gecontroleerd worden met een Levene’s toets.

22.5 Levene’s toets voor gelijkheid van varianties

22.5.1 Wat is de Levene’s toets

Om te toetsen of k steekproeven gelijke varianties hebben (homoscedastisch zijn) stelde Levene (1960) een robuuste F-toets voor die bekend is komen te staan als de Levene’s toets voor de gelijkheid van varianties, of simpelweg de Levene’s toets. In statistische toetsen waar groepen vergeleken worden, én de assumptie geldt dat de varianties van de vergeleken groepen hetzelfde zijn, kan de Levene’s toets worden gebruikt om deze assumptie te toetsen.

Het kan handig zijn om te weten dat de Levene’s toets niet de enige toets is waarmee gelijkheid van varianties kan worden getoets, maar de Levene’s toets staat bekend als een van de krachtigste (robuuste) toetsen. Een bekend alternatief is bijvoorbeeld de Bartlett test, die in bijzondere situaties de voorkeur geniet, zoals wanneer er vrijwel geen twijfel is dat de populatieverdeling normaal verdeeld is. De Levene’s test heeft haar populariteit eraan te danken dat onderzoekers zelden echt zeker zijn over de populatieverdeling, en dat toetsen zoals de Bartlett-toets niet zoveel sterker zijn dan de Levene’s toets wanneer men die zekerheid wel heeft. Om deze reden is het zeldzaam om statistische software te vinden waar een andere toets dan de Levene’s toets de standaard of zelfs enige out-of-the-box optie is.

22.5.2 Drie soorten Levene’s toetsen

In het originele paper geschreven door Levene werd een toets voorgesteld waar de gemiddelden eerst berekend werden om daar vervolgens varianties vanaf te leiden. In sommige statistische software worden ook andere soorten Levene’s toetsen gegeven. Het kan zijn dat software naast de ‘standaard’ Levene’s toets op basis van het gemiddelde ook toetsen geeft gebaseerd op mediaan of trimmed means, dus gemiddelden waar in dit geval de hoogste en laagste \(10\%\) van de data buiten beschouwing zijn gelaten.

Deze varianten van de Levene’s toets zijn voorgesteld door Brown en Forsythe (1974). Volgens hen is de Levene’s toets op basis van de mediaan een goede algemene keuze, omdat deze tegen scheef-verdeelde data opgewassen is. Het gemiddelde stellen zij is vooral een goed uitgangspunt als de data goed symmetrisch (dus normaal verdeeld) is. De Levene’s toets op basis van de trimmed mean zou vooral krachtig zijn bij zeer extreme scheefheid.

De meeste software zal enkel een Levene’s toets op basis van het gemiddelde weergeven, tenzij anders vermeld.

22.5.2.1 Verdieping: wat betekent ‘op basis van gemiddelde’?

Voor diegenen die reeds bekend zijn met de one-way ANOVA, of deze tekst teruglezen na het leren over de one-way ANOVA, is het misschien duidelijker om de formules van de Levene’s toetsen kort te bespreken. De Levene’s toets is namelijk eigenlijk een one-way ANOVA waarbij de afhankelijke variabele het (absolute) verschil is tussen een observatie en het centrum (bijvoorbeeld gemiddelde) van de groep waar deze observatie toe behoort.

Voor de ‘standaard’ Levene’s toets op basis van het gemiddelde is de formule:

\[\begin{equation} W = \frac{(N-k)} {(k-1)} \frac{\sum_{i=1}^{k}N_{i}(\bar{Z}_{i.}-\bar{Z}_{..})^{2} } {\sum_{i=1}^{k}\sum_{j=1}^{N_i}(Z_{ij}-\bar{Z}_{i.})^{2} } \tag{22.10} \end{equation}\]

Wanneer het gemiddelde gebruikt wordt als uitgangspunt dan betekent \(Z_{ij}\):

\[\begin{equation} Z_{ij} = |Y_{ij} - \bar{Y}_{i.}| \tag{22.11} \end{equation}\]

  • \(N\) is de steekproefgrootte en \(N_{i}\) is de steekproefgrootte van de i-de groep.
  • \(k\) zijn het aantal groepen
  • \(\bar{Y}_{i.}\) is het groepsgemiddelde van de i-de groep
  • \(\bar{Z}_{i.}\) zijn de groepsgemiddelden van \(Z_{ij}\)
  • \(\bar{Z}_{..}\) is het algemene gemiddelde van \(Z_{ij}\)
  • \(Y_{ij}\) zijn de individuele observaties

Om de formule samen te vatten: boven de deelstreep wordt het absolute verschil per groep afgetrokken van het absolute verschil over alle groepen heen. Als de varianties van groepen identiek zijn dan zou er boven de deelstreep nul opgeteld (gekwadrateerd) verschil moeten zijn.

22.5.3 Hoe de Levene’s toets te gebruiken?

Tegenwoordig wordt het gebruik van de Levene’s toets meer als een formaliteit beschouwd. Het is inmiddels de norm geworden dat altijd van ongelijke varianties uitgegaan wordt (bijvoorbeeld Delacre et al. (2017)). Desondanks is het goed gebruik om de Levene’s toets wel weer te geven in onderzoeksverslagen, of te begrijpen wat de Levene’s toets is als je dit in een onderzoeksverslag tegenkomt.

De Levene’s toets is F-verdeeld en heeft als nulhypothese:

\(H_0: \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k\)

Kort gezegd: de nulhypothese is dat alle varianties hetzelfde zijn.

Als de Levene’s test een significante F-waarde heeft (\(p < \alpha\), meestal kiest men \(p < .05\)), dan verwerpt men de nulhypothese dat alle varianties hetzelfde zijn. Het wordt dan aangenomen dat de variantie van minstens één groep afwijkt van de variantie van minstens één andere groep. Uiterst kort-door-de-bocht samengevat: Levene’s test significant betekent dat de assumptie van gelijke varianties geschonden is.

22.6 De gepaarde t-toets

Bij het bespreken van correlatie- en regressieanalyse, werden beide continue variabelen bij dezelfde personen gemeten. Bij de onafhankelijke \(t\)-toets wordt de continue variabele gemeten bij verschillende personen, namelijk bij de twee te vergelijken groepen. Maar wat als je dezelfde variabele twee keer meet bij dezelfde personen?

Je kunt bijvoorbeeld deelnemers de toegankelijk van twee folders voor de Open Universiteit laten beoordelen. Ook nu kun je weer twee gemiddelden berekenen, maar er is een belangrijk verschil ten opzichte van de situatie waarin je twee verschillende groepen mensen zou vragen om elk één folder te beoordelen. De oordelen op de twee folders hangen nu namelijk samen. Mensen die negatief zijn ingesteld of kritisch zijn, beoordelen beide folders waarschijnlijk lager dan mensen die positief zijn ingesteld. Als je iemands beoordeling van de ene folder kent, kun je dus al een beetje de beoordeling van de andere folder voorspellen. Met andere woorden: de correlatie tussen de twee oordelen is groter dan \(0\).

Als er twee groepen van verschillende mensen zijn, zou je niet eens een correlatie kunnen berekenen; er is namelijk geen manier om de datapunten (beoordelingen) uit de ene groep te koppelen aan die van de andere groep. Als je bij dezelfde mensen twee keer een meeting doet, is er wel een verband tussen die twee metingen - het zijn geen onafhankelijke, maar afhankelijke of gepaarde metingen.

Een ander voorbeeld van afhankelijke metingen is een voor- en nameting, bijvoorbeeld in een experimenteel onderzoek. Je doet eerst bij iedereen een voormeting, dan vindt de manipulatie plaats - bijvoorbeeld de helft krijgt een interventie en de andere helft niet - en dan doe je een nameting. Een andere vorm van afhankelijke metingen is als twee personen oordelen over dezelfde persoon. Stel, jij beoordeelt hoe hoog cijfer je denkt te halen op een tentamen en je docent doet dat ook over jou. Ook dat zijn afhankelijke metingen, omdat deze over dezelfde persoon gaan.

22.6.1 Voordelen van gepaarde \(t\)-toetsen

Door op individueel niveau verschilscores uit te rekenen, elimineer je de individuele verschillen in een beoordeling. Als twee verschillende groepen mensen de toegankelijkheid van een folder beoordelen, bestaat een deel van de spreiding (variantie) tussen de meetwaarden uit individuele verschillen. Iemand die altijd lage oordelen geeft, geeft ook hier een laag oordeel; en iemand die altijd hoge oordelen geeft, geeft hier ook een hoog oordeel.

Omdat je maar één meting per persoon hebt, weet je niet of de lage en hoge meetwaarden die bij de beoordeling van een folder horen, komen doordat ze beoordeeld zijn door mensen die nu eenmaal lage of hoge oordelen geven (dus vanwege persoonlijkheidskenmerken) of dat deze spreiding in scores door steekproef- of meetfout komt. Die variantie door persoonlijke verschillen manifesteert zich in zo’n zogenaamd between-subjects design dus als meetfout en resulteert in een grotere standaarddeviatie.

Bij gepaarde meetwaarden elimineer je die persoonlijkheidskenmerken: je vergelijkt de score van elke persoon namelijk met een andere score van diezelfde persoon. Als dezelfde personen vaker gemeten worden, spreken we van een within-subjects design.

22.6.2 Verschillende berekeningen bij gepaarde \(t\)-toetsen

Het berekenen van de \(t\)-waarde bij de gepaarde \(t\)-toets (of afhankelijke \(t\)-toets) is makkelijker dan bij de ongepaarde \(t\)-toets (of onafhankelijke \(t\)-toets). Dit komt omdat je nu per deelnemer het verschil tussen de twee datapunten kunt berekenen, waarna nog maar één datareeks met de verschilscore per deelnemer overblijft. Deze datareeks heeft een gemiddelde, standaarddeviatie en standaardfout, net als alle andere datareeksen, die we op de gebruikelijke manier kunnen berekenen. De \(t\)-waarde bij de gepaarde \(t\)-toets is het gemiddelde gedeeld door de standaardfout.

\[\begin{equation} t = \frac {\overline{y}_\text{verschil}} {se} \tag{22.12} \end{equation}\]

De berekening voor Cohen’s \(d\) is vergelijkbaar. In plaats van het verschil tussen de gemiddelden, wordt het gemiddelde van de verschilscores gedeeld door de standaarddeviatie.

\[\begin{equation} \text{Cohen's } d = \frac {\overline{y}_\text{verschil}} {sd} \tag{22.13} \end{equation}\]

Referenties

Brown, M. B., & Forsythe, A. B. (1974). Robust tests for the equality of variances. Journal of the American Statistical Association, 69(346), 364–367. https://doi.org/https://doi.org/10.2307/2285659
Delacre, M., Lakens, D., & Leys, C. (2017). Why psychologists should by default use Welch’s t-test instead of student’s t-test. International Review of Social Psychology, 30(1), 92–101. https://doi.org/10.5334/IRSP.82
Levene, H. (1960). In Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling (pp. 278–292). Stanford University Press.
Lipsey, M. W., & Wilson, D. B. (1993). The efficacy of psychological, educational, and behavioral treatmen: Confirmation from meta-analsyis. American Psychologist, 48(12), 1181–1209.
Ruxton, G. D. (2006). The unequal variance t-test is an underused alternative to Student’s t-test and the MannWhitney U test. Behavioral Ecology, 17, 688–690. https://doi.org/10.1093/beheco/ark016