Psychometrische waarden: wat zijn ze en hoe gebruik je ze?
Hoe zorg je ervoor dat examenvragen eerlijk en betrouwbaar zijn? Heel eenvoudig – met een zogenaamde ‘itemanalyse’, die ook ontwikkelaars gebruiken om te garanderen dat hun examens consistent en doeltreffend zijn.
Zo’n itemanalyse vertelt je doorgaans meer over de kwaliteit en betrouwbaarheid van de individuele items (vragen) en de test in zijn geheel. In dit artikel gaan we dieper in op de ins en outs van een itemanalyse, lichten we het belang ervan toe en laten we zien hoe je zo’n analyse doeltreffend gebruikt om betere examens te ontwikkelen.
Waarom is een itemanalyse belangrijk?
Of je nu een test afneemt voor een aanwerving, certificering of toelating tot een opleiding of school – het is cruciaal dat elk examen betrouwbaar, geldig en eerlijk is. Een betrouwbare test levert consistente resultaten op, terwijl een geldige test ervoor zorgt dat de verwachte skills of kennis accuraat worden getoetst.
Dit is vooral belangrijk wanneer er veel op het spel staat en het examenresultaat iemands verdere carrière of toekomst kan beïnvloeden. In zo’n situatie is een grondige itemanalyse niet alleen een noodzaak, maar ook een morele verantwoordelijkheid. Je zorgt er dan immers voor dat elke vraag zinvol bijdraagt aan een eerlijke en correcte evaluatie.
Een itemanalyse is vandaag bovendien toegankelijker dan ooit: het berekenen van de statistische waarden is niet langer de taak van een expert, maar wordt aangeboden door elk zichzelf respecterend platform voor e-assessment. Zo kunnen ook leken in statistiek eenvoudig de kwaliteit en betrouwbaarheid van hun tests en vragen interpreteren, en worden de concrete inzichten meteen toegankelijk voor een ruimer publiek.
Wat zijn psychometrische waarden?
Psychometrische waarden zijn een essentieel onderdeel van een itemanalyse. Maar wat zijn die waarden nu precies, en waarom zijn ze belangrijk? In een examencontext verwijst de term ‘psychometrische waarden’ naar de statistische meetgegevens die de kwaliteit en doeltreffendheid van de testitems en de test in zijn geheel beoordelen. Aan de hand van deze meetgegevens kun je onder meer bepalen:
- hoe goed het examen een verschil maakt tussen deelnemers die sterk en zwak presteren;
- hoe consistent een examen is;
- hoe goed het examen de verwachte skills en kennis aftoetst.
Psychometrische waarden worden doorgaans gebruikt voor belangrijke examens die op grote schaal worden afgenomen. Dergelijke examens moeten immers zowel betrouwbaar als consistent zijn, en grote datasets leveren een accuratere analyse op. Hieronder gaan we dieper in op de meest courante psychometrische waarden die deel uitmaken van de itemanalyse.
p-waarde
De p-waarde beoordeelt de moeilijkheid van de testitems. Een lage p-waarde duidt op een moeilijkere vraag, terwijl een hoge p-waarde wijst op een makkelijkere vraag. Zo krijgt degene die het examen afneemt meer inzicht in de mate waarin elke vraag een onderscheid maakt tussen de verschillende vaardigheidsniveaus van de kandidaat.
De p-waarde ligt tussen 0 en 1, waarbij
- 0 betekent dat elke kandidaat de vraag fout heeft beantwoord; en
- 1 betekent dat elke kandidaat het juiste antwoord heeft gegeven.
Hoe gemakkelijker de vraag, hoe hoger de p-waarde dus zal zijn. Een p-waarde tussen 0,3 en 0,7 wordt doorgaans als ideaal beschouwd voor de meeste examens, hoewel elke organisatie verschillende waardedrempels gebruikt.
Wat is een ideale p-waarde?
Voor open vragen en vragen met een gokkans van nul of bijna nul (meerdere antwoordmogelijkheden, match- en sorteervragen enz.) bedraagt de ideale p-waarde 0,5. Bij meerkeuzevragen is dit anders, omdat de kans daar groter is dat het antwoord correct wordt gegokt. De ideale p-waarde zou dan ook hoger moeten liggen bij dergelijke vragen. De onderstaande tabel vat de ideale p-waarden voor meerkeuzevragen samen op basis van het aantal mogelijke antwoorden:
Aantal opties | Ideale p-waarde |
2 opties | 0.75 |
3 opties | 0.68 |
4 opties | 0.63 |
5 opties | 0.60 |
Rit-waarde en Rir-waarde
Zowel de Rit-waarde als de Rir-waarde evalueert de correlatie (R) van het item (i) met de test, maar ze verschillen lichtjes van elkaar.
Rit-waarde
De Rit-waarde (correlatie item-totaal) meet hoe goed een specifiek item (i) correleert (R) met de totaalscore (t) van de test. Simpel gezegd – deze waarde toont aan of een kandidaat die goed scoort op deze vraag ook goed scoort op de test in het algemeen.
Een hogere Rit-waarde geeft aan dat het item een goede discriminerende factor is, wat betekent dat kandidaten die goed scoren op de test naar alle waarschijnlijkheid ook deze vraag correct zullen beantwoorden.
Rir-waarde
De Rir-waarde (correlatie item-rest) is vergelijkbaar met de Rit-waarde, maar dan met een kleine nuance. De Rir-waarde evalueert, net zoals de Rit-waarde, hoe goed een item correleert met het algemene testresultaat, maar ze sluit de score voor het betreffende item daarbij uit. Dit maakt deze waarde net iets accurater om de kwaliteit van het item te beoordelen. De Rir-waarde meet dus de correlatie (R) tussen het item (i) en de rest (r) van de test.
- Een Rit- of Rir-waarde van 0,2 of meer wordt doorgaans beschouwd als acceptabel.
- Waarden van 0,4 en hoger zijn ideaal met het oog op itemdiscriminatie, wat betekent dat kandidaten die goed scoren op de test hoogstwaarschijnlijk ook dit item correct zullen beantwoorden, terwijl die kans lager ligt bij zwakke kandidaten.
- Een lage waarde (minder dan 0,2) suggereert dat het item geen onderscheid kan maken tussen sterke en zwakke kandidaten. Bijvoorbeeld: een wiskundevraag in een test Engels zal waarschijnlijk een lage Rit-/Rir-waarde hebben.
Een negatieve Rit- of Rir-waarde wijst op een probleem. Zwakke kandidaten geven dan misschien het juiste antwoord, terwijl sterke kandidaten de bal misslaan. In dat geval moet de vraag worden herbekeken.
Relatie tussen p-waarde en Rit- of Rir-waarde
Al deze waarden zijn interessant op zich, maar ze bieden nog meer inzicht wanneer je gaat kijken naar de relatie tussen de p-waarde en de Rit-/Rir-waarde.
In de ‘ideale’ combinatie is de p-waarde gemiddeld tot hoog (ongeveer 0,3 tot 0,8) en is ook de Rit-/Rir-waarde gemiddeld tot hoog (ongeveer 0,2 of hoger). Dit wijst op een evenwichtig item: het is niet te gemakkelijk, maar ook niet te moeilijk en het maakt een goed onderscheid tussen sterke en zwakke kandidaten.
Maar dit betekent niet dat alle andere combinaties wijzen op een slecht item. Het is altijd belangrijk om wat dieper in te gaan op de waarde en na te gaan waarom een specifiek item niet ideaal scoort in een specifieke context.
Voorbeelden:
Items met een hoge p-waarde (bv. 0,8) en een hoge Rir-/Rit-waarde (bv. 0,5) wijzen op gemakkelijke vragen die er nog steeds in slagen een onderscheid te maken tussen sterke en zwakke kandidaten. Ze kunnen helpen om kandidaten te identificeren die consistent presteren over het hele examen. Maar deze items zijn misschien niet uitdagend genoeg in de context van een examen op hoog niveau.
Items met een lage p-waarde (bv. 0,2) en een hoge Rit-/Rir-waarde (bv. 0,5) wijzen op moeilijke vragen die een goed onderscheid maken tussen sterke en zwakke kandidaten. Een voorbeeld hiervan is een complex vraagstuk dat slechts weinig kandidaten correct weten op te lossen, maar dat juist wordt beantwoord door de kandidaten die over het algemeen goed scoren op de test. Dit betekent niet automatisch dat het item slecht is: het kan immers nog altijd nuttig zijn om in een uitdagend examen de gevorderde kennis of skills te toetsen.
A-waarde
De a-waarde is alleen van toepassing bij meerkeuzevragen en wijst op de aantrekkelijkheid van een afleider (foute antwoordkeuze bij een meerkeuze-item).
Bijvoorbeeld: als het merendeel van de kandidaten een specifiek fout antwoord kiest, kan dit erop wijzen dat de afleider misleidend is, of te gelijkend op het correcte antwoord.
- Een a-waarde van 0 betekent dat geen enkele kandidaat de afleider kiest,
- terwijl een a-waarde van 1 betekent dat alle kandidaten die afleider kiezen.
Afleiders hebben idealiter een a-waarde van meer dan 0,05 , maar liggen lager dan de p-waarde.
Cronbachs alfa
Cronbachs alfa meet de interne consistentie van een test. Met andere woorden: hoe goed alle vragen samen werken als een coherente test.
De gouden regel luidt: hoe hoger de waarde, hoe beter het examen. De waarde heeft een bereik van 0 tot 1.
- Een hoge Cronbachs alfa (meer dan 0,7) geeft aan dat de test betrouwbaar is,
- terwijl een lage alfa (minder dan 0,6) wijst op een gebrek aan interne consistentie in de test.
De meeste examinatoren houden 0,8 aan als de drempel voor examens waarbij veel op het spel staat. Een test met een lage Cronbachs alfa van 0,4 staat gelijk aan een onbetrouwbaar examen, wat betekent dat de scores van een tweede examen dat in soortgelijke omstandigheden wordt afgenomen aanzienlijk zouden kunnen verschillen van de scores van het eerste examen.
Standaardafwijking
De standaardafwijking meet de spreiding van de scores rond het gemiddelde. Een lage standaardafwijking betekent dat alle kandidaten gelijkaardig scoren, wat resulteert in een smalle curve. Een hoge standaardafwijking wijst daarentegen op een ruim scorebereik.
Cronbachs alfa en de standaardafwijking geven een beeld van zowel de betrouwbaarheid van het examen als de variabiliteit van de prestaties van de kandidaten.
Goed om te weten
Het spreekt voor zich dat hoe groter de steekproef is, hoe hoger ook de betrouwbaarheid van de psychometrische data is. Er moeten minimaal ongeveer 50 kandidaten zijn, maar dit aantal kan variëren naargelang de context. Bij minder dan 50 kandidaten is het belangrijk om de resultaten kritisch te benaderen. Maar dat neemt niet weg dat het altijd loont om de waarden te onderzoeken: afhankelijk van de context kunnen ze immers nuttige inzichten opleveren.
Conclusie
Itemanalyse is een krachtig onderdeel van testmanagement dat je kan helpen om je examens beter te maken. Het helpt je examens te optimaliseren door ze consistenter te maken.
Psychometrische waarden spelen daarin een belangrijke rol. Het merendeel van de belangrijke meetgegevens komt aan bod in dit artikel.
- De p-waarde helpt je de moeilijkheidsgraad van een vraag te evalueren.
- De Rit- en Rir-waarden geven weer in welke mate vragen erin slagen een onderscheid te maken tussen sterke en zwakke kandidaten.
- De a-waarde biedt dan weer inzicht in de doeltreffendheid van afleiders.
- Cronbachs alfa en de standaardafwijking tot slot geven een duidelijk beeld van de betrouwbaarheid van een examen en de scorespreiding van de kandidaten.
Samen bieden deze psychometrische waarden de kans om je items en examens te finetunen, voor nog meer succes in de toekomst.