Valeurs psychométriques : en quoi consistent-elles et comment les utiliser ?
Comment garantir la fiabilité et l’intégrité des questions d’examen ? Tout simplement grâce à l’analyse des items, qui permet aux rédacteurs de questions de garantir la cohérence et l’efficacité de leurs examens.
L’analyse des items vous permet généralement d’en apprendre plus sur la qualité et la fiabilité des items individuels (questions) ainsi que sur le test dans son ensemble. Dans cet article, vous découvrirez l’univers de l’analyse des items, ce en quoi elle consiste et comment l’utiliser efficacement afin de créer des examens plus qualitatifs.
Pourquoi l’analyse des items est-elle importante ?
Peu importe que vous organisiez un test de recrutement, de certification ou d’admission à un cours ou à une école, puisqu’il est absolument crucial que cette évaluation soit fiable, valide et équitable. Un test fiable fournit des résultats cohérents alors que sa validité permet de mesurer précisément les compétences ou connaissances visées.
C’est particulièrement important dans le cadre de situations cruciales, où les résultats d’examen peuvent façonner la carrière ou l’avenir des gens. Compte tenu de ces nombreux enjeux, la réalisation d’une analyse minutieuse des items constitue non seulement une nécessité pratique, mais aussi une responsabilité morale, car elle veille à ce que chaque question contribue de manière significative à une évaluation équitable et précise.
Aujourd’hui, l’analyse des items est plus accessible que jamais : le calcul des valeurs statistiques n’est en effet plus réservé aux spécialistes, puisque toute plateforme d’évaluation en ligne digne de ce nom s’en charge pour vous. Cela permet non seulement aux utilisateurs profanes des statistiques d’interpréter facilement la qualité et la fiabilité de leurs tests et questions, mais aussi à un public plus large d’accéder directement à ces informations exploitables.
En quoi consistent les valeurs psychométriques ?
Les valeurs psychométriques constituent une partie essentielle de l’analyse des items. Mais en quoi consistent-elles exactement et à quoi faut-il faire attention ? Dans le cadre d’un examen, les valeurs psychométriques font référence aux données statistiques qui permettent d’évaluer la qualité et l’efficacité des items d’examen et de l’examen dans son ensemble. Ces données vous aident notamment à déterminer :
- dans quelle mesure l’examen distingue les candidats les plus performants des moins performants ;
- le niveau de cohérence d’un examen ; et
- dans quelle mesure il évalue les connaissances ou compétences visées.
Les valeurs psychométriques sont généralement utilisées dans le cadre d’examens à enjeux élevés qui sont réalisés à large échelle. Pourquoi ? Car ces épreuves doivent être fiables et cohérentes à la fois ; en plus, les grands ensembles de données rendent l’analyse plus précise. Penchons-nous à présent sur les valeurs psychométriques les plus courantes qui font partie de l’analyse des items.
Valeur p
La valeur p évalue la difficulté des items d’examen. Une valeur p faible indique qu’une question est plus difficile, alors qu’une valeur p élevée suggère une question plus simple. Elle aide les examinateurs à comprendre les performances de chaque question en différenciant les différents niveaux de compétence du candidat.
Les valeurs p vont de 0 à 1, où
- 0 signifie que tous les candidats ont mal répondu à la question,
- 1 signifie que tous les candidats ont répondu correctement à la question.
Autrement dit, plus la question est facile, plus la valeur p est élevée. La valeur p optimale se situe généralement entre 0,3 et 0,7 pour la plupart des examens, bien que chaque organisation tende à utiliser des seuils légèrement différents
Quelle est la valeur p idéale ?
Pour ce qui est des questions ouvertes et de celles dont la probabilité de deviner la réponse est égale à 0 ou presque 0 (question à réponses multiples, question de correspondance et de tri, etc.), la valeur p optimale s’élève à 0,5. Pour une question à choix multiples (QCM), c’est différent puisque la probabilité de deviner la réponse correcte est plus élevée. Dans ce cas, la valeur p optimale devrait être plus élevée aussi. Le tableau ci-dessous synthétise les valeurs p optimales pour les QCM en fonction du nombre d’options de réponse :
Nombre d'options | Valeur p idéale |
2 options | 0.75 |
3 options | 0.68 |
4 options | 0.63 |
5 options | 0.60 |
Valeurs Rit et Rir
Les valeurs Rit et Rir évaluent la corrélation (R) qui existe entre l’item et l’examen, même s’il est vrai qu’il y a une légère différence entre les deux.
Valeur Rit
La valeur Rit (Item-Total Correlation, ou corrélation item-total) détermine dans quelle mesure un item en particulier (i) est en corrélation avec le score total (t) à l’examen. Pour faire simple, elle permet de savoir si les candidats qui ont bien répondu à cette question ont tendance à obtenir de bons résultats à l’examen.
Une valeur Rit plus élevée indique que l’item est un bon discriminateur, ce qui signifie que les candidats qui ont obtenu une bonne note à l’examen sont plus susceptibles de répondre correctement à cet item.
Valeur Rir
La valeur Rir (Item – Rest Correlation ou corrélation entre le score de l’item et le score global) est identique à la valeur Rit, même s’il existe une légère nuance entre les deux. À l’instar de la valeur Rit, la valeur Rir détermine aussi la mesure dans laquelle un item est en corrélation avec le score total obtenu à l’examen, mais elle exclut le score de l’item. Elle est donc légèrement plus précise pour évaluer la qualité de l’item. La valeur Rir mesure donc la corrélation (R) entre l’item (i) et le reste (r) de l’examen.
- Une valeur Rit ou Rir de 0,2 ou supérieure est généralement considérée comme acceptable.
- Les valeurs de 0,4 ou supérieures indiquent que l’item affiche un bon pouvoir discriminant, autrement dit les candidats qui réussissent bien l’examen sont plus susceptibles de répondre correctement à cet item, tandis que ceux qui ont de mauvais résultats à l’examen sont moins susceptibles de répondre correctement à cet item.
- Une valeur faible (inférieure à 0,2) suggère que l’item ne permet pas de distinguer les candidats performants et non performants. Par exemple : une question de mathématiques dans un examen d’anglais présentera probablement une valeur Rit/Rir faible.
Une valeur Rit ou Rir négative indique un problème – les sujets moins performants peuvent répondre correctement, alors que les sujets performants donnent une mauvaise réponse. Il faut dans ce cas réétudier la question.
Relation entre la valeur p et la valeur Rit ou Rir
Même si ces valeurs sont intéressantes en soi, elles deviennent encore plus pertinentes lorsque l’on examine la relation entre la valeur p et la valeur Rit/Rir.
La combinaison « idéale » est obtenue lorsque la valeur p est moyenne à élevée (entre 0,3 et 0,7 environ) et que la valeur Rit/Rir est, elle aussi, moyenne à élevée (environ 0,2 ou supérieure). Ceci laisse supposer un item équilibré qui n’est ni trop simple ni trop difficile et qui permet de distinguer correctement les candidats performants des candidats non performants.
Mais cela ne signifie pas que toutes les autres combinaisons indiquent un item de mauvaise qualité. Il faut dans ce cas analyser la raison pour laquelle un item en particulier n’est pas idéal dans un contexte spécifique.
Exemples :
Les items affichant une valeur p élevée (p. ex. 0,8) et une valeur Rir/Rit élevée (p. ex. 0,5) laissent supposer que les questions sont faciles et qu’elles permettent aussi de bien distinguer les bons des mauvais candidats. Ils peuvent par exemple aider à identifier les candidats qui obtiennent des résultats constants tout au long de l’examen. Cependant, le niveau de difficulté de ces items pourrait ne pas être suffisamment élevé dans le cadre d’une évaluation de haut niveau.
Les items affichant une valeur p faible (p. ex. 0,2) et une valeur Rir/Rit élevée (p. ex. 0,5) indiquent des questions difficiles qui permettent de bien distinguer les bons des mauvais élèves. Prenons l’exemple d’une question complexe que très peu de candidats parviennent à résoudre, et ceux qui y arrivent ont tendance à obtenir une bonne note générale. Cela ne signifie pas automatiquement que l’item est de mauvaise qualité, puisqu’il peut toujours être utile pour évaluer des connaissances ou des compétences avancées dans le cadre d’un examen difficile.
Valeur A
La valeur A ne s’applique qu’aux questions à choix multiples et indique l’attractivité d’un distracteur (réponse incorrecte dans le cadre d’un item à choix multiples).
Par exemple : si la plupart des candidats choisissent une réponse incorrecte spécifique, cela peut indiquer que le distracteur peut être trompeur ou trop similaire à la bonne réponse.
- Une valeur A de 0 signifie qu’aucun candidat n’a choisi l’élément distracteur.
- Une valeur A de 1 indique que tous les candidats l’ont choisi.
Les distracteurs doivent idéalement afficher une valeur A supérieure à 0,05 et inférieure à la valeur p.
Alpha de Cronbach
L’alpha de Cronbach mesure la cohérence interne de l’examen. Autrement dit, ce coefficient indique dans quelle mesure toutes les questions fonctionnent ensemble pour créer un test cohérent.
La règle est simple : plus cette valeur est élevée, meilleur est l’examen. La valeur va de 0 à 1.
- Un alpha de Cronbach élevé (supérieur à 0,7) signifie que l’examen est fiable.
- Un alpha de Cronbach faible (inférieur à 0,6) indique que l’examen manque de cohérence interne.
La plupart des examinateurs visent le seuil de 0,8 dans le cadre d’examens à enjeux élevés. Un examen affichant un alpha de Cronbach faible de 0,4 signifie qu’il n’est pas fiable ; autrement dit, les scores obtenus à un deuxième examen pourraient être significativement différents de ceux du premier examen, alors que les deux épreuves ont été conduites dans des conditions similaires.
Écart-type
L’écart-type mesure la dispersion des notes par rapport à la moyenne. Un écart-type faible signifie que les candidats ont obtenu une note similaire, ce qui résulte en une courbe étroite alors qu’un écart-type élevé implique une grande disparité des notes.
L’alpha de Cronbach et l’écart-type renseignent sur la fiabilité de l’examen et la variabilité des performances des candidats.
Bon à savoir
Les données psychométriques sont évidemment plus fiables lorsque la taille de l’échantillon est importante. Il faudrait disposer d’environ 50 candidats minimum, même si ce nombre peut varier en fonction du contexte. S’il est inférieur à 50, veillez à examiner les résultats d’un œil attentif. Il est néanmoins utile d’analyser ces valeurs, car elles peuvent fournir des informations utiles, en fonction du contexte.
Conclusion
Une analyse des items constitue un outil puissant dans l’administration des examens et vous permet d’améliorer la qualité des examens. Elle aide à optimiser les examens existants, en les rendant plus cohérents.
Les données psychométriques jouent un rôle essentiel dans ce cadre. Cet article vous en présente les principales valeurs.
- La valeur p vous aide à évaluer la difficulté d’une question.
- Les valeurs Rir et Rit indiquent dans quelle mesure les questions différencient les bons des mauvais candidats.
- Les valeurs A renseignent sur l’efficacité des distracteurs.
- L’alpha de Cronbach et l’écart-type vous offrent un excellent aperçu de la fiabilité d’un examen et de l’écart de performance des candidats.
Ensemble, ces valeurs psychométriques vous permettent d’affiner vos items et vos examens pour garantir de futures réussites.