45411 Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires Évaluations nationales des acquis scolaires VOLUME 2 Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires Prue Anderson et George Morgan Vincent Greaney et Thomas Kellaghan, éditeurs de la série © 2015 Banque internationale pour la reconstruction et le développement/La Banque mondiale 1818 H Street NW, Washington, DC 20433 Téléphone : 202–473–1000 ; Internet : www.worldbank.org Certains droits réservés La publication originale de cet ouvrage est en anglais sous le titre, Developing Tests and Questionnaires for a National Assessment of Educational Achievement. Vol. 2 of National Assessments of Educational Achievement, en 2008. En cas de contradictions, la langue originelle prévaudra. Cet ouvrage a été établi par les services de la Banque mondiale avec la contribution de collaborateurs exté- rieurs. Les observations, interprétations et opinions qui y sont exprimées ne reflètent pas nécessairement les vues de la Banque mondiale, de son Conseil des Administrateurs ou des pays que ceux-ci représentent. La Banque mondiale ne garantit pas l’exactitude des données citées dans cet ouvrage. Les frontières, les couleurs, les déno- minations et toute autre information figurant sur les cartes du présent ouvrage n’impliquent de la part de la Banque mondiale aucun jugement quant au statut juridique d’un territoire quelconque et ne signifient nulle- ment que l’institution reconnaît ou accepte ces frontières. Rien de ce qui figure dans le présent ouvrage ne constitue ni ne peut être considéré comme une limitation des privilèges et immunités de la Banque mondiale, ni comme une renonciation à ces privilèges et immunités, qui sont expressément réservés. Droits et autorisations L’utilisation de cet ouvrage est soumise aux conditions de la licence Creative Commons Attribution 3.0 IGO (CC BY 3.0 IGO) http://creativecommons.org/licenses/by/3.0/igo/ Conformément aux termes de la licence Creative Commons Attribution (paternité), il est possible de copier, distribuer, transmettre et adapter le contenu de l’ouvrage, notamment à des fins commerciales, sous réserve du respect des conditions suivantes : Mention de la source — L’ouvrage doit être cité de la manière suivante : Anderson, Prue, et George Morgan. 2015. Évaluations nationales des acquis scolaires. Volume 2 : Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires, sous la conduite de Vincent Greaney et Thomas Kellaghan. Washington, DC : La Banque mondiale. DOI : 10.1596/978-1-4648-0511-0 Licence : Creative Commons Attribution CC BY 3.0 IGO Traductions — Si une traduction de cet ouvrage est produite, veuillez ajouter à la mention de la source de l’ouvrage le déni de responsabilité suivant : Cette traduction n’a pas été réalisée par la Banque mondiale et ne doit pas être considérée comme une traduction officielle de cette dernière. La Banque mondiale ne saurait être tenue responsable du contenu de la traduction ni des erreurs qu’elle pourrait contenir. Adaptations — Si une adaptation de cet ouvrage est produite, veuillez ajouter à la mention de la source le déni de responsabilité suivant : Cet ouvrage est une adaptation d’une oeuvre originale de la Banque mondiale. Les idées et opinions exprimées dans cette adaptation n’engagent que l’auteur ou les auteurs de l’adaptation et ne sont pas validées par la Banque mondiale. Contenu tiers — La Banque mondiale n’est pas nécessairement propriétaire de chaque composante du contenu de cet ouvrage. Elle ne garantit donc pas que l’utilisation d’une composante ou d’une partie quelconque du contenu de l’ouvrage ne porte pas atteinte aux droits des tierces parties concernées. L’utilisateur du contenu assume seul le risque de réclamations ou de plaintes pour violation desdits droits. Pour réutiliser une composante de cet ouvrage, il vous appartient de juger si une autorisation est requise et de l’obtenir le cas échéant auprès du détenteur des droits d’auteur. Parmi les composantes, on citera, à titre d’exemple, les tableaux, les graphiques et les images. Pour tous renseignements sur les droits et licences doivent être adressées à World Bank Publications, The World Bank, 1818 H Street, NW Washington, DC, 20433, USA ; télécopie : 202–522–2625 ; courriel : pubrights@worldbank.org. ISBN (imprimé) : 978-1-4648-0511-0 ISBN (digital) : 978-1-4648-0514-1 DOI : 10.1596/978-1-4648-0511-0 Conception de la page de couverture : Naylor Design, Washington DC TABLE DES MATIÈRES PRÉFACE xi À PROPOS DES AUTEURS ET ÉDITEURS xiii REMERCIEMENTS xv ABRÉVIATIONS xvii Part I Construction des Tests de Performance 1. INTRODUCTION 3 2. ÉLABORATION D’UN CADRE D’ÉVALUATION 11 Le plan détaillé du test ou tableau des spécifications 13 Validité 19 Langue du test 19 Format des items 20 Population scolaire à évaluer 27 Publication des résultats 28 Informations contextuelles 29 Notes 30 v vi | TABLE DES MATIÈRES 3. RÉDACTION D’ITEMS 31 Degré de difficulté des items 33 Biais d’items 34 Support de stimulus 35 Format des items 38 Rédaction des items à choix multiple 39 Rédaction des items à réponse courte 43 Conception des guides de notation pour les items à crédit partiel 46 Rédaction d’items pour des unités 50 Exemples types d’items 51 Mise en page et conception des items 52 Lignes directrices de base 52 Qualité des images 53 Équipe de rédacteurs d’items 58 Comités de révision des items 62 Autres correcteurs 64 Suivi des items 65 Notes 67 4. RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS 69 Conception du formulaire de pré-test 72 Impression et relecture du pré-test 77 Mise en œuvre du pré-test 80 Correction du pré-test 81 Fiabilité 86 5. SÉLECTION DES ITEMS DE TEST 89 Remarque 94 6. PRODUCTION DU TEST DÉFINITIF 95 Conception du test définitif 95 Impression et correction 98 7. NOTATION MANUELLE DES ITEMS DE TEST 103 Part II Construction des questionnaires 8. CONCEPTION DES QUESTIONNAIRES 111 Contenu du questionnaire 113 TABLE DES MATIÈRES | vii Plan détaillé du questionnaire 119 Items du questionnaire 119 Format des items 121 Langue du questionnaire 122 Personnes interrogées 122 Administration du questionnaire 123 Plan d’analyse des données 124 9. RÉDACTION DES ITEMS DU QUESTIONNAIRE 125 Questions 126 Affirmations 126 Catégories de réponses 127 Gestion des questions sensibles 129 Mise en page des questionnaires 130 Révision des questionnaires 131 10. CODAGE DES RÉPONSES DE QUESTIONNAIRES 135 Préparation des questionnaires pour la saisie des données 137 Codage manquant ou réponses ambiguës 137 11. ASSOCIATION DES DONNÉES DES QUESTIONNAIRES ET DES TESTS 139 Questionnaires des élèves 139 Questionnaires des parents 140 Questionnaires des enseignants et des chefs d’établissement 141 Part III Conception d’un manuel d’administration de test 12. MANUEL DES ADMINISTRATEURS DE TEST 145 Contenu du manuel 146 Utilisation du manuel 148 Caractéristiques d’un manuel 148 Quels sont les détails à préciser ? 150 Questions types 151 Mise à l’essai 152 Révision 153 13. L’ADMINISTRATEUR DE TEST 155 Sélection de l’administrateur de test 155 Suivi des instructions 156 viii | TABLE DES MATIÈRES Assurance qualité 158 Liste de vérification de l’administrateur 159 14. INFORMATION DES ÉCOLES SUR L’ÉVALUATION NATIONALE 163 ANNEXES 165 A. GLOSSAIRE 165 B. LECTURES COMPLÉMENTAIRES 171 C. EXEMPLES D’ITEMS DE TESTS ET QUESTIONNAIRES ET DE MANUELS D’ADMINISTRATION SUR CD 175 Items de tests de performance 176 Questionnaires 177 Manuels 177 Remerciements 178 ENCADRÉS 2.1 Programme de mathématiques en Papouasie-Nouvelle-Guinée 13 2.2 Programme d’anglais en Nouvelle-Zélande 14 2.3 Exemples d’items à choix multiple 21 2.4 Exemple d’item à réponse construite fermée 22 2.5 Exemples d’items à réponse courte ouverte 22 2.6 Exemple d’un déclencheur de composition écrite 23 3.1 Exemple d’un support de stimulus hors sujet 36 3.2 Exemple d’un item contenant des informations inexactes ou trompeuses 37 3.3 Exemple d’un item à choix multiple 39 3.4 Ponctuation dans les phrases complètes 40 3.5 Ponctuation dans une liste 40 3.6 Limitation de la lecture 41 3.7 Item avec énoncé à la forme négative 41 3.8 Distracteurs mal appariés 42 3.9 Traitement des paires dans les distracteurs 42 3.10 Item ouvert prêtant à confusion avec des instructions floues 45 3.11 Bon exemple d’item à réponse construite fermée 46 3.12 Item à crédit partiel 47 TABLE DES MATIÈRES | ix 3.13 Exemple d’item à réponse ouverte avec guide de notation 48 3.14 Exemple d’item à réponse construite fermée avec guide de notation 49 3.15 Utilisation d’images pour réduire le nombre de mots 54 3.16 Utilisation d’images simples 55 3.17 Identification claire des graphiques 55 3.18 Identification claire des cartes 56 3.19 Préservation d’espace dans le support de stimulus 57 3.20 Exemple de feuille de style pour les rédacteurs d’items 61 4.1 Exemple d’item dans un format à choix multiple et un format ouvert 81 4.2 Exemple de fiche de saisie de données pour un pré-test 83 6.1 Exemple de page de couverture de test 97 8.1 Plan détaillé de questionnaire sur les attitudes et les valeurs 118 9.1 Mauvais alignement des cases et des catégories de réponses 130 9.2 Bon alignement des cases et des catégories de réponses 131 10.1 Exemple de codage en caractère grisé 136 10.2 Exemple traitant les items comme des catégories distinctes pour la saisie des données 136 12.1 Instructions du manuel d’administration de test 149 12.2 Informations pour les professeurs et les chefs d’établissement 150 12.3 Administration des items types 151 13.1 Liste de vérification de l’administration : un exemple des Philippines 159 FIGURES 1.1 Organigramme de l’évaluation nationale 4 1.2 Aperçu des activités d’évaluation nationale 5 4.1 Exemple de liaison circulaire entre différents items 73 4.2 Modèle de liaison verticale des items 75 C.1 Guide du CD de documentation relatif aux tests, questionnaires et manuels 176 TABLEAUX 1.1 Étapes de la conception des tests et questionnaires pour une évaluation nationale 6 2.1 Plan détaillé d’un test de mathématiques de cycle moyen 15 x | TABLE DES MATIÈRES 2.2 Plan détaillé de TIMSS de mathématiques, 3e et 4e années 16 2.3 Plan détaillé de contenu en mathématiques en Papouasie-Nouvelle-Guinée 17 2.4 Avantages et limites des formats d’items 26 2.5 Formats des items de tests de mathématiques en Papouasie-Nouvelle-Guinée 27 4.1 Items de liaison dans deux unités de lecture 76 4.2 Segment d’une feuille de calcul de suivi des items dans les formulaires 77 5.1 Exemple de résultats de l’analyse d’un item à choix multiple 90 5.2 Exemple de résultats de l’analyse d’un item ouvert à crédit partiel 92 8.1 Composantes de la conception d’un questionnaire 114 8.2 Fonctions de lecture dans une étude internationale : pondérations utilisées pour créer deux nouvelles variables, « Lire à des fins utiles » et « Lire pour le plaisir » 120 PRÉFACE La qualité d’un exercice d’évaluation des acquis scolaires repose essentiellement sur la qualité des outils utilisés. Faute d’outils bien conçus, l’évaluation peut être une perte de temps et d’argent. Le volume Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires – deuxième des cinq volumes de la série Évaluations nationales des acquis scolaires – explique comment concevoir des outils techniquement solides pour procéder à une évaluation nationale des acquis scolaires et tout particulièrement dans les pays en développement. Le Volume 1 de la série est consacré aux principaux objectifs et caractéristiques des évaluations nationales et s’adresse principalement aux responsables politiques et aux décideurs de l’éducation. Ce deuxième volume et la plupart des suivants proposent une méthodologie détaillée de la conception, de la mise en œuvre, de l’analyse et du suivi d’une évaluation nationale, et s’adressent avant tout à des équipes d’évaluation nationale. Le volume 2 Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires traite de la mise au point de deux types d’outils de collecte de données : les tests de performance scolaire et les questionnaires contextuels. La première partie du volume porte sur l’élaboration d’un cadre d’évaluation, d’un plan détaillé de test, la rédaction d’items, les pré-tests et la version définitive du test. La deuxième partie décrit des étapes et des activités comparables dans la construction de questionnaires contextuels destinés à recueillir des informations auprès des élèves, des enseignants, des chefs d’établissement xi xii I METTRE AU POINT LES TESTS ET QUESTIONNAIRES ou des parents, sur des variables permettant d’expliquer les écarts de résultats entre les élèves dans les tests de performance. La troisième partie traite de l’élaboration du manuel d’administration de tests, afin de s’assurer que tous les élèves subissent le test dans des conditions uniformes. Le disque compact (CD) joint propose des exemples d’items de test, d’items de questionnaire, et de manuels d’administration bien conçus issus d’évaluations nationales et internationales. Il permet par ailleurs d’illustrer les multiples approches adoptées par les équipes d’évaluation dans la mise au point de ces outils. Le Volume 3 de la série met l’accent sur des questions pratiques à aborder lors de la mise en œuvre d’un programme d’évaluation nationale, notamment en matière de logistique, échantillonnage, nettoyage et gestion des données. Le Volume 4 s’intéresse à la façon de générer les données sur les items et les résultats des tests et sur les liens entre les résultats des tests et d’autres facteurs pédagogiques. Enfin, le Volume 5 porte sur la rédaction des rapports basés sur les résultats de l’évaluation nationale, et sur les modalités d’utilisation des résultats destinés à améliorer la qualité des prises de décisions relatives aux politiques de l’éducation. Au fil des pages, le lecteur comprendra que l’élaboration des outils d’évaluation est un exercice complexe et chronophage, qui exige une mobilisation considérable de connaissances, de savoirs et de ressources. Parallèlement, l’expérience a démontré que des outils bien conçus offrent des avantages substantiels en termes de qualité des informations fournies sur les performances des élèves et les facteurs scolaires et non scolaires aptes à relever le niveau de performance. Des outils de qualité peuvent renforcer la confiance des responsables des politiques et des autres parties prenantes dans les conclusions. Ils peuvent également encourager ces responsables à utiliser les résultats de l’évaluation nationale pour mettre en place des plans et des programmes de cours solides en vue d’accroître la qualité de l’enseignement. Si les résultats des tests et des questionnaires permettent d’atteindre ces objectifs, ils justifieront amplement le temps et les efforts consacrés à leur élaboration. Marguerite Clarke Spécialiste senior de l’éducation à la Banque mondiale À PROPOS DES AUTEURS ET ÉDITEURS LES AUTEURS Prue Anderson est chargée de recherche senior à l’Australian Council for Educational Research. Elle a conçu des outils d’évaluation de la lecture destinés à des programmes de test de niveau système pour les élèves du primaire et du premier cycle du secondaire. Elle a travaillé sur des programmes de suivi éducatif en Australie, au Brunei Darussalam, en Papouasie-Nouvelle-Guinée et aux Philippines. Actuellement chef de projet du Programme d’évaluation des écoles internationales, ses autres domaines de prédilection sont : (a) la défi- nition de données d’évaluation par rapport aux prévisions et cadres de travail liés aux résultats des programmes, et (b) la mesure des résultats sociaux de la scolarisation. George Morgan est consultant dans le secteur de l’éducation. Il a été chargé de recherche senior dans le Département de la mesure et directeur du Groupe d’élaboration des tests scientifiques et mathé- matiques à l’Australian Council for Educational Research pendant près de trente ans. Il a mis au point un programme de mathéma- tiques et de sciences et des outils d’évaluation à tous les niveaux éducatifs, et travaillé sur des programmes de tests à grande échelle. Plus récemment, il a étroitement collaboré à des projets d’évaluation xiii xiv I METTRE AU POINT LES TESTS ET QUESTIONNAIRES au Cambodge, Timor oriental, en République démocratique popu- laire lao, Papouasie-Nouvelle-Guinée et Samoa. LES ÉDITEURS Vincent Greaney est consultant dans l’éducation. Il a été spécialiste en chef de l’éducation à la Banque mondiale et a travaillé dans de nombreux pays d’Afrique, d’Asie et du Moyen-Orient. Ancien professeur, chargé de recherche à l’Educational Research Centre, St. Patrick’s College, à Dublin, professeur invité Fulbright à l’Université de Western Michigan à Kalamazoo, il est membre du Reading Hall of Fame de l’Association internationale de lecture (International Reading Association). Ses domaines de prédilection sont l’évaluation, l’éducation des enseignants, la lecture et la promotion de la cohésion sociale par la réforme des manuels scolaires. Thomas Kellaghan est directeur de l’Educational Research Centre, St. Patrick’s College, à Dublin et membre de l’Académie internationale de l’éducation. Il a travaillé à l’Université d’Ibadan, au Nigéria, à la Queen’s University de Belfast, et mené des recherches sur les évaluations et les examens, les handicaps en matière d’éducation, et les relations entre l’école et la famille. Il a présidé l’Association internationale pour l’évaluation éducative (International Association for Educational Assessment) de 1997 et 2001 et a travaillé sur les questions d’évaluation en Afrique, Asie, Amérique latine et au Moyen-Orient. REMERCIEMENTS La série de volumes intitulée Évaluations nationales des acquis sco- laires a été préparée par une équipe dirigée par Vincent Greaney (consultant, Réseau pour le développement humain, Groupe pour l’éducation, Banque mondiale) et Thomas Kellaghan (Educational Research Centre, St. Patrick’s College, Dublin), dont est tiré ce deuxiè- me volume. Ont également collaboré à cette série Sylvia Acana (Uganda National Examinations Board), Prue Anderson (Australian Council for Educational Research), Fernando Cartwright (Conseil ca- nadien sur l’apprentissage), Jean Dumais (Statistics Canada), Chris Freeman (Australian Council for Educational Research), Hew Gough (Statistics Canada), Sara Howie (Université de Pretoria), George Morgan (Australian Council for Educational Research), T. Scott Murray (Institut statistique de l’UNESCO), et Gerry Shiel (Educational Research Centre, St. Patrick’s College, Dublin). Les travaux ont été réalisés sous la direction générale de Ruth Kagia, directrice du Secteur de l’Éducation, et de Robin Horn, responsable du Secteur de l’Éducation, Réseau pour le développement humain, tous les deux à la Banque mondiale. Robert Prouty a lancé et supervisé le projet jusqu’en août 2007. Marguerite Clarke a supervisé les étapes ulté- rieures de révision et de publication. Nous remercions vivement le comité de révision pour ses contribu- tions : Al Beaton (Boston College), Irwin Kirsch (Educational Testing Service), et Benoit Millot (Banque mondiale). Des observations utiles xv xvi I METTRE AU POINT LES TESTS ET QUESTIONNAIRES ont été également apportées par Helen Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Elizabeth King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan, Eduardo Velez et Raisa Venalainen. Nous avons bénéficié d’informations et d’un soutien précieux de la part de Carly Cheevers, David Harding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary Walshe et Hans Wagemaker. Nous souhaitons remercier les institutions suivantes de nous avoir autorisés à reproduire leurs supports dans ce volume et le CD joint : l’Australian Council for Educational Research, l’Educational Research Centre de Dublin, l’Association internationale pour l’évaluation du rendement scolaire, le Département de l’Éducation du Massachusetts , le National Center for Education Statistics du Département de l’Éducation des États-Unis, l’Organisation pour la coopération écono- mique et le développement, et le Département de l’Éducation de Papouasie-Nouvelle-Guinée. La conception graphique, l’édition et la production du volume ont été coordonnées par Mary Fisk et Paola Scalabrin du Service des publications de la Banque mondiale. Le Fonds fiduciaire irlandais pour l’éducation, le Programme du partenariat entre la Banque mondiale et les Pays-Bas, l’Educational Research Centre de Dublin, et l’Australian Council for Educational Research ont généreusement soutenu la préparation et la publication de cette série. ABRÉVIATIONS ACTE Attribution de carnet de test des élèves CD disque compact ID Numéro d’identification ME Ministère de l’Éducation NAEP Évaluation nationale des progrès de l’éducation (National Assessment of Educational Progress) PIRLS Programme international de recherche en lecture scolaire TCT Théorie classique des tests TIMSS Tendances de l’enquête internationale sur les mathématiques et les sciences (Trends in International Mathematics and Science Study) TRI Théorie de la réponse à l’item xvii PA RT I E 1 CONSTRUCTION DES TESTS DE PERFORMANCE CHAPITRE 1 INTRODUCTION Une évaluation nationale implique de nombreuses activités, de la décision de sa mise en œuvre à la lecture du rapport de ses conclusions. Chaque ouvrage de la série en cinq volumes Évalua- tions nationales des acquis scolaires décrit une partie des activités né- cessaires en vue d’une évaluation nationale, en mettant l’accent sur celles menées dans les pays en développement. La plupart des tech- nologies requises pour une évaluation nationale satisfaisante sont susceptibles de manquer dans les pays privés d’une tradition de recherche empirique solide en matière d’éducation. Nous nous sommes donc employés à décrire en détail ces activités et, le cas échéant, à aider le lecteur (dont nous supposons qu’il assumera la charge d’au moins quelques aspects d’une évaluation) à comprendre la nécessité de ces activités. Le ministère de l’Éducation (ME), ou son comité directeur national (CDN), sera généralement chargé de guider et de soutenir une évaluation nationale. Sous la supervision du ministère de l’Éducation ou du CDN, l’essentiel des activités sera réalisé par un organisme d’exécution, lequel supervisera les travaux du respon- sable de la conception des tests, des spécialistes des matières et des analystes de statistiques ainsi que l’organisation logistique de 3 4 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES l’évaluation nationale. Le volume Mettre au point les tests et ques- tionnaires pour une évaluation nationale des acquis scolaires traite essentiellement des activités du responsable de la conception des tests et des spécialistes des matières ainsi que des modalités de pré-test (voir la figure 1.1). D’autres sujets présentés dans la figure 1.1 – échantillonnage, logistique de l’évaluation, dont le contact avec les établissements scolaires, saisie et nettoyage des données – seront traités dans le troisième volume de cette série, Mettre en œuvre une évaluation nationale des acquis scolaires. Le quatrième volume Analyser les données issues d’une évaluation nationale des acquis scolaires portera sur les analyses statistiques. Le schéma de la figure 1.2 résume les différentes étapes d’une évaluation nationale, dont bon nombre sont décrites dans ce volume ; les textes grisés ou activités se rapportent aux aspects de l’évaluation qui sont traités principalement dans ces pages. Ce volume présente FIGURE 1.1 Organigramme de l’évaluation nationale Ministère de l’Éducation/ Comité directeur national Organisme d’exécution/ Chef d’équipe Élaboration des tests/ Analyse Logistique Responsable Spécialistes des matières Analyse des programmes, Échantillonnage Gestion des pré-tests élaboration d’un cadre Saisie et nettoyage des Contact avec les d’évaluation, rédaction données établissements d’items, pré-tests, choix Analyses statistiques Impression des items définitifs, interprétation des résultats Pré-test des items de tests et de questionnaires Sélection des items définitifs Interprétation des résultats Rédaction de rapports FIGURE 1.2 Aperçu des activités d’évaluation nationale 1. Le ME ou le CDN 2. Le ME ou le CDN et 3. L’organisme d’exécution, 4. Les spécialistes des 5. Le responsable de désigne l’organisme d’autres organismes le chef d’équipe et le matières analysent les l’élaboration des tests d’exécution. Le chef s’accordent sur le responsable de programmes et forme les rédacteurs d’équipe et l’organisme cadre d’évaluation l’élaboration des tests clarifient les objectifs. des items. d’exécution établissent (notamment les et les spécialistes des un cadre d’évaluation matières et la matières rédigent des de l’évaluation nationale. population à évaluer) plans détaillés de tests et de questionnaires. 10. Le chef d’équipe et le 9. Le responsable de 8. L’organisme 7. L’organisme 6. Le responsable de responsable de l’élaboration des tests d’exécution dirige les d’exécution organise l’élaboration des tests l’élaboration des tests supervise la révision pré-tests. les révisions des et le chef d’équipe supervisent la rédaction des items et des comités. supervisent la des items, des questions, et dirige rédaction des items, questionnaires et des des pré-tests des questions et du manuels d’administration supplémentaires le manuel d’administration. définitifs. cas échéant. 11. L’organisme 12. L’organisme 13. L’organisme 14. L’organisme 15. L’organisme d’exécution organise d’exécution choisit un d’exécution organise d’exécution forme les d’exécution supervise les révisions des échantillon l’impression des tests, administrateurs de l’administration de comités. d’établissements. des questionnaires et tests et de l’évaluation nationale. manuels. questionnaires à l’aide du manuel. 20. Le ME et les autres 19. Le ME ou CDN 18. L’organisme 17. L’organisme 16. L’organisme INTRODUCTION organismes exploitent publie les rapports. d’exécution rédige les d’exécution analyse d’exécution supervise les résultats. rapports et les soumet les données. la correction des tests, au ME ou CDN entre l’enregistrement de | 5 autres pour examen. tous les résultats et le nettoyage des données. 6 TABLEAU 1.1 Étapes de la conception des tests et questionnaires pour une évaluation nationale Étape Activité Durée approximative Personnes concernées 1 Préparer le cadre de l’évaluation ; 4 semaines ME ou CDN et organisme d’exécution, notamment chef d’équipe, préciser l’objectif de l’évaluation responsable de la conception des tests, principales parties nationale, des tests et des prenantes et responsables des politiques. questionnaires ; et sélectionner la population. Concevoir les plans détaillés ou le 4 à 6 semaines ME ou CDN et organisme d’exécution, responsable de la tableau des spécifications, et organiser conception des tests, groupes d’experts, enseignants confirmés, une large consultation pour approbation. spécialistes des matières, analystes de données, rédacteurs confirmés d’items, principales parties prenantes et responsables des politiques. 2 Rédiger les items de tests et de 12 à 14 semaines Responsable de la conception des tests, spécialistes de | METTRE AU POINT LES TESTS ET QUESTIONNAIRES questionnaires. (20 à 30 items par disciplines, rédacteurs d’items et principales parties prenantes. rédacteur par semaine) Produire les pré-tests et les projets de 4 semaines Chef d’équipe, responsable de la conception des tests, questionnaires. rédacteurs d’items, professionnels de la conception et de la mise en page et relecteurs. Imprimer les pré-tests et les projets de 2 semaines Organisme d’exécution, chef d’équipe, responsable de la questionnaires conception des tests, rédacteurs d’items. Emballer et distribuer les pré-tests et les 2 à 3 semaines Organisme d’exécution. projets de questionnaires. 3 Administrer les pré-tests et les projets de 2 à 3 semaines Organisme d’exécution et administrateurs de tests. questionnaires dans les établissements scolaires. Noter manuellement les items 2 semaines Chef d’équipe, responsable de la conception des tests, (si nécessaire). spécialistes de disciplines, rédacteurs d’items. Saisir les données des pré-tests 1 semaine Organisme d’exécution, analystes de données et opérateurs de saisie des données 4 Analyser les données des pré-tests et 2 semaines Organisme d’exécution, analystes des données, rédacteurs des questionnaires. d’items, et responsables de la conception des tests. Sélectionner les items des tests et des 2 semaines Responsable de la conception des tests, analystes, rédacteurs questionnaires. d’items, et principales parties prenantes. 5 Produire les tests, les questionnaires et 2 semaines Organisme d’exécution, responsable de la conception des tests, les manuels d’administration définitifs. professionnels de la mise en page et de la maquette, relecteurs et rédacteurs d’items. Imprimer les tests et les questionnaires. 4 semaines Organisme d’exécution, chef d’équipe et responsable de la conception des tests. Emballer et distribuer les tests et 2 à 3 semaines (selon Organisme d’exécution et responsable de la conception des tests. questionnaires. la distance et les modalités d’accès) INTRODUCTION | 7 8 TABLEAU 1.1 (suite) Étape Activité Durée approximative Personnes concernées 6 Administrer les tests et les questionnaires 3 à 4 semaines Organisme d’exécution, responsable de la conception de tests, et dans les établissements scolaires. administrateurs de tests. Noter manuellement les items (si 3 à 4 semaines Responsable de la conception de tests et rédacteurs d’items. nécessaire). 7 Saisir et nettoyer les données. 4 à 6 semaines Analystes de données et opérateurs de saisie de données Analyser les données. 2 à 3 semaines Analystes de données, rédacteurs d’items et responsable de la | METTRE AU POINT LES TESTS ET QUESTIONNAIRES conception de tests 8 Produire les rapports finaux. 4 à 5 semaines Analystes de données, rédacteurs d’items et responsable de la conception de tests Un délai supplémentaire sera nécessaire si les items doivent être traduits dans d’autres langues. INTRODUCTION | 9 également un certain nombre d’indicateurs ou observations communs à plus d’un aspect de l’évaluation : ils sont rappelés afin d’aider le lecteur concerné par un seul aspect de l’évaluation nationale. Des informations supplémentaires sur l’élaboration des tests et questionnaires sont fournies dans le tableau 1.1. Ce dernier décrit les huit étapes du processus de construction des tests et questionnaires de performance, et désigne les responsables de ces activités. Le CD joint à ce volume propose de nombreux exemples d’items de tests et de questionnaires et de manuels d’administration de tests. Des détails supplémentaires sur le contenu du CD sont fournis dans l’annexe C. Ce support issu des évaluations nationales et internatio- nales permet aux équipes d’évaluation nationale de se familiariser avec les items et types d’items dans un certain nombre de domaines des programmes, et avec les questionnaires destinés aux élèves, ensei- gnants, établissements scolaires ou chefs d’établissement, et parents. CHAPITRE 2 ÉLABORATION D’UN CADRE D’ÉVALUATION Un cadre d’évaluation fournissant un schéma ou un plan directeur de l’élaboration des tests d’évaluation, des question- naires et procédures est crucial pour déterminer les contenus de l’évaluation (Linn et Dunbar, 1992 ; Mullis et autres, 2006). Un tel cadre permet de bien comprendre le construct évalué (par exemple, la performance en lecture ou en mathématiques) et les différents pro- cessus associés à ce construct. Il doit comprendre une définition de ce qui est évalué, identifier les caractéristiques des tâches qui vont rentrer dans l’élaboration du test, et fournir une base pour interpréter les résultats (Kirsch, 2001 ; Messick, 1987). Le cadre peut aider à expliquer l’objectif de l’évaluation. Il peut faciliter la discussion et la prise de décisions des parties prenantes de l’éducation en clarifiant les concepts clés avant le début de l’évaluation. Le cadre d’évaluation peut également identifier les variables clés susceptibles d’être asso- ciées aux scores des tests et permettre de s’assurer de leur intégration à la conception de l’évaluation nationale. Dès le départ, le comité directeur doit s’accorder sur une défini- tion de ce qu’il faut mesurer. Dans de nombreux cas, le docu- ment des programmes nationaux contiendra des définitions des 11 12 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES principaux domaines d’évaluation. Les définitions de la lecture, par exemple, ont varié au fil du temps et à travers les systèmes éducatifs. Dans certains cas, la lecture a été assimilée à la capacité à prononcer les mots. Dans d’autres cas, la lecture se réfère à la capacité d’iden- tifier des mots différents et à donner leur signification. La lecture a également été définie comme la capacité à comprendre ou à saisir le sens d’un texte. Des définitions plus récentes vont au-delà des simples compétences de déchiffrage et comprennent l’aptitude à utiliser l’information du texte autant qu’à développer une compré- hension de ce dernier. Elles reconnaissent également que les élèves et les adultes lisent dans des buts très variés, par exemple pour le plaisir ou s’informer. Ces nouvelles définitions se reflètent dans les tests qui comprennent différentes formes de textes, tels que des nouvelles, des extraits de journaux, des publicités, des panneaux et des tableaux. Le but de la collecte des données doit être clair lors de l’élabora- tion du test. La consultation en amont des principales parties prenantes et groupes d’experts constitue une première étape déci- sive pour clarifier l’objectif d’une évaluation nationale, et par conséquent, ce que le test doit évaluer, qui et quand évaluer, et dans quelle langue administrer les tests. Les spécialistes des programmes de cours doivent être impliqués dans ces décisions, ainsi que les responsables des politiques et de l’éducation, qui seront en mesure d’utiliser les résultats de l’évaluation comme base pour la politique éducative, l’allocation des ressources et la mise en œuvre des réformes. Les évaluations nationales peuvent être des outils puissants pour évaluer l’efficacité de certains aspects des programmes de cours. Des évaluations bien conçues peuvent également servir les objectifs des programmes en modélisant les types de savoirs et de compré- hension que les élèves doivent être capables de montrer. Ces types de savoirs et les contextes dans lesquels ils sont évalués doivent contribuer ensemble aux objectifs généraux des politiques éduca- tives dans des domaines clés de l’apprentissage. Les exemples de contextes généraux d’évaluations nationales figurant dans les encadrés 2.1 et 2.2 reflètent un certain nombre de priorités éducatives. ÉLABORATION D’UN CADRE D’ÉVALUATION | 13 ENCADRÉ 2.1 Programme de mathématiques en Papouasie-Nouvelle- Guinée Le programme culturel de mathématiques élémentaires de 2003 de Papouasie-Nouvelle-Guinée se justifie de la manière suivante : Tous les citoyens ont le droit de participer au développement futur de la Papouasie-Nouvelle-Guinée. C’est pourquoi les élèves doivent développer des savoirs mathématiques, des savoir-faire, et une compréhension satisfaisants .… Les élèves du niveau élémentaire seront en mesure de relier les nouveaux concepts mathématiques des cinq domaines d’étude de ce cursus à leur savoir culturel existant, de manière à pouvoir appliquer avec assurance les mathématiques dans leur vie quotidienne. Les cours de ce programme de mathématiques élémentaires fournissent de nombreuses opportunités pour un apprentissage utile et ciblé, fondé sur les principes de la vie domestique. (Papouasie-Nouvelle-Guinée, Département de l’Éducation, 2003: 2) L’objectif de cette justification (ainsi que les documents de politique ministériels et une importante réorganisation de l’éducation primaire et pré-primaire) est d’intégrer les mathématiques du primaire dans la culture communautaire des élèves. Des réformes ont privilégié l’intégration des mathématiques du primaire dans la culture locale et l’application des raisonnements mathématiques à la vie quotidienne. Une évaluation nationale récente destinée à suivre la performance des élèves a mis l’accent sur l’utilisation de contextes réalistes pour les questions et l’évaluation des savoirs et des raisonnements ayant des applications pratiques. LE PLAN DÉTAILLÉ DU TEST OU TABLEAU DES SPÉCIFICATIONS Le plan détaillé du test, ou tableau des spécifications, est le document crucial qui guide l’élaboration des tests, l’analyse et la rédaction des rapports. Il décrit les données à collecter, définit la longueur du test, et précise la proportion des items d’un test devant traiter des diffé- rents aspects d’un programme de cours. Un bon plan détaillé doit indiquer les éléments suivants : • La proportion d’items du test définitif traitant chaque domaine du programme de cours (par exemple, les mathématiques, la langue, les sciences) 14 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 2.2 Programme d’anglais en Nouvelle-Zélande Les objectifs généraux du programme d’anglais en Nouvelle-Zélande affirment : Les élèves doivent être capables d’utiliser et d’apprécier la langue dans toutes ses variantes [et] de comprendre, répondre, et utiliser la langue orale, écrite et visuelle efficacement dans des contextes variés. (Nouvelle- Zélande, ministère de l’Éducation, 2002: 9) Ces objectifs mettent en évidence l’importance de l’intérêt et du plaisir dans la lecture ainsi que de la compréhension de textes très variés. Le recours à des textes et des tâches agréables et riches de sens est un aspect essentiel à considérer dans les évaluations de l’anglais au niveau du système. L’accent mis sur la langue dans toutes ses variantes reflète un engagement solide pour la reconnaissance et la valorisation de la culture orale des élèves maoris ainsi que des formes écrites de l’anglais. Différentes évaluations nationales reflètent ces objectifs. • La proportion d’items dans un domaine du programme qui éva- luent différents savoir-faire (par exemple, en mathématiques, le nombre, la mesure, l’espace et le modèle ; en composition, les idées, la connaissance du contenu, la structure, le style, le vocabulaire, l’orthographe et la grammaire) • La proportion d’items qui évaluent différents aspects du processus cognitif (comme les savoirs ou la mémoire, l’interprétation ou la réflexion) • La part des items à choix multiple et à question ouverte • La part des items consacrés à des textes de stimulus de différents types pour la lecture (par exemple narratifs, informatifs, procédu- raux et argumentatifs) ou les mathématiques (tableaux, graphiques et diagrammes) Le plan détaillé de test dans le tableau 2.1 se fonde sur un pro- gramme de mathématiques pour les niveaux moyens de l’enseigne- ment primaire. Des sous-tests différents ont été conçus pour mesurer l’aptitude des élèves à réaliser des calculs simples, à comprendre des notions mathématiques et à résoudre des problèmes. Par exemple, la cellule formée par l’intersection de la zone de contenu « Fractions » TABLEAU 2.1 Plan détaillé d’un test de mathématiques de cycle moyen Comportements intellectuels Calcul Notions Résolution de problèmes Capacité à Capacité à transposer lire et des interpréter Capacité à Capacité à Capacité à éléments des résoudre Capacité résoudre Connaissance effectuer Compréhension Compréhension Compréhension d’une graphiques des d’analyse et des des termes et des des notions des principes de la structure forme à et des problèmes de problèmes Domaines de des réalités opérations mathématiques mathématiques mathématique une autre diagrammes courants comparaison inhabituels Total contenu (A1) (A2) Total (B1) (B2) (B3) (B4) (B5) Total (C1) (C2) (C3) Total global 1. Nombres 1 25 26 1 4 7 2 4 18 14 2 2 18 62 entiers 2. Fractions 4 4 4 1 2 7 5 5 16 3. Décimaux 8 8 5 1 6 5 5 19 4. Mesure 2 2 3 2 5 3 3 10 5. Géométrie 0 2 2 4 0 4 6. Tableaux et 0 0 4 4 4 graphiques Total global 3 37 40 7 7 14 5 7 40 27 6 2 35 115 Source : Centre de recherche sur l’éducation, 1978, 44. 15 16 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES et du comportement intellectuel « Capacité à résoudre des problèmes courants » représente l’objectif « Capacité à résoudre des problèmes courants impliquant des fractions ». Un comité de spécialistes de matières comprenant des enseignants a décidé de consacrer cinq items à cet objectif. C’est la cellule contenant des items sur la capacité à effectuer des opérations avec des nombres entiers qui a reçu la plus grande pondération (25 items). De nombreuses cellules ne conte- naient aucun item. L’importance relative accordée à chaque objectif a guidé l’élaboration du test et, par la suite, la compilation de la version définitive du test. Le plan détaillé du test de mathématiques élaboré par l’Enquête TIMSS1 et présenté dans le tableau 2.2 définit de manière légère- ment différente les formats de l’item et les processus cognitifs à éva- luer pour les 3e et 4e années. Il apparaît clairement que les plans détaillés varient en fonction de la compréhension du construct mesuré et de l’objectif de l’évaluation. Toute personne participant à l’élaboration d’un test doit comprendre et approuver les implications du plan détaillé quant à ce qui doit être testé et ce qui doit être écarté. Les contraintes de temps et de ressources font qu’il est impossible de tester chaque subdivision d’un programme de cours ou toutes les matières d’un cursus. Les items de tests doivent toujours porter sur des savoir-faire fondamentaux. Les spécialistes des programmes de cours ou des matières doivent être consultés pour déterminer quels TABLEAU 2.2 Plan détaillé de TIMSS de mathématiques, 3e et 4e années Nombre Items à Items à Items à Attentes relatives à la total choix réponse réponse performance d’itemsa multiple courte libre Savoir 42 35 7 0 Réalisation de processus 16 13 3 0 courants Utilisation de processus 24 21 2 1 complexes Résolution de problèmes 20 10 3 7 Source : IEA, http://timss.bc.edu/timss1995i/TIMSSPDF/AMitems.pdf. a. Le nombre d’items reflète la batterie complète d’items utilisée pour former 26 groupes de tests dans huit carnets de tests différents. Aucun élève n’a été tenu de passer le test complet. ÉLABORATION D’UN CADRE D’ÉVALUATION | 17 savoir-faire sont fondamentaux. L’importance accordée dans le proto- type de l’évaluation nationale à des subdivisions ou domaines d’un programme dépend également de la façon dont les données du test seront publiées (par score global ou par domaine du programme de cours). Les responsables des politiques éducatives doivent être consul- tés pour savoir de quelle manière ils souhaitent que les données du test soient publiées. S’il est prévu de publier les données du test sous la forme d’un score global pour chaque élève dans un domaine du programme de cours, tel que les mathématiques, alors 25 ou 30 items au moins sont nécessaires. Des données sur un nombre légèrement inférieur d’items peuvent être requises pour évaluer une subdivision du programme de cours, comme la compréhension de l’espace ou la résolution d’un problème par les élèves dans un test de mathématiques. Le tableau 2.3 fournit un exemple de tableau de spécifications du contenu d’un test de mathématiques pour des élèves de 3e, 5e, et 8e années en Papouasie-Nouvelle-Guinée. Il convient de noter que dans le test de 3e année, plus de 80 % des items portent sur les nombres et leur application, l’espace et les formes, et la mesure. Seuls quatre items traitent des probabilités et des modèles. En 8e année, les items sont répartis plus uniformément entre chacune des subdivisions. Les plans détaillés s’appuient généralement sur le programme prescrit (ou prévu). Cependant, si le programme de cours mis en œuvre (ce que les enseignants enseignent) et le programme acquis (ce que les élèves ont appris) ne sont pas pris en compte, le test peut se révéler trop difficile ou trop facile. Par conséquent, il ne fournira pas une description significative de l’éventail des performances des élèves TABLEAU 2.3 Plan détaillé de contenu en mathématiques en Papouasie-Nouvelle-Guinée Nombre et Espace Modèles Total des Année application et formes Mesure Probabilités et algèbre items 3e 10 7 4 2 2 25 e 5 10 10 7 4 4 35 8e 10 10 8 6 6 40 Source : Document inédit du Département de l’Éducation de Papouasie-Nouvelle-Guinée. a. L’algèbre s’applique uniquement à la 8e année. 18 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES dans la population cible. Si la plupart des élèves ne répondent pas correctement aux items, le test ne montrera pas s’ils sont capables de prouver des savoir-faire situés juste au-dessous ou très au-dessous du degré de difficulté des items du test. De même, si la plupart des élèves répondent correctement à tous les items, le test n’indiquera pas s’ils sont capables de prouver des savoir-faire situés juste au-dessus ou très au-dessus de la difficulté des items du test. Les données provenant de tests trop difficiles ou trop faciles sont d’une utilité limitée pour les responsables des politiques, les établissements scolaires ou les enseignants. La difficulté du test dépend de son objectif. Si l’objectif est de suivre la performance de tous les élèves dans la population cible, alors la répartition de la difficulté des items du test doit correspondre à la répartition des performances de la population cible. En règle générale, les deux tiers du test doivent se composer d’items auxquels les deux tiers de la population ont entre 30 et 70 % de probabilités de répondre correctement. (En moyenne, les probabilités doivent être de 50 % afin d’optimiser la variation des scores obtenus par les élèves aux tests). Le tiers restant du test doit présenter une répartition uniforme entre des items auxquels plus de 70 % des élèves sont susceptibles de répondre correctement et des items auxquels moins de 30 % sont susceptibles de répondre correctement. S’il est important de tenir compte des per- formances des élèves reflétées par ces chiffres, cela ne doit pas conduire à l’exclusion de domaines importants du programme pour la seule raison que les élèves y obtiennent des résultats très médiocres ou très bons. L’adéquation des items doit être avérée par un pro- gramme de pré-test dans lequel les items sont administrés à des élèves aux caractéristiques similaires à celles de la population cible de l’éva- luation nationale. Certaines évaluations nationales fixent des niveaux d’acquis ou de performance fondés sur une norme préétablie, et identifient les élèves qui ont répondu à cette norme. Si la norme est très élevée, le test identifiera le petit nombre d’élèves prouvant ce niveau de compé- tence, mais il fournira peu d’information sur le niveau d’acquis du reste de la population, excepté le fait que le niveau est inférieur à la norme. Si la norme est faible, le test identifiera le grand nombre d’élèves qui prouvent ce niveau de compétence, mais il fournira peu ÉLABORATION D’UN CADRE D’ÉVALUATION | 19 d’information sur tout autre niveau supérieur de compétences que ces élèves pourraient également avoir atteint. VALIDITÉ La validité est un construct large qui implique de faire des interpréta- tions et des utilisations appropriées des scores ou de l’information fournie par le test (Messick, 1989). Un aspect de la validité est la mesure dans laquelle le contenu d’un test est représentatif du pro- gramme de cours ou du construct mesuré. Le responsable de la conception du test est chargé de travailler en coordination avec un groupe de référence nommé et constitué de spécialistes des matières, tels que des spécialistes des programmes de cours, pour s’assurer que les items représentent un échantillon adéquat d’un programme ou d’un construct. Les rédacteurs d’items ne doivent pas faire partie du groupe d’experts. Dans ce cas, la validité est une question de juge- ment, non de statistique. Le groupe d’experts doit déterminer si le test couvre une matière précise de manière adéquate (tel que les mathématiques de 4e année), et vérifier si la performance lors du test fournit des preuves adéquates des acquis des élèves dans la matière. LANGUE DU TEST Le cadre d’évaluation du test doit préciser et justifier la ou les langues à employer lors des tests d’évaluation nationale. La langue d’un test est généralement la langue d’enseignement. La traduction des items de test, dans les cas où l’enseignement est assuré en plusieurs langues, est généralement coûteuse et longue. Les versions traduites des tests doivent être aussi équivalentes que possible si les données sont desti- nées à être utilisées à des fins de comparaison. Si une matière particu- lière du programme de cours doit être testée dans une ou plusieurs langues, il faut tenir compte des aspects suivants : • Si les ressources sont limitées, il peut être préférable d’évaluer les élèves les plus âgés dans une langue d’enseignement commune. 20 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • La réduction au strict minimum des mots employés dans les items du test peut entraîner une baisse des coûts de traduction, mais généralement, elle contribue aussi à décontextualiser l’item, et à lui ôter de son authenticité. • Il peut être préférable d’exclure certains élèves de la population cible de l’évaluation nationale au lieu d’essayer de s’adapter à tous les groupes linguistiques. • Il arrive que la langue d’enseignement prévue ne soit pas la langue réellement utilisée à l’école. En pareil cas, les items du test d’évalua- tion nationale peuvent employer la langue d’enseignement réelle. • Dans le cas des élèves plus jeunes, en particulier lorsque la langue d’enseignement n’est pas leur première langue, le test peut être administré oralement. L’administrateur du test lit chaque question à voix haute ou la fait écouter sur un magnétophone, et donne aux élèves suffisamment de temps pour y répondre. Cette forme d’aide peut être particulièrement appropriée pour les tests de mathéma- tiques et de sciences administrés aux élèves plus jeunes, qui peuvent être capables de montrer une plus grande maîtrise du sujet lors d’un test oral que lors d’un test requérant de lire les items tout seuls. Il est par ailleurs évident que les tests destinés à évaluer les compétences individuelles des élèves dans le domaine de la lecture ne doivent pas être administrés oralement. FORMAT DES ITEMS Lors des évaluations effectuées avec papier et stylo, les élèves répondent à un ensemble de questions ou déclencheurs. Leurs réponses écrites ou dessinées sont utilisées pour prouver leur niveau de connaissances, de compétence ou de compréhension. Il existe quatre formats d’items de base, ou manières dont les élèves peuvent montrer leurs réponses : • À choix multiple • À réponse construite fermée • À réponse courte ouverte • Composition écrite ou réponse libre ÉLABORATION D’UN CADRE D’ÉVALUATION | 21 ENCADRÉ 2.3 Exemples d’items à choix multiple 1. Lequel des éléments suivants est le plus susceptible d’être mesuré en millilitres ? A. La quantité de liquide dans une cuillère à café B. Le poids (masse) d’une épingle C. La quantité d’essence dans un réservoir D. L’épaisseur de 10 feuilles de papier Source : IEA 1998, échantillon d’item. Note : La bonne réponse est A. 2. Une bouteille de jus de pomme coûte 1,95 dollar. Le pain coûte 2,75 dollars. Lequel des éléments suivants est le plus petit montant nécessaire pour acheter le jus de pomme et le pain ? o 3,75 dollars o 4,00 dollars o 4,80 dollars o 5,00 dollars Source : Australian Council for Educational Research n.d., échantillon d’item. Note : La bonne réponse est 4,80 dollars. Dans les items à choix multiple (voir l’encadré 2.3), les élèves doivent choisir une option parmi d’autres (généralement quatre au total). Les options peuvent être écrites ou illustrées sous forme d’images identifiées. Elles peuvent être énumérées l’une sous l’autre, présentées sur une ligne horizontale, ou réparties sur deux colonnes. Les élèves indiquent leur réponse en coloriant une bulle, en entourant une lettre de l’alphabet ou un chiffre, ou en cochant une case pour sélectionner un texte ou un diagramme. Les items à choix multiple contiennent une option clairement « correcte » et plusieurs options plausibles, mais incorrectes. Le CD joint contient de nombreux exemples d’items à choix multiple en langue, mathématiques et sciences pour les élèves de l’enseignement primaire et post-primaire. Les items à réponse construite fermée (voir l’encadré 2.4) contiennent une réponse correcte, produite par l’élève. Des variations mineures dans la manière dont la réponse est présentée sont généralement accep- tables. Il peut être demandé aux élèves d’écrire un ou deux mots, de souligner un mot ou un chiffre dans un texte ou un tableau, de dessiner une ligne dans une grille, ou d’indiquer une zone dans un diagramme. 22 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 2.4 Exemple d’item à réponse construite fermée Voici une phrase mathématique : 2 000 + _____ + 30 + 9 = 2 739 Quel chiffre faut-il mettre sur la ligne _____ pour que la phrase soit vraie ? Réponse : ____________ Source : IEA 1998, échantillon d’item. ENCADRÉ 2.5 Exemples d’items à réponse courte ouverte a. Comment pouvez-vous déterminer l’âge d’un arbre une fois qu’il est coupé ? b. Écrivez un exemple montrant la façon dont les machines aident les personnes à faire leur travail. Source : IEA 1998, échantillon d’item. Dans les items à réponse construite fermée, il peut également être demandé aux élèves de sélectionner plusieurs options qui remplissent certains critères, ou de relier un ensemble de paires de phrases ou de diagrammes (voir par exemple, les items 6, 9, 11, et 19 du CD dans le Test de mathématiques NAEP 1990–2000 de 4e année et les items S011032 et S031053 dans le Test de sciences de 4e année TIMSS 2003). Dans les items à réponse courte ouverte (voir l’encadré 2.5), les élèves doivent produire une réponse qui peut avoir plusieurs options différentes mais correctes. Généralement, la bonne réponse requiert une explication, la démonstration d’un processus, ou un dessin détaillé (plus d’une ligne ou deux). Elle peut exiger de l’élève d’écrire une ou deux phrases ; de compléter un ensemble d’étapes ou d’équations ; ou de compléter plusieurs aspects d’un graphique, d’un schéma ou d’un ÉLABORATION D’UN CADRE D’ÉVALUATION | 23 diagramme (voir, par exemple, les items 6, 7, et 11 du CD dans « Annexe B : Sauvetage des dauphins », Exemples d’items de lecture, niveau international de 4e année, PIRLS 2006.) Dans les items à composition écrite ou réponse libre (voir l’encadré 2.6), les élèves doivent développer une réponse longue, et parfois complexe, à un déclencheur. La réponse peut comprendre une ou plusieurs pages de texte et inclure éventuellement des diagrammes. ENCADRÉ 2.6 Exemple d’un déclencheur de composition écrite Les déclencheurs de composition écrite peuvent être écrits ou illustrés. Il est important que les élèves comprennent quel type de composition écrite est demandé. Par exemple, ils peuvent devoir expliquer leurs idées, exprimer une opinion, écrire un article convaincant, ou une histoire. Cette information est généralement fournie dans les instructions d’administration du test. Le dessin déclencheur présenté dans l’exemple suivant a été utilisé en Papouasie-Nouvelle-Guinée pour évaluer les savoir-faire linguistiques des élèves dans la rédaction d’un récit. L’administrateur du test a indiqué aux élèves qu’ils pouvaient utiliser les idées du dessin ou réfléchir à leurs propres idées pour écrire une histoire sur la chasse. Écrivez une histoire sur une partie de chasse. Source : Département de l’Éducation, Papouasie-Nouvelle-Guinée, 2004. 24 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Il existe de nombreuses manières de répondre « correctement » dans une composition écrite ou une réponse libre (voir par exemple la question 9 du CD, « Un juge juste », Items de lecture du Programme international PISA de lecture 2000, et items 33, 35, et 39 dans compré- hension de l’écrit, NAEP, 1990 à 2006 : 4e année.) Les trois premiers formats d’items sont les plus couramment utili- sés dans les évaluations nationales, en partie à cause du coût d’une notation manuelle fiable d’un grand nombre de compositions écrites. Le cadre d’évaluation du test doit indiquer les pourcentages estimés des différents types d’item dans le test définitif. Il doit également comprendre des échantillons de types d’items pour aider les membres du comité directeur et d’autres parties prenantes à se familiariser avec l’approche de l’évaluation. Le choix du format des items et la manière dont ils sont notés ont des répercussions significatives sur le coût total du test. Les items notés manuellement sont plus onéreux et plus longs à noter, et retardent la publication d’un rapport. Des guides de notation manuelle doivent être mis au point, et des correcteurs recrutés et formés. Plus les guides de notation sont complexes, plus les coûts sont élevés. Ce sont généralement les items à composition écrite ou à réponse libre qui coûtent le plus cher. La notation des items à choix multiple est moins onéreuse, mais leur construction est plus coûteuse. Certains aspects des coûts à prendre en compte dans le choix des formats d’items sont décrits ci-dessous. Les items à choix multiple sont généralement notés correct ou incor- rect par le logiciel d’analyse des données. Il n’est pas nécessaire de noter les items avant l’analyse. Il suffit de saisir les réponses des élèves sur ordinateur, soit en les scannant, soit manuellement. Le scan est la solu- tion la plus économique pour les tests à grande échelle. Il requiert un équipement spécial et parfois un soutien technique. Les items scannés peuvent être limités à un format de réponse particulier (tel que les bulles à colorier). Une plus grande variété de styles de choix multiple (entourer les mots, cocher les cases ou tracer des traits pour sélection- ner les options) peut être utilisée si la saisie des données est manuelle. Les items à choix multiple ne doivent pas être notés simplement correct ou incorrect avant l’analyse des données. Des informations précieuses de diagnostic sur la performance des élèves peuvent être ÉLABORATION D’UN CADRE D’ÉVALUATION | 25 obtenues en enregistrant chaque option. Si les données sont scannées, il faut s’assurer que toutes les réponses sont enregistrées. Il est pos- sible de réduire le coût de la saisie manuelle des données pour les items à choix multiple en utilisant une mise en page cohérente. Les items à réponse construite fermée doivent être notés manuel- lement parce que plusieurs réponses différentes peuvent être accep- tables. Les guides de notation doivent préciser la gamme de réponses acceptables et inacceptables. Généralement, l’éventail des options correctes possibles pour les items à réponse construite fermée est limité. Les guides de notation sont relativement simples et le temps de formation du correcteur peut être raisonnablement court, mais des contrôles de qualité doivent être mis en œuvre et réguliers. Les items à réponse courte ouverte sont notés manuellement. Le nombre et l’éventail de réponses acceptables et inacceptables peuvent être importants. Par conséquent, les guides de notation peuvent être assez complexes et exiger une formation rigoureuse du correcteur. Une contre-vérification menée lors de la correction est essentielle pour le contrôle de la qualité. Les items à réponse libre ont des guides de notation complexes, et une formation poussée du correcteur est nécessaire. La double correc- tion d’une partie ou de la totalité des textes durant la notation est essentielle pour le contrôle de la qualité. Les guides de notation nécessitent également une élaboration importante à des fins de for- mation. Ils doivent comprendre des exemples de réponses conformes à chaque niveau du guide de notation. Différents formats d’item peuvent être combinés dans le même test. Par exemple, un test peut se composer de plusieurs items à choix multiple, de quelques items à réponse construite fermée, et de quelques items à réponse courte ouverte. Les rédacteurs d’items doivent s’efforcer de faire en sorte que le format de chaque item de test permette d’évaluer convenablement et efficacement la compréhension d’un résultat de l’apprentissage parti- culier. Ils doivent également tenter de limiter au maximum la quan- tité requise d’éléments inutiles à lire, à écrire ou à calculer pour répondre à un item précis. Les décisions concernant les types et la proportion des formats à utiliser dans un test doivent dépendre à la fois de leur pertinence pour 26 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES mesurer un construct ou un domaine de savoir ou de savoir-faire et de contraintes pratiques, telles que l’expertise nécessaire à la mise au point des différents formats d’items et le coût de la notation manuelle. Le tableau 2.4 résume quelques avantages et limites des formats d’items. TABLEAU 2.4 Avantages et limites des formats d’items Format des items Avantages Limites À choix • De nombreux items • Une expertise est multiple permettent d’évaluer un nécessaire pour mettre au large éventail de résultats en point des items de grande un seul test. qualité. • Les items peuvent faire des • Les élèves n’ont pas à distinctions subtiles dans les prouver une savoirs et la compréhension compréhension. des élèves. • Les élèves peuvent deviner • La notation manuelle n’est pas la réponse. exigée, l’évaluation est donc relativement peu coûteuse. À réponse • Les élèves placent ou • Les items portent construite restituent eux-mêmes généralement sur un fermée l’information. éventail limité de résultats (réponse en un • La notation manuelle est (principalement l’extraction ou deux mots) relativement simple. et la mémoire). À réponse • Il est possible de demander • Une expertise est courte ouverte aux élèves de prouver des nécessaire pour rédiger des (réponse en niveaux élevés de items clairement ciblés. une ou deux compréhension. • Des correcteurs formés et phrases) • Les items peuvent porter sur des mesures de contrôle de un large éventail de qualité sont nécessaires, ce résultats. qui alourdit les coûts. • Il est parfois possible de • Les items exigeant un mesurer des niveaux de temps de réponse plus compréhension partielle. grand, l’éventail des résultats pouvant être évalués s’en trouve réduit. À composition • Les élèves peuvent prouver • Un éventail limité de écrite ou une compréhension résultats peut être évalué. réponse libre approfondie. • Des correcteurs formés et • Il est possible de mesurer des mesures de contrôle de un large éventail de niveaux la qualité sont nécessaires, de compréhension partielle. ce qui alourdit les coûts. ÉLABORATION D’UN CADRE D’ÉVALUATION | 27 TABLEAU 2.5 Formats des items de tests de mathématiques en Papouasie-Nouvelle-Guinée Année À choix multiple À réponse courte ouverte e 3 20 5 e 5 25 10 8e 25 15 Source : Département de l’Éducation de Papouasie-Nouvelle-Guinée, 2004. Les tests de mathématiques de Papouasie-Nouvelle-Guinée varient le ratio de questions à choix multiple par rapport aux questions à réponse courte ouverte, en fonction du niveau évalué (voir tableau 2.5). Il y a davantage d’items pour la 8e année que pour la 3e. Cette augmentation est due en grande partie à un plus grand nombre d’items à réponse courte ouverte. Le temps accordé aux élèves pour faire un test doit être suffisant pour permettre à la plupart d’entre eux de tenter de répondre au maximum d’items. Il est important de collecter des informations sur le temps mis par les élèves à répondre aux items du pré-test ou du test de terrain. Les tests varient en longueur, mais les élèves doivent être capables de tenter de répondre à la grande majorité des items en 40 minutes environ. Les tests composés principalement d’items à choix multiple peuvent compter plus d’items que les tests composés essentiellement d’items à réponse courte. Les tests pour les élèves du secondaire peuvent comprendre plus d’items, et il est possible d’ac- corder plus de temps aux élèves pour réaliser le test. Si les élèves ne sont pas familiarisés avec les formats d’items d’une évaluation, ils auront probablement besoin de plus de temps pour y répondre. POPULATION SCOLAIRE À ÉVALUER Le cadre d’évaluation du test doit définir la population cible de l’éva- luation (par exemple, les élèves de 4e année), et les raisons qui ont présidé à ce choix. Dans un pays donné, le cadre d’évaluation peut par exemple justifier son choix de la 3e année par le fait qu’après ce niveau, un taux important d’abandon scolaire a été enregistré ; il peut justifier son choix d’évaluer les élèves de 4e année par le fait qu’à ce 28 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES niveau, la plupart doivent être capables de lire ; ou il peut justifier l’évaluation du dernier niveau de l’enseignement primaire par la volonté d’évaluer les acquis des élèves à ce moment important du parcours éducatif. Le document de référence peut également préciser les sous-populations d’élèves pouvant être exclues de l’échantillon national, comme les élèves ayant des besoins éducatifs spéciaux ou les élèves scolarisés dans de petits établissements scolaires des zones reculées. PUBLICATION DES RÉSULTATS Dès le départ, un accord doit être conclu avec le comité directeur sur la façon dont les résultats doivent être publiés. L’Évaluation natio- nale de la lecture en anglais en Irlande a publié des scores distincts en fonction du type de texte et du processus cognitif. Le cadre de cette évaluation proposait d’évaluer deux échelles selon le type de texte (littéraire et informatif) et deux échelles de processus (extraction et déduction-interprétation) pour les élèves de 1re année. En 5e année, il proposait d’évaluer trois sous-échelles selon le type de texte (littéraire, informatif-continu, et informatif-non continu) et trois échelles selon le processus (extraction, déduction, et interprétation- évaluation) (Eivers et coll., 2005). L’Enquête internationale sur l’alphabétisation des adultes a utilisé des textes non continus pour évaluer la performance par rapport au type du document. Le cadre du Programme international de recherche en lecture scolaire (PIRLS – Progress in International Reading Literacy Study) précisait qu’il évaluerait les items des tests selon deux objectifs de lecture : la lecture pour l’expérience littéraire et la lecture pour obtenir et utili- ser des informations. Il proposait également de combiner ces deux échelles et de donner un score global de compréhension de l’écrit (Campbell et coll., 2001). Le comité directeur doit savoir que la publication des résultats par sous-échelles dépend des résultats de l’analyse des items. Les évalua- tions internationales et de nombreuses évaluations nationales uti- lisent la modélisation des réponses aux items pour déterminer si les items de tests sont en adéquation avec les sous-échelles. À ce stade, ÉLABORATION D’UN CADRE D’ÉVALUATION | 29 il est possible de fournir au comité directeur une initiation non tech- nique à la notion de publication des résultats par niveaux de perfor- mance, généralement désignés comme niveaux de compétence et de demander à ses membres leur préférence quant à la méthode de publication des tests. La performance des élèves peut être décrite en termes de pourcentage des items auxquels ils ont répondu correcte- ment, ou en termes de niveaux tels que le niveau avancé (norme attendue dépassée), compétent (norme attendue atteinte), élémentaire (norme attendue non atteinte), ou inférieur au niveau élémentaire (performance inférieure au niveau élémentaire). Le nombre de niveaux de compétence est susceptible d’être ajusté suite à l’analyse du pré-test et du test définitif. Le volume 4 de cette série, Analyser les données issues d’une évaluation nationale des acquis scolaires, aborde la théorie de la réponse à l’item (TRI) et les niveaux de compétence. Le cadre d’évaluation doit également indiquer les types de rap- ports d’évaluation nationale à publier au terme de l’évaluation. Ces rapports peuvent comprendre un rapport technique ; un ensemble de rapports de synthèse pour des publics spécifiques, tels que les forma- teurs d’enseignants, les concepteurs des programmes de cours et les responsables des politiques ; et des communiqués de presse et des réunions d’information. INFORMATIONS CONTEXTUELLES De nombreux responsables des politiques éducatives utilisent les éva- luations nationales pour rassembler des informations contextuelles supplémentaires sur des facteurs pouvant directement affecter ou influencer la qualité de l’apprentissage des élèves dans des domaines particuliers des programmes de cours. Le comité directeur doit four- nir une orientation générale pour la sélection des variables contex- tuelles à évaluer. Cette information peut à son tour être utilisée par l’organisme d’exécution pour guider l’élaboration du questionnaire. L’information contextuelle peut être particulièrement utile aux res- ponsables des politiques pour tenter de comprendre les raisons des écarts entre les niveaux de performance des élèves. 30 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES De nombreuses évaluations se concentrent sur les contextes fami- lial et scolaire. Les facteurs liés au milieu de vie comprennent généra- lement la situation socioéconomique, parfois mesurée par les biens possédés par la famille, le niveau d’éducation des parents, la langue parlée à la maison, la structure et la taille de la famille, la possibilité d’une orientation scolaire, les processus familiaux (tels que la lecture aux enfants et d’autres formes d’orientation qui encouragent l’ap- prentissage), et les rapports entre la famille et l’établissement sco- laire.2 Le contexte scolaire recouvre souvent les ressources de l’école et de la salle de classe, la gestion et l’organisation de l’établissement, la nature et le niveau de formation des enseignants, les stratégies pédagogiques, et l’environnement de la salle de classe. Certaines éva- luations rassemblent des données sur l’attitude des élèves par rapport aux matières et domaines spécifiques, les intérêts et le comportement des élèves (par exemple, le temps consacré aux tâches ménagères, à travailler, ou à lire pour le plaisir). Les détails sur la manière de conce- voir et rédiger les items du questionnaire sont abordés ultérieurement dans ce volume, et le CD joint contient des exemples d’items de questionnaires destinés à obtenir des informations contextuelles des élèves, des parents, des enseignants, et des chefs d’établissement. NOTES 1. Après la troisième enquête, cette série d’études a été intitulée Tendances de l’enquête internationale sur les mathématiques et les sciences (Trends in International Mathematics and Science Study), et c’est l’acronyme TIMSS qui a été conservé. 2. Noter que certains pays rechignent à collecter des données sur le contexte socioéconomique. CHAPITRE 3 RÉDACTION D’ITEMS Ce chapitre présente les caractéristiques d’un bon item de test, les lignes directrices à suivre pour la rédaction, la struc- ture et l’organisation des items en vue de réaliser un test, et leur cor- rection.1 Nous y détaillons également le rôle dans la conception des tests de toutes les parties prenantes — l’équipe de rédaction d’items et les autres réviseurs, qui travaillent sous la direction du responsable de la conception des tests. Gardons à l’esprit que la qualité d’un test repose en grande partie sur la manière dont il remplit son objectif en termes de clarté, et sur l’adéquation entre les items et les impératifs d’un plan détaillé bien conçu. Les bons items doivent être clairs et pertinents par rapport au programme de cours, et se concentrer sur un aspect unique de l’ap- prentissage. Ils fournissent des tâches stimulantes et authentiques qui conviennent à des élèves dont la langue et les antécédents culturels sont multiples. Un bon item comporte les caractéristiques suivantes : • Il aborde un domaine clé de l’apprentissage. • C’est une tâche constructive porteuse de sens. • Il peut renvoyer à des caractéristiques importantes énoncées dans les documents du cadre d’évaluation ou du plan détaillé. 31 32 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Il est juste. • Il suit des questions centrales dans le stimulus, et non des détails insignifiants ou accessoires. • Il indique clairement aux élèves ce qu’ils doivent faire. • Il se suffit à lui-même et ne dépend pas d’un raisonnement qui sous-tend un précédent item. • S’il porte sur le vocabulaire, il concerne le sens du mot dans son contexte textuel, et non des savoirs généraux. • Il doit être formulé de préférence à la forme affirmative ; les néga- tions tendent à semer le doute. Les rédacteurs d’items peuvent largement bénéficier de l’étude de modèles d’items pertinents d’excellente qualité. De nombreux orga- nismes en charge des tests publient des exemples d’items sur Internet. Les items de test diffusés auprès du public peuvent également prove- nir des tests internationaux, comme l’étude Tendances de l’enquête internationale sur les mathématiques et les sciences (TIMSS), le Programme international pour le suivi des acquis des élèves (PISA), le Programme international de recherche en lecture scolaire (PIRLS), ainsi que les évaluations nationales d’autres pays, comme l’Évaluation nationale des progrès de l’éducation (National Assessment of Educational Progress - NAEP) aux États-Unis. Le disque compact (CD) joint pro- pose de nombreux exemples d’items issus de ces sources et d’autres. Des adresses Internet sont fournies dans l’annexe B. Les items de tests diffusés auprès du public peuvent être utilisés dans d’autres tests, à condition que leur contenu et leur formulation soient appro- priés. Ce matériel peut être une source peu onéreuse et utile d’items de test, et ces items (avec leurs réponses) sont souvent accessibles sur Internet. Cependant, ils ne doivent pas être utilisés si les élèves peuvent y avoir accès avant de passer le test national d’évaluation. Des items appropriés de tests sécurisés – une approche moins coû- teuse que l’élaboration d’items – peuvent être également utilisés, à condition d’obtenir l’autorisation des autorités concernées. Les spé- cialistes des programmes de cours devront toutefois les étudier et les tester au préalable pour en déterminer l’adéquation. Le développement d’une expertise en rédaction d’items pour cha- cune des sections d’un plan détaillé nécessite du temps. Les rédacteurs RÉDACTION D’ITEMS | 33 d’items doivent avoir une compréhension commune de la terminolo- gie des items et de ce qu’ils sont censés mesurer. Pour comprendre ce principe, ils doivent tenter de classifier chaque projet d’item pendant son élaboration, à l’aide des critères suivants : • Format de l’item (par exemple, à choix multiple, à réponse construite fermée, ouverte) • Type de texte (pour un test de lecture) (par exemple, narratif, informatif) • Année scolaire visée (par exemple, 5e année) • Résultats de l’apprentissage (par exemple, addition de nombres entiers à deux chiffres ou identification du thème principal d’une narration) • Processus cognitif (par exemple, savoir, mémoire, interprétation, ou synthèse). Il n’est pas toujours possible de connaître le niveau du processus cognitif impliqué dans la réponse à un item. Si un processus n’est pas familier aux élèves, par exemple le résumé d’un paragraphe d’infor- mations, il peut exiger un niveau de traitement plus élevé que lorsque les élèves sont habitués à cette tâche. DEGRÉ DE DIFFICULTÉ DES ITEMS Pour la plupart des rédacteurs d’items, mesurer le bon niveau de diffi- culté d’un item est un véritable défi. Dans de nombreux pays, le contenu du programme visé est trop difficile pour la plupart des élèves. Les rédacteurs d’items doivent par conséquent rédiger de nombreux projets d’items pour mesurer des compétences plus faciles que ceux énoncés dans le programme visé. Par exemple, les tests de performance de mathématiques conçus pour la 5e année comprennent souvent des items visant des objectifs normalement maîtrisés en 3e et 4e années. Les enseignants confirmés sont probablement mieux placés que les fonctionnaires de l’éducation ou les universitaires pour évaluer cor- rectement le degré de difficulté des items, mais leur jugement, bien qu’utile, n’est pas suffisant. Le pré-test des items sur des échantillons d’élèves similaires à ceux de la population cible est essentiel pour 34 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES obtenir des données initiales objectives sur la difficulté des items. Cela permet d’éviter l’erreur courante consistant à concevoir des tests avec des items qui se révèlent beaucoup trop difficiles. De nombreux facteurs peuvent transformer des items considérés simples par les rédacteurs en items relativement difficiles. Parallèlement, certains items sciemment difficiles peuvent être formulés ou présentés de telle manière qu’ils se révèlent plutôt faciles. Dans le cas d’items à choix multiple, les rédacteurs doivent éviter les erreurs suivantes : • Introduire des indices grammaticaux ou logiques dans l’énoncé principal et la clé qui font allusion à la bonne réponse, comme par exemple un énoncé au singulier qui ne renvoie qu’à des options au pluriel, sauf une • Introduire des termes absolus, comme « toujours » ou « jamais », qui peuvent exclure certaines options ou renvoyer à la bonne réponse • Formuler la réponse correcte de façon beaucoup plus longue ou détaillée que les autres options • Inclure un mot ou une phrase clé du support de stimulus dans la bonne réponse mais pas dans les autres options • Énoncer des options dans un ordre illogique ou un schéma confus • Faire chevaucher les options et la clé de manière significative, de façon que la « meilleure » réponse soit obtenue grâce à des compé- tences linguistiques plutôt qu’à la connaissance du sujet testé • Inclure des questions auxquelles on peut répondre sans se référer au stimulus. Dans les formats à réponse construite, il est important d’élaborer des critères de correction clairs qui suggèrent ce que l’item vise à mesurer. BIAIS D’ITEMS Lorsqu’ils passent un test, les élèves représentent une diversité de savoirs culturels et de compréhensions. Ils ne doivent être ni pénalisés ni avantagés par manque d’une expérience de vie pertinente pour les savoirs, les savoir-faire et les compréhensions que le test cherche à évaluer. Par exemple, les items relatifs à un sport populaire masculin peuvent pénaliser les femmes. RÉDACTION D’ITEMS | 35 Les items peuvent être biaisés également s’ils froissent certains élèves et pas d’autres. Le support de stimulus ne doit pas offusquer des sensi- bilités éthiques, culturelles, ou autres. En aucun cas les élèves ne doivent se sentir offensés, effrayés, ou contrariés par le contenu d’un test. Le responsable de la conception des tests doit sensibiliser les rédacteurs d’items à différentes formes de préjugés. Les comités de révision doivent être encouragés à identifier les items de test ou de questionnaire biaisés ou pouvant heurter les sensibilités. Le quatrième volume de cette série, Analyser les données issues d’une évaluation nationale sur les acquis scolaires, présente une technique statistique destinée à identifier les items biaisés, tant à l’étape du pré-test qu’à l’étape finale. SUPPORT DE STIMULUS Le support de stimulus fournit le contexte d’un item. Il peut s’agir d’un texte, un diagramme, un graphique, un tableau, une carte, un organigramme, ou une combinaison de ces derniers. Dans la plupart des cas, la conception d’un test débute par la sélec- tion ou la création d’un support de stimulus approprié. Les tests de lecture sont habituellement basés sur des textes longs qui se prêtent à une série d’items ou à une unité qui aborde un éventail de compé- tences pertinentes. Les tests de mathématiques et de sciences peuvent inclure un support de stimulus court, comme des nombres à addition- ner ou une équation à compléter. Leurs items peuvent également comprendre un stimulus plus complexe, comme un graphique, un organigramme, un tableau, ou un diagramme avec une série d’items associés abordant un éventail de compétences. Le support de stimulus doit clairement présenter les principales caractéristiques à évaluer. Il ne doit pas contenir de détails superflus, répétitifs ou inutiles. Un bon support de stimulus doit comporter les caractéristiques suivantes : • Il est substantiel et vaut la peine d’être examiné attentivement. • Il est susceptible d’intéresser le public cible. • Il est bien rédigé et bien conçu. • Il présente un défi optimal, ni trop difficile ni trop facile. • Il ne présente pas de faux défis. 36 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Il est correct quant aux faits. • Il permet de creuser les questions. • Il se suffit à lui-même. Le cas échéant, il est important de fournir un contexte au support de stimulus, en utilisant un titre ou une brève introduction. Par exemple, l’extrait d’un roman de science-fiction sera présenté comme suit : « Ce texte est extrait d’un roman dont l’action se déroule dans le futur. » De préférence, les images doivent faire partie intégrante du sup- port de stimulus et en enrichir le sens. Si les images servent unique- ment d’illustration, elles ne doivent pas aider les élèves à comprendre le texte. Le support de stimulus crée parfois un contexte artificiel et inutile pour un item, comme dans l’encadré 3.1, qui contient un support non pertinent. Cet item porte réellement sur une surface. Dans la vie réelle, Irène ne serait pas préoccupée par la plus petite quantité de papier utilisée. Elle pourrait avoir besoin d’une petite quantité sup- plémentaire pour couvrir les bords. Les élèves les plus doués peuvent mal répondre à cet item en prévoyant une marge supplémentaire de papier. L’item serait mieux formulé ainsi : « La longueur d’un côté d’un cube est de 80 cm. Quelle est la surface du cube? » ENCADRÉ 3.1 Exemple d’un support de stimulus hors sujet Irene va emballer ce cube dans du papier. Quelle est la quantité minimum de papier qu’elle utilisera ? 80 cm RÉDACTION D’ITEMS | 37 Un stimulus visant à décrire un contexte réel doit être exact en termes de faits. Ainsi, les informations dans l’encadré 3.2 sont probable- ment inexactes du point de vue factuel. En général, les êtres humains ne présentent pas le type de schéma de croissance indiqué. Les enfants grands ont généralement une grande taille dès leur plus jeune âge. Si des schémas de croissance irréguliers sont nécessaires pour le support de stimulus, la référence à des plantes plutôt qu’à d’êtres humains est pro- bablement préférable à des fins de comparaison. Les items doivent être rédigés dans la langue la plus sobre et la plus claire possible. Leur formulation doit être suffisamment simple pour que les élèves puissent les lire : • Éviter un vocabulaire difficile. • Éviter des phrases longues. • Ne pas utiliser des phrases alambiquées. • Ne pas utiliser une logique complexe. ENCADRÉ 3.2 Exemple d’un item contenant des informations inexactes ou trompeuses Ce graphique montre l’évolution de la taille de Mario et Lita au cours de leur croissance. 160 Mario Taille (cm) 120 Lita 80 40 0 2 4 6 8 10 age (ans) 38 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Éviter les questions ambiguës ou vagues. • Éviter la double négation. • Éviter le manque d’homogénéité (par exemple, l’utilisation de dif- férentes unités de mesure dans les réponses ou des termes diffé- rents pour désigner une même chose). • Ne pas utiliser de formulation vague ou des termes insolites qui ne sont pas correctement définis. FORMAT DES ITEMS Deux principaux formats sont décrits : la réponse à choix multiple et la réponse courte (voir le chapitre 2).2 Pensez à utiliser un format à choix multiple : • pour limiter le nombre d’options • pour obtenir une réponse succincte • pour que les élèves ne soient pas tenus de copier des fragments importants du texte de stimulus • pour couvrir efficacement un large éventail de sujets. Pensez à utiliser un format à réponse courte (réponse à construc- tion fermée ou question ouverte) : • Afin de tester le sens que les élèves doivent produire pour eux-mêmes • Afin de tester différents niveaux de compréhension en utilisant un item à crédit partiel qui attribue la totalité du score à une réponse reflétant la compréhension d’une idée complexe et un score partiel à une réponse indiquant la compréhension d’une simple partie de l’idée • Afin de tester un éventail restreint et clairement définissable de réponses correctes possibles • Afin de chercher une réponse dans une situation où la réponse correcte serait clairement donnée dans un format à choix multiple en raison d’un manque d’options incorrectes plausibles. Les élèves doivent correctement maîtriser le vocabulaire et l’ex- pression pour répondre à des items de type réponse courte. N’utilisez RÉDACTION D’ITEMS | 39 pas des questions à réponse courte si les élèves sont susceptibles de copier d’importants fragments du support de stimulus. Rédaction des items à choix multiple Un item à choix multiple comporte un énoncé et plusieurs options de réponses. Parfois, lorsqu’une réponse « vrai/faux » est demandée, seules deux options sont nécessaires. Toutefois, ces items sont plutôt inefficaces. Il est plus courant de fournir quatre ou cinq options de réponses. La bonne réponse est la clé, et les mauvaises réponses sont les distracteurs (encadré 3.3). L’énoncé d’un item peut revêtir plusieurs formes, notamment : • Une phrase inachevée • Une question formulée de manière explicite • Une phrase contenant des informations à compléter (Carlos a________frères). Si l’énoncé est une phrase inachevée, elle doit contenir suffisam- ment d’informations pour indiquer la nature de la question. L’élève ne doit pas être tenu de lire les distracteurs pour déduire la question. Toutes les options d’une phrase inachevée doivent : • Être grammaticalement cohérentes avec l’énoncé • Être rédigées dans le même style ENCADRÉ 3.3 Exemple d’un item à choix multiple Tula a 3 fleurs. Papa lui donne 2 autres fleurs. énoncé Combien de fleurs Tula en tout ? A 2 B 3 distracteurs C 4 D 5 clé (bonne reponsé) 40 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Être correctement ponctuées • Commencer par une lettre minuscule et se terminer par un point. Voici des éléments importants pour la rédaction d’items à choix multiple : • Ponctuer correctement les phrases complètes. Dans l’encadré 3.4, toutes les options sont des phrases complètes avec une ponctuation appropriée. • Ponctuer correctement les listes. Dans l’encadré 3.5, les options sont des listes de mots. Ces options ne sont pas ponctuées. • Réduire le volume de lecture. Afin de réduire le volume de lecture requis, le rédacteur d’item doit insérer l’item au maximum dans l’énoncé (voir l’encadré 3.6). • Éviter des énoncés à la forme négative. Dans la mesure où un énoncé à la forme négative est source de confusion, il convient de l’éviter. ENCADRÉ 3.4 Ponctuation dans les phrases complètes Qu’a pensé Miho du marché ? A Il était bondé, et la nourriture était bonne. B Il n’était pas cher, et la nourriture était délicieuse. C La nourriture était bonne, mais il n’y avait personne. D Il n’était pas cher, mais la nourriture n’était pas très bonne. ENCADRÉ 3.5 Ponctuation dans une liste Combien de temps Joe séjournera-t-il à Bali chez son grand-père ? A une semaine B deux semaines C un mois D deux mois RÉDACTION D’ITEMS | 41 Si l’énoncé ne peut être exprimé qu’à la forme négative, faites res- sortir les marques de la négation « ne pas » en gras ou en italique (voir l’encadré 3.7). Si un énoncé à la forme négative est inévitable, les options ne doivent quant à elles jamais utiliser cette forme. • Varier l’utilisation de distracteurs appariés. Les méthodes de construction des distracteurs doivent varier tout au long du test afin que des schémas récurrents ne ressortent pas en vue d’aider l’élève. Par exemple, apparier la clé (B) avec son contraire (A) (encadré 3.8) n’est pas conseillé. Si le schéma de l’encadré 3.8 est récurrent dans le test, certains élèves aguerris comprendront qu’ils doivent considérer uniquement les distracteurs appariés (A et B). Une première solution consiste à rédiger certains items ENCADRÉ 3.6 Limitation de la lecture Combien de temps Joe séjournera-t-il à Bali chez son grand-père ? inadéquat adéquat Carl est allé Carl et sa famille sont allés A à la rivière avec sa famille. A à la rivière. B à la plage avec sa famille. B à la plage. C à la campagne avec sa famille. C à la campagne. D à la montagne avec sa famille. D à la montagne. ENCADRÉ 3.7 Item avec énoncé à la forme négative Qu’est-ce que les parents de Mario ont dit qu’il ne pouvait pas avoir à la maison ? A son chien B ses chaussures malodorantes C la couverture du cheval D un panier de fruits 42 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 3.8 Distracteurs mal appariés Tom n’aimait pas le manteau car il était A trop grand. B trop petit. C de la mauvaise couleur. D pas suffisamment chaud. ENCADRÉ 3.9 Traitement des paires dans les distracteurs Tom n’aimait pas le manteau car il était trop A grand. B léger. C petit. D lourd. dans lesquels la clé n’est pas l’un des contraires appariés. Une deuxiè- me solution consiste à inclure deux paires de contraires dans l’item, comme dans l’encadré 3.9. • Éviter l’utilisation de certains distracteurs. Les distracteurs contenant des mots comme toujours, jamais, aucune des réponses précédentes, et toutes les réponses précédentes doivent être évités car les élèves peuvent facilement les éliminer. • Utiliser un nombre approprié de distracteurs. Élaborez des items avec une clé et quatre distracteurs plausibles (cinq options au total), si possible, puis pré-testez tous les distracteurs. Utilisez les distracteurs dotés des meilleures propriétés statistiques (voir Volume 4, Analyser les données issues d’une évaluation nationale des acquis scolaires). RÉDACTION D’ITEMS | 43 • Varier l’emplacement de la clé. La position de la clé doit varier d’un item à l’autre. Toute position récurrente de la clé est à bannir. Les options peuvent être énoncées de la plus courte à la plus longue, ou de la plus longue à la plus courte, ou de manière aléatoire. Veillez à ce que la clé ne soit pas toujours l’option la plus longue. De bonnes options comportent les caractéristiques suivantes : • Elles ont la même longueur et sont rédigées dans le même style que la clé. La clé ne doit pas se distinguer des distracteurs par sa longueur, sa formulation ou une autre propriété superficielle. • Leur style varie d’un item à l’autre. Elles ne sont pas répétitives. • Elles ne donnent aucun indice de réponse à un autre item. • Elles ne comprennent pas de distracteurs partiellement corrects, comme des options appariées, dans lesquels chaque distracteur contient une option incorrecte et une option correcte. • Elles n’induisent pas en erreur, ou ne brouillent pas les pistes par manque de clarté ou ambiguïté. • Elles ne se chevauchent pas sur le plan sémantique. Les distrac- teurs doivent avoir des significations différentes les unes des autres, et ne pas être des synonymes. Une signification particulière dans un distracteur ne doit pas être constitutive du sens général d’un autre distracteur. • Elles comprennent une clé correcte incontestable ou une réponse exacte défendable et non simplement la meilleure des options présentées. • Elles contiennent des distracteurs incontestablement incorrects, bien que raisonnables et plausibles. Tout distracteur manifestement faux réduit le nombre de choix réels disponibles et ne contribue en rien à l’item. Rédaction des items à réponse courte Les items à réponse courte doivent clairement suggérer la compé- tence qu’ils sont censés évaluer. Un bon item à réponse courte doit être clair et précis. Les guides de notation doivent être conçus en même temps que les items. Le CD joint contient des exemples de 44 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES guides de notation pour les items à réponse courte. Voir par exemple, les items de mathématiques de l’enquête PISA 2006 et Reading International Grade 4 PIRLS 2001 Sample Items Scoring Guide. Les items à réponse courte sont habituellement « ouverts » lorsqu’une ou deux phrases ou plusieurs ajouts à un diagramme sont nécessaires pour obtenir une bonne réponse. Les items ouverts ont habituellement un éventail de réponses correctes possibles. Les items à réponse courte sont « fermés » lorsqu’un ou deux mots ou une ligne sur un diagramme suffisent à la réponse. Les items à réponse fermée ont habituellement une série de réponses correctes très limitée. Les items ouverts doivent recourir à des compétences essentielles dans les domaines clés du programme de cours pour justifier la durée nécessaire aux élèves pour répondre au test. Les élèves doivent cepen- dant pouvoir donner des réponses correctes courtes à des items ouverts. La majeure partie du temps consacré à un item doit être vouée à la recherche d’une solution et non à l’inscription de la réponse. Il importe de considérer ce que peut être une mauvaise réponse dans un item à réponse courte. Si toutes les réponses cohérentes envi- sageables peuvent être correctes, l’item risque de peu contribuer à l’évaluation d’une compétence donnée. L’item doit être construit de sorte qu’il y ait des réponses incorrectes plausibles. Veillez à ce que les items à réponse courte offrent plus de deux réponses possibles. Les items n’offrant que deux options possibles, comme « ouvert » ou « fermé », donnent aux élèves 50 % de chance de deviner la bonne réponse. Ce genre d’item peut être complété en demandant aux élèves de justifier leur réponse. L’item sera ensuite noté sur la base d’une sélection correcte des options « ouvert » ou « fermé » et d’une explication. Les élèves qui choisissent l’option cor- recte sans donner d’explication obtiendraient un score nul. Les items ne doivent pas aider excessivement le lecteur à com- prendre le sens du stimulus. Par exemple, un item ne doit pas résumer les idées essentielles dans un paragraphe du stimulus ou faire des déductions à partir de la formulation explicite du stimulus. Une cita- tion du stimulus est préférable à une synthèse ou une interprétation de la signification. Le danger des items ouverts consiste dans le fait que les élèves y répondent de manière superficielle. L’explication « parce que c’est RÉDACTION D’ITEMS | 45 important », par exemple, peut être une réponse techniquement cor- recte mais faible à plusieurs questions. Une réponse potentiellement superficielle peut être parfois intégrée à la question afin de l’éliminer de l’éventail des réponses correctes possibles. Par exemple, un item peut être formulé comme suit : « Pourquoi l’accident de Jemima est-il important dans cette histoire ? » Les élèves ne peuvent pas répondre « parce que l’accident est important ». Les instructions telles que « justifiez votre réponse » ou « motivez votre réponse » sont habituel- lement nécessaires pour les items ouverts afin d’éviter une réponse succincte par « oui » ou « non ». Un item efficace à réponse courte doit fixer une tâche claire et spécifique requérant une réponse précise. L’item doit permettre aux élèves de démontrer leur maîtrise de la compétence exigée dans un délai raisonnablement rapide. L’exemple de l’encadré 3.10 ne répond ENCADRÉ 3.10 Item ouvert prêtant à confusion avec des instructions floues Vous devez construire une boîte ouverte à partir d’un papier rigide rectangulaire de 150 cm x 100 cm, en découpant des carrés de dimension égale sur chaque angle et en utilisant du scotch pour relier les bords. Quelle sera la dimension des carrés découpés à partir de l’angle ? Donnez la(les) raison(s) de votre choix _____________________________________________________________ _____________________________________________________________ Guide de notation : le nombre de points va de 0 à 3. 3 points : décrit un carré de 20 cm de côté et une boîte dont les dimensions sont de 110 cm x 60 cm x 20 cm ; cela explique également que cette dimension de boîte a la plus grande capacité 2 points : décrit un carré de 20 cm à découper sur chaque angle mais sans donner d’explication 1 point : décrit toute dimension possible d’un carré dont un côté est inférieur à 50 cm 0 point : donne des dimensions d’un carré supérieures à 50 cm (une réponse impossible) 9 réponse manquante 46 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 3.11 Bon exemple d’item à réponse construite fermée Chaque personne creuse au même rythme. Une personne peut finir de creuser un jardin en 12 heures. Deux personnes peuvent finir de creuser le même jardin en 6 heures. Combien de temps faut-il pour 4 personnes ? ________ Combien de temps faut-il pour x personnes ? ________ à aucune de ces exigences. Il n’est pas demandé aux élèves de construire une boîte aux dimensions les plus larges possibles. Cette réponse est cependant le critère pour un score de 3 points. L’item est également de faible qualité parce qu’il exige trop de temps. Les com- pétences évaluées ne justifient pas le temps mis par les élèves pour tester les possibilités et aboutir à la réponse correcte. Le problème doit être simplifié afin que les élèves démontrent efficacement les compétences requises. Lorsqu’un élève ne répond pas à un item donné pour une raison quelconque (en raison de sa difficulté, ou parce que l’item n’était pas dans le carnet de tests distribué), un code (et non un score) de 9 est souvent attribué pour désigner les données manquantes. Ces der- nières sont abordées en détail dans le Volume 3, Mettre en œuvre une évaluation nationale des acquis scolaires. Les items à réponse courte doivent être formulés clairement et simplement (voir l’encadré 3.11). Conception des guides de notation pour les items à crédit partiel Les réponses à certaines questions à réponse courte comportent deux ou plusieurs catégories de réponses correctes. Ces questions sont dénommées « items à crédit partiel ». Le guide de notation doit éta- blir une distinction entre des réponses plus exhaustives, précises, ou complexes, et des réponses incomplètes ou partiellement correctes. Les meilleures réponses reçoivent un score plus élevé. L’exemple de RÉDACTION D’ITEMS | 47 l’encadré 3.12 présente un guide de notation d’un item à crédit partiel pour le dessin d’un carré, sanctionné par 3 points maximum. Les types d’items suivants peuvent être à crédit partiel : • Les élèves sont tenus d’avancer deux raisons au comportement d’un personnage. Les élèves qui donnent deux raisons correctes obtiennent un score de 2 points, et ceux qui donnent une raison correcte obtiennent 1 point. • Les élèves obtiennent un score plus élevé pour une compréhension plus approfondie ; par exemple, un score de 2 points dans un test de lecture peut refléter la compréhension de l’ironie du texte, tan- dis qu’un score de 1 point sanctionne la lecture littérale du texte. • Un score de 2 points peut sanctionner l’identification de la cause et de la conséquence, tandis qu’un score de 1 point nécessite l’identi- fication correcte de l’une d’entre elles seulement. • En mathématiques, un score de 3 points sanctionne la bonne solu- tion à un problème et une explication appropriée de la méthode utilisée, un score de 2 points la bonne solution sans explication, et un score de 1 point la description d’une méthode appropriée avec des calculs incorrects. ENCADRÉ 3.12 Item à crédit partiel La longueur du côté d’un carré est de 10 cm. Dessinez ce carré dans l’espace ci-dessous. Utilisez votre règle. Guide de notation : 3 points : a dessiné un carré avec 4 côtés de 10 cm de longueur et 4 angles droits 2 points : a dessiné un rectangle avec 2 côtés de 10 cm de longueur et 4 angles droits 1 point : a dessiné une forme à 4 côtés avec 2 côtés de 10 cm de longueur mais pas d’angle droit 0 point : a dessiné une autre forme 9 réponse manquante 48 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES La distinction entre des scores partiels ou totaux doit être claire. Veillez à ce que les exemples de réponses à 1 point fournies dans le guide de notation ne soient pas simplement mal formulés ou des réponses abrégées qui satisfont en réalité au critère de la réponse à 2 ou 3 points. Il importe également de clarifier la différence entre les réponses à 1 point et les réponses incorrectes. Cette distinction peut être la plus difficile à établir dans la notation de certains items à crédit partiel. Les exemples suivants démontrent que les items ouverts à réponse courte ne permettent pas toujours de donner un crédit partiel. L’item de l’encadré 3.13 indique que les élèves ne peuvent obtenir que 1 ou 0 point même lorsqu’ils donnent plusieurs réponses. ENCADRÉ 3.13 Exemple d’item à réponse ouverte avec guide de notation John et Michael trouvent un arbre avec 400 mangues. John dit que Michael a désormais 160 % de chance d’atteindre une mangue. Êtes-vous d’accord ou pas d’accord avec John ? Expliquez. Guide de notation : 1 point : N’est pas d’accord ET renvoie à la limite de pourcentage N’est pas d’accord car il n’est pas possible d’atteindre 160 %. N’est pas d’accord parce que c’est impossible. N’est pas d’accord car 100 % est le maximum que l’on puisse obtenir. 0 point : Est d’accord (avec ou sans explication) N’est pas d’accord ET ne renvoie pas à la limite de pourcentage N’est pas d’accord parce qu’il y a plus de 160 mangues. 9 réponse manquante Source : Ministère de l’Éducation des Philippines, 2004. RÉDACTION D’ITEMS | 49 ENCADRÉ 3.14 Exemple d’item à réponse construite fermée avec guide de notation Manguier Michael tente d’atteindre des mangues dans sa ferme avec son lance- pierres. Lorsque l’arbre a 50 mangues, il a 20 % de chance d’en atteindre une. Ses chances d’atteindre une mangue doublent lorsque le nombre de mangues est multiplié par deux. Quelles sont les chances de Michael d’atteindre une mangue dans un arbre qui compte 200 mangues ? Guide de notation : 1 point : 80 % ou 80 pour cent 0 point : toute autre réponse, y compris 80 (sans le symbole « % » ou « pour cent ») 9 réponse manquante Source : Ministère de l’Éducation, Philippines, 2004. Il est important de pré-tester les items à crédit partiel pour s’as- surer que les catégories à crédit partiel sont statistiquement solides (voir le chapitre 5). L’encadré 3.14 fournit un exemple d’item à réponse courte avec un guide de notation défaillant. Lors du pré- test, un score de 2 points a été attribué aux réponses « 80 % » ou « 80 pour cent », et un score de 1 point à « 80 ». Les statistiques ont montré que les élèves ayant donné la réponse à « 2 points » avaient un score moyen bien supérieur au test de mathématiques, et les élèves ayant donné la réponse à « 1 point » avaient un score moyen global similaire à ceux qui ont eu 0 à cet item. Suite aux données issues de ce pré-test, le guide de notation a été modifié, et 1 point a été attribué aux élèves qui ont répondu « 80 % » ou « 80 pour cent » et 0 point à ceux qui ont répondu 80 ou une autre option inacceptable. 50 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Rédaction d’items pour des unités Les unités sont des groupes d’items partageant un stimulus commun. Une unité peut consister en une histoire courte ou un graphique suivi d’une série de questions. Les principes de base de la rédaction d’items à choix multiple ou à réponse courte s’appliquent aux items associés à des unités. Il convient de garder à l’esprit un certain nombre de principes lors de la rédaction d’items basés sur des unités : • Les items doivent être indépendants les uns des autres. Les élèves ne doivent pas être tenus de répondre correctement à un item pour répondre de manière satisfaisante aux autres items. • Les items ne doivent pas se chevaucher. Chaque item doit évaluer un aspect clairement distinct du stimulus. • Les items doivent évaluer un éventail de compétences. Par exemple, ils ne doivent pas évaluer de façon répétitive l’extraction d’infor- mations directement énoncées, ou l’idée principale dans chaque paragraphe du stimulus. • Les items d’une unité doivent couvrir un éventail de difficultés, en commençant habituellement par un item facile. • Les informations données dans l’énoncé ou les options à choix multiple d’un item ne doivent pas aider l’élève à répondre à un autre item. • Les items doivent évaluer des aspects importants (et éviter les aspects accessoires) du stimulus. • Les items doivent être sur la même page que l’unité ou sur la page d’en face (dans le cas d’un stimulus long). Les unités comprenant huit items associés ou plus tendent à com- porter des items qui se dupliquent, se chevauchent ou qui sont insi- gnifiants. Certains items peuvent être supprimés par le comité de révision au cours de l’examen des items. L’équipe chargée de la conception des tests a également la possibilité de mettre en place deux formes de pré-test, en utilisant la moitié des items dans une forme et le reste dans l’autre. Le paragraphe du CD joint consacré à la langue contient de nom- breux exemples d’unités suivies d’une série de questions. (Voir par RÉDACTION D’ITEMS | 51 exemple les items du CD qui suivent « Hare Heralds the Earthquake », extrait de Reading International Grade 4 PIRLS 2001 Sample Items, ou « Petra’s Deal » extrait de Reading Australia Year 3 Sample Questions.) EXEMPLES TYPES D’ITEMS Les exemples types d’items sont essentiels pour s’assurer que les élèves ne sont pas pénalisés parce que le format des items ou la manière dont ils doivent indiquer leurs réponses ne leur sont pas familiers. Habituellement, l’administrateur de tests passe en revue des exemples types d’items avec les élèves, conformément à des instruc- tions très spécifiques du manuel d’administration de test. Lorsque les tests comprennent des items à réponse courte, il est particulièrement important que les élèves sachent quel est le type de réponse attendue. Les élèves doivent comprendre, par exemple, où noter leur réponse lorsqu’il s’agit de compléter une suite de nombres, ou quelle doit être la longueur de la réponse à un item requérant une explication. Les élèves doivent être informés qu’ils ne seront pas pénalisés pour les fautes d’orthographe ou grammaticales mineures, à moins que cela relève des compétences évaluées. Les instructions doivent les encourager à tenter de répondre à tous les items. Des exemples types doivent être élaborés pour tous les formats de réponse du test. À ce titre, les exemples types de questions sont habi- tuellement rédigés à la fin de la phase conceptuelle du test, lorsque les types de questions figurant dans le test sont connus. Les exemples types d’items doivent être très faciles ; par exemple, il peut être demandé aux élèves de noter leur réponse à « 2 + 2 » sur la ligne prévue : 2 + 2 = _______ L’important est la manière dont les élèves inscrivent leurs réponses. Dans ce cas de figure, les élèves doivent inscrire leur réponse sur la ligne. Le comité de révision des items doit examiner tous les exemples types d’items, qui doivent être également pré-testés. Si plusieurs for- mulaires de pré-tests sont utilisés, les mêmes exemples types d’items seront utilisés sur chaque formulaire. 52 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES MISE EN PAGE ET CONCEPTION DES ITEMS La mise en page et la conception des items sont cruciales pour la clarté et l’attrait d’un test. Les élèves sont plus enclins à tenter de répondre aux items d’un test bien présenté et facile à lire. Les concep- teurs de tests doivent adopter un style de mise en page cohérent et attrayant. Il est possible de faire appel à un professionnel de la mise en page et de la conception pour créer toutes les images. Le CD joint fournit de nombreux exemples d’items bien présentés et soutenus par une mise en page artistique de qualité. Lignes directrices de base Les lignes directrices de base suivantes doivent être prises en considé- ration pour une mise en page et une conception réussies des tests : • Utiliser une grosse police de caractère (par exemple, taille 36) pour numéroter les items, afin que les élèves repèrent facilement chaque item. • Laisser un espace de longueur appropriée quand les élèves ont besoin de rédiger une réponse. (Cela est d’autant plus nécessaire pour les élèves du primaire qui ont souvent une écriture large.) • Laisser suffisamment d’espace entre les items pour que les élèves voient clairement la fin d’un item et le début du suivant. • Prévoir une ligne de longueur adéquate près de l’item pour indi- quer aux élèves la taille de la réponse attendue. Une ligne courte convient pour une réponse d’un mot. Deux ou trois lignes longues indiquent à l’élève qu’il doit rédiger une ou deux phrases pour répondre à l’item. • Donner à chaque item un identifiant unique, et imprimer cet iden- tifiant près du numéro de l’item, dans une petite police de carac- tère grisée dans la marge de gauche. Un identifiant unique permettra d’assurer un suivi correct des items. Les numéros d’items peuvent changer, en particulier lorsqu’ils apparaissent dans plusieurs car- nets de tests. • Rester cohérent dans l’utilisation de guillemets simples ou doubles, italiques, soulignement, caractère gras et majuscules. RÉDACTION D’ITEMS | 53 • S’assurer que la mise en page et les images utilisées dans les items de pré-test sont aussi fidèles que possible à la mise en page des items dans la version définitive du test. Les modifications de mise en page et de conception des items peuvent affecter la difficulté d’un item. Qualité des images Les images des tests doivent être claires, dans une langue et avec des titres simples et appropriés. Les images doivent être réalisées par un illustrateur. Les images scannées ou prises sur Internet sont en général de qualité médiocre. Les photographies sont également habituelle- ment inadaptées en raison des coûts d’impression supplémentaires. En règle générale, un illustrateur doit reproduire les photographies. Le recours à un même illustrateur pour produire toutes les images, photographies et autres garantit la cohérence de la mise en page et de la conception. Dans la mesure du possible, les images doivent servir à améliorer la clarté et réduire le nombre de mots d’un item (voir l’encadré 3.15). Les images simples sont les plus efficaces : elles doivent pré- senter le concept clairement et nettement (voir l’encadré 3.16). Par ailleurs, il n’est pas indispensable qu’elles soient réalistes. Utilisez si possible des dessins au trait et évitez le recours excessif à des dégradés. Les graphiques et les cartes doivent être identifiés clairement et de manière cohérente (voir les encadrés 3.17 et 3.18). Comme indiqué dans l’encadré 3.19, les espaces laissés dans les graphiques facilitent la lecture du support de stimulus. Lors du choix de la taille du caractère et de la longueur de lignes, les concepteurs de tests doivent respecter les consignes suivantes : • Utiliser une police de taille 14 pour les 3e et 4e années, et de taille 12 pour les niveaux supérieurs. • Réduire la largeur des textes du stimulus à environ 10 à 14 mots par ligne. • S’assurer que les sauts de ligne sont placés à des endroits logiques, et qu’un mot ne se retrouve pas seul sur la ligne suivante. 54 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 3.15 Utilisation d’images pour réduire le nombre de mots L’image suivante décrit une expérience scientifique bien mieux qu’un paragraphe trop long : Quelle partie de la plante absorbe le PLUS d’eau ? Partie A Partie B Partie C Partie D A Partie A B Partie B C Partie C D Partie D S011026 Source : IEA 2007, exemple d’item La mise en page des options à choix multiple doit être identique. Chaque option doit être identifiée. Les options suivantes de mise en page sont préconisées : • Une colonne verticale d’options identifiées de haut en bas : A B C D • Une ligne horizontale d’options identifiées de gauche à droite : A B C D RÉDACTION D’ITEMS | 55 ENCADRÉ 3.16 Utilisation d’images simples Cette image décrit un système complexe de manière simple : B C A D E Source : Ministère de l’Éducation des Philippines, 2004. ENCADRÉ 3.17 Identification claire des graphiques Des identifiants clairs et constants comme ceux du graphique suivant aident les élèves à comprendre rapidement des questions complexes : Ce tableau indique les températures à des heures différentes pendant quatre jours. Quel jour et à quelle heure la température indiquée dans le tableau est-elle identique à celle indiquée sur le thermomètre ? 40° 35° Température 30° 6h 9h Midi 15 h 18 h 25° 20° Lundi 15° 17° 24° 21° 16° 15° Mardi 20° 16° 15° 10° 9° 10° 5° Mercredi 8° 14° 16° 19° 15° Jeudi 8° 11° 19° 26° 20° A. Lundi, midi Thermomètre B. Mardi, 6 h. C. Mercredi, 15 h. D. Jeudi, 15 h. Source : Mullis et coll., 2000. 56 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 3.18 Identification claire des cartes Il convient d’identifier clairement les éléments des cartes. Sur la carte suivante, le nom des continents est en majuscules, et celui des océans en minuscules avec une majuscule initiale : Zones où vivent les Dugongs Océan arctique ASIE AMÉRIQUE EUROPE DU NORD Océan Atlantique Océan AFRIQUE Océan Pacifique Pacifique Equateur AMERIQUE DU SUD Océan Indien AUSTRALIE Océan Austral Zones où vivent les Dugongs Source : Ministère de l’Éducation de Papouasie-Nouvelle-Guinée, 2004. • Deux colonnes verticales d’options, identifiées de haut en bas dans la première colonne, puis de haut en bas dans la seconde colonne : A C B D RÉDACTION D’ITEMS | 57 ENCADRÉ 3.19 Préservation d’espace dans le support de stimulus Dans ces dessins, l’espace permet de lire plus facilement le contenu du stimulus : Le schéma ci-dessous montre une boîte contenant une matière qui pourrait être un solide, un liquide, ou un gaz. La matière est ensuite placée dans une boîte quatre fois plus grande. Observez les schémas ci-dessous. Ils indiquent comment les différents types de matière apparaîtront lorsqu’elles seront placées dans une boîte plus grande. A. Identifiez quel schéma montre un solide, lequel montre un liquide, et lequel montre un gaz. (Notez le mot Solide, Liquide, ou Gaz sur la ligne à côté de chaque schéma ci-dessous. N’utilisez chaque mot qu’une seule fois.) B. Expliquez S031372 Source: IEA 2003, ex. d’item. 58 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ÉQUIPE DE RÉDACTEURS D’ITEMS Le responsable de la conception des tests supervise et gère l’équipe de rédacteurs d’items et coordonne l’intégralité du programme, de l’éla- boration à la révision, en passant par les pré-tests et la sélection des formats définitifs des tests. Il doit posséder un bon sens des rela- tions humaines ainsi que des aptitudes organisationnelles. Le responsable de la conception des tests doit assurer les tâches suivantes : • Sélectionner une équipe de rédacteurs d’items • Veiller à ce que le plan détaillé soit compris par les rédacteurs d’items • Peaufiner le plan détaillé • Établir une série de règles ou de protocoles pour présenter, classer et stocker les items • S’assurer que les rédacteurs d’items connaissent bien le volume par page dédié aux items • Mettre au point et suivre les processus de révision des items • Suivre les progrès de la conception des items par rapport au plan détaillé du test • Réviser les items avec les groupes de spécialistes ou les parties pre- nantes clés • Suivre la qualité des items • Suivre la conception des items par rapport aux délais • Noter les détails de tous les items conçus, y compris l’historique des pré-tests et les modifications apportées durant les analyses • S’assurer que le plan détaillé est respecté dans le test définitif. La rédaction d’items nécessite une méticulosité, une créativité, une rigueur intellectuelle, une connaissance en profondeur des contenus et une bonne compréhension de la progression des élèves dans un domaine d’apprentissage. Idéalement, les rédacteurs d’items doivent démontrer les qualités suivantes : • Faire preuve d’initiative et de volonté pour mener des recherches approfondies afin de trouver du matériel de stimulus intéressants, et élaborer des supports de stimulus de qualité supérieure. RÉDACTION D’ITEMS | 59 • Être en mesure d’accepter un feedback sur leur travail et commen- ter le travail des autres rédacteurs d’items avec le même détache- ment critique. • Faire preuve d’une volonté d’excellence et d’un désir de s’attacher aux détails lors de la conception et du peaufinage des items. Il est utile d’envisager un test de sélection initial lors du choix des rédacteurs d’items. Le test peut consister à accorder aux rédacteurs potentiels 30 minutes pour créer des items basés sur une série de supports de stimulus. Cette épreuve peut être suivie d’un entretien au cours duquel les candidats devront expliquer le raisonnement qui sous-tend leurs réponses au test de sélection. Le comité chargé des entretiens peut vérifier l’aptitude des rédacteurs potentiels à accepter des critiques sur leur travail. Idéalement, des rédacteurs d’items confirmés doivent participer à la formation des nouveaux rédacteurs d’items. Il est possible de devoir les recruter dans un autre pays en qualité de consultants si aucun candidat doté de l’expertise appropriée n’est disponible dans le pays. Les rédacteurs d’items consultants peuvent animer des ses- sions de formation, réviser les items au fur et à mesure de leur conception ou assurer les deux. Les rédacteurs d’items travaillant à plein temps après la formation peuvent mettre plusieurs mois à acquérir l’expertise requise pour produire des items de qualité raisonnable. Les questions suivantes doivent être traitées lors de la formation : • Quel est l’objectif global du test ? • Quels sont les contextes de stimulus appropriés pour les items ? • Quels sont les éléments du programme de cours qui seront abordés dans le test ? • Quelle proportion d’items abordera les différents aspects du pro- gramme de cours ? • Quelle(s) langue(s) sera(ont) utilisée(s) ? • Quel est le niveau approprié de simplicité dans le vocabulaire et la grammaire utilisés ? • Quels formats d’item seront utilisés et dans quelles proportions ? • Quelles sont les spécifications de publication (nombre de pages du carnet de tests, taille des pages, nombre d’items par page) ? 60 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Combien d’items sont proposés pour la version définitive du test ? • Combien d’items doivent être élaborés ? • Comment seront examinés les projets d’items de test ? • Quel est le calendrier de la conception, du pré-test, et de la sélec- tion des formats définitifs ? • Faut-il tenir compte de certaines questions ou contraintes cultu- relles dans la rédaction du contenu des supports de stimulus et des items ? Les rédacteurs d’items doivent avoir une compréhension com- mune des réponses à toutes ces questions. Ils doivent également suivre systématiquement leur propre travail et celui des autres. Tous les rédacteurs d’items doivent avoir des copies du plan détaillé du test finalisé et une compréhension commune de son contenu. Un temps précieux est économisé sur le long terme en détaillant dès le départ le style de présentation des items. Le responsable de la conception des tests doit concevoir une feuille de style avec toutes les caractéristiques de mise en page des items et guides de notation. La feuille de style doit couvrir tous les aspects de la mise en page : le choix des polices de caractère, leur taille, les retraits, le positionne- ment des titres et les types d’informations devant être inclus, comme indiqué dans l’exemple de l’encadré 3.20. Ce guide précise que les rédacteurs d’items doivent indiquer la police Arial gras, taille 16, majuscules, pour le titre des unités. Le reste de l’item est en Times New Roman. La plupart des textes sont en taille 12. La question doit être identifiée en gras (« Question 1 »). Le nom de l’unité doit suivre, comme indiqué. L’item et l’espace laissé pour la réponse des élèves sont sous la question. Le rédacteur de l’item insère et complète un tableau pour indiquer le type de texte, le format de l’item, et la méthode à utiliser pour y répondre. Le guide de notation est identifié comme indiqué. Les critères d’at- tribution d’un score sont indiqués en italique, avec des exemples de réponses sous forme de liste à puces, en retrait, taille 10. En suivant le guide, les rédacteurs d’items peuvent contribuer à garantir une préparation cohérente, rationnelle et efficace du pré-test et des items définitifs. RÉDACTION D’ITEMS | 61 ENCADRÉ 3.20 Exemple de feuille de style pour les rédacteurs d’items TRADITIONS DE PÂQUES (titre de l’unité : Arial gras, taille 16, majuscules) Question 1 : Traditions de Pâques (sous-titre : Times New Roman gras, taille 12) Que se sont donné les gens le dimanche de Pâques ? (question : Times New Roman gras, taille12) (instruction pour la publication en italique et entre parenthèses) Type de texte Format de l’item Processus Information Construction fermée Extraction (Tableau : 3 colonnes et 2 lignes ; en-têtes : Times New Roman gras, taille 12 ; texte : Times New Roman maigre, taille 12) Guide de notation (sous-titre, Times New Roman gras, taille 12) 1 point : renvoie aux œufs (Times New Roman italique, taille 12) • Ils se sont donné des œufs. (puce, Times New Roman, taille 10) • Ils ont décoré des œufs. 0 point : renvoie aux pancakes, à d’autres choses, ou est vague • pancakes. • Ils se sont donné autre chose. Les rédacteurs d’items ont besoin de feedback régulier et clair, d’orientations constructives sur leurs propres items, et sur leur confor- mité avec le plan détaillé afin de tirer des enseignements de leurs erreurs, de développer leur savoir-faire et peaufiner leurs items. Les rédacteurs d’items doivent se réunir régulièrement et fréquemment en comités de révision afin de procéder à l’examen critique de leur travail. Le responsable des tests doit être préparé à remplacer des rédacteurs incapables d’élaborer des items d’excellente qualité après une période de formation raisonnable. 62 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES COMITÉS DE RÉVISION DES ITEMS Un comité de révision des items est constitué d’un petit groupe (trois à six) de rédacteurs d’items qui examinent ensemble le maté- riel élaboré par l’un ou plusieurs d’entre eux. L’objectif du comité est d’accepter, modifier, ou rejeter le matériel. L’approche de l’équipe, qui fait partie du processus de contrôle qualité, permet d’avoir différentes perspectives sur les items individuels. À moins que les rédacteurs d’items ne soient hautement expérimentés, les items subissent habituellement des changements importants après un examen du comité. Les membres du comité doivent préparer leurs remarques avant la réunion. Ils doivent disposer d’un laps de temps suffisant pour exami- ner les items et rédiger les améliorations proposées. Le comité doit examiner de près le contexte du support de stimu- lus, son contenu, sa formulation, la langue utilisée, la mise en page et les illustrations afin que chaque aspect du stimulus soit conforme au plan détaillé, digne d’être inclus dans le test, et clair et concis. Le comité examinera ensuite minutieusement chaque item : la formula- tion ne doit pas être ambiguë, le format doit être approprié et l’item doit aborder clairement les compétences et les domaines spécifiés dans le plan détaillé. L’ensemble des items est également examiné afin de vérifier son équilibre global au regard du plan détaillé. Les membres du comité doivent explorer chaque possibilité d’améliorer les stimuli et les items et, si nécessaire, faire des propositions de nou- veaux items. Durant le processus de révision, les rédacteurs d’items doivent expliquer leur travail et être préparés à accepter des critiques constructives. Le directeur du comité doit s’assurer qu’il existe un large consensus sur les modifications à apporter aux items individuels. Les rédacteurs d’items doivent documenter les modifications suggé- rées et corriger ultérieurement les items. Il peut s’avérer nécessaire de recourir à un expert linguistique lorsque les rédacteurs élaborent des tests dans une langue autre que leur langue maternelle. L’expert linguistique doit avoir une bonne compréhension des compétences linguistiques du public cible du test. RÉDACTION D’ITEMS | 63 Un spécialiste des matières testées peut participer au comité, notamment quand le domaine du contenu est complexe. La partici- pation d’un expert dans certains comités peut être utile pour clarifier des questions de contenu, mais elle n’est pas nécessairement perma- nente. Il est peu probable que l’expert soit concerné par les questions plus précises de rédaction. Il est conseillé de ne pas inclure les responsables des politiques et les parties prenantes clés dans les comités de révision. Les détails plus précis des délibérations du comité ne les concernent pas. Les membres du comité de révision doivent examiner tous les aspects d’un item : • L’évaluation porte-t-elle sur le bon contenu ? • Le format de l’item est-il approprié aux élèves visés ? • L’item est-il substantiel, ou trivial ? • La formulation de l’item est-elle claire et sans ambiguïté ? • Y a-t-il des fautes d’orthographe ou des mots manquants ? • Si l’item est à choix multiple, les options sont-elles similaires et ont-elles du sens ? • Si l’item est à choix multiple, peut-on trouver clairement et sans ambiguïté la bonne réponse à partir des informations fournies (l’énoncé, le support de stimulus, ou les deux) ? • La mise en page de l’item est-elle attrayante et aérée ? • La plupart des items présentent-ils un degré de difficulté permet- tant à environ 40 à 80 % des élèves testés de donner la bonne réponse ? • Si l’item nécessite une notation à crédit partiel, chaque score est-il susceptible d’attirer au moins 10 % de répondants ? • L’item semble-t-il non biaisé et juste pour les sous-groupes impor- tants de la population cible ? Le comité de révision doit également envisager les moyens suivants d’améliorer l’item : • L’abréger. • Ajouter des informations. • Modifier l’expression ou la formulation. • Ajouter un diagramme ou une image. • Le reformuler sous un format différent. 64 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les rédacteurs d’items doivent recevoir un feedback régulier et fréquent dès qu’ils commencent à rédiger les items. Les comités de révision des items doivent se réunir si possible une fois par semaine. La révision des textes peut être une tâche ardue. Le comité nécessite un responsable pour s’assurer l’unanimité des recomman- dations et le consensus sur les modifications à apporter. Le rédac- teur de l’item n’est pas la personne idéale pour décider quelles modifications seront adoptées ou rejetées. Les recommandations du responsable de comité doivent être suffisamment précises pour aider le rédacteur de l’item à comprendre précisément quelles modifications effectuer. La révision des items des autres rédacteurs suscite parfois des fric- tions. Le responsable du comité doit orienter la discussion sur l’amé- lioration des items et s’assurer que le comité s’emploie de manière constructive à atteindre cet objectif. Tous les membres du comité, y compris les rédacteurs d’items expérimentés, doivent faire réviser leur travail. Il est normal, en parti- culier pour les nouveaux rédacteurs, de recevoir des propositions de révision nombreuses. La critique des items ne doit pas être perçue comme une critique à l’encontre de l’individu. Les rédacteurs d’items incapables de prendre part à des discussions soutenues et de remanier leurs items doivent être remplacés. AUTRES CORRECTEURS Les groupes d’experts ou les principales parties prenantes doivent pouvoir réviser la batterie d’items plusieurs fois durant la phase de conception. Cette procédure permet de s’assurer que les items de test sont de bonne qualité et conformes au plan détaillé. Le responsable de la conception des tests présente habituellement tous les items, ou une sélection, à un groupe de référence choisi à cet effet. La première révision par le groupe de référence doit se faire suffi- samment tôt dans le processus de conception des items pour s’assurer que les rédacteurs travaillent dans la bonne direction. Le groupe de référence peut proposer des améliorations de certains aspects du plan détaillé, en particulier si les rédacteurs d’items peinent à satisfaire RÉDACTION D’ITEMS | 65 certaines spécifications. Ils peuvent également nécessiter une orienta- tion plus spécifique sur le matériel acceptable et inacceptable. Une révision est généralement menée après la rédaction de tous les items pour s’assurer de l’approbation des parties prenantes clés avant la réalisation du pré-test. Une révision finale permet aux parties pre- nantes clés d’approuver la sélection des items pour la version définitive. SUIVI DES ITEMS Le suivi des items est primordial. Chaque item doit avoir un identi- fiant unique qui permettra de le suivre à chaque étape, du pré-test à l’analyse. Il faut compter générer environ deux fois et demie à trois fois plus d’items que nécessaire pour obtenir la version définitive d’un test. Il faut habituellement produire plusieurs carnets pour chaque année scolaire pour le pré-test. Plusieurs items identiques doivent apparaître dans différents carnets. Cela permet à tous les items de pré-test d’être reliés à la même échelle et d’être comparés. L’identifiant de chaque item doit être indépendant de l’ordre d’apparition des items dans le carnet afin que les items dupliqués dans différents car- nets et les items uniques puissent être clairement identifiés. Le suivi des items au moment de l’étape d’analyse peut s’avérer compliqué. Si l’analyste omet d’attribuer un identifiant unique à un item, ce dernier risque d’être très difficile à repérer. Le logiciel infor- matique peut aggraver le problème. Généralement, il numérote les items automatiquement. Si des items sont éliminés de l’analyse du pré-test, le logiciel renumérotera les items, de sorte que le numéro d’un item dans l’analyse ne correspondra plus à son numéro dans l’analyse initiale, ou dans le carnet de test. L’attribution d’un identi- fiant unique à chaque item dans le carnet de tests et dans chacune des analyses permettra d’éliminer ce problème. L’identification des items doit être aussi significative que possible. Le responsable de la conception des tests doit collaborer avec l’ana- lyste des données afin d’établir le nombre de caractères d’un identi- fiant. Les programmes d’analyse informatique ont certaines limites. La convention d’identification suivante est utilisée par l’organisme 66 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES d’exécution d’un test de lecture, de rédaction, et de mathématiques administré sur plusieurs années : • Le premier caractère est L, M, ou C pour lecture, mathématiques, ou composition écrite. • Les caractères 2 et 3 indiquent l’année au cours de laquelle l’item a été administré (par exemple, 07 pour 2007). • Les caractères 4, 5, et 6 caractérisent l’item (en démarrant par 001). Par exemple, M06003 indique un item de mathématiques adminis- tré en 2006, troisième dans la série d’items. Les items doivent être identifiés durant leur conception. Le même identifiant doit être imprimé dans les carnets de pré-test et la version définitive des tests. Les identifiants peuvent être imprimés dans une petite police de caractère grisée dans la marge gauche des numéros d’items des carnets de tests, comme indiqué ci-dessous : M06003 5 Compléter cette somme. 6 + 7 = ______________ Il est primordial de conserver un historique complet de chaque item. L’analyste des données a besoin d’un registre des clés des items à choix multiple et de l’emplacement des items dans les carnets de pré-test. Les rapports nécessitent souvent des informations sur le for- mat des items et les processus évalués par chaque item. Le respon- sable de la conception des tests doit créer et mettre à jour une feuille de calcul pour conserver la trace de chaque item, ses classifications et son statut, et toutes modifications susceptibles d’y être apportées. Ci-dessous, un exemple d’en-têtes de colonnes apparaissant dans une feuille de calcul de tous les items de lecture d’un test : • nom de l’unité nom donné à l’unité (par exemple, « Voitures de course ») • identification de l’item identifiant à 6 chiffres (par exemple, L06003) • contenu de l’item formulation de la question du test • statut actuel description indiquant si l’item peut être utilisé (par exemple, diffusé comme exemple type d’item, rejeté par le client, droit de reproduction refusé) RÉDACTION D’ITEMS | 67 • clé bonne réponse pour une question à choix multiple • score max points de score maximum pour l’item • type de texte genre de texte (par exemple, narratif, informatif) • format de l’item format de la question du test (par exemple, à choix multiple) • processus processus cognitif (par exemple, extraction) • notes d’analyse modifications apportées à l’item après le pré-test Les items doivent être stockés en lieu sûr. Tout le matériel perti- nent associé à la conception d’une unité ou d’un item doit être stocké avec cet item, y compris le matériel non utilisé dans le pré-test, qui peut être utilisé ultérieurement pour le même niveau ou d’autres. La source des documents ou des illustrations doit être enregistrée et stoc- kée avec l’unité ou l’item en vue de l’obtention de droits de reproduc- tion, le cas échéant. Les copies des documents originaux doivent être conservées afin que toute modification ultérieure soit identifiable. La plupart des items peuvent être stockés électroniquement. Par mesure de précaution, conservez des fichiers de sauvegarde des items sur un disque dur ou un autre ordinateur. Une identification correcte et un classement complet et précis garantissent le stockage des items dans des dossiers informatiques appropriés et facilement accessibles à d’autres utilisateurs. Les items font généralement l’objet d’une révision permanente, notamment de modifications des guides de notation et des illustrations et d’améliorations mineures dans la formulation. La der- nière version de l’item doit être aisément repérable à partir du nom du fichier informatique. NOTES 1. Pour de plus amples informations sur la construction des items de test, voir Chatterji (2003), Haladyna (1999), Kubiszyn et Borich (2000), et Linn et Miller (2004). 2. L’Évaluation nationale des progrès de l’éducation (NAEP) réalisée aux États-Unis comprend une composante écrite (National Assessment Governing Board n.d.). CHAPITRE 4 RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS La construction de tests pour une évaluation nationale s’appuie essentiellement sur la technologie élaborée lors de leur conception en vue d’évaluer et de rendre compte de la perfor- mance de chaque élève. Ces tests servent à différencier les perfor- mances individuelles des élèves, par conséquent tous les élèves passent en principe le même test. En revanche, l’évaluation nationale vise un objectif bien différent de celui des tests de performance individuelle des élèves : il s’agit de décrire dans quelle mesure les élèves du système éducatif dans son ensemble (ou d’une partie de ce système) ont acquis les savoirs et savoir-faire délivrés par un programme de cours et non d’effectuer une distinction entre les élèves. Pour ce faire, un test doit couvrir le programme de cours de manière adéquate, nécessitant par- fois un échantillon de programme beaucoup plus large que pour les tests d’évaluation individuelle des élèves. Une large couverture du programme est d’autant plus nécessaire lorsque l’évaluation vise à identifier les domaines dans lesquels les élèves montrent des facilités ou des faiblesses. Pour traiter ce problème, de nombreuses évaluations nationales et internationales utilisent un nombre beaucoup plus important d’items que dans les tests d’évaluation individuels. Cependant, pour alléger le 69 70 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES fardeau imposé aux élèves, chacun ne répond qu’à une partie des items de l’évaluation. De ce fait, plusieurs séries d’items doivent être four- nies dans différents carnets de test distribués selon un schéma de rota- tion, leur nombre précis variant d’une évaluation nationale à l’autre. À maints égards souhaitable, cette approche présente néanmoins de nombreux inconvénients pour l’administration d’une évaluation nationale. Premièrement, la conception du test est complexe car il faut prévoir des chevauchements et des concordances d’items entre les sous-échantillons. Deuxièmement, son administration est plus compliquée : il faut distribuer les bons carnets aux bons élèves et les instructions données aux élèves doivent être appropriées pour tous les carnets. Enfin, la combinaison de données de plusieurs séries d’items requiert des procédures statistiques relativement complexes. Pour toutes ces raisons, de nombreux pays en développement n’uti- lisent pas plusieurs carnets de test dans leurs évaluations nationales. La plupart des commentaires des pages suivantes et du chapitre 5 s’appliquent de la même manière à l’utilisation d’un seul ou de plu- sieurs carnets de test pour mesurer les acquis de l’apprentissage dans un domaine. Ces deux approches nécessitent d’accorder une atten- tion particulière à la procédure de pré-test. La phase de pré-test ou du test pilote est un élément primordial de la conception des tests. Le pré-test est soumis à des élèves partageant les mêmes caractéristiques que ceux qui passeront le test définitif. Il convient donc de tester des écoles de diverses tailles, dans différentes zones, fréquentées par des élèves de différentes catégories socioéco- nomiques. En principe, le pré-test doit être réalisé un an à l’avance, à la même période de l’année que le test définitif. Par exemple, le pré- test peut être administré aux élèves du niveau 5 en octobre 2005, et le test définitif en octobre 2006. Dans les faits, ce scénario n’est cependant pas toujours réalisable, et le pré-test peut être administré à des élèves dont la scolarité est de quelques mois plus courte ou plus longue que celle de la population cible. Par exemple, le pré-test pourra être soumis à des élèves de 6e année en tout début d’année scolaire pour fournir les données d’un test administré à des élèves de 5e année en fin d’année scolaire. Les élèves participant au pré-test ne doivent pas subir le test défi- nitif. Si ce dernier doit être administré à un échantillon aléatoire RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 71 sélectionné statistiquement, l’échantillon final doit être constitué avant la sélection des écoles en vue du pré-test. Une bonne pratique consiste à tester deux ou trois fois le nombre d’items requis pour le test définitif. La longueur de chacun des formu- laires de pré-test doit être identique à celle du test définitif. Le classe- ment alphabétique des formulaires selon l’année scolaire est utile : par exemple, cinq pré-tests de 3e année auraient pour référence 3A, 3B, 3C, 3D et 3E, et cinq pré-tests de 8e année, les références 8A, 8B, 8C, 8D et 8E. Plusieurs formulaires de pré-test seront nécessaires pour chaque année scolaire. Dans l’idéal, les formulaires de chaque année scolaire doivent être distribués de manière aléatoire dans chaque classe. Par exemple, si trois formulaires (5A, 5B et 5C) sont utilisés pour les élèves de 5e année, chaque école doit recevoir un assortiment de ces trois formulaires. S’il est impossible de procéder ainsi, il convient de s’assurer que chaque formulaire est distribué à tous les segments représentatifs de l’échantillon de pré-test. Par exemple, le formulaire 5A ne doit pas être distribué uniquement aux élèves des aggloméra- tions urbaines, le formulaire 5B uniquement aux élèves des zones rurales du nord, et le formulaire 5C aux élèves des zones rurales du sud. Les formulaires doivent être aussi équivalents que possible au regard du plan détaillé du test. Il est essentiel de relier les formulaires de pré-test entre eux pour que les items puissent être regroupés et comparés. Cela signifie que des items identiques sont reproduits dans plusieurs formulaires. Certains formulaires de pré-test seront obligatoirement plus difficiles que d’autres. En reliant les formulaires entre eux, il est possible de déterminer la difficulté globale des items quel que soit le formulaire où ils apparaissent. Si les tests sont administrés à une seule année scolaire, la liaison doit être horizontale, mais si plusieurs niveaux sco- laires sont testés, la liaison doit être verticale. Un minimum de 200 élèves doit tenter chaque item de pré-test pour chaque année scolaire. S’il y a trois formulaires de pré-test pour la 5e année, au moins 600 élèves devront passer le pré-test. Sur les 200 élèves subissant chaque item de pré-test, au moins 150 réponses sont requises. Certaines données seront inévitablement perdues au cours d’un pré- test. Pour des raisons indépendantes de sa volonté, une école peut ainsi 72 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES se retirer à la dernière minute du programme de pré-test ou administrer le test à moins d’élèves que prévu. Il est également peu probable que chaque élève tente de répondre à chaque item du pré-test. Dans la mesure où le pré-test doit être administré dans les mêmes conditions que le test définitif, le temps accordé aux élèves pour rem- plir le pré-test doit être le même que pour le test définitif. Le nombre d’items auxquels les élèves peuvent répondre dans les délais attribués ne sera pas nécessairement connu. Le cas échéant, assemblez un premier échantillon de formulaires de pré-test et soumettez-le à quelques classes avant d’administrer le pré-test, afin de vérifier que le nombre d’items inclus dans chaque pré-test est réaliste. Une évalua- tion nationale n’est pas un test de rapidité : la plupart des élèves doivent disposer du temps nécessaire pour tenter de répondre à une majorité d’items. Essayez d’administrer l’ensemble des pré-tests sur une période de deux à trois semaines. La phase de pré-test offre l’occasion d’évaluer la pertinence et la qualité des items et de peaufiner de nombreux aspects de l’adminis- tration des tests. Il convient de demander aux administrateurs de pré- test de fournir les informations suivantes : • A-t-on fourni suffisamment d’exemples types aux élèves, et les ins- tructions et explications données étaient-elles assez claires ? • Le test était-il d’une longueur adéquate ou trop long, et environ combien d’élèves ont fini le test avec 10 minutes d’avance ? • Les élèves ont-ils semblé intéressés par le test ? • Les élèves disposaient-ils d’un matériel suffisant, tel que des stylos ou des gommes ? • Les locaux scolaires étaient-ils adaptés à l’administration du test ? • Les enseignants et les élèves ont-ils compris l’objectif du test ? CONCEPTION DU FORMULAIRE DE PRÉ-TEST La sélection des items du test définitif repose sur l’analyse des don- nées des pré-tests. De nombreuses évaluations nationales préparent différents types de carnets de test reliés pour chaque année scolaire. RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 73 Cette approche permet de mieux couvrir le programme de cours que le recours à un seul test et, parallèlement, de s’assurer que les élèves ne sont pas soumis à des tests trop longs. La conception des tests et la liaison entre eux doivent être réalisées correctement afin que les don- nées puissent être combinées sur une seule échelle. L’analyste de don- nées, le statisticien ou le principal responsable informatique doivent participer à la conception du pré-test afin de garantir la satisfaction des exigences relatives aux données.1 Les formulaires reliés partagent des items communs, qui sont en général au nombre de 8 à 10. Il existe plusieurs manières de relier les formulaires. Avec un seul ensemble commun d’items de liaison, les mêmes 8 ou 10 items de liaison sont répétés dans chaque formulaire. Notez que si les items de liaison donnent de mauvais résultats (c’est- à-dire que leurs caractéristiques statistiques sont insuffisantes) dans l’analyse, la liaison entre les pré-tests sera faible, et la qualité de l’ana- lyse globale en pâtira. Il existe une deuxième méthode, la liaison circulaire, qui consiste à utiliser différentes séries d’items entre des paires de formulaires. Par exemple, le formulaire 3A peut être relié au formulaire 3B par un ensemble X d’items, le formulaire 3B au formulaire 3C par un ensemble Y d’items, et le formulaire 3C au formulaire 3A par un ensemble Z d’items. Chaque formulaire contient également des items uniques qui n’apparaissent dans aucun des autres formulaires (figure 4.1). Une troisième méthode est la liaison linéaire, semblable au modèle de liaison circulaire, mais qui exclut les items de liaison de l’ensemble Z. FIGURE 4.1 Exemple de liaison circulaire entre différents items Pré-test 3A Pré-test 3B Pré-test 3C ensemble ensemble ensemble d’items X d’items X d’items Y ensemble ensemble ensemble d’items Z d’items Y d’items Z ensemble ensemble ensemble d’items unique d’ items unique d’items unique à 3A à 3B à 3C 74 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Ainsi, le pré-test 3A serait relié au 3B et le 3B au 3C, mais il n’y aurait aucune liaison entre les pré-tests 3A et 3C. Si vous n’êtes pas sûr de la pertinence des items, utilisez de préfé- rence la liaison circulaire et un plus grand nombre d’items de liaison que nécessaire. En effet, dans la liaison circulaire, même si une série d’items de liaison pose problème, les liens entre les formulaires seront préservés. La liaison peut être à la fois horizontale (pour une année scolaire) et verticale (pour différentes années scolaires, par exemple entre les 3e et 5e années). Si les formulaires définitifs ne sont pas reliés verti- calement, les liaisons horizontales doivent être particulièrement prononcées dans les pré-tests. Un minimum de liaisons verticales peut être prévu pour faciliter la comparaison des données des pré- tests entre différents niveaux scolaires. Techniquement, seuls 8 ou 10 items communs sont nécessaires pour les différents niveaux sco- laires. Il est plus difficile de savoir ce qui constitue un bon item de liaison verticale que d’évaluer un bon item de liaison horizontale. Comme il s’agit d’un pré-test et que la qualité des items de liaison est incertaine, il est recommandé d’avoir au moins 16 items de liai- son verticale, répartis dans chacun des formulaires. Si les formulaires définitifs doivent être reliés verticalement, il est important d’insérer un nombre beaucoup plus grand d’items de liaison verticale dans le test expérimental que le nombre requis dans le test définitif. Cela permettra de sélectionner les meilleurs items de liaison dans la ver- sion définitive du test. La figure 4.2 illustre un autre modèle de pré- test avec liaison verticale des formulaires définitifs. Ce modèle se base sur une distribution aléatoire des formulaires A, B et C au sein de chaque classe. Dans cet exemple relativement complexe, les formulaires 3A, 5A, 7A et 10A sont chacun reliés verticalement et de manière linéaire à 8 ou 10 items. Les items sont reliés de manière semblable dans les for- mulaires B et C. Il y a en tout 8 à 10 items de liaison horizontale entre les formulaires A et B de 3e et 7e années, et en tout 8 à 10 items de liaison horizontale entre les formulaires B et C de 5e et 10e années. Ce nombre de liaisons horizontales est acceptable. Cependant, si les for- mulaires de tests ne sont pas distribués de manière aléatoire dans chaque classe, ou si les rédacteurs d’items doutent de la qualité des RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 75 FIGURE 4.2 Modèle de liaison verticale des items 4 à 5 items 3e année 3e année 3e année communs à Pré-test A Pré-test B Pré-test C 3A et 3B 8 à 10 items 8 à 10 items 8 à 10 items communs à communs à communs à 3A et 5A 3B et 5B 3C et 5C 4 à 5 items e e communs à 5 année 5 année 5B et 5C 5e année Pré-test A Pré-test B Pré-test C 8 à 10 items 8 à 10 items 8 à 10 items communs à communs à communs à 5A et 7A 5B et 7B 5C et 7C 7e année 4 à 5 items 7e année 7e année Pré-test A communs à Pré-test B Pré-test C 7A et 7B 8 à 10 items 8 à 10 items 8 à 10 items communs à communs à communs à 7A et 10A 7B et 10B 7C et 10C 4 à 5 items communs à e e 10 année 10 année 10B et 10C 10e année Pré-test A Pré-test B Pré-test C items de liaison horizontale, un plus grand nombre de liaisons hori- zontales doit être inclus pour chaque année scolaire. Les items de liaison doivent être placés vers le début ou le milieu des formulaires pour éviter que les élèves soient tentés de ne pas y répondre. Ils doivent être également placés dans le même ordre dans chacun des carnets, et au même endroit dans les carnets de test afin que les différences de performance entre les élèves ne puissent être attribuées à l’ordre ou la position des items. De légères variations dans l’emplacement des items de liaison sont inévitables. Il faut cependant éviter d’importantes différences. Les items de liaison doivent être d’un niveau de difficulté moyen. En règle générale, les élèves aux capacités moyennes de la population cible doivent avoir 40 à 60 % de chances d’y répondre correctement. Comme il s’agit d’un pré-test, la difficulté des items pour la 76 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES TABLEAU 4.1 Items de liaison dans deux unités de lecture Items communs Items uniques à Items uniques à Unités de lecture à 3A et 3B 3A 3B « Trouver un animal domestique » 3, 4, 6 2, 7 1, 5 « Mont Avarapa » 1, 2, 5 3 4 population cible ne sera pas connue : les rédacteurs d’items devront donc estimer au mieux leur degré de difficulté. Si les rédacteurs doutent de leurs estimations, il est préférable d’augmenter le nombre d’items de liaison. Si les items sont organisés en unités, il est préférable de relier les formulaires via des items issus de deux unités ou plus, au cas où les items associés à une unité ne fonctionnent pas bien. Il n’est pas néces- saire d’utiliser tous les items d’une unité pour la liaison ; certains de ces items peuvent être communs et d’autres uniques, comme illustré au tableau 4.1. Les unités « Trouver un animal domestique » et « Mont Avarapa » apparaissent dans les formulaires 3A et 3B de 3e année. Trois items sont communs à chaque unité et à chaque formulaire. Le pré-test comprend également des items uniques supplémentaires. De plus, si le pré-test comprend des items de différents formats, les items de liaison doivent également refléter cette diversité de format. Un identifiant unique doit être imprimé en caractère grisé à côté de chaque item dans chaque formulaire dans lequel il apparaît. Les items qui portent le même identifiant doivent être strictement iden- tiques, sauf en termes d’ordre d’apparition dans le formulaire de test. Les items ayant des formulations légèrement différentes doivent pos- séder des identifiants distincts. Le rédacteur d’items doit créer une feuille de calcul contenant une liste de tous les items ; sur ce tableur, des en-têtes différents indique- ront quels items apparaissent dans quels formulaires et dans quel ordre. Le tableau 4.2 illustre un segment d’une feuille de calcul cou- vrant 3 unités (« Chiens », « Ellie » et « Bang ») d’un test de lecture de 5e année. Les items de trois unités sont indiqués sur la gauche. Les chiffres dans les colonnes indiquent l’ordre d’apparition de chacun de RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 77 TABLEAU 4.2 Segment d’une feuille de calcul de suivi des items dans les formulaires Nom de Identifiant Formulaire Formulaire Formulaire Formulaire l’unité item 5A 5B 5C 5D « Chiens » L070101 1 1 4 4 « Chiens » L070102 3 3 5 5 « Chiens » L070103 2 « Chiens » L070104 2 « Ellie » L070201 1 « Ellie » L070202 2 1 « Ellie » L070203 3 2 « Ellie » L070204 3 « Bang » L070301 4 6 « Bang » L070302 5 7 ces items dans chacun des formulaires. Les deux premiers items dans « Chiens » sont communs à chacun des quatre formulaires. IMPRESSION ET RELECTURE DU PRÉ-TEST Chaque item pré-testé doit apparaître tel qu’il sera dans sa forme définitive dans le test définitif. De même, les supports de stimulus, graphiques et illustrations doivent être présentés sous la forme pré- vue dans le test définitif. Dans l’idéal, l’ordre d’apparition des items de liaison doit être identique mais, en pratique, il peut varier légèrement. Les supports de stimulus des items de lecture doivent apparaître (a) sur la même page que les items, ou (b) sur la page de gauche, avec les items correspondants sur la page de droite, pour permettre aux élèves de naviguer facilement entre les items et le texte. En revanche, la page de couverture du carnet de pré-test ne doit pas obligatoirement contenir les informations requises pour le test définitif. Les informations suivantes doivent toutefois y figurer : école, année scolaire, sexe, antécédents linguistiques, âge. Comme les don- nées du pré-test ne font généralement pas publiées, il n’est pas néces- saire de demander le nom des élèves pour le pré-test. De même, 78 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES certaines informations contextuelles nécessaires dans le test définitif ne sont pas forcément requises pour le pré-test. Enfin, la mise en page des items doit être harmonisée dans tous les formulaires. La liste de contrôle ci-dessous peut être utile au moment de la préparation ou de l’impression des supports de pré-test : • En-têtes (grands et clairs) • Marges : en haut, en bas, à gauche et à droite (harmonisées) • Pagination (harmonisée) • Numéros d’items (grands et clairs) • Identifiants des items (appliqués) • Lignes destinées aux réponses des élèves (claires et de longueur adéquate) • Formulation des items (police 12 ou 14) • Nombre de mots par ligne (10 à 12) • Support de stimulus (clair, de préférence dans une police diffé- rente de celle des items) • Support de stimulus et items associés (sur une même page ou des pages opposées) • En-têtes et pieds de page (harmonisés et utiles) • Vérification orthographique (achevée). Certains tests incluent des options de notation en gris. Par exemple, les scores 0 et 1 peuvent être respectivement attribués à un item noté « incorrect » et « correct ». En règle générale, le score 9 identifie les items sans réponse, comme mentionné au chapitre 3. Les correcteurs peuvent simplement entourer le score approprié. Les scores intégrés aux pré-tests rappellent aux correcteurs l’éventail des options de notation. Tous les carnets de tests et les manuels d’administration doivent être rigoureusement relus. Les relecteurs doivent tenter de répondre aux items comme s’ils passaient réellement le test. Ils doivent s’assu- rer que les supports satisfont aux critères suivants : • Les instructions initiales et les exemples types d’items sont clairs et sans ambiguïté. • Les items sont clairs et sans ambiguïté. • Le support de stimulus est clair et facile à lire. RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 79 • Les options à choix multiple comprennent une réponse correcte et d’autres options clairement incorrectes. • Chacune des réponses d’une question à choix multiple doit être plausible. • Un espace suffisant est laissé aux élèves pour inscrire leur réponse, le cas échéant. • Le support de stimulus du test de lecture se trouve sur la même page que les items, ou sur une page de gauche, avec les items sur la page de droite. • Les items d’une même unité sont indépendants, c’est-à-dire que la réponse à un item n’est pas donnée dans l’énoncé ni dans les options de réponse d’un autre item. • Les items de liaison sont identiques. • Il n’y a aucune faute d’orthographe ou de grammaire. • La mise en page des différents formulaires de test est harmonisée. La relecture est d’une importance cruciale. De graves erreurs peuvent s’insérer ou ont pu s’insérer à presque toutes les étapes du processus de pré-test. S’il contient des erreurs typographiques et des incohérences, un pré-test peut constituer une sérieuse perte de temps, d’énergie et d’argent. L’utilité des données s’en trouve réduite, car des items de pré-test incorrects ne peuvent être utilisés dans la version définitive du test. Par conséquent, il est primordial de faire appel à des relecteurs qualifiés et de consacrer suffisamment de temps à la relec- ture et la révision. Les carnets de pré-test doivent également être relus au retour de l’imprimerie. Des vérifications aléatoires de chaque lot ou boîte de carnets doivent être effectuées pour s’assurer des points suivants : • Toutes les pages ont été imprimées clairement. • Les pages apparaissent dans le bon ordre. • Les pages n’ont pas été imprimées en double. • Le support de stimulus de lecture de chaque unité se trouve sur la bonne page. • Les illustrations sont claires. Les carnets de pré-test doivent être imprimés et vérifiés bien avant d’être envoyés dans les écoles. Ce planning laissera le temps 80 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES nécessaire pour procéder à une réimpression si nécessaire. Les pré- tests étant généralement imprimés en petite quantité, la réimpres- sion, le cas échéant, sera un poste de dépense relativement faible. MISE EN ŒUVRE DU PRÉ-TEST Les élèves ne doivent avoir aucun doute sur la manière d’inscrire leur réponse à chaque item ou question durant les étapes du pré-test ou du test définitif. Les tests sont destinés à évaluer les savoirs dans un certain nombre de domaines, et non la capacité des élèves à deviner comment présenter leurs réponses. Au cours du pré-test, les élèves doivent avoir suffisamment d’occasions, au début du pré-test et de chaque section de ce dernier, de s’entraîner sur des exemples types d’items. Il est particulièrement important de donner un nombre suffisant d’exemples types d’items à choix multiple (par exemple, trois ou quatre) aux élèves qui ne sont pas familiarisés avec ces for- mats dans leur système éducatif. Le nombre d’items dans les formulaires de pré-test peut être iden- tique ou légèrement inférieur à celui des tests définitifs. Il importe que tous les élèves tentent de répondre à la totalité des items du pré- test. Si celui-ci est trop long, ou s’il comprend un trop grand nombre d’items difficiles à la fin, peu de réponses seront données aux derniers items. Commencez chaque formulaire par des questions faciles afin d’en- courager les élèves plus faibles à tenter le test. Il est souvent souhai- table de mélanger le niveau de difficulté des items suivants afin que les élèves ne renoncent pas à faire le test s’ils rencontrent une série d’items difficiles. Essayez de prévoir un niveau global de difficulté similaire dans chaque pré-test. Évitez de concentrer les items diffi- ciles dans un formulaire : les élèves seront tentés d’abandonner. Dans un tel cas, les items de la fin du formulaire ne produiront pas suffisam- ment de données pour l’analyse des pré-tests. Le pré-test offre l’occasion de tester différentes versions d’items dans des formats variés. Par exemple, un item peut être pré-testé dans un format de question à choix multiple et un format de réponse ouverte (encadré 4.1). RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 81 ENCADRÉ 4.1 Exemple d’item dans un format à choix multiple et un format ouvert 13 + 7 + 8 = (A) 28 (B) 30 (C) 38 (D) 110 OU 13 + 7 + 8 = ________________ Plusieurs formulations d’items ouverts peuvent également être pré-testées. Notez que les différentes versions d’un item ne doivent pas être utilisées en guise d’items de liaison ; les items de liaison doivent être toujours identiques. CORRECTION DU PRÉ-TEST La collecte des données du pré-test ou du test pilote vise à obtenir des informations qui aideront à sélectionner des items de qualité pour le test définitif. En règle générale, il n’est pas nécessaire de relier les scores et le nom des élèves. Les éléments clés de la correction d’un pré-test sont le contrôle qualité et l’égalité de traitement des réponses des élèves. Toutes les corrections nécessitent des procédures de contrôle qua- lité. La correction des pré-tests et la saisie des données sont générale- ment économiques quand elles sont manuelles, car le nombre d’items est gérable. Dans ce cas, les correcteurs et les opérateurs de saisie doivent être bien formés. Le responsable de la conception du test doit s’assurer que la qualité de leur travail est vérifiée deux fois par jour afin d’en garantir la cohérence et la fiabilité. Ces contrôles peuvent être plus fréquents au cours des premières étapes, quitte à les réduire plus tard si le travail du correcteur est jugé satisfaisant. Il est utile de connaître le pourcentage d’élèves qui n’ont pas tenté de répondre aux items du pré-test : cela peut permettre de mieux 82 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES structurer la version définitive du test. Voici quelques orientations générales relatives à cette question : • Si 15 % des élèves ou plus n’ont pas tenté de répondre à plusieurs items à la fin du test, il est possible que le pré-test soit trop long. Envisagez de créer un test définitif plus facile, plus court ou les deux. • Si 15 % des élèves ou plus n’ont pas tenté de répondre à un item qui ne se trouve pas à la fin du test, il est possible que l’item soit mal présenté ou trop difficile. Il se peut que les élèves aient omis d’y répondre, ou n’aient pas su comment y répondre, ou encore n’en aient pas compris la formulation. Envisagez une modification et le prétest d’un nouvel item. • Si un groupe de population (par exemple, au moins 15 % des filles) n’a pas tenté de répondre à un item auquel les autres ont répondu, il est possible que cet item soit biaisé. Envisagez de l’exclure du test définitif. • Si 15 % ou plus des élèves ont systématiquement omis de répondre à un format précis d’items (par exemple, des questions ouvertes), il est possible qu’ils n’aient pas compris comment présenter leurs réponses, ou qu’ils aient eu besoin d’apprendre comment répondre à ce format d’item. Envisagez d’ajouter davantage d’exemples types d’items dans ce format et de pré-tester de nou- veau ces items. En général, les réponses manquantes sont sanctionnées par le score 9. Assurez-vous que le score 9 ne sera jamais attribué dans ce test à une réponse correcte. Le cas échéant, utilisez la lettre X (ou toute autre lettre de l’alphabet) pour identifier les réponses manquantes. Les évaluateurs et les correcteurs ne doivent avoir aucun doute quant aux règles de notation des réponses manquantes. Une réponse manquante est généralement une réponse où l’élève n’a rien marqué au crayon. Toute tentative de répondre à un item, même illisible ou incompréhensible, est généralement traitée comme une réponse incorrecte, et non comme une réponse manquante. Des guides de notation des items à choix multiple doivent être élaborés pour permettre au responsable de la conception ou au révi- seur du test de tirer un maximum de données utiles de chaque item. RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 83 Par exemple, un item à choix multiple présentant quatre options de réponse pourra être codé de la manière suivante : 1, 2, 3, 4, 8 ou 9. Vous pouvez utiliser davantage de chiffres pour refléter un plus grand nombre d’options. Les chiffres 1, 2, 3 et 4 indiquent l’option sélectionnée par l’élève. Le code 7 peut être utilisé pour indiquer qu’un élève a sélectionné deux options ou plus et qu’il ne comprend probablement pas com- ment répondre à un item à choix multiple. Dans le Volume 4 de cette série, Analyser les données issues d’une évaluation nationale des acquis scolaires, nous utilisons le code 8 pour indiquer que l’élève n’a pas tenté de répondre à l’item, et 9 quand l’item concerné n’a pas été administré à l’élève (puisqu’il apparaissait dans un autre formulaire de test) et qu’il ne doit donc pas être noté incorrect. Les items à choix multiple ne doivent jamais être saisis sur ordina- teur comme corrects ou incorrects. La mise en page des items à choix multiple doit suivre un système de numérotation implicite allant de 1 à 4 ou 5, selon le nombre d’options. Le correcteur ou l’opérateur de saisie des données enregistre sim- plement le numéro (implicite) de l’option sélectionnée par l’élève pour chaque item à choix multiple. Il n’est pas nécessaire que le cor- recteur ou l’opérateur de saisie connaisse la bonne option, ou qu’il sache si la réponse de l’élève est correcte ou incorrecte. Un exemple de fiche de saisie de données est proposé dans l’encadré 4.2. Le rédacteur d’items doit fournir à l’analyste des données la liste des options correctes ou clés de chaque item, que l’analyste saisira dans le programme informatique. Le logiciel d’analyse identifie ENCADRÉ 4.2 Exemple de fiche de saisie de données pour un pré-test Ordre d’apparition des Élève Q1 Q2 Q3 Q4 ← questions dans le pré-test Ahmed Buta 2 3 2 1 Options sélectionnées par Miriam Wisim 4 3 2 4 }← chaque élève pour chaque Almet Duras 2 3 1 4 item 84 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ensuite chaque réponse correcte ou incorrecte de l’élève en fonction de la liste des clés. Pour les rédacteurs d’items, il est utile de savoir quelles options incorrectes ont été sélectionnées par les élèves : ce sont des informations précieuses sur la qualité des items à choix mul- tiple et leur pertinence dans le test définitif. Par exemple, si quasi- ment aucun élève ne sélectionne l’une de deux options incorrectes, il est évident que ces deux options ne sont pas des distracteurs efficaces. Les items à réponse construite fermée et les items ouverts sont généralement notés de la manière suivante, à savoir 0 (incorrect), 1 (correct) ou 9 (réponse manquante). Un item à crédit partiel peut être noté 0, 1, 2 ou 9. La notation manuelle des items de pré-tests implique une forma- tion et un contrôle qualité similaires à ceux de la notation manuelle du test définitif. Cette formation doit être dirigée par un rédacteur d’items confirmé, qui supervisera également la notation des items du pré-test. Le CD joint contient des exemples de guides de notation pour des items ouverts de langue, de mathématiques et de sciences. Les rédacteurs d’items doivent utiliser les réponses du pré-test pour réviser et peaufiner leurs guides et catégories de notation avant que la notation du pré-test ne débute. Toujours avant le début de la notation manuelle, les rédacteurs d’items doivent extraire un échantillon des carnets de pré-test complétés et comparer les réponses des élèves aux items à réponse courte et les réponses anticipées dans les guides de notation. Les rédacteurs d’items doivent également utiliser les échan- tillons pour inclure des exemples de réponses d’élèves dans leurs guides de notation. Ces guides doivent comprendre des réponses cor- rectes et incorrectes. Le guide de notation à crédit partiel de l’encadré 3.12 propose des exemples réels de réponses d’élèves correspondant à chacune des catégories du guide de notation, y compris les scores zéro. Les rédacteurs d’items doivent peaufiner ou élargir leur guide de notation pour tenir compte de l’éventail des réponses que les élèves peuvent donner. Il peut arriver que ces révisions soient conséquentes. Les élèves ont tendance à donner des réponses correctes inattendues ou à exprimer leurs idées de manière inhabituelle mais exacte. S’ils sont raisonnablement fréquents, de tels exemples doivent être inté- grés aux guides de notation. Si de nombreux élèves donnent des RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 85 réponses difficiles à catégoriser comme correctes ou incorrectes, les rédacteurs d’items doivent clarifier leurs guides de notation et bien expliquer la différence entre les deux. Les guides de notation doivent ensuite être examinés par un comité de révision ou par le responsable de la conception du test avant que la correction des carnets de pré-test. Au cours de la notation manuelle, les rédacteurs d’items doivent recevoir des feedback des correcteurs sur les améliorations supplé- mentaires à apporter aux guides de notation. Si d’importantes révi- sions doivent être apportées dans le guide de notation pour un item particulier, il sera éventuellement nécessaire de recorriger cet item en fonction du guide de notation révisé, pour en garantir la cohérence. Il est essentiel de réviser les guides afin que les critères de notation et les exemples donnés correspondent à l’éventail des réponses pro- duites par les élèves. Si les guides ne sont pas révisés, certains items pourraient être perdus dans le cas où aucune réponse des élèves ne satisfait aux exigences trop strictes du guide. Il est également possible que la notation d’autres items ne soit pas fiable parce que les correc- teurs, ignorant comment noter des réponses non répertoriées dans les directives de notation, auront fait appel à leur jugement personnel. En règle générale, un score plus élevé pour un item à crédit partiel identifie une réponse plus sophistiquée ou plus exhaustive : le score 2 est « meilleur » que le score 1. Les données relatives aux items à crédit partiel des pré-tests peuvent être utilisées pour collecter des informa- tions sur les catégories de réponses susceptibles de contribuer à peau- finer les items ou les guides de notation des pré-tests. Les réponses à un item à crédit partiel de pré-test peuvent être codées 0, 1, 2 ou 3, bien que ces scores ne soient pas forcément hiérarchiques. Dans ces sys- tèmes de notation non hiérarchique, le score 3 n’est pas considéré meilleur que le score 2 ou 1. Chacun des scores 1, 2 ou 3 représente un type de réponse correct mais différent. Par exemple, il est possible qu’un problème mathématique comporte trois solutions. Le guide de notation peut être assez complexe pour rendre compte de ces trois possibilités. Si tous les élèves du pré-test choisissent la même méthode, il se peut que le rédacteur d’items décide de réviser le guide de nota- tion pour se concentrer sur la méthode la plus populaire, en mention- nant brièvement d’autres possibilités. Le guide de notation sera alors 86 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES révisé pour le test définitif et accordera le score 1 à toute réponse cor- recte, quelle que soit la méthode utilisée pour résoudre le problème. Les rédacteurs d’items doivent informer l’analyste de données quand des items à crédit partiel sont utilisés pour représenter des catégories plutôt que des hiérarchies, ce qui lui permettra de différen- cier les réponses. L’analyste peut attribuer le score 1 à chaque catégo- rie de réponse correcte. Il est donc particulièrement important que les correcteurs comprennent quand ils notent des items hiérarchiques à crédit partiel et des catégories à crédit partiel. Dans les tests définitifs, tous les items à crédit partiel doivent être traités comme des items hiérarchiques. Le Volume 4 de cette série, Analyser les données issues d’une évalua- tion nationale des acquis scolaires, consacre une section spéciale à l’analyse des données des tests pilotes ou pré-tests. Il traite aussi bien des approches de l’analyse basées sur la théorie classique des tests (TCT) que sur la théorie de la réponse à l’item (TRI). La TRI est fré- quemment utilisée dans l’analyse d’items de test, dans la liaison des formulaires de test, et dans l’élaboration d’échelles pour rendre compte des résultats d’une évaluation nationale (Beaton et Johnson, 1989). Elle présente un certain nombre d’avantages lorsqu’elle est appliquée à la mise à l’échelle des données d’évaluation. La TRI per- met de caractériser un item indépendamment de tout échantillon d’individus qui y répond, et permet de caractériser un répondant indépendamment de tout échantillon d’items qui lui a été administré. La TRI est de ce fait particulièrement utile lorsque plusieurs séries d’items sont soumises aux élèves au cours d’une évaluation. Cependant, elle présente également certains inconvénients, notam- ment la complexité de sa procédure, qui requiert une compétence et une expérience considérables. Si de telles compétence et expérience ne sont pas disponibles dans un pays, le recours à la TCT peut être considéré comme acceptable. FIABILITÉ Le pré-test et le test définitif doivent tous deux prouver la fiabilité du test. La mesure de la fiabilité est un indicateur de la cohérence des RÉALISATION D’UN TEST PRÉLIMINAIRE DES ITEMS | 87 résultats du test. La fiabilité dépend de la qualité des items de test, du test lui-même, de la manière dont les tests ont été administrés, des caractéristiques du groupe d’élèves (par exemple, les efforts que ceux-ci déploient pendant le pré-test ou les tests d’évaluation natio- nale), et la qualité de la notation des items du test. La question de la fiabilité est abordée dans le Volume 4, Analyser les données issues d’une évaluation nationale des acquis scolaires. Les indices de fiabilité des tests varient entre 0 et 1, où 0 représente un test dans lequel les réponses des élèves sont totalement incohé- rentes (par exemple, un test où tous les élèves choisissent au hasard les réponses de tous les items), et 1 représente un test qui mesure un domaine avec une cohérence absolue. L’organisme d’exécution doit obtenir des preuves de fiabilité de la mesure dans laquelle les items individuels du pré-test sont corrélés. Ces informations permettront de mesurer la cohérence interne des items du test. Notez que cette approche suppose que les items sélec- tionnés mesurent un seul construct ou aspect, tel que les mathéma- tiques ou l’aptitude linguistique. Normalement, les équipes d’évaluations nationales et internationales ont tendance à écarter les items qui ne sont pas relativement homogènes, à savoir ceux qui ne mesurent pas un seul construct ou aspect. L’homogénéité peut être évaluée à l’aide de l’alpha de Cronbach, des formules 20 ou 21 de Kuder-Richardson, ou d’un coefficient de fiabilité fractionnée, des méthodes comprises dans le logiciel statistique SPSS©. Si les tests d’évaluation comprennent des items à question ouverte ou à réponse libre, l’organisme d’exécution doit établir que la méthode de notation est fiable. L’organisme doit également s’assurer que chaque correcteur ou évaluateur d’items ouverts est formé à juger si la réponse d’un élève est acceptable. Dans le cadre de cette formation, les correcteurs doivent travailler avec l’équipe de conception du test pour créer une liste de réponses acceptables et inacceptables pour chaque question ouverte. Suite à cette formation, les correcteurs tra- vaillant en binômes indépendants devront noter chaque item ouvert sur un minimum de 60 carnets de pré-test sélectionnés de manière aléatoire. Le pourcentage de correspondance exacte entre les correc- teurs sur la série complète d’items sera ensuite calculé. L’organisme d’exécution devra demander aux concepteurs du test de clarifier les 88 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES situations dans lesquelles il apparaît que les correcteurs peinent à déterminer si une réponse donnée est acceptable ou non. La rigueur de la correction des items ouverts du pré-test doit contribuer à éviter les désaccords sur les réponses acceptables et inacceptables lors de la correction des items au cours de l’évaluation nationale. Le CD joint contient plusieurs exemples de notation d’items ouverts. CHAPITRE 5 SÉLECTION DES ITEMS DE TEST La sélection des items de pré-test pour le test définitif (voir Volume 4, Analyser les données issues d’une évaluation nationale des acquis scolaires) dépend en premier lieu et surtout du cadre d’évaluation, notamment du plan détaillé, et en second lieu, des propriétés de mesure des items. En règle générale, les critères de sélection suivants sont adoptés pour chaque item1 : • L’item correspond au plan détaillé. • Le pourcentage des élèves répondant correctement à l’item varie entre 40 et 80 %. • Le taux de réponses manquantes à l’item est faible. • L’indice de discrimination (corrélation entre le score de l’item et le score global du test) est supérieur à 0,2. • La fiabilité du test est améliorée par l’intégration de l’item dans le test. • Le biais de l’item se situe dans des limites acceptables pour les principaux groupes d’élèves. 89 90 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les considérations suivantes sont spécifiques aux items à choix multiple : • Le point bisérial de la clé est positif et supérieur à 0,2. • Tous les distracteurs sont plausibles (c’est-à-dire qu’ils ont été sélectionnés par au moins 5 % des élèves) et ont des points bisé- riaux nuls ou négatifs. Le tableau 5.1 présente les résultats typiques de l’analyse d’un item à choix multiple. Statistiquement, l’item fonctionne convenablement. Les en-têtes des colonnes montrent le nombre de catégories ou options de l’item (A, B, C, D). L’Option D est la clé, ou option cor- recte, et elle est représentée par le score (1) entre parenthèses. Les options A, B et C sont représentées par le score (0) entre parenthèses. La ligne « Nombre » indique le nombre d’élèves ayant choisi chaque option : 254 élèves ont choisi l’option correcte. La ligne « Pourcentage » correspond aux données en pourcentage (nombre d’élèves exprimé en pourcentage). Soixante-sept pour cent des élèves ont choisi l’op- tion correcte. Ce résultat montre que l’item se situe dans une plage de difficulté acceptable. L’item est donc relativement facile. Seuls 3,7 % des élèves ont choisi l’option B, suggérant qu’elle est faible ou peu plausible. Pour améliorer l’item et rendre l’option plus plausible, il faut probablement le reformuler et lui faire subir un nouveau pré- test. La ligne suivante indique le point bisérial de chaque option. Le point bisérial de la bonne réponse est de 0,39. Le point bisérial pour les options incorrectes est à chaque fois négatif. Pour les items à choix multiple, le point bisérial de la clé est égal à l’indice de discrimination de l’item. La dernière ligne indique l’aptitude moyenne. L’aptitude TABLEAU 5.1 Exemple de résultats de l’analyse d’un item à choix multiple Option Critères A [0] B [0] C [0] D [1] Nombre 90 14 21 254 Pourcentage 23,7 3,7 5,5 67,0 Point bisérial −0,26 −0,21 −0,16 0,39 Aptitude moyenne −0,02 −0,48 −0,14 0,54 SÉLECTION DES ITEMS DE TEST | 91 moyenne des élèves ayant choisi la bonne réponse est nettement supérieure à celle des élèves ayant choisi les réponses incorrectes. Ce résultat prouve également que l’item fonctionne bien. Les considérations suivantes sont spécifiques aux items ouverts : • Si l’item est à score dichotomique, l’indice de discrimination (corrélation entre le score de l’item et le score global) est supé- rieur à 0,2. • Si l’item est à crédit partiel, la discrimination est positive et supé- rieure à environ 0,3. • Si l’item est à score dichotomique, la plupart des items se situeront dans une plage de difficulté de 40 à 80 %. • Si l’item est à crédit partiel, chaque catégorie de score attire au moins 5 % des réponses. • Si l’item est à crédit partiel, le pourcentage global des élèves qui ont un item correct, calculé en combinant les réponses aux diffé- rentes catégories partiellement correctes, se situe dans une plage de 40 à 80 %. • Si l’item est à crédit partiel, l’aptitude moyenne des élèves baisse nettement de la catégorie de réponses la plus élevée à la plus basse pour les items à crédit partiel. Le tableau 5.2 reprend les résultats typiques de l’analyse d’un item ouvert à crédit partiel donnant de bons résultats statistiques. Les en- têtes des colonnes indiquent les catégories de réponses des élèves. Les élèves obtiennent zéro quand ils ont mal répondu à l’item. Les réponses partiellement correctes sont notées 1, et les réponses entiè- rement correctes sont notées 2. Les réponses manquantes sont indi- quées par un 9, et reçoivent également le score 0. L’indice de discrimination global est de 0,47, soit une valeur élevée. Il convient de noter que, pour les items à crédit partiel, l’indice de discrimination n’est pas égal au point bisérial de la catégorie de scores la plus élevée. Le nombre et le pourcentage de réponses correctes sont indiqués dans les deux premières lignes. Près de la moitié des élèves qui ont tenté cet item ont donné une réponse incorrecte. Plus de 5 % ont répondu à chacune des catégories à crédit partiel, démontrant qu’il est utile de les conserver. Le point bisérial augmente du score 0 au score 2, indi- quant que les catégories sont conformes aux attentes. L’aptitude 92 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES TABLEAU 5.2 Exemple de résultats de l’analyse d’un item ouvert à crédit partiel Catégorie de la réponse de l’élève Indice de Critères 0 [0] 1 [1] 2 [2] 9 [0] discrimination = 0,47 Nombre 1 466 425 268 809 Pourcentage 49,4 14,3 9,0 27,3 Point bisérial 0,09 0,11 0,45 −0,48 Aptitude moyenne −1,66 0,53 0,90 −1,90 moyenne des élèves ayant obtenu des scores de catégorie 2 est de −0,9. Celle des élèves ayant obtenu des scores de catégorie 1 est de −1,53. La différence est supérieure à 0,5, favorisant le maintien des deux catégories dans le guide de notation, puisqu’elles font la distinc- tion entre des élèves aux aptitudes très différentes. Le pourcentage d’élèves – 27,3 % – qui n’ont pas tenté de répondre à cet item est assez élevé. Ce chiffre doit être examiné en fonction du nombre de réponses manquantes dans l’ensemble du test. Dans ce cas particulier, la plupart des items ouverts affichent des pourcentages de réponse manquante supérieurs à 20, notamment parce que les élèves ne sont pas habitués à ce type d’items et sont réticents à y répondre, et non parce que cet item pose des difficultés. Le niveau global de difficulté du test définitif doit être adapté à l’objectif visé. Un test définitif destiné à assurer le suivi de la perfor- mance de tous les élèves de la population cible doit présenter une gamme de difficultés correspondant aux capacités de cette popula- tion. Les évaluations conçues à des fins différentes, comme l’identifi- cation des élèves dépassant un niveau de référence prédéfini, peuvent comprendre de nombreux items faciles et de nombreux items diffi- ciles, en fonction de la valeur de référence utilisée. L’expérience acquise dans la conception des pré-tests d’évaluation nationale suggère que les rédacteurs d’items ont tendance, dans l’en- semble, à rédiger des items trop difficiles. Cette tendance peut prove- nir en partie d’expériences antérieures dans la rédaction de questions pour des examens publics, dans lesquels le niveau de difficulté SÉLECTION DES ITEMS DE TEST | 93 recherché est relativement élevé. De plus, de nombreux rédacteurs d’items de pré-tests vivent dans des zones urbaines et n’ont pas une bonne appréciation des faibles niveaux d’acquis dans les zones rurales reculées. Si un grand nombre d’items d’un pré-test sont trop difficiles, et que ce pré-test ne comporte pas assez d’items faciles pour correspondre aux critères du plan détaillé, il faudra entreprendre une nouvelle série de pré-tests avec un nouvel ensemble d’items plus faciles. De même, si le nombre d’items difficiles est insuffisant, des pré-tests supplémen- taires avec des items plus difficiles s’imposent. L’analyste des données du test définitif doit aussi analyser les don- nées du pré-test. Tout problème lié à la manière dont les rédacteurs d’items fournissent les informations sur la classification des questions et des clés ou la manière dont les questions ont été notées peut être résolu lors de l’analyse du pré-test. L’équipe de rédacteurs d’items doit être impliquée dans l’interpré- tation de l’analyse des données des pré-tests et dans les décisions de suppression de certains items dans le test définitif ou le maintien d’items statistiquement faibles. Les décisions relatives à l’inclusion ou l’exclusion d’items doivent tenir compte du plan détaillé, et des domaines du programme de cours que le test doit évaluer. Habituellement, un seul formulaire de test est utilisé pour chaque niveau scolaire. Il peut se composer de deux ou trois tests distincts, comme un test de mathématiques, un test de lecture et un test d’écri- ture. Ces épreuves peuvent être regroupées dans un seul carnet ou imprimées dans des carnets séparés. Les questions applicables au pré-test concernant la nécessité d’items de liaison, ainsi que leur sélection et leur placement, devront s’appliquer également au test définitif, si plusieurs formulaires ont été choisis. Certains items peuvent être très sensés sur le plan conceptuel, mais statistiquement faibles. Cela peut indiquer un problème dans la pré- sentation de l’item. Les élèves peuvent être déroutés par le vocabu- laire utilisé ou par la manière dont ils sont tenus de présenter leurs réponses, ou encore le support de stimulus peut être source de confu- sion. En principe, les items donnant de mauvais résultats doivent être révisés et de nouveau pré-testés. Néanmoins, si des items donnant de 94 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES médiocres résultats répondent à des critères importants du plan détaillé et qu’aucun autre item n’est disponible, il peut se révéler nécessaire de les conserver malgré tout dans le test définitif. En règle générale, les items ne doivent jamais être modifiés entre le pré-test et le formulaire définitif, car une telle modification pourrait affecter les statistiques de l’item de manière imprévisible. Dans la pratique, les organismes de tests ont tendance à apporter des modifi- cations mineures à quelques items (en général pas plus de 4 ou 5 dans un test de 30 items). Ces modifications mineures peuvent être les suivantes : • Changer un ou deux mots pour améliorer la clarté, ou réduire les difficultés de vocabulaire • Supprimer l’option la plus faible dans un item à choix multiple comportant cinq options • Corriger des fautes de grammaire ou améliorer la clarté de l’expression • Améliorer la mise en page, comme par exemple la position des identifiants dans un diagramme ou la cohérence des titres. REMARQUE 1. Les exemples utilisés dans ce chapitre sont basés sur des analyses d’items utilisant l’approche classique de la théorie des tests. Le Volume 4 de cette série (Analyser les données issues d’une évaluation nationale des acquis scolaires) traite de cette approche dans le détail. Il a également recours à une autre méthode d’analyse des items : la théorie de la réponse à l’item, dont l’approche statistique est différente et qui présente quelques variantes terminologiques. CHAPITRE 6 PRODUCTION DU TEST DÉFINITIF CONCEPTION DU TEST DÉFINITIF L’analyste de données ou le statisticien doit participer à la conception de la version définitive du test. Il (elle) doit s’assurer que la concep- tion répond aux exigences suivantes : • Le format des informations contextuelles relatives à l’élève qui figurent sur la page de couverture convient à l’analyse. • La méthode d’enregistrement des réponses à l’item convient à l’analyse. • La nature et l’exhaustivité des guides de notation conviennent à l’analyse. • Les liens horizontaux avec les données des tests des années précé- dentes ou les liens verticaux susceptibles d’être exigés ont une cohérence statistique. Les renseignements contextuels sur l’élève demandés sur la cou- verture des carnets de test se rapportent à l’objectif du test et à la méthodologie des rapports concernant les données. Les élèves doivent 95 96 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES pouvoir fournir les informations demandées facilement et avec exac- titude. Celles-ci comprennent généralement les éléments suivants : • Nom de l’école • Nom et prénom de l’élève • Sexe de l’élève • Âge ou date de naissance de l’élève • Année scolaire ou classe de l’élève • Antécédents linguistiques de l’élève. Dans certains pays, les élèves possèdent un numéro d’identification nationale unique. Le cas échéant, ces numéros doivent être utilisés. Sur la page de couverture, il convient également d’inclure la possi- bilité pour l’administrateur du test d’indiquer si les élèves ont raté tout ou partie du test parce qu’ils étaient absents ou pour raison de maladie, ou encore si les élèves handicapés ont bénéficié d’une aide spéciale pour passer le test (voir l’encadré 6.1). En général, il est plus facile de s’assurer que l’identité des élèves est bien enregistrée et associée aux données appropriées quand les tests de toutes les matières sont regroupés dans un seul carnet. Les pro- blèmes d’identification sont généralement évités quand les informa- tions de la page de couverture sont lisibles et exactes, et saisies avant la première séance de test. Si un carnet unique est utilisé, l’adminis- trateur doit veiller à ce que chaque carnet soit remis à l’élève appro- prié avant chaque séance de test ultérieure. Si les candidats doivent remplir plusieurs carnets de tests, il convient de mettre en place des procédures permettant d’éviter les risques suivants : • Les élèves peuvent épeler leurs noms différemment sur chaque carnet. • Les élèves peuvent utiliser des noms différents sur chaque carnet (par ex., une forme abrégée sur un carnet et leur nom et prénom sur d’autres, un nom religieux ou usuel sur l’un et un nom de famille sur l’autre, ou un prénom sur l’un et un second prénom sur un autre). • Les élèves peuvent inscrire de manière illisible l’intégralité ou une partie de leur nom sur au moins un des carnets. • Les élèves peuvent omettre d’inscrire leurs noms sur un ou plu- sieurs carnets. PRODUCTION DU TEST DÉFINITIF | 97 ENCADRÉ 6.1 Exemple de page de couverture de test ÉVALUATION DU SUIVI SCOLAIRE : IVe ANNÉE Section à remplir par l’élève : École Province Année du niveau scolaire Prénom Nom de famille Je suis un garçon. Je suis une fille. Âge ans et mois Je parle le plus souvent anglais à la maison. Oui Non Section à remplir par l’administrateur du test : Cet étudiant était absent pour les tests suivants de ce carnet : Lecture Mathématiques Cet élève a reçu une aide spéciale pour : Lecture Mathématiques Décrire l’aide spéciale fournie : Source : Ministère de l’Éducation de Papouasie-Nouvelle-Guinée, 2004. Les directives sur la mise en page et l’administration du test doivent être claires et cohérentes. Dans la mesure du possible, le pré-test et le test définitif doivent être présentés de la même manière. Pour encourager les élèves les plus faibles, le test doit commencer par quelques items faciles, et se poursuivre avec des items de difficul- tés diverses, dans un ordre aléatoire, afin que les élèves ne butent pas sur une série d’items difficiles et ne soient pas tentés d’abandonner. Pour que les élèves plus lents puissent tenter des items plus difficiles, il convient de les insérer suffisamment tôt dans le test. Enfin, les items complexes doivent être situés à la fin du test, les élèves en difficulté étant moins susceptibles de l’achever. Les items liés à un stimulus commun (par exemple, un paragraphe ou une carte) doivent être regroupés, quel que soit le niveau de difficulté de l’item. 98 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les directives sur le positionnement des items de liaison sont iden- tiques pour le test définitif et le pré-test (voir le chapitre 4). Les items de liaison horizontale sont nécessaires pour faire le lien avec un test précédent lorsque la performance est comparée sur la durée. Les liaisons verticales sont nécessaires pour comparer la performance entre les différents niveaux de scolarité. Les items de liaison doivent être placés (a) au début ou vers le milieu du carnet et (b) au même endroit dans chaque carnet de test. Les identifiants des items doivent être imprimés en caractère grisé sur les carnets afin d’assurer leur suivi (voir le chapitre 3). Le responsable de la conception des tests doit remettre à l’analyste de données une feuille de calcul indiquant l’emplacement des items dans chaque carnet, y compris les items de liaison. La méthode d’inscription des réponses par les élèves doit être choi- sie au moment de la conception du plan détaillé (voir le chapitre 2). Il est fréquent que les élèves répondent aux items dans les carnets de test. La mise en page des items doit être telle que les élèves ont suffi- samment d’espace pour rédiger leurs réponses. Un espace doit égale- ment être prévu pour les scores des correcteurs. Dans d’autres cas, notamment pour les niveaux de scolarité plus avancés, des formulaires différents peuvent être prévus pour les réponses. Ces formulaires de réponse doivent clairement indiquer comment associer la réponse à l’item, ou l’option imprimée du car- net de test à la position appropriée sur le formulaire de réponse. Si les items du test sont organisés par unités, il sera utile de présenter le formulaire de réponse par unités similaires. IMPRESSION ET CORRECTION La longueur du carnet de test dépend des facteurs suivants : • Nombre de domaines d’évaluation traités • Ampleur des domaines d’évaluation traités • Format d’item • Utilisation d’illustrations • Longueur des supports de stimulus PRODUCTION DU TEST DÉFINITIF | 99 • Taille de la police • Niveau de financement de l’impression. Les rédacteurs d’items doivent connaître dès le début le nombre de pages du test définitif proposé. Si la longueur du test est limitée, les supports de stimulus, ainsi que les diagrammes et autres illustrations devront également être limités. Quel que soit l’espace disponible, la présentation des items doit être claire et aérée. Les carnets de moins de 20 pages (10 feuilles) sont généralement imprimés dans un format A4 (210 X 297 millimètres) et agrafés d’un côté. Les carnets plus importants sont généralement imprimés dans un format A3 (420 X 297 millimètres) et agrafés au milieu. En règle générale, les carnets comportant un plus grand nombre de pages favorisent un éventail plus large de supports de stimulus inté- ressants et d’items faisant appel à l’imagination. En revanche, leur impression et leur diffusion sont plus coûteuses. Leur volume est plus important au stockage, en termes d’emballage et de notation, ce qui peut considérablement accroître le total des coûts. Les tests sont généralement imprimés recto-verso. Le papier doit être d’une qualité minimum suffisante pour éviter que les items imprimés au recto d’une page soient visibles au verso de la page ou qu’ils entravent la lisibilité des items au verso de la page. Les photographies nécessitent l’utilisation d’un papier de qualité supérieure, tout comme les diagrammes aux détails très précis. Si les élèves doivent rédiger leurs réponses dans les carnets de test, le papier doit être suffisamment résistant pour qu’ils puissent inscrire leurs réponses sans le déchirer et rédiger des deux côtés de la feuille sans laisser de marques sur l’autre face. La page de couverture est parfois de qualité supérieure, mais cela est susceptible d’accroître les coûts et n’est en général pas nécessaire. L’impression de carnets avec des encres de couleurs différentes pour les différents niveaux de scolarité est souvent utile. Cela permet de s’assurer que les bons carnets sont remis aux élèves appropriés. Les couleurs d’encre sélectionnées doivent être aisément lisibles. Un relecteur expérimenté doit réviser les formulaires définitifs. Il est également utile de demander à des collègues compétents n’ayant 100 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES pas participé à l’élaboration des tests de lire la version définitive pour vérifier qu’elle convient aux besoins de l’utilisateur du test. La relecture des versions définitives du test se fait à deux moments essentiels. Lorsque les versions définitives ont été assem- blées, le responsable de la conception des tests, les rédacteurs d’items appropriés, et enfin le relecteur professionnel doivent en faire la relecture. Les rédacteurs d’items doivent vérifier les correc- tions apportées par le relecteur. Les formulaires définitifs doivent être relus une deuxième fois lorsque l’imprimeur renvoie les épreuves (« bleus ») pour vérification. Les « bleus » sont les images des pages du test que l’imprimeur reproduira. En temps normal, l’imprimeur renvoie les épreuves quelques jours après avoir reçu le test. Le responsable de la conception des tests peut accepter de relire les épreuves ou préférer qu’un relecteur professionnel exécute cette tâche. Il faut prévoir au moins deux semaines pour la relecture des épreuves et des formulaires définitifs. Selon la dispo- nibilité des correcteurs des carnets, des délais plus importants peuvent être nécessaires. Les relecteurs découvrent souvent des centaines de petites erreurs, notamment une utilisation incohérente des majuscules, de la ponctuation, du formatage et de la présentation, et des fautes d’orthographe. Si la relecture des pré-tests a été suffisamment minutieuse et approfondie et peu de modifications importantes ont été apportées dans les items, la relecture des épreuves doit théori- quement révéler peu d’erreurs, voire aucune. Mais cela est rare- ment le cas. Des erreurs peuvent apparaître dans des versions définitives qui n’en contenaient auparavant aucune. Les relecteurs d’épreuves ont généralement besoin de plusieurs jours pour effec- tuer une correction minutieuse des versions définitives du test et des lignes directrices d’administration, même lorsque les pré-tests ont déjà été relus. Pour vos gros travaux d’impression, passez la commande auprès des imprimeurs plusieurs semaines ou mois à l’avance. L’imprimeur vous informera du délai d’exécution. L’équipe d’évaluation nationale peut parfois négocier des prix avantageux pour une livraison précoce, et des prix dissuasifs ou des pénalités pour livraison tardive. PRODUCTION DU TEST DÉFINITIF | 101 Les imprimeurs peuvent commettre des erreurs d’impression des carnets. L’erreur la plus courante est l’omission de certaines pages dans certains carnets. Le responsable de la conception des tests doit procéder à un contrôle aléatoire des boîtes de carnets de test définitifs imprimés pour vérifier s’il y a des erreurs. CHAPITRE 7 NOTATION MANUELLE DES ITEMS DE TEST L’équipe d’évaluation nationale doit s’assurer que les correcteurs chargés de la notation manuelle des versions définitives des tests ont reçu une formation appropriée. À ce stade, les guides de notation ou les consignes de correction (qui auront été révi- sés au cours des pré-tests) doivent être pratiquement finalisés. Avant le début de la notation manuelle finale, les rédacteurs d’items peuvent sélectionner un petit échantillon de formulaires de tests définitifs remplis, vérifier la clarté et la pertinence des guides de notation et effectuer éventuellement quelques corrections mineures. La mise en place d’un centre de correction et de processus efficaces pour la notation manuelle doit être planifiée en amont. L’équipe d’évaluation nationale doit avoir apporté une réponse aux questions suivantes avant le début des opérations : • Où sera stocké le matériel de test ? • Comment sera-t-il acheminé jusqu’aux centres de correction ? • Comment la sécurité de ce matériel sera-t-elle garantie ? (Les tests et guides de notation ne doivent pas quitter la pièce.) • Quel sera le calendrier des notations manuelles ? Seront-elles organisées par sessions de travail quotidiennes, par roulement 103 104 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES (avec la mise en place d’équipes du soir) ? Les correcteurs devront-ils travailler le week-end ? • Comment les correcteurs enregistreront-ils les données ? • Quel matériel sera nécessaire à la correction ? Des stylos rouges ou verts sont souvent privilégiés car les scores écrits dans ces couleurs sont bien visibles sur les carnets. L’utilisation de marques adhésives ou de post-it permet aux correcteurs de marquer les items nécessi- tant des renseignements. • Les correcteurs seront-ils payés en fonction du nombre de copies traitées ou du temps passé à corriger ? Les deux méthodes présentent des avantages et des inconvénients. Avec la première, les correcteurs risquent de travailler trop vite et moins bien pour noter le plus grand nombre possible de copies. Avec la seconde, ils risquent de ne pas s’impliquer totalement et d’avoir un rendement faible. Un bon compromis peut consister à payer le temps de travail, tout en exigeant un nombre minimum de copies corrigées chaque jour. L’équipe requise dans un centre de correction doit comprendre un correcteur en chef, des correcteurs responsables et des correcteurs. Les responsables du recrutement des correcteurs doivent interviewer les candidats et vérifier leurs références. Le correcteur en chef est chargé du bon déroulement des opéra- tions quotidiennes. Il ou elle s’assure que les correcteurs respectent les horaires de travail, apporte des réponses à tout problème de correction, supervise l’organisation des procédures de contrôle qua- lité et assure la sécurité des tests. Le correcteur en chef doit être un correcteur confirmé doté de compétences avérées en gestion opérationnelle, prêt à licencier les membres de l’équipe qui ne donnent pas satisfaction. Les correcteurs responsables supervisent l’évaluation dans une matière donnée et la mise en place des procédures de contrôle qualité. Chaque test doit avoir au moins un correcteur responsable (par exemple, un correcteur responsable pour les mathématiques et un autre pour la lecture). Ces correcteurs responsables devront être des spécialistes de la matière, expérimentés dans le domaine de l’évaluation et forceront le respect. NOTATION MANUELLE DES ITEMS DE TEST | 105 Les correcteurs sont chargés de noter les réponses des élèves. Les enseignants sont en règle générale de bons correcteurs. Ils devront être minutieux, constants et fiables, et maîtriser également leur domaine d’évaluation. Le responsable de la conception des tests nomme généralement des rédacteurs d’items confirmés dans les domaines concernés pour former les correcteurs. Il est préférable que le formateur des correc- teurs ait également participé à l’élaboration des items et des guides de notation. Le formateur doit être un spécialiste du domaine concerné. Le responsable de la conception des tests peut assurer la formation des correcteurs dans sa matière. Idéalement, la personne qui assure la formation des correcteurs pour les pré-tests doit être chargée de la formation pour les tests définitifs. La formation doit se dérouler sur des périodes suffisamment lon- gues pour chaque groupe de correcteurs et mettre l’accent sur leur aptitude à identifier plusieurs réponses correctes possibles. Certaines réponses peuvent ne pas correspondre aux attentes des correcteurs, différer légèrement des réponses des manuels scolaires, être mal exprimées ou formulées dans un vocabulaire inhabituel. La formation des correcteurs devra aborder les points suivants : • Les correcteurs ne sont pas libres de déterminer seuls l’exactitude d’une réponse ; aucune opinion ou préférence personnelle ne doit être tolérée. • Les élèves ne doivent pas être pénalisés pour des fautes d’orthographe ou de grammaire dans les épreuves de lecture, de mathématiques ou de sciences, sauf s’il est impossible de déchiffrer leur réponse. • Les correcteurs doivent prendre conseil auprès du correcteur responsable en cas de doute sur le score à attribuer à une réponse. • Les correcteurs doivent attribuer systématiquement le même score (généralement 0) aux réponses incorrectes, illisibles ou incompréhen- sibles, ou à celles consistant en une seule lettre ou un griffonnage. • Les correcteurs doivent attribuer systématiquement le même score (généralement 9) quand un élève n’a pas tenté de répondre à l’item – c’est-à-dire lorsqu’aucune inscription au stylo n’apparaît dans l’espace dédié à la réponse. 106 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES • Pour faciliter la saisie des données, les correcteurs doivent utiliser exclusivement les espaces prévus sur les carnets de test pour les notations manuelles. • Les correcteurs ne doivent pas être chargés d’additionner les scores pour fournir le résultat total. Au cours de la formation, il convient de s’assurer que les correc- teurs comprennent en quoi consiste la tâche de la correction et la nécessité de noter de façon uniforme. Les méthodes de formation sont variables. Celle qui est décrite ci-dessous est une suggestion, mais il en existe d’autres. • Le formateur demande aux correcteurs de répondre à chaque item noté manuellement. Ce procédé permet de familiariser les correc- teurs avec les items et de s’assurer qu’ils les ont convenablement lus et compris. • Après avoir donné quatre ou cinq carnets de test complétés à chaque correcteur, le formateur présente le premier item et explique le guide de notation, puis les correcteurs notent cet item dans leur carnet. Le formateur encourage le groupe à discuter de ses divergences ou de ses doutes sur la façon de noter une réponse. Les correcteurs sont encouragés à se communiquer les réponses différentes de l’exemple donné dans le guide de notation. Après le débat sur le premier item, le formateur passe à l’examen du deuxiè- me item et de son guide de notation. Cette méthode de forma- tion prend généralement plusieurs heures. • Les correcteurs suivent une seconde session de formation au cours de laquelle ils travaillent en binômes. Ils notent certains tests indi- viduellement puis vérifient le travail de leur collègue et discutent des items sur lesquels ils sont en désaccord. S’ils ne parviennent pas à s’entendre, ils doivent consulter le formateur. À la fin des sessions de formation, le correcteur responsable devient responsable de la gestion des correcteurs. Il doit informer le formateur de tout problème intervenant au cours de la correction des tests. • Lors des véritables sessions de correction des carnets, le correcteur responsable doit sélectionner chaque jour quelques items problé- matiques et organiser de courtes discussions à leur sujet afin de maintenir l’attention des correcteurs et l’uniformité de la notation. NOTATION MANUELLE DES ITEMS DE TEST | 107 Le contrôle qualité des items à réponse courte dans le cadre d’une évaluation nationale peut comprendre une première revérification de près de 100 % de l’ensemble des carnets de tests. Généralement, ce sont les correcteurs responsables qui effectuent la vérification. Ils peuvent réduire progressivement les opérations de revérification sur 10 à 20 % des carnets de tests au fur et à mesure que les correcteurs donnent des notations plus uniformes et plus fiables. Si le nombre des correcteurs est important, plusieurs correcteurs responsables devront assurer le contrôle qualité et fournir un feed- back rapide aux correcteurs sur leurs erreurs. Le correcteur respon- sable doit alors demander aux correcteurs de recorriger les items des carnets de tests qui contiennent ces erreurs de notation. Des procé- dures de notation de divergence doivent également être mises au point. Le cas échéant, c’est le score du correcteur responsable qui sera retenu. Un test de langue peut inclure un ou plusieurs items nécessitant une réponse sous forme de composition écrite. Les compositions écrites font souvent l’objet d’une double notation. Le deuxième cor- recteur corrige la composition écrite sans connaître le score donné par le premier. Les deux scores sont ensuite comparés. Habituellement, les écarts d’un point sont acceptés et c’est la moyenne des deux scores qui est retenue. En cas d’écart plus important, l’un des deux scores au moins doit être modifié après discussion entre les deux correcteurs. Quand ces derniers ne parviennent pas à un accord, ce différend doit être signalé au correcteur responsable qui tranchera la question. La notation manuelle nécessite une grande concentration. Les cor- recteurs ne doivent pas travailler trop longtemps dans la journée ou sans faire de pause. Le temps de travail ne doit généralement pas excéder six heures ou six heures et demie par jour. La journée de travail peut consister en une session de trois heures avec une courte pause le matin, suivie d’une session identique l’après-midi. Les cor- recteurs plus lents peuvent avoir besoin d’une demi-heure supplé- mentaire pour corriger le nombre de tests prévu par jour. Les correcteurs doivent remplir des feuilles de présence quotidiennes. PA RT I E 2 CONSTRUCTION DES QUESTIONNAIRES CHAPITRE 8 CONCEPTION DES QUESTIONNAIRES Un questionnaire est un ensemble d’items destiné à recueillir des informations auprès d’une personne. Ces informations sont variables et peuvent inclure des données sur des caractéristiques personnelles, des qualifications et des pratiques professionnelles, des conditions de travail et des ressources, ou des informations contex- tuelles sur la personne et ses attitudes, ses convictions ou ses opinions dans des domaines précis. Une évaluation nationale vise à obtenir une estimation fiable de la performance des élèves (mesurée dans un test conçu à cet effet) et des informations (mesurées dans un questionnaire) sur les variables clés associées aux écarts de résultats. Les tests recueillent des informa- tions sur la performance des élèves, et les questionnaires – utilisés en conjonction avec les tests – sur les variables susceptibles d’être asso- ciées aux écarts de performances entre les élèves, ou qui les expliquent. Par exemple, les données du questionnaire peuvent suggérer que les écoles privées de bibliothèques sont associées à une mauvaise perfor- mance des élèves, ou que les écoles dont les enseignants participent régulièrement à des programmes de perfectionnement professionnel sont associées à une très bonne performance des élèves. Ces données indiquent comment les ressources éducatives peuvent être utilement orientées vers l’amélioration de l’apprentissage des élèves. 111 112 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Un bon questionnaire collecte des données sur des variables que les responsables des politiques souhaitent mieux maîtriser, sur lesquelles ils peuvent éventuellement intervenir et qu’ils désirent influencer, ou qui, selon les données découlant des recherches, sont susceptibles de peser sur la performance des élèves. La collecte d’un nombre trop important d’informations est l’une des erreurs les plus communes dans la conception des questionnaires. Les responsables des politiques ne s’intéressent généralement qu’à un petit nombre de variables clés. Et même lorsque la collecte de certains types de données se justifie scientifiquement, la prise en compte des conséquences politiques et sociales de la collecte peut démontrer que l’évaluation nationale n’est pas le mécanisme le plus approprié pour ce faire. Il est souvent possible de collecter des informations à partir d’autres sources que les questionnaires, notamment dans les pays qui conservent des archives fiables sur les caractéristiques des écoles, des enseignants et des élèves. Il est utile de vérifier si les archives offi- cielles sont une source d’information pertinente, l’accès à ces docu- ments étant moins coûteux et plus facile à gérer que l’administration de questionnaires. La conception du questionnaire doit décrire précisément les types de données à collecter, les modalités d’analyse et de compte rendu des données, et la manière dont les résultats contribueront à l’améliora- tion de l’éducation. Les principales étapes de la conception du ques- tionnaire sont les suivantes : • Définir l’objectif du questionnaire et la manière dont les données seront utilisées. • Élaborer un plan détaillé précisant quelles personnes seront inter- rogées, les domaines d’intérêt, les types d’items et le codage ou la notation et le protocole d’administration (à compléter par un enquêteur ou la personne interrogée). • Rédiger des items, en recourant à des groupes (ou comités) de per- sonnes averties pour réviser et peaufiner les items, et concevoir la mise en page du formulaire de manière à faciliter son utilisation par les personnes testées, et le traitement des données par les opé- rateurs de saisie. CONCEPTION DES QUESTIONNAIRES | 113 • Préciser un plan d’analyse des données pour le traitement des informations recueillies et pour la création de variables et indica- teurs de mesure en vue d’une analyse statistique ultérieure. • Effectuer un pré-test ou un test de terrain du questionnaire pour s’assurer de la pertinence des items et des catégories de réponses. • Analyser les données du questionnaire de pré-test, peaufiner le questionnaire et produire le questionnaire définitif qui sera administré. Le tableau 8.1 décrit en détail les étapes de la conception du ques- tionnaire ainsi que les personnes impliquées. Les questionnaires et les instructions d’administration doivent être préparés et pré-testés ou testés sur le terrain en même temps que les tests. Ainsi, les plans détaillés de questionnaires seront conçus parallè- lement aux plans détaillés de tests, et les questionnaires rédigés et testés parallèlement à la rédaction et au test des items. CONTENU DU QUESTIONNAIRE Le questionnaire doit recueillir des informations sur les variables clés aptes à expliquer les écarts de performance des élèves dans un test. Toutefois, une multitude de variables interconnectées peut raisonna- blement agir sur leur performance. Un questionnaire ne peut se concentrer que sur quelques-unes d’entre elles. Les responsables des politiques souhaitent en général s’informer sur les variables associées aux problèmes éducatifs majeurs de leur pays, comme la langue d’enseignement, les disparités dans la réparti- tion des ressources éducatives, ou les attitudes envers la scolarisation des filles. Les décideurs peuvent ignorer quelles variables examiner. Ils peuvent fournir une longue liste de variables sur la base de leurs expériences et observations personnelles, ou qu’ils estiment « devoir » figurer dans un questionnaire. Ce type de liste doit être réduit à quelques exigences précises susceptibles d’être utiles à la conception du contenu du questionnaire. Les responsables des politiques peuvent ignorer que le processus d’analyse et de publication des données du questionnaire est TABLEAU 8.1 Composantes de la conception d’un questionnaire Composante Description Personnes impliquées 1. Objectif Préciser l’objectif et l’utilisation potentielle des données Responsables des politiques, principales parties prenantes, |114 du questionnaire. et responsable de la conception du test 2. Plan détaillé Concevoir le plan détaillé du questionnaire pour définir Responsable de la conception du test, spécialistes des les personnes interrogées, les domaines d’intérêt, les matières, analyste de données, rédacteurs d’items types d’items, le codage et le protocole d’administration. expérimentés, enseignants confirmés, responsables des politiques, et principales parties prenantes 3. Items Rédiger les items du questionnaire. Responsable de la conception du test et rédacteurs d’items Peaufiner pour plus de clarté et de pertinence dans les Responsable de la conception du test et rédacteurs d’items comités de révision du questionnaire. Réviser le questionnaire. Responsable de la conception du test, responsables des politiques et principales parties prenantes 4. Plan d’analyse Préciser le plan de traitement des informations, pour la Analyste de données et responsable de la conception du test des données création des variables et indicateurs de mesure et pour les types d’analyse. 5. Pré-test Concevoir, produire et relire le questionnaire pour les Responsable de la conception du test, rédacteurs d’items, METTRE AU POINT LES TESTS ET QUESTIONNAIRES tests préliminaires. professionnels de la conception et de la mise en page et relecteurs Rédiger les instructions d’administration pour le test Responsable de la conception du test et rédacteurs d’items préliminaire du questionnaire et former les administrateurs. Procéder au pré-test du questionnaire en même temps Responsable de la conception du test, responsable de la qu’à celui des tests logistique et administrateurs de test 6. Questionnaire Analyser les données du questionnaire de pré-test. Responsable de la conception du test et analyste de données final Peaufiner le questionnaire et les instructions Responsable de la conception du test, rédacteur d’items et d’administration en s’appuyant sur les données du analyste de données pré-test et le feedback de l’administrateur de pré-test. Produire la version finale du questionnaire. Responsable de la conception du test, rédacteurs d’items, professionnel de la conception et la mise en page et relecteurs CONCEPTION DES QUESTIONNAIRES | 115 coûteux et nécessite une expertise technique. Les ressources étant invariablement limitées, les questionnaires doivent être concis et très pertinents. Les données recueillies devront également être tech- niquement acceptables si elles sont destinées à expliquer la perfor- mance des élèves. Les modèles utilisés par d’autres évaluations nationales peuvent fournir une orientation approximative. Quoi qu’il en soit, chaque pays a ses propres besoins, qui détermineront la pertinence du questionnaire. Le responsable de la conception du test ou le responsable de la production du questionnaire peuvent ressentir le besoin de donner aux responsables des politiques des orientations sur les variables clés susceptibles de fournir des informations pertinentes. Pour ce faire, il peut ressentir le besoin de leur présenter des exemples pertinents qui les aideront à prendre des décisions sur l’utilisation des informations collectées. Ces informations contribueront à peaufiner la liste des variables à traiter. Les questionnaires étant conçus pour aborder des sujets générale- ment connus des personnes interrogées, les élèves, les parents, les enseignants et chefs d’établissement traiteront tous des sujets différents. Les sections suivantes proposent des sujets appropriés de questionnaires pour chacun de ces groupes de population. Questionnaires destinés aux élèves Les questionnaires destinés aux élèves peuvent collecter les informa- tions suivantes : • Sexe, âge et antécédents linguistiques (généralement collectés sur la page de couverture du carnet de test) • Contexte scolaire, notamment nombre d’années de scolarisation et périodes non scolarisées • Opportunités de scolarisation • Attentes quant à la réussite de l’élève et attitudes personnelles ou familiales à l’égard de la valeur de l’école • Perceptions de l’environnement de la classe, tels que le sentiment de sécurité, la gentillesse des autres élèves ou le soutien des enseignants. 116 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Questionnaires destinés aux parents Les questionnaires destinés aux parents peuvent collecter les informations suivantes : • Nationalité, sexe et antécédents linguistiques • Environnement familial, tel que l’accès à des livres, à un bureau et à l’éclairage • Antécédents familiaux, tels que le niveau d’instruction des parents et la langue parlée dans le foyer • Attitudes à l’égard de l’éducation, telles que l’engagement à scola- riser ses enfants, la perception de la valeur et de la pertinence de l’école ou les perceptions de la qualité de l’éducation • Importance accordée aux devoirs et aux ressources pédagogiques fournies aux enfants au sein du foyer • Caractère abordable et accessibilité de l’éducation pour les enfants • Attentes relatives à la performance scolaire des enfants • Implication dans les écoles, telle que la participation en classe ou dans des comités • Nature et valeur des bulletins scolaires sur les progrès des enfants • Soutien financier à l’école sous forme d’achat de manuels scolaires et de paiement des frais. Questionnaires destinés aux enseignants Les questionnaires destinés aux enseignants peuvent collecter les informations suivantes : • Sexe et âge • Première langue • Conditions d’enseignement, telles que la taille des classes, l’accès aux ressources, le pourcentage d’élèves possédant des manuels, la disponibilité de remplaçants en cas d’absence pour maladie, et l’assistance relative aux élèves en difficulté • Expérience pédagogique, qualifications des enseignants et nombre d’années d’enseignement dans l’établissement CONCEPTION DES QUESTIONNAIRES | 117 • Implication professionnelle envers l’apprentissage, telle que l’accès et l’intérêt pour le développement professionnel, l’intérêt pour l’enseignement, et le temps consacré à la préparation des cours • Disponibilité d’un soutien pédagogique à travers des visites de classe par des chefs d’établissement, des inspecteurs pédagogiques ou des superviseurs • Méthodologie d’enseignement, telle que la langue d’enseignement, le recours à l’évaluation, et le style d’enseignement • Satisfaction des conditions de travail : titularisation, niveaux de rémunération et niveau de supervision • Relations avec la communauté scolaire, telles que les interactions avec les parents, la participation aux comités scolaires et à des événements de la communauté locale • Distance entre le domicile de l’enseignant et l’école. Questionnaires destinés aux chefs d’établissement Les questionnaires destinés aux chefs d’établissement peuvent collecter les informations suivantes : • Sexe et âge • Qualifications et expérience en matière de gestion et d’éducation • Environnement scolaire, tel que la qualité des bâtiments et des installations, ainsi que la disponibilité des ressources • Dossiers scolaires, tels que les fluctuations du nombre d’élèves, l’ampleur de l’absentéisme des élèves ou des enseignants, et la fréquence à laquelle les élèves changent d’école • Implication professionnelle dans le leadership scolaire, telle l’accès et l’intérêt pour le développement professionnel et l’intérêt pour l’éducation • Style de leadership et utilisation du temps • Satisfaction des conditions de travail : titularisation, niveaux de rémunération et niveau et fréquence de la supervision • Relations avec la communauté scolaire, telles que les interactions avec les parents et la participation à des événements communau- taires locaux. 118 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 8.1 Plan détaillé de questionnaire sur les attitudes et les valeurs Partie I Convictions sur la Perceptions de Attitudes vie en Papouasie- la communauté Domaines d’intérêt envers l’école Nouvelle-Guinée locale Nombre de questions 10 15 15 Personnes interrogées 3e année 5e année 5e année 5e année 8e année 8e année 8e année Catégories de réponses Oui ou non Oui ou non Oui ou non Partie II Convictions sur la vie en Perceptions de la Attitudes envers l’école Papouasie-Nouvelle-Guinée communauté locale Convictions sur la Attitudes envers Niveau de coopération réussite personnelle, l’éducation : enseignement perçu dans la communauté durée prévue de la en langue vernaculaire, locale : soutien à l’école, scolarité et perspectives éducation obligatoire, rôle participation locale à des d’avenir personnelles de l’école, éducation des événements filles et rôle des femmes communautaires, et partage des ressources Perceptions de la Attitudes envers la Attitude perçue de la serviabilité des communauté : intention communauté locale envers enseignants, la personnelle de rester dans les filles et les femmes gentillesse des élèves, le la communauté locale ou harcèlement, et raisons de la quitter l’ouverture aux amitiés à l’extérieur du village Partie III Convictions sur la vie en Valeurs Papouasie-Nouvelle-Guinée Perceptions de la communauté locale Valeurs Attitudes à l’égard de la Perception du niveau de l’emploi concernant la résolution des conflits et constructif dans la communauté locale résolution des des bagarres et utilisation de moyens pacifiques conflits pour résoudre les problèmes Valeurs sur les Attitudes envers l’alcool et Perception des problèmes causés par habitudes la drogue la consommation de drogues et d’hygiène d’alcool dans la communauté locale personnelle Source : Ministère de l’Éducation, Papouasie-Nouvelle-Guinée, 2004. CONCEPTION DES QUESTIONNAIRES | 119 PLAN DÉTAILLÉ DU QUESTIONNAIRE L’élaboration d’un plan détaillé est nécessaire pour guider la mise au point d’un questionnaire. Ce plan doit décrire les principales ques- tions de politique qui sous-tendent le questionnaire, il doit identifier les personnes à tester, énumérer les variables clés à traiter et préciser le format des items, les types de catégories de réponses et le protocole d’administration. L’encadré 8.1 présente un plan détaillé de questionnaire utilisé pour collecter des informations sur les valeurs et les attitudes des élèves vis-à-vis de l’école et de leur communauté locale. Les récentes réformes éducatives et les nouveaux programmes en cours d’intro- duction dans les écoles avaient souligné la nécessité d’encourager les élèves à valoriser leur communauté locale et à acquérir des savoirs qui leur permettraient de contribuer de manière constructive à la vie du village à l’âge adulte. Les responsables des politiques de Papouasie- Nouvelle-Guinée souhaitaient recueillir des informations sur les attentes et les perceptions des élèves vis-à-vis de l’école et de la com- munauté. Le questionnaire a été administré à tous les élèves ayant subi les tests d’évaluation nationaux. ITEMS DU QUESTIONNAIRE Plusieurs éléments doivent être pris en compte lors du choix du nombre d’items, notamment le temps accordé pour répondre aux questions, les ressources disponibles pour l’analyse et la complexité de l’analyse requise. Un questionnaire bref et limité, analysé correcte- ment et fournissant des informations utiles est préférable à un ques- tionnaire long et complet qui n’est jamais traité dans son intégralité. Le nombre d’items nécessaires pour mesurer une variable donnée dépend de la nature de cette dernière. Certaines variables, dont le sexe ou l’âge, peuvent être mesurées directement. D’autres, dont le statut socioéconomique, tendent à se construire à partir de plusieurs items, notamment le niveau d’instruction des parents, le statut profes- sionnel, l’emplacement du domicile, et les biens possédés. Une variable brute désigne les données provenant d’une mesure directe. 120 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Une variable agrégée combine des données de deux items ou plus pour représenter un construct. Les responsables des politiques jugent souvent que les résultats d’analyse fondés sur des variables brutes sont plus faciles à interpréter que ceux basés sur des variables agrégées. Les décisions relatives à la pertinence d’une variable brute ou agré- gée pour soutenir un construct doivent s’appuyer sur des pratiques et des conditions de recherche satisfaisantes dans le pays. Les enquêtes nationales et internationales utilisent des variables agrégées. Dans une étude internationale, par exemple, les deux variables « Lire à des fins utiles » et « Lire pour le plaisir » étaient basées sur des variables agrégées (voir le tableau 8.2). Les questions spécifiques au pays concerné sont pertinentes quand il s’agit de choisir le nombre d’items nécessaires pour mesurer TABLEAU 8.2 Fonctions de lecture dans une étude internationale : pondérations utilisées pour créer deux nouvelles variables, « Lire à des fins utiles » et « Lire pour le plaisir » Pondérations Item (abrégé) Fins utiles Plaisir M’aide à l’école. 0,75 Me permet de réussir des examens. 0,74 M’aide plus tard dans des matières scolaires. 0,73 M’aide à mieux travailler. 0,65 Je peux aller à l’université. 0,65 M’aide à trouver un bon emploi. 0,63 Mes parents pensent que c’est important. 0,58 Ça me plaît. 0,76 C’est passionnant. 0,72 C’est intéressant. 0,71 J’ai l’impression d’entrer dans un autre monde. 0,68 J’aime penser aux choses que j’ai lues. 0,54 C’est amusant de penser que je suis le personnage d’une histoire. 0,53 C’est intéressant de le faire tout seul. 0,53 M’aide à me détendre. 0,50 Source : Données extraites de Greaney et Neuman 1990 (tableau 8, pondérations de moins de 0,20 exclues). CONCEPTION DES QUESTIONNAIRES | 121 une variable. Par exemple, dans un pays où les conditions de forma- tion des enseignants sont assez uniformes, et où tous les enseignants ont au moins deux ou trois ans d’éducation supérieure dans des insti- tutions reconnues, une seule variable brute mesurant le nombre d’an- nées d’éducation supérieure peut être suffisante. Dans un pays où les conditions de formation des enseignants sont très variables, la qualité des institutions d’enseignement inégale, et où de nombreux profes- seurs peuvent avoir été formés sur le tas, il peut être nécessaire d’agré- ger plusieurs variables brutes pour représenter un construct de la formation des enseignants conforme à la situation réelle. De même, dans un pays riche, les ressources éducatives du domicile peuvent être mesurées par une seule variable brute relative à l’accès à l’Internet, mais dans un pays pauvre, elles peuvent être mieux représentées par un agrégat de variables brutes comprenant l’accès à un bureau, une chaise, une lampe, des crayons, du papier et des manuels scolaires. Le choix d’une variable brute ou d’une variable agrégée dépend aussi des convictions sur la pertinence des variables brutes possibles. Par exemple, pour la mesure de l’expérience pédagogique, si sa qua- lité varie beaucoup selon le lieu où l’enseignant a exercé, et s’il est considéré que le précédent lieu de travail de l’enseignant peut égale- ment influer sur la performance de l’élève, des informations sur le lieu de travail de l’enseignant doivent être collectées, ainsi que sur le nombre d’années consacrées à l’enseignement. S’il existe une convic- tion que le nombre d’années d’enseignement peut affecter la perfor- mance des élèves, quel que soit le lieu où l’enseignant a acquis cette expérience, une variable brute unique est probablement suffisante. FORMAT DES ITEMS Les items à choix forcé sont beaucoup plus faciles, plus rapides et moins coûteux à traiter que les items ouverts. Parce que les items à choix forcé fournissent un nombre limité de catégories de réponses, le traitement des données consiste simplement à saisir sur ordinateur le choix de la personne interrogée. Les réponses aux items ouverts, en revanche, doivent être traitées manuellement avant d’être saisies sur ordinateur. 122 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les données du questionnaire sont souvent résumées en vue de leur publication. Par exemple, les réponses à une question sur le temps mis par l’élève pour se rendre à l’école quotidiennement peuvent être classées en plusieurs grands groupes : moins d’une heure, une à deux heures, et plus de deux heures. Dans une version ouverte de cet item, certains élèves indiqueront le temps en minutes, ou en heures, ou encore « beaucoup de temps », et d’autres donneront une réponse illisible. Leurs réponses seront variées et classées de manière subjective, et des décisions devront être prises sur la façon de classer des réponses du type « beaucoup de temps ». Les items à choix forcé sont à privilégier si l’éventail et les différences probables de catégories de la majorité des réponses sont prévisibles. Toutefois, en cas de doute, un plus grand nombre de catégories mieux différenciées peut être utilisé qu’il n’est nécessaire pour le rapport. Après la saisie des données, des décisions seront prises sur les catégories qui donnent peu d’informations et celles qui peuvent être combinées ou abandonnées (par exemple, si personne ne les a sélectionnées). L’utilisation d’items ouverts est possible si le questionnaire est administré à un petit échantillon et que des ressources sont dispo- nibles pour classer manuellement les réponses. Le pré-test ou le test de terrain d’items ouverts contribue quelquefois à fournir des infor- mations qui permettront de générer des catégories pour une version à choix forcé d’items dans l’administration finale. LANGUE DU QUESTIONNAIRE La langue utilisée dans un questionnaire doit être celle que les personnes interrogées sont le plus susceptibles de lire et d’écrire couramment. Cependant, le choix de la langue doit aussi permettre des économies d’échelle. En général, les questionnaires sont adminis- trés dans la même langue que les documents de test. PERSONNES INTERROGÉES Les informations contextuelles sur les élèves étant recueillies sur la page de couverture des carnets de test, le choix des personnes CONCEPTION DES QUESTIONNAIRES | 123 interrogées dépend de ce que les responsables des politiques veulent savoir et de la possibilité d’obtenir cette information de manière fiable et efficace. Les problèmes suivants peuvent se poser dans le choix des personnes interrogées : • Les élèves sont trop jeunes pour remplir un questionnaire de manière fiable ou précise. • Le manque de ressources peut limiter l’administration du questionnaire à un petit groupe, notamment des enseignants ou des chefs d’établissement, au lieu d’impliquer des milliers d’élèves. • De nombreux parents peuvent être analphabètes ou peu suscep- tibles de remettre le questionnaire. • Les enseignants et les chefs d’établissement peuvent ne pas être suffisamment motivés pour remplir un long questionnaire, ou se sentir trop menacés pour répondre aux questions honnêtement. Quelle que soit la décision prise, l’échantillon sélectionné pour un questionnaire doit être représentatif de la population. Si le ques- tionnaire est administré à des élèves, l’échantillon retenu pour le test doit répondre au questionnaire. Il convient de consulter des experts en échantillonnage sur la taille des échantillons nécessaires pour l’administration à des enseignants, des chefs d’établissements et des parents. ADMINISTRATION DU QUESTIONNAIRE Les questionnaires sont généralement remplis par écrit ou sont administrés dans le cadre d’un entretien. Dans ce dernier cas, un enquêteur qualifié pose les questions et inscrit les réponses des per- sonnes interrogées (peut-être en appliquant des codes fournis dans le formulaire du questionnaire). Dans les évaluations à grande échelle, la plupart des questionnaires sont rédigés et administrés en groupes afin de réduire les coûts. Les questionnaires doivent contenir des consignes sur la manière de répondre aux questions. Ces consignes peuvent présenter les raisons de la collecte des informations. 124 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES La collecte des données du questionnaire peut être effectuée sous la supervision d’un agent de terrain, qui collectera les formulaires après que les personnes interrogées ont fini de les remplir. PLAN D’ANALYSE DES DONNÉES Un plan d’analyse des données précise quel type d’information sera fourni par chaque item du questionnaire, et comment les informa- tions seront utilisées dans l’analyse. L’assistance statistique d’un spé- cialiste de la conception du plan permettra d’accroître la confiance dans le fait que les données peuvent être analysées de façon perti- nente et que les conclusions seront rigoureuses et défendables (voir Volume 4, Analyser les données issues d’une évaluation nationale des acquis scolaires). Le plan d’analyse doit contenir les éléments suivants : • Les caractéristiques de mesure des variables. La façon dont les données du questionnaire peuvent être analysées dépend des carac- téristiques de mesure des variables. Les chiffres attachés aux variables nominales ou catégorielles (par exemple, le sexe) ne sont en réalité que des identifiants et ne peuvent être utilisés que pour distinguer des groupes. Les chiffres rattachés aux échelles ordinales (par exemple, pour des réponses à un questionnaire indiquant le degré d’accord avec une déclaration) fournissent des informations sur des valeurs relatives, même si elles sont souvent traitées dans l’analyse statistique comme des propriétés d’intervalle (par exemple, la température) ou des échelles de ratio (par exemple, le nombre d’années d’enseignement). • La manière dont les données d’un certain nombre de variables seront agrégées pour produire une nouvelle variable, et comment cette dernière sera utilisée. Par exemple, un indice de pauvreté peut être construit à partir de variables telles que le revenu du ménage, la situation du domicile, le nombre de pièces du domicile, les biens possédés par le foyer, le nombre d’enfants et le niveau d’instruction des parents. La façon dont les variables seront agré- gées pour représenter la pauvreté doit être envisagée dans le plan de la conception. CHAPITRE 9 RÉDACTION DES ITEMS DU QUESTIONNAIRE La conception d’un item doit faire explicitement ressortir les informations demandées, et les personnes interrogées doivent être capables de les fournir. Ainsi, les jeunes élèves ne seront pas tenus de communiquer le nombre de jours d’absence de l’école au cours de l’année car ils ne seront pas en mesure de donner des réponses fiables. Au mieux, ils pourront se souvenir du nombre de jours d’absence durant la semaine précédente. La formulation des items doit être aussi simple et claire que possible. Le vocabulaire doit être usuel, les phrases courtes et directes. Toutes les personnes interrogées doivent être en mesure de lire le questionnaire, à moins qu’il soit administré oralement. Il importe aussi qu’elles puissent toutes interpréter les items de la même manière. Si tel n’est pas le cas, l’interprétation des résultats risque d’en pâtir. La première partie d’un item de questionnaire peut être une ques- tion, une phrase à compléter, ou une affirmation à évaluer. Le style employé pour s’adresser au lecteur doit être cohérent. Les deux options suivantes peuvent être utilisées dans la formulation : • Utiliser « tu » ou « vous », comme dans l’exemple « quel âge as-tu ? », « quel âge avez-vous ? » • Utiliser « je », comme dans l’exemple « Je vais à l’école en… » 125 126 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES QUESTIONS Les questions doivent être claires et sans ambiguïté, contrairement à la phrase suivante : Combien de temps avez-vous été enseignant ? Dans cette question, on peut confondre la période écoulée depuis la formation et la période à laquelle la pratique d’enseignement a débuté. Les personnes qui ont quitté provisoirement l’enseignement – par exemple, les femmes qui se sont absentées pour élever leurs enfants – risquent de ne pas savoir comment y répondre. De plus, cette question mesure-t-elle l’expérience de l’enseignant ou la période écoulée depuis la fin de sa formation ? Il est donc possible de distin- guer deux questions dans cette formulation : Quand avez-vous achevé votre formation d’enseignant ? Combien d’années d’expérience avez-vous acquis dans l’enseignement ? La deuxième question reste confuse car il est difficile de savoir comment mesurer cette expérience. Cinq années dans un poste à temps partiel, un jour par semaine, correspondent-elles à cinq ans pleins ou à l’équivalent d’une année ? Quand la quasi-majorité des postes d’enseignant dans le pays sont à plein temps, il n’y a aucune ambiguïté dans cette question, mais ce n’est pas le cas lorsque les temps partiels sont très fréquents. La question pourrait être formulée de la manière suivante : Combien d’années d’expérience d’enseignement à plein temps (ou équivalent d’un plein temps) avez-vous ? Il peut être nécessaire de préciser la signification du mot « équivalent ». AFFIRMATIONS Les items qui ouvrent la question par une affirmation demandent généralement aux personnes interrogées de répondre par « Tout à fait d’accord », « D’accord », « Pas d’accord », ou « Pas du tout d’accord ». RÉDACTION DES ITEMS DU QUESTIONNAIRE | 127 Les déclarations négatives telles que « Je n’aime pas l’école » doivent être bannies car elles peuvent prêter à confusion. En effet, si l’on demande aux élèves d’être d’accord ou pas d’accord, ceux qui aiment l’école ne comprennent pas toujours qu’il faut sélectionner « Pas d’accord ». En règle générale, les jeunes enfants maîtrisent mal la double négation. Énoncez des affirmations aussi neutres que possible. Une affirma- tion du type « J’aime l’école » est plus adéquate que « J’adore l’école ». Cela laisse aux élèves la possibilité d’exprimer un engouement plus grand en sélectionnant la réponse « Tout à fait d’accord ». Les affirmations doivent porter sur un seul point. Par exemple, l’affirmation « Je travaille beaucoup et j’ai de bons résultats à l’école » doit être bannie, car les élèves qui réussissent mais qui ne travaillent pas beaucoup ne sauront pas quelle réponse donner. Et les élèves très assidus qui n’obtiennent pas de bons résultats à l’école peuvent être tout à fait d’accord avec cette affirmation. Il convient donc de scinder en deux cette phrase : « Je travaille beaucoup à l’école » et « J’ai de bons résultats à l’école ». CATÉGORIES DE RÉPONSES Les bonnes catégories de réponses doivent avoir la même signification pour toutes les personnes interrogées. En revanche, les catégories de réponses suivantes peuvent avoir des significations diverses pour différentes personnes : Combien de livres y a-t-il dans la bibliothèque de la classe ? A. aucun B. quelques-uns C. un certain nombre D. beaucoup Les catégories de réponses de l’item doivent être quantifiées afin qu’elles ne prêtent pas à confusion : Combien de livres y a-t-il dans la bibliothèque de la classe ? A. pas de bibliothèque 128 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES B. 1 à 10 C. 11 à 20 D. plus de 20 Les catégories de réponses peuvent parfois revêtir différentes signi- fications pour plusieurs personnes interrogées, mais cette différence relève de l’information recherchée, comme dans l’item suivant : Que pensez-vous de la bibliothèque de votre école ? A. pas de bibliothèque B. pauvre C. correcte D. bien E. excellente Si l’item concerne le niveau de satisfaction de la personne interrogée sur la bibliothèque scolaire, indépendamment de toute mesure objective de sa qualité, l’item est bon. Si l’item est associé à d’autres items quantitatifs – par exemple, combien d’étagères de livres ou de matériel informatique se trouvent dans la bibliothèque – la percep- tion de la personne interrogée peut être comparée à des mesures plus objectives de la quantité de matériel dans la bibliothèque. Les catégories de réponses doivent tenir compte du niveau d’exac- titude des réponses que les personnes interrogées sont en mesure de donner. Ces dernières ne connaissent probablement pas le nombre exact de livres de la bibliothèque, sauf si elle est très petite. Les catégories de réponses doivent couvrir toutes les réponses possibles. S’il existe peu de catégories majeures et beaucoup de catégories mineures, il est préférable de faire la liste des catégories majeures et d’inclure une option « autres ». Les pré-tests aident à identifier les catégories majeures. Les catégories de réponses ne doivent pas se chevaucher ou créer des lacunes. Ces deux types d’erreur apparaissent dans la question suivante : Depuis combien de temps enseignez-vous dans cette école ? A. moins de 5 ans RÉDACTION DES ITEMS DU QUESTIONNAIRE | 129 B. moins de 10 ans C. plus de 10 ans Les enseignants ayant moins de cinq ans d’expérience ne savent pas s’ils doivent choisir la première ou la deuxième option. Les ensei- gnants qui ont exactement dix ans d’expérience n’ont pas d’option qui leur corresponde. Les items de questionnaires qui commencent par une affirmation à évaluer peuvent comporter des catégories de réponses différentes. Il importe que les catégories ne se chevauchent pas. Voici quelques exemples de catégories de réponses utilisées dans le questionnaire de l’enseignant pour Tendances de l’enquête internationale sur les mathématiques et les sciences : • Oui, non • Tout à fait d’accord, d’accord, pas d’accord, pas du tout d’accord • Presque tous les jours, une ou deux fois par semaine, une ou deux fois par mois, jamais ou très rarement • Pas du tout, un peu, beaucoup, énormément • Pas important, assez important, très important. GESTION DES QUESTIONS SENSIBLES Certaines questions peuvent être sensibles, par exemple lorsqu’elles portent sur les enseignants exerçant une seconde activité pour compléter leurs revenus. Si la plupart des personnes interrogées risquent de ne pas répondre honnêtement à cette question, elle doit être supprimée. Cette information peut certes intéresser fortement les responsables des politiques, mais il y a peu d’intérêt à collecter des données qui ne seront pas fiables. Il est parfois préférable de recueillir des informations similaires, mais moins sensibles. La présence de questions sensibles risque d’offenser des personnes et de les dissuader de répondre au reste des items ou de remettre le questionnaire. Si certains points sensibles posent problème, il est préférable de les écarter. 130 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES MISE EN PAGE DES QUESTIONNAIRES Deux points essentiels doivent être retenus dans la mise en page et la conception des questionnaires : (a) la facilité d’utilisation pour la per- sonne interrogée, et (b) la facilité d’utilisation pour le traitement des données. Les questionnaires sont faciles à utiliser lorsqu’ils présentent les caractéristiques suivantes : • Une manière simple et cohérente de répondre aux questions • Une présentation aérée • Des questions distinctes et facilement identifiables • Des catégories de réponses clairement associées à chaque question • Des rubriques, des polices de caractère et une présentation cohérentes • Des catégories de réponses codifiées pour la saisie des données. Les catégories de réponses peuvent être présentées de nombreuses manières. Elles peuvent apparaître dans des colonnes verticales ou sur des lignes horizontales. Les personnes interrogées peuvent entourer une lettre ou un nombre, ou cocher une case pour indiquer leur choix. Il est préférable de préserver la cohérence dans le style des réponses. L’encadré 9.1 contient un exemple d’item dans lequel les réponses ne sont pas clairement identifiées aux catégories de réponses. L’encadré 9.2 présente un meilleur alignement. ENCADRÉ 9.1 Mauvais alignement des cases et des catégories de réponses L’exemple suivant montre un mauvais alignement des cases et des catégories de réponses : En général, combien de temps mettez-vous pour aller à l’école ? Moins de 15 minutes 15 minutes 30 minutes 45 minutes 1 heure plus d’une heure Les cases sont placées entre les catégories de réponses au lieu d’être clairement alignées sur une seule catégorie. RÉDACTION DES ITEMS DU QUESTIONNAIRE | 131 ENCADRÉ 9.2 Bon alignement des cases et des catégories de réponses L’exemple suivant présente un bon alignement des cases et des catégories de réponses : À quelle fréquence les personnes suivantes t’aident-elles à faire tes devoirs ? Jamais ou Quelquefois Environ Plusieurs Plusieurs presque dans l’année une fois fois par fois par jamais par mois mois semaine a) ta mère … b) ton père … c) tes frères et sœurs … d) un de tes grands- parents… RÉVISION DES QUESTIONNAIRES La rédaction de questionnaires est une tâche beaucoup plus difficile qu’il n’y paraît. Tous les items doivent être soigneusement examinés et révisés pour s’assurer de leur clarté. Il est fortement recommandé de faire appel à un comité de révision, qui sera composé de rédacteurs d’items, d’une personne bien informée sur les caractéristiques de la population interrogée, et d’une personne capable de garantir la pertinence culturelle des items. Certaines évaluations nationales et internationales vérifient désormais comment les personnes interro- gées interprètent les items avant de procéder à l’administration prin- cipale du questionnaire. Il importe aussi que les membres du comité de révision tentent de remplir le questionnaire comme s’ils étaient eux aussi des personnes interrogées. Cela leur permettra d’identifier les catégories de réponses peu claires, celles qui se chevauchent ou qui omettent certains types de réponses. 132 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les membres des comités doivent procéder à une analyse critique des items, notamment pour clarifier la formulation et apprécier la pertinence des catégories de réponses. Ils doivent vérifier que la for- mulation est aussi simple et claire que possible, que le style des items est cohérent et que ceux-ci sont présentés dans un ordre logique avec des instructions appropriées. Les membres des comités doivent vérifier que les items sont conformes aux exigences du plan détaillé de questionnaire et que chaque item fournit bien l’information demandée, que le nombre d’items utilisé est approprié pour mesurer chaque variable avec suffi- samment de précision. Une fois le questionnaire peaufiné, les responsables des politiques doivent pouvoir, eux aussi, le réviser. Il leur faut approuver les items, en particulier ceux qui touchent à des questions politiquement sen- sibles, et vérifier qu’ils fourniront des informations utiles. Ensuite les questionnaires doivent être pré-testés ou testés sur le ter- rain, ainsi que les supports de test. Le pré-test offre la possibilité d’améliorer la qualité des items et de réduire le temps et le coût de traitement des données issues du questionnaire final. Les items qui ne fonctionnent pas bien (par exemple, ceux qui prêtent à confusion) peuvent être supprimés, et les catégories de réponses peuvent être élargies ou réduites. Après l’administration du questionnaire, l’administrateur doit recueillir un feedback des personnes interrogées (élèves ou ensei- gnants) sur les items qui ne sont pas clairs ou qui ne contiennent pas des informations appropriées. Les administrateurs doivent vérifier qu’aucun item n’est considéré comme offensant parce qu’il évoque des questions sensibles. Des analyses statistiques plus formelles des réponses peuvent indiquer que les catégories de réponses doivent être mieux différen- ciées, quand par exemple la majorité des élèves sélectionnent une catégorie particulière pour un item. La catégorie doit être divisée en plusieurs catégories plus affinées pour obtenir des informations plus précises. Si l’éventail des réponses possibles à un item est potentiellement très large et difficile à anticiper, l’item doit être traité comme un item ouvert pendant le pré-test. Les réponses peuvent alors être classées et RÉDACTION DES ITEMS DU QUESTIONNAIRE | 133 utilisées pour générer les catégories d’un item à choix forcé dans le questionnaire final. Le CD annexé contient des exemples de questionnaires destinés aux élèves, enseignants, chefs d’établissement et parents, issus des évaluations nationales et internationales. Il contient également des guides de notation pour les réponses ouvertes. CHAPITRE 10 CODAGE DES RÉPONSES DE QUESTIONNAIRES Les catégories de réponses doivent être codées pour la saisie des données. On peut distinguer deux méthodes de codage : alphabétique et numérique. Pour le codage alphabétique, les personnes interrogées doivent entourer la lettre correspondant à leur réponse. Cette méthode risque toutefois de ne pas être appropriée aux élèves les plus jeunes. Les personnes ayant un faible niveau d’alphabétisation peuvent juger plus facile de cocher des cases ou de colorier des cercles. Les items ainsi présentés doivent être codés numériquement. Pour le codage numérique, la première catégorie de réponses porte en général le code 1, la deuxième catégorie le code 2, et ainsi de suite. La saisie des données est plus efficace quand ces codes apparaissent sur le questionnaire. Il est possible d’utiliser une petite police grisée, comme dans l’encadré 10.1, où les catégories de réponses sont codées sous les cases : « à pied » correspond à la catégorie 1, « en transport en commun » à la catégorie 2, etc. Les élèves cochent la case correspon- dant à leur situation, et les opérateurs de saisie saisissent le numéro de la case sélectionnée. Si les personnes évaluées peuvent sélectionner plus d’une catégorie de réponse par item, chaque catégorie doit être traitée comme un 135 136 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 10.1 Exemple de codage en caractère grisé Aujourd’hui je suis allé à l’école à pied en transport en commun en transport privé à dos d’animal. 1 2 3 4 ENCADRÉ 10.2 Exemple traitant les items comme des catégories distinctes pour la saisie des données Si vous étiez absent la semaine dernière, cochez une ou plusieurs cases pour en expliquer le motif. J’étais malade. 1 J’ai dû aider mes parents. 1 Il faisait mauvais temps. 1 Je n’avais pas de nourriture. 1 Ma famille avait des problèmes. 1 Je n’avais pas d’uniforme propre ou de vêtements appropriés à porter. 1 La situation n’était pas sûre (problèmes de paix et d’ordre). 1 Autre _______________________________________ 1 item séparé lors de la saisie et du traitement des données. Cette procédure permet de suivre les catégories sélectionnées par chaque personne. L’item de l’encadré 10.2 est présenté à la personne interro- gée comme une question à choix multiple ; en réalité, il est traité comme huit questions distinctes dans la saisie des données. La réponse CODAGE DES RÉPONSES DE QUESTIONNAIRES | 137 à la première catégorie (absence pour maladie) est enregistrée comme 1 ou manquante, la réponse à la deuxième (aide aux parents) est enre- gistrée comme 1 ou manquante, et la réponse à la troisième catégorie (mauvais temps) est enregistrée de la même façon, et ainsi de suite pour les huit catégories. PRÉPARATION DES QUESTIONNAIRES POUR LA SAISIE DES DONNÉES Les données des questionnaires peuvent être scannées avec un équi- pement spécial ou saisies manuellement. Si le traitement est effectué par scanner, la conception et la mise en page du questionnaire doivent être adaptées à cette fin. Les données à saisir manuellement peuvent être saisies directe- ment à partir du questionnaire si les catégories de réponses ont été codées. Cependant, les opérateurs de saisie peuvent avoir des difficul- tés à maintenir un niveau élevé d’exactitude, notamment s’ils ne maîtrisent pas cette tâche. Des erreurs peuvent également se produire durant la saisie lorsque la présentation des items est très variable ou lorsque plusieurs items proposent un grand nombre de catégories de réponses. Pour faciliter la saisie, les évaluateurs et les correcteurs devront inscrire le code de la catégorie sélectionnée dans la marge gauche, près du numéro de chaque item. La saisie des données devient alors une simple tâche de saisie des codes inscrits sur la marge. L’ajout en marge de cases légèrement grisées pour recueillir les codes indiqués par les évaluateurs et les correcteurs rend la tâche encore plus facile. CODAGE MANQUANT OU RÉPONSES AMBIGUËS Les personnes interrogées omettent parfois de répondre à certaines questions ou donnent des réponses ambiguës, notamment en sélec- tionnant plus d’une réponse dans des catégories qui s’excluent mutuellement. 138 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES La collecte d’informations sur les réponses manquantes indique si les personnes interrogées ont systématiquement négligé de répondre à des questions. Ainsi, le questionnaire peut être trop long, raison pour laquelle les dernières questions restent sans réponse, ou une question peut être trop proche d’autres questions, et donc facilement oubliée. La collecte d’informations sur les réponses ambiguës indi- quera également si une question n’est pas suffisamment claire pour de nombreuses personnes, ou si des personnes ne comprennent pas comment compléter le questionnaire. Les opérateurs de saisie doivent savoir coder les réponses manquantes ou ambiguës. Les codes employés dans ce cas ne doivent pas se confondre avec ceux qui sont utilisés pour les catégories de réponses. Une lettre de l’alphabet, par exemple X, peut être choisie pour indiquer une réponse manquante, et une autre lettre, par exemple Y, pour une réponse ambiguë. Les questions à choix multiple dans les tests utilisent les codes 9 en cas de réponse manquante, et 8 pour la sélection de deux ou plusieurs options. Ces codes doivent être géné- ralement bannis des questionnaires car certaines questions peuvent avoir huit ou neuf catégories de réponses possibles. CHAPITRE 11 ASSOCIATION DES DONNÉES DES QUESTIONNAIRES ET DES TESTS Les besoins d’analyse et de compte rendu gui- deront la façon dont les données des questionnaires et des tests seront associées. Toutes les correspondances doivent être établies clairement et sans ambiguïté avant la collecte des données. Toute erreur d’appa- riement découverte après la collecte des données risque d’être diffi- cile, voire impossible, à corriger, et d’entraîner l’abandon de certaines analyses prévues. QUESTIONNAIRES DES ÉLÈVES La méthode la plus facile pour apparier les données des question- naires et des tests consiste à imprimer les questionnaires et les tests dans un seul carnet. Les élèves inscriront leur nom sur le carnet et l’administrateur de test veillera à ce qu’ils travaillent bien sur leur propre carnet lors de chaque session de test. Si les tests et les questionnaires sont imprimés sur des docu- ments séparés, la correspondance entre les données pourra être facilitée en recopiant ou en étiquetant à l’avance le nom des élèves sur les tests et sur les questionnaires. Les noms seront puisés dans 139 140 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES les registres scolaires et devront être identiques sur chaque étiquette. Là encore, l’examinateur doit veiller à ce que les élèves tra- vaillent sur des tests et des questionnaires clairement identifiés par leur nom. Si les carnets et les questionnaires séparés ne peuvent pas être pré-étiquetés, les questionnaires devront porter des identifiants suffi- samment explicites pour permettre de les associer aux données des tests. Il est préférable d’attribuer un numéro d’identification (NI) aux élèves et de s’assurer qu’ils utilisent le même numéro sur chaque car- net et questionnaire. L’examinateur de test devra superviser cette procédure et l’analyste des données devra recevoir la liste nominative des élèves et de leurs NI afin de pouvoir associer les noms aux numé- ros en cas d’erreurs de NI. Il n’est pas souhaitable de se fier au nom des élèves pour associer les formulaires de test et de questionnaire. À moins que les noms soient absolument identiques sur chaque formulaire et saisis sans faute d’orthographe par l’opérateur de saisie, l’ordinateur ne pourra pas les associer. Les correspondances devront alors être effectuées manuellement, une tache longue et coûteuse. Certains élèves ren- dront la tâche encore plus difficile en orthographiant leur nom diffé- remment (formes courtes, noms de famille ou noms religieux) sur chaque formulaire ; en écrivant de façon illisible sur un ou plusieurs formulaires ; ou en oubliant d’inscrire leur nom sur un ou plusieurs formulaires. QUESTIONNAIRES DES PARENTS Les données des questionnaires des parents sont en général asso- ciées aux données des élèves. La correspondance se fera probable- ment par le biais du nom des élèves. Les questionnaires des parents poseront les mêmes problèmes que ceux des élèves. Des procédures devront être mises au point pour assurer la cohérence dans ces documents. ASSOCIATION DES DONNÉES DES QUESTIONNAIRES ET DES TESTS | 141 QUESTIONNAIRES DES ENSEIGNANTS ET DES CHEFS D’ÉTABLISSEMENT Les questionnaires des enseignants et des chefs d’établissement sont généralement associés uniquement au niveau scolaire et à l’établisse- ment concernés. Si la classe de l’élève est connue, les informations concernant l’enseignant peuvent être utilisées dans l’analyse des don- nées de l’élève. L’administrateur de test devra vérifier que les ensei- gnants et les chefs d’établissement ont fourni ces informations sur le questionnaire. Lorsque les questionnaires sont renvoyés par les établissements, ils doivent être conservés dans des paquets séparés pour chacun des établissements. Ainsi, les informations sur l’établissement qui ne seront pas fournies sur certains questionnaires pourront être trouvées dans d’autres questionnaires du même paquet. PA RT I E 3 CONCEPTION D’UN MANUEL D’ADMINISTRATION DE TEST CHAPITRE 12 MANUEL DES ADMINISTRATEURS DE TEST Un manuel standard est nécessaire pour guider l’administration des tests et assurer que tous les élèves sont évalués dans les mêmes conditions. L’objectif principal du manuel est de préciser les modalités exactes de la tenue des tests, y compris les impératifs liés à leur préparation et aux procédures de leur sécurisa- tion. Les élèves doivent pouvoir s’exercer sur les mêmes exemples types d’items, recevoir les mêmes instructions sur la présentation des réponses, bénéficier des mêmes délais pour réaliser le test et du même degré de surveillance. La performance des élèves lors d’une évaluation nationale doit mesurer leur capacité à répondre aux items sans recours à une aide extérieure. Les élèves doivent comprendre ce que l’on attend d’eux et comment présenter leurs réponses, mais ils ne devront recevoir aucune assistance ni accéder à une ressource qui ne soit incluse dans le test lui-même. Le respect des procédures énoncées dans un manuel d’administration de test doit contribuer au bon déroulement de la procédure de test. Le CD joint contient des exemples de manuels d’administration de tests et de manuels de coordination scolaire. 145 146 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES CONTENU DU MANUEL Les manuels d’administration de test doivent apporter des informa- tions qui répondent à chacune des questions suivantes : • À quoi sert le test ? ° Brève explication de l’objectif du test et de la manière dont les données seront utilisées • Quels tests sont organisés, quels élèves sont testés, et quand ? ° Quels tests sont administrés dans l’école ? ° Quels élèves doivent passer chaque test ? ° Dates et heures de l’administration des tests ° Ordre d’administration des tests ° Temps assigné pour chaque test ° Pauses requises entre les épreuves ° Toute option de flexibilité dans le calendrier d’administration des tests. • De quel matériel de test faut-il disposer ? ° Liste de tous les types de matériel de test fournis ° Quantité de chaque type de matériel de test fourni (par exemple, un par élève ou un par professeur) ° Liste de tous les types de matériel que l’établissement scolaire doit fournir (comme des crayons ou des gommes). • Comment aménager la salle de classe pour le test ? ° Mobilier et installations à fournir par l’établissement, comme les bureaux et les chaises. ° Toutes les ressources susceptibles d’aider les élèves devront être retirées de la pièce ou dissimulées, comme par exemple des affiches contenant les tables de multiplication ou des règles grammaticales. • Quelle est la préparation requise ? ° Comment le proviseur ou le directeur d’établissement peut moti- ver les enseignants et les élèves à soutenir l’administration du test en amont MANUEL DES ADMINISTRATEURS DE TEST | 147 ° De quelles informations l’administrateur de test peut avoir besoin, par exemple la liste des noms des élèves de la classe ° Comment classer, numéroter ou nommer les carnets de test afin qu’ils soient prêts à l’usage ° Comment les groupes d’élèves doivent être organisés pour l’administration du test. • Comment doit se dérouler le test ? ° Comment les élèves doivent inscrire leur nom sur les carnets et les informations contextuelles sur la page de couverture ° Quand et comment l’administrateur de test doit vérifier que les élèves ont inscrit correctement les informations sur la page de couverture du carnet de test ° Comment les exemples types doivent être administrés et expliqués ° Quelles instructions les élèves doivent recevoir sur le test ° Quel degré de soutien l’administrateur de test peut fournir durant le test ° Combien de temps est accordé aux élèves pour achever le test ° Quelles conditions l’administrateur doit faire respecter durant le test ° Qui sera autorisé à pénétrer dans la salle de classe pendant le test. • Comment faut-il conserver le matériel de test ? ° Procédures pour assurer la sécurité du matériel de test avant, pendant et après l’administration du test. • Qui contacter pour obtenir de l’aide ? ° Coordonnées des personnes aptes à aider en cas de problèmes ou à apporter des compléments d’information. Le manuel d’administration de test doit comprendre des informa- tions complémentaires pour simplifier la circulation des carnets de test à l’intérieur et à l’extérieur des établissements scolaires. Ces informations peuvent varier selon que l’administrateur de test est un enseignant de l’école ou un organisme d’exécution externe. 148 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES UTILISATION DU MANUEL Le directeur d’établissement ou proviseur et l’administrateur de test sont tous deux concernés par ce manuel. Certaines évaluations pré- parent des manuels séparés pour les proviseurs ou les responsables de la réalisation des activités d’évaluation nationale au sein des établisse- ments individuels. Le directeur d’établissement (ou proviseur) a besoin du manuel pour s’assurer que son établissement est correctement préparé à la tenue du test. Il (elle) devra être suffisamment informé(e) sur le test pour pou- voir encourager le personnel et les élèves à soutenir sa mise en œuvre, et motiver les élèves à donner le meilleur d’eux-mêmes. Le directeur d’établissement (ou proviseur) ou le coordonnateur scolaire de l’évalua- tion nationale (si quelqu’un a été nommé) devra être suffisamment bien informé pour pouvoir organiser l’établissement scolaire, et assurer que les élèves concernés sont disponibles au moment opportun, munis du bon matériel, qu’ils disposent d’un espace adéquat pour passer le test, et que les supports de test pourront être stockés sous bonne garde. Les administrateurs de test ont besoin du manuel pour savoir exac- tement ce qu’ils doivent faire pour administrer le test correctement, ainsi que comment et où. Ils doivent vérifier que le matériel de test disponible est suffisant et que les bons étudiants ont été sélectionnés pour les tests. Ils doivent savoir quelles informations donner aux élèves sur le test, comment expliquer les questions types, et de com- bien de temps les élèves disposent pour réaliser les tests. Ils doivent aussi connaître les procédures de sécurité à mettre en œuvre pour le stockage du matériel de test. CARACTÉRISTIQUES D’UN MANUEL Un bon manuel doit être facile à utiliser et contenir toutes les informa- tions requises. Ces dernières doivent être présentées dans un ordre logique, les instructions doivent être claires et complètes et le langage simple et direct. Des listes à puces, des encadrés et des tableaux facilite- ront la lecture des informations. Un bon manuel doit également com- porter une table des matières et des titres explicites (voir l’encadré 12.1). MANUEL DES ADMINISTRATEURS DE TEST | 149 ENCADRÉ 12.1 Instructions du manuel d’administration de test Dans une évaluation nationale, les informations suivantes apparaissaient dans une police de caractères assez grosse (Arial 14), et occupaient toute la page d’ouverture du manuel : Prière de lire ce manuel d’administration avant que vos élèves passent le test. Les élèves doivent passer ce test sur DEUX JOURNÉES. • Le test se divise en quatre sessions. Les élèves doivent suivre deux sessions par jour. • Les élèves doivent bénéficier d’une pause entre chaque session. • Ne permettez pas aux élèves de faire tout le test en une seule fois. Règlement de l’administration de test • Les professeurs doivent superviser toutes les sessions à tout moment. • Les élèves NE DOIVENT PAS emporter les carnets hors de la salle de classe ni les remplir après le départ du professeur. • Les élèves doivent utiliser les crayons gommes qui leur ont été fournis. • Les élèvent ne doivent utiliser aucun matériel scolaire tel que des cahiers d’exercices, dictionnaires ou calculatrices pendant la tenue du test. • Les élèves ne doivent recevoir aucune aide pour répondre aux ques- tions. Par exemple, si un élève ne comprend pas ce qu’il doit faire, expliquez-lui les questions types une nouvelle fois et dites-lui de faire au mieux sans apporter d’aide supplémentaire. Sécurité des tests • Les matériels de test doivent être STOCKÉS DANS UN LIEU SÛR EN PERMANENCE. • Les carnets de test des élèves NE DOIVENT PAS être copiés dans quelque but que ce soit. • Les élèves NE DOIVENT PAS emporter les carnets de test chez eux. Source : Ministère de l’Éducation de Papouasie-Nouvelle-Guinée, 2004. 150 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES QUELS SONT LES DÉTAILS À PRÉCISER ? Les informations sur les conditions générales de l’administration des tests et la préparation des matériels doivent être complètes, mais aussi concises que possible (voir l’encadré 12.2). Les instructions données aux élèves par l’administrateur de test doivent être écrites in extenso. Tout ce que l’administrateur est censé dire aux élèves sur le test, les questions types ou les conditions de l’administration du test doit être saisi en caractères d’imprimerie. ENCADRÉ 12.2 Informations pour les professeurs et les chefs d’établissement Les informations sur le matériel de test doivent être concises et énumérées de manière à faciliter leur vérification. L’extrait suivant d’une évaluation à grande échelle en Papouasie-Nouvelle-Guinée explique au directeur d’établissement ou proviseur quel matériel est envoyé à l’établissement, et comment choisir les classes qui doivent participer au test : Éléments de test Votre inspecteur en chef de l’enseignement primaire vous dira quelles classes de l’établissement devront participer à ce test. Vous êtes censé avoir reçu les éléments suivants : • Une lettre d’accompagnement pour le directeur d’établissement • Un carnet de test pour chaque élève participant • Un manuel d’administration pour chaque enseignant chargé d’administrer le test • Un questionnaire contextuel de l’enseignant pour chacun des professeurs participants • Un crayon gomme pour chacun des élèves participants S’il manque du matériel ou si la quantité est insuffisante, contactez votre inspecteur en chef de l’enseignement primaire. Source : Ministère de l’Éducation de Papouasie-Nouvelle-Guinée, 2004. MANUEL DES ADMINISTRATEURS DE TEST | 151 L’administrateur doit lire le texte du manuel sans en modifier la for- mulation. Cette procédure garantit que tous les élèves se présentant au test reçoivent des instructions identiques. QUESTIONS TYPES L’encadré 12.3 présente des instructions sur la procédure globale et décrit l’objectif des questions types. Les instructions données par l’ad- ministrateur aux élèves sont écrites in extenso, et mises en évidence dans des encadrés sur fond gris. L’administrateur doit lire ces instruc- tions telles qu’elles sont imprimées. Les pièces de monnaie qui ENCADRÉ 12.3 Administration des items types L’extrait suivant montre une partie des instructions relatives à l’administration de quelques questions types : Première journée : SESSION 1 QUESTIONS TYPES DE MATHÉMATIQUES POUR LES 3E ANNÉE (environ 10 minutes) Vérifiez que chaque élève a son propre carnet de test avec son nom inscrit sur la page de couverture. Les questions types sont conçues pour montrer aux élèves les différentes manières de présenter leurs réponses. Demandez aux élèves d’ouvrir leurs carnets à la page des questions types de mathématiques (première page). DITES Nous allons faire un peu de mathématiques aujourd’hui, pour voir toutes les choses que vous savez faire en mathématiques. Nous allons d’abord répondre à quelques exemples de questions, pour que vous sachiez comment procéder et présenter vos réponses. Montrez un carnet d’élève et pointez du doigt les questions types. Vérifiez que tous les élèves ont trouvé les questions concernées. (suite) 152 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES DITES Voyons la question type numéro un. Je vais vous la lire. Voici une image montrant des pièces de monnaie. Combien d’argent y a-t-il en tout ? Y a-t-il 2 toeas, 7 toeas, 25 toeas ou 205 toeas ? Coloriez le petit cercle à côté de la bonne réponse. Vous devez colorier un seul cercle. Attendez que tous les élèves aient fini, puis vérifiez leurs réponses. DITES La réponse est 25 toeas. Vous deviez colorier le petit cercle à côté de 25 toeas. Si vous vous êtes trompé, effacez et coloriez la bonne réponse. Le cas échéant, attendez que tous les élèves aient fait leur correction. Source : Ministère de l’Éducation de Papouasie-Nouvelle-Guinée , 2004. illustrent la question type dans le carnet des élèves apparaissent également dans le manuel de l’administrateur, ce qui évite à ce der- nier de lire son manuel tout en montrant un carnet aux élèves. MISE À L’ESSAI Le manuel devra être préparé pour sa mise à l’essai au cours du pré- test ou du test de terrain des items de test. Un pré-test du manuel mettra en évidence tout malentendu ou toute ambiguïté nécessitant MANUEL DES ADMINISTRATEURS DE TEST | 153 une clarification ou un peaufinage dans la version définitive. Les conditions du pré-test ou du test expérimental devant être aussi proches que possible de celles du test réel, le manuel devra être aussi abouti que possible au moment de la mise à l’essai. Les instructions générales sur l’administration du test peuvent être rédigées à tout moment après la finalisation des plans détaillés. Ces derniers devront spécifier toutes les exigences sur le nombre de tests, leur longueur et le nombre d’élèves à évaluer. Pour aider le respon- sable de la conception des tests à peaufiner la version définitive, l’ad- ministrateur devra recueillir, lors du pré-test, des informations comme celles répondant aux questions ci-dessous : • Les élèves ont-ils besoin de toutes les questions types, y avait-il suffisamment d’exemples et les explications étaient-elles suffisam- ment claires ? • Le test était-il de la bonne longueur ou trop long, et environ com- bien d’élèves ont fini avec plus de 10 minutes d’avance (si diffé- rents formulaires ont été utilisés dans la même classe, l’administrateur peut comparer les temps nécessaires aux élèves pour chaque formulaire) ? • Les élèves semblaient-ils impliqués dans le test ? • Les ressources des élèves étaient-elles adéquates et suffisantes (crayons, gommes, etc.) ? • Les installations de l’établissement étaient-elles adéquates pour la tenue des tests ? RÉVISION Le responsable de la conception des tests et les rédacteurs d’items sont responsables de la révision et du peaufinage des instructions rela- tives aux questions types. Les questions types et les instructions de l’administration doivent être confiées au même type de comité que celui mis en place pour la révision des items. Le responsable de la conception des tests et le responsable de la logistique de leur production et de leur distribution doivent réviser et peaufiner les procédures de circulation des carnets de test à l’intérieur et à l’extérieur des établissements. 154 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Plusieurs personnes aux parcours similaires à ceux des administra- teurs de test devront également réviser l’ensemble du manuel pour vérifier que les instructions sont claires et pour lever toute ambiguïté décelée. Comme tout le matériel de test, le manuel devra être relu en pro- fondeur et périodiquement par des personnes expérimentées dans cette tâche. Les instructions pour les questions types et la tenue des tests ne peuvent être utilement relues que si le relecteur possède éga- lement une copie des carnets de tests des élèves. CHAPITRE 13 L’ADMINISTRATEUR DE TEST SÉLECTION DE L’ADMINISTRATEUR DE TEST Chacun doit être assuré dans le fait que le test a été administré dans les mêmes conditions pour tous. Les administrateurs de test doivent être par conséquent considérés comme des personnes fiables. Le choix de l’administrateur de test dépend tout d’abord des conditions locales dans chaque pays. Les inspecteurs scolaires peuvent être des candidats idéaux dans certains pays, mais pas dans d’autres. Si l’administration de test est perçue par les inspecteurs comme une tâche supplémentaire qui ne relève pas de leur compétence et qui revêt peu d’intérêt, ou qui fait appel à des ressources rares, ils peuvent manquer de motivation pour accomplir convenablement leur mission. Certaines évaluations nationales font appel à des administrateurs externes. Dans l’idéal, ce sont des personnes qui respectent précisé- ment les instructions ; disposent du temps et des ressources néces- saires pour exécuter leur tâche, et ne manifestent dans les tests aucun intérêt autre que celui de les administrer correctement. Au Timor oriental par exemple, des recenseurs sont formés et payés pour administrer l’évaluation nationale dans les écoles. Ils comprenaient 155 156 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES l’importance de recueillir des données de façon systématique et ne se sentaient pas concernés par la performance des élèves. Leur travail a été supervisé pour s’assurer qu’il répondait aux normes appropriées. Dans certains pays, confier cette tâche à des enseignants pourrait remettre en cause la crédibilité des données, dans d’autres, non. Le principal problème est qu’un enseignant peut être tenté d’aider, délibérément ou involontairement, des élèves. De nombreuses raisons peuvent expliquer ce phénomène. Il peut redouter que les résultats du test servent à mesurer ses performances d’enseignant, et vouloir aider les élèves pour préserver son emploi ou son statut. Des directeurs d’établissement peuvent se sentir plus menacés encore. Certains professeurs peuvent voir dans le test un reflet injuste de leur ensei- gnement ou des performances de leurs élèves, et se sentent obligés de les aider pour plus d’« équité ». Certains enseignants auront l’inten- tion d’administrer le test dans le respect des consignes, mais se ver- ront incapables d’oublier leur rôle d’enseignant. Ils pourront aider les élèves sans même en avoir conscience, parce qu’ils ne supporteront pas de les voir en difficulté. Le Volume 3 de cette série, Mettre en œuvre une évaluation natio- nale des acquis scolaires, porte sur le choix des administrateurs de test et expose certains avantages et inconvénients liés aux différents types d’administrateurs de test. SUIVI DES INSTRUCTIONS Le manuel de l’administrateur de test doit établir une distinction entre les instructions à suivre à la lettre, et celles qui lui laissent une marge de manœuvre pour s’adapter à la classe. L’administrateur de test ne doit pas s’écarter des instructions spécifiques. Le pré-test du manuel doit permettre d’identifier d’éventuelles erreurs ou ambiguï- tés dans les consignes fournies. Un administrateur de test peut uniquement aider les élèves à comprendre ce qu’ils doivent faire, et comment présenter leurs réponses. Il doit leur faire savoir qu’il ne peut pas les aider à répondre ou à interpréter des questions, à expliquer le sens d’un mot, ou suggérer des moyens de tenter de répondre à un item. Si un élève L’ADMINISTRATEUR DE TEST | 157 demande de l’aide, l’administrateur doit l’inviter à faire de son mieux tout seul. Les administrateurs ne doivent pas traduire les textes des items dans une autre langue si les instructions ne le lui permettent pas expressément. Dans certains tests, l’administrateur peut lire à haute voix les ques- tions aux élèves. Dans ce cas, il doit lire l’ensemble du test devant la classe, lentement et distinctement, question par question, ou lire des questions à la demande des élèves. Néanmoins, il doit impérativement reprendre les mots précis de la question, dans la langue dans laquelle le test est imprimé. Les administrateurs doivent disposer d’une montre ou d’une hor- loge et inscrire au tableau ou sur une feuille de papier l’heure précise de début et de fin du test. Ils doivent s’assurer que les élèves sont conscients du temps dont ils disposent pour réaliser le test. Cela consiste généralement à leur rappeler la durée du test au début de l’épreuve, et à les informer lorsque les 10, 5, ou 2 dernières minutes approchent, selon la longueur du test. Les administrateurs doivent encourager les élèves à répondre intégralement au test quand ceux-ci passent manifestement trop de temps sur une question ou hésitent à poursuivre. Ils peuvent par exemple murmurer à l’élève de choisir au mieux sa réponse parmi les options proposées, puis de tenter de répondre à la question suivante. Seul le matériel spécifié dans le manuel est autorisé dans la salle de classe pendant l’administration du test. Habituellement, les élèves apportent leurs propres crayons et gommes pour le test. Les trousses et les sacs ne sont en aucun cas autorisés. Tout ce qui peut aider les élèves à répondre aux questions du test doit être retiré de la classe. Les élèves ne doivent pas avoir accès à des ressources telles que des dictionnaires ou des calculatrices, sauf si les consignes le permettent expressément. L’administrateur de test, les élèves participants, et éventuellement un surveillant seront les seules personnes autorisées dans la salle pen- dant l’administration du test. Le directeur d’établissement ou les enseignants ne pourront pas se déplacer dans la salle et le responsable du test sera informé en cas de modifications inévitables survenues dans les conditions d’administration du test. 158 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Durant l’administration du test, l’administrateur doit recueillir toute information utile sur les incidents survenus relatifs aux condi- tions du test pour certains élèves. La page de couverture du carnet de test comportera un espace où il pourra indiquer l’absence d’un élève pour tout ou partie du test. Si un élève doit quitter la salle pour cause de maladie et ne termine pas le test, l’administrateur devra également le consigner sur le carnet. Le CD joint contient des exemples d’instructions générales et des consignes spécifiques pour les administrateurs de test, et pro- pose des suggestions pour la mise en page d’un manuel d’administra- tion de test. ASSURANCE QUALITÉ Les administrateurs de test doivent être recrutés pour leur aptitude à accomplir dûment cette mission. Ils doivent parler couramment la langue dans laquelle le manuel est rédigé et s’engager à accomplir leur tâche correctement. Quels que soient leur ancienneté ou leurs diplômes universitaires, les administrateurs devront être formés : ils assisteront à une séance de formation au cours de laquelle l’objectif du test et leur rôle dans son administration leur seront expliqués. Ils devront comprendre pourquoi le respect des consignes est impératif et pourront s’exercer à l’adminis- tration du test avec d’autres administrateurs. Ils pourront également poser des questions sur les procédures décrites dans le manuel. Si des enseignants administrent les tests à leurs propres élèves, la formation devra les aider à comprendre l’objectif du test et à les ras- surer sur le fait que les données ne seront pas utilisées pour évaluer leur travail d’enseignant. Ils devront également comprendre l’impor- tance de ne pas aider les élèves à répondre aux questions. Les administrateurs seront supervisés pendant au moins une partie du test. La supervision de tous les administrateurs étant souvent impossible, des contrôles aléatoires devront être réalisés. Les administrateurs peuvent aussi être tenus de remplir et signer des listes de vérification de tâches afin de s’assurer qu’ils ont accompli dûment leur travail. L’ADMINISTRATEUR DE TEST | 159 LISTE DE VÉRIFICATION DE L’ADMINISTRATEUR Les détails concernant les éléments requis sur la liste de vérification de l’administrateur varient selon la personne concernée et les procédures de suivi des carnets, et les procédures de sécurité. L’encadré 13.1 fournit un exemple de liste de vérification utilisée aux Philippines. Un autre exemple est fourni dans le Volume 3 de cette série, Mettre en œuvre une évaluation nationale des acquis scolaires. ENCADRÉ 13.1 Liste de vérification de l’administration : un exemple des Philippines L’administrateur doit vérifier chaque item pour montrer qu’il ou elle l’a achevé, et signer le formulaire à la fin. Nom Date Tâche Référence Temps Achevé 1. Compléter le formulaire d’attribution Formulaire 10 min. du carnet de test des élèves (ACTE) ACTE en insérant les numéros des tests dans l’ordre consécutif et en inscrivant les noms des élèves par ordre alphabétique. 2. Administrer le questionnaire destiné Questionnaire 15 min. aux professeurs. du professeur 3. Compléter le formulaire de feedback. Formulaire de 10 min. feedback du professeur 4. Distribuer le test attribué à chaque Formulaire 10 min. élève et noter absents les élèves ACTE manquants. 5. Lire l’introduction des Directives. Directives aux 5 min. administrateurs, p. 7 6. Demander aux élèves de compléter Directives aux 5 min. les renseignements personnels sur la administrateurs, page de couverture du test. p. 9 (suite) 160 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES ENCADRÉ 13.1 (suite) Nom Date Tâche Référence Temps Achevé 7. Vérifier que chaque élève a complété 10 min. ses renseignements personnels sur la page de couverture. 8. Suivre les instructions pour la Session 1. Directives aux 60 min. administrateurs, p. 11–13 9. Pour les pauses, demander aux élèves 15 min. de sortir de la salle en rang et de laisser leur test sur leur table. 10. Suivre les instructions pour la Directives aux 60 min. Session 2. administrateurs, p. 15–17 11. Pour les pauses, demander aux élèves 15 min. de sortir de la salle en rang et de laisser leur test sur leur table. 12. Suivre les instructions pour la Directives aux 70 min. Session 3. administrateurs, p. 19–21 13. Collecter tous les carnets de test et Formulaire 10 min. cocher leur retour en utilisant le ACTE formulaire ACTE. 14. Rendre compte de tous les tests et Formulaire 5 min. veiller à ce que chaque test soit rendu. ACTE 15. Faire sortir les élèves. 2 min. 16. Signer le formulaire ACTE. Formulaire 2 min. ACTE 17. Collecter et emballer tout le matériel 10 min. de test dans la boîte fournie, en incluant i. Le formulaire ACTE ii. Le questionnaire du professeur iii. Le formulaire de feedback du professeur iv. Tous les tests complétés v. Tous les tests non utilisés. 18. Placer le matériel en lieu sûr. 10 min. (suite) L’ADMINISTRATEUR DE TEST | 161 ENCADRÉ 13.1 (suite) Nom Date Tâche Référence Temps Achevé 19. Remettre le matériel à l’inspecteur de Formulaire de Temps de district pour l’Évaluation régionale en distribution déplace- mathématiques, sciences, et anglais SD ERMSA ment (ERMSA). 20. Remettre cette liste de vérification Liste de 2 min. complétée à l’inspecteur de district. vérification administrative de l’ERMSA Signature de l’administrateur ___________________________________ Source: Ministère de l’Éducation des Philippines, 2004. CHAPITRE 14 INFORMATION DES ÉCOLES SUR L’ÉVALUATION NATIONALE Il est nécessaire de motiver les élèves afin qu’ils fassent de leur mieux au cours de l’évaluation nationale. Ils le seront davantage si les professeurs leur expliquent en quoi consiste l’objectif du test, et que les résultats serviront à améliorer l’enseigne- ment et non à les juger. Tous les élèves doivent être encouragés à participer, particulière- ment ceux dont les compétences sont plus faibles. Ils seront informés de la date des tests en fonction de la situation propre à leur école. Si les élèves se sentent menacés par le test et sont susceptibles de s’absenter, il est préférable de ne pas leur communiquer la date précise du test. S’ils sont enthousiastes à l’idée de le passer et sont plus susceptibles de venir à l’école, il est préférable de la leur communiquer. L’organisme d’exécution doit veiller à ce que les écoles soient bien informées de l’objectif du test avant l’administration de celui-ci. Ces informations peuvent être fournies dans le cadre de séminaires, ou par courrier, ou par téléphone. Il est souhaitable d’être honnête et clair sur la nature des données qui seront collectées, la façon dont elles seront publiées et utilisées, et sur le feedback (le cas échéant) que l’école recevra sur la performance des élèves. 163 164 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Les proviseurs et enseignants des écoles participantes doivent être informés que leurs écoles et leurs classes ont été sélectionnées afin d’obtenir des informations sur ce que les élèves savent et ne savent pas. L’objectif de la collecte de ces informations est de contribuer à améliorer le système éducatif national. Les écoles ou les classes indi- viduelles ne seront pas jugées dans des évaluations nationales fondées sur des échantillons. Il convient également d’informer les proviseurs et les enseignants des écoles participantes que toutes les données des tests et les réponses aux questionnaires resteront confidentielles. Des procédures doivent être mises en place pour s’assurer que les écoles ont accepté de participer à l’évaluation avant que des adminis- trateurs externes soient affectés à l’école. Il est également nécessaire de veiller à ce que les administrateurs externes reçoivent les lettres de recommandation nécessaires, notamment une lettre de mission, afin de s’assurer que l’école les aidera à s’acquitter de leurs responsabilités. Le Volume 3 Mettre en œuvre une évaluation nationale des acquis scolaires contient des suggestions complémentaires sur l’information destinée aux écoles, y compris un modèle lettre. ANNEXE A GLOSSAIRE Administrateur : Personne chargée de superviser la conduite du test et d’assurer que les conditions d’administration des tests sont uniformes, conformément au manuel d’administration. Théorie classique des tests : Méthodologie statistique pour l’analyse des données de test. Analyse de données : Utilisation d’une méthode statistique pour analyser et interpréter les données de tests. Analyste de données : Personne responsable des analyses statistiques des données. Batterie d’items : Série d’items testés au cours d’un test de terrain ou pré-test et d’items sécurisés issus de tests antérieurs conformes pour utilisation dans des tests futurs. Cadre d’évaluation : Document définissant l’objectif du test et précisant ce qu’il faut mesurer, comment le mesurer, et pour quelles raisons, et de quelle manière il convient de publier les résultats. Centre de correction : Lieu où la notation manuelle des items de tests est organisée et où les évaluateurs sont formés et supervisés. Clé à choix multiple : Réponse correcte à un item à choix multiple. 165 166 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Cohorte complète : Tous les élèves d’un pays répondant à des critères donnés, comme être dans un niveau scolaire donné à un moment donné. Comité de révision d’items : Petit groupe de trois à six personnes qui révisent dans un esprit critique et peaufinent tous les aspects des items pour s’assurer qu’ils sont de haute qualité. Composition écrite : Réponse libre écrite à un déclencheur, générale- ment la moitié d’une page ou plus. Conditions uniformes : Conditions de tests énoncées dans le manuel d’administration et imposées de la même manière à tous les élèves soumis au test ; tous les élèves reçoivent le même degré d’appui, les mêmes instructions et disposent de la même durée pour réaliser le test. Corrélation bisériale de point : Méthode utilisée dans les analyses d’items pour fournir une mesure de la corrélation (relation) entre le score (juste ou faux) obtenu par les élèves pour un item individuel et le score global obtenu pour les items restants. Responsables des politiques : Responsables gouvernementaux qui élaborent les politiques éducatives. Distracteurs : Réponses incorrectes à un item à choix multiple. Domaine d’apprentissage : Une attention particulière consacrée à une discipline du programme telle que les mathématiques ou les sciences. Données : Informations collectées dans un test, enregistrées générale- ment sur un logiciel informatique. Données agrégées : Données combinées pour donner un score global, par exemple un score unique résultant d’un test de 30 items. Double correction : Processus consistant à noter deux fois les réponses des élèves aux items ; le second évaluateur n’a pas vu le premier score. Échantillon aléatoire : Groupe d’élèves sélectionné statistiquement qui correspond à des critères donnés, notamment la distribution de variables clés qui correspondent à la distribution des mêmes variables dans une cohorte complète. GLOSSAIRE | 167 Énoncé : Partie d’un item à choix multiple qui précède les options, généralement une question, phrase incomplète ou une instruction. Correcteur : Personne qui note manuellement les items selon un guide de notation. Correcteur en chef : Un évaluateur expérimenté chargé de la contre- vérification des notations manuelles pour s’assurer de la cohérence et de la fiabilité du travail d’un évaluateur. Fiabilité du test : Mesure dans laquelle les preuves collectées sont suffisantes pour faire des généralisations. Niveau de gris : Ton d’impression gris clair. Formulaire de réponse : Formulaire séparé du carnet de test utilisé par les élèves pour enregistrer leurs réponses à des items de tests. Formulaire définitif : Carnets de tests administrés à un échantillon de population. Guides de correction : Descriptions des catégories de notation utili- sées pour classer les réponses aux items générées par les élèves. Item : Une seule partie d’un test associée à un score individuel ; il peut s’agir d’une question, une phrase incomplète, ou une seule partie d’un test ou questionnaire associé à un score ou un code individuels. Item à choix multiple : Item qui demande aux élèves de sélectionner la seule réponse correcte à une question à partir d’un certain nombre d’options. Item à crédit partiel : Item contenant deux ou plusieurs catégories de réponses correctes ; ces catégories sont généralement hiérarchisées pour les items dans le formulaire final du test sans devoir être hiérar- chisées pour les items de pré-tests, de test de terrain ou tests types. Item à réponse construite fermée : Item qui demande aux élèves de produire une réponse courte présentant un ensemble court et ordonné de réponses correctes. Item à réponse courte ouverte : Item qui demande à l’élève de pro- duire une réponse courte, telle une phrase ou deux, ou plusieurs modifications dans un tableau, graphique ou diagramme. 168 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Item de liaison : Item reproduit dans deux ou plusieurs carnets de tests pour permettre de comparer les données tirées de l’administra- tion des carnets. Item discriminant : Item qui établit une distinction entre les perfor- mances des élèves aux capacités élevées et aux capacités faibles ; c’est-à-dire que les élèves aux capacités élevées sont plus suscep- tibles de répondre correctement à l’item que les élèves aux capaci- tés faibles. Item non biaisé : Item qui constitue un test de performance équitable et ne favorise pas certains groupes sur la base de caractéristiques non pertinentes pour l’évaluation du savoir ou du savoir-faire concerné. Item sécurisé : Item qui est resté hors du domaine public ; il peut avoir été administré dans un test antérieur mais les conditions de test ont évité la reproduction ou des fuites. Liaison circulaire : Association au sein d’un groupe de formulaires de tests entre le premier formulaire de test jusqu’au dernier. Liaison horizontale : Association d’items entre des formulaires de même année ou de même niveau scolaire. Liaison linéaire : Association d’un groupe de formulaires de tests, du premier au suivant sans que le premier formulaire soit associé rétros- pectivement au dernier. Liaison longitudinale : Association de formulaires de test dans la durée. Liaison verticale : Association de formulaires de tests utilisés à diffé- rents niveaux scolaires par le biais de l’utilisation d’items communs. Manuel d’administration : Ensemble d’instructions écrites sur les moyens, le moment et le lieu où les tests doivent être administrés ; le manuel peut également inclure des renseignements sur la diffusion des carnets de tests à l’intérieur et à l’extérieur des établissements d’enseignement. Notation de contre-vérification : Un réexamen des notations manuelles pour vérifier qu’ils correspondent systématiquement aux catégories de scores du guide de notation ; généralement le réexamen est réalisé GLOSSAIRE | 169 par le chef des évaluateurs au moment même du test pour trans- mettre un feedback immédiat aux évaluateurs sur la qualité du travail. Notation de divergence : Procédures pour gérer les scores litigieux découlant de la contre-vérification ou de la double correction de réponses générées par les élèves ; ces procédures sont généralement gérées par le responsable de l’évaluation. Notation manuelle : Scores attribués par des évaluateurs humains (pas des machines) à des réponses d’élèves à des items. Objectivité du test : Mesure dans laquelle le test n’est pas affecté par le choix de la tâche ou le choix de l’évaluateur ; c’est-à-dire que la tâche est juste et inclusive et se fonde sur des critères déterminés pour donner des appréciations de notations. Population cible : Les élèves auxquels le test est administré. Pré-test : Autre nom pour « test expérimental » administré avant le test définitif, sur un petit échantillon d’élèves, pour établir la qualité et la pertinence des items, questionnaires et manuels d’administration. Plan détaillé : Spécifications des critères auxquels doivent se confor- mer les items de test, notamment la proportion d’items qui doit cor- respondre à chaque discipline du programme, la longueur du test, le format de l’item, et tout autre critère ou contrainte concernant l’élaboration des tests. Relecture : Examen en profondeur de tous les aspects d’un texte pour s’assurer qu’il est clair, cohérent et sans erreurs. Réponse incorrecte : Item pour lequel la réponse de l’élève corres- pond à la catégorie de scores 0. Réponse manquante : Items auxquels l’élève n’a pas tenté de répondre. Responsable de l’évaluation : Personne responsable de gérer le centre d’évaluation et de résoudre les divergences dans les notations. Score : Points attribués à une réponse d’élève sur la base des catégo- ries d’un guide de notation. 170 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Score dichotomique : Item noté correct ou incorrect et affichant par conséquent deux scores possibles : 0 et 1. Subdivision : Aspects ou regroupements au sein d’un domaine d’apprentissage du programme ; par exemple, les mathématiques peuvent être séparés en subdivisions nombre, espace, schéma et mesures. Support de stimulus : Textes, diagrammes ou graphiques qui four- nissent le contexte pour un ou plusieurs items. Tableau de spécifications : Autre nom pour prototype. Test : Un ou plusieurs items auxquels les élèves répondent dans des conditions uniformes ; les items sont conçus pour permettre aux élèves de montrer leurs savoirs, savoir-faire et compréhension. Test expérimental : Autre nom pour « pré-test » ou « test de terrain » administré avant le test définitif, avec un petit échantillon d’élèves, pour établir la qualité et la pertinence des items, questionnaires et manuels d’administration. Test pilote : Autre nom pour « test expérimental » conduit avant le test définitif, avec un petit échantillon d’élèves, pour établir la qualité et la pertinence des items, questionnaires et manuels d’administration. Test de terrain : Autre nom pour « test expérimental » réalisé avant le test définitif, avec un petit échantillon d’élèves, pour établir la qualité et la pertinence des items et des manuels d’administration. Unité : Ensemble d’items fondé sur un élément commun de support de stimulus. Utilité du test : Mesure dans laquelle le test sert son objectif. Validité du test : Concept large qui implique de procéder à des inter- prétations et des utilisations appropriées de scores ou d’informations de tests. ANNEXE B LECTURES COMPLÉMENTAIRES Allen, N. L., J. R. Donoghue et T. L. Schoeps. 2001. The NAEP 1998 Technical Report. Washington, DC : Centre américain des données statistiques en éducation. Australian Council for Educational Research. Aucune date. Literacy and Numeracy National Assessment (LANNA), Sample Questions, Numeracy Year 5. http://www.acer.edu.au/documents/LANNA_Y5NumeracyQuestions.pdf. Baker, F. 2001. The Basics of Item Response Theory. College Park, Maryland : ERIC Clearinghouse on Assessment and Evaluation, Université de Maryland. Beaton, A. E. et E. G. Johnson. 1989. « Overview of the Scaling Methodology used in the National Assessment. » Journal of Educational Measurement 29 : 163–75. Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill et D. R. Krathwohl. 1956. Taxonomy of Educational Objectives: Handbook 1—Cognitive Domain. Londres : Longmans, Green. Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin et M. Sainsbury. 2001. Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill, Massachusetts : International Study Center, Boston College. Chatterji, M. 2003. Designing and Using Tools for Educational Assessment. Boston : Allyn and Bacon. 171 172 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES Educational Research Centre. 1978. Drumcondra Attainment Tests, Manual, Level II, Form A. Dublin : Educational Research Centre. Département de l’Éducation de la Papouasie-Nouvelle-Guinée. 2003. Cultural Mathematics Elementary Syllabus. Port Moresby, Papouasie-Nouvelle- Guinée : Département de l’Éducation de la Papouasie-Nouvelle-Guinée. Département de l’Éducation des Philippines. 2004. Region-wide Assessment for Mathematics, Science, and English (RAMSE) : Basic Education Assistance for Mindanao (BEAM). Manille : Département de l’Éducation des Philippines. Eivers, E., G. Shiel, R. Perkins et J. Cosgrove. 2005. The 2004 National Assessment of English Reading. Dublin : Educational Research Centre. Forster, M. 2000. A Policy Maker’s Guide to International Achievement Studies. Camberwell, Australie : Australian Council for Educational Research. ———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs. Camberwell, Australie : Australian Council for Educational Research. Greaney, V. et S. B. Neuman. 1990. « The Functions of Reading: A Cross-Cultural Perspective. » Reading Research Quarterly 25 (3) :172–95. Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items. IIe éd. Hillsdale, New Jersey : Lawrence Erlbaum. Harlen, W. (dir.). 2008. Student Assessment and Testing. Vols. 1–4. Londres : Sage IEA (International Association for the Evaluation of Educational Achievement). 1998. Third International Mathematics and Science Study—TIMSS Sample Items. Chestnut Hill, Massachusetts : International Study Center, Boston College. http://www.edinformatics.com/timss/pop1 /mpop1.htm, http://timss.bc.edu/timss1995i/TIMSSPDF/BSItems.pdf/, and http://www.ed. gov/inits/Math/timss4_8.html. ———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade. S011026. Chestnut Hill, Massachusetts : TIMSS & PIRLS International Study Center, Boston College. timss.bc.edu/PDF/T03_RELEASED_S4.pdf. Kirsch, I. 2001. The International Adult Literacy Survey (IALS): Understanding What Was Measured. Rapport de recherche RR-01-25. Princeton, New Jersey : Educational Testing Service. Kubiszyn, T. et G. Borich. 2000. Educational Testing and Measurement. New York : Wiley. Linn, R. L. et S. B. Dunbar. 1992. « Issues in the Design and Reporting of the National Assessment of Educational Progress. » Journal of Educational Measurement 29 (2) : 177–94. LECTURES COMPLÉMENTAIRES | 173 Linn, R. L. et M. D. Miller. 2004. Measurement and Assessment in Teaching: Student Exercise Manual. Upper Saddle River, New Jersey : Prentice Hall. Messick, S. 1987. « Large-Scale Educational Assessment as Policy Research: Aspirations and Limitations. » European Journal of Psychology and Education 2 (2) : 157–65. ———. 1989. « Validity. » Dans Educational Measurement, IIIe éd., R. L. Linn (dir.), 13–103. New York : American Council on Education/ Macmillan. Mullis, I. V. S, A. M. Kennedy, M. O. Martin et M. Sainsbury. 2006. Assessment Framework and Specifications: Progress in International Reading Literacy Study. 2e éd. Chestnut Hill, Massachusetts : TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez et S. J. Chrostowski. 2004. TIMSS 2003 International Mathematics Report: Findings from IEA’s Trends in International Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, Massachusetts : TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden, K. M. O’Connor, S. J. Chrostowski et T. A. Smith. 2000. TIMSS 1999 International Mathematics Report. Findings from IEA’s Repeat of the Third International Mathematics and Science Study at the Eighth Grade. Chestnut Hill, Massachusetts : The International Study Center, Boston College. timssandpirls. bc.edu/timss1999i/pdf/T99i_Math_2.pdf. National Assessment Governing Board. Aucune date. Writing Framework and Specifications for the 1998 National Assessment of Educational Progress. Washington, DC : Département de l’Éducation des États-Unis. Ministère de l’Éducation de la Nouvelle-Zélande. 2002. English in the New Zealand Curriculum. Wellington : Learning Media for the New Zealand Ministry of Education. Nitko, A. J. 2004. Educational Assessment of Students. IVe éd. Upper Saddle River, New Jersey : Pearson, Merrill, Prentice Hall. ———. 2004. National Curriculum Standards Monitoring Test. Port Moresby, Papouasie-Nouvelle-Guinée : Département de l’Éducation de la Papouasie-Nouvelle-Guinée PISA (Programme international pour le suivi des acquis des élèves). 2004. Learning for Tomorrow’s World: First Results from PISA 200. Paris : Organisation de coopération et de développement économiques. ANNEXE C EXEMPLES D’ITEMS DE TESTS ET QUESTIONNAIRES ET DE MANUELS D’ADMINISTRATION SUR CD Le disque compact (CD) joint à ce volume contient des exemples d’items de tests de performance, de guides de notation, d’items de ques- tionnaires ainsi que des manuels utilisés dans divers contextes, y compris dans le cadre d’évaluations nationales et internationales. La figure C.1 présente le contenu de ce CD. La plupart des items, questionnaires et manuels ont été mis à la disposition du public et peuvent être consultés sur Internet. Ils sont reproduits sur un CD afin que les équipes d’évalua- tion situées dans des pays où l’accès à Internet reste aléatoire puissent bénéficier d’une aide. Nous remercions vivement les éditeurs et organisa- tions qui nous ont soutenus et accordé l’autorisation de reproduire leurs documents originaux sur ce CD. Ils sont tous cités à la fin de cette annexe. Les exemples figurant sur ce CD peuvent fournir aux équipes nationales d’évaluation des idées sur le type et le format des items, les guides de notation, la couverture des programmes de cours, la mise en page des tests et des questionnaires et les types d’informations conte- nus dans les manuels d’administration de tests. Les équipes nationales d’évaluation peuvent s’en inspirer pour concevoir leurs propres ins- truments d’évaluation, guides de notation et manuels. Les équipes nationales d’évaluation doivent penser aux programmes nationaux, à la pertinence du vocabulaire et des formats de tests lors de la sélec- tion et de l’adaptation des documents. 175 176 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES FIGURE C.1 Guide du CD de documentation relatif aux tests, questionnaires et manuels Exemples du CD Items de tests et Questionnaires Manuels directives de notation Langue Élève Coordinateur d’écoles Mathématiques Enseignant Administrateur du test/questionnaire Sciences Directeur et école Parents Remarque : Cliquez sur le fichier « Source » pour accéder à la source de chaque item, question et manuel publiés ainsi qu'à une liste des adresses des sites Internet (le cas échéant) sur lesquels les informations diffusées ont été obtenues. ITEMS DE TESTS DE PERFORMANCE Le CD comprend des items de tests de mathématiques, langues et sciences. Nous espérons que les rédacteurs d’items de mathématiques, langues et sciences en tireront profit pour élaborer des instruments d’évaluation fondés sur leurs propres programmes nationaux. Notre objectif n’est pas d’encourager les équipes nationales d’évaluation à reproduire ces items à l’identique. Dans chaque matière, des fichiers d’items sont présentés pour les niveaux du primaire, puis du post- primaire, complétés à leur tour de fichiers d’items à la fois pour les niveaux primaires et post-primaires. Le CD comprend un large recueil d’items issus de diverses études américaines menées en mathématiques, lecture, sciences et écriture pour les niveaux 4, 8 et 12, et de différentes études s’adressant à des élèves de 9, 13 et 17 ans. Il comprend également des items issus des tests de l’État du Massachusetts en mathématiques destinés aux élèves du niveau 4. Des items employés dans des études australiennes et irlandaises ont également été compilés. Le CD présente aussi des items publiés dans le cadre de trois évaluations internationales : Tendances de l’enquête internationale sur les mathématiques et les EXEMPLES D’ITEMS DE TESTS ET QUESTIONNAIRES ET | 177 sciences (TIMSS) (tests en mathématiques et sciences pour les niveaux 3, 4, 7 et 8 et la dernière année de post-primaire) ; le Programme inter- national de recherche en lecture scolaire (PIRLS) (tests de langue pour le niveau 4) ; et le Programme international pour le suivi des acquis des élèves (PISA) (tests en langue, mathématiques et sciences destinés aux élèves âgés de 15 ans). Certains items de langue se réfèrent à des longs passages de textes, un format qui peut être inadapté dans certaines évaluations natio- nales. Dans un certain nombre de cas, le format de l’item téléchargé diffère de celui utilisé dans le carnet de tests d’origine. Veuillez noter que certains items de tests sont destinés à évaluer au moins deux niveaux scolaires distincts. Les documents inclus dans ce CD comprennent aussi des guides de notation associés à certains tests. QUESTIONNAIRES Le CD contient des exemples de questionnaires distincts destinés aux élèves, aux enseignants, aux écoles et aux directeurs, ainsi qu’aux parents. La plupart des questionnaires ont été utilisés dans des études internationales dans des pays industrialisés. De nombreuses questions correspondent à des contextes éducatifs et scolaires spécifiques. Les équipes nationales d’évaluation doivent envisager d’adapter certaines des questions les plus pertinentes afin qu’elles reflètent l’environne- ment économique, social et scolaire de leurs pays. MANUELS Le CD inclut des manuels qui fournissent des instructions spécifiques sur la façon d’administrer les tests et les questionnaires. Il comprend aussi des manuels sur les rôles et responsabilités des personnes char- gées de la coordination de l’évaluation au sein des écoles. Ces respon- sabilités comprennent des tâches à mener en amont, pendant et après l’administration des tests et questionnaires. Les exemples traitent de thématiques diverses telles que la préparation des administrateurs de 178 | METTRE AU POINT LES TESTS ET QUESTIONNAIRES tests ; la rédaction d’une liste des besoins en fournitures et documents (tests, questionnaires, crayons et horloge ou montre) ; l’agencement des sièges pour limiter les possibilités de tricher ; la gestion des exemples types d’items ; la mise en œuvre des directives sur les temps impartis, et l’identification des tâches que l’administrateur doit mener à la fin de chaque session. Certains matériels se révèleront plus appropriés que d’autres en fonction des pays. Quelques manuels mentionnent par exemple des tests corrigés par ordinateur ou des feuilles de réponses, des outils peu utilisés dans de nombreux pays en développement. Les utilisateurs sont priés de ne pas reproduire à l’identique le contenu des manuels, mais d’y puiser des idées qui correspondent au mieux à leurs contextes nationaux respectifs. Des exemples sont pourvus afin d’aider les équipes nationales d’évaluation à mettre au point des manuels fondés sur leurs propres tests. Certains manuels suggèrent de sélectionner un échantillon d’élèves au sein d’écoles. REMERCIEMENTS Le Centre national de statistiques sur l’éducation, division du Département de l’Éducation des États-Unis (http://nces.ed.gov /nationsreportcard/about) a autorisé la reproduction d’items de tests, de manuels d’administrateurs de tests et de questionnaires publiés par l’Évaluation nationale des progrès de l’éducation (NAEP). L’Association internationale pour l’évaluation du rendement scolaire (http://www.iea.nl/ et http://timss.bc.edu/) a autorisé la reproduction d’items, de questionnaires et manuels destinés aux coordinateurs d’écoles et aux administrateurs de tests publiés par le TIMSS et le PIRLS. L’Organisation de coopération et de développement économiques (http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) a auto- risé la reproduction d’items de tests, de questionnaires et de manuels destinés aux coordinateurs d’écoles et aux administrateurs de tests publiés par le PISA. Le CD contient des items de mathématiques rendus publics par le Département de l’Éducation du Massachusetts et disponibles sur le EXEMPLES D’ITEMS DE TESTS ET QUESTIONNAIRES ET | 179 site Internet du Département à l’adresse http://www.doe.mass.edu /mcas/testitems.html. L’Australian Council for Educational Research (ACER) a autorisé la reproduction d’exemples types d’items et de guides de notation tirés de son évaluation nationale en littératie (compréhension de l’écrit, écriture) et numératie (mathématiques) pour les élèves âgés de 3, 5 et 7 ans (Literacy and Numeracy National Assessment, Reading) (http://www.acer.edu.au/lanna/). L’Educational Research Centre (ERC) de Dublin (http://www.erc .ie/ index.php?s=7) a autorisé la reproduction d’items d’anglais et de mathématiques, d’un questionnaire ainsi que d’un manuel pour les administrateurs de tests. Le CD contient un dossier qui dresse la liste des sources de chaque item, question et manuel publiés, ainsi qu’une liste des adresses des sites Internet (le cas échéant) à partir desquels les informations diffu- sées ont été obtenues. Cliquez sur le fichier « Source » pour accéder à la source de chaque item, question et manuel publiés ainsi qu’à une liste des adresses des sites Internet (le cas échéant) depuis lesquels les informations diffusées ont été obtenues.