L’évaluation d’impact en pratique Paul J. Gertler, Sebastian Martinez, Patrick Premand, Laura B. Rawlings, Christel M. J. Vermeersch BANQUE MONDIALE L’évaluation d’impact en pratique La version anglaise de l’évaluation d’impact en pratique est disponible sous la forme d’un manuel interactif à l’adresse suivante : http://www.worldbank.org/pdt. La version électronique permet à la communauté des praticiens qui travaillent dans des régions ou des secteurs différents ainsi qu’aux étudiants et aux enseignants de partager des informations et des notes qui favorisent l’apprentissage multimédia et les échanges de connaissances. Des documents complémentaires au présent ouvrage sont disponibles à l’adresse suivante : http://www.worldbank.org/ieinpractice. Ce manuel a été rendu possible par le soutien du Fonds espagnol d’évaluation d’impact (SIEF). Lancé en 2007 avec un don de 14,9 millions de dollars du Gouvernement espagnol et complémenté par un don de 2,1 millions de dollars du département britannique du développement international (DFID), le SIEF est le plus grand fonds consacré à l’évaluation d’impact jamais mis en place par la Banque mondiale. Son objectif principal est de renforcer l’ensemble des preuves existantes sur les programmes qui fonctionnent en matière de santé, d’éducation et de protection sociale et, de ce fait, d’informer les décisions sur les politiques de développement. http://www.worldbank.org/sief. L’évaluation d’impact en pratique Paul J. Gertler, Sebastian Martinez, Patrick Premand, Laura B. Rawlings, Christel M. J. Vermeersch BANQUE MONDIALE © 2011 Banque internationale pour la reconstruction et le développement/Banque mondiale 1818 H Street NW Washington DC 20433 Téléphone : 202-473-1000 Internet: www.worldbank.org Tous droits réservés 1 2 3 4 14 13 12 11 Cet ouvrage a été réalisé par le personnel de la Banque internationale pour la reconstruction et le développement/Banque mondiale. Les observations, interprétations et conclusions qu’il contient ne reflètent pas nécessairement l’opinion du Conseil d’administration de la Banque mondiale ou des pays qu’il représente. La Banque mondiale ne garantit pas l’exactitude des données contenues dans cet ouvrage. Les frontières, les couleurs, les dénominations et toute autre information �gurant sur les cartes du présent ouvrage n’impliquent de la part de la Banque mondiale aucun jugement quant au statut juridique d’un territoire quelconque et ne signi�ent nullement que l’institution reconnaît ou accepte ces frontières. Droits et licences Le contenu de la présente publication fait l’objet d’un dépôt légal. La reproduction ou la transmission d’une partie ou de l’intégralité de cette publication peuvent constituer une violation de la législation en vigueur. La Banque internationale pour la reconstruction et le développement/Banque mondiale encourage la diffusion de ses travaux et, en règle générale, accorde rapidement l’autorisation d’en reproduire des extraits. Pour obtenir l’autorisation de reproduire des extraits du présent ouvrage, veuillez adresser une demande en fournissant tous les renseignements nécessaires à l’adresse suivante : Copyright Clearance Center, Inc., 222 Rosewood Drive, Danvers, MA 09123, États-Unis ; téléphone : 978-750-8400 ; télécopie : 978-750-4470 ; Internet : www.copyright.com. Pour tout autre renseignement sur les droits et licences, y compris les droits dérivés, veuillez vous adresser au service suivant : Office of the Publisher, The World Bank, 1818 H Street NW, Washington, DC 20433, États-Unis ; télécopie : 202-522-2422 ; e-mail : pubrights@worldbank.org. ISBN: 978-0-8213-8752-8 eISBN: 978-0-8213-8681-1 DOI: 10.1596/978-0-8213-8752-8 Données de catalogage avant publication de la Bibliothèque du Congrès L’évaluation d’impact en pratique/Paul J. Gertler ... [et al.]. p. cm. Comprend des références bibliographiques et un index. ISBN 978-0-8213-8541-8 -- ISBN 978-0-8213-8593-7 (électronique) 1. Projets de développement économique--Évaluation. 2. Étude d’évaluation (programmes d’action sociale) I. Gertler, Paul, 1955- II. Banque mondiale. HD75.9.I47 2010 338.90072--dc22 2010034602 Maquette de couverture : Naylor Design. TABLES DES MATIÈRES Préface xiii PARTIE UN. INTRODUCTION À L’ÉVALUATION D’IMPACT 1 Chapitre 1. Pourquoi évaluer ? 3 Élaboration des politiques fondée sur les preuves 3 Qu’est-ce que l’évaluation d’impact ? 7 L’évaluation d’impact pour les décisions politiques 8 Décider quand évaluer 10 Analyse du rapport coût-ef�cacité 11 Évaluation prospective et évaluation rétrospective 13 Études d’ef�cacité pilotes et études d’ef�cacité à l’échelle 14 Combiner les sources d’information pour évaluer tant le « pourquoi » que le « comment » 15 Notes 17 Références 18 Chapitre 2. Formulation des questions d’évaluation 21 Types de questions d’évaluation 22 Théories du changement 22 Chaîne de résultats 24 Hypothèses pour l’évaluation 27 Sélection des indicateurs de performance 27 Feuille de route pour les parties 2 et 3 29 Note 30 Références 30 PARTIE DEUX. COMMENT ÉVALUER ? 31 Chapitre 3. Inférence causale et contrefactuel 33 Inférence causale 33 Estimation du contrefactuel 36 v Deux contrefactuels contrefaits 40 Notes 47 Chapitre 4. Méthodes de sélection aléatoire 49 Assignation aléatoire du traitement 50 Deux variations de l’assignation aléatoire 64 Estimation d’impact pour l’offre aléatoire 66 Notes 79 Références 80 Chapitre 5. Modèle de discontinuité de la régression 81 Cas 1 : subvention des engrais pour la riziculture 82 Cas 2 : transferts monétaires 84 Utilisation du modèle de discontinuité de la régression pour évaluer le Programme de subvention de l’assurance maladie (PSAM) 86 Le modèle de discontinuité de la régression en pratique 89 Limites et interprétation du modèle de discontinuité de la régression 91 Note 93 Références 93 Chapitre 6. Double différence 95 En quoi la méthode de la double différence est-elle utile ? 98 Utilisation de la double différence pour évaluer le Programme de subvention de l’assurance maladie (PSAM) 102 La méthode de la double différence en pratique 103 Limites de la méthode de la double différence 104 Notes 104 Références 105 Chapitre 7. Appariement 107 Utilisation des techniques d’appariement pour le Programme de subvention de l’assurance maladie (PSAM) 111 La méthode d’appariement en pratique 113 Limites de la méthode d’appariement 114 Notes 115 Références 116 Chapitre 8. Combinaisons de méthodes 117 Combinaisons de méthodes 119 Adhérence non totale 120 Effets de diffusion 123 vi L’évaluation d’impact en pratique Considérations supplémentaires 125 Un plan de rechange pour votre évaluation 127 Note 127 Références 128 Chapitre 9. Évaluation de programmes à multiples facettes 129 Évaluation de programmes à différents niveaux de traitement 130 Évaluation de traitements multiples à l’aide d’études croisées 132 Note 137 Références 137 PARTIE TROIS. COMMENT METTRE EN ŒUVRE UNE ÉVALUATION D’IMPACT 139 Chapitre 10. Mettre en œuvre une évaluation d’impact 143 Choisir une méthode d’évaluation 143 L’évaluation est-elle éthique ? 153 Comment constituer une équipe d’évaluation ? 154 Quand effectuer l’évaluation ? 158 Comment établir le budget d’une évaluation d’impact ? 161 Notes 169 Références 169 Chapitre 11. Choisir l’échantillon 171 Quelles sont les données nécessaires ? 171 Calculs de puissance : quelle est la taille de l’échantillon nécessaire ? 175 Choisir une stratégie d’échantillonnage 192 Notes 195 Références 197 Chapitre 12. Collecter des données 199 Choisir une entité compétente pour collecter les données 199 Élaboration du questionnaire 201 Pilotage du questionnaire 204 Travail de terrain 204 Saisie et validation des données 207 Note 209 Références 209 Table des matières vii Chapitre 13. Production et diffusion des résultats 211 Les produits de l’évaluation 211 Diffusion des résultats 219 Notes 221 Références 222 Chapitre 14. Conclusion 223 Note 228 Références 228 Glossaire 229 Encadrés 1.1 Évaluation et durabilité politique : le programme de transferts monétaires conditionnels Progresa/Oportunidades au Mexique 5 1.2 L’évaluation au service d’une meilleure allocation des ressources : plani�cation familiale et fécondité en Indonésie 6 1.3 L’évaluation au service d’une meilleure conception des programmes : malnutrition et développement cognitif en Colombie 9 1.4 Évaluation du rapport coût-ef�cacité : comparaison de stratégies pour accroître la fréquentation scolaire au Kenya 12 2.1 Théorie du changement : des sols en ciment font le bonheur des Mexicains 23 3.1 Estimation du contrefactuel : mademoiselle Unique et le programme de transferts monétaires conditionnels 36 4.1 Transferts monétaires conditionnels et éducation au Mexique 64 4.2 Offre aléatoire de bons d’éducation en Colombie 70 4.3 Promotion des investissements dans les infrastructures d’éducation en Bolivie 78 5.1 Aide sociale et offre de main-d’œuvre au Canada 89 5.2 Frais de scolarité et taux de scolarisation en Colombie 90 5.3 Filets de protection sociale fondés sur un indice de pauvreté en Jamaïque 91 6.1 Privatisation de l’approvisionnement en eau et mortalité infantile en Argentine 103 7.1 Programme d’emploi public et revenus en Argentine 113 7.2 Eau courante et santé infantile en Inde 114 8.1 Liste des tests de véri�cation et de falsi�cation 118 8.2 Double différence appariée : sols en ciment, santé infantile et bonheur maternel au Mexique 121 8.3 Programme avec effets de diffusion : traitement vermifuge, effets externes et éducation au Kenya 124 viii L’évaluation d’impact en pratique 9.1 Comparer des alternatives de programmes de prévention du VIH/sida au Kenya 135 9.2 Comparer différents programmes de suivi de la corruption en Indonésie 136 10.1 Programmes de transferts monétaires et échelle minimum d’intervention 152 12.1 Collecte de données pour l’évaluation des programmes pilotes Atención a Crisis au Nicaragua 208 13.1 Exemple de structure d’un plan d’évaluation d’impact 212 13.2 Exemple de structure d’un rapport de référence 213 13.3 Exemple de structure d’un rapport d’évaluation 216 13.4 Diffuser les résultats d’une évaluation pour améliorer les politiques 221 Figures 2.1 Qu’est-ce qu’une chaîne de résultats ? 25 2.2 Chaîne de résultats d’un programme de mathématiques du cycle secondaire 26 3.1 Le clone parfait 37 3.2 Un groupe de comparaison valide 39 3.3 Estimations avant et après d’un programme de micro�nance 41 4.1 Caractéristiques des groupes constitués par assignation aléatoire du traitement 52 4.2 Échantillonnage aléatoire et assignation aléatoire du traitement 54 4.3 Étapes de l’assignation aléatoire du traitement 57 4.4 Assignation aléatoire du traitement avec utilisation d’une feuille de calcul 58 4.5 Estimation d’impact avec assignation aléatoire 61 4.6 Offre aléatoire d’un programme 67 4.7 Estimation de l’impact du traitement sur les traités en cas d’offre aléatoire 67 4.8 Promotion aléatoire 74 4.9 Estimation d’impact en cas de promotion aléatoire 75 5.1 Rendement rizicole 83 5.2 Dépenses des ménages et niveau de pauvreté (avant l’intervention) 84 5.3 Seuil d’éligibilité au programme de transferts monétaires 85 5.4 Dépenses des ménages et niveau de pauvreté (après l’intervention) 86 5.5 Indice de pauvreté et dépenses de santé avant le lancement du Programme de subvention de l’assurance maladie 87 Table des matières ix 5.6 Indice de pauvreté et dépenses de santé – deux ans après le lancement du Programme de subvention de l’assurance maladie 88 6.1 Double différence 97 6.2 Double différence en cas de divergence des tendances du résultat 100 7.1 Appariement exact sur la base de quatre caractéristiques 108 7.2 Appariement par le score de propension et support commun 110 8.1 Effets de diffusion 125 9.1 Étapes de l’assignation aléatoire à deux niveaux de traitement 131 9.2 Étapes de l’assignation aléatoire pour deux interventions 133 9.3 Groupe de traitement et groupe de comparaison pour un programme à deux interventions 134 P3.1 Feuille de route de la mise en œuvre d’une évaluation d’impact 141 11.1 Un grand échantillon ressemble mieux à la population 177 11.2 Un cadre d’échantillonnage valide couvre l’intégralité de la population à l’étude 193 14.1 Nombre d’évaluations d’impact effectuées par la Banque mondiale par région, 2004-2010 227 Tableaux 2.1 Éléments d’un plan de suivi et évaluation 28 3.1 Cas 1— Impact du PSAM selon la méthode avant-après (comparaison de moyennes) 44 3.2 Cas 1— Impact du PSAM selon la méthode avant-après (analyse de régression) 44 3.3 Cas 2— Impact du PSAM selon la méthode avec-sans (comparaison de moyennes) 46 3.4 Cas 2— Impact du PSAM selon la méthode avec-sans (analyse de régression) 47 4.1 Cas 3— Comparaison entre villages de traitement et villages de comparaison 62 4.2 Cas 3— Impact du PSAM selon la méthode d’assignation aléatoire (comparaison de moyennes) 63 4.3 Cas 3— Impact du PSAM selon la méthode d’assignation aléatoire (analyse de régression) 63 4.4 Cas 4— Impact du PSAM selon la méthode de promotion aléatoire (comparaison de moyennes) 76 4.5 Cas 4— Impact du PSAM selon la méthode de promotion aléatoire (analyse de régression) 77 5.1 Cas 5— Impact du PSAM selon le modèle de discontinuité de la régression (analyse de régression) 88 x L’évaluation d’impact en pratique 6.1 Double différence 98 6.2 Cas 6— Impact du PSAM selon la méthode de la double différence (comparaison de moyennes) 102 6.3 Cas 6— Impact du PSAM selon la méthode de la double différence (analyse de régression) 102 7.1 Estimation du score de propension sur la base des caractéristiques observées 111 7.2 Cas 7— Impact du PSAM selon la méthode d’appariement (comparaison des moyennes) 112 7.3 Cas 7— Impact du PSAM selon la méthode d’appariement (analyse de régression) 112 10.1 Relations entre les règles opérationnelles d’un programme et les méthodes d’évaluation d’impact 148 10.2 Coûts d’évaluations d’impact de projets soutenus par la Banque mondiale 161 10.3 Répartition des coûts pour un échantillon de projets soutenus par la Banque mondiale 162 10.4 Feuille de calcul pour l’estimation du coût d’une évaluation d’impact 166 10.5 Budget d’une évaluation d’impact 167 11.1 Exemples de grappes 181 11.2 Taille de l’échantillon nécessaire selon les différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,9, sans grappe 186 11.3 Taille de l’échantillon nécessaire selon les différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,8, sans grappe 186 11.4 Taille de l’échantillon nécessaire pour détecter différents effets minimum désirés (hausse du taux d’hospitalisation), puissance = 0,9, sans grappe 187 11.5 Taille de l’échantillon nécessaire pour différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,9, 100 grappes maximum 190 11.6 Taille de l’échantillon nécessaire pour différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,8, 100 grappes maximum 191 11.7 Taille de l’échantillon nécessaire pour détecter un impact minimum de deux dollars pour différents nombres de grappes, puissance = 0,9 191 Table des matières xi PRÉFACE Ce manuel constitue une introduction accessible à l’évaluation d’impact et à sa pratique dans le domaine du développement. Il est principalement destiné aux pro- fessionnels du développement et aux décideurs, mais peut également être utile aux étudiants et à toute personne intéressée à l’évaluation d’impact. Les évaluations d’impact prospectives visent à déterminer si un programme a atteint ou non les résultats espérés ou à tester différentes stratégies pour atteindre ces résultats. Nous considérons qu’une augmentation du nombre d’évaluations et une améliora- tion de leur qualité permettront de renforcer l’ensemble des preuves existantes au sujet de l’efficacité des politiques et programmes de développement dans le monde. Notre espoir est que les gouvernements et les professionnels du développement puissent prendre des décisions fondées sur des résultats éprouvés, tels que les preuves générées par les évaluations d’impact, de manière à rendre plus efficace l’utilisation des ressources pour réduire la pauvreté et améliorer le bien-être des populations. Les trois parties du manuel constituent une introduction non technique à l’évaluation d’impact. Elles décrivent ce qu’il convient d’évaluer et pourquoi (partie 1) ; exposent des méthodes d’évaluation (partie 2) ; et indiquent comment mettre en œuvre une évaluation (partie 3). Ces étapes constituent des éléments essentiels à la réalisation d’une évaluation d’impact. L’approche de l’évaluation d’impact que nous privilégions dans ce manuel est lar- gement intuitive et nous essayons de minimiser les aspects techniques. Nous présen- tons au lecteur une gamme d’outils d’évaluation d’impact (les concepts et méthodes sous-jacents à toute évaluation d’impact) et illustrons leur application à de réels pro- grammes de développement. Les méthodes évoquées sont directement issues de la recherche appliquée en sciences sociales et ont de nombreux points communs avec les méthodes de recherche utilisées en sciences naturelles. En ce sens, l’évaluation d’impact combine les outils de recherche empiriques couramment utilisés en écono- mie et dans d’autres sciences sociales avec les réalités opérationnelles et politico- économiques de la mise en œuvre de politiques et de pratiques de développement. D’un point de vue méthodologique, notre approche est essentiellement pragma- tique : nous estimons que la méthode d’évaluation la plus pertinente doit être dé�nie xiii en fonction du contexte opérationnel, et non le contraire. En ce sens, il est essentiel d’intégrer des évaluations d’impact prospectives à la mise en œuvre des projets dès leur conception. Au-delà de la méthode, il est tout aussi important de créer un consensus parmi les parties prenantes à un programme et d’élaborer une évaluation en adéquation avec le contexte politique et opérationnel. Par ailleurs, il nous semble primordial d’être transparent par rapport aux limites des évaluations d’impact. Fina- lement, nous encourageons vivement les décideurs et les responsables de pro- gramme à considérer l’évaluation d’impact à partir d’un cadre logique mettant clairement en évidence les relations causales à travers lesquelles un programme pro- duit des extrants et influence les résultats �naux. Complémenter les évaluations d’impact avec des données de suivi et des évaluations d’autres types permet aussi de mieux appréhender la performance d’un programme. L’originalité du présent manuel réside surtout dans son approche visant à illustrer l’application des outils d’évaluation d’impact à la réalité des programmes de développement. Nos expériences et observations relatives à la mise en pratique d’évaluations d’impact découlent de notre travail de formation et de collaborations avec des centaines de partenaires chevronnés issus d’institutions publiques, d’uni- versités et d’organisations actives dans le domaine du développement. Entre les auteurs, le manuel tire ainsi parti de dizaines d’années d’expérience dans la réalisa- tion d’évaluation d’impact à travers le monde. Ce livre est fondé sur une série de ressources pédagogiques mises au point pour les ateliers « Turning Promises to Evidence », organisés par le bureau de l’écono- miste en chef pour le développement humain, en partenariat avec les unités régionales et le groupe de recherche en économie du développement de la Banque mondiale. Au moment de la rédaction du présent ouvrage, ces ateliers se sont tenus plus d’une vingtaine de fois dans toutes les régions du globe. Tant le manuel que les ateliers ont été réalisés grâce aux généreuses contributions du Gouvernement espagnol et du département britannique du développement international (DfID) par le biais du Fonds espagnol pour l’évaluation d’impact (SIEF). Le manuel, des présentations et des documents complémentaires sont disponibles sur le site http://www.worldbank.org/ieinpractice. D’autres ressources de qualité proposent une introduction à l’évaluation d’im- pact, notamment Baker 2000 ; Ravallion 2001, 2008, 2009 ; Duflo, Glennerster et Kremer 2007 ; Duflo et Kremer 2008 ; Khandker, Koolwal et Samad 2009 ; ainsi que Leeuw et Vaessen 2009. La particularité du présent manuel est qu’il combine une revue non technique des méthodes d’évaluation quantitatives tout en établissant un lien direct avec les règles opérationnelles des programmes et en abordant de nom- breux aspects pratiques liés à la réalisation d’évaluations. Il est complété par des outils didactiques au sujet de l’évaluation d’impact. Les ressources pédagogiques sur lesquelles repose le manuel ont été enseignées et améliorées par de nombreux experts renommés ayant tous laissé leur empreinte et leur perspective sur les méthodes d’évaluation d’impact. Paul Gertler, Sebastian Martinez, Sebastian Galiani et Sigrid Vivo ont compilé une première version de ces xiv L’évaluation d’impact en pratique ressources pour un atelier organisé par le ministère mexicain du Développement social (SEDESOL) en 2005. Christel Vermeersch a développé et reformulé des sec- tions importantes des modules techniques et adapté une étude de cas pour les besoins de l’atelier. Laura Rawlings et Patrick Premand ont développé des ressources utilisées dans les versions plus récentes de l’atelier. Nous souhaitons remercier de nombreuses personnes qui ont assuré des forma- tions dans le cadre de l’atelier pour leur importante contribution, en particulier Felipe Barrera, Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro Carneiro, Nancy Qian, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz, Jed Friedman, Emanuela Galasso, Sebastian Galiani, Gonzalo Hernández Licona, Arianna Legovini, Phillippe Leite, Mattias Lundberg, Karen Macours, Juan Muñoz, Plamen Nikolov, Berk Özler, Gloria M. Rubio et Norbert Schady. Nous remercions également Barbara Bruns, Arianna Legovini, Dan Levy et Emmanuel Skou�as pour leur revue critique d’une version préliminaire de ce manuel, tout comme Bertha Briceno, Gloria M. Rubio et Jennifer Sturdy pour leurs commentaires. Nous tenons également à saluer la grande qualité du travail de l’équipe d’organisation de l’atelier, en particulier Paloma Acevedo, Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland, Adam Ross, Jennifer Sturdy et Sigrid Vivo. Ce manuel repose sur des transcriptions de présentations effectuées lors d’un atelier tenu à Beijing en Chine en juillet 2009. Nous remercions toutes les personnes qui ont participé à la rédaction des transcriptions originales, notamment Paloma Acevedo, Carlos Asenjo, Sebastian Bauhoff, Bradley Chen, Changcheng Song, Jane Zhang et Shufang Zhang. Nous tenons également à exprimer notre reconnaissance à Kristine Cronin pour la qualité de son travail d’assistance de recherche, à Marco Guzman et Martin Ruegenberg pour leurs illustrations ainsi qu’à Cindy A. Fisher, Fiona Mackintosh et Stuart K. Tucker pour leur travail éditorial lors de la rédaction de ce manuel. Nous voudrions aussi reconnaître le soutien et l’engagement en faveur de ce type de travaux au sein de la Banque mondiale, notamment de la part d’Ariel Fiszbein, Arianna Legovini et Martin Ravallion. En�n, nous voudrions remercier l’ensemble des participants aux ateliers qui se sont tenus à Mexico, New Delhi, Cuernavaca, Ankara, Buenos Aires, Paipa, Forta- leza, So�a, Managua, Madrid, Washington, Manille, Pretoria, Tunis, Lima, Amman, Beijing, Sarajevo, San Salvador, Katmandu, Rio de Janeiro, Accra, Séoul ainsi qu’au Caire et au Cap. Leur intérêt, leurs questions pertinentes et leur enthousiasme nous ont peu à peu appris ce que les décideurs recherchaient en matière d’évaluations d’impact. Nous espérons que ce manuel reflète leurs idées. Préface xv Références Baker, Judy. 2000. Evaluating the Impact of Development Projects on Poverty. Washington DC : Banque mondiale. Duflo Esther, Rachel Glennerster et Michael Kremer. 2007. « Using Randomization in Development Economics Research: A Toolkit. » Document de travail du CEPR no 6059. Center for Economic Policy Research, Londres, Royaume-Uni. Duflo Esther et Michael Kremer. 2008. « Use of Randomization in the Evaluation of Development Effectiveness. » In Evaluating Development Effectiveness, vol. 7. Washington, DC : Banque mondiale. Khandker, Shahidur R., Gayatri B. Koolwal et Hussain Samad. 2009. Handbook on Quantitative Methods of Program Evaluation. Washington DC : Banque mondiale. Leeuw, Frans et Jos Vaessen. 2009. Impact Evaluations and Development. NONIE Guidance on Impact Evaluation. Washington DC : NONIE et Banque mondiale. Ravallion, Martin. 2001. « The Mystery of the Vanishing Bene�ts: Ms. Speedy Analyst’s Introduction to Evaluation. » Étude économique de la Banque mondiale 15 (1) : 115–40. ———. 2008. « Evaluating Anti-Poverty Programs. » In Handbook of Development Economics, vol, 4., éd. Paul Schultz et John Strauss. Amsterdam : Hollande-Septentrionale ———. 2009. « Evaluation in the Practice of Development. » World Bank Research Observer 24 (1) : 29–53. xvi L’évaluation d’impact en pratique Partie 1 INTRODUCTION À L’ÉVALUATION D’IMPACT La première partie de l’ouvrage présente un aperçu général de l’évaluation d’impact. Dans le chapitre 1, nous exposons les raisons pour lesquelles l’éva- luation d’impact est importante et comment elle s’inscrit dans le cadre de la formulation de politiques fondée sur les preuves. Nous comparons l’évaluation d’impact avec d’autres méthodes d’évaluation courantes telles que le suivi et les évaluations de processus. Nous présentons aussi différents types d’évalua- tion d’impact, comme les évaluations prospectives et rétrospectives ou encore les études d’ef�cacité pilotes et les études d’ef�cacité à l’échelle. Dans le chapitre 2, nous traitons de la formulation de questions d’évaluation et d’hypothèses utiles aux décisions de politiques. Ces questions et hypothèses jouent un rôle primordial, car elles déterminent l’objectif de l’évaluation. CHAPITRE 1 Pourquoi évaluer ? Les politiques et les programmes de développement sont généralement conçus pour améliorer des indicateurs de résultats, par exemple pour augmenter les revenus, faciliter l’apprentissage ou faire reculer la maladie. Savoir si les changements espérés se sont effectivement produits est une question de politique publique importante, et pourtant rarement considérée. Le plus souvent, les responsables de programme et les décideurs mettent l’accent sur le contrôle et la mesure des intrants et des pro- duits immédiats (par exemple le montant d’argent dépensé et la quantité de livres distribués) plutôt que sur la question de savoir si les programmes ont atteint leurs objectifs en termes d’amélioration du bien-être des béné�ciaires. Élaboration des politiques fondée sur les preuves Les évaluations d’impact s’inscrivent dans la vaste tendance de l’élaboration de politiques fondée sur les preuves. Cette tendance internationale croissante accorde une attention particulière aux extrants et aux résultats au-delà des seuls intrants. Dans ce cadre, la mise en œuvre de politiques publiques est en train de se transfor- mer, comme l’illustrent les Objectifs de développement pour le Millénaire ou les ini- tiatives de paiement à la performance des prestataires de services. Une attention particulière sur les résultats est utile pour �xer des objectifs nationaux et internatio- naux et en garantir le suivi. Elle est également de plus en plus requise des respon- sables de programme pour davantage les responsabiliser, justi�er les allocations budgétaires et orienter les décisions de politique publique. Le suivi et l’évaluation sont au cœur de l’élaboration de politiques fondée sur les preuves. Ils constituent en effet les outils élémentaires que les diverses parties pre- 3 nantes peuvent utiliser pour véri�er et améliorer la qualité, l’efficience et l’efficacité des programmes à différents stades de mise en œuvre. Autrement dit, le suivi et l’éva- luation permettent de se focaliser sur les résultats. Tant les officiels des gouverne- ments que les acteurs extérieurs peuvent béné�cier de l’usage du suivi et de l’évaluation. Dans un ministère ou un organisme public, les fonctionnaires ont sou- vent besoin de prouver à leurs supérieurs que les programmes produisent des résul- tats a�n d’obtenir les allocations budgétaires nécessaires à la poursuite ou l’ampli�cation desdits programmes. Au plan national, les ministères sectoriels sont parfois en concurrence directe pour obtenir des fonds du ministère des Finances. Les gouvernements eux-mêmes doivent convaincre leurs électeurs que les investis- sements qu’ils ont choisis portent leurs fruits. En ce sens, les informations et des preuves solides constituent un moyen de sensibiliser le public et d’encourager la res- ponsabilisation du gouvernement. L’information produite par les systèmes de suivi et d’évaluation peut être régulièrement mise à la disposition des citoyens pour les informer des résultats des programmes publics, renforçant ainsi les pratiques de transparence et de responsabilisation des gouvernements. Dans un contexte où les décideurs et la société civile demandent des résultats et exigent que les responsables de programme rendent compte de la performance de leurs interventions, l’évaluation d’impact fournit des données solides et �ables qui indiquent si un programme donné a effectivement atteint les objectifs espérés. Au plan international, les évaluations d’impact jouent également un rôle crucial dans la mesure où elles permettent de mieux cerner l’efficacité des programmes de dévelop- pement en mettant en évidence ce qui fonctionne et ce qui ne fonctionne pas en matière de réduction de la pauvreté et d’amélioration du bien-être des populations. En résumé, une évaluation d’impact permet d’identi�er les changements du bien-être des individus qui peuvent être attribués à un projet, un programme ou une politique particulière. Le concept de l’attribution est au cœur des évaluations d’impact. De ce fait, le principal dé� d’une évaluation d’impact est d’identi�er la relation causale entre un projet, un programme ou une politique et les résultats à l’étude. Comme nous le verrons ci-dessous, les évaluations d’impact visent généralement à estimer l’impact moyen d’un programme sur le bien-être des béné�ciaires. Par exemple, la mise en œuvre d’un nouveau programme scolaire entraîne-t-elle de meilleurs résultats aux examens  ? Un programme d’accès à l’eau potable permet-il d’améliorer les indicateurs de santé des béné�ciaires ? Un programme de formation des jeunes permet-il d’encourager l’entrepreneuriat et d’augmenter les revenus ? En outre, si l’évaluation d’impact est fondée sur un échantillon suffisamment grand, les impacts du programme peuvent également être comparés entre divers sous-groupes de béné�ciaires. Par exemple, le lancement d’un nouveau programme scolaire entraîne-t-il de meilleurs résultats aux examens tant pour les �lles que pour les gar- çons ? Les évaluations d’impact peuvent aussi permettre de tester explicitement des options alternatives de concevoir des programmes. Par exemple, une évaluation peut comparer la performance d’un programme de formation visant à renforcer les connais- sances �nancières des béné�ciaires par contraste avec une campagne de promotion ayant les mêmes objectifs. Dans chaque cas, l’évaluation d’impact donne des informa- tions sur l’impact général du programme contrairement aux études de cas ou aux anec- dotes fournissant des informations parcellaires qui ne reflètent pas forcément l’impact 4 L’évaluation d’impact en pratique général du programme. Dans ce sens, une évaluation bien conçue et correctement mise en œuvre permet d’obtenir des données convaincantes et exhaustives qui peu- vent être utilisées pour orienter les décisions de politique et informer l’opinion publique. L’encadré 1.1 illustre comment l’évaluation d’impact a contribué au débat sur l’élargissement d’un programme de transferts monétaires conditionnels au Mexique1. Encadré 1.1 : Evaluation et durabilité politique Le programme de transferts monétaires conditionnels Progresa/Oportunidades au Mexique Dans les années 90, les autorités mexicaines lan- 0,7 année en moyenne. De plus, selon Gertler cent un programme innovateur de transferts mo- (2004), l’incidence des maladies recule de nétaires conditionnels (TMC) baptisé Progresa. 23 % chez les enfants tandis que pour les Les objectifs de ce programme sont de fournir adultes le nombre de jours de travail perdus aux ménages pauvres un soutien �nancier à court pour cause de maladie ou d’incapacité diminue terme et d’encourager l’investissement dans le de 19 %. Au niveau nutritionnel, Behrman and capital humain des enfants, essentiellement en Hoddinott (2001) montrent que le programme octroyant aux mères des ménages pauvres une réduit le retard de croissance d’environ 1 cm allocation monétaire à condition que leurs en- par an chez les enfants se situant dans la fants soient scolarisés et effectuent régulière- tranche d’âge critique de 12 à 36 mois. ment des examens de santé. Ces résultats permettent d’alimenter un Dès le départ, le gouvernement met l’accent dialogue politique fondé sur des preuves et sur l’importance du suivi et de l’évaluation du incitent la nouvelle administration à maintenir le programme. Les responsables chargent un programme. Le gouvernement élargit même la groupe de chercheurs de concevoir une évalua- couverture du programme, y intégrant l’octroi de tion d’impact et de l’appliquer au programme au bourses pour le collège et le lycée ainsi que des fur et à mesure de son expansion aux diverses programmes d’amélioration de la santé des communautés concernées. adolescents. Parallèlement, les résultats de Les élections présidentielles de 2000 l’évaluation conduisent à modi�er d’autres pro- conduisent à un changement du parti au pou- grammes d’assistance sociale. Par exemple, le voir. En 2001, les évaluateurs externes du pro- programme de subvention de « tortilla », cou- gramme Progresa présentent leurs conclusions teux et moins bien ciblé, est revu à la baisse. à la nouvelle administration. Les résultats Le succès de l’évaluation du programme s’avèrent impressionnants : le programme est Progresa contribue aussi au rapide développe- bien ciblé aux populations pauvres et engendre ment des TMC à travers le monde ainsi qu’à des changements prometteurs en matière de l’adoption d’une loi exigeant que tous les projets capital humain. Schultz (2004) montre que le sociaux fassent l’objet d’une évaluation au programme augmente le taux de scolarisation Mexique. et allonge la durée de la scolarisation de Source : Behrman et Hoddinott 2001 ; Gertler 2004 ; Fiszbein et Schady 2009 ; Levy et Rodriguez 2005 ; Schultz 2004 ; Skou�as et McClafferty 2001. Pourquoi évaluer ? 5 L’encadré 1.2 montre, quant à lui, comment l’évaluation d’impact a mené à l’améliora- tion de l’allocation des ressources du gouvernement indonésien en permettant d’iden- ti�er les politiques les plus efficaces pour réduire le taux de fécondité. Encadré 1.2 : L’évaluation au service d’une meilleure allocation des ressources Plani�cation familiale et fécondité en Indonésie Dans les années 70, la politique de plani�cation fa- le gouvernement avait lancé un vaste pro- miliale indonésienne acquiert une reconnaissance gramme de scolarisation des �lles, impliquant internationale pour ses succès en matière de qu’elles sont plus nombreuses à avoir acquis baisse du taux de fécondité. Cette renommée pro- une éducation au moment d’atteindre l’âge de vient de deux phénomènes parallèles : 1) le taux de procréation. Parallèlement, la croissance écono- fertilité diminue de 22 % entre 1970 et 1980, de mique et l’offre accrue d’emplois engendrées 25 % entre 1981 et 1990, et d’un peu moins entre par le boom pétrolier entraînent une augmenta- 1991 et 1994 ; et 2) au cours de la même période, tion du nombre de femmes instruites dans la le Gouvernement indonésien augmente fortement population active. L’augmentation du temps de les ressources consacrées à la plani�cation fami- travail des femmes s’accompagne d’une hausse liale (notamment les subventions pour les contra- de l’usage des contraceptifs. In �ne, l’augmen- ceptifs). Ces deux phénomènes étant concomi- tation des revenus et l’autonomisation des tants, nombreux sont ceux qui concluent que la femmes expliquent 70 % de la baisse de fécon- hausse des investissements dans la plani�cation dité observée, soit plus que les investissements familiale provoque la baisse de la fécondité. dans les programmes de plani�cation familiale. Sceptiques, des chercheurs se demandent si Ces résultats permettent aux décideurs poli- les programmes de plani�cation familiale sont tiques de réorienter l’allocation des ressources réellement à l’origine de la baisse de la fécon- en connaissance de cause : les subventions en dité. Contre toute attente, ils découvrent que faveur de la contraception sont réduites au pro�t ces programmes n’ont qu’un impact limité sur la des programmes encourageant la scolarisation fécondité et concluent que cette baisse s’ex- des femmes. Les objectifs �naux des deux plique essentiellement par un changement du types de programmes sont certes les mêmes, statut des femmes. Les chercheurs font remar- mais les études d’évaluation ont mis en évi- quer qu’avant le lancement du programme de dence que, dans le cas de l’Indonésie, les inves- plani�cation familiale, très peu de femmes en tissements dans l’éducation sont plus ef�caces âge de procréer avaient terminé le cycle que les investissements dans la plani�cation primaire. En parallèle à la plani�cation familiale, familiale pour réduire la fécondité. Source : Gertler et Molyneaux 1994, 2000. 6 L’évaluation d’impact en pratique Qu’est-ce que l’évaluation d’impact ? L’évaluation d’impact fait partie d’une large gamme de méthodes complémentaires contribuant à l’élaboration de politiques fondée sur des preuves. Le présent ouvrage est consacré aux méthodes d’évaluation d’impact quantitatives ; nous allons cependant commencer par les placer dans le cadre plus général de la gestion publique axée sur les résultats, qui comprend aussi le suivi et d’autres types d’évaluation. Le suivi est un processus continu qui consiste à surveiller le déroulement d’un pro- gramme et qui s’appuie sur les données collectées pour améliorer la mise en œuvre du programme, sa gestion et les décisions quotidiennes le concernant. Ce processus s’ap- puie essentiellement sur les données administratives pour comparer la performance du programme aux résultats espérés, comparer les programmes entre eux et analyser des tendances à travers le temps. Le suivi se concentre généralement sur les intrants, les activités et les extrants, ainsi qu’occasionnellement les résultats, comme les progrès vers les objectifs de développement nationaux. L’évaluation est une appréciation périodique et objective de projets, programmes ou politiques prévus, en cours de réalisation ou achevés. Les évaluations permettent de répondre à des questions précises liées à la conception, la mise en œuvre ou les résultats des programmes. Contrairement au suivi, qui est continu, les évaluations sont périodiques et effectuées à un moment donné, généralement par des spécia- listes extérieurs au programme. La conception, la méthodologie et le coût des éva- luations varient fortement en fonction du type de question à laquelle elles répondent. D’une manière générale, les évaluations s’attèlent à trois types de questions (Imas et Rist, 2009) : • Les questions descriptives : à ce niveau, l’évaluation vise à montrer ce qui se passe, décrire les processus, les conditions qui prévalent, les relations organisation- nelles et les points de vue des diverses parties prenantes au programme. • Les questions normatives : l’évaluation compare ce qui se passe à ce qui devrait se passer ; elle consiste à étudier les activités et à estimer si les objectifs ont été at- teints ou non. Les questions normatives peuvent concerner les intrants, les acti- vités et les extrants. • Les questions de cause à effet : l’évaluation se concentre sur les résultats et cherche à déterminer dans quelle mesure l’intervention entraine des change- ments des résultats. Les évaluations d’impact sont un type particulier d’évaluation qui porte sur les ques- tions de cause à effet. Contrairement aux évaluations générales qui peuvent répondre à plusieurs types de questions, les évaluations d’impact sont structurées autour d’un type particulier de question : quel est l’impact (ou l’effet causal) d’un programme sur un résultat donné  ? La dimension causale est primordiale. Nous nous intéressons ici à l’impact du programme, à savoir les changements des résultats causés directement par celui-ci. L’évaluation d’impact vise ainsi à déterminer quels changements peuvent être attribués directement et exclusivement au programme. Pourquoi évaluer ? 7 L’évaluation d’impact se distingue par sa focalisation sur la causalité et l’attribution des changements, deux concepts qui dé�nissent aussi l’approche méthodologique. Pour pouvoir estimer l’effet causal ou l’impact d’un programme sur les résultats, la méthode choisie doit permettre de dé�nir le contrefactuel, c’est-à-dire le résultat qui aurait été obtenu pour un groupe de béné�ciaires si le programme n’avait pas existé. Dans les faits, l’évaluation d’impact nécessite de trouver un groupe de comparaison pour estimer les résultats qu’auraient connus les participants à un programme si ledit programme n’avait pas existé. La partie 2 du manuel est consacrée aux principales méthodes utilisées pour constituer des groupes de comparaison adéquats. Concept clé : La question fondamentale de l’évaluation d’impact (à savoir quel est l’impact ou La question l’effet causal d’un programme sur un résultat donné ?) peut être appliquée à de nom- fondamentale de breux contextes. Par exemple, quel est l’impact de l’octroi de bourses sur la scolari- l’évaluation d’impact sation et les résultats académiques ? Quel est l’impact sur l’accès aux soins de santé peut être formulée de la sous-traitance de ces services à des prestataires privés ? Quel est l’impact de ainsi : quel est l’impact remplacer des sols en terre battue par des sols en ciment sur la santé des enfants ? (ou l’effet causal) d’un L’amélioration de l’état des routes permet-elle un meilleur accès au marché du tra- programme sur un vail et une augmentation des revenus des ménages, et si tel est le cas, à quel degré ? résultat donné ? La taille des classes a-t-elle un impact sur les résultats scolaires des étudiants et, si oui, dans quelle mesure ? Quelle est l’efficacité des campagnes de publipostage rela- tivement à des formations pratiques lorsqu’il s’agit d’augmenter l’utilisation des moustiquaires dans les zones affectées par le paludisme ? L’évaluation d’impact pour les décisions politiques Les évaluations d’impact permettent d’éclairer les responsables politiques lorsqu’ils prennent plusieurs types de décisions : interruption des programmes inefficaces, expansion des interventions éprouvées, ajustement des béné�ces, sélection entre plusieurs options de conception de programmes. Pour être efficaces, les éva- luations doivent être utilisées de manière sélective pour répondre aux questions de politique publique les plus importantes. Elles s’avèrent particulièrement utiles dans le cadre des programmes pilotes qui éprouvent des approches nouvelles et promet- teuses n’ayant pas encore fait leurs preuves. L’évaluation du programme Progresa/ Oportunidades au Mexique présentée dans l’encadré 1.1 a été très influente, non seu- lement du fait du caractère novateur du programme, mais aussi parce qu’elle a fourni des preuves �ables et solides qui ne pouvaient être ignorées dans les prises de déci- sion ultérieures. L’adoption et l’élargissement du programme ont été largement influencés par les résultats de l’évaluation. Aujourd’hui, le programme Oportuni- dades béné�cie près d’un Mexicain sur quatre et forme le cœur de la stratégie de lutte contre la pauvreté du Mexique. Les évaluations d’impact peuvent servir à analyser différents types de questions de politique publique. Dans leur forme élémentaire, elles permettent de tester l’efficacité d’un programme donné. Autrement dit, elles répondent à la question suivante : un pro- gramme donné est-il efficace en comparaison à l’absence de ce programme ? Comme nous 8 L’évaluation d’impact en pratique le verrons dans la partie 2, ce type d’évaluation d’impact estime l’efficacité du pro- gramme en comparant un groupe de traitement qui a béné�cié d’un projet, d’un pro- gramme ou d’une politique avec un groupe de comparaison qui n’y a pas participé. Outre la réponse à la question fondamentale d’évaluation, les évaluations peuvent aussi servir à mesurer l’efficacité de diverses options de mise en œuvre d’un pro- gramme, autrement dit de répondre à la question suivante : lorsqu’un programme peut être mis en œuvre de plusieurs manières, y en a-t-il une qui est plus efficace que les autres ? Dans ce type d’évaluation, deux ou plusieurs options de concevoir un même pro- gramme sont comparées, de façon à déterminer le meilleur moyen d’atteindre un objectif particulier. Ces différentes options sont souvent appelées « branches de traite- ment ». Par exemple, quand la taille du béné�ce nécessaire pour rendre un programme efficace n’est pas connue (20 heures ou 80 heures de formation ?), les évaluations d’im- pact peuvent permettre d’estimer l’impact relatif de traitements d’intensités diffé- rentes (voir exemple de l’encadré 1.3). Les évaluations d’impact destinées à tester différentes options de traitement incluent généralement un groupe de traitement par branche, ainsi qu’un groupe de comparaison « pur » qui, lui, n’est pas soumis à l’inter- vention. Les évaluations d’impact peuvent être utiles pour tester des innovations ou des alternatives de mise en œuvre d’un programme. Par exemple, il est possible de mettre en œuvre plusieurs formes de campagnes de sensibilisation a�n de déterminer l’approche la plus efficace : un groupe est sélectionné pour recevoir une campagne de publipostage tandis que d’autres groupes recevront des visites à domicile. Encadré 1.3 : L’évaluation au service d’une meilleure conception des programmes Malnutrition et développement cognitif en Colombie Au début des années 70, la Human Ecology les évaluateurs comparent des groupes Research Station lance, en collaboration avec similaires d’enfants ayant reçu le traitement sur le ministère colombien de l’Éducation, un des durées différentes. Les évaluateurs programme destiné à lutter contre la malnutrition commencent par sélectionner un groupe cible infantile dans la ville de Cali en fournissant des de 333 enfants souffrant de malnutrition. Ces soins de santé, des activités d’éducation, de la enfants sont ensuite classés en 20 secteurs nourriture et des compléments alimentaires. selon leur lieu d’habitation, et chaque secteur Dans le cadre de la phase pilote, une équipe se voit assigné, de manière aléatoire, à l’un des d’évaluateurs est chargée de déterminer quatre groupes de traitement. La seule 1) le temps nécessaire pour qu’un tel programme différence entre les groupes est le moment réduise la malnutrition chez les enfants d’âge auquel ils commencent à recevoir le traitement préscolaire issus de familles à faibles revenus et et, de ce fait, la durée pendant laquelle ils 2) si les interventions peuvent aussi permettre participent au programme. Le groupe 4 des améliorations sur le plan du développement commence le premier. Il est donc exposé au cognitif. traitement le plus longtemps. Suivent les Le programme est ouvert à toutes les groupes 3, puis 2, puis 1. Le traitement consiste familles éligibles, mais durant la phase pilote en six heures quotidiennes de soins de santé (suite) Pourquoi évaluer ? 9 Encadré 1.3 suite et d’activités éducatives, et en la provision de cognitives les plus importantes. Au test nourriture et de compléments alimentaires. Au Stanford-Binet, qui évalue la différence entre cours de la période de mise en œuvre du l’âge mental et l’âge chronologique, les enfants programme, les évaluateurs procèdent à du groupe 4 ont une différence moyenne de intervalles réguliers à des tests cognitifs pour -5 mois, contre -15 mois pour le groupe 1. suivre les progrès des enfants de chacun des Cet exemple montre que les responsables quatre groupes. du programme et les décideurs politiques Les évaluateurs découvrent que les enfants peuvent recourir à l’évaluation de plusieurs ayant participé au programme le plus longtemps branches de traitement pour déterminer sont ceux qui enregistrent les améliorations l’alternative la plus ef�cace. Source : McKay et al. 1978. Décider quand évaluer Tous les programmes ne nécessitent pas une évaluation d’impact. Ces évaluations peuvent être coûteuses et le budget prévu pour les évaluations doit être utilisé de manière stratégique. Si vous lancez un nouveau programme ou si vous envisagez l’élargissement d’un programme en vigueur et que vous vous demandez si une éva- luation d’impact est nécessaire, quelques questions peuvent vous aider à trancher. La première question à se poser est la suivante : quels sont les enjeux de ce pro- gramme  ? La réponse dépend à la fois des montants engagés et du nombre de personnes qui sont ou seront touchées par le programme. D’où les questions suivantes : Le programme nécessite-t-il ou nécessitera-t-il une grande partie du budget disponible  ? et Le programme touche-t-il ou touchera-t-il un nombre important de personnes ? S’il se trouve que le programme ne consommera pas un budget impor- tant ou qu’il ne concernera qu’un nombre limité de personnes, une évaluation n’est pas forcement utile. Par exemple, pour un programme d’aide et de soutien délivrés par des volontaires à des patients hospitalisés, le budget et le nombre de béné�- ciaires peuvent être tels qu’une évaluation d’impact ne se justi�e pas. À l’inverse, pour une réforme des salaires de l’ensemble des enseignants du primaire d’un pays, les enjeux sont nettement plus importants. Si vous considérez que les enjeux sont de taille, la question qui se pose alors est de savoir s’il existe des données permettant de montrer que le programme donne des résultats. En particulier, avez-vous une idée de l’ampleur de l’impact du programme ? Existe-t-il des données concernant un pays et un contexte similaires ? S’il n’existe aucune information sur l’impact potentiel du programme envisagé, vous pouvez commencer par une phase pilote avec une évaluation d’impact. En revanche, si vous disposez déjà de données sur une situation similaire, l’évaluation d’impact ne se jus- 10 L’évaluation d’impact en pratique ti�era probablement que si elle permet de répondre à une nouvelle question de poli- tique importante. Ce sera par exemple le cas si votre programme contient des innovations importantes qui n’ont encore jamais été éprouvées. Pour justi�er la mobilisation des ressources techniques et �nancières néces- saires à la réalisation d’une évaluation d’impact de qualité, le programme à évaluer doit être : • Novateur. Il permet de tester une nouvelle approche prometteuse. • Reproductible. Le programme peut être élargi et reproduit dans un autre contexte. • Stratégiquement pertinent. Le programme est une initiative phare  ; il nécessite des ressources importantes ; il couvre ou couvrira un grand nombre de béné�- ciaires ; ou encore il permettrait de faire des économies importantes. • Non testé auparavant. L’efficacité du programme est méconnue soit au niveau in- ternational, soit dans un contexte particulier. • Influent. Les résultats du programme permettront d’orienter des décisions de po- litique clés. Analyse du rapport coût-ef�cacité Lorsque les résultats de l’évaluation d’impact sont disponibles, ils peuvent être Concept clé : combinés aux données sur les coûts du programme pour traiter deux autres types L’analyse coût-béné�ce de questions. Tout d’abord, pour les évaluations d’impact les plus élémentaires, le permet d’estimer les fait de prendre en compte les coûts permettra de réaliser une analyse coût-béné- béné�ces totaux �ce et de répondre à la question suivante : quel est le rapport coût-béné�ce d’un espérés du programme programme donné ? L’analyse coût-béné�ce permet d’estimer les béné�ces totaux par rapport aux coûts espérés du programme par rapport à ses coûts totaux. L’objectif est de déterminer totaux prévus. l’ensemble des coûts et des béné�ces monétaires d’un programme et de voir ainsi si les béné�ces sont supérieurs aux coûts. Dans un monde parfait, une analyse coût-béné�ce fondée sur les résultats concrets de l’évaluation d’impact pourrait être réalisée non seulement pour un programme donné, mais aussi pour toute une série de programmes ou d’alternatives de conception d’un même programme. Les décideurs politiques seraient ainsi en mesure de choisir Concept clé : en toute certitude le programme ou l’approche présentant le meilleur rapport coût- L’analyse du rapport béné�ce pour atteindre un objectif donné. Lorsqu’une évaluation d’impact porte sur coût-ef�cacité des alternatives de mise en œuvre d’un même programme, la prise en compte des compare la perfor- informations de coûts permet de répondre à une seconde question : quels sont les rap- mance relative de deux ports coût-efficacité des diverses approches ? L’analyse coût-efficacité compare la per- ou plusieurs formance relative de deux ou plusieurs programmes ou alternatives de conception programmes ou d’un programme à atteindre un même résultat. alternatives de Qu’il s’agisse d’analyse coût-béné�ce ou de rapport coût-efficacité, l’évaluation conception d’un d’impact permet d’estimer les béné�ces et l’efficacité, tandis que les informations programme à atteindre de coûts sont fournies par l’analyse des coûts. Le présent manuel porte sur l’éva- un même résultat. Pourquoi évaluer ? 11 luation d’impact et ne traite pas en détail des questions relatives à la collecte des informations sur les coûts ou à l’analyse coût-béné�ce2. Il est toutefois primordial de disposer des informations relatives aux coûts du projet, du programme ou de la politique qui fait l’objet de l’évaluation. Lorsque des informations sur l’impact et les coûts de divers programmes sont disponibles, le rapport coût-efficacité permet de déterminer les investissements les plus rentables et d’orienter ainsi les déci- sions des responsables. L’encadré 1.4 illustre comment les évaluations d’impact peuvent servir à déterminer les programmes les plus rentables et à mieux allouer les ressources. Encadré 1.4 : Évaluation du rapport coût-ef�cacité Comparaison de stratégies pour augmenter la fréquentation scolaire au Kenya En évaluant plusieurs programmes dans un laires aux enfants de sept écoles sélectionnées même contexte, il est possible de comparer de manière aléatoire. Le taux d’abandon chute le rapport coût-ef�cacité de différentes approches dans les écoles béné�ciant de l’intervention ; visant à améliorer un résultat donné, par exemple après cinq ans, il est estimé que le programme la fréquentation scolaire. Au Kenya, l’organisation a permis d’augmenter le nombre d’années de non gouvernementale International Child Support scolarisation de 17 % en moyenne. Toutefois, Africa (ICS Africa) met en œuvre toute une série même dans l’hypothèse la plus optimiste, le d’interventions en milieu scolaire qui compren- coût de cette augmentation de la fréquentation nent un traitement contre les vers intestinaux scolaire par la fourniture d’un uniforme scolaire ainsi que la fourniture gratuite d’uniformes et de ressort à environ 99 dollars par année supplé- repas scolaires. Chacune de ces interventions fait mentaire de scolarisation. l’objet d’une évaluation aléatoire et d’une En�n, un programme consistant à fournir analyse coût-béné�ce ; les comparaisons entre gratuitement un petit déjeuner aux enfants de les différentes interventions génèrent des infor- 25 écoles maternelles sélectionnées aléatoire- mations intéressantes sur la meilleure manière ment entraîne une augmentation de 30 % de la d’augmenter la fréquentation scolaire. fréquentation scolaire pour un coût estimé à Un programme proposant des médicaments 36 dollars par année de scolarisation supplé- contre les vers intestinaux aux enfants scolari- mentaire. Les résultats aux examens augmen- sés entraîne une hausse de la fréquentation de tent aussi, d’environ 0,4 au niveau de l’écart-type, l’ordre de 0,14 an par enfant traité, pour un coût lorsque l’enseignant est bien formé avant le lan- estimé à 0,49 dollar par enfant. Ceci représente cement du programme. environ 3,50 dollars par année supplémentaire Bien que des interventions similaires puis- de scolarisation, compte tenu des externalités sent cibler différents résultats (par exemple une sur les enfants et les adultes ne fréquentant pas amélioration de l’état de santé grâce aux vermi- l’école, mais vivant dans les communautés qui fuges ou de meilleurs résultats scolaires parallè- béné�cient indirectement d’une diminution de lement à la hausse de la fréquentation scolaire), la transmission des vers. la comparaison de diverses évaluations menées Une seconde intervention, le Child Spon- dans un même contexte permet de déterminer sorship Program, permet de réduire le coût de les programmes qui ont atteint l’objectif visé au scolarisation en fournissant des uniformes sco- meilleur coût Source : Kremer et Miguel 2004 ; Kremer, Moulin et Namunyu 2003 ; Poverty Action Lab 2005 ; Vermeersch et Kremer 2005. 12 L’évaluation d’impact en pratique Évaluation prospective et évaluation rétrospective Les évaluations d’impact peuvent être regroupées en deux catégories : les évalua- tions prospectives et les évaluations rétrospectives. Les évaluations prospectives sont prévues dès la conception du programme et font partie intégrante de sa mise en œuvre. Les données de l’enquête de base (ou enquête de référence) sont collectées avant la mise en place du programme tant pour le groupe de traitement que pour le groupe de comparaison. Les évaluations rétrospectives portent, quant à elles, sur l’impact du programme après la mise en œuvre de celui-ci, les groupes de traitement et de comparaison étant dé�nis ex-post. En général, les évaluations d’impact prospectives donnent des résultats plus solides et plus �ables, et ce pour trois raisons. En premier lieu, la collecte préalable de données de base (ou enquête de réfé- Concept clé : rence) permet d’assurer la mesure des résultats à l’étude. Les données de base Les évaluations fournissent des informations sur les béné�ciaires et les groupes de comparaison prospectives sont avant la mise en œuvre du programme et sont donc primordiales pour connaître la élaborées dès la situation avant le programme. Une enquête de référence couvrant le groupe de conception du traitement et le groupe de comparaison peut être analysée pour véri�er que ces programme et font groupes sont bien similaires. Elle peut par ailleurs permettre d’évaluer l’efficacité partie intégrante de la du ciblage, autrement dit d’établir si le programme touche effectivement les béné- mise en œuvre du �ciaires visés. programme. En deuxième lieu, la dé�nition de mesures pour juger du succès d’un programme dès sa conception permet d’axer non seulement l’évaluation, mais aussi le pro- gramme sur les résultats espérés. Comme nous le verrons, les évaluations d’impact découlent d’une théorie du changement ou chaîne de résultats. La conception d’une évaluation d’impact contribue à mieux dé�nir les objectifs du programme, en parti- culier parce qu’elle exige d’établir des mesures pour juger de l’efficacité du pro- gramme. Les décideurs doivent dé�nir des questions et des objectifs d’évaluation clairs de manière à ce que les résultats soient des plus pertinents. Le soutien total des décideurs est en effet une condition préalable de la réalisation d’une évalua- tion ; une évaluation d’impact ne doit pas être engagée si les décideurs ne sont pas convaincus de sa légitimité et de son importance pour éclairer les décisions futures. La troisième raison est la plus importante : dans une évaluation prospective, les groupes de traitement et de comparaison sont dé�nis avant l’entrée en vigueur du programme. Comme nous l’expliquerons plus en détail dans les chapitres suivants, de nombreuses options existent pour réaliser des évaluations valides si celles-ci sont prévues dès le départ et informées par la mise en œuvre du projet. Comme nous le montrons dans les parties 2 et 3, si l’évaluation prospective est bien conçue, une esti- mation valide du contrefactuel est possible pour tout programme suivant des règles d’assignation claires et transparentes. En bref, l’évaluation prospective a de meilleures chances de générer une estimation valide du contrefactuel. Différentes manières d’élaborer un contrefactuel valide peuvent être considérées dès la concep- tion du programme, et la méthodologie d’évaluation d’impact peut ainsi être totale- ment alignée sur les règles opérationnelles du programme, son déroulement ou son élargissement. Pourquoi évaluer ? 13 À l’inverse, dans les évaluations rétrospectives, l’évaluateur dispose souvent de si peu d’informations qu’il lui est difficile de déterminer si le programme a été mis en œuvre avec succès et si les participants y ont effectivement pris part. En effet, pour de nombreux programmes, il n’existe pas de données de base lorsque l’évaluation n’est pas intégrée au projet dès le départ. Une fois le programme lancé, il est trop tard pour collecter les données de base nécessaires. L’évaluation de programmes mis en œuvre par le passé ne peut se faire que par une évaluation rétrospective se fondant sur des données existantes. Dans ce cas, il est géné- ralement beaucoup plus difficile de dé�nir un contrefactuel valide. L’évaluation dépend de l’application des règles opérationnelles précises de distribution des béné- �ces. Elle est également tributaire de la disponibilité des données pour les groupes de traitement et de comparaison tant avant qu’après l’entrée en vigueur du programme. Par conséquent, la faisabilité d’une évaluation rétrospective dépend du contexte et n’est jamais garantie. Même lorsqu’elle est faisable, l’évaluation rétrospective repose souvent sur des méthodes quasi-expérimentales et des hypothèses plus fortes  ; les résultats sont donc plus discutables. Études d’ef�cacité pilotes et études d’ef�cacité à l’échelle Le principal rôle d’une évaluation d’impact est de produire des preuves quant à l’ef- �cacité d’un programme à l’usage des décideurs politiques, des responsables de pro- gramme, de la société civile ainsi que de toute autre partie prenante. Les résultats d’une évaluation d’impact sont particulièrement utiles lorsque les conclusions peu- vent être appliquées à une population plus large. La question de la généralisation des conclusions (ou « validité externe » dans le jargon des méthodes de recherche) est centrale pour les décideurs, car elle permet d’établir si les résultats obtenus par l’éva- luation peuvent s’appliquer à des groupes autres que ceux qui ont été étudiés, ce qui est primordial si un élargissement du programme est envisagé. Les premières évaluations d’impact de programmes de développement consti- tuaient souvent des études d’efficacité pilotes menées dans des conditions très parti- culières. Malheureusement, les résultats de ces études ne pouvaient que rarement être généralisés au-delà du contexte de l’évaluation. Les études d’efficacité pilotes sont généralement réalisées dans des conditions très particulières et avec une assis- tance technique importante tout au long de la mise en œuvre du programme. Ces études sont souvent mises en œuvre pour valider un concept ou tester la viabilité d’un nouveau programme. Si le programme ne génère pas l’impact prévu dans les conditions de l’étude, qui sont souvent bien maîtrisées, il a peu de chances de donner des résultats s’il est appliqué dans des conditions normales. Les études pilotes sont généralement de petite envergure et mises en œuvre dans des conditions étroite- 14 L’évaluation d’impact en pratique ment contrôlées ; l’impact qu’elles permettent de mettre en évidence risque de ne pas être représentatif de l’impact d’un projet similaire réalisé à plus grande échelle et dans des conditions normales. Par exemple, un projet pilote de mise en vigueur de nouveaux protocoles médicaux peut donner de bons résultats dans un hôpital doté d’excellents gestionnaires et d’un bon personnel médical, mais se révéler totalement inefficace dans un hôpital moyen, si les gestionnaires sont moins attentifs et les membres du personnel moins nombreux. En outre, le rapport coût-béné�ce sera dif- férent, car les coûts �xes et les économies d’échelle risquent de ne pas être pris en compte dans l’étude pilote vu l’envergure limitée du projet. Les études pilotes peu- vent certes être utiles pour tester une approche novatrice, mais leurs résultats ont généralement une validité externe limitée et ne reflètent pas toujours les conditions réelles auxquelles les décideurs sont habituellement confrontés. À l’inverse, les études d’efficacité à l’échelle caractérisent les interventions qui ont lieu dans des conditions normales et sont mises en œuvre par des voies habituelles. Lorsque les études d’efficacité à l’échelle sont bien conçues et bien réalisées, les résultats peuvent être considérés comme valides aussi bien pour l’échantillon d’éva- luation que pour d’autres béné�ciaires potentiels hors de l’échantillon. La validité externe est primordiale pour les décideurs, car c’est elle qui dé�nit s’il sera possible ou non d’utiliser les résultats de l’évaluation pour juger de l’opportunité d’étendre le programme au-delà de l’échantillon d’évaluation. Combiner les sources d’information pour évaluer tant le « pourquoi » que le « comment » Les évaluations d’impact réalisées sans tenir compte de diverses sources d’infor- mations sont vulnérables tant sur le plan technique que sur le plan de leur effica- cité potentielle. Sans informations sur la nature et le contenu du programme permettant de replacer les résultats de l’évaluation dans leur contexte, les déci- deurs ne pourront pas déterminer les raisons pour lesquelles un résultat a été atteint et non un autre. Si les évaluations d’impact donnent des estimations rela- tivement �ables des effets causaux pour un programme, elles ne sont générale- ment pas conçues pour permettre d’analyser les aspects relatifs à l’efficience de la mise en œuvre du programme. De plus, elles doivent être en adéquation avec la réalisation du programme et doivent, en conséquence, tenir compte de la manière, du moment et du lieu où le programme évalué est exécuté. Des données qualitatives, des données de suivi ainsi que des évaluations de pro- cessus sont nécessaires pour documenter la mise en œuvre d’un programme de façon à éclairer et interpréter les résultats des évaluations d’impact. À cet égard, les évaluations d’impact et les autres outils d’évaluation sont complémentaires les uns des autres plutôt que concurrents. Pourquoi évaluer ? 15 Par exemple, les autorités d’une province peuvent décider le versement de primes aux cliniques rurales qui réussissent à augmenter le pourcentage des naissances ayant lieu en présence d’un professionnel de la santé. Si l’évaluation montre qu’aucun changement n’a été constaté au niveau du pourcentage des naissances en cliniques, plusieurs explications peuvent être avancées. Il est tout d’abord possible que le personnel des cliniques concernées n’ait pas été suffisam- ment informé des primes ou qu’il n’ait pas compris les règles du programme. Dans ce cas, les autorités provinciales peuvent lancer une campagne d’informa- tion et d’éducation à l’attention des centres de santé. Il se peut aussi qu’un manque d’équipement ou des coupures d’électricité aient empêché les cliniques d’admettre plus de patients. Dans ce cas, il peut s’avérer nécessaire de renforcer les équipements et d’améliorer l’approvisionnement en électricité. En�n, les femmes enceintes en milieu rural peuvent être réticentes à accoucher en cli- nique et préférer, pour des raisons culturelles, accoucher chez elles, assistées d’une sage-femme. Si tel est le cas, il sera sans doute plus efficace de s’attaquer aux barrières auxquelles se heurtent les femmes que de distribuer des primes aux cliniques. Une bonne évaluation d’impact permettra aux autorités de déter- miner si l’évolution du taux des naissances en présence d’un professionnel de la santé est le résultat ou non de la distribution des primes. Des travaux complé- mentaires seront toutefois nécessaires pour déterminer si le programme s’est déroulé comme prévu et quelles en sont les pièces manquantes. Dans notre exemple, les évaluateurs peuvent compléter leur étude d’impact en interrogeant le personnel de santé des cliniques pour évaluer leur connaissance du pro- gramme, en examinant les équipements dont disposent les cliniques, en menant des discussions de groupe avec des femmes enceintes pour comprendre leurs préférences et leurs réticences, et en examinant l’ensemble des données dispo- nibles sur l’accès aux centres de santé en milieu rural. Utiliser des données qualitatives Les données qualitatives constituent un complément important aux évaluations d’impact quantitatives, car elles peuvent donner des indications additionnelles sur la performance d’un programme. Les évaluations qui combinent l’analyse quantitative et l’analyse qualitative sont dites à « méthodes mixtes » (Bamberger, Rao et Wool- cock, 2010). Les études qualitatives ont recours à des groupes focaux et à des entre- vues avec certains béné�ciaires et d’autres personnes susceptibles de fournir des informations (Rao et Woolcock, 2003). Bien que les points de vue et opinions issus de ces entretiens et des groupes focaux ne puissent être considérés comme repré- sentatifs de l’opinion de l’ensemble des béné�ciaires du programme, ils sont particu- lièrement utiles au cours des trois phases de l’évaluation d’impact : 1. Lors de la conception de l’évaluation d’impact, les évaluateurs peuvent avoir recours à des groupes focaux et interroger des personnes clés pour élaborer des 16 L’évaluation d’impact en pratique hypothèses sur la manière et les raisons de la réussite du programme, le cas échéant, et clari�er les questions de recherche auxquelles il s’agira de répondre lors de l’évaluation d’impact quantitative. 2. Au stade intermédiaire, soit avant que les résultats de l’évaluation quantitative ne soient connus, l’analyse qualitative peut permettre de fournir aux décideurs un aperçu de l’évolution du programme. 3. Au stade de l’analyse, les évaluateurs peuvent recourir aux méthodes qualita- tives pour replacer les données quantitatives dans leur contexte et trouver des explications, pour mieux étudier les cas particuliers de réussite ou d’échec, et pour formuler des explications systématiques de la performance du programme établie par les résultats quantitatifs. En ce sens, l’analyse qualitative peut contribuer à expliquer certains résultats observés au terme de l’analyse quanti- tative et permettre de mieux comprendre ce qui s’est passé dans le cadre du programme (Bamberger, Rao et Woolcock, 2010). Utiliser des données de suivi et des évaluations de processus Les données de suivi sont également particulièrement précieuses pour l’évaluation d’impact. Elles permettent en effet de recenser les participants au programme, de déterminer la chronologie de développement du programme ou la manière dont les ressources sont dépensées, ainsi que d’une manière plus générale de véri- �er si les activités sont mises en œuvre comme prévu. Ces informations sont très importantes pour la réalisation de l’évaluation, pour s’assurer par exemple que les données de l’enquête de référence sont bien collectées avant l’entrée en vigueur du programme ou encore pour véri�er l’adhérence à l’assignation aux groupes de traitement et de comparaison. En outre, le système de suivi peut fournir des informations sur le coût de la mise en œuvre du programme, particulièrement utiles pour l’analyse coût-béné�ce. Pour leur part, les évaluations de processus mettent l’accent sur l’exécution et le déroulement du programme et visent à véri�er que le processus est conforme aux prévisions initiales ; elles fournissent des informations sur son développement et son déroulement. Ces évaluations peuvent généralement être effectuées assez rapidement et à un coût raisonnable. Dans le cadre des projets pilotes et des phases initiales de programmes, elles peuvent constituer des sources d’informations inté- ressantes pour améliorer l’exécution du programme. Notes 1. Voir Fiszbein et Schady, 2009, pour un aperçu des programmes de TMC et le rôle influent du programme Progresa/Oportunidades suite à l’évaluation d’impact dont il a fait l’objet Pourquoi évaluer ? 17 2. Pour de plus amples informations sur l’analyse coût-béné�ce, voir Belli et al. 2001 ; Boardman et al. 2001 ; Brent 1996 ; ou Zerbe et Dively 1994. Références Bamberger, Michael, Vijayendra Rao et Michael Woolcock 2010. « Using Mixed Methods in Monitoring and Evaluation: Experiences from International Development. » Document de travail consacré à la recherche sur les politiques 5245, Banque mondiale, Washington, DC. Behrman, Jere R. et John Hoddinott. 2001. « An Evaluation of the Impact of PROGRESA on Pre-school Child Height. » FCND Briefs 104, International Food Policy Research Institute, Washington, DC. Belli, Pedro, Jock Anderson, Howard Barnum, John Dixon et Jee-Peng Tan. 2001. Handbook of Economic Analysis of Investment Operations. Washington DC : Banque mondiale. Boardman, Anthony, Aidan Vining, David Greenberg et David Weimer. 2001. Cost-Bene�t Analysis: Concepts and Practice. New Jersey: Prentice Hall. Brent, Robert. 1996. Applied Cost-Bene�t Analysis. Angleterre : Edward Elgar. Fiszbein, Ariel, et Norbert Schady. 2009. Conditional Cash Transfer, Reducing Present and Future Poverty. World Bank Policy Research Report. Banque mondiale, Washington, DC. Gertler, Paul J. 2004. « Do Conditional Cash Transfers Improve Child Health? Evidence from PROGRESA’s Control Randomized Experiment. » American Economic Review 94 (2) : 336–41. Gertler, Paul J. et John W. Molyneaux. 1994. « How Economic Development and Family Planning Programs Combined to Reduce Indonesian Fertility. » Demography 31 (1): 33–63. ———. 2000. « The Impact of Targeted Family Planning Programs in Indonesia. » Population and Development Review 26 : 61–85. Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing and Conducting Effective Development Evaluations. Washington DC : Banque mondiale. Kremer, Michael et Edward Miguel. 2004. « Worms: Identifying Impacts on Education and Health in the Presence of Treatment Externalities. » Econometrica 72 (1) : 159–217. Kremer, Michael, Sylvie Moulin et Robert Namunyu. 2003. « Decentralization: A Cautionary Tale. » Poverty Action Lab Paper 10, Massachusetts Institute of Technology, Cambridge, MA. Levy, Santiago et Evelyne Rodríguez. 2005. Sin Herencia de Pobreza: El Programa Progresa-Oportunidades de México. Washington DC : Banque interaméricaine de développement. McKay, Harrison, Arlene McKay, Leonardo Siniestra, Hernando Gomez et Pascuala Lloreda. 1978. « Improving Cognitive Ability in Chronically Deprived Children. » Science 200 (21) : 270–78. 18 Impact Evaluation in Practice Poverty Action Lab. 2005. « Primary Education for All. » Fighting Poverty: What Works? N°1 (automne) : n.p. http://www.povertyactionlab.org. Rao, Vijayendra et Michael Woolcock. 2003. « Integrating Qualitative and Quantitative Approaches in Program Evaluation. » In The Impact of Economic Policies on Poverty and Income Distribution: Evaluation Techniques and Tools, éd. F. J. Bourguignon and L. Pereira da Silva, 165–90. New York: Oxford University Press. Schultz, Paul. 2004. « School Subsidies for the Poor: Evaluating the Mexican Progresa Poverty Program. » Journal of Development Economics 74 (1) : 199–250. Skou�as, Emmanuel et Bonnie McClafferty. 2001. « Is Progresa Working? Summary of the Results of an Evaluation by IFPRI. » Institut international de recherche sur les politiques alimentaires, Washington, DC. Vermeersch, Christel et Michael Kremer. 2005. « School Meals, Educational Achievement and School Competition: Evidence from a Randomized Evaluation. » Document de travail consacré à la recherche sur les politiques 3523, Banque mondiale, Washington, DC. Zerbe, Richard et Dwight Dively. 1994. Bene�t Cost Analysis in Theory and Practice. New York : Harper Collins Publishing. Pourquoi évaluer ? 19 CHAPITRE 2 Formulation des questions d’évaluation Le présent chapitre s’attèle aux premières étapes de l’élaboration d’une évaluation. Ces étapes comprennent la dé�nition du type de questions auxquelles l’évaluation répond, la construction d’une théorie du changement montrant comment le projet est censé atteindre les résultats espérés, la réalisation d’une chaîne de résultats, la formulation des hypothèses qui seront testées par l’évaluation et la sélection d’in- dicateurs de performance. Toutes ces étapes contribuent à formuler une question d’évaluation. Il est pri- mordial qu’elles soient considérées dès la conception du programme, en étroite collaboration avec les parties prenantes, y compris les décideurs et responsables du programme, dans l’optique d’obtenir une vision commune des objectifs et de la manière de les atteindre. Un tel dialogue permet de forger un consensus sur les principales questions auxquelles l’évaluation répondra et de renforcer les liens entre l’évaluation, la mise en œuvre du programme et l’élaboration des politiques publiques. Ces étapes sont aussi essentielles pour établir la transparence et la spé- ci�cité nécessaires à la réalisation d’une bonne évaluation d’impact, tout comme elles contribuent en parallèle à la conception et à l’exécution d’un programme effi- cace. Chaque étape, de la formulation précise d’objectifs et de questions aux résul- tats espérés en passant par la formulation de la théorie du changement, est dé�nie dans ce chapitre et articulée au sein d’une forme de modèle logique, la chaîne de résultats. 21 Types de questions d’évaluation Toute évaluation débute par la formulation d’une question de recherche propre à la politique à l’étude. Le travail d’évaluation consiste ensuite à générer des arguments crédibles pour répondre à cette question. Comme nous l’expliquerons plus tard, la question fondamentale d’une évaluation d’impact peut être formulée ainsi : quel est l’impact (ou effet causal) d’un programme sur un résultat donné  ? Pour l’un des exemples de la partie 2 de ce livre, la question d’étude s’articule comme suit : quel est l’impact d’un programme de subvention de l’assurance maladie sur les dépenses de santé des ménages ? La question peut également porter sur l’évaluation de plusieurs options de conception des programmes, par exemple : quelle combinaison de cam- pagnes de publipostage et de séances de conseils aux familles donne les meilleurs résultats lorsqu’il s’agit d’encourager l’allaitement maternel ? La formulation d’une question d’évaluation claire et pertinente constitue le point de départ de toute éva- luation efficace. Théories du changement Une théorie du changement est une description de la manière dont une intervention est censée produire les résultats espérés. Elle décrit la logique causale expliquant com- ment et pourquoi un projet, un programme ou une politique atteindra les résultats visés. L’existence d’une théorie du changement est fondamentale pour les évaluations d’impact étant donné l’importance qu’elles portent aux relations de cause à effet. La théorie du changement est l’une des premières étapes de la conception d’une évalua- tion, car elle contribue à la formulation des questions de recherche. Les théories du changement décrivent une série d’évènements conduisant à un résultat ; elles énoncent les conditions et les hypothèses nécessaires pour que des changements se produisent  ; elles mettent en évidence la logique causale sous-jacente au programme et inscrivent les interventions dans cette logique cau- sale. Un travail conjoint entre les diverses parties prenantes pour dé�nir une théo- rie du changement est souvent utile pour clari�er et améliorer l’élaboration du programme. Ceci est particulièrement important dans le cas des programmes qui visent à modi�er des comportements : les théories du changement peuvent aider à décomposer les intrants et les activités constituant les interventions, les extrants qu’elles produisent et les résultats qui découlent des changements de comporte- ment espérés des béné�ciaires. Le début du processus de conception du programme constitue le meilleur moment pour formuler une théorie du changement ; les parties prenantes peuvent alors se réunir pour élaborer une vision commune du programme, de ses objectifs et des moyens à mettre en œuvre pour les atteindre. Les responsables peuvent ensuite implémenter le programme sur la base d’une compréhension commune de son fonctionnement et de ses objectifs. 22 L’évaluation d’impact en pratique Par ailleurs, il est important que les concepteurs du programme passent en revue la littérature au sujet d’interventions ou expériences similaires, et qu’ils véri�ent soigneusement le contexte et les hypothèses qui sous-tendent la logique causale de la théorie du changement adoptée. Par exemple, pour le projet des sols en ciment au Mexique (voir encadré 2.1), la littérature existante permet de com- prendre les mécanismes de transmission des parasites et la manière dont ils provo- quent des diarrhées chez les enfants. Encadré 2.1 : Théorie du changement Des sols en ciment font le bonheur des Mexicains Dans le cadre de leur évaluation du Projet Piso car ils sont plus dif�ciles à maintenir propres. Firme ou « sol en dur », Cattaneo et al. (2009) Les parasites vivent et se reproduisent dans les étudient l’impact d’une amélioration de l’habi- excréments ; sont introduits dans les logements tat sur la santé et le bien-être. Le projet, tout par les animaux, les enfants ou les chaussures, comme l’évaluation, repose sur une théorie du et peuvent être ingérés. Les données montrent changement très claire. que les enfants en bas âge vivant dans des mai- L’objectif du Projet Piso Firme est d’amélio- sons au sol en terre battue ont plus de risques rer le niveau de vie, notamment l’état de santé, d’être contaminés par des parasites intestinaux de groupes vulnérables vivant dans des zones qui peuvent entraîner diarrhées et malnutrition, pauvres à forte densité de population. Le pro- elles-mêmes responsables de retards dans le gramme a d’abord été lancé dans le nord du développement cognitif ou de décès. Les sols pays, dans l’État de Coahuila, sur la base d’une en ciment permettent d’interrompre la transmis- appréciation du gouverneur Enrique Martínez sion parasitaire. Ils permettent en outre de et son équipe de campagne. mieux contrôler la température et sont plus La chaîne de résultats du programme est esthétiques. claire. Une enquête porte-à-porte est effectuée Ces résultats espérés contribuent à formuler auprès des ménages éligibles, et les ménages les questions de recherche pour l’évaluation effec- reçoivent l’équivalent de 50 m2 de ciment. Les tuée par Cattaneo et ses collaborateurs. Ils tes- autorités assurent l’achat et la livraison du tent l’hypothèse que le remplacement des sols ciment tandis que les ménages et les volon- en terre battue par des sols en dur réduit l’inci- taires des communautés fournissent la main- dence des diarrhées, de la malnutrition et des d’œuvre. L ’extrant du programme est la dé�ciences en oligo-éléments. Ils considèrent construction, en une journée environ, d’un sol ensuite si ces changements entrainent aussi une en ciment. Les résultats espérés de cette inter- amélioration du développement cognitif des vention sont, notamment, une amélioration enfants en bas âge. Les chercheurs examinent de l’hygiène, de la santé et du bien-être des aussi si l’intervention améliore le bien-être des béné�ciaires. adultes tel que mesuré par le degré de satisfac- La logique sous-jacente à cette chaîne de tion des personnes à l’égard de leur habitat et par résultats est que les sols en terre battue sont la baisse du taux de dépression et de stress. des vecteurs de transmission des parasites, Source : Cattaneo et al. 2009. Formulation des questions d’évaluation 23 Chaîne de résultats Une théorie du changement peut être formalisée de différentes manières, par exemple par des modèles théoriques, des modèles logiques ou de chaînes de résul- tats1. Tous ces modèles comprennent les éléments fondamentaux d’une théorie du changement. En d’autres termes, ils articulent tous une chaîne causale, des condi- tions et des influences extérieures, et des hypothèses de base. Dans le présent ouvrage, nous allons nous concentrer sur la chaîne de résultats. Elle constitue, selon nous, le modèle le plus simple et le plus clair pour élaborer une théorie du changement dans le contexte opérationnel des programmes de développement. Concept clé : La chaîne de résultats est une représentation logique et plausible de la manière La chaîne de résultats dont une séquence d’intrants, d’activités et d’extrants produits par un projet entre établit la séquence en interaction avec le comportement des béné�ciaires pour réaliser un impact d’intrants, d’activités et donné (�gure 2.1). Cette chaîne établit une logique causale du début à la �n du d’extrants contribuant à projet, depuis la mise à disposition des ressources jusqu’aux objectifs à long terme. la réalisation des Une chaîne de résultats est généralement composée des éléments suivants : résultats intermédiaires et �naux espérés. Intrants : ressources dont dispose le projet, y compris le personnel et le budget Activités : actions entreprises ou travaux réalisés pour transformer les intrants en extrants Extrants : biens et services tangibles produits par les activités du projet (les extrants sont sous le contrôle direct de l’agence chargée de l’exécution du programme) Résultats intermédiaires : résultats susceptibles d’être atteints lorsque la popu- lation béné�ciaire utilise les extrants du projet (résultats généralement atteints à court et moyen terme) Résultats �naux : objectifs �naux du projet (ils peuvent subir l’influence de nombreux facteurs et sont généralement atteints à plus long terme). Une chaîne de résultats comprend trois parties principales : La mise en œuvre : travaux prévus réalisés par le projet, comprenant les intrants, les activités et les extrants. Il s’agit d’éléments dont l’agence responsable de l’exécution du programme peut faire un suivi direct dans le but de mesurer la performance du projet. Les résultats : les résultats espérés comprennent les résultats intermédiaires et les résultats �naux. Ces résultats ne sont pas entièrement sous le contrôle direct de l’agence responsable de l’exécution du programme et sont tributaires des changements de comportement des béné�ciaires du programme. Autrement dit, ils dépendent de l’interaction entre l’offre (mise en œuvre) et la demande (béné- �ciaires). Ce sont ces résultats qui font l’objet d’une évaluation d’impact en vue de mesurer l’efficacité du programme. 24 L’évaluation d’impact en pratique Figure 2.1 Qu’est ce qu’une chaîne de résultats ? RÉSULTATS RÉSULTATS INTRANTS ACTIVITÉS EXTRANTS INTERMÉDIAIRES FINAUX Ressources Actions Objectif Produits Utilisation des mobilisées entreprises final du résultant de la extrants par (financières, ou travaux programme. transformation la population humaines et effectués pour des intrants ciblée. autres) pour transformer Objectifs à en extrants. réaliser les les intrants long terme. activités. en extrants. Budgets, Ensemble Biens et services Hors du contrôle Changements personnel, des activités produits et fournis direct de l’agence de résultats autres ressources entreprises sous le contrôle responsable de (facteurs divers). disponibles. pour produire de l’agence l’exécution du des biens responsable de programme. et des services. l’exécution du programme. Mise en œuvre (OFFRE) Résultats (DEMANDE + OFFRE) Les hypothèses et les risques : Les hypothèses et les risques ne sont pas présentés dans la �gure 2.1. Ils comprennent toute information extraite de la littérature existante qui est pertinente pour la théorie du changement proposée, ainsi que les hypothèses sur lesquelles elle repose, des références aux résultats de pro- grammes similaires, les risques qui pourraient remettre en cause les résultats espérés et toute stratégie mise en place pour atténuer ces risques. Prenons l’exemple du ministère de l’Éducation d’un pays A qui souhaite lancer une nouvelle méthode d’enseignement des mathématiques dans le cycle secon- daire. Comme l’illustre la �gure 2.2, les intrants du programme se constituent du personnel du ministère, des enseignants du secondaire, des moyens �nanciers alloués au nouveau programme de mathématiques et des locaux pour organiser la formation des professeurs. Les activités comprennent la conception du nou- veau programme de mathématiques, la préparation d’une formation pour les pro- fesseurs, la formation des professeurs ainsi que la commande, l’impression et la distribution des nouveaux manuels. Les extrants sont le nombre de professeurs formés, le nombre de manuels distribués dans les classes et l’adaptation des exa- Formulation des questions d’évaluation 25 Figure 2.2 Chaîne de résultats d’un programme de mathématiques du cycle secondaire RÉSULTATS RÉSULTATS INTRANTS ACTIVITÉS EXTRANTS INTERMÉDIAIRES FINAUX Budget pour le Conception 5 000 professeurs Les enseignants Augmentation du nouveau programme du nouveau de mathématiques se servent des taux d’achèvement de mathématiques. programme. du secondaire formés. manuels et suivent du cycle secondaire. Personnel du Formation 100 000 manuels le nouveau programme. Hausse des revenus. ministère de des professeurs. distribués. Les élèves suivent Hausse du l’Éducation, Rédaction, le nouveau programme. taux d’emploi. professeurs impression Meilleurs résultats du secondaire. et distribution aux examens de Locaux pour des nouveaux mathématiques. la formation. manuels scolaires. Mise en œuvre (OFFRE) Résultats (DEMANDE + OFFRE) mens de mathématiques au nouveau programme. Les résultats à court terme comprennent l’utilisation des nouvelles méthodes et des nouveaux manuels par les enseignants et l’adoption du nouveau curriculum. Les résultats à moyen terme sont l’amélioration des résultats des étudiants aux examens de mathématiques. Les résultats �naux incluent un taux accru d’étudiants terminant le cycle secon- daire, une hausse du taux d’emploi et des revenus plus élevés des diplômés. Les chaînes de résultats sont utiles pour tous les projets, qu’une évaluation d’im- pact soit prévue ou non. En effet, elles permettent aux décideurs et aux responsables de rendre explicites les objectifs du programme, de comprendre sa logique causale et de déterminer la séquence d’évènements sur laquelle repose son succès. De plus, les chaînes de résultats facilitent les discussions relatives au suivi et à l’évaluation, car elles mettent en exergue les informations qui doivent faire l’objet d’un suivi et les changements de résultats sur lesquels l’évaluation devra se concentrer. Pour comparer différentes options de mise en œuvre d’un même programme, les chaînes de résultats peuvent être représentées sous la forme d’arbres de résultats indiquant toutes les alternatives envisagées au moment de la conception ou de la restructuration du programme. Ces arbres de résultats indiquent les différentes options stratégiques et opérationnelles qui peuvent mener aux objectifs spéci�ques du programme ; ils peuvent servir de support de réflexion sur les options à tester et à évaluer. Par exemple, plusieurs interventions peuvent permettre de remplir l’ob- jectif d’améliorer les connaissances dans le domaine �nancier, par exemple une campagne d’information ou une formation pour adultes. 26 L’évaluation d’impact en pratique Hypothèses pour l’évaluation Après avoir constitué la chaîne de résultats, vous pouvez vous atteler à la formu- lation des hypothèses à tester dans le cadre de l’évaluation d’impact. Dans l’exemple du nouveau programme de mathématiques, les hypothèses pourraient être les suivantes : • Le nouveau programme est supérieur à l’ancien pour améliorer les connaissances en mathématiques. • Les enseignants formés utilisent le nouveau programme plus efficacement que les autres enseignants. • Si la formation des enseignants et la distribution des manuels sont réalisées, les professeurs utiliseront ces manuels et adopteront le nouveau programme, et les étudiants suivront ce programme. • Si la formation des enseignants et la distribution des manuels sont réalisées, les résultats aux examens de mathématiques augmenteront de cinq points en moyenne. • Les résultats obtenus en mathématiques dans le secondaire ont une influence sur le taux d’achèvement du cycle secondaire et sur l’insertion professionnelle des étudiants. Sélection des indicateurs de performance Une chaîne de résultats clairement articulée est utile pour identi�er les indicateurs Concept clé : à mesurer pour suivre et évaluer la performance des programmes. Ces indicateurs Un bon indicateur portent aussi bien sur le suivi de la mise en œuvre du programme que sur l’évalua- est spéci�que, tion des résultats. Là encore, il est utile d’associer l’ensemble des parties prenantes mesurable, attribuable, au programme à la sélection des indicateurs a�n qu’elles fournissent une mesure réaliste et ciblé. adéquate de sa performance. En règle générale, les indicateurs doivent être : • Spéci�ques : pour mesurer l’information nécessaire le plus précisément possible • Mesurables : pour assurer que l’information puisse effectivement être obtenue • Attribuables : pour pouvoir plausiblement attribuer chaque mesure effectuée aux efforts fournis dans le cadre du projet • Réalistes : pour que les données puissent être obtenues à temps, à une fréquence et à un coût raisonnables • Ciblés : pour que les indicateurs visent bien la population cible. Formulation des questions d’évaluation 27 Il est important de dé�nir des indicateurs tout au long de la chaîne de résul- tats sans se limiter aux résultats, de manière à pouvoir faire le suivi de toute la logique causale du programme. Même dans le cadre d’une évaluation d’impact, il est essentiel d’examiner les indicateurs de mise en œuvre des interventions pour s’assurer qu’elles ont été menées comme prévu, qu’elles ont touché les béné�ciaires visés et qu’elles ont été réalisées au moment opportun (voir Kusek et Rist, 2004, ou Imas et Rist, 2009 pour plus d’informations sur la sélection des indicateurs de performance). Faute d’indicateurs couvrant toute la chaîne des résultats, l’évaluation d’impact risque de devenir une « boîte noire » qui se limite à indiquer si les résultats attendus se sont matérialisés ou pas sans pour autant pouvoir expliquer pourquoi. Outre la sélection des indicateurs, il est également important de dé�nir d’où proviennent les données requises à la mesure des indicateurs de performance. Le tableau 2.1 récapitule les éléments de base d’un plan de suivi et évaluation ainsi que les modalités à suivre pour générer chacun des indicateurs de manière �able et opportune. Tableau 2.1 Éléments d’un plan de suivi et évaluation Élément Description Résultats espérés Obtenus à partir des documents de conception (résultats et extrants) du programme et de la chaîne de résultats. Indicateurs (avec valeurs Tirés de la chaîne des résultats ; les indicateurs dans les données de base doivent être Spéci�ques, Mesurables, Attribuables, et objectifs indicatifs) Réalistes, Ciblés. Source des données Sources ou lieu où les données seront recueillies, par exemple un rapport, ou une réunion des parties prenantes au projet. Fréquence des données Fréquence de disponibilité des données. Responsabilités Qui est responsable de l’organisation de la collecte des données ainsi que de la véri�cation de la qualité des données et des sources ? Analyse et compte rendu Fréquence des analyses, méthode d’analyse et responsabilité du compte rendu. Ressources Estimation des ressources nécessaires et engagées pour réaliser les activités de suivi et évaluation. Utilisation �nale Qui recevra les informations et les utilisera ? Dans quel but ? Risques Quels sont les hypothèses et les risques liés aux activités de suivi et d’évaluation ? Comment peuvent-ils affecter les activités de suivi et évaluation prévues ainsi que la qualité des données ? Source : adapté d’une publication du PNUD, 2009. 28 L’évaluation d’impact en pratique Feuille de route pour les parties 2 et 3 Dans cette première partie de l’ouvrage, nous avons exposé pourquoi réaliser des évaluations d’impact et quand les mettre en œuvre. Nous avons évoqué les divers objectifs des évaluations d’impact ainsi que les questions fondamentales de poli- tique auxquelles elles répondent. Nous avons souligné la nécessité de bien dé�nir la théorie du changement pour indiquer les mécanismes par lesquels un pro- gramme a un impact sur les résultats �naux. Le but de l’évaluation d’impact est essentiellement de véri�er si cette théorie du changement s’applique ou non dans les faits. La partie 2, intitulée Comment évaluer ?, porte sur les diverses méthodes qui permettent de constituer des groupes de comparaison adéquats et réaliser une évaluation valide des impacts d’un programme. Nous commençons par introduire le contrefactuel, notion fondamentale à toute évaluation d’impact, en mettant l’ac- cent sur les propriétés de l’estimation du contrefactuel et en donnant des exemples de contrefactuels non valides ou contrefaits. Nous présentons ensuite diverses méthodes pour obtenir une estimation valable du contrefactuel. Nous évoquons notamment l’intuition sous-jacente de quatre catégories de méthodologies : la sélection aléatoire, le modèle de discontinuité de la régression, la double différence et l’appariement. Nous étudions les circonstances dans lesquelles chaque méthode fournit une estimation valable du contrefactuel, le contexte opérationnel dans lequel ces méthodes sont appropriées et leurs principales limites. Tout au long de la deuxième partie du manuel, une étude de cas (le Programme de subvention de l’assurance maladie) est utilisée pour illustrer les diverses méthodes. Nous pré- sentons aussi des exemples concrets de l’application de chacune des méthodes à des programmes de développement. La partie 3 est consacrée aux étapes à suivre pour mettre en œuvre, gérer ou commissionner une évaluation d’impact. À ce stade, nous considérons que les objectifs de l’évaluation ont été dé�nis, qu’une théorie du changement a été élabo- rée et que les questions d’évaluation ont été formulées. Nous passons en revue les principaux points à résoudre au moment d’élaborer le plan de l’évaluation d’im- pact. Nous présentons des règles simples pour choisir le groupe de comparaison le plus approprié dans un contexte donné. Nous établissons un cadre qui aide à choi- sir, parmi les méthodes d’évaluation présentées dans la partie 2, la méthode la mieux adaptée à un programme en fonction de ses règles opérationnelles. Nous passons ensuite en revue les quatre grandes phases de la réalisation d’une évalua- tion : mettre en œuvre l’évaluation, choisir un échantillon, collecter les données, produire et diffuser les conclusions. Formulation des questions d’évaluation 29 Note 1. University of Wisconsin-Extension (2010) propose des informations détaillées sur la manière d’articuler une chaîne de résultats, ainsi qu’une liste complète de références. Imas et Rist (2009) présentent une revue plus complète des théories du changement. Références Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio Titiunik. 2009. « Housing, Health and Happiness. » American Economic Journal : Economic Policy 1 (1) : 75–105. Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing and Conducting Effective Development Evaluations. Washington DC : Banque mondiale. Kusek, Jody Zall et Ray C. Rist. 2004. Ten Steps to a Results-Based Monitoring and Evaluation System. Washington DC : Banque mondiale. PNUD (Programme des Nations Unies pour le développement). 2009. Guide de la plani�cation, du suivi et de l’évaluation axés sur les résultats du développement. New York : PNUD. University of Wisconsin-Extension. 2010. « Enhancing Program Performance with Logic Models. » Cours en ligne. http://www.uwex.edu/ces/pdande/evaluation/ evallogicmodel.html. 30 L’évaluation d’impact en pratique Partie 2 COMMENT ÉVALUER ? Maintenant que nous avons souligné les raisons d’évaluer l’impact des pro- grammes et des politiques publiques, cette deuxième partie examine comment procèdent les évaluations d’impact, les questions auxquelles elles répondent, les méthodes d’évaluation à disposition ainsi que les avantages et les inconvé- nients de chacune d’elles. Nous nous intéressons notamment aux méthodes de sélection aléatoire, au modèle de discontinuité de la régression, à la double différence et à l’appariement. Comme l’expose la première partie, une évaluation d’impact vise à établir et à quanti�er l’impact d’une intervention sur les résultats qui intéressent les ana- lystes et les décideurs politiques. Dans cette deuxième partie du manuel, nous présentons une étude de cas : « le programme de subvention de l’assurance maladie » (PSAM). Nous répondons à plusieurs reprises à la même question concernant l’évaluation d’impact du PSAM à partir des mêmes sources de don- nées, mais en utilisant différentes méthodes qui fournissent des réponses dif- férentes, parfois même opposées. (Nous supposons ici que les données ont été totalement dépurées). Votre tâche est d’identi�er les raisons pour lesquelles les estimations d’impact du PSAM diffèrent selon la méthode d’évaluation rete- nue et de déterminer les résultats que vous estimez suf�samment �ables pour fournir des recommandations stratégiques de politiques publiques. Le contexte de l’étude de cas du PSAM est le suivant : les autorités entament un programme de réformes du secteur de la santé de grande envergure dans le but d’améliorer l’état de santé de la population. L ’objectif général de ces ré- formes est d’améliorer l’accès aux services de santé et leur qualité dans les régions rurales pour atteindre un niveau similaire aux zones urbaines. Le PSAM est un projet pilote novateur potentiellement fort coûteux. Le programme sub- ventionne le système d’assurance maladie pour qu’il couvre le coût des soins de santé primaires et des médicaments pour les ménages ruraux pauvres. L ’ob- jectif principal du PSAM est de réduire le coût des soins de santé pour les mé- nages pauvres et, en dé�nitive, d’améliorer les résultats en matière de santé. Les autorités envisagent d’étendre le PSAM à l’ensemble du pays. Cette déci- sion coûterait des centaines de millions de dollars, mais les décideurs craignent que sans subvention, les ménages ruraux pauvres ne soient pas en mesure de payer les soins de santé de base, ce qui aurait des conséquences néfastes sur leur état de santé. Dans ce contexte, la question clé d’évaluation est la sui- vante : quel est l’impact du PSAM sur les dépenses en soins de santé à la charge des ménages et sur l’état de santé des familles pauvres ? La réponse à de telles questions permet d’orienter les décideurs dans leurs choix de poli- tiques à adopter et de programmes à mettre en œuvre. À leur tour, ces pro- grammes peuvent avoir un impact sur le bien-être de millions de personnes dans le monde. Les questions d’évaluation d’impact sont donc particulièrement importantes, et cette partie du manuel passe en revue comment y répondre de manière rigoureuse. CHAPITRE 3 Inférence causale et contrefactuel Nous allons tout d’abord examiner deux concepts essentiels pour réaliser des évalua- tions précises et �ables, à savoir l’inférence causale et le contrefactuel. Inférence causale La question fondamentale de l’évaluation d’impact constitue essentiellement un problème d’inférence causale. Évaluer l’impact d’un programme sur une série de résultats revient à évaluer l’effet causal du programme sur lesdits résultats. La plu- part des questions de politique invoquent des relations de cause à effet : la forma- tion des professeurs entraîne-t-elle une amélioration des résultats des élèves aux examens ? Les programmes de transferts monétaires conditionnels entraînent-ils une amélioration de l’état de santé des enfants  ? Les programmes de formation professionnelle entraînent-ils une amélioration des revenus des béné�ciaires ? Même si les questions qui abordent une relation de cause à effet sont courantes, il n’est jamais facile d’établir qu’une relation est effectivement causale. Par exemple, le simple fait d’observer que le revenu des béné�ciaires d’un programme de forma- tion professionnelle augmente ne suffit pas à établir un lien de causalité. Le revenu d’un béné�ciaire pourrait en effet avoir augmenté même s’il n’avait pas suivi le pro- gramme de formation grâce, par exemple, à ses propres efforts, à l’évolution des conditions sur le marché du travail ou à tout autre facteur susceptible d’avoir un impact sur le revenu à travers le temps. Les évaluations d’impact permettent d’établir un lien de causalité en démontrant empiriquement dans quelle mesure un pro- 33 gramme donné — et uniquement ce programme — a contribué à changer un résultat. Pour établir un lien de causalité entre un programme et un résultat, nous utilisons des méthodes d’évaluation d’impact qui permettent d’écarter la possibilité que des fac- teurs autres que le programme à l’étude puissent expliquer l’impact observé. La réponse à la question fondamentale de l’évaluation d’impact, à savoir quel est l’impact ou l’effet causal d’un programme P sur un résultat Y, est donnée par la formule de base d’évaluation d’impact : α = (Y | P = 1) − (Y | P = 0). Selon cette formule, l’effet causal α d’un programme (P) sur un résultat (Y) est la différence entre le résultat (Y) obtenu avec le programme (autrement dit avec P = 1) et le même résultat (Y) obtenu sans le programme (c.-à-d. avec P = 0). Par exemple, si P est un programme de formation professionnelle et Y le revenu, l’effet causal du programme de formation professionnelle α est la différence entre le revenu d’une personne donnée (Y) après avoir participé au programme de for- mation (donc avec P = 1) et le revenu qu’aurait eu la même personne (Y) au même moment si elle n’avait pas participé au programme (avec P = 0). Autrement dit, nous cherchons à mesurer le revenu au même moment et pour la même unité d’ob- servation (une personne dans le cas présent), mais dans deux cas de �gure diffé- rents. S’il était possible de procéder ainsi, nous pourrions observer le revenu gagné par une même personne au même moment à la fois après avoir suivi le programme de formation professionnelle et sans l’avoir suivi, de manière à ce que toute diffé- rence de revenu pour cette personne ne puisse s’expliquer que par sa participation au programme. En comparant une même personne à elle-même au même moment avec et sans le programme, nous serions capables d’éliminer tout facteur externe susceptible de contribuer à la différence de revenu. Nous pourrions alors conclure sans aucun doute que la relation entre le programme de formation professionnelle et le revenu est bel et bien causale. La formule de base d’évaluation d’impact est valable pour toute unité à l’étude, qu’il s’agisse d’une personne, d’un ménage, d’une communauté, d’une entreprise, d’une école, d’un hôpital ou de toute autre unité d’observation qui peut béné�cier d’un programme. Cette formule est également applicable à tout indicateur de résultat (Y) qu’un programme en place peut de manière plausible affecter. Si nous parvenons à mesurer les deux éléments clés de cette formule, à savoir le résultat (Y) à la fois en présence et en l’absence du programme, nous pourrons alors répondre à n’importe quelle question sur l’impact de ce programme. Contrefactuel Comme nous l’avons vu ci-dessus, l’impact α d’un programme est conceptuelle- ment la différence du résultat (Y) pour une même personne lorsqu’elle béné�cie d’un programme (P) et n’en béné�cie pas. Pourtant, il est bien évidemment impos- sible d’observer la même personne au même moment dans deux cas de �gure 34 L’évaluation d’impact en pratique différents. Une personne ne peut pas simultanément participer à un programme et Concept clé : ne pas y participer. La personne ne peut donc pas être observée au même moment Le contrefactuel est dans les deux cas de �gure (autrement dit, en tant que béné�ciaire et non-béné�- une estimation de ciaire du programme). Ce problème s’appelle le « problème contrefactuel » : com- ce qu’aurait été le ment mesurer ce qui se serait passé dans d’autres circonstances ? Nous pouvons résultat (Y) pour certes observer et mesurer le résultat (Y) pour les participants au programme un béné�ciaire (Y | P = 1), mais il n’existe aucune donnée pour déterminer ce qu’auraient été les du programme résultats pour un béné�ciaire en l’absence du programme (Y | P = 0). Dans la for- en l’absence mule de base d’évaluation d’impact, le terme (Y | P = 0) représente le contrefactuel. du programme (P). Le contrefactuel peut être considéré comme ce qui serait arrivé si un participant n’avait en réalité pas béné�cié du programme. Autrement dit, le contrefactuel est le résultat (Y) qui aurait été obtenu en l’absence de programme (P). Prenons l’exemple de « Monsieur Malchance » qui avale un comprimé rouge et décède cinq jours plus tard. Nous ne pouvons pas conclure que le comprimé rouge a causé la mort de M. Malchance uniquement parce que celui-ci est décédé après avoir pris un comprimé. M. Malchance était peut-être très malade lorsqu’il a avalé ce comprimé rouge, auquel cas il est possible que sa maladie et non le comprimé ait provoqué son décès. Pour inférer un lien de causalité, il faudra écarter tout autre facteur susceptible d’avoir tenu un rôle dans le résultat, en l’occurrence le décès de M. Malchance. Dans cet exemple, il s’agira de déterminer ce qui se serait passé si M.  Malchance n’avait pas pris ce comprimé. Toutefois, étant donné que M. Malchance a effectivement pris le comprimé rouge, il n’est pas possible d’obser- ver directement ce qui serait arrivé s’il ne l’avait pas fait. Ce qui lui serait arrivé s’il n’avait pas pris le comprimé rouge constitue le contrefactuel. Le principal dé� pour un évaluateur est justement de déterminer à quoi ressemble un contrefactuel (voir l’encadré 3.1). Dans le cadre d’une évaluation d’impact, il est relativement facile de mesurer le premier terme de la formule de base (Y | P = 1), c’est-à-dire le résultat du groupe recevant le traitement. Il suffit de mesurer le résultat pour la population ayant béné�cié du programme. En revanche, le second terme de l’équation (Y | P = 0) ne peut pas être observé directement auprès des béné�ciaires du programme ; il faut donc reconstituer les éléments manquants en estimant le contrefactuel. Pour ce faire, nous avons recours à des groupes de comparaison (ou « groupes témoins »). Le reste de la partie  2 du manuel est consacré aux différentes méthodes ou approches qui peuvent être utilisées pour concevoir des groupes de comparaison valides, reproduisant ou imitant avec précision le contrefactuel. L’identi�cation de ces groupes de comparaison est la pierre angulaire de toute évaluation d’impact, quel que soit le type de programme à évaluer. Autrement dit, sans contrefactuel valide, l’impact d’un programme ne peut pas être établi. Inférence causale et contrefactuel 35 Encadré 3.1 : Estimation du contrefactuel Mademoiselle Unique et le programme de transferts monétaires conditionnels Mademoiselle Unique est un bébé dont la ma- Malheureusement, il est impossible d’obser- man se voit offrir un transfert monétaire men- ver la taille de Mademoiselle Unique à la fois en suel à condition qu’elle assure que sa petite présence et en l’absence du programme de Unique soit vaccinée, effectue régulièrement un transferts monétaires : en effet, soit sa famille bilan de santé et un suivi de la croissance au béné�cie du programme, soit elle n’en béné�cie centre de santé local. Les autorités pensent que pas. Autrement dit, on ne peut pas observer le le transfert monétaire incitera la maman de Ma- contrefactuel. La maman de Mlle Unique ayant demoiselle Unique à recourir aux services de béné�cié du programme de transferts moné- santé, condition préalable pour béné�cier du taires, nous ne pouvons pas savoir quelle aurait programme, et que cela permettra à Mademoi- été la taille de sa �lle en l’absence du pro- selle Unique de devenir une grande �lle en gramme. Or, trouver une comparaison pour bonne santé. Pour l’évaluation d’impact, les au- Mademoiselle Unique constitue un véritable torités choisissent la taille comme un indicateur dé�, cette demoiselle étant, bien sûr, unique. de la santé à long terme. Supposons que Made- Son pro�l socioéconomique et ses caractéris- moiselle Unique soit mesurée à l’âge de trois tiques génétiques et personnelles exactes ne ans. Si vous voulez évaluer l’impact du pro- peuvent se retrouver en aucune autre personne. gramme, l’idéal serait de pouvoir mesurer Ma- Si nous comparions Mademoiselle Unique à un demoiselle Unique à l’âge de trois ans dans le enfant (par exemple M. Inimitable) qui ne béné- cas de �gure où sa mère béné�cie du transfert �cie pas du programme de transferts moné- monétaire, et de mesurer la même demoiselle taires, la comparaison pourrait ne pas être toujours à l’âge de trois ans, mais cette fois dans valable. Mlle Unique n’est pas identique à M. Ini- le cas de �gure où sa maman ne reçoit aucune allocation. Vous pourriez alors comparer les deux mitable. Mlle Unique et M. Inimitable peuvent tailles. S’il était possible de comparer la taille de ne pas se ressembler, ils peuvent ne pas vivre Mademoiselle Unique à l’âge de trois ans alors au même endroit, ils peuvent ne pas avoir les que sa maman béné�cie du programme et sa mêmes parents et ils peuvent ne pas avoir eu la taille au même âge en l’absence du programme, même taille à leur naissance. Donc, si nous vous seriez certain que toute différence de taille observons que M. Inimitable est moins grand serait due uniquement à la mise en place du pro- que Mlle Unique à l’âge de trois ans, nous ne gramme. Toutes choses étant égales par ailleurs, pouvons pas savoir si cette différence de taille pour Mademoiselle Unique, aucun autre facteur est due au programme de transferts monétaires ne pourrait expliquer une éventuelle différence ou à l’une des nombreuses différences qui peu- de taille dans les deux cas de �gure. vent exister entre ces deux enfants. Estimation du contrefactuel Pour illustrer l’estimation du contrefactuel, nous allons prendre un exemple qui, bien que sans importance sur le plan politique, nous permettra de mieux appréhender cette notion clé. Conceptuellement, pour résoudre le problème du contrefactuel, 36 L’évaluation d’impact en pratique l’évaluateur doit trouver le « clone parfait » pour chaque participant à un programme (�gure 3.1). Par exemple, supposons que Fulanito perçoive 12 dollars supplémentaires d’argent de poche. Nous voudrions mesurer l’impact de cette augmentation d’argent de poche sur sa consommation de bonbons. S’il existait un clone parfait de Fulanito, l’évaluation serait aisée : il suffirait de comparer le nombre de bonbons consommés par Fulanito (disons six) avec le nombre de bonbons consommés par son clone ne recevant pas d’argent de poche supplémentaire (disons quatre). Dans ce cas, l’impact de l’argent de poche serait la différence entre ces deux chiffres (deux bonbons). Dans la réalité, les clones parfaits n’existent évidemment pas. Des différences importantes existent même entre les vrais jumeaux ayant un patrimoine génétique semblable. Toutefois, même s’il est impossible de trouver un clone parfait pour chacun des béné�ciaires d’un programme, certains outils statistiques permettent de générer deux groupes qui, s’ils sont composés d’un nombre assez important d’individus, sont statistiquement indiscernables l’un de l’autre. Dans la pratique, l’un des objec- tifs clés d’une évaluation d’impact est d’identi�er un groupe de participants au programme (groupe de traitement) et un groupe de non participants (groupe de comparaison) statistiquement identiques en l’absence du programme. Si les deux groupes sont identiques à la seule exception que l’un des groupes participe au pro- gramme et l’autre non, toute différence entre les résultats des deux groupes est attribuable au programme. Le principal dé� est alors de trouver un groupe de comparaison valide ayant les mêmes caractéristiques que le groupe de traitement. Plus précisément, le groupe de traitement et le groupe de comparaison doivent être semblables en au moins trois points. En premier lieu, les groupes de traitement et de comparaison doivent être Figure 3.1 Le clone parfait Bénéficiaire Clone X 6 bonbons 4 bonbons Impact = 6 - 4 = 2 bonbons Inférence causale et contrefactuel 37 identiques en l’absence du programme. Il n’est pas nécessaire que toutes les unités du groupe de traitement soient identiques à toutes celles du groupe de comparaison, mais en moyenne, les caractéristiques des deux groupes doivent être les mêmes. Par exemple, l’âge moyen dans le groupe de traitement doit être le même que l’âge moyen dans le groupe de comparaison. En deuxième lieu, les deux groupes doivent réagir de la même manière au programme. Par exemple, le revenu des unités du groupe de traitement doit potentiellement augmenter à la suite d’un programme de formation dans la même mesure que celui des unités du groupe de comparaison si celles-ci avaient aussi reçu le programme. En troisième lieu, les groupes de traitement et de comparaison ne doivent pas être exposés de manière différenciée à d’autres inter- ventions au cours de la période d’évaluation. Par exemple, si nous voulons évaluer Concept clé : l’impact de l’octroi supplémentaire d’argent de poche sur la consommation de bon- Un groupe de bons, le groupe de traitement ne doit pas avoir été invité à se rendre au magasin de comparaison valide bonbons plus de fois que le groupe de comparaison, car il deviendrait alors difficile doit avoir les mêmes de distinguer les effets de l’accès accru aux bonbons des effets de l’augmentation du caractéristiques que le groupe de montant d’argent de poche. participants au Quand ces trois conditions sont réunies, seul le programme peut expliquer les programme (« groupe différences de résultat (Y) entre les deux groupes après sa mise en œuvre. Ceci est de traitement ») à la dû au fait que la seule différence entre le groupe de traitement et le groupe de com- seule différence que paraison est que les membres du groupe de traitement béné�cient du programme, les unités du groupe mais pas les membres du groupe de comparaison. Quand les différences de résultat de comparaison peuvent être totalement attribuées au programme, l’effet causal du programme est ne béné�cient pas établi. Ainsi, au lieu de s’intéresser uniquement à l’impact de l’octroi supplémen- du programme. taire d’argent de poche à Fulanito, il est possible d’analyser l’impact pour tout un groupe d’enfants (�gure 3.2). Si vous pouvez identi�er un autre groupe d’enfants totalement similaire, à la seule différence qu’ils ne recevront pas d’argent de poche supplémentaire, votre estimation de l’impact du programme sera alors la diffé- Concept clé : rence de consommation moyenne de bonbons entre les deux groupes. Par exemple, si la consommation moyenne du groupe de traitement est de six bonbons par enfant Quand le groupe de et celle du groupe de comparaison de quatre bonbons, l’impact moyen de l’octroi comparaison n’est pas valide, l’estimation de d’argent de poche supplémentaire sur la consommation de bonbons est de deux. l’impact du programme Maintenant que nous avons dé�ni ce qu’est un groupe de comparaison valide, ne sera pas valide non considérons les implications de mener une évaluation sans un tel groupe. Intuiti- plus : elle ne permettra vement, un groupe de comparaison non valide est un groupe qui diffère du groupe pas d’estimer l’impact de traitement autrement que par la seule absence du traitement à l’étude. Ces causal réel du autres différences peuvent rendre l’estimation d’impact invalide ou, en termes sta- programme. En tistiques, biaisée. En effet, en présence d’autres différences entre les groupes de termes statistiques, traitement et de comparaison, l’estimation ne permettra pas de déterminer l’estimation est l’impact réel du programme, car elle confondra l’effet du programme avec les effets dite « biaisée ». des autres différences. 38 L’évaluation d’impact en pratique Figure 3.2 Un groupe de comparaison valide Groupe de Groupe de X traitement comparaison Moyenne Y = 6 bonbons Moyenne Y = 4 bonbons Impact = 6 - 4 = 2 bonbons Deux types d’estimation d’impact Après avoir estimé l’impact du programme, l’évaluateur doit interpréter les résultats correctement. Une évaluation consiste toujours à estimer l’impact d’un programme en comparant les résultats obtenus par le groupe de traitement avec les estimations du contrefactuel obtenues d’un groupe de comparaison valide, comme indiqué par la formule de base d’évaluation d’impact. L’interprétation de l’impact du programme peut varier en fonction de ce que le traitement et le contrefactuel représentent réellement. L’impact estimé α s’appelle l’estimation de l’« intention de traiter » (IDT) lorsque la formule de base est appliquée aux unités auxquelles le programme a été offert, qu’elles y participent effectivement ou non. L’Intention de traiter (IDT) est impor- tante dans les cas où nous essayons de déterminer l’impact moyen d’un programme sur la population ciblée par le programme. Par contre, l’impact estimé α est appelé effet du « traitement sur les traités » (TT) lorsque la formule de base de l’évaluation d’impact est appliquée aux unités auxquelles le programme a été proposé et qui y ont effectivement participé. Les estimateurs IDT et TT seront identiques en cas d’adhé- rence totale, c’est-à-dire si toutes les unités auxquelles le programme a été proposé décident d’y participer. Nous reviendrons en détail sur la différence entre l’IDT et le TT mais nous pouvons d’ores et déjà commencer par un exemple. Reprenons l’exemple du programme de subvention de l’assurance maladie (PSAM) évoqué en introduction de la partie 2 et au titre duquel chaque ménage du village béné�ciant du programme (village traité) peut s’inscrire pour recevoir un subside pour l’assurance maladie. Même si tous les ménages des villages traités sont Inférence causale et contrefactuel 39 éligibles au programme, une partie d’entre eux (disons 10 %) peuvent décider de ne pas y participer (peut-être parce qu’ils ont déjà une assurance par le biais de leur travail, parce qu’ils sont en bonne santé et ne pensent pas qu’ils auront besoin de soins à l’avenir ou pour toute autre raison). Dans cet exemple, 90 % des ménages des villages traités décident de participer au programme et ont effectivement recours aux services du programme. Dans ce cas, l’estimateur IDT est obtenu en appliquant la formule de base d’évaluation d’impact à l’ensemble des ménages auxquels le programme a été proposé, autrement dit tous les ménages des villages traités. En revanche, l’estimation TT serait obtenue en appliquant la formule de base d’éva- luation d’impact pour le sous-groupe des ménages qui décident de participer au pro- gramme, en l’occurrence 90 % des ménages traités. Deux contrefactuels contrefaits Dans la suite de la partie 2 du manuel, nous passerons en revue diverses méthodes qui peuvent être utilisées pour créer un groupe de comparaison valide a�n d’esti- mer le contrefactuel. Auparavant, il est toutefois indispensable d’évoquer deux méthodes courantes, mais très risquées, de former des groupes de comparaison. Ces deux méthodes conduisent souvent à une estimation inappropriée du contre- factuel. Ces deux contrefactuels « contrefaits » sont 1) la comparaison avant-après, ou pré-post, qui compare les résultats pour le groupe de participants au pro- gramme avant et après la mise en œuvre du programme, et 2)  la comparaison avec-sans, qui compare des unités ayant choisi de participer au programme avec des unités ayant choisi de ne pas y participer. Contrefactuel contrefait 1 : comparaison avant-après Une comparaison avant-après consiste à déterminer l’impact d’un programme en examinant l’évolution des résultats pour les participants au programme au �l du temps. Pour revenir à notre formule de base, le résultat pour le groupe de traitement (Y | P = 1) est alors tout simplement le résultat après l’intervention, alors que le contrefactuel (Y | P = 0) est estimé à partir du résultat avant l’intervention. Essentiel- lement, la comparaison repose sur l’hypothèse que si le programme n’avait pas existé, le résultat (Y) pour les participants au programme aurait été exactement le même qu’avant leur participation au programme. Malheureusement, dans la grande majorité des cas, cette hypothèse n’est pas valable. Prenons l’exemple d’un programme de micro�nance destiné aux agriculteurs pauvres en milieu rural. Ce programme propose des microcrédits aux agriculteurs pour leur permettre d’acheter des engrais a�n d’accroître leur production de riz. 40 L’évaluation d’impact en pratique On sait que l’année précédant le lancement du programme, la production moyenne de riz était de 1 000 kg par hectare. Le programme de micro�nance est lancé et l’an- née suivante les rendements passent à 1 100  kg par hectare. Si nous cherchons à mesurer l’impact du programme en nous fondant sur une comparaison avant-après, c’est le résultat avant intervention qui constituera le contrefactuel. En appliquant la formule de base, nous conclurions que le programme a permis une augmentation des rendements rizicoles de 100 kg par hectare. Toutefois, imaginons que les précipitations étaient normales l’année précédant le lancement du programme, mais qu’une sécheresse a lieu l’année où le programme débute. Dans ce cas, nous ne pouvons pas considérer le résultat avant l’intervention comme un contrefactuel �able. La �gure 3.3 en décrit les raisons. Puisque les agricul- teurs ont béné�cié du programme lors d’une année de la sécheresse, leur rendement moyen aurait été inférieur sans le programme de micro�nance, par exemple au niveau D et non au niveau B comme le laisserait croire la comparaison avant-après. Dans ce cas, l’impact réel du programme est supérieur à 100 kg. À l’inverse, si les conditions climatiques avaient été meilleures, le rendement contrefactuel aurait pu être au niveau  C. L’impact réel du programme aurait alors été inférieur à 100  kg. Figure 3.3 Estimations avant et après d’un programme de micro�nance Rendement rizicole (en kg/ha) 1,100 A Différence observée Contrefactuel C C? α = 100 Contrefactuel B 1,000 B Contrefactuel D D? Année T=0 T=1 (2007) (2009) Inférence causale et contrefactuel 41 Autrement dit, à moins de pouvoir contrôler statistiquement pour le climat et tous les autres facteurs pouvant influencer les rendements rizicoles, il n’est pas possible de déterminer avec certitude l’impact réel du programme en faisant une comparai- son avant-après. Même si les comparaisons avant-après sont rarement valides pour réaliser une évaluation d’impact, elles restent utiles à d’autres �ns. Les bases de données admi- nistratives de nombreux programmes enregistrent des informations sur les parti- cipants au �l du temps. Par exemple, un système de gestion de l’information dans le secteur éducatif peut collecter régulièrement des informations sur les taux de scolarisation dans les écoles où un programme de distribution de repas est en œuvre. Ces données permettent aux gestionnaires de programme de constater si le nombre d’enfants scolarisés augmente dans le temps. Ces informations sont importantes et tout à fait pertinentes pour les gestionnaires s’occupant de la plani- �cation et du suivi du secteur éducatif. Toutefois, conclure que le programme de distribution de repas dans les écoles est la cause du changement observé du taux de scolarisation serait risqué, car d’autres facteurs peuvent avoir affecté ce taux. Par conséquent, même s’il est très utile de suivre les changements d’indicateurs de résultat dans le temps pour un groupe de participants à un programme, il est géné- ralement impossible de conclure en toute certitude que c’est effectivement le pro- gramme qui est la cause de l’amélioration observée (ni dans quelle mesure le programme y contribue) en présence d’autres facteurs variables dans le temps sus- ceptibles d’avoir aussi influencé le résultat. Comme nous l’avons vu avec l’exemple du programme de micro�nance et des rendements rizicoles, les rendements peuvent être affectés par de nombreux fac- teurs variables dans le temps. De la même manière, une multitude de facteurs peu- vent affecter les résultats que les programmes de développement visent à améliorer. Pour cette raison, le résultat avant la mise en œuvre d’un programme ne constitue pratiquement jamais une bonne estimation du contrefactuel. Nous quali�ons donc la comparaison avant-après de « contrefactuel contrefait ». Évaluation avant-après du Programme de subvention de l’assurance maladie (PSAM) Pour mémoire, le PSAM est un nouveau programme de subvention de l’assurance maladie pour les ménages ruraux pauvres. Cette assurance couvre les dépenses relatives aux soins de santé primaires et à l’achat de médicaments. L’objectif du PSAM est de réduire le coût des soins de santé à la charge directe des ménages pauvres et, en dé�nitive, d’améliorer les indicateurs de santé des béné�ciaires. De nombreux indicateurs de résultat peuvent être retenus pour évaluer l’impact du programme, mais en l’occurrence les autorités veulent surtout connaître les effets du PSAM sur les dépenses en soins primaires et en médicaments des familles pauvres, plus précisément sur les dépenses annuelles directes par personne (désignées ci-après par « dépenses de santé »). 42 L’évaluation d’impact en pratique Le PSAM représentera une part conséquente du budget national s’il est élargi à l’ensemble du pays ( jusqu’à 1,5 % du PIB selon certaines estimations). De plus, la gestion d’un programme de cette nature est très complexe sur le plan administratif et logistique. Il a donc été décidé au plus haut niveau de l’État de lancer le PSAM tout d’abord sous la forme d’un programme pilote et de l’élargir progressivement en fonc- tion des résultats obtenus lors de la première phase. À partir des résultats des ana- lyses �nancières et coût-béné�ce, la présidente et les membres de son cabinet ont annoncé que pour être considéré comme viable et être étendu à tout le pays, le PSAM devait réduire les dépenses de santé annuelles moyennes par habitant d’au moins neuf dollars par rapport à ce qu’elles auraient été en l’absence du programme, et ce dans un délai de deux ans. Le PSAM sera mis en œuvre dans 100 localités rurales au cours de la phase pilote. Juste avant le lancement du programme, votre gouvernement engage une société pour mener une enquête de référence des 4 959 ménages que comptent ces villages. L’enquête collecte des informations détaillées sur tous les ménages, y compris sur leur composition, leurs actifs, l’accès aux services de santé et les dépenses de santé au cours de l’année écoulée. Peu après la conduite de cette enquête de référence, le PSAM est lancé en fanfare dans 100 villages pilotes, accompagnés d’évènements communautaires et de campagnes promotionnelles pour encourager les ménages éligibles à participer. Sur les 4 959 ménages de l’échantillon de référence, 2 907 s’inscrivent au PSAM au cours des deux premières années du programme. En deux ans, le PSAM donne de bons résultats selon plusieurs indicateurs. Les taux de couverture sont élevés et les enquêtes montrent que la plupart des ménages inscrits sont satisfaits du programme. À l’issue de la période de deux ans, une seconde ronde de données est collectée à des �ns d’évaluation auprès de l’échantillon des 4 959 ménages1. La présidente et le ministre de la Santé vous chargent de superviser l’évaluation d’impact du PSAM et de formuler des recommandations quant à l’opportunité de l’étendre ou non à l’ensemble du pays. Dans le cas présent, vous devez répondre à la question suivante : de combien le PSAM a-t-il réduit les dépenses de santé des ménages ruraux pauvres ? Les enjeux sont importants. S’il s’avère que le PSAM a permis de réduire les dépenses de santé d’au moins neuf dollars, il sera élargi à tout le pays. Si, en revanche, l’objectif des neuf dollars n’a pas été atteint, vous recommanderez de ne pas étendre le programme. Le premier « expert » en évaluation que vous consultez soutient que pour estimer l’impact du PSAM, il faut déterminer le changement dans les dépenses de santé des ménages inscrits au programme à travers le temps. Selon le consultant, puisque le PSAM couvre l’ensemble des dépenses de soins de santé primaires et des achats de médicaments, toute baisse des dépenses dans le temps peut être attribuée, pour l’es- sentiel, au PSAM. En vous fondant uniquement sur le sous-groupe des ménages ins- crits, vous estimez les dépenses moyennes de santé lors de l’enquête de référence puis deux ans après la mise en œuvre du programme. Autrement dit, vous procédez à une évaluation avant-après. Le tableau 3.1 en présente les résultats. Inférence causale et contrefactuel 43 Tableau 3.1 Cas 1—Impact du PSAM selon la méthode avant-après (comparaison de moyennes) Après Avant Différence Stat. t Dépenses de santé des ménages 7,8 14,4 −6,6 −28,9 Vous remarquez que les ménages inscrits au PSAM voient leurs dépenses directes de santé passer de 14,4  dollars avant l’introduction du PSAM à 7,8 dollars deux années plus tard, soit une baisse de 6,6 dollars (ou 45 %) sur la période. Comme le montre la valeur de la statistique t, la différence entre les dépenses de santé avant et après la mise en œuvre du programme est statistiquement signi�cative, autrement dit la probabilité que l’impact estimé soit statistiquement nul est très faible. Même si la comparaison avant-après porte sur le même groupe de ménages, vous craignez que certains facteurs aient pu évoluer au cours du temps et exercer un impact sur les dépenses de santé. Par exemple, plusieurs interventions dans le domaine de la santé ont eu lieu simultanément dans les villages concernés par le programme pilote. Par ailleurs, il est possible que les dépenses des ménages aient été affectées par la crise �nancière qu’a récemment connue le pays. Face à ces craintes, le consultant propose une analyse de régression plus sophistiquée censée permettre de tenir compte de tous ces facteurs externes. Les résultats de cette analyse sont présentés dans le tableau 3.2. La régression linéaire analyse comment les dépenses de santé varient selon une variable binaire (0-1) pour laquelle le 0 correspond à l’observation au moment de l’enquête de référence et le 1 à l’observation au moment de l’enquête de suivi. La régression linéaire multivariée permet en plus de contrôler pour ou de maintenir constantes d’autres caractéristiques observées des ménages de l’échantillon, par exemple des indicateurs de fortune (actifs), la composition des ménages, etc. Vous notez que la régression linéaire simple est équivalente à la simple différence avant-après constatée pour les dépenses de santé (une réduction de 6,59 dollars). En contrôlant pour les autres facteurs dans vos données, vous obtenez un résultat semblable, à savoir une baisse de 6,65 dollars. Tableau 3.2 Cas 1—Impact du PSAM selon la méthode avant-après (analyse de régression) Régression linéaire Régression linéaire multivariée Impact estimé sur les dépenses de santé −6,59** −6,65** des ménages (0,22) (0,22) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. 44 L’évaluation d’impact en pratique QUESTION 1 A. Au vu des résultats pour le cas 1, le PSAM doit-il être élargi à l’échelle nationale ? B. Cette analyse tient-elle compte de tous les facteurs qui peuvent influencer les dépenses de santé au �l du temps ? Contrefactuel contrefait 2 : comparaison entre participants et non participants La comparaison entre des unités béné�ciaires du programme et des unités n’en béné�ciant pas (« avec-sans ») constitue un autre contrefactuel contrefait. Prenons l’exemple d’un programme de formation professionnelle destiné à des jeunes sans emploi. Imaginons que deux ans après le lancement du programme, une évaluation tente d’estimer l’impact du programme sur les revenus en comparant les revenus moyens d’un groupe de jeunes ayant participé au programme aux revenus de ceux qui n’y ont pas participé. Supposons que les jeunes ayant participé au programme aient un revenu deux fois supérieur à celui des jeunes n’ayant pas participé. Comment ces résultats doivent-ils être interprétés ? Dans ce cas, l’estimation du contrefactuel provient des revenus des personnes ayant décidé de ne pas participer au programme. Cependant, les deux groupes de jeunes ont de fortes chances de pré- senter des différences fondamentales. Ceux qui ont décidé d’intégrer le programme sont peut-être motivés par la perspective d’améliorer leurs conditions de vie et espè- rent peut-être beaucoup béné�cier de la formation. À l’inverse, ceux qui ont préféré ne pas participer au programme sont peut-être des personnes découragées qui n’at- tendent rien de ce genre de programme. Il est probable que ces deux groupes de Concept clé : jeunes n’auraient pas le même parcours professionnel et que leurs revenus seraient Un biais de sélection différents même si le programme de formation professionnelle n’avait pas existé. apparait lorsque les Le groupe ayant décidé de ne pas participer au programme ne permet donc pas raisons pour lesquelles d’obtenir un contrefactuel convaincant. Si une différence de revenus est observée une personne participe entre les deux groupes, il sera impossible de l’attribuer à la formation profession- à un programme sont nelle, à une différence de motivation ou à une quelconque autre différence entre les corrélées aux résultats. deux groupes. Le fait que les individus les moins motivés préfèrent ne pas participer Ce biais se produit au programme de formation introduit donc un biais dans l’estimation de l’impact du généralement lorsque programme2. Ce biais est appelé « biais de sélection ». Dans cet exemple, si les jeunes le groupe de gens ayant participé au programme avaient des revenus supérieurs même en l’ab- comparaison n’est pas sence du programme, le biais de sélection serait positif ; autrement dit, nous aurions éligible au programme surestimé l’impact du programme de formation professionnelle sur les revenus en ou décide de ne pas comparant simplement les béné�ciaires aux non-béné�ciaires. y participer. Comparaison entre participants et non participants au Programme de subvention de l’assurance maladie (PSAM) Suite à la réflexion suscitée par la comparaison avant-après au sein de votre équipe d’évaluation, vous êtes conscients que de nombreux facteurs variables dans le temps restent susceptibles d’expliquer la baisse des dépenses de santé (en particulier, le ministère des Finances craint que la récente crise �nancière ait joué un rôle dans Inférence causale et contrefactuel 45 les dépenses de santé des ménages, facteur qui pourrait expliquer les changements observés). Un autre consultant suggère qu’il serait plus approprié d’estimer le contrefactuel à partir de l’enquête réalisée après l’intervention, c’est-à-dire deux ans après le lancement du programme. Le consultant fait remarquer, à juste titre, que sur les 4 959 ménages de l’échantillon de référence, seuls 2 907 ont effectivement parti- cipé au programme. Autrement dit, environ 41 % des ménages de l’échantillon n’ont pas été couverts par le PSAM. Il avance en outre que les ménages d’une même loca- lité sont exposés à la même offre de soins et confrontés aux mêmes conditions éco- nomiques. Selon lui, les résultats mesurés après l’intervention auprès du groupe non inscrits au PSAM permettraient donc de tenir compte de nombreux facteurs contex- tuels qui touchent tous les ménages, qu’ils soient ou non inscrits au programme. Vous décidez donc de calculer les dépenses de santé moyennes après l’inter- vention pour, d’une part, les ménages ayant participé au programme et, d’autre part, ceux qui n’y ont pas participé. Les observations recueillies sont présentées dans le tableau 3.3. En vous fondant sur les dépenses de santé moyennes des ménages non inscrits pour élaborer le contrefactuel, vous aboutissez à la conclusion que le programme a permis de réduire les dépenses de santé moyennes d’environ 14 dollars. En discu- tant de ce résultat avec le consultant, vous soulevez la question de savoir si les ménages ayant choisi de ne pas participer au programme peuvent différer systé- matiquement de ceux qui ont choisi d’y participer. Par exemple, il est possible que les ménages ayant intégré le PSAM s’attendaient à une hausse de leurs dépenses de santé ou soient mieux informés sur le programme, ou encore qu’il s’agisse de per- sonnes davantage préoccupées par la santé de leur famille. Il pourrait aussi s’agir de ménages plus pauvres en moyenne que ceux qui n’ont pas participé au PSAM, qui visait les ménages pauvres. Votre consultant affirme qu’une analyse de régres- sion permet de prendre en compte les éventuelles différences entre les deux groupes. En tenant compte de toutes les caractéristiques de l’ensemble des ménages pour lesquels des données ont été recueillies, le consultant aboutit aux résultats présentés dans le tableau 3.4. Tableau 3.3 Cas 2—Impact du PSAM selon la méthode avec-sans (comparaison de moyennes) Participants Non Différence Stat. Participants de t Dépenses de santé des ménages 7,8 21,8 −13,9 −39,5 46 Impact Evaluation in Practice Tableau 3.4 Cas 2—Impact du PSAM selon la méthode avec-sans (analyse de régression) Régression linéaire Régression linéaire multivariée Impact estimé sur les dépenses de santé −13,9** −9,4** des ménages (0,35) (0,32) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. Avec une régression linéaire simple des dépenses de santé sur un indicateur binaire (participation ou non d’un ménage au programme), vous obtenez un impact estimé de  13,90 dollars, autrement dit, vous estimez que le programme a diminué les dépenses de santé moyenne de 13,90  dollars. En revanche, si l’on tient compte de toutes les autres caractéristiques de la population de l’échantillon, la réduction des dépenses de santé des ménages ayant participé au programme s’élève à 9,40 dollars par an. QUESTION 2 A. Au vu de ces résultats pour le cas 2, le PSAM doit-il être élargi à l’échelle nationale ? B. Peut-on considérer que cette analyse tient compte de tous les facteurs suscep- tibles d’engendrer des différences entre les dépenses de santé des deux groupes ? Notes 1. Nous supposons ici une attrition nulle de l’échantillon entre les deux enquêtes, autrement dit aucun ménage ne quitte l’échantillon. Cette hypothèse n’est pas réaliste pour la plupart des enquêtes sur les ménages. Dans les faits, les familles qui déménagent ne peuvent parfois pas être suivies et certains ménages se dissolvent. Le chapitre 12 discute des problèmes d’attrition en plus de détails. 2. Pour donner un autre exemple, si les jeunes qui pensent tirer davantage pro�t du programme de formation sont plus enclins à participer à la formation (par exemple parce qu’ils pensent que celle-ci leur permettra d’obtenir des salaires plus élevés), nous comparerions alors un groupe d’individus qui anticipent un revenu plus élevé avec un groupe d’individus qui n’anticipaient pas un revenu plus élevé. Inférence causale et contrefactuel 47 CHAPITRE 4 Méthodes de sélection aléatoire Le chapitre précédent a passé en revue deux approches (la comparaison avant-après et la comparaison avec-sans) communément utilisées pour l’élaboration de contre- factuels, mais présentant de forts risques de biais. Nous allons maintenant aborder une série de méthodes qui permettent d’évaluer l’impact d’un programme de manière plus �able. Comme nous le verrons, l’exercice n’est pas aussi simple qu’il y paraît. La plupart des programmes sont conçus et mis en œuvre dans un environnement com- plexe et évoluant dans lequel de nombreux facteurs peuvent influencer les résultats tant pour les participants au programme que pour les non participants. Les séche- resses, les tremblements de terre, les transitions de gouvernement, les changements des politiques locales et internationales sont autant d’éléments inhérents au monde dans lequel nous vivons ; en tant qu’évaluateurs, nous voulons nous assurer que l’éva- luation de l’impact d’un programme soit valide malgré ces nombreux facteurs. Comme nous le verrons dans cette partie du manuel, les règles de sélection des béné�ciaires d’un programme constituent le paramètre clef pour choisir une méthode d’évaluation d’impact. Nous pensons que dans la plupart des cas, les méthodes d’éva- luation doivent être adaptées aux règles opérationnelles d’un programme (avec quelques ajustements ici et là) et non le contraire. Toutefois, nous partons aussi de la prémisse que tous les programmes sociaux doivent comprendre des règles de sélection des béné�ciaires justes et transparentes. L’une des règles les plus justes et les plus transparentes pour allouer des ressources limitées parmi des populations dans le même besoin consiste à donner à toute personne éligible une chance égale de béné�- cier du programme. À cet effet, une manière de faire consiste à procéder à un tirage au sort. Dans ce chapitre, nous allons examiner plusieurs méthodes de sélection aléa- toire ; celles-ci consistent à effectuer des tirages au sort pour désigner lesquelles des 49 unités également éligibles participeront à un programme et lesquelles n’y participe- ront pas. Ces méthodes de sélection aléatoire permettent non seulement aux gestion- naires de programme de disposer de règles justes et transparentes pour distribuer des ressources limitées parmi des populations dans le même besoin, mais constituent aussi les méthodes les plus solides pour évaluer l’impact d’un programme. Les méthodes de sélection aléatoire peuvent souvent découler des règles opéra- tionnelles d’un programme. Dans de nombreux programmes, la population des par- ticipants visés, c’est-à-dire le groupe de toutes les unités que le programme voudrait atteindre, est plus grande que le nombre de participants que le programme peut ser- vir à un moment donné. Par exemple, en une année, un programme d’éducation peut fournir du matériel scolaire et un curriculum amélioré à 500 écoles sur les milliers d’écoles éligibles que compte un pays. Autre exemple, un programme d’emploi pour les jeunes peut avoir pour objectif de toucher 2 000 jeunes chômeurs durant sa pre- mière année d’opération, même s’il y a des dizaines de milliers de jeunes chômeurs dans le pays que le programme viserait ultimement à incorporer. Il y a de multiples raisons qui font que les programmes peuvent être dans l’incapacité de servir l’en- semble de leur population cible. Des contraintes budgétaires peuvent empêcher le programme de couvrir l’ensemble des unités éligibles dès son lancement. Même si les budgets sont suffisants pour servir un nombre illimité de participants, les capaci- tés peuvent manquer pour que le programme incorpore l’ensemble de la population cible au même moment. Dans l’exemple du programme de formation profession- nelle destiné aux jeunes, le nombre de jeunes chômeurs désirant intégrer une forma- tion peut être supérieur au nombre de places disponibles dans les écoles techniques durant la première année de mise en œuvre du programme, ce qui limite le nombre de jeunes qui peuvent participer au programme. Dans la réalité, la plupart des programmes sont tributaires de contraintes budgé- taires ou opérationnelles qui les empêchent d’atteindre toute la population cible au même moment. Dans le cas où le nombre de personnes éligibles au programme est supérieur au nombre de places offertes, les gestionnaires doivent dé�nir un méca- nisme d’allocation des béné�ces du programme. Autrement dit, quelqu’un doit déci- der qui pourra participer au programme et qui ne pourra pas y participer. Les béné�ces peuvent être alloués selon la règle du « premier arrivé, premier servi » ou sur la base de certaines caractéristiques observées (par exemple les femmes et les enfants d’abord, ou encore les localités les plus pauvres d’abord) ; la sélection peut aussi s’effectuer selon des caractéristiques non observées (par exemple laisser les personnes intégrer le programme en fonction de leur motivation ou de leurs connais- sances) ou même par tirage au sort. Assignation aléatoire du traitement Lorsqu’un programme est distribué de manière aléatoire parmi une population éli- gible nombreuse, il est possible de générer un contrefactuel solide considéré comme l’étalon-or en matière d’évaluation d’impact. L’assignation aléatoire du traitement 50 L’évaluation d’impact en pratique repose, pour l’essentiel, sur l’utilisation d’un tirage au sort pour désigner les béné�- ciaires du programme1 parmi une population d’unités tout aussi éligibles les unes que les autres. La probabilité d’être sélectionnée est alors la même pour toutes les unités éligibles (une personne, un ménage, une communauté, une école, un hôpital, etc.)2. Avant d’évoquer l’application pratique de l’assignation aléatoire et les raisons pour lesquelles cette méthode permet d’obtenir un contrefactuel solide, examinons pourquoi l’assignation aléatoire est considérée comme un moyen juste et transpa- rent d’allouer des ressources limitées. Une fois qu’une population cible a été dé�nie (par exemple, les ménages vivant au-dessous du seuil de pauvreté, les enfants de moins de cinq ans ou encore les écoles situées en milieu rural), l’assignation aléatoire peut être considérée comme une règle juste, car elle assure au gestionnaire de pro- gramme que toute personne ou unité éligible possède la même chance de participer au programme et qu’aucun critère arbitraire ou subjectif, ni aucun favoritisme ou autre pratique inéquitable n’interviennent. Quand la demande est supérieure à l’offre, l’assignation aléatoire est une règle facilement justi�able par les gestionnaires de programme et facilement comprise par les principales parties prenantes. Lorsque la sélection des béné�ciaires s’effectue selon un processus transparent et véri�able, la règle de l’assignation aléatoire ne peut pas être aisément manipulée ; elle protège donc les gestionnaires de programme d’éventuelles accusations de favoritisme ou de corruption. L’assignation aléatoire présente en ce sens des avantages au-delà de sa seule utilité pour l’évaluation d’impact. De nombreux programmes ont d’ailleurs recours à des tirages au sort a�n de sélectionner des participants à partir d’un groupe d’individus éligibles, et ce en raison des avantages de cette technique pour la gestion et la gouvernance des programmes3. Pourquoi l’assignation aléatoire produit-elle une excellente estimation du contrefactuel ? Comme nous l’avons souligné ci-dessus, un groupe de comparaison idéal est en tout point similaire au groupe de traitement à la seule différence qu’il ne participe pas au programme à évaluer. La sélection aléatoire des unités qui béné�cieront du traite- ment et de celles qui feront partie des groupes de comparaison génère deux groupes ayant une forte probabilité d’être statistiquement identiques, pour autant que le nombre d’unités auxquelles est appliqué le processus d’assignation aléatoire soit assez important. Plus précisément, avec un nombre suffisamment important d’observations, le processus d’assignation aléatoire permet de constituer des groupes dont toutes les caractéristiques moyennes sont statistiquement équivalentes. À leur tour, ces moyennes tendent vers la moyenne de la population dont elles sont issues4. Méthodes de sélection aléatoire 51 La �gure 4.1 illustre pourquoi l’assignation aléatoire fournit un groupe de compa- raison statistiquement équivalent au groupe de traitement. Supposons que la popu- lation des unités éligibles (participants potentiels) comprenne 1 000 personnes dont la moitié a été sélectionnée de manière aléatoire pour faire partie du groupe de trai- tement, l’autre moitié constituant le groupe de comparaison. Par exemple, imagi- nons écrire les noms des 1 000 personnes sur de petits bouts de papier, les mettre dans une urne et tirer au sort 500 noms. S’il a été décidé que les 500 premiers noms tirés au sort feront partie du groupe de traitement, nous obtiendrons alors un groupe de traitement (les 500 premiers noms tirés) et un groupe de comparaison (les 500 noms restant dans l’urne), tous deux constitués de manière aléatoire. Imaginons maintenant que sur les 1 000 personnes, 40  % soient des femmes. Comme les noms ont été sélectionnés au hasard, environ 40 % des 500 noms tirés de l’urne seront aussi des femmes. Si 20 % des 1 000 personnes ont des yeux bleus, la proportion d’yeux bleus sera à peu près la même dans le groupe de traitement et dans le groupe de comparaison. En général, si la population des unités éligibles est suffisamment nombreuse, les caractéristiques de la population se transmettront au groupe de traitement et au groupe de comparaison. Si des caractéristiques obser- vables comme le genre ou la couleur des yeux se transmettent aux deux groupes, il semble logique de considérer que des caractéristiques plus difficiles à observer (des variables non observées) comme la motivation, les préférences ou les traits de per- sonnalité, se transmettront aussi de manière équivalente de la population au groupe de comparaison et au groupe de traitement. Le groupe de traitement et le groupe de comparaison constitués par assignation aléatoire seront donc similaires à la popula- tion de référence non seulement sur le plan des caractéristiques observées, mais aussi des caractéristiques non observées. Par exemple, il est difficile d’observer ou de mesurer l’ « amabilité », mais si l’on sait que les personnes aimables représentent 20  % de la population des unités éligibles, le groupe de traitement et le groupe Figure 4.1 Caractéristiques des groupes constitués par assignation aléatoire du traitement Population des unités éligibles La sélection aléatoire La sélection aléatoire préserve les caractéristiques préserve les caractéristiques Groupe de traitement : Groupe de comparaison : affecté au traitement non affecté au traitement 52 L’évaluation d’impact en pratique de comparaison comprendront la même proportion de personnes dotées de cette caractéristique. L’assignation aléatoire permet de garantir que le groupe de traite- ment et le groupe de comparaison seront en moyenne en tout point similaire tant au niveau des caractéristiques observées et non observées. Dans le cadre d’une évaluation d’impact, l’utilisation de l’assignation aléatoire pour dé�nir le groupe de traitement et le groupe de comparaison garantit en théorie que les groupes sont équivalents. La collecte de données de base pour un échantillon d’évaluation permet de véri�er empiriquement cette hypothèse, en s’assurant qu’il n’existe pas de différence systématique entre les caractéristiques observées des groupes de traitement et de comparaison avant que le programme ne débute. Dans ce cas, comme les deux groupes sont identiques au départ et sont exposés aux mêmes facteurs contextuels externes au cours du temps, toute différence observée entre les résultats des deux groupes après le lancement du programme peut être attribuée au programme. En d’autres termes, le groupe de comparaison permet de contrôler pour tous les autres facteurs qui peuvent potentiellement expliquer le résultat. Nous pou- vons alors être sûrs que l’estimation de l’impact moyen obtenu par la différence entre le résultat observé dans le groupe de traitement (la moyenne des résultats pour le groupe de traitement constitué par assignation aléatoire) et l’estimation du contre- factuel (la moyenne des résultats pour le groupe de comparaison également consti- tué par assignation aléatoire) représente le véritable impact du programme. En effet, le processus de formation des groupes permet d’écarter tous les autres facteurs, observés ou non, qui auraient pu constituer une explication plausible de la diffé- rence des résultats entre les deux groupes. La �gure 4.1 suppose que toutes les unités de la population éligible sont réparties soit dans le groupe de traitement, soit dans le groupe de comparaison. Dans certains cas, il n’est pas nécessaire d’inclure toutes les unités de la population éligible dans le travail d’évaluation. Par exemple, si la population des unités éligibles est constituée d’un million de mères et que nous cherchons à évaluer l’efficacité de transferts monétaires sur la probabilité que ces mères fassent vacciner leurs enfants, il peut être suffisant de répartir un échantillon représentatif, par exemple de 1  000 per- sonnes, entre le groupe de traitement et le groupe de comparaison. La �gure  4.2 illustre ce processus. Par la même logique que ci-dessus, la sélection d’un échan- tillon aléatoire à partir de la population des unités éligibles permet de préserver les caractéristiques de la population dans l’échantillon. La sélection aléatoire des groupes de traitement et de comparaison à partir de l’échantillon préservera à son tour les caractéristiques de la population dans chaque groupe. Méthodes de sélection aléatoire 53 Figure 4.2 Échantillonnage aléatoire et assignation aléatoire du traitement Population d’unités éligibles Validité La sélection aléatoire préserve les caractéristiques externe Échantillon d’évaluation La sélection aléatoire La sélection aléatoire préserve les caractéristiques préserve les caractéristiques Validité interne Groupe de traitement : Groupe de comparaison : affecté au traitement non affecté au traitement Validité interne et validité externe Concept clé : Les étapes décrites ci-dessus pour l’assignation aléatoire du traitement permettent Une évaluation de garantir la validité tant interne qu’externe de l’évaluation d’impact (�gure 4.2) possède une validité pour autant que l’échantillon d’évaluation soit de taille suffisante. interne si elle est La validité interne signi�e que l’impact estimé ne peut pas être influencé par des fondée sur un groupe facteurs autres que le programme, autrement dit, que le groupe de comparaison de comparaison valide. constitue un contrefactuel valable permettant d’estimer l’impact réel du programme. Pour rappel, l’assignation aléatoire permet de former un groupe de comparaison sta- tistiquement équivalent au groupe de traitement avant que le programme ne débute. Après le lancement du programme, le groupe de comparaison est soumis aux mêmes facteurs externes que le groupe de traitement à la seule différence qu’il n’est pas Concept clé : exposé au programme. Dès lors, si des différences apparaissent entre le groupe de comparaison et le groupe de traitement, elles ne peuvent être attribuées qu’au pro- Une évaluation gramme. Autrement dit, la validité interne d’une évaluation d’impact est assurée par possède une validité le processus d’assignation aléatoire du traitement. externe si l’échantillon d’évaluation est La validité externe signi�e que l’impact estimé pour l’échantillon d’évaluation représentatif de la peut être généralisé à toute la population des unités éligibles. Pour que cela soit pos- population des unités sible, il faut que l’échantillon d’évaluation soit représentatif de la population des uni- éligibles. Les résultats tés éligibles ; dans les faits, cela suppose que l’échantillon soit constitué à partir de la obtenus pour population en utilisant une méthode d’échantillonnage aléatoire5. l’échantillon peuvent Nous avons évoqué deux types de sélection aléatoire  : la première à des �ns alors être généralisés d’échantillonnage (pour la validité externe) et la seconde en tant que méthode d’éva- à l’ensemble de luation d’impact (pour la validité interne). Une évaluation d’impact peut produire la population des des estimations ayant une solide validité interne en utilisant une assignation aléa- unités éligibles. toire du traitement, mais si l’évaluation est effectuée sur un échantillon sélectionné 54 L’évaluation d’impact en pratique de manière non aléatoire, l’impact estimé peut ne pas être généralisé à l’ensemble de la population des unités éligibles. De même, si l’évaluation est fondée sur un échan- tillon sélectionné de manière aléatoire, mais que le traitement n’est pas distribué de manière aléatoire, l’échantillon sera certes représentatif, mais le groupe de compa- raison peut ne pas être valide. Quand utiliser l’assignation aléatoire ? Dans la pratique, l’assignation aléatoire peut être considérée pour tout programme pour lequel la demande excède l’offre, c’est-à-dire lorsque le nombre de participants potentiels dépasse les capacités du programme à un moment donné et que ce pro- gramme doit être graduellement élargi. Dans d’autres cas, une assignation aléatoire se justi�e à des �ns d’évaluation même si les ressources du programme sont illimi- tées. Par exemple, les autorités peuvent recourir à l’assignation aléatoire pour éprou- ver de nouveaux programmes potentiellement coûteux dont les effets recherchés et indésirables restent méconnus. Dans de telles circonstances, l’assignation aléatoire peut être utilisée durant la phase d’évaluation pilote pour déterminer avec précision les effets du programme avant de l’élargir à une population plus importante. L’assignation aléatoire constitue une méthode d’évaluation d’impact adéquate dans deux cas fréquents : 1. Si le nombre d’unités éligibles est supérieur au nombre de places disponibles dans le programme. Si la demande dépasse l’offre, un tirage au sort peut être effectué pour dé�nir le groupe qui béné�ciera du programme parmi la population éligible. Dans ce cas, toutes les unités de la population ont la même chance d’être sélec- tionnées. Le groupe des unités tirées au sort constitue le groupe de traitement et le reste de la population, qui ne béné�ciera pas du programme, le groupe de com- paraison. Aussi longtemps que des contraintes de ressources empêchent d’étendre le programme à l’ensemble de la population, les groupes de comparai- son peuvent être maintenus pour mesurer l’impact du programme à court, moyen et long terme. Dans ces conditions, il n’y a pas de dilemme éthique à garder indé- �niment un groupe de comparaison puisqu’une partie de la population ne peut de toute façon pas être couverte par le programme. Par exemple, supposons que le ministère de l’Éducation d’un pays souhaite doter les écoles publiques de bibliothèques, mais que le budget mis à disposition par le ministère des Finances ne permet de couvrir qu’un tiers des écoles. Si le minis- tère de l’Éducation souhaite donner une chance égale d’obtenir une bibliothèque à chacune des écoles publiques, il peut procéder à un tirage au sort au cours du- quel chaque école a une chance égale (c’est-à-dire une chance sur trois) d’être sélectionnée. Les écoles tirées au sort seront dotées d’une nouvelle bibliothèque Méthodes de sélection aléatoire 55 et constitueront le groupe de traitement, et les écoles restantes, c’est-à-dire les deux tiers des écoles totales, qui n’auront pas de bibliothèque formeront le groupe de comparaison. À moins que des fonds supplémentaires ne soient alloués au programme de bibliothèques, il restera un groupe d’écoles qui ne pourront pas être dotées de bibliothèque dans le cadre du programme et qui pourront servir de groupe de comparaison pour estimer le contrefactuel. 2. Lorsqu’un programme doit être progressivement étendu pour couvrir l’ensemble de la population éligible. Quand un programme est graduellement mis en œuvre, la sélection aléatoire de l’ordre dans lequel les participants béné�cieront du pro- gramme donne à chaque unité éligible une chance égale de recevoir le traitement à la première phase ou à une phase ultérieure du programme. Tant que le « der- nier » groupe n’aura pas intégré le programme, il constituera le groupe de compa- raison servant à estimer le contrefactuel pour les groupes ayant déjà été soumis au traitement. Imaginons que le ministère de la Santé souhaite former les 15 000 in�rmières du pays à un nouveau protocole, mais qu’il faille trois années pour toutes les former. À des �ns d’évaluation d’impact, le ministère peut sélectionner de ma- nière aléatoire un premier tiers d’in�rmières qui suivront la formation la pre- mière année, un second tiers la deuxième année et un dernier tiers la troisième année. Pour évaluer l’impact du programme de formation une année après son lancement, le groupe d’in�rmières ayant béné�cié de la formation la première année constituera le groupe de traitement, et le groupe qui a été choisi aléatoi- rement pour suivre la formation la troisième année constituera le groupe de comparaison puisqu’il n’aura pas encore béné�cié de la formation. Comment réaliser l’assignation aléatoire ? Nous avons évoqué la méthode de l’assignation aléatoire et les raisons pour les- quelles elle permet de créer un groupe de comparaison valable. Nous allons mainte- nant examiner les étapes à respecter pour réaliser l’assignation aléatoire  d’un traitement. La �gure 4.3 illustre ce processus. La première étape consiste à dé�nir les unités éligibles au programme. Selon les programmes, l’unité peut être une personne, un centre de santé, une école ou même tout un village ou une municipalité. La population des unités éligibles com- prend toutes les unités pour lesquelles vous cherchez à déterminer l’impact du programme. Par exemple, dans le cadre d’une évaluation d’un programme de for- mation des instituteurs d’écoles primaires en zones rurales, les professeurs du secondaire et ceux des écoles primaires en milieu urbain ne feront pas partie de la population des unités éligibles. 56 L’évaluation d’impact en pratique Figure 4.3 Étapes de l’assignation aléatoire du traitement É É É unités éligibles échantillon d’évaluation assignation aléatoire du traitement Groupe de c comparaison X Groupe de traitement } Unités Unités Validité externe } Validité interne inéligibles éligibles Une fois que la population des unités éligibles est dé�nie, il faudra comparer la taille du groupe avec le nombre d’observations requises pour l’évaluation. Ce nombre est déterminé par des calculs de puissance et dépend du type de questions auxquelles vous voulez répondre (voir chapitre 11). Si la population éligible est peu nombreuse, il peut être nécessaire d’inclure toutes les unités éligibles dans l’évaluation. À l’in- verse, s’il y a plus d’unités éligibles que nécessaire pour l’évaluation, la deuxième étape consistera à sélectionner un échantillon d’unités à partir de la population pour élaborer un échantillon d’évaluation. Cette deuxième étape vise essentiellement à limiter les coûts de collecte des données. Si les données fournies par les systèmes de suivi existants peuvent être utilisées pour effectuer l’évaluation et que ces systèmes couvrent la population des unités éligibles, la création d’un échantillon d’évaluation distinct n’est pas nécessaire. Par contre, imaginons que vous devez collecter des don- nées détaillées sur les connaissances pédagogiques de plusieurs dizaines de milliers de professeurs dans toutes les écoles publiques du pays. Réaliser des entretiens avec chaque professeur risque fort d’être impossible ; mais un échantillon de 1 000 profes- seurs travaillant dans 100  écoles différentes peut être suffisant. Si l’échantillon est représentatif de l’ensemble de la population des enseignants des écoles publiques, les résultats de l’évaluation resteront généralisables à l’ensemble des professeurs et écoles publiques du pays. Recueillir des données auprès d’un échantillon de 1 000 professeurs sera bien évidemment moins coûteux que de s’entretenir avec tous les professeurs des écoles publiques du pays. Méthodes de sélection aléatoire 57 En�n, la troisième étape consistera à former le groupe de traitement et le groupe de comparaison à partir des unités de l’échantillon d’évaluation. En ce sens, vous devez tout d’abord établir une règle de répartition des participants sur la base de nombres aléatoires. Par exemple, pour affecter 40 des 100 unités de l’échantillon d’évaluation au groupe de traitement, vous pourrez établir la règle selon laquelle les 40 unités qui ont reçu les numéros aléatoires les plus élevés constitueront le groupe de traitement et que les autres unités formeront le groupe de comparaison. Vous attri- buerez donc un numéro aléatoire à chaque unité de l’échantillon d’évaluation à l’aide d’une feuille de calcul ou d’un logiciel statistique spécialisé (�gure 4.4). À partir de la règle préalablement établie, vous pourrez ensuite constituer un groupe de comparai- son et un groupe de traitement. Il est important de convenir de la règle avant d’utiliser le logiciel qui attribuera les nombres aléatoires aux unités. Dans le cas contraire, vous pourriez être tenté de choisir la règle en fonction des nombres aléatoires observés, ce qui invaliderait automatiquement le processus d’assignation aléatoire. La logique sous-jacente au processus automatisé est la même que celle qui prévaut lors d’un tirage à pile ou face ou du tirage au hasard d’un nom d’un chapeau : dans tous les cas, il s’agit de laisser le hasard déterminer à quel groupe (groupe de traitement ou Figure 4.4 Assignation aléatoire du traitement avec utilisation d’une feuille de calcul Calibri 11 A19 * type the formula =RAND(). Note that the random numbers in Column C are volatile: they change everytime you do a calculation. Numéro aléatoire Entre 0 et 1 Objectif Assigner la moitié de l’échantillon d’évaluation au traitement Règle Si le numéro aléatoire est supérieur à 0.5 : affecter le sujet au groupe de traitement ; sinon, affecter au groupe de comparaison Identifiant Numéro aléatoire Nom Numéro aléatoire* Assignation de l’unité final** 1001 Ahmed 0.0526415 0.479467635 0 1002 Elisa 0.0161464 0.945729597 1 1003 Anna 0.4945841 0.933658744 1 1004 Jung 0.3622553 0.383305299 0 1005 Tuya 0.8387493 0.102877439 0 1006 Nilu 0.1715420 0.228446592 0 1007 Roberto 0.4798531 0.444725231 0 1008 Priya 0.3919690 0.817004226 1 1009 Grace 0.8677710 0.955775449 1 1010 Fathia 0.1529944 0.873459852 1 1011 John 0.1162195 0.211028126 0 1012 Alex 0.7382381 0.574082414 1 1013 Nafula 0.7084383 0.151608805 0 *saisir la formule =RAND(). Remarque : les numéros aléatoires de la colonne C sont instables : ils changent à chaque nouveau calcul que vous faites. **copier les nombres de la colonne C et « coller spécial > valeurs » dans la colonne D. La colonne D affiche alors les nombres aléatoires finaux. ***saisir la formule =IF(C(row number)>0.5,1,0) 58 L’évaluation d’impact en pratique groupe de comparaison) appartient chaque unité. Quand l’assignation aléatoire doit se faire en public, des méthodes plus «  artisanales  » peuvent être utilisées. Les exemples suivants supposent que l’unité de sélection aléatoire est une personne : 1. Si vous souhaitez placer 50 % des personnes dans le groupe de traitement et 50 % des personnes dans le groupe de comparaison, vous pouvez procéder à un tirage à pile ou face pour chacune d’elles. Vous devez alors décider préalablement si les personnes tirées à pile ou celles tirées à face formeront le groupe de traitement. 2. Si vous voulez qu’un tiers de l’échantillon d’évaluation constitue le groupe de traitement, vous pouvez lancer un dé pour chaque personne. Vous devez toute- fois décider d’une règle d’attribution au préalable. Par exemple, si le dé tombe sur le un ou sur le deux, la personne fera partie du groupe de traitement, alors que si c’est le trois, le quatre, le cinq ou le six qui sort, la personne fera partie du groupe de comparaison. Vous lancerez le dé une fois pour chaque personne faisant partie de l’échantillon d’évaluation, et la personne sera ensuite affectée au groupe de traitement ou de comparaison en fonction du numéro qui sort. 3. Inscrivez les noms de toutes les personnes sur des papiers de taille et de forme identiques. Pliez les papiers de manière à ce que les noms soient invisibles et mélangez-les dans un chapeau ou tout autre récipient. Avant le tirage au sort, �xez une règle en dé�nissant le nombre de papiers qui seront tirés au sort et si les noms tirés seront affectés au groupe de traitement ou au groupe de comparaison. Dès que la règle est établie, demandez à l’une des personnes présentes (quelqu’un d’impartial, par exemple un enfant) de tirer autant des papiers jusqu’à ce que le nombre de participants dans le groupe de traitement soit atteint. Qu’il s’agisse d’un tirage au sort en public, d’un lancer de dé ou de nombres aléatoires générés par un programme informatique, il est important de documenter le proces- sus pour en assurer la transparence. À cet effet, il convient tout d’abord que la règle ait été préalablement convenue et communiquée aux témoins et participants. Il faut ensuite se tenir à cette règle lors du tirage au sort et être en mesure de démontrer que le processus est effectivement réalisé au hasard. Dans le cas de tirages au sort ou de lancers de dé, il est possible de �lmer le processus ; si un programme informatique a été utilisé pour tirer des nombres aléatoires, il convient de sauvegarder un registre de vos calculs a�n que des auditeurs puissent, le cas échéant, les répliquer6. À quel niveau réaliser l’assignation aléatoire ? L’assignation aléatoire peut s’effectuer au niveau de l’individu, du ménage, de la com- munauté ou de la région. En général, le niveau auquel s’effectue l’assignation aléatoire des unités au groupe de traitement ou au groupe de comparaison dépend de la manière selon laquelle le programme est mis en œuvre. Par exemple, si un programme de santé est mis en œuvre au niveau des cliniques, vous pourrez d’abord établir un échantillon aléatoire de cliniques et procéder, dans un second temps, à leur assigna- tion aléatoire soit au groupe de traitement, soit au groupe de comparaison. Méthodes de sélection aléatoire 59 Quand l’assignation aléatoire est réalisée à un niveau plus élevé, par exemple au niveau des régions ou des provinces d’un pays, il peut être très difficile de procéder à une évaluation d’impact, car le nombre de régions et de provinces n’est générale- ment pas suffisant pour permettre de constituer des groupes de traitement et de comparaison adéquats. Par exemple, si un pays ne compte que six provinces, le groupe de traitement et le groupe de comparaison ne pourront pas compter plus de trois provinces chacun, ce qui est insuffisant pour garantir que les caractéris- tiques de ces deux groupes soient équilibrées. À l’inverse, plus l’échelle diminue, par exemple en atteignant les personnes ou les ménages, et plus les risques d’effets de diffusion et de contamination augmen- tent7. Prenons l’exemple d’un programme consistant à fournir des médicaments vermifuges à des ménages. Si un ménage du groupe de traitement vit à proximité d’un ménage qui, lui, fait partie du groupe de comparaison, ce dernier peut béné�- cier d’un effet de diffusion positif lié au traitement prodigué au ménage voisin. Le risque que le ménage du groupe de comparaison soit contaminé par son voisin se réduit. Il convient, dans un tel cas, de veiller à ce que les ménages du groupe de traitement soient physiquement suffisamment éloignés de ceux du groupe de com- paraison pour éviter que les effets de diffusion n’affectent les résultats. Toutefois, plus la distance entre les ménages augmente, plus la mise en œuvre du programme et la réalisation des enquêtes seront coûteuses. En règle générale, si les risques d’effets de diffusion peuvent être raisonnablement écartés, l’idéal est de procéder à l’assignation aléatoire du traitement au niveau le plus bas auquel le programme est mis en œuvre a�n de constituer des groupes de comparaison et de traitement comprenant le plus grand nombre possible d’unités. La question des effets de dif- fusion (ou effets de débordements) est abordée au chapitre 8. Estimation d’impact avec assignation aléatoire Une fois qu’un échantillon d’évaluation est formé et que le traitement est attribué de manière aléatoire, il est relativement facile d’estimer l’impact du programme. Après une certaine période de mise en œuvre du programme, il faudra mesurer les résultats pour les groupes de traitement et de comparaison. L’impact du programme corres- pond tout simplement à la différence entre le résultat moyen  (Y) constaté pour le groupe de traitement et le résultat moyen (Y) observé pour le groupe de comparaison. Par exemple, à la �gure 4.5, le résultat moyen est de 100 pour le groupe de traitement et de 80 pour le groupe de comparaison. L’impact du programme est donc de 20. 60 L’évaluation d’impact en pratique Figure 4.5 Estimation d’impact avec assignation aléatoire Groupe de traitement Groupe de comparaison Impact Moyenne (Y) du groupe Moyenne (Y) du groupe Impact = ΔY = 20 de traitement = 100 de comparaison = 80 Participation si et seulement si l’unité est affectée au groupe de traitement Estimation d’impact du Programme de subvention de l’assurance maladie (PSAM) par assignation aléatoire Revenons maintenant à notre exemple du PSAM (Programme de subvention de l’as- surance maladie) et voyons ce que « l’assignation aléatoire » signi�e dans ce cas-là. Rappelez-vous qu’il s’agit d’évaluer l’impact d’un programme à partir d’une phase pilote qui concerne 100 villages. Après avoir mené deux évaluations d’impact avec des estimations du contrefac- tuel potentiellement biaisées (qui ont abouti à des recommandations opposées, voir chapitre  3), vous décidez de repartir à zéro et reconsidérez comment obtenir un contrefactuel plus précis. Après discussion avec votre équipe, vous êtes désormais convaincu que pour obtenir un contrefactuel valide, il faut identi�er un groupe de villages de comparaison qui soient identiques en tout point aux 100 villages de trai- tement, à la seule différence que le premier groupe ne béné�cie pas du PSAM. Il s’avère que le PSAM a été lancé sous la forme d’un projet pilote et que les 100 vil- lages participant à la première phase (villages de traitement) ont été désignés de manière aléatoire parmi l’ensemble des villages ruraux du pays. Vous notez que les 100 villages doivent donc, en moyenne, présenter les mêmes caractéristiques que la population générale des villages ruraux. Dans ce contexte, le contrefactuel peut être estimé de manière valide en mesurant les dépenses de santé des ménages éligibles dans les villages ne participant pas au PSAM. Par chance, au moment de la réalisation des enquêtes de référence et de suivi, l’entreprise de sondage a recueilli des informations sur 100 villages ruraux supplé- mentaires qui n’ont pas été couverts par le PSAM lors de la phase pilote. Tout comme les villages de traitement, ces 100 villages ont été sélectionnés de manière aléatoire parmi la population des villages éligibles, ce qui signi�e qu’ils présentent, en moyenne, les mêmes caractéristiques que toute la population des villages ruraux. La manière dont les deux groupes de villages ont été sélectionnés garantit donc qu’ils présentent des caractéristiques identiques, la seule différence étant que les 100 vil- lages soumis au traitement béné�cient du PSAM, contrairement aux 100 autres vil- lages, qui constituent le groupe de comparaison. Le traitement a été attribué de manière aléatoire. Méthodes de sélection aléatoire 61 Étant donné l’assignation aléatoire du traitement, vous êtes plutôt sûr qu’aucun facteur externe autre que le PSAM ne pourra expliquer les différences de résultats entre les villages de traitement et les villages de comparaison. Pour valider cette hypothèse, vous véri�ez que les ménages éligibles du groupe de traitement et de comparaison présentent bien les mêmes caractéristiques avant la mise en œuvre du programme (tableau 4.1). Vous remarquez que les caractéristiques moyennes des ménages des deux groupes sont effectivement très proches. La seule différence statistiquement signi�- cative est le nombre d’années d’éducation du conjoint, mais cette différence est minime. Même si l’assignation aléatoire porte sur un grand échantillon, quelques rares différences entre les groupes de traitement et de comparaison peuvent subsis- ter8. La validité du groupe de comparaison étant établie, vous estimez le contrefac- tuel par les dépenses de santé moyennes des ménages éligibles dans les 100 villages du groupe de comparaison (tableau 4.2). Table 4.1 Cas 3— Comparabilité entre villages de traitement et villages de comparaison Villages de Villages de Caractéristiques traitement comparaison des ménages (N = 2 964) (N = 2 664) Différence Stat. de t Dépenses de santé (en dollars, par année et par personne) 14,48 14,57 −0,09 −0,39 Âge du chef du ménage (en années) 41,6 42,3 −0,7 −1,2 Âge du conjoint (en années) 36,8 36,8 0,0 0,38 Niveau d’éducation du chef du ménage (en années) 2,9 2,8 0,1 2,16* Niveau d’éducation du conjoint (en années) 2,7 2,6 0,1 0,006 Le chef du ménage est une femme = 1 0,07 0,07 −0,0 −0,66 Autochtone = 1 0,42 0,42 0,0 0,21 Nombre de personnes dans le ménage 5,7 5,7 0,0 1,21 Présence d’une salle de bains = 1 0,57 0,56 0,01 1,04 Hectares de terre 1,67 1,71 −0,04 −1,35 Distance de l’hôpital (en km) 109 106 3 1,02 * Seuil de signi�cation de 5 %. 62 L’évaluation d’impact en pratique Tableau 4.2 Cas 3— Impact du PSAM selon la méthode d’assignation aléatoire (comparaison des moyennes) Groupe de Groupe de traitement comparaison Différence Stat. de t Dépenses de santé des ménages observées lors de l’enquête de base 14,48 14,57 −0,09 −0,39 Dépenses de santé observées lors de l’enquête de suivi 7,8 17,9 −10,1** −25,6 ** Seuil de signi�cation de 1 %. Tableau 4.3 Cas 3— Impact du PSAM selon la méthode d’assignation aléatoire (analyse de régression) Régression linéaire Régression linéaire multivariée Impact estimé sur les dépenses de santé −10,1** −10,0** des ménages (0,39) (0,34) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. Vous disposez maintenant d’un contrefactuel valide et pouvez évaluer l’impact du PSAM en calculant la différence entre les dépenses de santé directes des ménages éligibles vivant dans les villages de traitement et l’estimation du contrefactuel. L’im- pact indique une baisse des dépenses de santé de 10,10 dollars sur deux ans. L’ana- lyse de régression donne le même résultat, comme le montre le tableau 4.3. Grâce à l’assignation aléatoire, nous pouvons être sûrs qu’aucun autre facteur sys- tématiquement différent entre le groupe de traitement et le groupe de comparaison ne peut expliquer la différence des dépenses de santé. Les deux groupes de villages ont été exposés aux mêmes politiques et programmes nationaux au cours des deux années de la phase pilote du PSAM. Dans ces conditions, la raison la plus plausible pour expliquer que les ménages pauvres du groupe de traitement ont des dépenses inférieures à celles des ménages du groupe de comparaison est que les premiers ont béné�cié du programme d’assurance maladie, au contraire des seconds. QUESTION 3 A. Pourquoi l’estimation d’impact à laquelle on aboutit avec la régression linéaire est-elle pratiquement inchangée en tenant compte d’autres facteurs ? B. Au vu de ces résultats pour le cas 3, le PSAM doit-il être élargi à l’échelle nationale ? Méthodes de sélection aléatoire 63 L’assignation aléatoire en pratique L’assignation aléatoire est souvent utilisée dans les études d’évaluation d’impact rigoureuses, tant pour les évaluations à grande échelle que de plus petite enver- gure. L’évaluation du programme Mexico Progresa (Schultz, 2004) est l’une des évaluations à grande échelle les plus connues utilisant l’assignation aléatoire (encadré 4.1). Deux variations de l’assignation aléatoire Nous allons maintenant aborder deux variations reposant sur les propriétés de l’assignation aléatoire : l’offre aléatoire et la promotion aléatoire du traitement. Encadré 4.1 : Transferts monétaires conditionnels et éducation au Mexique Le programme Progresa, qui s’appelle maintenant envergure a été mis en place de manière progres- « Oportunidades », a été lancé en 1998 ; il pro- sive. Les deux tiers environ des localités (soit 314 pose un transfert monétaire aux mères pauvres sur 495) ont été choisies de manière aléatoire vivant dans les régions rurales du Mexique à pour béné�cier du programme au cours des deux condition que leurs enfants soient présents à premières années. Les 181 localités restantes l’école et leur présence con�rmée par l’ensei- ont constitué un groupe de comparaison avant gnant. Ce programme social à grande échelle est d’intégrer le programme la troisième année. l’un des premiers à avoir incorporé une évaluation Sur la base de l’assignation aléatoire, Schultz d’impact rigoureuse. La méthode de l’assignation (2004) conclut à une augmentation moyenne du aléatoire a été utilisée pour permettre de détermi- taux de scolarisation de 3,4 % chez les écoliers de ner les effets des transferts monétaires condition- la première à la huitième année, la hausse la plus nels sur un certain nombre de résultats, dont le importante (soit 14,8 %) étant constatée chez les taux de fréquentation scolaire. �lles ayant terminé la sixième annéea. Cette forte Les bourses offertes aux enfants de la troi- croissance est probablement due au fait que le sième9 à la neuvième10 année représentent entre taux d’abandon scolaire tend à augmenter chez les 50 % et 75 % des frais de scolarité et sont attri- �lles au fur et à mesure qu’elles grandissent ; rai- buées pour une période de trois ans. Les commu- son pour laquelle les �lles reçoivent une allocation nautés et les ménages éligibles pour le monétaire un peu plus importante pour les inciter à programme sont sélectionnés sur la base d’un continuer à fréquenter l’école au-delà du primaire. indice de pauvreté établi à partir de données du Ces impacts à court terme sont ensuite extrapolés recensement et de données d’une enquête de pour prédire l’impact à long terme du programme référence. Ce programme social de grande Progresa sur la scolarité et sur les revenus. Source : Schultz, 2004. a. Pour être précis, Schultz combine les méthodes d’assignation aléatoire et de double différence. Le chapitre 8 montre l’intérêt de combiner diverses méthodes d’évaluation d’impact. 9. Classe de CE2 dans le système scolaire français. 10. Classe de 3ème dans le système scolaire français. 64 L’évaluation d’impact en pratique Offre aléatoire : lorsque tout le monde n’adhère pas à son affectation Lorsque nous avons évoqué l’assignation aléatoire ci-dessus, nous avons supposé que le responsable de programme avait toute latitude pour affecter les unités au groupe de traitement et au groupe de comparaison, les premières participant au pro- gramme et les secondes n’y participant pas. Autrement dit, les unités des deux groupes adhéraient pleinement à leur affectation. Ce type d’adhérence totale est cependant plus fréquent dans des conditions de laboratoire ou lors d’essais médi- caux. Par exemple, le chercheur peut s’assurer, d’une part, que tous les sujets du groupe de traitement prennent bien leurs comprimés et, d’autre part, qu’aucun sujet du groupe de comparaison n’en prend11. Dans le cadre des programmes sociaux, l’adhérence totale aux critères de sélec- tion (c’est-à-dire l’adhérence totale des unités à leur assignation au groupe de com- paraison ou de traitement) est optimale, et tant les décideurs que les évaluateurs font au mieux pour se rapprocher au plus près de cet idéal. En pratique, pourtant, il n’est pas garanti que toutes les unités respectent pleinement leur affectation au groupe désigné, et ce malgré les meilleurs efforts des évaluateurs et des décideurs politiques. Par exemple, il ne suffit pas qu’un enseignant soit affecté au groupe de traitement et qu’une formation lui soit proposée pour qu’il se présente effectivement le jour du début de cette formation. De même, un enseignant du groupe de comparaison peut trouver un moyen de participer à une formation à laquelle il n’a pas été invité. Dans ces conditions, une comparaison directe des unités initialement affectées au groupe de traitement avec celles initialement assignées au groupe de comparaison donnera une estimation de « l’intention de traiter » (IDT). En effet, la différence entre les deux groupes compare les unités à qui nous avions l’intention d’offrir un traitement (groupe de traitement) avec celles à qui nous n’avions pas l’intention d’offrir le trai- tement (groupe de comparaison). En tant que telle,  l’estimation de «  l’intention de traiter » constitue une mesure d’impact tout à fait pertinente, car, dans la plupart des cas, les décideurs politiques et les responsables de programme ne peuvent qu’offrir le programme à des béné�ciaires potentiels et non imposer à la population cible d’y participer. Cependant, nous pouvons aussi chercher à connaître l’impact du programme sur ceux qui ont effectivement accepté d’y participer. Pour ce faire, il convient de prendre en compte le fait que certaines unités du groupe de traitement n’ont pas, dans les faits, été soumises au traitement et qu’inversement, certaines unités du groupe de comparaison y ont été soumises. En d’autres termes, nous souhaitons estimer l’impact du programme pour les unités auxquelles le programme a été offert et qui ont effectivement choisi d’y participer, autrement dit, l’estimation du « traitement sur les traités » (TT). Offre aléatoire d’un programme et participation effective Imaginez que vous devez évaluer l’impact d’un programme de formation profession- nelle sur les salaires. Le programme fait l’objet d’une assignation aléatoire au niveau Méthodes de sélection aléatoire 65 individuel, et le groupe de traitement se voit offrir la formation, contrairement au groupe de comparaison. Dans ce contexte, il y a trois types d’individus : • Ceux qui participent si on le leur offre. Il s’agit des personnes qui adhèrent à leur affectation. Si elles sont affectées au groupe de traitement (à qui le programme est offert), elles participent au programme ; si, en revanche, elles sont affectées au groupe de comparaison (à qui le programme n’est pas offert), elles n’y partici- pent pas. • Les « jamais ». Il s’agit des personnes qui ne participent pas au programme même si elles sont assignées au groupe de traitement. Elles constituent les non adhé- rents dans le groupe de traitement. • Les « toujours ». Il s’agit des personnes qui trouvent un moyen de béné�cier du programme même si elles sont affectées au groupe de comparaison. Elles consti- tuent les non adhérents dans le groupe de comparaison. Dans l’exemple du programme de formation professionnelle, le groupe des jamais peut être constitué de personnes non motivées qui, même si on leur a offert une for- mation, ne se présenteront pas. Au contraire, le groupe des toujours peut être consti- tué de personnes tellement motivées qu’elles trouveront un moyen de béné�cier du programme même si elles ont été initialement assignées au groupe de comparaison. En�n, le groupe de ceux qui participent si on le leur offre comprend les personnes qui viendront à la formation si celle-ci leur est offerte (groupe de traitement), mais qui ne chercheront pas à participer si elles font partie du groupe de comparaison. La �gure 4.6 représente l’offre aléatoire du programme et la participation effec- tive de ces trois groupes (ceux qui participent si on le leur offre, les jamais et les tou- jours). Supposons que la population totale est composée de 80 % de personnes qui participent si on le leur offre, de 10 % de jamais et de 10 % de toujours. Si l’échantillon d’évaluation est un échantillon aléatoire de la population, cet échantillon sera lui aussi composé approximativement de 80 % de personnes qui participent si on le leur offre, de 10 % de jamais et de 10 % de toujours. Si nous répartissons ensuite les unités de l’échantillon d’évaluation entre groupe de traitement et groupe de comparaison, ces mêmes proportions se maintiennent (80 % qui participent si on le leur offre, 10 % de jamais et 10 % de toujours). Dans le groupe à qui le programme est offert, deux groupes participent au programme (ceux qui participent si on le leur propose et les toujours), alors que les jamais restent à l’écart. Dans le groupe à qui le programme n’est pas offert, seuls les toujours intègrent le programme, mais pas ceux qui ne par- ticipent que si on le leur propose ni les jamais. Estimation d’impact pour l’offre aléatoire Maintenant que nous avons établi la différence entre l’offre d’un programme et la participation effective au programme, nous allons nous intéresser à une technique qui peut être utilisée pour estimer l’impact du traitement sur les traités, autrement 66 L’évaluation d’impact en pratique Figure 4.6 Offre aléatoire d’un programme É É É É unités éligibles échantillon d’évaluation offre aléatoire participation du programme Pas d’offre X X Offre } } Ne participent Participent si Participent jamais on le leur offre toujours Validité externe Validité interne Figure 4.7 Estimation de l’impact du traitement sur les traités en cas d’offre aléatoire Groupe à qui le Groupe à qui le traitement Impact traitement a été offert n’a pas été offert P P Δ Y moyen de ceux à qui l’on a offert Y moyen de ceux à qui l’on n’a pas Δ le traitement = 110 offert le traitement = 70 Ne participent jamais Participent si on le leur offre Participent toujours Remarque : l’IDT, estimation de « l’intention de traiter », est obtenue en comparant les résultats du groupe auquel le traitement a été offert à ceux du groupe auquel le traitement n’a pas été offert (indépendamment de la participation effective). Le TT correspond à l’estimation du « traitement sur les traités » c’est-à-dire à l’estimation de l’impact sur ceux à qui le programme a été offert et qui y ont effectivement participé. Les personnages sur fond grisé sont ceux qui participent effectivement au programme. Méthodes de sélection aléatoire 67 dit l’impact d’un programme sur ceux à qui le programme a été offert et qui y ont effectivement participé. Cette estimation s’effectue en deux étapes, présentées dans la �gure 4.712. En premier lieu, nous procédons à l’estimation de l’impact de l’intention de trai- ter. Souvenez-vous qu’il s’agit de la différence entre l’indicateur de résultat Y du groupe auquel on a offert le traitement et le même indicateur pour le groupe auquel on n’a pas offert le traitement. Par exemple, si le revenu moyen (Y) est de 110 dollars pour le groupe de traitement et de 70 dollars pour le groupe de comparaison, l’esti- mation d’impact de l’intention de traiter (IDT) est alors de 40 dollars. En second lieu, nous devons déduire l’estimation du traitement sur les traités (TT) à partir de l’estimation de l’intention de traiter (IDT). Pour ce faire, nous devons déterminer d’où vient la différence de 40 dollars. Procédons par élimination. Nous savons que la différence ne peut pas être attribuée à une quelconque différence entre les jamais du groupe de traitement (à qui le programme a été offert) et du groupe de comparaison (à qui le programme n’a pas été offert). Comme les jamais ne sont par dé�nition pas concernés par le programme, il n’y a pour eux pas de différence qu’ils soient dans le groupe de traitement ou dans le groupe de comparaison. Nous savons aussi que la différence de 40 dollars ne peut pas être due à des différences entre les toujours des groupes de traitement et de comparaison, puisqu’ils participent dans les deux cas. Pour eux aussi, peu importe qu’ils fassent partie du groupe de traitement ou du groupe de comparaison. Par conséquent, la différence de résultat constatée entre les deux groupes ne peut provenir que des effets du programme sur le seul groupe dont le comportement est modi�é par son affectation au groupe de traite- ment ou au groupe de comparaison, à savoir ceux qui participent si on le leur offre. Si nous arrivons à identi�er ceux qui participent si on le leur offre, il sera facile d’estimer l’impact du programme sur ces unités. Dans les faits, bien que nous sachions que ces trois types d’individus existent dans la population, nous ne pouvons pas séparer les personnes selon leur appartenance au groupe de ceux qui participent si on le leur offre, des jamais ou des toujours. Dans le groupe qui s’est vu offrir le traitement, nous pouvons repérer les jamais (car ils ne participent pas), mais il est impossible de faire la distinction entre les toujours et ceux qui participent si on le leur offre (car tous deux participent ensemble). Inversement, dans le groupe auquel le traitement n’a pas été offert, nous pouvons isoler les tou- jours (car ils ont intégré le programme), mais on ne peut faire la distinction entre les jamais et ceux qui participent si on le leur propose. Toutefois, en sachant que 90 % des unités du groupe auquel le traitement a été offert y participent effectivement, nous pouvons déduire que 10 % des unités dans la population sont des jamais (soit la partie des personnes à qui le programme a été offert, mais qui n’y participent pas). De même, en constatant que 10 % des unités auxquelles le traitement n’a pas été offert y participent quand même, il est possible de conclure que ces 10 % représentent des toujours (soit la partie des individus du groupe à qui le programme n’a pas été offert, mais qui l’ont tout de même intégré). Il reste alors 80 % des unités dans le groupe de ceux qui participent si on le leur offre. 68 L’évaluation d’impact en pratique Nous savons que la totalité de l’impact de 40 dollars est due à la différence de parti- cipation des 80 % d’unités de notre échantillon, ceux qui participent si on le leur offre. Si 80 % des unités sont à l’origine de l’impact moyen de 40 dollars constaté pour l’ensemble du groupe à qui le traitement a été offert, l’impact sur ces 80 % de per- sonnes qui participent si on le leur offre est de 40/0,8, soit 50 dollars. Autrement dit, l’impact du programme sur ceux qui participent si on le leur offre est de 50 dollars, mais lorsque cet impact est considéré pour l’ensemble du groupe auquel le traite- ment a été offert, il se dilue de 20 % à cause des unités qui n’ont pas adhéré à l’assi- gnation aléatoire initiale. L’un des problèmes fondamentaux avec l’auto-sélection des individus dans les programmes est qu’il n’est pas toujours possible de savoir pourquoi certaines per- sonnes choisissent de participer et d’autres non. Lorsque nous procédons à une sélec- tion aléatoire des unités qui vont participer au programme, mais que la participation effective dépend de la volonté de chacun et qu’il existe un moyen pour les unités assi- gnées au groupe de comparaison de béné�cier tout de même du programme, nous sommes confrontés à un problème similaire : nous ne serons pas toujours en mesure de comprendre le processus qui conduit certaines personnes à ne jamais participer, à toujours participer ou à participer si on le leur offre comme dans l’exemple ci-dessus. Toutefois, pour autant que ceux qui n’adhèrent pas à leur affectation ne soient pas trop nombreux, l’assignation aléatoire initiale demeure un outil efficace d’estimation d’impact. L’inconvénient du manque d’adhérence totale des individus est que l’esti- mation d’impact ne pourra plus être considérée comme valide pour l’ensemble de la population. Cette estimation ne sera valable que pour un sous-groupe spéci�que de la population cible, à savoir celui des individus qui participent si on le leur offre. L’offre aléatoire présente deux caractéristiques importantes qui permettent d’es- timer l’impact, même à défaut d’une adhérence totale (voir encadré 4.2)13. 1. Elle peut servir pour prediré la participation effective au programme si la plupart des individus se comportent comme ceux qui participent si on le leur offre, c’est-à- dire qui intègrent le programme si celui-ci leur est offert, mais qui ne le font pas dans le cas contraire. 2. Les deux groupes (celui à qui le traitement est offert et celui à qui il n’est pas offert) étant constitués à partir d’un processus de sélection aléatoire, les caracté- ristiques des individus des deux groupes ne sont corrélées avec aucun autre élément, par exemple les capacités ou la motivation, qui aurait aussi pu affecter le résultat (Y). Promotion aléatoire ou modèle d’encouragement Dans la section précédente, nous avons vu comment estimer l’impact d’un pro- gramme dans le cas d’une assignation aléatoire du traitement, même si les affecta- tions initiales aux groupes de comparaison et au groupe de traitement ne sont pas totalement respectées. Nous allons maintenant examiner une approche très simi- laire qui peut être utilisée pour évaluer les programmes à éligibilité universelle, à participation volontaire, ou pour lesquels il n’est pas possible de déterminer qui participe et qui ne participe pas. Méthodes de sélection aléatoire 69 Encadré 4.2 : Offre aléatoire de bons d’éducation en Colombie En Colombie, le Programme d’extension de la Dans le contexte de cette étude, l’adhérence couverture de l’éducation secondaire (Programa à l’assignation aléatoire n’est pas totale puisque de Ampliación de Cobertura de la Educación Se- seuls 90 % environ des personnes tirées au sort cundaria [PACES]) a permis à plus de 125 000 ont utilisé les bons ou une autre forme de étudiants de béné�cier de bons leur permettant bourse scolaire, et que 24 % des personnes non de couvrir un peu plus de la moitié du coût de leur tirées au sort ont tout de même reçu une bourse scolarisation dans une école secondaire privée. scolaire. Angrist et ses collaborateurs utilisent Le budget du programme PACES étant limité, donc également l’intention de traiter (en l’occur- ces bons ont été attribués par tirage au sort. An- rence si l’étudiant a été tiré au sort ou non) en grist et al. (2002) pro�tent de cette assignation tant que variable instrumentale pour déterminer aléatoire du traitement pour déterminer l’impact le traitement sur les traités, soit la réception du programme de distribution de bons sur des effective d’une bourse scolaire. Finalement, les indicateurs de résultats sociaux et éducatifs. chercheurs effectuent également une analyse Ils aboutissent à la conclusion que les étu- coût-béné�ce pour mieux comprendre l’impact diants tirés au sort sont dix points plus suscep- du programme de bons d’éducation sur les tibles de terminer la 8ème année14 et af�chent dépenses à la fois des ménages et de l’État. Ils une moyenne aux examens standardisés de concluent que le coût social total du programme 0,2 écart-type supérieur trois ans après le tirage est limité, mais largement compensé par les au sort. Ils découvrent également que les effets retours espérés pour les participants et leur du programme éducatif sont plus marqués pour famille. Ceci suggère que des programmes qui, les �lles que pour les garçons. Les chercheurs comme le PACES, sont axés sur la demande examinent ensuite l’impact du programme sur peuvent constituer un moyen ef�cace et ren- plusieurs résultats au-delà de l’éducation et trou- table d’améliorer l’accès à l’éducation. vent que les personnes tirées au sort sont moins susceptibles d’être mariées et travaillent environ 1,2 heure de moins par semaine. Source : Angrist et al. 2002. Les gouvernements mettent souvent en œuvre des programmes pour lesquels il est difficile d’exclure des participants potentiels ou de les forcer à participer. De nombreux programmes permettent aux participants potentiels de choisir de parti- ciper ou non et ne peuvent, par conséquent, exclure les participants potentiels dési- rant y participer. Par ailleurs, certains programmes sont dotés d’un budget suffisamment important pour couvrir immédiatement l’ensemble de la population éligible. Dans ce cas, affecter certains participants de manière aléatoire à un groupe de traitement ou à un groupe de comparaison, et en exclure certains aux �ns de l’évaluation ne serait pas éthiquement acceptable. Nous avons donc besoin d’une autre méthode pour évaluer l’impact de ce genre de programme (c’est-à-dire les programmes à participation volontaire ou à éligibilité universelle). Les programmes à participation volontaire laissent généralement le choix aux personnes intéressées de s’y inscrire et d’y participer. Revenons à l’exemple du pro- gramme de formation professionnelle évoqué auparavant, mais imaginons cette 70 L’évaluation d’impact en pratique fois-ci qu’une assignation aléatoire n’est pas possible et que toute personne souhai- tant béné�cier du programme peut s’y inscrire. Comme précédemment, il est fort probable d’avoir à faire à trois types d’individus : les adhérents, des individus qui ne participent jamais et des individus qui participent toujours. Comme dans le cas pré- cédent, les «  toujours  » intégreront le programme dans tous les cas alors que les « jamais » ne s’y joindront en aucun cas. Mais qu’en est-il des adhérents ? Dans le cas présent, toute personne souhaitant participer au programme est libre de le faire. Qu’en est-il des personnes qui pourraient être très intéressées par le programme, mais qui, pour diverses raisons, n’auront, par exemple, pas suffisamment d’informa- tion ou de motivation pour y participer ? Dans ces conditions, les adhérents seront de ceux qui participent en cas de promotion : il s’agit d’un groupe d’individus qui partici- pent au programme s’il existe des incitations supplémentaires (c.-à-d. une forme de promotion) les amenant à participer. À défaut de ces incitations supplémentaires, ceux qui participent en cas de promotion n’intégreront pas le programme. Revenons à l’exemple de la formation professionnelle. Si l’agence qui organise la formation dispose des fonds et des capacités nécessaires pour dispenser la formation à toute personne intéressée, le programme pourra alors être ouvert à toute personne au chômage qui désire y participer. Il est cependant peu probable que toutes les per- sonnes au chômage souhaitent se former ou même qu’elles soient toutes au courant de l’existence du programme. Certains chômeurs peuvent être réticents à participer au programme parce qu’ils ne disposent pas de suffisamment d’informations sur le contenu de la formation et qu’ils ne parviennent pas à trouver d’informations sup- plémentaires. Supposons maintenant que l’agence qui dispense cette formation engage une assistante communautaire pour faire une promotion de ce programme de formation professionnelle. Munie d’une liste des chômeurs, elle se rend au domi- cile des personnes concernées, leur décrit le programme de formation et leur pro- pose de s’y inscrire de suite. Bien évidemment, elle ne peut forcer personne à y participer. Par ailleurs, certains chômeurs qui n’auront pas reçu la visite de l’assis- tante pourront aussi s’inscrire à la formation, mais ils devront s’adresser directement à l’institut de formation. Nous sommes désormais face à deux groupes de chômeurs : ceux qui ont reçu la visite de l’assistante et ceux qui ne l’ont pas reçue. Si l’effort de promotion du programme auprès de la population a porté ses fruits, le taux de parti- cipation des chômeurs ayant reçu la visite de l’assistante devrait être supérieur à celui des chômeurs n’ayant pas été contactés par l’assistante. Comment pourrions-nous évaluer l’impact du programme de formation ? Comme nous le savons, il ne suffit pas de comparer les chômeurs ayant suivi la formation à ceux qui ne l’ont pas suivie, car les chômeurs ayant décidé de s’inscrire présentent probablement des caractéristiques, tant observables que non observables, très diffé- rentes des caractéristiques de ceux qui ne participent pas au programme: ils peuvent avoir un niveau d’éducation plus élevé (caractéristique facilement observable) et ils peuvent être plus motivés par l’idée de trouver un emploi (caractéristique difficile à observer et à mesurer). Nous disposons néanmoins d’une variable supplémentaire à exploiter pour trou- ver un groupe de comparaison valide. Examinons tout d’abord s’il est possible de comparer le groupe ayant reçu la visite de l’assistante avec celui qui ne l’a pas reçue. Méthodes de sélection aléatoire 71 Les deux groupes comprennent des personnes très motivées (les « toujours ») qui intégreront la formation qu’ils aient ou non reçu la visite de l’assistante. De même, dans les deux groupes, nous retrouverons des personnes non motivées (les « jamais ») qui ne participeront pas au programme, quels que soient les efforts de l’assistante. En�n, certaines personnes (ceux qui participent en cas de promotion) rejoindront la formation si l’assistante leur rend visite, mais pas dans le cas contraire. Si l’assistante a sélectionné les personnes auxquelles elle rend visite aléatoire- ment à partir de sa liste de chômeurs, nous pourrons avoir recours à la méthode du traitement sur les traités évoquée ci-dessus. La seule différence est qu’il s’agit ici non plus d’une offre aléatoire, mais d’une promotion aléatoire du programme. À partir du moment où il existe des personnes qui ne participent qu’en cas de promotion (c’est-à-dire dont la participation n’est assurée que si on va les « chercher »), il y aura une variation entre le groupe avec promotion et le groupe sans promotion qui nous permettra d’estimer l’impact de la formation sur ceux qui y participent en cas de pro- motion. Au lieu d’adhérer à l’offre de traitement, ceux qui participent en cas de promo- tion adhèrent à la promotion du programme. D’un côté, la stratégie de promotion doit être efficace et entraîner une nette aug- mentation des inscriptions de ceux qui participent en cas de promotion. D’un autre côté, nous ne souhaitons pas que les activités de promotion soient efficaces au point d’influencer le résultat. Par exemple, si les assistantes chargées de la promotion pro- posent des sommes d’argent importantes aux chômeurs pour les inciter à s’inscrire, il sera difficile d’établir plus tard si les variations de revenus constatées sont dues à la formation, à la promotion du programme ou aux incitations proposées. La promotion aléatoire est une stratégie qui permet de générer l’équivalent d’un groupe de comparaison aux �ns de l’évaluation. Elle peut être utilisée lorsqu’il est possible d’organiser une campagne de promotion visant un échantillon aléatoire de la population cible. Les lecteurs ayant quelques connaissances en économétrie reconnaîtront la terminologie introduite dans la section précédente : la promotion aléatoire est une variable instrumentale permettant de créer une variation entre les unités et d’exploiter cette variation pour créer un groupe de comparaison valide. Vous avez dit « promotion » ? La promotion aléatoire vise à accroître la participation des individus d’un sous- échantillon de population à un programme volontaire. Elle peut prendre plusieurs formes. Il peut par exemple s’agir d’une campagne d’information à l’attention des personnes qui ne se sont pas inscrites, car elles ne connaissaient pas ou ne compre- naient pas bien le contenu du programme. La promotion peut aussi comprendre des incitations comme l’offre de petits cadeaux ou prix, ou encore la mise à disposition de moyens de transport. 72 L’évaluation d’impact en pratique Plusieurs conditions doivent être remplies pour que la méthode de promotion Concept clé : aléatoire permette une évaluation d’impact valide. La promotion aléatoire est une méthode 1. Les groupes recevant la promotion et ceux ne la recevant pas doivent être compa- similaire à l’offre rables. Ils doivent présenter des caractéristiques similaires. Ceci est assuré grâce aléatoire. Toutefois, au à une assignation aléatoire des activités de promotion aux unités de l’échantillon lieu de sélectionner de d’évaluation. manière aléatoire les 2. La campagne de promotion doit augmenter la participation au programme des in- unités auxquelles le dividus qui la reçoivent en comparaison aux individus qui ne la reçoivent pas. Pour traitement sera offert, s’assurer que c’est effectivement le cas, il suffit de véri�er que le taux de participa- nous sélectionnions ici, tion est plus élevé dans le groupe ayant béné�cié de la promotion que dans l’autre. toujours aléatoirement, les unités qui recevront 3. Il est important que les activités de promotion n’aient pas un impact direct sur les une promotion résultats ; il faut en effet pouvoir attribuer lesdits résultats au programme et non du programme. aux activités de promotion. Le programme reste alors ouvert à toutes les unités. Le processus de promotion aléatoire Le processus de promotion aléatoire est présenté à la �gure 4.8. Comme pour les méthodes précédentes, nous partons de la population des unités éligibles au pro- gramme. Contrairement à la méthode de l’assignation aléatoire, nous ne pouvons plus sélectionner de manière aléatoire qui participera au traitement et qui n’y parti- cipera pas, la participation au programme étant dorénavant entièrement volontaire. Nous savons toutefois qu’il y aura trois types d’unités au sein de la population des unités éligibles : • Les toujours — les personnes qui participeront au programme dans tous les cas. • Ceux qui participent en cas de promotion — les personnes qui ne s’inscriront au programme que si elles reçoivent la promotion du programme. • Les jamais — les personnes qui n’intégreront pas le programme, promotion ou pas. Soulignons à nouveau que l’appartenance des unités à l’un de ces trois groupes est une caractéristique intrinsèque que l’évaluateur ne peut observer, car elle est liée à des facteurs comme la motivation ou l’intelligence de chacun. Une fois la population éligible déterminée, l’étape suivante consiste à sélection- ner de manière aléatoire un échantillon d’évaluation à partir de la population. Les unités de l’échantillon sont celles pour lesquelles des données seront collectées. Dans certains cas, toute la population pourra être incluse dans l’échantillon d’évalua- tion, par exemple si nous disposons de données sur l’ensemble de la population des unités éligibles. Méthodes de sélection aléatoire 73 Figure 4.8 Promotion aléatoire É É É É unités éligibles échantillon d’évaluation promotion aléatoire inscription du programme Pas de promotion X X Promotion } } Ne participent Participent en Participent jamais cas de promotion toujours Validité externe Validité interne Une fois l’échantillon d’évaluation déterminé, la promotion aléatoire consiste à répartir de façon aléatoire les unités de cet échantillon entre le groupe qui recevra la promotion et le groupe qui ne la recevra pas. Comme la sélection est effectuée de manière aléatoire, les membres des deux groupes présenteront les mêmes caracté- ristiques que ceux de l’échantillon d’évaluation, et ces caractéristiques seront égale- ment équivalentes à celles de l’ensemble de la population des unités éligibles. Le groupe béné�ciant de la promotion et le groupe n’en béné�ciant pas auront donc des caractéristiques similaires. Après la campagne de promotion, nous pouvons examiner les taux de participa- tion de chaque groupe. Au sein du groupe qui n’a pas reçu de promotion, seuls les toujours intégreront le programme. Nous saurons alors qui sont les toujours dans le groupe qui n’a pas reçu de promotion, mais dans ce même groupe nous ne pourrons pas distinguer les jamais de ceux qui participent en cas de promotion. À l’inverse, dans le groupe qui a reçu la promotion, ceux qui participent en cas de promotion et les tou- jours intégreront le programme, tandis que les jamais resteront à l’écart. Dans ce groupe, nous pourrons donc identi�er les jamais, mais il sera impossible de faire la distinction entre ceux qui participent en cas de promotion et les toujours. Estimation d’impact pour la promotion aléatoire L’estimation de l’impact d’un programme faisant l’objet d’une promotion aléatoire est un cas particulier de la méthode de traitement des traités (�gure 4.9). Imaginons que le taux de participation soit de 30 % dans le groupe n’ayant pas reçu la campagne de promotion (trois toujours), mais qu’il atteigne 80 % dans le groupe ciblé par la campagne de promotion (trois toujours et cinq individus qui participent en cas de promotion). Supposons que le résultat moyen soit de 70 pour les personnes du groupe non soumis à une promotion (dix individus) et de 110 pour ceux du groupe touché par la promotion (dix individus). Dans ce cas, quel sera l’impact du programme ? 74 L’évaluation d’impact en pratique Figure 4.9 Estimation d’impact en cas de promotion aléatoire Groupe recevant Groupe ne recevant Impact la promotion pas la promotion P P Y moyen du groupe recevant Y moyen du groupe ne recevant pas Y = 40 la promotion du programme = 110 la promotion du programme = 70 Ne participent jamais Participent en cas de promotion Participent toujours Remarque : les personnages sur fond grisé sont ceux qui participent au programme. Premièrement, nous connaissons la différence entre le groupe qui a reçu la pro- motion du programme et celui qui ne l’a pas reçu : elle est de 40. Nous savons aussi que cette différence ne peut pas être due aux jamais, car, dans tous les cas, ils ne participeront pas au programme. Cette différence ne peut pas non plus être attribuée aux toujours parce qu’ils participent au programme quel que soit le groupe auquel ils appartiennent initialement. La deuxième étape consiste à déterminer l’impact du programme sur ceux qui participent en cas de promotion. Nous savons que tout l’effet moyen (de 40) peut être attribué à ceux qui participent en cas de promotion, un groupe qui représente la moi- tié de la population. Pour évaluer l’impact moyen du programme sur une personne adhérant aux règles d’affectation, nous divisons alors 40 par le pourcentage de ceux qui participent en cas de promotion dans la population. Nous ne pouvons certes pas identi�er directement ce dernier groupe, mais nous pouvons évaluer sa part dans la population : elle correspond à la différence entre les taux de participation du groupe auprès duquel la promotion a été réalisée et du groupe pour lequel ça n’a pas été le cas (50 % ou 0,5). L’impact moyen sur une personne adhérant aux règles d’affecta- tion s’établit donc à 40/0,5 = 80. La promotion étant effectuée de manière aléatoire auprès des individus, le groupe qui a béné�cié de cette promotion et le groupe qui n’en a pas béné�cié présenteront des caractéristiques moyennes identiques. Dès lors, les différences entre les résultats moyens des deux groupes peuvent être attribuées au fait que dans le groupe recevant la promotion, ceux qui participent en cas de promotion ont effectivement participé au programme alors qu’ils ne l’ont pas fait dans le groupe n’ayant pas reçu la campagne de promotion15. Méthodes de sélection aléatoire 75 Impact du Programme de subvention de l’assurance maladie (PSAM) selon la méthode de la promotion aléatoire Nous allons maintenant appliquer la méthode de la promotion aléatoire pour éva- luer l’impact du PSAM. Supposons que le ministère de la Santé décide que les sub- ventions soient distribuées immédiatement à tout ménage souhaitant participer au PSAM. Vous savez toutefois que la couverture nationale ne peut être atteinte que graduellement. Vous vous mettez d’accord avec le ministère de la Santé pour accélé- rer la participation par le biais d’une campagne de promotion dans un groupe de villages choisis aléatoirement. Vous mettez en place une grande campagne de pro- motion (communication et marketing social) ciblant ce groupe de villages et visant à sensibiliser les habitants au PSAM. Après deux années d’efforts promotionnels et de mise en œuvre du programme, il apparaît que 49,2 % des ménages des villages ayant béné�cié de la campagne de promotion ont rejoint le programme, contre 8,4 % seu- lement dans les villages qui n’ont pas été touchés par la campagne (tableau 4.4). La sélection des villages auprès desquels a eu lieu la campagne de promotion ayant été réalisée de manière aléatoire, les caractéristiques moyennes des deux groupes auraient été les mêmes en l’absence du programme. Cette hypothèse peut être véri�ée en comparant les dépenses de santé (ainsi que d’autres caractéristiques) des deux groupes au moment l’enquête de base. Deux années après la mise en œuvre du programme, les dépenses de santé moyennes dans les villages ayant été soumis à la campagne de promotion sont de 14,9 dollars contre 18,8 dollars dans les zones non couvertes par cette campagne (soit – 3,9 dollars de différence). Toutefois, comme la seule différence entre les villages touchés par la campagne de promotion et les autres est un taux de participation plus élevé dans les premiers (grâce aux efforts de promotion), la différence de 3,9  dollars dans les dépenses de santé peut être attribuée aux 40,4 % de ménages des villages recevant la promotion qui se sont inscrits grâce à elle. Nous devons donc ajuster la différence dans les dépenses de santé pour évaluer l’impact du programme sur ceux qui partici- Tableau 4.4 Cas 4— Impact du PSAM selon la méthode de promotion aléatoire (comparaison de moyennes) Villages Villages ayant reçu n’ayant pas la cam- reçu la pagne de campagne de promotion promotion Différence Stat. de t Dépenses de santé des ménages observées lors de l’enquête de base 17,1 17,2 −0,1 −0,47 Dépenses de santé des ménages observées lors de l’enquête de suivi 14,9 18,8 −3,9 −18,3 Participation au PSAM 49,2% 8,4% 40,4% ** Seuil de signi�cation de 1 %. 76 L’évaluation d’impact en pratique Tableau 4.5 Cas 4— Impact du PSAM selon la méthode de promotion aléatoire (analyse de régression) Régression linéaire Régression linéaire multivariée Impact estimé sur les dépenses de santé −9,4** −9,7** des ménages (0,51) (0,45) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. pent en cas de promotion. Pour ce faire, nous divisons la différence observée entre les groupes par le pourcentage de ceux qui participent en cas de promotion  : − 3,9/0,404 = − 9,65 $. Votre collègue, qui a suivi des cours d’économétrie, calcule ensuite l’impact du programme par la méthode des moindres carrés en deux étapes et aboutit aux résultats présentés dans le tableau 4.5. L’impact ainsi estimé est valable pour les ménages ayant participé au programme parce qu’ils y ont été incités, mais qui n’y aurait pas participé sans promotion, autrement dit pour ceux qui participent en cas de promotion. Extrapoler ce résultat à l’ensemble de la population suppose que tous les autres ménages se seraient comportés de la même manière s’ils avaient intégré le programme. QUESTION 4 A. Quelles sont les hypothèses de base qui sous-tendent le résultat du cas 4 ? B. Au vu de ces résultats pour le cas 4, le PSAM doit-il être élargi à l’échelle nationale ? La promotion aléatoire en pratique La méthode de la promotion aléatoire a été utilisée dans plusieurs contextes. Gertler, Martinez et Vivo (2008) y ont eu recours pour évaluer un programme d’assurance de santé maternelle et infantile en Argentine. Après la crise économique de 2001, l’État argentin a constaté que les indicateurs de santé de la population se dégradaient avec, notamment une augmentation de la mortalité infantile. Il a décidé d’introduire un système d’assurance national pour les mères et les enfants qui devaient s’étendre à l’ensemble du pays en un an. Avant cela, les autorités ont souhaité évaluer l’impact du programme pour s’assurer qu’il entraînait bien une amélioration de la santé de la population. Comment trouver un groupe de comparaison si chaque mère et chaque enfant du pays sont éligibles pour participer au système d’assurance s’ils le souhai- taient ? Les données provenant des premières provinces ayant mis en œuvre l’inter- vention ont montré que seulement 40 % à 50 % des ménages s’étaient effectivement inscrits au programme. Les autorités ont alors lancé une vaste campagne de promo- tion visant à informer les populations sur le programme. Cette campagne n’a toute- fois touché que certains villages, sélectionnés sur une base aléatoire, et non l’ensemble du pays. Méthodes de sélection aléatoire 77 Il existe d’autres exemples comme l’aide apportée par des organisations non gou- vernementales dans le cadre de l’évaluation de la gestion scolaire communautaire au Népal ou le Fonds d’investissement social en Bolivie (décrit dans l’encadré 4.3). Limites de la méthode de la promotion aléatoire La promotion aléatoire est une stratégie utile pour évaluer l’impact des programmes à participation volontaire et à éligibilité universelle, notamment parce qu’elle n’exige d’exclure aucune des unités éligibles. Cette approche présente néanmoins quelques limites en comparaison à l’assignation aléatoire du traitement. Premièrement, la stratégie de promotion doit porter ses fruits. Si la campagne de promotion n’entraîne pas d’augmentation de la participation, aucune différence ne ressortira entre le groupe recevant la promotion et celui ne la recevant pas ; aucune comparaison ne sera alors possible. Un suivi rapproché de la campagne promotion- nelle est donc primordial pour en assurer l’efficacité. Le point positif est que la conception de la campagne de promotion peut permettre aux responsables du pro- gramme de réfléchir à la manière dont ils peuvent encourager la participation. Encadré 4.3 : Promotion des investissements dans les infrastructures d’éducation en Bolivie En 1991, la Bolivie met en place un Fonds d’in- communautés ne participent pas au programme, vestissement social (FIS) visant à fournir des �- mais les demandes sont supérieures chez les nancements aux communautés rurales pour communautés ayant fait l’objet de la campagne qu’elles réalisent des investissements de petite de promotion. envergure dans des infrastructures d’éducation, Newman et al. (2002) utilisent la promotion de santé et d’eau. En parallèle, la Banque mon- aléatoire comme variable instrumentale. Ils diale, qui contribue au �nancement du FIS, met concluent que les investissements dans l’éduca- en place une évaluation d’impact prospective tion ont permis d’améliorer les indicateurs de dès la conception du programme. qualité des infrastructures scolaires tels que Dans le cadre de l’évaluation d’impact du l’électricité, les installations sanitaires, le volet portant sur l’éducation, une sélection aléa- nombre de manuels scolaires par élève et le toire est effectuée au sein des communautés de nombre d’enseignants par élève. L ’impact sur la région du Chaco pour déterminer celles qui les résultats liés à l’éducation se révèle en béné�cient d’une promotion du FIS, à travers revanche limité, à l’exception d’une baisse de des visites et des encouragements supplémen- 2,5 % du taux d’abandon scolaire. Forts de ces taires pour les inciter à y adhérer. Le programme conclusions, le ministère de l’Éducation et le FIS est ouvert à toutes les communautés éligibles réorientent les efforts et les ressources sur les de la région, sous réserve qu’elles fassent la aspects purement « éducatifs », ne �nançant les démarche de présenter une demande pour la améliorations d’infrastructures matérielles que mise en œuvre d’un projet précis. Toutes les dans le cadre d’interventions intégrées. Source : Newman et al. 2002. 78 L’évaluation d’impact en pratique Deuxièmement, la méthode ne permet d’estimer l’impact d’un programme que pour un sous-groupe de la population des unités éligibles. Plus précisément, l’impact moyen du programme est calculé pour le groupe de personnes qui ont participé au programme uniquement parce qu’elles y ont été encouragées. Le problème est que les personnes composant ce groupe peuvent présenter des caractéristiques diffé- rentes de celles des individus qui participent toujours ou ne participent jamais. Aussi, l’impact moyen du traitement pour l’ensemble de la population peut être dif- férent de l’impact moyen estimé pour les personnes qui ont participé parce qu’elles y ont été incitées. Notes 1. L’assignation aléatoire du traitement est parfois appelée « essai contrôle randomisé », « évaluation aléatoire », « évaluation expérimentale » ou encore « expérimentation sociale ». 2. L’assignation aléatoire ne signi�e pas qu’il y a forcément une chance sur deux d’être tiré au sort. En fait, la plupart des évaluations par assignation aléatoire donnent à chaque unité éligible une probabilité d’être sélectionnée déterminée de manière à ce que le nombre de gagnants (qui recevront le traitement) soit égal au nombre total de places offertes. Par exemple, si le programme dispose de suffisamment de fonds pour servir 1 000 communautés sur une population totale de 10 000, chaque communauté aura une chance sur dix d’être sélection- née pour recevoir le traitement. La puissance statistique (concept évoqué en détail au chapitre 11) est optimisée lorsque l’échantillon d’évaluation est divisé à parts égales entre le groupe de traitement et le groupe de comparaison. Par exemple, pour un échantillon total comprenant 2 000 communautés, la puissance statistique sera optimisée en constituant un groupe de traitement de 1 000 communautés et un groupe de comparaison également de 1 000 commu- nautés plutôt qu’en se fondant sur un simple échantillon aléatoire correspon- dant à 20 % des 10 000 communautés éligibles de départ (ceci donnerait un échantillon d’évaluation d’environ 200 communautés de traitement et 1 800 communautés de comparaison). 3. Par exemple, les programmes de logements subventionnés ont souvent recours aux tirages au sort pour sélectionner les béné�ciaires. 4. Cette propriété découle de la loi des grands nombres. 5. Un échantillon d’évaluation peut être strati�é par type d’individus et subdivisé en grappes d’unités. La taille de l’échantillon est fonction du type d’échantillon- nage aléatoire utilisé (voir partie 3). 6. La plupart des logiciels permettent d’établir un « nombre source » (« seed number » en anglais) a�n que les résultats de l’assignation aléatoire soient transparents et puissent être répétés. 7. Nous examinerons des concepts comme les effets de diffusion et de contamina- tion de manière plus détaillée au chapitre 8. 8. Pour des raisons statistiques, il n’est pas nécessaire que toutes les caractéris- tiques observées soient similaires dans le groupe de traitement et dans le groupe de comparaison pour que la sélection aléatoire soit efficace. La règle d’or en Méthodes de sélection aléatoire 79 matière d’efficacité est que 95 % environ des caractéristiques observées soient similaires. Par « similaire », on entend que l’on ne peut rejeter l’hypothèse nulle selon laquelle les moyennes sont différentes entre les deux groupes compte tenu d’un intervalle de con�ance de 95 %. Même lorsque les caractéristiques des deux groupes sont complètement égales, on peut s’attendre à ce que 5 % environ des caractéristiques présentent une différence statistiquement signi�cative. 11. À noter que dans le domaine médical, les patients du groupe de comparaison reçoivent généralement un placebo, par exemple un comprimé en sucre sans effet sur les résultats. Ceci vise à tenir compte de « l’effet placebo », à savoir les changements éventuels de comportement et de résultats liés à la prise d’un traitement même si le traitement en soi n’a pas d’effet. 12. Ces deux étapes correspondent à la technique économétrique des moindres carrés en deux étapes qui permet d’obtenir l’estimation moyenne locale de l’effet du traitement (« local average treatment effect », ou LATE en anglais). 13. Les lecteurs ayant des connaissances en économétrie auront reconnu le concept : en statistiques, l’offre aléatoire du programme est utilisée comme variable instrumentale pour la participation effective. Les deux caractéristiques citées correspondent exactement à ce qui serait exigé d’une bonne variable instrumentale : • La variable instrumentale doit être corrélée à la participation au programme. • La variable instrumentale peut ne pas être corrélée au résultat (Y) (sauf par le biais de la participation au programme) ou aux variables non observables. 14. Classe de 4ème dans le système scolaire français. 15. Les lecteurs ayant des connaissances en économétrie comprendront que l’impact est estimé en utilisant « l’assignation aléatoire au groupe recevant ou ne recevant pas la promotion » comme variable instrumentale pour la partici- pation effective au programme. Références Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King et Michael Kremer. 2002. « Vouchers for Private Schooling in Colombia: Evidence from a Rando- mized Natural Experiment. » American Economic Review 92 (5): 1535–58. Gertler, Paul, Sebastian Martinez et Sigrid Vivo. 2008. « Child-Mother Provincial Investment Project Plan Nacer. » University of California Berkeley et Banque mondiale, Washington, DC. Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et Jose Luis Evia. 2002. « An Impact Evaluation of Education, Health, and Water Supply Investments by the Bolivian Social Investment Fund. » Étude économique de la Banque mondiale 16 (2) : 241–74. Schultz, Paul. 2004. « School Subsidies for the Poor: Evaluating the Mexican Progresa Poverty Program. » Journal of Development Economics 74 (1) : 199–250. 80 L’évaluation d’impact en pratique CHAPITRE 5 Modèle de discontinuité de la régression Les programmes sociaux utilisent souvent un indice pour déterminer quels sont les individus ou ménages éligibles. Par exemple, les programmes de lutte contre la pau- vreté ciblent généralement les ménages pauvres en les identi�ant avec un indice ou un score de pauvreté. Un score de pauvreté peut se baser sur une formule de type « proxy mean » qui mesure un ensemble d’actifs du ménage. Les ménages avec de bas scores sont classés parmi les ménages pauvres et ceux dont les scores sont plus éle- vés sont considérés comme des ménages relativement aisés. Les responsables de programme �xent en général un seuil ou un score limite au-dessous duquel les ménages sont considérés comme pauvres et éligibles pour un programme. Le pro- gramme mexicain Progresa (Buddelmeyer et Skou�as 2004) ou le système colom- bien de sélection des béné�ciaires des programmes sociaux baptisé SISBEN (Barrera-Osorio, Linden et Usquiola, 2007) utilisent de telles méthodes. Les programmes de retraite ciblent eux aussi les individus en fonction d’un indice d’éligibilité, bien qu’il soit d’un autre type. L’âge constitue un indice continu et l’âge de départ à la retraite est le seuil qui détermine l’éligibilité. Autrement dit, seules les personnes ayant dépassé un certain âge ont le droit de recevoir une retraite. Les résultats aux examens sont un autre exemple d’indice d’éligibilité continu. De nombreux pays octroient des bourses d’études ou des prix aux meilleurs élèves à un examen standardisé dont les résultats sont classés par ordre croissant. Si le nombre de bourses est limité, seuls les étudiants avec une note au- delà d’un certain seuil (par exemple la première tranche de 15 %) seront éligibles. 81 Concept clé : Le modèle de discontinuité de la régression est une méthode d’évaluation d’im- Le modèle de pact qui convient aux programmes pour lesquels un indice d’éligibilité continu est discontinuité de la établi et un seuil est clairement dé�ni pour distinguer les béné�ciaires des régression convient non béné�ciaires. Deux conditions doivent être réunies pour pouvoir appliquer le aux programmes qui modèle de discontinuité de la régression : utilisent un indice continu pour classi�er 1. Un indice d’éligibilité continu doit exister, à savoir un indicateur continu permet- les participants tant de classer la population à l’étude, comme un indice de pauvreté, les résultats potentiels et un seuil à un examen ou l’âge. pour distinguer les 2. Un seuil d’éligibilité doit être clairement dé�ni, déterminant un niveau de l’indice béné�ciaires des au-dessus ou au-dessous duquel la population est considérée comme éligible au non-béné�ciaires. programme. Par exemple, les ménages dont l’indice de pauvreté est inférieur à 50 sur 100 peuvent être considérés comme pauvres, les personnes de 67 ans et plus peuvent être considérées comme des retraités et les étudiants obtenant un résultat de 90 sur 100 ou plus peuvent être éligibles à une bourse. Dans ces exemples, les seuils sont �xés à 50, 67 et 90 respectivement. Cas 1 : subvention des engrais pour la riziculture Prenons l’exemple d’un programme agricole qui subventionne les achats d’engrais par les riziculteurs dans le but d’améliorer les rendements. Le programme cible les petites et moyennes exploitations, dé�nies au titre du programme comme des exploitations d’une super�cie totale de moins de 50 acres1. Avant la mise en œuvre du programme, la relation entre la taille de l’exploitation et la production totale de riz est illustrée dans le graphique 5.1, les petites exploitations ayant une production totale inférieure à celle des grandes exploitations. Le seuil d’éligibilité dans ce cas est le nombre d’acres exploités, qui est �xé à 50. Conformément aux règles d’éligibilité au programme, les exploitations de moins de 50 acres sont en droit de recevoir une subvention pour l’achat d’engrais, et les exploitations de plus de 50 acres ne peuvent pas en béné�cier. Dans ce cas, il est probable que plusieurs exploitations de 48, 49 ou même 49,9 acres participent au programme. Un autre groupe d’exploitations de 50, 50,1 ou 50,2 acres sera de facto exclu du programme parce qu’elles dépassent le seuil d’éligibilité. Les exploitations de 49,9 acres ressemblent vraisemblablement en de nombreux points à celles de 50,1 acres, mais les premières reçoivent une subvention pour l’achat d’engrais au contraire des secondes. Plus nous nous éloignons du seuil d’éligibilité et plus les différences s’accentuent entre les entités éligibles et les unités non éligibles. Nous disposons toutefois d’une mesure de ces différences, les critères d’éligibilité, que nous pouvons prendre en compte. Une fois que le programme est mis en œuvre et que les subventions sont distri- buées aux petites et moyennes exploitations, les évaluateurs du programme peu- vent utiliser la méthode de discontinuité de la régression pour mesurer son impact. Cette méthode mesure la différence de résultats enregistrés après l’intervention, 82 L’évaluation d’impact en pratique Figure 5.1 Rendement rizicole + indique le rendement des exploitations > 50 acres 20 (soit 20 hectares) indique le rendement des exploitations < 50 acres (soit 20 hectares) Rendement (en boisseaux par acre) 19 18 17 16 15 20 30 40 50 60 70 80 Acres (1 acre = 0,40 ha) comme le rendement total, pour les entités qui se situent près du seuil d’éligibilité, soit 50 acres dans notre exemple. Les exploitations légèrement trop importantes pour participer au programme constituent le groupe de comparaison et génèrent une estimation du résultat contrefactuel pour les exploitations du groupe de trai- tement qui sont juste au-dessous du seuil d’éligibilité. Étant donné que ces deux groupes d’exploitations étaient très similaires avant le programme et qu’ils sont exposés aux mêmes facteurs (tels que le climat, les fluctuations des cours, les poli- tiques agricoles locales et nationales, etc.), le programme constitue la seule raison pouvant expliquer les différences de résultats après l’intervention. La méthode de discontinuité de la régression permet d’estimer correctement l’impact d’un programme sans exclure d’unités éligibles. Il convient toutefois de noter que l’impact estimé ne s’applique qu’aux unités se situant autour du seuil d’éligibilité. Dans notre exemple, nous obtenons une estimation valide de l’impact du programme de subvention de l’achat d’engrais pour des exploitations dont la super�cie est légèrement inférieure à 50 acres. L’évaluation d’impact ne permettra pas nécessairement de déterminer directement l’impact du programme sur les petites exploitations (de un ou deux acres par exemple) pour lesquelles l’impact du subventionnement des engrais pourrait être nettement différent des effets observés pour les exploitations de 48 ou 49 acres. Il n’existe pas de groupe de com- paraison pour les petites exploitations étant donné qu’elles sont toutes éligibles au programme. La seule comparaison valable concerne les exploitations proches du seuil d’éligibilité de 50 acres. Modèle de discontinuité de la régression 83 Cas 2 : transferts monétaires Supposons que nous tentions d’évaluer l’impact d’un programme de transferts moné- taires sur les dépenses alimentaires journalières de ménages pauvres. Supposons éga- lement que nous puissions utiliser un indice de pauvreté2 qui synthétise les données sur les actifs des ménages pour obtenir un score entre zéro et 100 permettant de clas- ser les ménages des plus pauvres aux plus riches. Au départ, il est probable que, en moyenne, les ménages les plus pauvres dépensent moins en alimentation que les ménages les plus riches. La �gure 5.2 représente une relation potentielle entre l’in- dice de pauvreté et les dépenses alimentaires journalières des ménages (le résultat). Supposons maintenant que le programme cible uniquement les ménages pauvres dé�nis comme ceux qui ont un indice de pauvreté inférieur à 50. Autrement dit, l’indice de pauvreté détermine l’éligibilité  : le programme sera offert uniquement aux ménages qui affichent un score de 50 ou moins. Les ménages dont le score est supérieur à 50 ne sont pas éligibles. Dans cet exemple, l’indice de pauvreté constitue un indice continu avec un seuil d’éligibilité �xé à 50. La relation entre l’indice d’éli- gibilité et la variable de résultat (les dépenses alimentaires quotidiennes) est illus- Figure 5.2 Dépenses des ménages et niveau de pauvreté (avant l’intervention) 80 Dépenses alimentaires journalières 75 des ménages (en pesos) 70 65 60 20 30 40 50 60 70 80 Indice de pauvreté au moment de l’enquête de référence 84 L’évaluation d’impact en pratique Figure 5.3 Seuil d’éligibilité au programme de transferts monétaires 80 Dépenses alimentaires journalières 75 des ménages (en pesos) 70 65 Non éligibles Éligibles 60 20 30 40 50 60 70 80 Indice de pauvreté au moment de l’enquête de référence trée à la �gure  5.3. Les ménages se situant juste au-dessous du score limite sont éligibles au programme tandis que ceux qui se situent juste au-dessus ne le sont pas, même si ces deux types de ménages sont très similaires. Le modèle de discontinuité de la régression utilise la discontinuité observée autour du seuil d’éligibilité pour estimer le contrefactuel. Intuitivement, nous pou- vons considérer que les ménages dont le score est juste au-dessous du seuil d’éligibi- lité (50 et un peu moins) sont très similaires à ceux dont le score est juste au-dessus du seuil d’éligibilité (51, par exemple). Les responsables du programme ont choisi un point particulier sur l’indice continu de pauvreté (50) pour créer une coupure, ou une discontinuité, dans l’éligibilité au programme. Étant donné que les ménages qui se situent juste au-dessus du seuil des 50 sont très similaires à ceux qui sont juste en dessous, à la différence près qu’ils ne béné�cient pas des transferts monétaires, ils peuvent être utilisés comme groupe de comparaison pour les ménages qui se situent juste au-dessous du seuil d’éligibilité. Autrement dit, les ménages non éligibles au programme, mais proches du seuil d’éligibilité seront utilisés comme groupe de comparaison pour estimer le contrefactuel (à savoir les changements enregistrés dans le groupe de ménages éligibles en l’absence du programme). Modèle de discontinuité de la régression 85 Figure 5.4 Dépenses des ménages et niveau de pauvreté (après l’intervention) 80 Dépenses alimentaires journalières des ménages (en pesos) A 75 70 B A = IMPACT B 65 20 30 40 50 60 70 80 Indice de pauvreté au moment de l’enquête de référence La �gure 5.4 présente une situation après l’intervention qui illustre intuitivement la stratégie d’identi�cation par discontinuité de la régression. Les résultats moyens des ménages (éligibles) dont le niveau de pauvreté au moment de l’enquête de réfé- rence est inférieur au seuil d’éligibilité sont désormais plus élevés que les résultats moyens des ménages (non éligibles) dont le niveau de pauvreté de référence était légèrement supérieur au seuil d’éligibilité. Étant donné la relation continue entre les niveaux de pauvreté et les dépenses alimentaires journalières observée avant le lan- cement du programme, l’existence du programme de transferts monétaires est la seule explication possible de la discontinuité constatée après l’intervention. En d’autres termes, puisque les ménages se situant dans les environs immédiats du seuil d’éligibilité (à droite et à gauche) béné�cient de caractéristiques de départ simi- laires, l’écart entre les dépenses alimentaires moyennes des deux groupes après l’intervention correspond à l’impact du programme. Utilisation du modèle de discontinuité de la régression pour évaluer le Programme de subvention de l’assurance maladie (PSAM) Appliquons maintenant le modèle de discontinuité de la régression au programme de subvention de l’assurance maladie (PSAM). Après des analyses supplémen- taires sur le fonctionnement du PSAM, vous concluez que, dans la pratique, les autorités ont ciblé le programme sur les ménages au revenu inférieur au seuil national de pauvreté. Le seuil de pauvreté est fondé sur un indice qui attribue à chaque ménage du pays un score compris entre 20 et 100 en fonction de leurs 86 L’évaluation d’impact en pratique Figure 5.5 Indice de pauvreté et dépenses de santé avant le lancement du Programme de subvention de l’assurance maladie 30.2933 Seuil de pauvreté Dépenses de santé prédites des ménages (en USD) 7.07444 23.0294 58 100 Indice de pauvreté au moment de l’enquête de référence (1-100) actifs, leurs conditions de logement et leur structure sociodémographique. Le seuil de pauvreté a été officiellement �xé à 58, ce qui veut dire que tous les ménages ayant un score inférieur à 58 sont considérés comme pauvres et que tous les ménages ayant un score supérieur à 58 sont considérés comme non pauvres. Même dans les villages de traitement, seuls les ménages pauvres étaient éligibles au PSAM. Toutefois, votre échantillon comprend des données à la fois sur les ménages pauvres et sur les ménages non pauvres de ces villages. En utilisant les ménages des villages de traitement de votre échantillon, un collè- gue vous aide à effectuer une régression multivariée pour établir la corrélation entre l’indice de pauvreté et les dépenses de santé prédites des ménages avant le lance- ment du PSAM (�gure 5.5). La �gure montre clairement qu’au fur et à mesure que le score de pauvreté d’un ménage augmente, la régression prédit un niveau de dépenses de santé plus élevé, ce qui indique que les ménages plus aisés ont tendance à consa- crer davantage de dépenses aux médicaments et aux services de santé primaires. Il convient de noter que la relation entre l’indice de pauvreté et les dépenses de santé est continue, c’est-à-dire qu’il n’y a pas de signe de changement dans la relation autour du seuil de pauvreté. Modèle de discontinuité de la régression 87 Figure 5.6 Indice de pauvreté et dépenses de santé – deux ans après le lancement du Programme de subvention de l’assurance maladie 30.2933 Seuil de pauvreté Dépenses de santé prédites des ménages (en USD) A Impact estimé sur les dépenses de santé (Y) B 7.07444 23.0294 58 100 Indice de pauvreté au moment de l’enquête de référence (1-100) Deux ans après le lancement du pilote, vous constatez que seuls les ménages affi- chant un score inférieur à 58 (à gauche du seuil de pauvreté) ont pu participer au PSAM. À l’aide de données de suivi, vous tracez à nouveau la relation entre les scores de pauvreté et les dépenses de santé prédites (voir �gure 5.6). Cette fois-ci, la rela- tion entre l’indice de pauvreté et les dépenses de santé prédites n’est plus continue. Il y a une variation nette, ou « discontinuité » au seuil de pauvreté. Tableau 5.1 Cas 5— Impact du PSAM selon le modèle de discontinuité de la régression (analyse de régression) Régression linéaire multivariée Impact estimé sur les dépenses −9,05** de santé des ménages (0,43) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. 88 L’évaluation d’impact en pratique La discontinuité illustre une baisse des dépenses de santé de la part des ménages éligibles au programme. Étant donné que les ménages de part et d’autre du seuil de 58 sont très similaires, la seule explication possible pour la différence des dépenses de santé est l’éligibilité au programme de l’un des groupes de ménages. Vous estimez cet écart au moyen d’une régression dont les conclusions �gurent dans le tableau 5.1. QUESTION 5 A. Le résultat indiqué dans le tableau 5.1 est-il valide pour tous les ménages éligibles ? B. Par rapport à l’impact estimé en utilisant l’assignation aléatoire, que nous indique le résultat sur les ménages dont le niveau de pauvreté est juste au-dessous de 58 ? C. Au vu de ce résultat pour le cas 5, le PSAM doit-il être étendu à tout le pays ? Le modèle de discontinuité de la régression en pratique Le modèle de discontinuité de la régression a été utilisé dans différents contextes. Lemieux et Milligan (2005) analysent les effets de l’aide sociale sur l’offre de main-d’œuvre au Québec. Martinez (2004) étudie l’impact des retraites sur la consommation en Bolivie. Filmer et Schady (2009) évaluent l’impact d’un pro- Encadré 5.1 : Aide sociale et offre de main-d’œuvre au Canada Dans l’une des études classiques utilisant le modèle de discontinuité de la régres- sion, les auteurs examinent une discontinuité nette dans un programme d’assis- tance sociale au Québec (Canada), pour comprendre l’impact du programme sur des indicateurs d’insertion professionnelle. Ce programme d’assistance, �nancé par le Régime d’assistance publique du Canada, vient en aide aux chômeurs. Pendant de nombreuses années, le programme a versé des montants nettement inférieurs aux individus de moins de 30 ans sans enfants en comparaison aux personnes de plus de 30 ans (185 dollars par mois contre 507 dollars). A�n d’évaluer rigoureusement ce programme, Lemieux et Milligan (2005) limi- tent leur échantillon aux hommes sans enfants et sans diplômes d’éducation secon- daire et utilisent des données du recensement canadien et de l’Enquête sur la population active. Pour justi�er le choix de l’approche de discontinuité de la régres- sion, ils démontrent que les hommes proches du seuil de discontinuité (entre 25 et 39 ans) présentent des caractéristiques observables très similaires. En comparant les sujets des deux côtés du seuil d’éligibilité, les auteurs mon- trent que l’accès à des prestations sociales plus élevées réduit d’environ 4,5 % le taux d’insertion professionnelle des hommes sans enfants de cette tranche d’âges. Source : Lemieux et Milligan, 2005. Modèle de discontinuité de la régression 89 gramme d’octroi de bourses aux étudiants pauvres sur la scolarisation et les résultats scolaires au Cambodge. Buddelmeyer et Skou�as (2004) comparent la performance de la discontinuité de la régression à celle de l’assignation aléatoire dans le cas du programme Progresa et concluent que les impacts estimés à l’aide de ces deux méthodes sont similaires pour une grande majorité des résultats analysés. Certains de ces exemples sont décrits plus en détail dans les encadrés 5.1, 5.2 et 5.3. Encadré 5.2 : Frais de scolarité et taux de scolarisation en Colombie En Colombie, Barrera-Osorio, Linden et Urquio- chef de famille sont continues tout au long de la (2007) utilisent le modèle de discontinuité de l’indice SISBEN au moment de l’enquête de la régression pour évaluer l’impact d’un pro- référence, il n’y a donc pas de « bond » dans gramme de réduction des frais de scolarité les caractéristiques le long de l’indice. Deuxiè- (Gratuidad) sur les taux de scolarisation à Bo- mement, les ménages de part et d’autre des gota. La population cible du programme est seuils dé�nis présentent des caractéristiques dé�nie à l’aide de l’indice SISBEN, un indice de similaires, ce qui indique que l’approche a créé pauvreté continu dont la valeur est déterminée des groupes de comparaison crédibles. Troisiè- en fonction de caractéristiques des ménages mement, un grand échantillon de ménages est comme l’emplacement et les matériaux de disponible. En�n, le gouvernement n’a pas construction du logement, les services dispo- révélé la formule utilisée pour calculer l’indice nibles, les données démographiques, l’état de SISBEN pour que les ménages ne puissent pas santé, le niveau d’éducation, le niveau de reve- manipuler leurs scores. nus et le travail exercé par les membres du mé- En utilisant le modèle de discontinuité de la nage. Le gouvernement dé�nit deux seuils sur régression, les chercheurs découvrent que le l’indice SISBEN : les enfants des ménages programme a un impact positif signi�catif sur dont le score est inférieur au seuil n° 1 sont les taux de scolarisation. Ainsi, le taux de scola- éligibles pour le programme d’éducation gra- risation augmente de trois points pour les tuite de la 1ère à la 11ème année ; les enfants des élèves d’écoles primaires provenant de ménages dont le score est compris entre le seuil n° 1 et le seuil n° 2 sont éligibles à une ménages situés au-dessous du seuil n° 1 et de subvention de 50 % des frais de scolarité pour six points pour les lycéens venant de ménages la 10ème et 11ème année ; et les enfants des mé- se situant entre les seuils n° 1 et n° 2. Cette nages dont le score est supérieur au seuil n° 2 étude démontre les avantages de la réduction ne sont pas éligibles pour le programme d’édu- des frais de scolarité directs, en particulier pour cation gratuite ou de subventions. les étudiants à risque. Toutefois, les auteurs Les auteurs utilisent le modèle de disconti- appellent également à poursuivre les nuité de la régression pour quatre raisons. Pre- recherches sur l’élasticité-prix a�n de perfec- mièrement, les caractéristiques des ménages tionner l’élaboration des programmes de sub- comme le niveau de revenus ou d’éducation du ventions comme celui-ci. Source: Barrera-Osorio, Linden et Urquiola 2007. 90 L’évaluation d’impact en pratique Encadré 5.3 : Filets de protection sociale fondés sur un indice de pauvreté en Jamaïque Le modèle de discontinuité de la régression est et un degré de motivation similaire, tous les également utilisé pour évaluer l’impact d’un �let ménages de l’échantillon ayant demandé à de protection sociale en Jamaïque. En 2001, le béné�cier du programme. Les chercheurs utili- Gouvernement jamaïcain lance le programme sent aussi le score d’éligibilité au programme PATH (Programme of Advancement through dans l’analyse de régression multivariée pour Health and Education) a�n de renforcer les in- contrôler pour d’éventuelles différences obser- vestissements dans le capital humain et d’amé- vées entre les deux groupes. liorer le ciblage de l’aide sociale aux pauvres. Le Levy et Ohls (2007) découvrent que le pro- programme offre des allocations de santé et gramme PATH entraîne une hausse de la scola- d’éducation aux enfants provenant de ménages risation des enfants de six à 17 ans de 0,5 jour pauvres éligibles à condition qu’ils soient scolari- par mois en moyenne, un résultat satisfaisant sés et qu’ils effectuent des visites médicales étant donné que le taux de scolarisation de régulières. L ’allocation mensuelle moyenne par départ était relativement élevé, à 85 %. Par enfant s’élève à environ 6,50 $, auxquels vient ailleurs, ils constatent une augmentation d’envi- s’ajouter l’exonération de certains frais de soins ron 38 % du nombre de visites médicales pour de santé et de scolarité. les enfants de zéro à six ans. Bien que les cher- Étant donné que l’éligibilité au programme cheurs ne puissent pas déceler d’impacts à long est déterminée par un score, Levy et Ohls terme sur les résultats scolaires ou les indica- (2007) comparent les ménages se situant juste teurs de santé, ils concluent que la magnitude au-dessous du seuil d’éligibilité et ceux juste au- des impacts identi�és concorde, globalement, dessus (entre 2 et 15 points du seuil). Les cher- avec les programmes de transferts monétaires cheurs justi�ent l’utilisation du modèle de conditionnels mis en œuvre dans d’autres pays. discontinuité de la régression à partir de don- En�n, cette évaluation est fondée sur des don- nées de référence indiquant que les ménages nées quantitatives et qualitatives collectées par du groupe de traitement et ceux du groupe de des systèmes d’information, des entretiens, comparaison présentent un niveau de pauvreté des groupes focaux et des enquêtes auprès similaire, sur la base d’un score « proxy mean », des ménages. Source: Levy and Ohls 2007. Limites et interprétation du modèle de discontinuité de la régression Le modèle de discontinuité de la régression estime l’impact moyen local aux alen- tours du seuil d’éligibilité, c’est-à-dire au point où le groupe de traitement et le groupe de comparaison sont les plus similaires. En s’approchant du seuil, les unités qui se situent à gauche et à droite du seuil sont de plus en plus similaires. En fait, dans la proximité immédiate du seuil d’éligibilité, les unités de part et d’autre du seuil sont tellement similaires que la comparaison est aussi précise qu’en utilisant l’assignation aléatoire pour générer les groupes de traitement et un de comparaison. Modèle de discontinuité de la régression 91 Le modèle de discontinuité de la régression évalue l’impact du programme loca- lement aux alentours du seuil d’éligibilité. L’estimation ne peut pas systématique- ment être généralisée aux unités dont le score est plus éloigné de ce seuil, c’est-à-dire aux parties de la distribution où les unités éligibles et non éligibles ne sont plus simi- laires. Le fait que cette approche ne permette pas de calculer l’effet moyen du traite- ment pour tous les participants au programme peut être considéré comme un avantage ou un inconvénient en fonction de l’information recherchée. Si l’évaluation vise principalement à savoir si le programme devrait ou non être mis en œuvre, l’effet moyen du traitement sur l’ensemble de la population éligible est probablement le paramètre le plus pertinent, et l’impact local estimé par le modèle de discontinuité de la régression n’est pas satisfaisant. Toutefois, si la question est de savoir si le pro- gramme doit être réduit ou au contraire élargi, le modèle de discontinuité de la régression fournit précisément l’impact local utile pour prendre cette décision. Le fait que cette méthode évalue les effets locaux moyens du traitement repré- sente également un dé� en termes de puissance statistique de l’analyse. Étant donné que les effets ne sont mesurés qu’autour du seuil d’éligibilité, cette méthode utilise moins d’observations que d’autres méthodes utilisant toutes les unités disponibles. Le modèle de discontinuité de la régression requiert des échantillons d’évaluation relativement importants pour obtenir une puissance statistique suffisante. Dans la pratique, il faut déterminer une bande autour du seuil d’éligibilité sur laquelle por- tera l’évaluation en assurant l’équilibre des caractéristiques observées des popula- tions au-dessus et au-dessous du seuil d’éligibilité. Il est ensuite possible de répéter l’estimation avec des bandes différentes pour véri�er si les résultats sont robustes au changement de la bande considérée. En règle générale, plus la bande est large, plus la puissance statistique est élevée puisqu’un plus grand nombre d’observations sont prises en compte. Toutefois, en s’éloignant du seuil d’éligibilité, il peut être néces- saire de formuler certaines hypothèses concernant les formes fonctionnelles pour obtenir une estimation crédible de l’impact. L’autre réserve concernant le modèle de discontinuité de la régression vient du fait que la spéci�cation peut varier en fonction de la forme fonctionnelle utilisée pour modéliser la relation entre l’indice d’éligibilité et le résultat. Dans l’exemple du programme de transferts monétaires, nous avons supposé que la relation entre l’in- dice de pauvreté des ménages et leurs dépenses alimentaires journalières était simple et linéaire au moment de l’enquête de référence. En réalité, la relation entre l’indice d’éligibilité et le résultat (Y) au moment de l’enquête de référence peut être beaucoup plus complexe et comprendre des relations et des interactions non linéaires. Si l’estimation ne tient pas compte de ces relations complexes, elles ris- quent d’être interprétées comme un signe de discontinuité dans les résultats recueillis après l’intervention. Dans la pratique, l’impact du programme peut être estimé en utilisant plusieurs formes fonctionnelles (linéaire, quadratique, cubique, etc.) pour déterminer si les estimations de l’impact sont robustes aux changements de la forme fonctionnelle. Même en tenant compte de ces réserves, le modèle de discontinuité de la régres- sion permet d’obtenir des estimations non biaisées de l’impact du programme aux alentours du seuil d’éligibilité. Cette approche se base sur des indices d’éligibilité 92 L’évaluation d’impact en pratique continus et des règles d’allocation de programme qui sont fréquemment utilisés dans les programmes sociaux. Lorsqu’un ciblage basé sur un indice est utilisé, il n’est pas nécessaire d’exclure du programme un groupe de ménages ou de personnes éligibles pour réaliser l’évaluation puisque le modèle de discontinuité de la régression peut être utilisé à la place. Notes 1. 1 acre = 0,40 ha. 2. Ceci est souvent appelé un test « proxy mean » parce qu’il utilise les actifs du ménage comme indicateurs pour approximer les moyens ou le pouvoir d’achat du ménage. Références Barrera-Osorio, Felipe, Leigh Linden et Miguel Urquiola. 2007. « The Effects of User Fee Reductions on Enrollment: Evidence from a Randomized Natural Experiment. » Columbia University et Banque mondiale, Washington, DC. Buddelmeyer, Hielke et Emmanuel Skou�as. 2004. « An Evaluation of the Perfor- mance of Regression Discontinuity Design on PROGRESA. » Document de travail consacré à la recherche sur les politiques 3386, IZA Discussion Paper 827, Banque mondiale, Washington, DC. Filmer, Deon et Norbert Schady. 2009. « School Enrollment, Selection and Test Scores. » Document de travail consacré à la recherche sur les politiques 4998, Banque mondiale, Washington, DC. Lemieux, Thomas et Kevin Milligan. 2005. « Incentive Effects of Social Assistance: A Regression Discontinuity Approach. » NBER Working Paper 10541, National Bureau of Economic Research, Cambridge, MA. Levy, Dan et Jim Ohls. 2007. « Evaluation of Jamaica’s PATH Program: Final Report. » Mathematica Policy Research, Inc., Ref. 8966-090, Washington, DC. Martinez, S. 2004. « Pensions, Poverty and Household Investments in Bolivia. » University of California, Berkeley, CA. Modèle de discontinuité de la régression 93 CHAPITRE 6 Double différence Les trois méthodes d’évaluation d’impact abordées jusqu’à présent (l’assignation Concept clé : aléatoire, la promotion aléatoire du traitement et le modèle de discontinuité de la La méthode de la régression) permettent d’estimer le contrefactuel sur la base de règles d’alloca- double différence tion des programmes qui sont connues et comprises par l’évaluateur. Nous avons estime le contrefactuel exposé les raisons pour lesquelles ces méthodes fournissent des estimations cré- pour le changement du dibles du contrefactuel en utilisant relativement peu d‘hypothèses et conditions. résultat dans le groupe Les deux méthodes que nous allons maintenant aborder (la double différence et de traitement en l’appariement) pourvoient l’évaluateur d’outils utilisables lorsque les règles d’as- utilisant le changement signation des programmes sont moins claires ou lorsqu’aucune des autres du résultat dans le méthodes décrites ci-dessus n’est applicable. Comme nous allons le voir, la groupe de comparai- double différence (DD) et l’appariement constituent de puissants outils statis- son. Cette méthode tiques qui sont souvent utilisés ensemble ou en conjonction avec d’autres permet de prendre en méthodes d’évaluation d’impact. compte les différences entre le groupe de Tant la double différence que l’appariement sont couramment utilisés, mais traitement et le groupe reposent sur des hypothèses plus contraignantes que les méthodes de sélection de comparaison qui aléatoire. Précisons tout de suite que ces deux méthodes ne peuvent pas être sont invariables dans appliquées sans des données de référence collectées avant le début du pro- le temps. gramme à évaluer1. Comme son nom l’indique, la méthode de la double différence compare les différences de résultats au �l du temps entre une population participant à un pro- gramme (le groupe de traitement) et une autre n’y participant pas (le groupe de comparaison). Prenons l’exemple d’un programme de construction de routes qui ne peut pas faire l’objet d’une assignation aléatoire ni d’une attribution sur la base d’un indice continu assorti d’un seuil d’éligibilité, rendant l’utilisation du modèle de discontinuité de la régression impossible. Comme l’un des objectifs de ce programme est d’améliorer l’accès au marché du travail, le taux d’emploi 95 constitue l’un des indicateurs de résultat. Comme nous l’avons vu au chapitre 3, la simple observation du changement du taux de chômage avant et après la mise en œuvre du programme ne suffit pas à mesurer son effet causal. En effet, de nombreux autres facteurs variables dans le temps peuvent influencer le taux de chômage. De même, comparer les régions qui ont reçu le programme à celles qui ne l’ont pas reçu serait problématique puisqu’il peut exister des raisons non observées pour lesquelles certaines régions ont béné�cié du programme et d’autres non (il s’agit du problème du biais de sélection évoqué dans la comparai- son avec-sans, ou inscrits et non inscrits). Cependant, que se passerait-il si nous combinions les deux méthodes pour comparer les résultats avant-après d’un groupe qui a pris part au programme et d’un groupe qui n’y a pas pris part ? La différence dans les résultats avant-après pour le groupe participant (la première différence) contrôle pour les facteurs invariables dans le temps qui affectent ce groupe, pour la simple raison que nous comparons le groupe à lui-même. La différence avant-après ne tient toutefois pas compte des facteurs externes variables dans le temps. Une manière de prendre en compte ces facteurs externes variables dans le temps est de mesurer la diffé- rence de résultats avant-après pour un groupe qui n’a pas participé au pro- gramme, mais qui a été exposé aux mêmes conditions externes (la deuxième différence). Si nous épurons la première différence des effets des autres facteurs variables dans le temps qui influent sur les résultats en soustrayant la deuxième différence, nous éliminons la principale source de biais qui posait problème dans la simple comparaison avant-après. La double différence combine donc les deux contrefactuels contrefaits (comparaisons avant-après et comparaisons avec-sans entre les participants et les non participants) pour produire une meilleure esti- mation du contrefactuel. Dans le cas de notre programme routier, la méthode DD comparerait par exemple la différence entre les taux d’emploi observés dans les zones concernées par la construction des routes avant et après la mise en œuvre du programme, et ce même changement dans le taux d’emploi observé dans les zones où le programme n’a pas été mis en œuvre. Il est important de relever que le contrefactuel estimé par la méthode de double différence correspond au changement des résultats pour le groupe de comparaison. Le groupe de traitement et le groupe de comparaison ne doivent pas nécessairement être similaires avant l’intervention. Toutefois, pour que la méthode DD soit valide, le groupe de comparaison doit fournir une estimation précise du changement de résultats qui aurait prévalu dans le groupe de traite- ment s’il n’avait pas participé au programme. Pour appliquer la double diffé- rence, il suffit de mesurer les résultats du groupe de participants (le groupe de traitement) et ceux du groupe de non participants (le groupe de comparaison) tant avant qu’après la mise en œuvre du programme. La méthode ne requiert pas de préciser les règles d’assignation du programme. La �gure 6.1 illustre la méthode de la double différence. Un groupe de traite- ment participe à un programme et un groupe de comparaison n’y participe pas. 96 L’évaluation d’impact en pratique Figure 6.1 Double différence Groupe de comparaison C = 0.78 D = 0.81 B = 0.74 } Impact = 0,11 Résultat E Tendance du groupe A = 0.60 de comparaison Groupe de traitement Année 0 Année 1 Temps Les variables de résultats avant et après pour le groupe de traitement sont A et B respectivement tandis que le résultat du groupe de comparaison passe de C avant le programme à D après sa mise en œuvre. Souvenez-vous des deux contrefactuels contrefaits : la différence de résultats avant et après l’intervention pour le groupe de traitement (B – A) et la différence de résultats2 après l’intervention entre le groupe de traitement et le groupe de comparaison (B – D). Selon la méthode de la double différence, l’estimation du contrefactuel est obtenue en calculant la différence des résultats du groupe de comparaison avant et après l’intervention (D – C). Ce contrefactuel pour le chan- gement du résultat à travers le temps est ensuite soustrait du changement du résultat observé pour le groupe de traitement (B – A). En résumé, l’impact du programme est calculé comme la différence entre deux différences : Impact par DD = (B − A) − (D − C) = (B − E) = (0,74 − 0,60) − (0,81 − 0,78) = 0,11. Le contenu de la �gure 6.1 peut également être illustré sous forme de tableau. Le tableau 6.1 expose les composantes de l’estimation par double différence. La première ligne du tableau contient les résultats du groupe de traitement, avant (A) et après (B) l’intervention. La comparaison avant-après pour le groupe de traitement constitue la première différence (B – A). La deuxième ligne du tableau contient les résultats du groupe de comparaison avant (C) et après (D) l’interven- tion. La deuxième différence correspond donc à D – C. Double différence 97 Tableau 6.1 Double différence Après Avant Différence Traitement/participants B A B−A Comparaison/ non participants D C D−C Différence B−D A−C DD = (B − A) − (D − C) Après Avant Différence Traitement/participants 0,74 0,60 0,14 Comparaison/ non participants 0,81 0,78 0,03 Différence −0,07 −0,18 DD = 0,14 − 0,03 = 0,11 La méthode de la double différence calcule l’impact estimé selon la formule suivante : 1. Nous calculons la différence de résultat (Y) entre la situation avant et après pour le groupe de traitement (B – A). 2. Nous calculons la différence de résultat (Y) entre la situation avant et après pour le groupe de comparaison (D ¬ C). 3. Nous calculons ensuite la différence entre la différence de résultats pour le groupe de traitement (B − A) et la différence pour le groupe de comparaison (D − C), soit DD = (B − A) − (D − C). La double différence est notre estimation d’impact. En quoi la méthode de la double différence est-elle utile ? Pour comprendre comment cette méthode peut être utile, reprenons le deuxième contrefactuel contrefait, qui compare les participants au programme aux non par- ticipants. Souvenez-vous que le principal problème dans ce cas est que les deux groupes ont potentiellement des caractéristiques différentes qui peuvent être à l’origine des différences de résultats entre les deux groupes. Les différences non observées entre les caractéristiques sont particulièrement préoccupantes : par dé�nition, il est impossible de prendre en compte les différences de caractéris- tiques non observées dans l’analyse. 98 L’évaluation d’impact en pratique La méthode de la double différence contribue à résoudre ce problème dans la mesure où de nombreuses caractéristiques unitaires ou individuelles peuvent rai- sonnablement être considérées comme invariables dans le temps. Prenons l’exemple des caractéristiques observées, telles que l’année de naissance d’une per- sonne, la proximité d’une région à la mer, le niveau de développement économique d’une ville ou le niveau d’éducation d’un père de famille. Même si la plupart de ces variables peuvent plausiblement influencer des résultats, elles sont peu suscep- tibles de changer pendant une évaluation. En suivant le même raisonnement, de nombreuses caractéristiques non observées peuvent elles aussi être considérées comme invariables dans le temps. Prenons par exemple l’intelligence d’une per- sonne ou des traits de caractère comme la motivation, l’optimisme, l’autodiscipline ou les antécédents médicaux d’une famille. Il est probable qu’un grand nombre de ces caractéristiques intrinsèques n’évoluent pas avec le temps. Lorsqu’un même individu est observé avant et après la mise en œuvre d’un programme et que nous calculons une simple différence de résultat pour ce der- nier, nous annulons l’effet de toutes les caractéristiques qui sont uniques à cet individu ou qui ne changent pas avec le temps. En effet, des facteurs constants à travers le temps ne peuvent pas expliquer le changement du résultat à travers le temps. Il est important de souligner que nous contrôlons ainsi non seulement pour l’effet des caractéristiques invariables observées (que nous pouvons tenir en compte ou contrôler), mais aussi celui des caractéristiques invariables non obser- vées comme celles mentionnées ci-dessus. L’hypothèse des « tendances égales » dans la méthode de la double différence La méthode de la double différence permet de tenir compte des différences entre le groupe de traitement et le groupe de comparaison qui sont invariables dans le temps ; toutefois, elle ne permet pas d’éliminer les différences entre ces deux groupes qui changent au cours du temps. Dans l’exemple du projet routier men- tionné ci-dessus, si les zones d’intervention béné�cient également de la construc- tion d’un nouveau port maritime, nous ne pourrons pas séparer l’effet de la construction de routes de l’effet de la construction du port en utilisant l’approche de la double différence. Pour que celle-ci puisse fournir une estimation valable du contrefactuel, il faut partir de l’hypothèse qu’il n’existe aucune différence variable dans le temps entre le groupe de traitement et le groupe de comparaison. En d’autres termes, il faut partir du principe que, en l’absence du programme, les changements du résultat entre le groupe de traitement et le groupe de comparaison évolueraient en parallèle. Autrement dit, les résultats varieraient au même rythme pour les deux groupes sans le traitement, que ce soit à la hausse ou à la baisse. Il faut donc que les résultats affichent des tendances équivalentes en l’absence de traitement. Malheureusement, nous n’avons aucun moyen de prouver que les différences entre le groupe de traitement et le groupe de comparaison auraient évolué en parallèle en l’absence du programme. En effet, nous ne pouvons pas observer la façon dont le groupe de traitement évoluerait en l’absence du traitement (à savoir le contrefactuel). Double différence 99 Dès lors, lorsque nous utilisons la méthode de la double différence, nous devons postuler qu’en l’absence du programme, le résultat du groupe de traitement aurait évolué en parallèle à celui du groupe de comparaison. La �gure 6.2 illustre une violation de ce postulat fondamental qui est requis pour que la méthode de la double différence produise des estimations d’impact crédibles. Si les tendances du résultat diffèrent entre le groupe de traitement et le groupe de comparaison, l’im- pact estimé du traitement obtenu grâce à cette méthode sera invalide ou biaisé. En effet, dans ce cas la tendance pour le groupe de comparaison n’est pas une estima- tion valide de la tendance contrefactuelle qu’aurait suivie le groupe de traitement en l’absence de programme. Dans la �gure 6.2, le résultat du groupe de comparai- son progresse plus lentement que le résultat du groupe de traitement en l’absence du programme, donc, l’utilisation de la tendance du groupe de comparaison comme contrefactuel de la tendance du groupe de traitement entraîne une suresti- mation de l’impact du programme. Tester la validité de l’hypothèse des « tendances équivalentes » dans la méthode de la double différence La validité de l’hypothèse des tendances équivalentes peut être testée même si elle ne peut pas être totalement avérée. Une bonne approche pour tester sa vali- dité consiste à comparer les tendances du résultat du groupe de traitement et du groupe de comparaison avant la mise en œuvre du programme. Si les résultats évoluent en parallèle avant le début du programme, il est probable qu’ils auraient continué à évoluer en parallèle durant la période consécutive à l’intervention. Figure 6.2 Double différence en cas de divergence des tendances du résultat Groupe de comparaison D = 0.81 C = 0.78 B = 0.74 factuel r éel } Impact < 0,11 ntre Résultat A = 0.60 Co Tendance du groupe de comparaison Groupe de traitement Année 0 Année 1 Temps 100 L’évaluation d’impact en pratique Pour véri�er l’équivalence des tendances avant l’intervention, il faut avoir à dis- position au moins deux rondes de données tant pour le groupe de traitement que le groupe de comparaison avant que le programme ne soit lancé. L’évaluation nécessite donc trois rondes de donnée : deux observations avant l’intervention pour évaluer les tendances avant le lancement du programme et au moins une observation après l’intervention pour évaluer l’impact par double différence. Une deuxième manière de tester l’hypothèse des tendances équivalentes consiste à effectuer un test dit « placebo ». Ce test formule une estimation par double différence supplémentaire en utilisant un « faux » groupe de traitement, c’est-à-dire un groupe qui n’a en réalité pas été affecté par le programme. Par exemple, pour estimer l’impact d’un programme de tutorat personnalisé sur la probabilité que les étudiants de 7ème année fréquentent davantage l’école, vous choisissez des étudiants de 8ème année comme groupe de comparaison. Pour savoir si les élèves de 7ème et 8ème année présentent les mêmes tendances en matière de taux de fréquentation scolaire, vous pourriez analyser si les élèves de 6ème et 8ème année présentent les mêmes tendances. Vous savez que les élèves de 6ème année ne sont pas affectés par le programme ; donc si vous effectuez une estimation par double différence en utilisant des étudiants de 8ème année comme groupe de com- paraison et des étudiants de 6ème année comme faux groupe de traitement, vous devriez obtenir un impact nul. Si ce n’est pas le cas, l’impact estimé doit provenir d’une différence sous-jacente entre les tendances de ces deux groupes d’élèves. Cela remettrait également en question l’existence de tendances équivalentes pour les étudiants de 7ème et 8ème année en l’absence de programme. Un test placebo peut être réalisé non seulement avec un faux groupe de traite- ment, mais également avec un faux résultat. Dans l’exemple du tutorat, vous pou- vez aussi véri�er la validité de votre choix des étudiants de 8ème année comme groupe de comparaison en évaluant l’impact du tutorat sur un résultat qui ne sera pas affecté, par exemple le nombre de frères et sœurs des étudiants. Si votre esti- mation par double différence conclut que le tutorat a un impact sur le nombre de frères et sœurs des étudiants, il est probable que le groupe de comparaison ne soit pas adéquat. Il existe une quatrième manière de tester l’hypothèse des tendances équiva- lentes, et ce, en appliquant l’estimation par double différence à différents groupes de comparaison. Dans l’exemple du tutorat, vous pouvez effectuer dans un premier temps l’estimation en utilisant les étudiants de 8ème année comme groupe de com- paraison, puis vous pouvez formuler une deuxième estimation en utilisant les étu- diants de 6ème année. Si les impacts estimés dans les deux cas sont équivalents, il est probable que les deux groupes de comparaison soient valides. Double différence 101 Utilisation de la double différence pour évaluer le Programme de subvention de l’assurance maladie (PSAM) La méthode de la double différence peut être utilisée pour évaluer l’impact du programme de subvention de l’assurance maladie (PSAM). Dans ce scénario, vous disposez de deux rondes de données sur deux groupes de ménages, l’un ayant participé au programme et l’autre non. Vous savez qu’en raison du biais de sélection vous ne pouvez pas effectuer une simple comparaison des dépenses de santé entre les participants et les non participants. Étant donné que vous dispo- sez de données couvrant deux périodes pour chaque ménage de l’échantillon, vous pouvez utiliser les données pour comparer le changement des dépenses des deux groupes, en partant du principe que le changement des dépenses de santé des non participants reflète ce qu’auraient été les dépenses des participants en l’absence du programme (voir tableau 6.2). Au passage, la façon dont vous calcu- lez la double différence dans le tableau, à savoir par colonne ou par ligne, fournit le même résultat. Vous estimez ensuite l’impact en utilisant une analyse de régression (tableau 6.3). À l’aide d’une régression linéaire simple, vous découvrez que le programme a entraîné une réduction des dépenses de santé des ménages de 7,8 dollars. Vous affi- nez ensuite votre analyse en effectuant une régression linéaire multivariée pour contrôler pour plusieurs autres facteurs, et vous constatez la même réduction des dépenses de santé des ménages. QUESTION 6 A. Quelles sont les hypothèses fondamentales qui sous-tendent le résultat du cas 6 ? B. Au vu de ces résultats pour le cas 6, le PSAM doit-il être élargi à l’échelle nationale ? Tableau 6.2 Cas 6— Impact du PSAM selon la méthode de la double différence (comparaison des moyennes) Après Avant (données (suivi) de référence) Différence Inscrits 7,8 14,4 −6,6 Non-inscrits 21,8 20,6 1,2 Différence DD = −6,6 − 1,2 = −7,8 Tableau 6.3 Cas 6— Impact du PSAM selon la méthode de la double différence (analyse de régression) Régression Régression linéaire linéaire multivariée Impact estimé sur les dépenses −7,8** −7,8** de santé des ménages (0,33) (0,33) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. 102 L’évaluation d’impact en pratique La méthode de la double différence en pratique Malgré les limites qu’elle présente, la méthode de la double différence reste l’une des plus utilisées pour l’évaluation d’impact. Il en existe de nombreux exemples dans la littérature. Par exemple, Duflo (2001) analyse l’impact de la construction d’écoles sur la scolarisation, les indicateurs d’emploi et les salaires en Indonésie. DiTella et Schargrodsky (2005) cherchent quant à eux à savoir si un renforcement des forces de police réduit la criminalité. Un autre exemple important est exposé à l’encadré 6.1. Encadré 6.1 : Privatisation de l’approvisionnement en eau et mortalité infantile en Argentine Galiani, Gertler et Schargrodsky (2005) utilisent la aux niveaux historiques de la mortalité infantile. méthode de la double différence pour déterminer Deuxièmement, les municipalités constituant si la privatisation des services d’approvisionne- le groupe de traitement et les municipalités ment en eau améliore les résultats dans le do- constituant le groupe de comparaison af�chent maine de la santé et contribue à réduire la pauvre- des tendances de mortalité infantile compa- té. Dans les années 90, l’Argentine a lancé l’une rables avant le lancement de la privatisation. des plus grandes campagnes de privatisation de Les chercheurs véri�ent la validité de leurs son histoire, transférant le contrôle de compagnies conclusions en décomposant l’impact de la pri- locales d’approvisionnement en eau à des sociétés vatisation sur la mortalité infantile par cause de privées desservant environ 30 % des municipalités décès. Ils découvrent que la privatisation des du pays et 60 % de la population. Le processus de services d’approvisionnement en eau est cor- privatisation a pris une décennie, la plus grande rélée avec la réduction du nombre de décès liés vague des privatisations ayant eu lieu après 1995. à des maladies infectieuses et parasitaires, Galiani, Gertler et Schargrodsky (2005) utili- mais pas aux décès non liés à la qualité de l’eau sent la privatisation graduelle des compagnies (comme les accidents ou les maladies congéni- d’approvisionnement en eau pendant dix ans tales). L’évaluation permet de déterminer que la pour déterminer l’impact de cette privatisation mortalité infantile baisse de près de 8 % dans sur la mortalité des enfants de moins de les zones où les services d’approvisionnement cinq ans. Avant 1995, les taux de mortalité en eau ont été privatisés, et que l’impact est infantile diminuent à un rythme globalement plus marqué (environ 26 %) dans les zones les similaire dans toute l’Argentine, mais après plus pauvres, où l’expansion du réseau de dis- 1995, ils baissent plus rapidement dans les tribution d’eau a été la plus importante. Cette municipalités où les services d’approvisionne- étude informe plusieurs débats importants sur ment en eau ont été privatisés. Selon les cher- la privatisation des services publics. Les cher- cheurs, l’hypothèse fondamentale sous-tendant cheurs concluent que le secteur privé régle- la méthode de la double différence est proba- menté en Argentine est plus ef�cace que blement correcte dans ce contexte. Première- le secteur public pour améliorer les indicateurs ment, la décision de privatiser les infrastructures d’accès, de services et, surtout, de mortalité n’est pas corrélée à des chocs économiques ou infantile. Source : Galiani, Gertler et Schargrodsky 2005. Double différence 103 Limites de la méthode de la double différence La méthode de la double différence est généralement moins solide que les méthodes de sélection aléatoire (assignation aléatoire, offre aléatoire et promotion aléatoire). Même si les tendances sont équivalentes entre les deux groupes avant l’intervention, l’estimation peut présenter un biais. En effet, la méthode DD attribue à l’intervention toute différence de tendances entre le groupe de traitement et le groupe de comparai- son survenant à partir du lancement de l’intervention. S’il existe d’autres facteurs influençant la différence de tendances entre les deux groupes, l’estimation sera non valide ou biaisée. Admettons que vous souhaitiez estimer l’impact du subventionnement de l’achat d’engrais sur la production de riz en mesurant la production des exploi- tants subventionnés (groupe de traitement) et celle des exploitants non subven- tionnés (groupe de comparaison), avant et après l’octroi des subventions. Si au cours de la première année, les exploitants subventionnés sont touchés par la sécheresse alors que les exploitants non subventionnés ne le sont pas, la méthode de la double différence produira une estimation incorrecte de l’impact du pro- gramme de subventionnement des achats d’engrais. En général, tout facteur affectant uniquement le groupe de traitement et intervenant en même temps que le traitement est susceptible d’invalider ou de biaiser l’estimation d’impact du programme. La méthode de la double différence repose sur l’hypothèse que ces facteurs n’existent pas. Notes 1. Bien que, en théorie, l’assignation aléatoire, la promotion aléatoire et le modèle de discontinuité de la régression ne nécessitent pas de données de référence, en pratique, ces dernières sont essentielles pour con�rmer que les caractéristiques du groupe de traitement et du groupe de comparaison sont semblables. Pour cette raison, nous recommandons de collecter des données de base pour toute évaluation. Outre la véri�cation de la comparabilité des deux groupes, il existe d’autres bonnes raisons de collecter des données de base, même si la méthode utilisée ne l’exige pas. Premièrement, avoir à disposition des caractéristiques (exogènes) de la population avant l’interven- tion peut permettre de déterminer si le programme a un impact différent au sein de la population éligible en fonction des caractéristiques mesurées avant le programme (analyse d’hétérogénéité). Deuxièmement, les données de base peuvent également permettre d’effectuer une analyse a�n d’informer les gestionnaires de programme avant même le début de l’intervention. La collecte des données de base peut par ailleurs servir de pilote à l’échelle pour la collecte de données après l’intervention. Troisièmement, les données de base peuvent servir de « garantie » si l’assignation aléatoire n’est pas mise en œuvre correctement. L’évaluateur peut alors utiliser une combinaison 104 L’évaluation d’impact en pratique d’appariement et de double différence pour remédier à d’éventuels problèmes dans la mise en œuvre de l’assignation aléatoire. En�n, l’existence de données de base peut augmenter la puissance statistique de l’analyse si le nombre d’unités dans le groupe de traitement et de comparaison est limité. 2. Les différences entre les points doivent être interprétées comme des diffé- rences verticales sur l’axe vertical de résultat. Références DiTella, Rafael et Ernesto Schargrodsky. 2005. « Do Police Reduce Crime? Estimates Using the Allocation of Police Forces after a Terrorist Attack. » American Economic Review 94 (1) : 115–33. Duflo, Esther. 2001. « Schooling and Labor Market Consequences of School Construction in Indonesia: Evidence from an Unusual Policy Experiment. » American Economic Review 91 (4) : 795–813. Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. « Water for Life: The Impact of the Privatization of Water Services on Child Mortality. » Journal of Political Economy 113 (1) : 83–120. Double différence 105 CHAPITRE 7 Appariement La méthode décrite dans ce chapitre comprend une série de techniques statis- tiques que nous désignerons collectivement par le terme d’appariement. Les méthodes d’appariement peuvent être appliquées quelles que soient les règles d’assignation de programme, à partir du moment où il existe un groupe qui n’a pas participé au programme. Les méthodes d’appariement utilisent les caractéris- tiques observées des inscrits et non-inscrits pour générer un groupe de comparai- son. Ces méthodes reposent donc sur l’hypothèse très forte qu’il n’y a pas de différence non observée corrélée aux résultats entre le groupe de traitement et le groupe de comparaison. En raison de cette hypothèse très contraignante, les méthodes d’appariement sont généralement plus utiles lorsqu’elles sont combi- nées à l’une des autres méthodes décrites ci-dessus. Fondamentalement, l’appariement utilise des techniques statistiques pour Concept clé : produire un groupe de comparaison arti�ciel en cherchant, pour chaque partici- L’appariement consiste pant, une observation (ou une série d’observations) du groupe de non-inscrits à utiliser de grandes qui présente des caractéristiques observables les plus semblables possible. Ima- bases de données et ginez que vous cherchiez à évaluer l’impact d’un programme et que vous dispo- des techniques siez de données issues d’une enquête démographique et sanitaire à la fois pour statistiques complexes les ménages participants et non participants. Le programme que vous cherchez pour générer le à évaluer n’a pas de règle d’assignation claire (comme l’utilisation de l’assigna- meilleur groupe de tion aléatoire ou d’un indice d’éligibilité) qui puisse expliquer pourquoi certains comparaison arti�ciel ménages participent au programme et d’autres non. Dans ce contexte, les possible pour un méthodes d’appariement peuvent vous permettre d’identi�er les ménages groupe de traitement non-inscrits les plus semblables aux ménages inscrits sur la base des caractéris- donné. tiques observées dans les données. Les ménages non-inscrits «  appariés  » for- ment alors le groupe de comparaison servant à estimer le contrefactuel. 107 Pour trouver une unité correspondant au mieux à chaque participant du pro- gramme, il est important de dé�nir le plus précisément possible les variables ou déterminants expliquant pourquoi chaque individu a décidé de participer au pro- gramme ou non. Cette tâche n’est malheureusement pas simple. Si la liste des caractéristiques observées pertinentes est très longue, ou si chaque caractéris- tique comporte plusieurs valeurs, il peut être difficile de trouver une unité cor- respondant exactement à chacune des unités du groupe de traitement. Plus le nombre de caractéristiques ou de dimensions des unités à apparier augmente, plus vous risquez d’être confronté à un «  problème de dimensionnalité  ». Par exemple, si vous n’utilisez que trois caractéristiques pour constituer le groupe de comparaison apparié, par exemple l’âge, le sexe et le lieu de naissance, vous trou- verez probablement pour chaque participant des unités correspondantes au sein du groupe des non participants, mais vous courrez le risque de ne pas tenir compte d’autres caractéristiques potentiellement importantes. En revanche, si vous augmentez la liste des variables d’appariement, par exemple, le nombre d’enfants, le nombre d’années d’éducation, l’âge de la mère, l’âge du père, etc., votre base de données risque de ne pas contenir assez d’unités correspondantes pour chaque participant au programme, à moins qu’elle ne contienne un très grand nombre d’observations. La �gure 7.1 présente un exemple d’appariement basé sur quatre caractéristiques : l’âge, le genre, le nombre de mois de chômage et le diplôme d’éducation secondaire. Heureusement, le problème de dimensionnalité  peut être évité en utilisant la méthode d’appariement par le score de propension (Rosenbaum et Rubin 1983). Avec cette approche, il n’est pas nécessaire d’apparier chaque participant à un non participant présentant exactement les mêmes caractéristiques observées. Il est suffi- sant d’estimer la probabilité que chaque participant et non participant s’inscrive Figure 7.1 Appariement exact sur la base de quatre caractéristiques Unités de traitement Unités de comparaison Mois de Mois de Âge Sexe chômage Diplôme Âge Sexe chômage Diplôme 19 1 3 0 24 1 8 1 35 1 12 1 38 0 2 0 41 0 17 1 58 1 7 1 23 1 6 0 21 0 2 1 55 0 21 1 34 1 20 0 27 0 4 1 41 0 17 1 24 1 8 1 46 0 9 0 46 0 3 0 41 0 11 1 33 0 12 1 19 1 3 0 40 1 2 0 27 0 4 0 108 L’évaluation d’impact en pratique au programme sur la base de ses caractéristiques observées. Cette probabilité est appelée le score de propension. Ce score est un chiffre compris entre zéro et un qui résume toutes les caractéristiques observées influençant la participation au pro- gramme d’une unité. Une fois le score de propension calculé pour toutes les unités, les unités du groupe de traitement peuvent être appariées à celles du groupe de non-inscrits qui affichent le score le plus proche1. L’ensemble des « unités les plus proches » forme alors le groupe de comparaison et peut être utilisé pour estimer le contre- factuel. La méthode d’appariement par le score de propension vise à imiter le mécanisme d’assignation aléatoire en choisissant des unités les plus semblables possible aux participants pour constituer le groupe de comparaison. Étant donné que l’appariement par le score de propension n’est pas vraiment une méthode d’assignation aléatoire, mais tente de la répliquer, cette méthode appartient à la catégorie des méthodes quasi expérimentales. La différence moyenne entre le résultat (Y) des unités soumises au traitement et des unités de comparaison appariées constitue l’impact estimé du programme. En résumé, l’impact du programme est estimé en comparant la moyenne des résultats du groupe de traitement (les participants) à la moyenne des résultats d’un groupe d’unités statistiquement semblables appariées sur la base des carac- téristiques observées dans la base de donnée disponible. Pour que l’appariement par le score de propension débouche sur des estima- tions valides de l’impact d’un programme, toutes les unités du groupe de traite- ment doivent pouvoir être appariées à une unité non participante2. Cependant, il arrive souvent que pour certaines unités participantes, aucune unité non inscrite ne présente un score de propension similaire. En termes techniques, il s’agit d’un problème de « support commun » entre les scores de propension du groupe de traitement et du groupe des non participants. La �gure 7.2 illustre ce problème de « support commun ». En premier temps, la probabilité que chaque unité de l’échantillon participe au programme est esti- mée sur la base des caractéristiques observées. Un score de propension est alors attribué à chaque unité. Le score de propension est la probabilité estimée que cette unité participe au programme. La �gure illustre la distribution des scores de propension pour les participants et les non participants. Les deux distribu- tions ne se chevauchent pas parfaitement. Pour un score de propension moyen, l’appariement est facile, car les participants et les non participants présentent des caractéristiques similaires. Toutefois, les unités dont le score de propension estimé est proche de zéro ou de un ne peuvent être appariées à un non partici- pant. Intuitivement, les unités qui ont de fortes chances de participer au pro- gramme sont tellement différentes des non participants qu’aucune unité correspondante ne peut être trouvée. Le problème de support commun concerne donc les extrémités de la distribution des scores de propension. Appariement 109 Figure 7.2 Appariement par le score de propension et support commun Non-inscrits Inscrits Densité Support commun 0 Score de propension 1 Jalan et Ravallion (2003a) résument les étapes à suivre pour effectuer un appariement par le score de propension3. Premièrement, il faut disposer d’en- quêtes représentatives hautement comparables permettant d’identi�er à la fois les participants au programme et les non inscrits. Deuxièmement, il faut regrou- per les deux échantillons et estimer la probabilité que chaque individu participe au programme sur la base des caractéristiques observées dans les données. Cette étape permet d’obtenir le score de propension. Troisièmement, il faut limiter l’échantillon aux unités pour lesquelles il existe un support commun dans la dis- tribution des scores de propension. Quatrièmement, il s’agit d’identi�er, pour chaque unité participante, un sous-groupe d’unités non participantes présentant des scores de propension similaires. Cinquièmement, les résultats des unités participantes peuvent être comparés à ceux des unités non participantes appa- riées. La différence entre les résultats moyens des deux sous-groupes corres- pond à l’impact du programme pour l’observation concernée. Sixièmement, la moyenne de ces impacts individuels constitue l’estimation de l’impact moyen du traitement. En résumé, il convient de retenir deux points importants concernant l’apparie- ment. Premièrement, l’appariement doit être effectué en utilisant les caractéris- tiques des données de référence collectées avant la mise en place du programme. Deuxièmement, la qualité des résultats obtenus par la méthode d’appariement dépend en grande partie de la qualité des caractéristiques utilisées, et il est donc essentiel de disposer de bases de données très complètes. 110 L’évaluation d’impact en pratique Utilisation des techniques d’appariement pour le Programme de subvention de l’assurance maladie (PSAM) Maintenant que vous comprenez les techniques d’appariement, vous vous demandez comment améliorer les précédentes estimations de l’impact du programme de subven- tion de l’assurance maladie (PSAM). Vous décidez d’utiliser certaines techniques d’ap- pariement pour sélectionner des groupes de ménages participants et non participants présentant des caractéristiques observées similaires. Vous estimez tout d’abord la pro- babilité qu’une unité participe au programme sur la base de caractéristiques observées (des « variables explicatives »), telles que l’âge du chef de famille et de son conjoint, leur niveau d’éducation, le genre du chef de famille, l’appartenance du ménage à la popula- tion autochtone, etc. Comme l’illustre le tableau 7.1, la probabilité qu’un ménage parti- cipe au programme est moindre s’il est plus âgé, s’il a plus d’éducation, s’il est dirigé par une femme ou s’il possède une salle de bains ou une plus grande super�cie de terres. En  revanche, l’appartenance à la population autochtone, le nombre plus élevé de membres dans le ménage et l’existence d’un sol en terre battue dans le logement sont autant de facteurs qui sont positivement corrélés à la probabilité de participation au Tableau 7.1 Estimation du score de propension sur la base des caractéristiques observées Variable dépendante : Participant = 1 Caractéristiques/variables explicatives Coef�cient Âge du chef du ménage (en années) −0,022** Âge du conjoint (en années) −0,017** Niveau d’éducation du chef du ménage (en années) −0,059** Niveau d’éducation du conjoint (en années) −0,030** Le chef du ménage est une femme = 1 −0,067 Autochtone = 1 0,345** Nombre de personnes dans le ménage 0,216** Sol en terre battue = 1 0,676** Salle de bains = 1 −0,197** Hectares de terre −0,042** Distance de l’hôpital (en km) 0,001* Constante 0,664** Remarque : régression probit. La variable dépendante correspond à 1 si le ménage participe au PSAM et à 0 s’il n’y participe pas. Les coef�cients représentent la contribution de chaque caractéristique/ variable explicative considérée dans la probabilité qu’un ménage participe au PSAM. * Seuil de signi�cation de 5 % ; ** Seuil de signi�cation de 1 %. Appariement 111 Tableau 7.2 Cas 7—Impact du PSAM selon la méthode d’appariement (comparaison des moyennes) Non- participants Participants appariés Différence Stat. de t Dépenses de santé des ménages 7,8 16,1 −8,3 −13,1 Tableau 7.3 Cas 7— Impact du PSAM selon la méthode d’appariement (analyse de régression) Régression linéaire multivariée Impact estimé sur les dépenses −8,3** de santé des ménages (0,63) Remarque : erreurs-types entre parenthèses. ** Seuil de signi�cation de 1 %. programme. Dans l’ensemble, il semblerait donc que les ménages les plus pauvres et les moins éduqués soient plus susceptibles de participer au programme, ce qui parait encourageant étant donné que le programme cible les ménages pauvres. Maintenant que vous avez estimé la probabilité que chaque ménage participe au programme (leur score de propension), vous limitez l’échantillon aux ménages par- ticipants et non participants que vous pouvez apparier. Pour chaque ménage partici- pant, vous identi�ez un sous-groupe de ménages non participants présentant des scores de propension similaires. Le tableau 7.2 compare les résultats moyens pour les ménages participants et les ménages non participants qui leur ont été appariés. Pour obtenir une estimation d’impact en utilisant la méthode d’appariement, vous devez tout d’abord calculer l’impact individuel pour chaque ménage parti- cipant (en le comparant au ménage non participant apparié) puis calculer la moyenne de ces impacts individuels. Selon le tableau 7.3, l’impact estimé grâce à ce procédé correspond à une réduction de 8,3  dollars des dépenses de santé des ménages. QUESTION 7 A. Quelles sont les hypothèses fondamentales qui sous-tendent le résultat du cas 7 ? B. Comparez le résultat du cas 7 à celui du cas 3. Pourquoi, selon vous, sont-ils si différents ? , C. Au vu des résultats pour le cas 7 le PSAM doit-il être élargi à l’échelle nationale ? 112 L’évaluation d’impact en pratique La méthode d’appariement en pratique La méthode d’appariement nécessite de grandes bases de données et présente d’autres limites sur le plan statistique, mais elle demeure une méthode relativement polyvalente qui a été utilisée pour évaluer des programmes de développement dans plusieurs contextes. Deux exemples sont décrits en détail dans les encadrés 7.1 et 7.2. Encadré 7.1 : Programme d’emploi public et revenus en Argentine Jalan et Ravallion (2003a) utilisent des tech- dont le chef est un homme, plus susceptibles niques d’appariement par le score de propen- aussi d’être des membres actifs d’associa- sion pour évaluer l’impact du programme d’em- tions de quartier. ploi public argentin A Trabajar sur les revenus. Après avoir estimé les scores de propen- En réponse à la crise macroéconomique de sion, les auteurs restreignent leur analyse à la 1996-1997 en Argentine, le gouvernement région de la distribution des scores de propen- lance rapidement le programme A Trabajar sans sion où il existe un support commun entre les avoir recours à des techniques de sélection participants et les non participants. En appa- aléatoire ni collecter des données de base. Par riant les participants aux non participants ayant conséquent, Jalan et Ravallion (2003a) utilisent les scores les plus proches et en calculant la des techniques d’appariement pour évaluer moyenne des différences de revenus entre l’impact du programme. Dans ce contexte, les tous ces groupes appariés, les auteurs esti- techniques d’appariement servent aussi à ana- ment que le programme entraine une hausse lyser si les gains de revenus des ménages va- moyenne des revenus équivalant à environ la rient en fonction du revenu avant l’intervention. moitié du salaire du programme public d’em- , Au milieu de 1997 une enquête est réali- ploi. Les chercheurs véri�ent la stabilité des sée auprès des participants et des non partici- résultats en utilisant plusieurs procédures d’ap- pants. A�n d’estimer l’impact du programme à pariement. Ils soulignent néanmoins que leurs l’aide de l’appariement par le score de propen- estimations peuvent être biaisées par certaines sion, Jalan et Ravallion mesurent environ caractéristiques non observées. En effet, l’utili- 200 caractéristiques des ménages et des sation des méthodes d’appariement ne permet communautés. L ’estimation des scores de jamais d’exclure la possibilité d’un biais impu- propension montre que les participants au table à des variables non observées, ce qui programme sont plus pauvres, plus suscep- constitue leur principale limite. tibles d’être mariés, membres de ménage Source : Jalan et Ravallion 2003a. Appariement 113 Encadré 7.2 : Eau courante et santé infantile en Inde Jalan et Ravallion (2003b) utilisent les méthodes le score de propension à la fois au niveau indivi- d’appariement pour étudier l’impact de l’accès duel et au niveau des villages. Ils déterminent à l’eau courante sur la prévalence et la durée le score de propension en estimant la probabi- des cas de diarrhée chez les enfants de moins lité d’avoir accès à l’eau courante par le biais de de cinq ans dans les zones rurales en Inde. Les la campagne nationale. chercheurs évaluent notamment si l’impact de L’évaluation conclut que l’accès à l’eau cou- l’extension de l’accès à l’eau dépend des rante entraîne une réduction des cas de diar- niveaux de revenus ou d’éducation. Cet impact rhée : la prévalence de diarrhée serait 21 % est dif�cile à mesurer, car il peut également plus élevée et leur durée 29 % plus longue en dépendre de comportements parentaux eux l’absence d’eau courante. Toutefois, ces aussi susceptibles de réduire l’incidence de la impacts ne sont pas observés dans les groupes diarrhée, comme par exemple faire bouillir à faible revenu, sauf si la femme du foyer a un l’eau, assurer une bonne alimentation ou utili- niveau de scolarité supérieur à l’école primaire. ser des sels de réhydratation orale lorsqu’un Jalan et Ravallion découvrent que l’impact de enfant est malade. l’eau courante sur la santé est plus prononcé Les chercheurs utilisent des données dans les ménages où les femmes sont mieux issues d’une grande enquête d’éducation et de éduquées. Ils concluent qu’il est important de santé menée en 1993-1994 par le National combiner des investissements dans les infras- Council of Applied Economic Research auprès tructures, comme les réseaux d’eau, avec de 33 000 ménages ruraux de 16 états indiens. d’autres programmes visant à améliorer l’édu- Cette importante base de données permet aux cation et à réduire la pauvreté. chercheurs de procéder à un appariement par Source : Jalan et Ravallion 2003a. Limites de la méthode d’appariement Même s’il est possible de procéder à un appariement dans de nombreux contextes et indépendamment des règles d’assignation du programme, cette méthode présente de sérieuses faiblesses. Premièrement, ces procédures exigent la collecte de grandes bases de données cou- vrant des échantillons importants. Même si ces bases de données existent, il existe tou- jours un risque de manque de support commun entre le groupe de traitement et les non participants. Deuxièmement, l’appariement ne peut être effectué que sur la base des caractéristiques observées. Par dé�nition, il n’est pas possible d’intégrer des caractéris- tiques non observées dans le calcul du score de propension. Ainsi, pour former un groupe de comparaison valide à l’aide de la procédure d’appariement, il faut être sûr qu’il n’existe aucune différence systématique dans les caractéristiques non observées susceptible d’influencer le résultat (Y) entre les participants et des non participants4. 114 L’évaluation d’impact en pratique Il n’est pas possible de prouver qu’il n’y a pas de caractéristiques non observées suscep- tibles d’influer sur la participation et sur les résultats ; il faut donc le supposer. Il s’agit en général d’une hypothèse très audacieuse. L’appariement permet de tenir compte des caractéristiques observées ; mais ne peut cependant en aucun cas exclure l’existence d’un biais dû aux caractéristiques non observées. En résumé, cette hypothèse selon laquelle il n’existe aucun biais de sélection découlant des caractéristiques non obser- vées est très contraignante et ne peut pas être véri�ée, ce qui est problématique. L’appariement est généralement moins �able que les autres méthodes d’évalua- tion déjà évoquées. Par exemple, les méthodes de sélection aléatoire ne reposent pas sur l’hypothèse invéri�able selon laquelle il n’existe pas de variables non observées associées tant à la participation au programme qu’aux résultats. En outre, l’assigna- tion aléatoire ne nécessite pas d’échantillons aussi importants ni de caractéristiques de base aussi nombreuses que la méthode d’appariement. Dans la pratique, les méthodes d’appariement sont généralement utilisées lorsque la sélection aléatoire, le modèle de discontinuité de la régression et la double diffé- rence ne peuvent pas être utilisés. De nombreux évaluateurs utilisent l’appariement a  posteriori lorsqu’aucune donnée de base n’est disponible sur le résultat ou les caractéristiques des participants. Ils utilisent une enquête réalisée après le lance- ment du programme (a posteriori) pour déduire quelles étaient les caractéristiques de la population au départ (par exemple âge, situation de famille), puis ils apparient le groupe de traitement à un groupe de comparaison à partir de ces caractéristiques. Cette approche n’est pas sans risque puisqu’ils peuvent, involontairement, effectuer un appariement sur la base de caractéristiques qui ont été affectées par le pro- gramme, ce qui remettrait en question la validité ou l’objectivité de l’estimation. En revanche, l’appariement à partir des caractéristiques observées dans une enquête de référence collectée avant la mise en œuvre d’un programme peut être très utile s’il est combiné à d’autres techniques comme celle de la double différence, qui tient compte de l’hétérogénéité invariable dans le temps ou non observée. L’ap- pariement est aussi plus utile lorsque la règle d’assignation du programme est connue, auquel cas il peut être effectué sur la base de cette règle (voir chapitre 8). Les lecteurs auront ici compris qu’il est préférable de concevoir l’évaluation d’im- pact avant la mise en œuvre d’un programme. Une fois le programme mis en œuvre, s’il n’est pas possible d’influencer la façon dont il est attribué et qu’aucune donnée de base n’a été collectée, il restera peu — voire pas — de possibilités d’évaluation �ables. Notes 1. Dans la pratique, de nombreuses dé�nitions de ce qui constitue le score de propension le « plus proche » sont utilisées pour réaliser l’appariement. Les unités de comparaison les plus proches peuvent être dé�nies sur la base d’une strati�cation du score de propension (identi�cation des voisins les plus proches de l’unité de traitement soit en fonction de la distance ou d’un rayon dé�ni) ou en utilisant des techniques non-paramétriques (kernel). Il est conseillé de véri�er la robustesse des résultats obtenus par divers algorithmes d’appariement. Appariement 115 2. La section de ce manuel consacrée à l’appariement se concentre principale- ment sur l’appariement simple (d’une unité à une autre). D’autres types d’appariement, comme l’appariement d’un à plusieurs ou l’appariement avec ou sans remplacement ne sont pas abordés. Dans tous les cas, l’intuition fondamentale décrite ici s’applique. 3. Rosenbaum (2002) présente une revue détaillée des méthodes d’appariement. 4. Pour les lecteurs versés en économétrie, ceci implique que la participation est indépendante du résultat en conditionnant sur les caractéristiques utilisées pour l’appariement. Références Jalan, Jyotsna et Martin Ravallion. 2003a. « Estimating the Bene�t Incidence of an Antipoverty Program by Propensity-Score Matching. » Journal of Business & Economic Statistics 21 (1) : 19–30. ———. 2003 b. « Does Piped Water Reduce Diarrhea for Children in Rural India? » Journal of Econometrics 112 (1) : 15373. Rosenbaum, Paul. 2002. Observational Studies. 2e éd. Springer Series in Statistics. New York : Springer-Verlag. Rosenbaum, Paul et Donald Rubin. 1983. « The Central Role of the Propensity Score in Observational Studies of Causal Effects. » Biometrika 70 (1) : 41–55. 116 L’évaluation d’impact en pratique CHAPITRE 8 Combinaisons de méthodes Nous avons vu que la plupart des méthodes d’évaluation d’impact ne produisent des estimations valides du contrefactuel que sous certaines hypothèses. Dès lors, le principal risque d’utiliser une méthode donnée est que les hypothèses sur les- quelles elle repose ne soient pas valables et que l’estimation de l’impact du pro- gramme soit par conséquent incorrecte. Dans cette section, nous allons résumer ces potentiels problèmes méthodologiques et évoquer les stratégies qui permet- tent de réduire le risque de biais. Étant donné que ce risque découle principale- ment de violations des hypothèses sous-jacentes, nous allons nous concentrer sur les approches pour véri�er ces hypothèses. Il est possible de véri�er la validité des hypothèses qui sous-tendent un certain nombre de méthodes d’évaluation. Pour d’autres méthodes, la véracité des hypo- thèses ne peut jamais être établie avec certitude, mais différents tests de falsi�cation peuvent contribuer à suggérer que ces hypothèses sont bel et bien valables. Les tests de falsi�cation sont comparables à des tests de résistance : en cas d’échec, il y a de fortes chances que les hypothèses sous-tendant la méthode soient inexactes dans un contexte donné. En revanche, un test réussi n’apporte qu’une indication partielle de la véracité des hypothèses. L’encadré 8.1 présente une liste de tests de véri�cation et de falsi�cation qui peuvent être utilisés pour évaluer la pertinence d’une méthode d’évaluation dans un contexte particulier. La liste contient certaines questions pratiques dont les réponses peuvent être obtenues en analysant les données de l’enquête de base. 117 Encadré 8.1 : Liste des tests de véri�cation et de falsi�cation Assignation aléatoire caractéristiques des deux groupes en utili- L’assignation aléatoire est considérée comme la sant les données de base. méthode la plus rigoureuse pour évaluer le • La campagne de promotion augmente-t-elle contrefactuel. Il s’agit de « l’étalon-or » de l’éva- signi�cativement la participation au pro- luation d’impact. De simples tests sont toutefois gramme ? Elle le devrait. Comparez les taux de nécessaires pour jauger de la validité de cette participation au programme entre le groupe stratégie d’évaluation dans un contexte donné. ayant reçu une promotion et le groupe ne • Les caractéristiques sont-elles équilibrées l’ayant pas reçu. dans les données de référence ? Comparez • La campagne de promotion a-t-elle un effet les caractéristiques du groupe de traite- direct sur les résultats ? Elle ne devrait pas ment à celles du groupe de comparaison en en avoir. Ceci ne peut généralement pas être utilisant les données de basea. testé directement et il faut donc se �er aux • Les unités ont-elles totalement adhéré au théories existantes et au bon sens. résultat de l’assignation aléatoire ? Véri�ez si Modèle de discontinuité de la régression toutes les unités éligibles ont bien béné�cié Pour pouvoir utiliser le modèle de discontinuité de du programme et qu’aucune unité non éligible la régression, il faut que l’indice d’éligibilité soit n’en a béné�cié. Si l’adhérence n’est pas continu aux alentours du seuil d’éligibilité et que totale, utilisez la méthode de l’offre aléatoire. les unités proches du seuil soient comparables. • Le nombre d’unités dans le groupe de trai- • L’indice est-il continu aux alentours du seuil tement et dans le groupe de comparaison d’éligibilité dans les données de référence ? est-il assez important ? Si ce n’est pas le cas, considérez combiner l’assignation aléa- • L’adhérence au seuil d’éligibilité est-elle toire et la double différence. totale ? Véri�ez si toutes les unités éligibles ont béné�cié du programme et qu’aucune Offre aléatoire unité non éligible n’en a béné�cié. Si vous Si l’adhérence n’est pas totale, l’assignation découvrez que l’adhérence au seuil d’éligibilité aléatoire revient à l’offre aléatoire. n’est pas totale, combinez le modèle de dis- • Les caractéristiques sont-elles équilibrées continuité de la régression avec des tech- dans les données de référence ? Comparez niques plus sophistiquées pour corriger cette les caractéristiques des unités auxquelles le « discontinuité floue » (“fuzzy discontinuity� programme a été offert à celles des unités en anglais)b. auxquelles il n’a pas été offert en utilisant Double différence (DD) les données de base. La méthode de la double différence part du Promotion aléatoire principe que les tendances du résultat sont si- La promotion aléatoire fournit une estimation milaires pour le groupe de traitement et le valide du contrefactuel si la campagne de pro- groupe de comparaison avant l’intervention, et motion augmente substantiellement la partici- que les seuls facteurs à l’origine de change- pation au programme sans influencer directe- ments du résultat entre les deux groupes sont ment le résultat à l’étude. constants dans le temps. • Les caractéristiques des unités recevant la • Les résultats du groupe de traitement et du campagne de promotion et celles ne la groupe de comparaison auraient-ils évolué en recevant pas sont-elles équilibrées dans parallèle en l’absence du programme ? Il est l’enquête de référence ? Comparez les possible de répondre à cette question en utili- (suite) 118 L’évaluation d’impact en pratique Encadré 8.1 suite sant plusieurs tests de falsi�cation : 1) Les Appariement résultats du groupe de traitement et du groupe L’appariement repose sur l’hypothèse selon la- de comparaison évoluent-ils en parallèle avant quelle les unités participantes et les unités non l’intervention ? Si deux rondes de données participantes sont similaires au niveau des va- sont disponibles avant le lancement du pro- riables non observées qui pourraient affecter gramme, véri�ez si les tendances des deux leur probabilité de participation au programme groupes divergent. 2) Qu’en est-il des faux et le résultat (Y). résultats qui ne devraient pas être affectés par • La participation au programme est-elle déter- le programme ? Évoluent-ils en parallèle avant minée par des variables non observables ? et après l’intervention pour le groupe de traite- Ceci ne peut généralement pas être directe- ment et pour le groupe de comparaison ? ment véri�é et il faut donc se �er aux théo- • Effectuez l’analyse de la double différence ries existantes et au bon sens. en utilisant plusieurs groupes de comparai- • Les caractéristiques observées des groupes son plausibles. Obtenez-vous des estima- appariés sont-elles bien équilibrées ? Compa- tions similaires de l’impact du programme ? rez les caractéristiques observées de chaque • Effectuez l’analyse de la double différence unité du groupe de traitement et de son unité en utilisant le groupe de traitement et le appariée du groupe de comparaison. groupe de comparaison de votre choix et un • Pouvez-vous apparier chaque unité de traite- faux résultat qui ne devrait pas être affecté ment avec une unité de comparaison ? Véri- par le programme. Vous devriez obtenir un �ez qu’il existe un support commun suf�sant impact nul du programme sur ce résultat. dans la distribution des scores de propension. • Effectuez l’analyse de la double différence Un support commun limité indique que les en utilisant la variable de résultat de votre participants et les non participants sont très choix et deux groupes qui n’ont pas été différents, suggérant que l’appariement n’est affectés par le programme. Vous devriez peut-être pas la méthode la plus pertinente. obtenir un impact nul du programme. a. Comme nous l’avons déjà indiqué, pour des raisons statistiques, il n’est pas nécessaire que toutes les carac- téristiques observées dans le groupe de traitement et dans le groupe de comparaison soient similaires pour que l’assignation aléatoire puisse être considérée comme ef�cace. Même si les caractéristiques des deux groupes sont entièrement similaires, on peut s’attendre à ce que 5 % des caractéristiques présentent une différence statistiquement signi�cative en utilisant un niveau de con�ance de 95 % pour le test. b. Nous n’aborderons pas cette technique dans ce manuel, mais elle consiste à combiner le modèle de disconti- nuité de la régression avec une variable instrumentale. Il s’agit d’utiliser le seuil d’éligibilité comme variable instrumentale pour la participation effective des unités au programme dans la première étape d’une méthode des moindres carrés à deux étapes. Combinaisons de méthodes Même si toutes les méthodes d’évaluation comportent des risques de biais, il est par- fois possible de les limiter en combinant plusieurs méthodes. La combinaison de plusieurs méthodes permet en effet de compenser les limites d’une méthode donnée et ainsi de renforcer la solidité de l’estimation du contrefactuel. Combinaisons de méthodes 119 La double différence appariée (DD appariée) est un exemple de combinaison de méthodes. Comme mentionné ci-dessus, le simple appariement par le score de pro- pension ne tient pas compte des caractéristiques non observées qui peuvent expli- quer pourquoi un groupe a choisi de participer à un programme et qui sont également susceptibles d’affecter les résultats. En revanche, la combinaison de l’appariement et de la double différence permet au moins de contrôler pour les caractéristiques non observées qui sont constantes dans le temps pour les deux groupes. Elle est appli- quée comme suit : • Premièrement, effectuez l’appariement sur la base des caractéristiques observées dans les données de base (voir chapitre 7). • Deuxièmement, appliquez la méthode de la double différence a�n d’estimer un contrefactuel pour le changement du résultat pour chaque sous-groupe d’unités appariées. • Troisièmement, calculez la moyenne de ces doubles différences pour tous les sous-groupes. L’encadré 8.2 fournit un exemple concret d’évaluation basée sur la méthode de la double différence appariée. Il est également possible de combiner le modèle de discontinuité de la régression et la double différence. Souvenez-vous que le modèle de discontinuité de la régression part du principe que les unités aux alentours du seuil d’éligibilité sont très similaires. Dans la mesure où des différences demeurent entre les unités des deux côtés du seuil d’éligibilité, l’utilisation de la double différence permet de contrôler pour les diffé- rences dans les caractéristiques non observées constantes dans le temps. La combi- naison du modèle de discontinuité de la régression et de la double différence peut être appliquée en calculant la double différence du résultat pour les unités de part et d’autre du seuil d’éligibilité. Adhérence non totale Une différence entre le traitement prévu et le traitement effectif pour certaines uni- tés signi�e que l’adhérence au programme n’est pas totale. Nous avons abordé ce point dans le contexte de l’assignation aléatoire, mais il s’agit d’un problème qui peut concerner la plupart des méthodes d’évaluation d’impact. Avant de pouvoir inter- préter l’impact estimé à l’aide d’une méthode, quelle qu’elle soit, vous devez déter- miner si l’adhérence au programme est totale ou pas. L’adhérence n’est pas totale dans deux cas distincts : 1) certaines unités ciblées peuvent ne pas avoir participé au traitement et 2) certaines unités de comparaison peuvent avoir participé au traitement. L’adhérence peut ne pas être totale pour plusieurs raisons : • Tous les participants ciblés par le programme n’y participent pas. Parfois, les unités auxquelles le programme est proposé choisissent de ne pas y participer. • Le programme n’est pas offert à certains participants ciblés en raison d’une erreur administrative ou de mise en œuvre. 120 L’évaluation d’impact en pratique Encadré 8.2 : Double différence appariée Sols en ciment, santé infantile et bonheur maternel au Mexique Le programme Piso Firme au Mexique propose face totale au sol couverte par du ciment pour d’installer jusqu’à 50 mètres carrés de sol en prédire qu’un remplacement intégral des sols en ciment dans les logements dont le sol est en terre battue par des sols en ciment dans les terre battue. Piso Firme a été lancé comme un logements entraînerait une réduction de 78 % programme local dans l’État de Coahuila avant des infections parasitaires, de 49 % des cas de d’être adopté à l’échelle nationale. Cattaneo et diarrhée et de 81 % des cas d’anémie tout en al. (2009) pro�tent de la variation géographique augmentant le développement cognitif de 36 % dans la distribution du programme pour évaluer à 96 %. Les auteurs collectent également des l’impact de l’amélioration des logements sur la données sur les conditions de vie des adultes et santé et les conditions de vie. découvrent que les sols en ciment rendent aussi Les chercheurs utilisent la méthode de la les mères plus heureuses, ce qui se manifeste double différence combinée à celle de l’apparie- par une augmentation de 59 % de la satisfaction ment pour comparer les ménages de Coahuila à à l’égard du logement, de 69 % de satisfaction à des foyers similaires dans l’État voisin de l’égard de la qualité de vie, et par une baisse de Durango où, à l’époque de la réalisation de l’en- 52 % du score obtenu sur une échelle d’évalua- quête, le projet n’avait pas encore été mis en tion de la dépression et de 45 % du score œuvre. Pour améliorer la comparabilité entre le obtenu sur l’échelle d’évaluation du stress. groupe de traitement et le groupe de comparai- Cattaneo et al. (2009) concluent leur rapport son, les chercheurs limitent leur échantillon aux en montrant que le programme Piso Firme a eu ménages des villes voisines se situant de un impact absolu plus marqué sur le dévelop- chaque côté de la frontière entre les deux États. pement cognitif des enfants pour un coût infé- Ils prélèvent leurs échantillons dans les quar- rieur à celui du programme national mexicain tiers des deux villes présentant des caractéris- de transferts monétaires conditionnels (Opor- tiques similaires avant l’intervention au moment tunidades/Progresa) et d’autres programmes du recensement de 2002. comparables de suppléments alimentaires ou En utilisant l’offre de sol en ciment comme de stimulation cognitive pour les enfants en une variable instrumentale pour la possession bas âge. Les sols en ciment ont également un effective d’un sol en ciment, les chercheurs esti- effet préventif sur les infections parasitaires ment le traitement sur les traités à partir des plus ef�cace que les traitements vermifuges estimations de l’intention de traiter et décou- habituels. Les auteurs indiquent que les pro- vrent que le programme entraine une réduction grammes visant à remplacer les sols en terre de 18,2 % de la présence de parasites, de battue par des sols en ciment constituaient un 12,4 % de la prévalence de la diarrhée et de moyen abordable d’améliorer la santé infantile 19,4 % de la prévalence d’anémie. Ils sont par dans des contextes similaires. ailleurs en mesure d’utiliser la variation de la sur- Source : Cattaneo et al. 2009. Combinaisons de méthodes 121 • Le programme a été proposé par erreur à des unités du groupe de comparaison, qui y participent. • Certaines unités du groupe de comparaison parviennent à participer au pro- gramme bien qu’il ne leur soit pas proposé, ce qui est parfois caractérisé de débor- dement ou de « contamination » du groupe de comparaison. Si les effets de débor- dements touchent une grande partie du groupe de comparaison, il peut devenir impossible d’obtenir une estimation objective du contrefactuel. • L’assignation du programme repose sur un score continu, mais le seuil d’éligibi- lité n’est pas strictement respecté. • Une migration sélective s’opère en raison du programme. Par exemple, la mé- thode de la double différence peut être utilisée pour comparer les résultats des municipalités traitées et non traitées, mais certains particuliers peuvent choisir de se déplacer d’une municipalité à l’autre s’ils n’apprécient pas qu’elle reçoive ou non le programme. En général, si l’adhérence n’est pas totale, les méthodes d’évaluation d’impact stan- dard produisent des estimations de l’intention de traiter. Les estimations du traite- ment sur les traités peuvent toutefois être calculées à partir des estimations de l’intention de traiter en utilisant une variable instrumentale. Au chapitre 4, nous avons présenté l’intuition pour faire face au manque d’adhé- rence totale dans le contexte de l’assignation aléatoire. En ajustant le pourcentage des adhérents dans l’échantillon d’évaluation, nous sommes en mesure de mesurer l’impact du traitement sur les traités à partir de l’estimation de l’intention de traiter. Cette technique peut s’appliquer à d’autres méthodes en utilisant l’approche plus générale de variable instrumentale. La variable instrumentale est une variable qui permet de résoudre ou de corriger le manque d’adhérence totale. Dans le cas de l’offre aléatoire, nous utilisons une variable 0/1 (ou variable binaire) dont la valeur est un si l’unité était initialement incluse dans le groupe de traitement et zéro si elle était initialement intégrée au groupe de comparaison. Au moment de l’analyse, la variable instrumentale est souvent utilisée dans le contexte d’une régression en deux étapes qui permet de déterminer l’impact du traitement sur les adhérents. La logique de la technique de variable instrumentale peut être appliquée à d’autres méthodes d’évaluation : • Dans le contexte du modèle de discontinuité de la régression, la variable instru- mentale à utiliser est une variable 0/1 qui indique où se situe une unité par rap- port au seuil d’éligibilité. • Dans le contexte de la double différence et de la migration sélective, la localisa- tion d’un individu avant l’annonce du programme peut servir de variable ins- trumentale pour la localisation de l’individu après le lancement du programme. 122 L’évaluation d’impact en pratique Bien qu’il soit possible de « corriger » un manque d’adhérence totale en utilisant des variables instrumentales, il convient de souligner deux points : 1. D’un point de vue technique, il n’est pas souhaitable qu’une large proportion du groupe de comparaison participe au programme. Les évaluateurs et les décideurs impliqués dans l’évaluation d’impact doivent travailler ensemble pour faire en sorte de limiter cette proportion. 2. La méthode à variable instrumentale n’est valide que dans certaines circons- tances et ne constitue pas une solution universelle. Effets de diffusion Même si le groupe de comparaison ne participe pas directement au programme, il peut béné�cier indirectement d’un effet de diffusion (ou de débordement) décou- lant du groupe de traitement. Kremer et Miguel (2004) examinent l’impact de la distribution de médicaments vermifuges aux enfants dans les écoles kenyanes et présentent un exemple intéressant de ce phénomène (encadré 8.3). Les vers intes- tinaux sont des parasites qui peuvent être transmis d’une personne à l’autre par contact avec des matières fécales contaminées. Lorsqu’un enfant prend des médi- caments vermifuges, son degré d’infestation par les vers diminue. Les personnes vivant dans le même environnement que cet enfant sont à leur tour en contact avec moins de vers. Ainsi, dans l’exemple kenyan, la distribution de vermifuges aux enfants d’une école béné�cie non seulement aux enfants de cette école (un effet direct), mais également à ceux des écoles voisines (un effet indirect). Comme le montre la �gure  8.1, la distribution de vermifuges aux écoles du groupe A permet de réduire le nombre de vers chez les enfants des écoles du groupe B ne participant pas au programme, mais se situant à proximité des écoles du groupe A. En revanche, les écoles non participantes éloignées des écoles du groupe A (écoles du groupe C) ne sont pas touchées par les effets de diffusion, car la distribution de médicaments au groupe A n’a pas d’effet indirect sur les vers touchant le groupe C. Kremer et Miguel (2004) concluent que le traitement vermifuge réduit fortement le taux d’absentéisme non seulement dans les écoles participant au programme (com- paraison entre le groupe A et le groupe C), mais également dans les écoles non parti- cipantes voisines (comparaison entre le groupe B et le groupe C). Quand des effets de débordements sont possibles, il est important que l’évalua- teur véri�e qu’ils n’affectent pas l’ensemble du groupe de comparaison. Pour autant que suffisamment d’unités de comparaison ne soient pas affectées par les effets de diffusion (le groupe  C dans l’exemple du traitement vermifuge), vous pourrez estimer l’impact du programme en comparant les résultats des unités du groupe de traitement et ceux des unités du groupe de comparaison non affecté. L’inconvénient est que l’évaluation ne pourra pas permettre de généraliser l’esti- mation des effets du traitement à l’ensemble de la population. Lors de la concep- tion de l’évaluation, si vous pensez qu’un programme engendrera des effets de débordements, vous pouvez ajuster la méthode d’évaluation a�n de produire de meilleurs résultats. Premièrement, l’évaluation doit pouvoir compter sur un Combinaisons de méthodes 123 Encadré 8.3 : Programme avec effets de diffusion Traitement vermifuge, effets externes et éducation au Kenya Le projet de traitement vermifuge dans les nalités ou effets de débordements à l’intérieur écoles primaires de Busia au Kenya a été mis en même des écoles traitées. Kremer et Miguel œuvre par l’organisation néerlandaise à but non (2004) concluent que les externalités à l’inté- lucratif Child Support Africa en coopération avec rieur même des écoles traitées entrainent une le ministère de la Santé. Il est conçu pour étu- réduction de 12 points d’infections modérées à dier divers aspects de la prévention et du traite- élevées tandis que l’effet direct supplémen- ment vermifuges. Le projet couvre initialement taire lié à la prise de médicament vermifuge 75 écoles, soit plus de 30 000 élèves âgés de correspond à 14 points supplémentaires. Par six à 18 ans. Les écoles béné�cient de distribu- ailleurs, en termes d’externalités entre les tion de médicaments vermifuges conformé- écoles, ils estiment à 26 points la baisse des ment aux recommandations de l’Organisation infections modérées à élevées par tranche de mondiale de la santé ainsi que d’une formation 1 000 élèves inscrits dans une école du groupe préventive comprenant des présentations sur le de traitement. Ces effets sur la santé sont éga- thème de la santé, de diagrammes muraux et de lement accompagnés d’une hausse du taux de cours destinés aux enseignants. fréquentation de l’école d’au moins 7 % et En raison de contraintes administratives et d’une réduction de l’absentéisme d’au moins �nancières, le programme a été graduellement 25 %. Aucun impact signi�catif sur les résul- déployé par ordre alphabétique, le premier tats aux examens n’est relevé. groupe de 25 écoles en béné�ciant dès 1998, Au vu du faible coût du traitement vermi- le deuxième groupe en 1999 et le troisième fuge et de ses effets relativement importants groupe en 2001. En utilisant cette assignation sur la santé et l’éducation, les chercheurs aléatoire au niveau des écoles, Kremer et concluent que le traitement vermifuge est un Miguel (2004) sont en mesure d’estimer l’im- moyen relativement rentable d’améliorer les pact du traitement vermifuge sur une école et taux de scolarisation. L ’étude indique égale- de déterminer les effets de diffusion entre les ment que les maladies tropicales comme les écoles en utilisant la variation exogène de la vers peuvent jouer un rôle important sur l’édu- proximité des écoles de comparaison au cation et renforce la théorie selon laquelle la groupe de traitement. Malgré une adhérence à forte charge de morbidité dont souffre l’Afrique l’assignation aléatoire relativement élevée contribue peut-être à son faible niveau de (75 % des élèves ciblés par le traitement vermi- revenu. Les auteurs du rapport recommandent fuge reçoivent des médicaments, contre seule- donc le renforcement des subventions ment un faible pourcentage des unités du publiques pour les traitements médicaux pré- groupe de comparaison), les chercheurs sont sentant des effets de diffusion similaires dans également en mesure d’exploiter le manque les pays en développement. d’adhérence totale pour déterminer les exter- Source : Kremer et Miguel 2004. groupe de comparaison « pur » qui permette de généraliser l’estimation de l’impact du programme. Deuxièmement, la méthodologie peut rendre possible l’estimation de l’ampleur des effets de débordements si elle génère un groupe de comparaison qui béné�cie seulement de ces effets indirects. Les débordements sont souvent intéressants au niveau politique, car ils constituent des impacts indirects des pro- grammes. 124 L’évaluation d’impact en pratique Figure 8.1 Effets de diffusion Groupe de traitement Groupe de comparaison « pur » Groupe A Groupe C Groupe B Groupe de non-inscrits affecté par les effets de diffusion La �gure  8.1 montre qu’il est possible d’estimer à la fois l’impact d’un pro- gramme et ses éventuels effets de diffusion. Les médicaments sont distribués au groupe A. Les effets du traitement se propagent au groupe B. Le groupe C est plus éloigné et ne béné�cie donc pas des effets de diffusion. Ce scénario peut être obtenu par l’assignation aléatoire du traitement entre deux unités rapprochées et à une unité similaire plus éloignée. Dans ce cadre simple, l’impact du programme peut être estimé en comparant les résultats du groupe A à ceux du groupe C, et les effets de diffusion peuvent être estimés en comparant les résultats du groupe B à ceux du groupe C. Considérations supplémentaires Outre le manque d’adhérence totale et les effets de diffusion, d’autres facteurs doi- vent être pris en compte au moment de l’élaboration d’une évaluation d’impact. Ces facteurs sont communs à la plupart des méthodologies que nous avons abor- dées et ils sont généralement plus difficiles à atténuer1. Au moment de la plani�cation d’une évaluation, il convient de déterminer le meilleur moment pour collecter les données. S’il faut attendre longtemps avant qu’un programme exerce un impact sur les résultats, collecter les données trop tôt Combinaisons de méthodes 125 peut impliquer une estimation d’impact nulle (voir par exemple King et Behrman 2009). Au contraire, si l’enquête de suivi est réalisée trop tard, vous ne serez pas en mesure d’évaluer les effets du programme à temps pour informer les décideurs. Si vous souhaitez évaluer à la fois l’impact à court terme et à long terme du pro- gramme, vous devrez collecter plusieurs rondes de données de suivi après l’inter- vention. Le chapitre  10 contient des informations complémentaires pour déterminer le calendrier de l’évaluation. Si vous souhaitez estimer l’impact d’un programme sur un groupe entier, vous risquez de passer à côté de certaines variations des impacts entre les différents béné- �ciaires du traitement. La plupart des méthodes d’évaluation partent du principe qu’un programme affecte les résultats de manière simple et linéaire pour toutes les unités de la population étudiée. Des problèmes peuvent toutefois survenir lorsque l’ampleur de la réaction dépend de façon non linéaire de l’ampleur de l’intervention ou lorsqu’un groupe recevant un traitement de forte intensité est comparé à un groupe recevant un traitement de faible intensité. Si vous pensez que différents sous- groupes sont susceptibles de réagir différemment au programme, vous pouvez envi- sager de former des échantillons séparés pour chaque sous-groupe. Admettons que vous cherchiez à connaître l’impact d’un programme de repas scolaires sur les �lles, mais qu’elles ne représentent que 10 % des élèves. Dans ce cas, il est possible que même un large échantillon d’élèves ne contienne pas un nombre suffisant de �lles pour vous permettre d’estimer l’impact du programme sur celles-ci. Il vous faudra donc strati�er votre échantillon en fonction du genre et inclure un nombre suffisant de �lles dans l’échantillon �nal pour vous permettre d’identi�er un impact donné. Lorsque vous réalisez une évaluation d’impact, il est possible que vous provo- quiez involontairement des changements de comportements au sein de la popu- lation à l’étude, ce qui peut limiter la validité externe des résultats de votre évaluation. Par exemple, l’effet Hawthorne se produit lorsque le fait même d’être observées provoque un changement de comportement chez les unités (Levitt et List 2009). L’effet John Henry se produit lorsque les unités de comparaison font des efforts supplémentaires pour compenser l’absence de traitement. L’anticipa- tion peut entraîner un autre type de comportement involontaire. Dans le cadre d’un déploiement aléatoire d’un programme, les unités du groupe de comparai- son peuvent s’attendre à béné�cier du programme à l’avenir et donc commencer à changer de comportement avant même que le programme ne leur parvienne. Si vous avez des raisons de penser que ces comportements involontaires existent, la création de groupes de comparaison supplémentaires qui ne sont en aucune façon affectés par l’intervention peut être une option qui vous permet de contrô- ler pour ces comportements, ou même de mesurer explicitement leur amplitude. 126 L’évaluation d’impact en pratique Un plan de rechange pour votre évaluation Même si on est armé de la meilleure méthode d’évaluation d’impact et qu’on est animé des meilleures intentions, les choses ne se passent pas toujours comme prévu. Dans le cadre d’un récent programme de formation professionnelle, l’or- ganisme responsable de la mise en œuvre du programme pensait que beaucoup de candidats allaient s’inscrire et avait projeté de sélectionner les participants de manière aléatoire à partir du groupe de candidats. En raison d’un taux de chô- mage élevé au sein de la population ciblée, l’organisme pensait que le nombre de candidats au programme de formation professionnelle serait nettement supé- rieur au nombre de places disponibles. Malheureusement, la campagne de pro- motion du programme a été moins efficace qu’on l’a espéré et, au �nal, le nombre de candidats s’est avéré légèrement inférieur au nombre de places disponibles. En l’absence d’un nombre suffisant de candidats pour pouvoir former un groupe de comparaison et faute d’un plan de rechange, le projet initial d’évaluation du programme a dû être abandonné. Ce type de situation est fréquent, tout comme les changements inattendus de contexte opérationnel ou politique. Il est donc utile d’avoir un plan de rechange au cas où la méthodologie choisie initialement ne peut pas être appliquée. La partie 3 du présent manuel aborde plus en détail les aspects opérationnels et politiques de l’évaluation. Plani�er plusieurs méthodes d’évaluation d’impact est également une bonne pratique méthodologique. Si vous avez des doutes qu’une méthode souffre d’un éventuel biais, l’utilisation d’une méthode complémentaire permet de véri�er les résultats. Lorsqu’un programme fait l’objet d’un déploiement aléatoire (voir cha- pitre 10), le groupe de comparaison est au �nal intégré dans le programme, ce qui limite la durée pendant laquelle le programme peut être évalué. Toutefois, si la méthode de promotion aléatoire est appliquée en plus de l’assignation aléatoire, vous disposerez d’un groupe de comparaison pour toute la durée du programme. Avant l’incorporation du dernier groupe au programme, vous aurez deux autres groupes de comparaison (ceux obtenus par l’assignation aléatoire et par la pro- motion aléatoire), bien qu’à long terme il ne vous restera plus que le groupe de comparaison généré par la promotion aléatoire. Note 1. Le chapitre 3 aborde d’autres facteurs limitant la validité externe liés aux biais d’échantillonnage ou à différents niveaux d’attrition pour le groupe de traitement et le groupe de comparaison. Combinaisons de méthodes 127 Références Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio Titiunik. 2009. « Housing, Health and Happiness. » American Economic Journal : Economic Policy 1 (1) : 75–105. King, Elizabeth M. et Jere R. Behrman. 2009. « Timing and Duration of Exposure in Evaluations of Social Programs. » World Bank Research Observer 24 (1) : 55–82. Kremer, Michael et Edward Miguel. 2004. « Worms: Identifying Impacts on Education and Health in the Presence of Treatment Externalities. » Econometrica 72 (1) : 159–217. Levitt, Steven D. et John A. List. 2009. « Was There Really a Hawthorne Effect at the Hawthorne Plant? An Analysis of the Original Illumination Experiments. » NBER Working Paper 15016, National Bureau of Economic Research, Cambridge, MA. 128 L’évaluation d’impact en pratique CHAPITRE 9 Évaluation de programmes à multiples facettes Jusqu’à présent, nous nous sommes concentrés sur des programmes qui ne com- prennent qu’un seul type de traitement. Dans la pratique, de nombreuses questions politiques pertinentes se posent concernant des programmes à multiples facettes, par exemple des programmes qui combinent plusieurs types de traitement1. Les décideurs peuvent non seulement chercher à savoir si un programme est efficace, mais aussi s’il fonctionne mieux ou est plus rentable qu’un autre. Par exemple, en vue d’accroître le taux de scolarisation, est-il plus efficace de mettre en œuvre des inter- ventions qui influencent la demande (comme les transferts monétaires aux familles) ou l’offre (une meilleure rémunération des enseignants) ? La mise en place conjointe de ces deux types d’interventions serait-elle plus efficace que chaque intervention réalisée séparément ? Autrement dit, sont-elles complémentaires ? D’autre part, si la rentabilité des programmes est une priorité, vous pouvez vous demander quel est le niveau de services optimal que le programme doit fournir. Par exemple, quelle est la durée optimale d’un programme de formation professionnelle ? Un programme de six mois permet-il à un plus grand nombre de participants de trouver un emploi qu’un programme de trois mois ? Le cas échéant, la différence de résultats est-elle suffisante pour justi�er la mobilisation des ressources supplémentaires pour mettre en œuvre un programme de six mois ? Au-delà de la simple estimation de l’impact d’une intervention sur le résultat à l’étude, les évaluations d’impact peuvent permettre de répondre à des questions plus générales : • Quel est l’impact d’un traitement comparé à l’impact d’un autre traitement ? Par exemple, quel est l’impact sur le développement cognitif des enfants d’un programme d’éducation parental en comparaison à l’impact d’un pro- gramme de nutrition ? 129 • L’impact cumulé de deux traitements est-il plus important que la somme des im- pacts de chaque traitement pris séparément  ? Par exemple, l’impact global du programme d’éducation parental et du programme de nutrition est-il plus im- portant, équivalent ou moins important que la somme des impacts des deux interventions pris séparément ? • Quel est l’impact supplémentaire d’un traitement à forte intensité comparé à un traitement à faible intensité ? Par exemple, quel est l’impact sur le développement cognitif des enfants en retard de croissance de la visite à domicile d’un travailleur social toutes les deux semaines en comparaison à une seule visite mensuelle ? Ce chapitre illustre comment élaborer des évaluations d’impact pour plusieurs types de programmes à multiples facettes : ceux qui offrent un traitement qui peut avoir une intensité variable, et ceux qui contiennent plusieurs types de traite- ments. Nous abordons dans un premier temps les méthodes d’élaboration d’éva- luation d’impact de programme avec plusieurs niveaux de béné�ces potentiels, puis nous étudierons comment distinguer les différents types d’impact d’un pro- gramme comportant plusieurs traitements. Les exemples donnés reposent sur l’utilisation du mécanisme d’assignation aléatoire, mais peuvent être également appliqués à d’autres méthodes. Évaluation de programmes à différents niveaux de traitement Il est relativement simple d’élaborer une évaluation d’impact pour un programme qui présente différents niveaux de traitement. Imaginez que vous cherchez à éva- luer l’impact d’un programme présentant deux intensités possibles du traite- ment : un niveau élevé (par exemple, des visites toutes les deux semaines) et un niveau faible (par exemple, des visites mensuelles). Vous voulez évaluer l’impact des deux options pour savoir dans quelle mesure la fréquence des visites influe sur les résultats. Pour cela, vous pouvez désigner par tirage au sort les béné�- ciaires du traitement de niveau d’intensité élevé, les béné�ciaires du traitement de faible niveau d’intensité et les membres du groupe de comparaison. La �gure 9.1 illustre ce processus. Comme pour une assignation aléatoire ordinaire, la première étape consiste à dé�nir les unités éligibles au programme. La deuxième étape consiste à sélectionner un échantillon d’unités pour l’évaluation, à savoir l’échantillon d’évaluation. Une fois l’échantillon d’évaluation créé, la troisième étape consiste à répartir les unités de façon aléatoire entre le groupe béné�ciant du traitement à intensité élevé, le groupe béné�ciant du traitement à faible intensité, et le groupe de comparaison. L’assigna- tion aléatoire des unités à différents niveaux de traitement permet d’obtenir trois groupes distincts : • Le groupe A est le groupe de comparaison. 130 L’évaluation d’impact en pratique Figure 9.1 Étapes de l’assignation aléatoire à deux niveaux de traitement É É É unités éligibles échantillon d’évaluation assignation aléatoire aux traitements de niveaux élevé et faible ble X Unités Unités non éligibles éligibles • Le groupe B reçoit le traitement de faible niveau d’intensité. • Le groupe C reçoit le traitement de niveau d’intensité élevé. Si elle est correctement effectuée, l’assignation aléatoire permet de créer trois groupes similaires. Vous pouvez donc estimer l’impact du traitement de niveau élevé en comparant le résultat moyen du groupe C à celui du groupe A. Vous pouvez éga- lement estimer l’impact du traitement de faible intensité en comparant le résultat moyen du groupe B à celui du groupe A. En�n, vous pouvez déterminer si le traite- ment de niveau élevé a un impact plus important que le traitement de faible niveau en comparant les résultats moyens des groupes B et C. L’estimation de l’impact d’un programme comportant plus de deux niveaux de traitement suit la même logique. S’il existe trois niveaux d’intensité de traitement, le processus d’assignation aléatoire donne lieu à la création de trois groupes de traite- ment en plus du groupe de comparaison. En général, pour n niveaux de traitement, vous aurez n groupes de traitement plus un groupe de comparaison. Lorsqu’il n’est pas possible de procéder à une assignation aléatoire, d’autres méthodes d’évaluation peuvent être appliquées. Toutes les méthodes d’évaluation décrites jusqu’à présent permettent d’analyser l’impact relatif de différents niveaux de traitement. Imaginons par exemple que vous souhaitiez évaluer l’im- pact de la variation du montant octroyé à des étudiants dans le cadre d’un pro- gramme de bourses d’études visant à renforcer le taux de scolarisation au niveau secondaire. Une bourse de 60 dollars est accordée aux 25 élèves de chaque école Évaluation de programmes à multiples facettes 131 obtenant les meilleurs résultats à la �n du cycle primaire, et une bourse de 45 dol- lars est accordée aux 25 suivants. Les élèves obtenant les moins bons résultats ne reçoivent pas de bourse. Dans ce contexte, un modèle de discontinuité de la régres- sion permet de comparer les résultats des élèves non seulement autour du seuil de 45 dollars, mais également autour du seuil de 60 dollars. Filmer et Schady (2009) présentent les résultats d’une évaluation de ce type réalisée au Cambodge à l’issue de laquelle ils concluent que l’impact de la bourse de 60 dollars sur le taux de sco- larisation n’est pas plus élevé que celui de la bourse de 45 dollars. Ce résultat est très important d’un point de vue politique, car il suggère qu’il est possible d’aug- menter la couverture du programme d’un tiers avec un même budget (par exemple, distribuer 20 000 bourses de 45 dollars au lieu de 15 000 bourses de 60 dollars) tout en assurant l’efficacité du programme. Évaluation de traitements multiples à l’aide d’études croisées Outre la comparaison de différentes intensités de traitement, il est également pos- sible de comparer différents types de traitement. En pratique, les décideurs préfè- rent généralement pouvoir comparer les avantages relatifs de différentes interventions plutôt que de connaître l’impact d’une seule intervention. Imaginez que vous voulez évaluer l’impact sur le taux de scolarisation d’un pro- gramme comportant deux interventions  : des transferts monétaires conditionnels aux familles des étudiants et le transport scolaire gratuit. Vous souhaitez connaître l’impact distinct de chaque intervention et savoir si la combinaison des deux serait plus efficace que la somme des impacts individuels. Le programme est proposé aux participants sous trois formes différentes : les transferts monétaires conditionnels uniquement, le transport scolaire gratuit uniquement ou une combinaison des deux. L’assignation aléatoire d’un programme comportant deux interventions est comparable à celle utilisée pour les programmes n’en comportant qu’une seule. La principale différence réside dans la nécessité d’effectuer plusieurs tirages au sort au lieu d’un seul dans ce qui s’appelle une étude croisée. La �gure 9.2 illustre ce proces- sus. Comme indiqué précédemment, la première étape consiste à dé�nir les unités éligibles au programme. La deuxième étape consiste à sélectionner un échantillon d’unités à partir de la population pour constituer l’échantillon d’évaluation. Une fois l’échantillon d’évaluation créé, la troisième étape consiste à répartir de façon aléatoire les unités entre le groupe de traitement et le groupe de comparaison. À l’étape 4, vous effectuez un deuxième tirage au sort pour sélectionner de façon aléa- toire les unités du groupe de traitement qui béné�cieront de la première interven- tion. En�n, vous effectuez un autre tirage au sort pour sélectionner un sous-groupe au sein du groupe de comparaison qui béné�ciera de la deuxième intervention, le reste du sous-groupe restant entièrement à l’écart des interventions. Le processus d’assignation aléatoire appliqué aux deux traitements permet d’ob- tenir quatre groupes, comme l’illustre la �gure 9.3. • Le groupe A béné�cie des deux interventions (transferts monétaires et trans- port scolaire). 132 L’évaluation d’impact en pratique Figure 9.2 Étapes de l’assignation aléatoire pour deux interventions É É É É unités éligibles échantillon d’évaluation assignation assignation aléatoire au aléatoire au 1er 2e Unités Unités non éligibles éligibles • Le groupe B béné�cie uniquement de l’intervention 1 (transferts monétaires). • Le groupe C béné�cie uniquement de l’intervention 2 (transport scolaire). • Le groupe D ne béné�cie d’aucune des deux interventions et constitue le groupe de comparaison « pur ». Si elle est correctement effectuée, l’assignation aléatoire permet de créer quatre groupes similaires. Vous pouvez alors estimer l’impact de la première intervention en comparant le résultat du groupe B à celui du groupe D, le groupe de comparaison «  pur  ». Vous pouvez également estimer l’impact de la deuxième intervention en comparant le résultat du groupe C à celui du groupe de comparaison non exposé. Ce processus permet également de comparer l’impact supplémentaire lié à l’assignation de la deuxième intervention sur les unités béné�ciant déjà de la première. En com- parant les résultats du groupe A et du groupe B, vous obtenez l’impact de la deu- xième intervention sur les unités qui béné�cient déjà de la première ; et en comparant les résultats du groupe A et du groupe C, on obtient l’impact de la première interven- tion sur les unités qui béné�cient de la deuxième. Évaluation de programmes à multiples facettes 133 Figure 9.3 Groupes de traitement et groupe de comparaison pour un programme à deux interventions Intervention 1 Traitement Comparaison Groupe A Groupe C Comparaison Traitement Intervention 2 Groupe B Groupe D L’explication ci-dessus se réfère au cas de l’assignation aléatoire pour décrire comment élaborer une évaluation d’impact pour un programme comportant deux interventions. Lorsqu’un programme comporte plus de deux interventions, il est possible d’augmenter le nombre de tirages au sort et continuer à subdiviser la population pour créer des groupes soumis à différentes combinaisons d’interven- tions. Il est également envisageable de réaliser des évaluations combinant plu- sieurs traitements et plusieurs niveaux de traitement. Même si le nombre de groupes augmente, la théorie reste la même. Toutefois, l’évaluation de plusieurs interventions peut présenter des difficultés pratiques à la fois au stade de l’évaluation que de la mise en œuvre du programme. En effet, le programme est plus complexe et le nombre de branches du traitement augmente exponentiellement. Pour l’évaluation d’une intervention, seuls deux groupes sont nécessaires : le groupe de traitement et le groupe de comparaison. Pour l’évaluation de deux interventions, quatre groupes sont nécessaires : trois groupes de traitement et un groupe de comparaison. Pour évaluer trois interventions en tenant compte de toutes les combinaisons possibles entre ces interventions, il faut 2 × 2 × 2 = 8 groupes. En résumé, pour qu’une évaluation couvre toutes les combinai- sons possibles entre n  interventions, il faut 2n  groupes. Par ailleurs, pour être en 134 L’évaluation d’impact en pratique Encadré 9.1 : Comparer des alternatives de programmes de prévention du VIH/sida au Kenya Duflo et al. (2006) évaluent l’impact de plusieurs programmes de prévention du VIH/sida dans deux zones rurales à l’Ouest du Kenya à l’aide d’une étude croisée. L’étude est basée sur un échantillon de 328 écoles réparties en six groupes, comme l’illustre le tableau ci-dessous qui résume la mise en œuvre du programme. Chaque groupe béné�cie d’une combinaison différente de trois traitements assi- gnés de façon aléatoire. Les traitements comprennent un programme de forma- tion des enseignants visant à renforcer leurs capacités à enseigner le programme national d’éducation sur le VIH/sida, la promotion de l’organisation de débats sur le rôle des préservatifs dans les écoles et l’organisation de concours de rédaction sur le thème de la prévention, ainsi que la réduction des frais d’éducation grâce à la distribution gratuite d’uniformes scolaires (voir tableau). Résumé de la mise en œuvre du programme Baisse des Débat sur les frais préservatifs d’éducation et rédaction (prin- Formation d’essais temps 2003 Nombre Programme des (prin- et au- Groupe d’écoles national enseignants temps 2005) tomne 2004) 1 88 Oui 2 41 Oui Oui 3 42 Oui Oui Oui 4 83 Oui 5 40 Oui Oui Oui 6 40 Oui Oui Oui Oui Les chercheurs concluent qu’au bout de deux ans, le programme de formation des enseignants n’a qu’un impact limité sur les connaissances des élèves, les activités sexuelles rapportées, l’utilisation du préservatif ou les grossesses chez les adoles- centes, bien qu’il ait amélioré l’enseignement du programme national. Les débats et les concours de rédaction renforcent les connaissances et l’utilisation des préservatifs sans augmenter les activités sexuelles rapportées. En�n, la réduction des frais d’édu- cation de par la distribution d’uniformes scolaires permet de réduire les taux d’abandon et les grossesses chez les adolescentes. Les chercheurs concluent que la distribution d’uniformes scolaires a un impact plus marqué sur la réduction des grossesses chez les adolescentes que la formation des enseignants au programme national sur le VIH/sida. Source : Duflo et al. 2006. Évaluation de programmes à multiples facettes 135 Encadré 9.2 : Comparer différents programmes de suivi de la corruption en Indonésie En Indonésie, Olken (2007) utilise une étude croisée novatrice pour étudier diffé- rentes méthodes de contrôle de la corruption, à savoir des audits gouvernemen- taux et un suivi communautaire sur le terrain. Il applique la méthodologie de l’assignation aléatoire dans plus de 600 villages où des routes allaient être construites dans le cadre d’un projet national d’amélioration des infrastructures. D’une part, l’un des traitements consiste à prévenir certains villages sélec- tionnés de manière aléatoire que leur projet de construction allait faire l’objet d’un audit par un agent gouvernemental. D’autre part, pour mesurer la participa- tion de la communauté au contrôle de la corruption, les chercheurs mettent en place deux interventions. Ils organisent des réunions de responsabilisation com- munautaire et distribuent des �ches de commentaires pouvant être remplis de façon anonyme. Pour mesurer les niveaux de corruption, une équipe indépen- dante d’ingénieurs et d’arpenteurs prélève des échantillons des nouvelles routes, estimant le coût des matériaux utilisés puis comparant les résultats obte- nus aux budgets déclarés. Olken conclut que l’augmentation des audits gouvernementaux (la probabi- lité d’audit passant d’environ 4 % à 100 %) permet de réduire les dépenses manquantes d’environ huit points (d’un point de départ de 24 %). L ’intensi�ca- tion de la participation communautaire au contrôle de la corruption exerce un impact sur l’absence des ouvriers, mais pas sur les dépenses manquantes. Les �ches de commentaires ne donnent des résultats probants que lorsqu’elles sont distribuées aux enfants à l’école pour être remis à leurs parents et non quand ils sont distribués par les chefs de village. Source : Olken, 2007. mesure de distinguer les différences de résultats entre les différents groupes, chaque groupe doit contenir un nombre suffisant d’unités pour garantir une puissance sta- tistique satisfaisante. A�n de déceler des différences entre les différentes branches de l’intervention, des échantillons plus importants seront nécessaires que pour effectuer de simples comparaisons d’un groupe de traitement et d’un groupe de comparaison. Si les deux branches du traitement entraînent des changements de résultats, des échantillons plus importants devront être constitués pour détecter d’éventuelles différences (souvent plus petites) entre les deux groupes. Finalement, les études croisées peuvent également être mises en place dans le cadre d’évaluations combinant plusieurs méthodes (encadrés 9.1 et 9.2). Les règles opérationnelles qui régissent l’assignation de chaque traitement déterminent la combinaison des méthodes à utiliser. Par exemple, le premier traitement peut être attribué sur la base d’un seuil d’éligibilité tandis que le deuxième est assigné de manière aléatoire. Dans ce cas, il est possible de réaliser un modèle de discontinuité de la régression pour la première intervention et suivre une méthode d’assignation aléatoire pour la seconde. 136 L’évaluation d’impact en pratique Note 1. Voir Banerjee et Duflo (2009) pour une explication plus détaillée. Références Banerjee, Abhijit et Esther Duflo. 2009. « The Experimental Approach to Development Economics. » NBER Working Paper 14467, National Bureau of Economic Research, Cambridge, MA. Duflo, Esther, Pascaline Dupas, Michael Kremer et Sameul Sinei. 2006. « Education and HIV/AIDS Prevention: Evidence from a Randomized Evaluation in Western Kenya. » Document de travail consacré à la recherche sur les politiques 402, Banque mondiale, Washington, DC. Filmer, Deon et Norbert Schady. 2009. « School Enrollment, Selection and Test Scores. » Document de travail consacré à la recherche sur les politiques 4998, Banque mondiale, Washington, DC. Olken, Benjamin. 2007. « Monitoring Corruption: Evidence from a Field Experiment in Indonesia. » Journal of Political Economy 115 (2) : 200–49. Évaluation de programmes à multiples facettes 137 Partie 3 COMMENT METTRE EN ŒUVRE UNE ÉVALUATION D’IMPACT Dans la première partie de l’ouvrage, nous avons exposé pourquoi effectuer des évaluations d’impact et expliqué quand elles sont opportunes. Les évaluations sont conçues pour répondre à des questions de politique bien dé�nies, par exemple, dans le cadre de négociations budgétaires ou pour prendre des décisions sur l’extension d’un programme alimentaire, l’augmentation du mon- tant de bourses pour les étudiants ou la mise en œuvre d’une réforme hospita- lière. Les objectifs de l’évaluation et les questions qui l’orientent doivent décou- ler directement de ces questions politiques. Après avoir clairement dé�ni le programme à évaluer et les questions de politique sur lesquelles l’évaluation doit porter, il est utile d’élaborer une théorie du changement, telle qu’une chaîne de résultats du programme, et de choisir des indicateurs en conséquence. Dans la deuxième partie de cet ouvrage, nous avons décrit une série de méthodes, illustrées par des exemples, qui permettent d’évaluer l’impact d’un programme ; nous avons présenté les avantages et les inconvénients de chacune d’elles. La troisième partie porte sur les étapes opérationnelles qui jalonnent la gestion ou la commande d’une évaluation d’impact. Ces étapes constituent les éléments clefs de la réalisation d’une évaluation d’impact dans le but de ré- pondre aux questions de politique formulées et d’estimer l’impact causal du programme. Les étapes opérationnelles d’une évaluation d’impact peuvent être regroupées en quatre phases principales : conception de l’évaluation, choix d’un échantillon, collecte des données et production et diffusion des résultats. La �gure ci-dessous illustre ces phases, détaillées dans les chapitres 10 à 13. Le chapitre 10 porte sur les principales composantes de la mise en œuvre d’une évaluation. Elle commence par le choix d’une méthode d’évaluation en fonction du plan d’implémentation du programme. Avant de pouvoir mettre l’évaluation en œuvre, vous vous assurez qu’elle répond à des normes d’éthique. Vous constituez ensuite une équipe chargée de l’évaluation, vous établissez un bud- get et dé�nissez un mode de �nancement. Le chapitre 11 passe en revue comment constituer des échantillons pour collec- ter des données et combien d’unités y inclure. Au chapitre 12, nous abordons les différentes étapes de la collecte de données. En gardant à l’esprit les questions de politique auxquelles vous voulez répondre et la conception de votre évaluation, vous devez déterminer si les données existantes sont suf�santes et décider si de nouvelles données doivent être col- lectées. Vous commanditez la rédaction d’un questionnaire pertinent qui vous permettra de mesurer les indicateurs choisis. Vous choisissez ensuite une entre- prise ou un organisme spécialisé en collecte de données. Celui-ci recrutera et formera du personnel de terrain et procédera au pilotage du questionnaire. Après avoir effectué les ajustements nécessaires, l’entreprise ou l’organisme pourra entamer le travail sur le terrain. En�n, les données collectées sont saisies ou traitées et validées avant d’être analysées. Le chapitre 13 porte sur les étapes �nales de l’évaluation. Il décrit les produits générés par l’évaluation et le contenu des rapports d’évaluation, et énonce quelques lignes directrices sur la manière de diffuser les résultats auprès des décideurs et des différentes parties prenantes. 140 L’évaluation d’impact en pratique Figure P3.1 Feuille de route pour la mise en œuvre d’une évaluation d’impact Décider quoi évaluer Définir les objectifs, les questions de politique Établir les hypothèses/la théorie du changement/ Préparer l’évaluation la chaîne de résultats (partie I) Choisir les indicateurs Choisir une méthode d’évaluation S’assurer que l’évaluation répond aux normes éthiques Constituer une équipe d’évaluation Mettre Déterminer le calendrier de l’évaluation en œuvre Établir le budget de l’évaluation l’évaluation (ch. 10) Décider la taille de l’échantillon Choisir une stratégie d’échantillonnage Choisir l’échantillon (ch. 11) Décider quelles données collecter Faire appel à une société ou un organisme spécialisé pour collecter les données Élaborer le questionnaire Procéder au pilotage questionnaire Collecter Effectuer le travail de terrain les données Saisir et valider les données (ch. 12) Analyser les données Rédiger le rapport Produire et Discuter des résultats avec les décideurs disséminer Diffuser les résultats les résultats (ch. 13) 141 CHAPITRE 10 Mettre en œuvre une évaluation d’impact Dans la deuxième partie de ce manuel, nous avons évoqué diverses méthodes per- mettant de générer des groupes de comparaison valides. L’estimation de l’impact causal d’un programme est fondée sur ces groupes de comparaison. Nous allons maintenant examiner les aspects pratiques relatifs au choix de la méthode la plus adéquate pour un programme donné. Comme nous le verrons, les règles opération- nelles du programme déterminent la provenance des groupes de comparaison et, partant, la méthode d’évaluation la plus appropriée compte tenu du contexte. Choisir une méthode d’évaluation La validité de l’estimation de l’impact causal d’un programme dépend essentielle- Concept clé : ment de l’existence d’un groupe de comparaison de qualité. Dans la deuxième par- Les règles opération- tie de ce manuel, nous avons évoqué plusieurs groupes de comparaison valides, en nelles du programme particulier ceux générés par l’assignation aléatoire, la promotion aléatoire, le déterminent le choix modèle de discontinuité de la régression, la méthode de la double différence et de la méthode l’appariement. Dans le présent chapitre, nous considérons comment choisir l’une d’évaluation de ces méthodes en fonction du contexte. Le principe fondamental est que les (et non l’inverse). règles opérationnelles du programme permettent de déterminer la méthode la mieux adaptée : ce sont donc ces règles qui doivent conduire à la méthode d’éva- luation, et non l’inverse. La mise en place d’une évaluation ne doit en aucun cas requérir des changements radicaux des éléments clés de l’intervention dans le seul but d’utiliser une méthode d’évaluation donnée. 143 L’assignation aléatoire est souvent la méthode préférée des évaluateurs. Appliquée dans les règles de l’art, elle assure la comparabilité tant des caractéris- tiques observables que des caractéristiques non observables du groupe de traitement et du groupe de comparaison, tout en présentant un risque de biais limité. Puisque l’assignation aléatoire fournit une estimation de l’effet de traitement moyen sur une population donnée de manière largement intuitive et exige peu de connaissances en économétrie, elle facilite grandement la communication des résultats aux décideurs. Il n’est toutefois pas toujours possible d’utiliser des méthodes d’assignation aléatoire, notamment lorsqu’elles sont incompatibles avec les règles opérationnelles des programmes. Les règles opérationnelles les plus importantes pour la conception d’une évalua- tion sont celles qui permettent d’identi�er les unités éligibles à un programme et la manière dont s’effectue la sélection en vue de la participation au programme. Les groupes de comparaison sont constitués à partir de la population éligible qui ne peut pas être intégrée au programme à un moment donné (par exemple, si la demande est supérieure à l’offre) ou à partir de la population qui présente des caractéristiques proches de celles nécessaires pour participer à un programme, mais qui en est exclue en raison des règles de ciblage ou d’éligibilité du programme. Il est difficile de trouver des groupes de comparaison valides si les règles régissant l’éligibilité et la sélection ne sont pas équitables, transparentes et que les gestion- naires des programmes en sont tenus responsables. Principes des règles de ciblage Il est pratiquement toujours possible de déterminer un groupe de comparaison valide si les règles opérationnelles de sélection des béné�ciaires sont équitables, transparentes et que les gestionnaires des programmes en sont tenus responsables : • Les règles équitables dé�nissent un classement ou un ordre d’éligibilité selon un indicateur reconnu des besoins, ou offrent le programme à tous, ou du moins donnent à tous une chance égale d’en béné�cier. • Le critère de transparence implique que les règles soient publiques de manière à Concept clé : ce que la société civile puisse les reconnaitre et véri�er qu’elles sont bien Il est pratiquement respectées. Pour être transparentes, les règles doivent être quantitatives et faciles toujours possible de à observer par les parties externes. déterminer un groupe • Les gestionnaires des programmes sont tenus responsables des règles de sélection de comparaison valide des béné�ciaires quand ils doivent en rendre compte et quand elles constituent la si les règles base sur laquelle leur performance est mesurée et leur rétribution établie. opérationnelles de sélection des Comme nous le verrons ultérieurement, le critère d’équité implique souvent l’utili- béné�ciaires sont sation soit de l’assignation aléatoire, soit du modèle de discontinuité de la régression. équitables, La transparence et la responsabilisation des gestionnaires permettent de s’assurer transparentes et que que les critères de ciblage sont quantitativement véri�ables et mis en œuvre comme les gestionnaires des prévu. Si les règles opérationnelles ne respectent pas ces trois principes de bonne programmes en sont gouvernance, tant la conception du programme que la mise en œuvre de l’évaluation tenus responsables. deviennent problématiques. 144 L’évaluation d’impact en pratique Les règles opérationnelles d’éligibilité répondent aux critères de transparence et de responsabilisation quand elles sont quanti�ables, publiques, et qu’elles peuvent faire l’objet d’une véri�cation externe. Ces principes de bonne gouvernance aug- mentent la probabilité qu’un programme béné�cie réellement à la population cible et constituent la pierre angulaire d’une bonne évaluation. Si les règles ne sont ni quanti�ables ni véri�ables, l’équipe chargée de l’évaluation aura du mal à véri�er si l’assignation au groupe de traitement ou au groupe de comparaison a été effectuée comme prévu ou même à comprendre comment cette assignation a eu lieu. Si les évaluateurs sont dans l’incapacité d’observer le processus d’assignation, ils ne pourront pas analyser correctement les données pour déterminer l’impact du pro- gramme. La compréhension des règles d’assignation du programme est absolument essentielle pour déterminer la méthode d’évaluation d’impact la plus adéquate. Règles opérationnelles de ciblage Les règles opérationnelles régissent les béné�ces offerts par le programme, leur �nancement et leur distribution, ainsi que le mode de sélection des béné�ciaires. Les règles de �nancement du programme et d’intégration des béné�ciaires sont fondamentales à la dé�nition des groupes de comparaison valides. Les règles d’inté- gration des béné�ciaires recouvrent l’éligibilité, l’allocation de ressources limitées et le calendrier d’intégration des béné�ciaires. Plus précisément, les règles clés pour choisir les groupes de comparaison relèvent de trois questions opérationnelles fonda- mentales, se rapportant elles-mêmes au �nancement, au ciblage et au calendrier : 1. Financement  : le programme dispose-t-il de suffisamment de ressources pour couvrir l’ensemble de la population éligible  ? Les organismes publics et les organisations non gouvernementales ne disposent pas toujours des fonds nécessaires pour offrir les services du programme à toutes les personnes éligibles qui souhaitent y participer. Dans de tels cas, les autorités doivent décider qui, parmi la population éligible, intégrera le programme et qui en sera exclu. Les programmes sont parfois limités à une région donnée, aux zones rurales ou à de petites communautés même s’il existe des personnes éligibles dans d’autres régions ou dans des communautés plus grandes. 2. Ciblage : qui est éligible au programme ? Un seuil d’éligibilité a-t-il été �xé ou le programme est-il ouvert à tout le monde ? L’instruction publique et les services de santé primaires sont généralement offerts à tous. Toutefois, de nombreux programmes s’appuient sur des règles de ciblage reposant sur un classement conti- nu des béné�ciaires potentiels et la dé�nition d’un seuil d’éligibilité. Par exemple, les programmes de retraites �xent un âge à partir duquel les personnes deviennent éligibles. Les programmes de transferts monétaires classent souvent les ménages selon leur niveau de pauvreté, et seuls les ménages au-dessous d’un certain seuil sont considérés comme éligibles. Mise en œuvre d’une évaluation d’impact 145 3. Calendrier : comment les béné�ciaires potentiels sont-ils intégrés au programme — tous ensemble en une seule fois ou par phases à travers le temps ? Dans de nombreux cas, les contraintes administratives et de ressources empêchent les autorités de servir immédiatement tous les membres du groupe cible. Si le programme doit être mis en œuvre par phases, il faut alors désigner qui seront les premiers béné�ciaires et qui seront les suivants. Une approche commune consiste à élargir le programme par région, en intégrant tout d’abord les populations éligibles d’un village ou d’une région donnés, puis progressivement les autres. Identi�cation et classement des béné�ciaires par ordre de priorité Les trois questions précédentes se réfèrent à l’aspect opérationnel fondamental du mode de sélection des béné�ciaires. Comme nous le verrons plus tard, cet aspect est essentiel pour dé�nir des groupes de comparaison valides. Les groupes de comparai- son proviennent soit de la population non éligible soit, plus fréquemment, de la population éligible non encore intégrée au programme. La manière dont l’ordre d’in- tégration est établi dépend en partie des objectifs du programme. S’agit-il d’un pro- gramme de retraites pour les personnes âgées, d’un programme de réduction de la pauvreté, ou d’un programme de vaccination ouvert à l’ensemble de la population ? Pour déterminer l’ordre de priorité des béné�ciaires, la dé�nition d’un indicateur à la fois quanti�able et véri�able est nécessaire. Lorsqu’un indicateur est établi, son application dépend de la capacité des autorités à mesurer les besoins et à les classer par ordre de priorité. Si les autorités peuvent précisément classer les béné�ciaires potentiels en fonction de leurs besoins relatifs, un déploiement du programme selon l’ordre de priorité déterminé par ces besoins répond à des raisons éthiques. Toute- fois, pour établir un tel classement en fonction des besoins, il faut non seulement disposer d’un indicateur quanti�able, mais avoir les capacités et les ressources suffi- santes pour procéder à des mesures individuelles de cet indicateur. Dans certains cas, l’éligibilité à un programme est déterminée par un indicateur continu, pour lequel la collecte des données est facile et bon marché, par exemple l’âge d’admissibilité dans le cadre de prestations de retraite. Par exemple, l’âge de 70 ans constitue un seuil d’éligibilité à la retraite simple à mesurer et à appliquer. Pourtant, ce type d’indicateur ne permet le plus souvent pas de classer les besoins relatifs au sein de la population éligible. Par exemple, une personne de 69 ans n’a pas forcément moins besoin de prestations de retraite qu’une personne de 70 ans ; de la même manière, une personne de 75 ans n’a pas forcément plus besoin d’une retraite qu’une personne de 72 ans. Avec un indicateur comme l’âge de la retraite, il est possible d’identi�er la population éligible, mais il n’est pas nécessairement possible d’établir un classement des besoins relatifs au sein de cette population. D’autres programmes établissent des critères d’éligibilité qui pourraient aussi à priori permettre de déterminer l’éligibilité et d’établir un classement des besoins rela- tifs. Par exemple, de nombreux projets visent les populations pauvres, mais les indi- cateurs de pauvreté �ables qui permettent de classer les ménages sont souvent difficiles à mesurer, et la collecte des données nécessaires est souvent onéreuse. 146 L’évaluation d’impact en pratique La collecte de données sur le revenu ou la consommation de l’ensemble des béné�- ciaires potentiels dans le but de les classer par niveau de pauvreté constitue un pro- cessus complexe et onéreux. Pour cette raison, nombreux sont les programmes qui utilisent une approche indirecte comme un test de type « proxy mean » pour estimer le niveau de pauvreté. Ces approches fournissent des mesures approximatives du niveau de pauvreté des béné�ciaires potentiels en se fondant sur leur possession d’ac- tifs ou leurs caractéristiques sociodémographiques (Grosh et al. 2008). Cependant, ces mesures peuvent contenir des erreurs, coûtent cher et ne permettent pas toujours d’établir un classement précis des ménages selon leurs besoins ou leur statut socioé- conomique, surtout dans la partie inférieure de la distribution du revenu. Les tests de type « proxy mean » peuvent contribuer à déterminer de manière relativement �able si un ménage donné se situe au-dessus ou au-dessous d’un seuil donné, mais se révè- lent moins efficaces lorsqu’il s’agit d’estimer la distance par rapport à ce seuil. Ces approches permettent d’identi�er les populations pauvres éligibles, mais pas forcé- ment d’établir un classement de ces populations en fonction de leurs besoins relatifs. Pour contourner les problèmes de coûts et la complexité associés au classement des individus ou des ménages selon leurs besoins relatifs, le ciblage des programmes s’effectue souvent à un niveau supérieur, par exemple au niveau des communautés. L’hypothèse sous-jacente à cette approche est que les ménages qui composent les communautés sont globalement homogènes et que la grande majorité de la popula- tion est potentiellement éligible. Il serait dès lors injusti�é de subir des couts élevés dans le seul but d’identi�er un nombre limité d’individus inéligibles. Dans ce cas, tous les membres de la communauté sont considérés comme éligibles au programme. Cette stratégie est souvent efficace pour de petites communautés rurales, mais elle l’est moins pour les programmes réalisés en zones urbaines, où les populations sont plus hétérogènes. Le ciblage à un niveau d’agrégation élevé présente des avantages opérationnels indéniables, mais ne permet pas toujours d’éviter le classement des béné�ciaires sur la base d’un indicateur objectif et quanti�able des besoins. Si l’agence qui assure le �nancement du programme décide de ne pas établir de classement des besoins, car elle estime le risque d’erreur ou les coûts trop élevés, elle doit recourir à d’autres critères pour dé�nir comment articuler la séquence des dif- férentes phases du programme. L’équité est un critère compatible avec les principes de bonne gouvernance. Une règle équitable peut consister à donner à toutes les per- sonnes éligibles la même chance d’être intégrées dans la première phase du pro- gramme et d’assigner, de manière aléatoire, les béné�ciaires potentiels à l’une des phases suivantes du programme. Cette règle d’allocation est non seulement juste et équitable, mais elle permet de garantir la validité interne et externe de l’évaluation. Passer des règles opérationnelles aux groupes de comparaison Dans le tableau 10.1, nous présentons les groupes de comparaison possibles en fonction des règles opérationnelles des programmes et des trois questions opérationnelles fondamentales relatives au �nancement, au ciblage et au calendrier que nous avons évoquées ci-dessus. Le tableau comprend deux colonnes principales : la première cor- respond aux cas où le programme n’est pas doté des ressources suffisantes pour cou- vrir l’ensemble des béné�ciaires potentiels, et la seconde aux cas où ces ressources Mise en œuvre d’une évaluation d’impact 147 Tableau 10.1 Relations entre les règles opérationnelles d’un programme et les méthodes d’évaluation d’impact FINANCEMENT Demande supérieure à l’offre Pas de demande excédentaire (ressources limitées) (ressources suf�santes) Pas de ciblage Pas de ciblage Pas de ciblage Ciblage selon selon selon selon RÈGLES DE classement classement classement classement CIBLAGE continu et seuil continu et seuil continu et seuil continu et seuil d’éligibilité d’éligibilité d’éligibilité d’éligibilité (1) (2) (3) (4) CELLULE A1 CELLULE A2 CELLULE A3 CELLULE A4 (3.1) (3.1) (3.1) (3.1) Assignation Assignation Assignation Assignation aléatoire aléatoire aléatoire par aléatoire par phases phases CALENDRIER (4) MDR (3.2) Mise en œuvre Promotion (4) MDR (3.2) par phases (A) aléatoire Promotion (5) DD avec aléatoire pour participation à (6) Appariement phase initiale (5) DD avec (6) Appariement CELLULE B1 CELLULE B2 CELLULE B3 CELLULE B4 (3.1) (3.1) (4) MDR En absence Assignation Assignation de participation aléatoire aléatoire universelle : Mise en œuvre (4) MDR (3.2) (3.2) immédiate (B) Promotion Promotion aléatoire aléatoire (5) DD avec (5) DD avec (6) Appariement (6) Appariement Remarque : les chiffres entre parenthèses renvoient au chapitre du manuel où la méthode est présentée. MDR = modèle de discontinuité de la régression ; DD = double différence sont suffisantes (�nancement). Chacune de ces deux colonnes est à son tour subdivisée en deux autres colonnes selon que le programme est ciblé ou ouvert à tous (règles de ciblage). Les lignes sont divisées en fonction des impératifs temporels (calendrier), selon que les béné�ciaires du programme sont intégrés immédiatement au programme ou par phases. Chaque cellule du tableau indique les méthodes possibles pour former un groupe de comparaison valide. Chaque cellule est associée à une lettre indiquant sa place dans les lignes du tableau (ligne A ou B) et à un chiffre représentant les colonnes (de 1 à 4). Par exemple la cellule A1 se réfère à la première ligne (A) et à la première colonne (1). Dans la cellule A1 �gurent les méthodes d’évalua- tion les plus adaptées aux programmes ciblés, dotés de ressources limitées et mis en œuvre par phases. 148 L’évaluation d’impact en pratique Pour la plupart des programmes, une mise en œuvre par phases est nécessaire du fait de contraintes �nancières, logistiques ou administratives. Cette catégorie de programmes se retrouve dans la première ligne du tableau (cellules A1, A2, A3 et A4). Dans ces cas-là, la règle opérationnelle la plus équitable, la plus transparente et qui permet de tenir les gestionnaires des programmes responsables consiste à donner à chacun une chance égale d’intégrer le programme dans chacune des phases, autre- ment dit de procéder par assignation aléatoire aux diverses phases du programme. Lorsque les ressources sont limitées, c’est-à-dire dans les cas où les ressources sont insuffisantes pour couvrir l’ensemble de la population (cellules A1 et A2, ainsi que B1 et B2), la demande peut rapidement dépasser l’offre. Un tirage au sort est alors un bon moyen de choisir les béné�ciaires parmi une population ayant les mêmes besoins relatifs. Ainsi, chacun a une chance égale d’intégrer le programme. Le tirage au sort est une règle opérationnelle d’allocation des services d’un pro- gramme qui est équitable, transparente et qui permet de tenir les gestionnaires des programmes responsables. Les cellules A1 et A3 comprennent une autre catégorie de programmes, à savoir ceux qui doivent être mis en œuvre par phases et où un classement des béné�ciaires selon les besoins est possible. Si les béné�ciaires potentiels sont classés selon des critères quantitatifs et qu’un seuil d’éligibilité peut être �xé, un modèle de disconti- nuité de la régression peut être adopté. Les cellules de la dernière ligne du tableau regroupent une autre grande catégo- rie, les programmes pour lesquels les capacités administratives sont suffisantes pour permettre une mise en œuvre immédiate. Lorsque les ressources sont limitées et qu’il n’est pas possible d’établir un classement des béné�ciaires (cellule B2), l’évalua- tion peut avoir recours à une assignation aléatoire quand la demande est supérieure à l’offre. Si les ressources sont suffisantes pour couvrir l’ensemble de la demande et qu’il n’y pas de critères de ciblage (cellule B4), la promotion aléatoire est alors la seule possibilité pour autant que la participation au programme ne soit pas univer- selle. S’il est possible d’établir une priorité parmi les béné�ciaires potentiels et que le programme est ciblé, le modèle de discontinuité de la régression peut de nouveau faire l’affaire. Détermination de l’échelle minimum de l’intervention Les règles opérationnelles déterminent également l’échelle minimum d’interven- tion, c’est-à-dire le niveau auquel le programme est mis en œuvre. Par exemple, si un programme de santé est exécuté à l’échelle régionale, tous les villages de la région en béné�cieront (en groupe) ou en seront exclus. Certains programmes peuvent être efficacement mis en œuvre au niveau des individus, des ménages ou des institutions tandis que d’autres doivent être implémentés au niveau d’une communauté ou d’une région administrative. L’exécution d’une intervention à un niveau élevé (par exemple au niveau d’une province ou d’un État) peut se révéler problématique pour l’évalua- tion pour trois raisons principales : 1. La taille de l’échantillon d’évaluation et le coût de l’évaluation augmentent avec l’échelle d’intervention. Mise en œuvre d’une évaluation d’impact 149 2. Plus l’échelle d’intervention est élevée, plus il est difficile de disposer d’un nombre suffisant d’unités à inclure dans l’évaluation. 3. La validité interne de l’évaluation peut être plus à risque avec des unités d’intervention à grande échelle. Premièrement, les évaluations portant sur des niveaux d’intervention élevés comme des communautés ou des régions administratives exigent des échantillons de taille plus importante et sont plus coûteuses que les évaluations concernant des unités d’un niveau moindre comme les personnes ou les ménages1. Le niveau d’intervention est important, car il dé�nit l’unité à laquelle le traitement sera appliqué ainsi que les groupes de comparaison formés, ce qui détermine aussi la taille de l’échantillon d’évaluation et donc son coût. Pour les interventions à un niveau élevé, un échan- tillon plus important est nécessaire pour pouvoir déterminer l’impact réel du pro- gramme. L’intuition sous-jacente à cette affirmation sera examinée au chapitre 11, lequel porte sur les calculs de puissance et la manière de dé�nir la taille de l’échan- tillon d’évaluation. Un point légèrement différent est que la taille de l’échantillon nécessaire pour que l’assignation aléatoire génère des groupes de traitement et de comparaison équi- librés devient problématique à des niveaux élevés d’agrégation. Intuitivement, si le niveau d’agrégation est la province et que le pays ne compte que six provinces, l’assignation aléatoire a peu de chances de conduire à des groupes de traitement et de comparaison équilibrés. Supposons que nous affectons trois provinces au groupe de traitement et les trois autres au groupe de comparaison  ; il est très peu probable que les provinces du groupe de traitement soient similaires à celles du groupe de comparaison même si le nombre de ménages dans chaque province est important. Pour équilibrer les groupes de comparaison et de traitement, l’élément clé est le nombre d’unités affectées à chacun des deux groupes (dans ce cas le nombre de provinces) et non pas le nombre d’individus ou de ménages dans l’échantillon. Le troisième problème lorsque l’intervention est mise en œuvre à un niveau élevé est que les changements différentiels dans le temps ont plus de risques d’affecter la validité interne de la sélection aléatoire même si les caractéristiques des groupes sont initialement équilibrées. Revenons à notre exemple des provinces comme niveau d’intervention dans le cadre du programme d’assurance maladie. Certaines provinces sont assignées de manière aléatoire au groupe de traitement et d’autres au groupe de comparaison. Supposons que nous avons de la chance et que les deux groupes sont équilibrés au départ, c’est-à-dire que les ménages du groupe de traite- ment et ceux du groupe de comparaison affichent initialement des dépenses de santé directes moyennes équivalentes. Après la collecte des données de référence, cer- taines provinces peuvent décider de lancer d’autres programmes de santé comme des programmes de vaccination ou encore des projets d’approvisionnement en eau et d’assainissement qui permettent d’améliorer la santé de la population et, de ce fait, de réduire les dépenses de santé directes des ménages. Si les groupes de comparai- son et de traitement ne béné�cient pas tous des mêmes politiques, l’impact de notre programme d’assurance maladie sur les dépenses de santé directes des ménages se confondra avec l’impact des autres politiques de santé mises en œuvre par certaines 150 L’évaluation d’impact en pratique provinces. De même, certaines provinces peuvent enregistrer une croissance écono- mique supérieure à d’autres. Or, les dépenses de santé ont de fortes chances d’aug- menter plus rapidement dans les provinces où la croissance est plus importante. Là aussi, si la croissance économique diffère dans les groupes de comparaison et de traitement, l’impact du programme d’assurance maladie sur les dépenses de santé directes risque d’être difficile à isoler de l’impact de la croissance économique sur les économies locales. En général, il est difficile de tenir compte de ces changements lorsqu’ils ont lieu à des niveaux d’intervention élevés. L’assignation aléatoire à des niveaux d’intervention moins élevés permet de mieux maîtriser ces éléments mena- çant la cohérence interne de l’évaluation. Pour éviter les problèmes liés à la mise en œuvre d’une intervention à un niveau géographique ou administratif élevé, les responsables de programme doivent déter- miner le niveau minimum auquel le programme peut être mis en œuvre. Cette échelle minimum d’intervention est fonction de plusieurs facteurs : • Les économies d’échelle et la complexité administrative de la mise en œuvre du programme • Les capacités administratives de distribuer le programme au niveau des indivi- dus ou des ménages • Les craintes d’éventuels conflits civils • Les craintes de contamination du groupe de comparaison. L’échelle minimum d’intervention dépend généralement des économies d’échelle et de la complexité administrative associées à la mise en œuvre du programme. Par exemple, un programme d’assurance maladie peut nécessiter un bureau pour rece- voir les demandes des béné�ciaires et régler les fournisseurs. Les coûts �xes de fonc- tionnement de ce bureau doivent être répartis sur un grand nombre de béné�ciaires ; il peut donc être moins rentable d’exécuter le programme à un niveau individuel qu’au niveau communautaire. Toutefois, lorsqu’il s’agit d’interventions nouvelles non encore éprouvées, il peut être plus judicieux d’accepter les inefficiences à court terme et de mettre en œuvre le programme par district administratif de manière à garantir la cré- dibilité de l’évaluation et à réduire les coûts de collecte des données. Les gouvernements argumentent parfois que pour les programmes administrés localement, comme les programmes d’assurance maladie, les capacités administra- tives sont insuffisantes pour envisager une mise en œuvre au niveau individuel. Ils estiment en effet qu’il serait fastidieux de mettre en place des systèmes pour offrir différents services à différents béné�ciaires à l’intérieur d’unités administratives locales, et qu’il n’est donc pas possible d’effectuer une assignation au groupe de trai- tement et au groupe de comparaison. Ce problème constitue une sérieuse entrave à la conception de l’évaluation et, de ce fait, à la réussite de l’étude. Parfois, les autorités préfèrent aussi exécuter les programmes à un niveau d’agré- gation plus élevé (par exemple au niveau de la communauté) pour éviter d’éventuels conflits si les membres du groupe de comparaison voient leurs voisins du groupe de traitement béné�cier du programme avant eux. Dans les faits, il existe peu d’élé- Mise en œuvre d’une évaluation d’impact 151 ments pour appuyer ces craintes. De nombreux programmes sont mis en œuvre avec succès au niveau des individus ou des ménages au sein de communautés sans géné- rer de conflit ; il suffit que l’assignation ait lieu de manière équitable, transparente et que les gestionnaires de programme en soient tenus responsables. D’autre part, lorsqu’un programme est mis en œuvre à un niveau peu élevé, comme l’individu ou le ménage, une contamination du groupe de comparaison peut compromettre la validité interne de l’évaluation. Supposons par exemple que nous cherchons à évaluer l’effet de l’approvisionnement en eau courante sur la santé des ménages. Si des robinets sont installés chez un ménage et pas chez son voisin, le ménage faisant partie du groupe de traitement peut très bien partager l’eau avec son voisin qui, lui, fait partie du groupe de comparaison ; ce voisin ne constituera alors plus un bon point de comparaison du fait de cet effet de débordement. Dans les faits, les responsables de programme doivent donc trouver l’échelle minimum d’intervention permettant 1) de disposer d’un échantillon d’évaluation suffisamment important, 2) de maîtriser les risques sur le plan de la validité interne, et 3) de s’adapter au contexte opérationnel. L’encadré 10.1 illustre le choix et les implications de l’échelle minimum d’intervention dans le cas des programmes de transferts monétaires. Encadré 10.1 : Programmes de transferts monétaires et échelle minimum d’intervention Dans la majorité des programmes de transferts au printemps 1998 et tous les ménages éligibles monétaires conditionnels, l’échelle minimum des communautés assignées au groupe de com- d’intervention est la communauté, pour des rai- paraison l’intègrent 18 mois plus tard, soit à l’hi- sons administratives et de conception du pro- ver 1999. Les évaluateurs trouvent une corrélation gramme, mais aussi pour éviter les effets de importante au niveau des résultats entre les diffusion et d’éventuels conflits qui pourraient ménages des communautés. Pour garantir une naître au sein d’une communauté si le traitement puissance statistique suf�sante à l’évaluation, était attribué à un niveau inférieur. davantage de ménages doivent être inclus dans Par exemple, l’évaluation du programme de l’échantillon d’évaluation que ce qui aurait été transferts monétaires conditionnels Progresa/ nécessaire si le groupe de traitement et le groupe Oportunidades au Mexique repose sur un de comparaison avaient été constitués au niveau déploiement du programme au niveau des com- des ménages. L ’impossibilité de mettre en œuvre munautés rurales avec une assignation aléatoire le programme à l’échelle des ménages nécessite des communautés par phases au groupe de trai- donc un échantillon plus grand et entraîne des tement ou au groupe de comparaison. Tous les coûts d’évaluation plus élevés. Ce type de ménages éligibles des communautés assignées contraintes se retrouve dans un grand nombre de au groupe de traitement intègrent le programme programmes de développement humain. Sources : Behrman et Hoddinott 2001 ; Gertler 2004 ; Levy et Rodríguez 2005 ; Schultz 2004 ; Skou�as et McClafferty 2001. 152 L’évaluation d’impact en pratique L’évaluation est-elle éthique ? Les évaluations d’impact soulèvent souvent des questions d’éthique. La première question à se poser est de savoir s’il est éthique d’investir des ressources publiques considérables dans des programmes dont l’efficacité n’est pas garantie. Dans ce contexte, c’est plutôt le défaut d’évaluation qui n’est pas éthique. En effet, les infor- mations sur l’efficacité d’un programme produites par les évaluations d’impact peu- vent conduire à une utilisation plus efficace et plus éthique des ressources publiques. Lorsque la décision est prise de mener une évaluation d’impact, d’autres ques- tions d’ordre éthique doivent être considérées. Elles ont trait tant aux règles d’at- tribution des béné�ces du programme qu’aux méthodes d’étude de sujets humains. Le premier principe à respecter en matière d’assignation des béné�ces d’un pro- Concept clé : gramme est de ne jamais empêcher ou retarder leur distribution à cause de l’évalua- Il ne faut jamais tion. Dans ce manuel, nous avons déjà souligné que les évaluations ne doivent en aucun empêcher ou retarder cas dicter la manière dont les béné�ces d’un programme sont assignés, mais qu’elles les béné�ces offerts doivent au contraire être adaptées aux règles opérationnelles du programme. Dans ce par un programme à cadre, les problèmes éthiques qui peuvent survenir ne seront pas liés à l’évaluation cause de l’évaluation. d’impact elle-même, mais directement aux règles d’attribution du programme. L’assignation aléatoire des béné�ces du programme pose souvent des questions éthiques liées au fait que certains béné�ciaires éligibles ne participent pas au pro- gramme. Pourtant, la plupart des programmes sont dotés de moyens �nanciers et administratifs limités rendant impossible la couverture immédiate de l’ensemble des béné�ciaires potentiels. D’un point de vue éthique, tous les sujets qui sont éga- lement éligibles à la participation à un programme social donné devraient avoir la même chance de béné�cier dudit programme. L’assignation aléatoire répond à ce principe fondamental. Dans les cas où un programme doit être mis en œuvre par phases, une sélection aléatoire peut être effectuée pour déterminer l’ordre selon lequel les personnes formant la population éligible béné�cieront du programme. Les personnes choisies pour intégrer le programme ultérieurement formeront alors le groupe de comparaison, permettant ainsi non seulement de concevoir une bonne étude d’évaluation, mais aussi d’allouer des ressources rares de manière transparente et équitable. Dans de nombreux pays et institutions internationales, des commissions ou des comités d’éthique ont été mis en place pour encadrer les recherches portant sur les sujets humains. Ces comités sont chargés d’évaluer, d’approuver et de suivre les recherches en cours. Leur objectif premier est de protéger les droits et de promou- voir le bien-être de tous les sujets participant à ces études. Malgré leur orientation opérationnelle, les évaluations d’impact sont également des travaux de recherche et, en tant que telles, doivent se conformer aux directives s’appliquant aux recherches portant sur des sujets humains. Aux États-Unis, le Bureau de protection de la recherche humaine (Office for Human Research Protections), rattaché au Département de la santé et des services humains (Department of Health and Human Services), est responsable de la coor- Mise en œuvre d’une évaluation d’impact 153 dination des travaux des comités d’éthique institutionnels mis en place dans toutes les universités et institutions de recherche. Ce bureau publie aussi une compila- tion de plus d’un millier de lois, réglementations et directives relatives au sujet de la recherche humaine dans 96 pays et établit des liens avec les codes éthiques et les normes réglementaires en vigueur dans les principales organisations internatio- nales et régionales. Par exemple, toutes les recherches menées aux États-Unis ou �nancées par des agences fédérales américaines comme l’institut national de la santé (National Insti- tutes of Health) ou l’agence américaine de développement international (USAID) doivent être conformes aux principes éthiques et aux exigences réglementaires de la législation fédérale2. La législation américaine sur la protection des sujets de recherche humains se base sur le Rapport Belmont et prévoit : • une sélection équitable des sujets • la minimisation des risques pour les sujets • une exposition au risque raisonnable, proportionnelle aux béné�ces attendus • l’obtention du consentement éclairé de chaque sujet ou de son représentant légal • l’adoption de dispositions visant à protéger les données personnelles concernant les sujets et à garantir la con�dentialité • la mise en place de dispositions particulières pour protéger les sujets plus vulné- rables comme les enfants, les détenus ou les moins nantis. Les principes élémentaires de protection des droits et de promotion du bien-être de tous les sujets, initialement édictés pour les essais médicaux, s’appliquent aussi aujourd’hui en recherche sociale. Pour l’évaluation des programmes sociaux, les trois premiers points de la liste ci-dessus renvoient aux questions éthiques liées à l’attribution des béné�ces. Les trois derniers concernent les protocoles selon lesquels les sujets humains sont étudiés dans le cadre de l’évaluation3. Au moment de concevoir ou de commissionner une évaluation, il convient de bien véri�er que chaque étape est en conformité avec les lois ou procédures d’exa- men en vigueur qui régissent la recherche sur les sujets humains, que ce soit dans le pays où l’évaluation est effectuée, ou dans le pays de l’organisme qui �nance l’évaluation. Comment constituer une équipe d’évaluation ? Une évaluation requiert un partenariat entre des décideurs et des évaluateurs, les deux groupes dépendant les uns des autres pour le succès de l’exercice. Les déci- deurs doivent fournir l’orientation de l’étude et assurer la pertinence de l’évaluation 154 L’évaluation d’impact en pratique en déterminant si l’évaluation est nécessaire, en formulant les questions d’évalua- Concept clé : tion, en mettant à disposition les ressources adéquates pour la réalisation de l’évalua- Une évaluation est tion, en assurant la supervision des travaux, et en utilisant les résultats pour informer un partenariat entre leur prise de décision. Les évaluateurs sont responsables des aspects techniques, des décideurs et des à savoir la dé�nition de la méthodologie, la constitution de l’échantillon d’évaluation, évaluateurs. la collecte des données et l’analyse. Une évaluation est un juste équilibre entre les compétences techniques et l’im- partialité d’un groupe d’évaluateurs externes d’une part, et la pertinence politique, l’orientation stratégique et la coordination opérationnelle des décideurs d’autre part. Dans ce partenariat, le degré de séparation institutionnelle entre ceux qui réalisent l’évaluation et ceux qui en exploitent les résultats constitue un élément clé. L’indé- pendance des évaluateurs par rapport à l’institution responsable du projet qui fait l’objet de l’évaluation est primordiale pour en garantir l’objectivité. Toutefois, les évaluations peuvent souvent servir plusieurs objectifs, parmi lesquels le renforce- ment des capacités des institutions publiques en matière d’évaluation et la sensibili- sation des gestionnaires du programme aux effets de leurs projets sur le terrain durant leur mise en œuvre. Pour qu’une évaluation d’impact soit une réussite, les évaluateurs et les déci- deurs doivent impérativement collaborer. L’évaluation doit être menée par un groupe externe de manière à en assurer l’objectivité et la crédibilité  ; toutefois, elle ne saurait être détachée des règles opérationnelles. Il convient en particulier de tenir compte des règles de mise en œuvre du programme pour garantir une bonne conception de l’évaluation et pour s’assurer que le programme et l’évaluation sont exécutés de manière coordonnée, l’un n’entravant pas l’autre. En outre, faute d’un engagement marqué des décideurs dès le début du processus, les résultats ont moins de chances d’avoir une pertinence politique directe ou d’influencer les politiques menées par les autorités. Composition d’une équipe d’évaluation Les décideurs peuvent mandater une évaluation d’impact sous diverses formes d’ar- rangements contractuels. Premièrement, l’institution publique commanditant l’éva- luation peut décider de sous-traiter l’ensemble du travail. Elle doit alors établir au moins une version préliminaire du plan d’évaluation indiquant notamment les objectifs clés, les questions de politique, la méthodologie souhaitée, les données à collecter et les plafonds budgétaires. Ce plan fait office de cadre de référence pour lancer un appel d’offres techniques et �nancières auprès d’évaluateurs externes. Il peut également spéci�er la composition minimum souhaitée de l’équipe d’évalua- teurs externes. La préparation des propositions techniques est l’occasion pour les évaluateurs externes de suggérer des améliorations au plan d’évaluation établi par les autorités. Une fois l’évaluation contractée, l’agence externe retenue se charge de la gestion de l’évaluation et désigne un gestionnaire de l’évaluation. Dans ce cas de �gure, les autorités se contentent d’un rôle de supervision. Mise en œuvre d’une évaluation d’impact 155 Dans un deuxième type d’arrangement, l’institution publique qui commandite l’évaluation peut aussi décider d’en assurer la gestion directe. Dans ce cas, elle devra établir le plan d’évaluation et sous-traiter la réalisation de l’évaluation par compo- santes et par étapes successives. Le gestionnaire de l’évaluation est alors l’institution publique qui a demandé l’évaluation. Indépendamment des dispositions contractuelles, l’une des principales tâches qui incombent au gestionnaire de l’évaluation est la constitution de l’équipe d’évalua- tion en tenant compte des intérêts des clients et des diverses étapes nécessaires pour mener l’évaluation à bien. Chaque évaluation est différente, mais l’équipe technique, qui doit assurer la collecte des données qualitatives et quantitatives, s’entourera dans presque tous les cas des personnes suivantes : • un gestionnaire de l’évaluation, qui sera chargé de dé�nir les objectifs clés, les questions de politique, les indicateurs et les besoins en matière d’informations (souvent en étroite collaboration avec les décideurs et à partir d’une théorie du changement comme la chaîne de résultats), de sélectionner la méthode d’éva- luation, de constituer l’équipe d’évaluation et de préparer les termes de réfé- rence pour les composantes de l’évaluation qui seront sous-traitées. Il est im- portant de choisir un gestionnaire de l’évaluation capable de travailler efficacement avec les organismes de collecte de données, les analystes et les décideurs qui utiliseront les données et les résultats de l’évaluation. Si le ges- tionnaire de l’évaluation n’est pas sur place, il est recommandé de désigner un gestionnaire local qui assurera la coordination du travail d’évaluation en colla- boration avec le gestionnaire international. • un spécialiste en échantillonnage, qui dirigera les travaux liés aux calculs de puis- sance et à l’échantillonnage. Pour les évaluations d’impact quantitatives, ce spécialiste doit effectuer les calculs de puissance pour déterminer la taille de l’échantillon adéquate selon les indicateurs retenus, sélectionner l’échantillon, analyser la validité de l’échantillon obtenu par rapport à l’échantillon prévu et formuler des conseils aux analystes en leur indiquant, le cas échéant, comment introduire des pondérations au moment de l’analyse. Cet expert pourra aussi sélectionner les sites ou groupes pour la phase pilote du projet. S’il s’agit d’un consultant international, il aura sans doute besoin d’être assisté d’un coordonna- teur local qui collectera les données nécessaires au tirage de l’échantillon. • une personne ou une équipe responsable de la conception des instruments de collecte des données et des manuels les accompagnant, qui veillera, en collaboration avec le gestionnaire de l’évaluation, à ce que ces instruments permettent bien de re- cueillir les données nécessaires à l’analyse et qui contribuera à l’essai des ques- tionnaires durant la phase pilote. 156 L’évaluation d’impact en pratique • une équipe de terrain, qui comprendra, entre autres, un responsable de terrain chargé de la supervision de l’ensemble du travail de collecte des données, de la plani�cation des opérations de collecte à la formation et à l’organisation des équipes de terrain, lesquelles sont généralement constituées de superviseurs et d’enquêteurs. • des gestionnaires de données et des agents de saisie, qui devront concevoir les pro- grammes de saisie des données, saisir et véri�er la validité des données, fournir la documentation nécessaire et produire des rapports présentant une description basique des données qui seront ensuite véri�és par les analystes. • des analystes de données et des analystes stratégiques, qui travailleront à partir des données fournies et en collaboration avec le gestionnaire de l’évaluation pour effectuer l’analyse et rédiger les rapports d’évaluation. Partenaires de l’évaluation L’une des premières questions sur laquelle les décideurs et le gestionnaire de l’éva- luation doivent trancher est de savoir si l’évaluation (ou une partie de l’évaluation) peut être mise en œuvre localement et de déterminer le type de supervision et d’as- sistance extérieure nécessaires. Les capacités en matière d’évaluation varient beau- coup d’un pays à l’autre. Les contrats internationaux permettant à une société d’un pays donné de mener une évaluation dans un autre pays sont de plus en plus cou- rants. Il est également de plus en plus fréquent que les gouvernements et les institu- tions internationales effectuent conjointement des évaluations au niveau local, tout en assurant une supervision internationale. C’est au gestionnaire de l’évaluation d’évaluer les capacités locales et de déterminer qui sera responsable des divers aspects de l’évaluation. Une autre question qui se pose est de savoir s’il convient de travailler avec une société privée ou un organisme public. Les sociétés ou les instituts de recherche pri- vés sont souvent plus à même de tenir le calendrier, mais dans ce cas, l’opportunité de renforcer les capacités dans le secteur public peut être perdue. En revanche, les sociétés privées sont parfois plus réticentes à intégrer des éléments qui rendront leurs efforts plus couteux. Les évaluations peuvent aussi être con�ées à des instituts de recherche ou à des universités. La réputation et l’expertise technique de certains instituts de recherche ou de certaines universités peuvent constituer un gage de cré- dibilité des résultats obtenus et donc contribuer à leur acceptation immédiate par les parties prenantes au programme. Toutefois, ces organisations manquent parfois de l’expérience opérationnelle et des capacités nécessaires pour mener à bien certains aspects de l’évaluation, tels que la collecte des données. Ces aspects devront alors être con�és à d’autres partenaires. Dans tous les cas, quelle que soit la combinaison retenue, il est impératif d’étudier soigneusement l’expérience des éventuels collabo- rateurs en matière d’évaluation pour faire le bon choix. Mise en œuvre d’une évaluation d’impact 157 En particulier, en considérant de travailler avec une institution publique, l’évalua- teur doit bien étudier les capacités de l’équipe d’évaluation à la lumière des autres activités à sa charge. Ceci est encore plus vrai si l’institution en question assume des responsabilités multiples avec un personnel limité. Mieux vaut avoir une bonne idée de la charge de travail de l’institution a�n d’évaluer si son volume de travail affectera la qualité de l’évaluation, mais aussi a�n d’estimer le coût d’opportunité en termes d’autres tâches que l’institution pourrait réaliser à la place. Par exemple, une évalua- tion d’impact d’une réforme du système éducatif nécessitait la participation du per- sonnel de l’équipe chargée de l’évaluation des examens nationaux semestriels. Cette équipe avait été associée à l’évaluation d’impact parce qu’elle regroupait les professionnels les plus quali�és en la matière et que cette opération permettait une complémentarité entre l’évaluation d’impact et les examens nationaux. Toutefois, tant la réforme que l’évaluation d’impact durent être reportées. Ceci a non seulement remis en cause le travail d’enquête, mais a aussi retardé la réalisation des examens �naux qui n’ont pas eu lieu selon le calendrier prévu. En plus de l’évalua- tion, le pays a ainsi perdu une belle occasion de faire le suivi du progrès de son système éducatif. Il est possible d’éviter les problèmes de ce type en assurant une bonne coordination entre les responsables de l’unité chargée de l’évaluation d’impact, de manière à permettre une plani�cation adéquate des diverses activités ainsi qu’une bonne répartition du personnel et des ressources. Quand effectuer l’évaluation ? Dans la première partie du présent manuel, nous avons évoqué les avantages des évaluations prospectives, prévues dès le début de la préparation du programme. Une plani�cation précoce permet d’élargir les possibilités pour la constitution des groupes de comparaison, permet d’assurer la collecte des données de référence et contribue à établir un consensus sur les objectifs du programme et de l’évaluation entre les diverses parties prenantes. Il est important de prévoir l’évaluation dès la phase de conception du projet, mais il peut être utile d’attendre que le projet ait acquis une certaine maturité avant de réaliser l’évaluation. Les projets pilotes ou les réformes nouvelles font souvent l’objet de révisions tant au niveau de leur contenu que de la manière, du moment, du lieu et des responsables de leur mise en œuvre. Les responsables du programme peuvent avoir besoin de temps pour intégrer et appliquer systématiquement de nouvelles règles opérationnelles. L’exercice d’évaluation exige que le programme soit mis en œuvre selon des règles opérationnelles précises pour pouvoir générer des contrefac- tuels adéquats. En ce sens, il est parfois préférable de réaliser des évaluations pour des programmes établis. La collecte de données de référence est toujours nécessaire, mais la question du laps de temps requis avant de mesurer les résultats se pose souvent. Tout dépend du contexte : « Si l’évaluation a lieu trop tôt, il y a un risque de ne mesurer qu’un impact partiel ou nul  ; si elle a lieu trop tard, il y a un risque que le programme ait perdu le soutien des donateurs ou des autorités ou qu’un mauvais programme ait 158 Impact Evaluation in Practice déjà été élargi » (King et Behrman 2009, p. 56). Les éléments suivants doivent être pris en considération lorsqu’il s’agit de déterminer le calendrier de collecte des données de suivi4 : • Le cycle du programme, notamment la durée, le temps nécessaire à la mise en œuvre et les retards éventuels • Le temps jugé nécessaire pour que le programme produise des résultats ainsi que la nature des résultats à l’étude • Les cycles d’élaboration des politiques publiques. En premier lieu, l’évaluation d’impact doit être en adéquation avec le cycle de mise en œuvre du programme. L’évaluation ne doit pas modi�er le plan de déroulement du programme. Par essence, l’évaluation est soumise au calendrier du programme  ; elle doit se plier à la durée prévue du programme. Elle doit également s’adapter aux éventuels retards de mise en œuvre si les services prévus tardent à être offerts ou sont retardés par des facteurs externes5. En général, même s’il faut prévoir un calendrier d’évaluation dès la conception du programme, les évaluateurs doivent faire preuve de flexibilité et accepter de procéder à des modi�cations au fur et à mesure du déroulement du programme. Il faut en outre prévoir un bon système de suivi pour que le rythme de l’évaluation puisse s’adapter au rythme auquel les interventions se déroulent. Le calendrier de collecte des données de suivi doit tenir compte du temps qui sera nécessaire après la mise en œuvre du programme pour que les résultats se matérialisent. La chaîne de résultats permet justement d’identi�er les indicateurs de résultats et de dé�nir le moment opportun pour les mesurer. Certains pro- grammes (comme les programmes de �lets sociaux) visent des béné�ces à court terme tandis que d’autres (comme les programmes d’éducation de base) sont plus orientés vers le long terme. De plus, certains résultats nécessitent, par nature, plus de temps pour se manifester (c’est le cas par exemple des résultats au plan de l’espérance de vie ou de la fécondité dans les réformes de santé) que d’autres (comme les programmes de formation). Par exemple, dans le cadre de l’évaluation du Fonds d’investissement social en Bolivie, les données de référence ont été recueillies en 1993, mais il a fallu attendre jusqu’en 1998 pour collecter les données de suivi en raison du temps nécessaire pour que l’ensemble des interventions soient exécutées (projets d’approvisionne- ment en eau et de réseaux d’assainissement, cliniques et écoles) et pour que les effets sur l’éducation et la santé de la population se fassent sentir (Newman et al. 2002). Une période de temps similaire a été nécessaire pour l’évaluation du projet d’éducation primaire au Pakistan, qui reposait sur une approche expérimentale ayant recours à des données de référence et de suivi pour évaluer l’impact des écoles communautaires sur les résultats, notamment scolaires, des étudiants (King, Orazem et Paterno, 2008). Le moment où la collecte des données de suivi doit avoir lieu dépend donc lar- gement du programme et de l’indicateur des résultats à l’étude. Pour certaines éva- luations, les données de suivi peuvent être recueillies alors que le programme est Mise en œuvre d’une évaluation d’impact 159 en cours de mise en œuvre, ce qui permet de mesurer les impacts à court terme et de faire le suivi de l’échantillon d’évaluation de manière à limiter son attrition dans le temps. Pour les programmes dont les opérations sont limitées dans le temps, la collecte de données de suivi après la �n du programme peut permettre de mieux mesurer les changements à long terme. Des collectes de données de suivi peuvent même être organisées à plusieurs reprises, ce qui donne la possibilité d’analyser et de comparer les résultats à court et à moyen terme. Les données de suivi collectées au cours de la mise en œuvre du programme peu- vent ne pas suffire pour estimer l’impact total du programme si la mesure des indica- teurs intervient trop tôt. En effet, « les programmes ne sont pas forcément pleinement efficaces au début de leur lancement. Les promoteurs et les béné�ciaires du pro- gramme ont besoin d’un temps d’apprentissage » (King et Behrman 2009, 65). Il n’en reste pas moins qu’il est très utile d’avoir des informations sur l’impact à court terme. Comme nous l’avons déjà souligné, certains programmes (comme les programmes de �lets sociaux) visent principalement des objectifs à court terme. Des informa- tions sur la performance à court terme d’un programme peuvent également donner des indications sur les résultats espérés à plus long terme. Les indicateurs à court terme permettent souvent de bonnes prédictions des indicateurs à plus long terme (par exemple, les naissances sous assistance médicale constituent un indicateur à court terme de l’évolution de la mortalité infantile). Les données de suivi collectées alors que le programme est en cours de mise en œuvre permettent aussi de dégager des résultats préliminaires de l’évaluation d’impact, ce qui peut être l’occasion de relancer le dialogue entre les évaluateurs et les décideurs. Les données de suivi qui permettent de mesurer les résultats à long terme après la mise en œuvre du programme sont généralement celles qui permettent de cerner le mieux l’efficacité d’un programme. Par exemple, les résultats positifs mis en évi- dence par les évaluations de l’impact à long terme des programmes de développe- ment de la petite enfance aux États-Unis (Currie et Thomas 1995, 2000  ; Currie 2001) et en Jamaïque (Grantham-McGregor et al. 1994) ont été déterminants dans la décision d’investir dans ces projets. L’obtention d’impacts à long terme constitue parfois l’objectif explicite de cer- tains programmes, mais ils peuvent aussi résulter d’effets imprévus et indirects, liés par exemple aux changements de comportement. La détermination de l’im- pact à long terme peut néanmoins se révéler problématique. L’impact peut tout simplement disparaître au �l du temps. Une méthodologie d’évaluation d’impact bien conçue peut être compromise. Par exemple, des effets de débordements peu- vent se produire entre les béné�ciaires du programme et les unités du groupe de comparaison. Bien que les données de suivi à court et à long terme soient complémentaires, le calendrier de l’évaluation doit tenir compte du moment opportun pour que les résul- tats de l’évaluation éclairent les prises de décision de politique publique. Il doit ainsi assurer la synchronisation des activités d’évaluation et de collecte de données avec les prises de décision majeures. La production des résultats doit être plani�ée de manière à justi�er les budgets, l’élargissement éventuel du programme ou toute autre décision stratégique de politique publique. 160 L’évaluation d’impact en pratique Comment établir le budget d’une évaluation d’impact ? L’établissement du budget est l’une des dernières étapes dans la conception d’une évaluation d’impact. Dans cette section, nous allons examiner les coûts de cer- taines évaluations d’impact réalisées par le passé, aborder comment dé�nir le bud- get d’une évaluation et suggérer quelques possibilités de �nancement. Données sur les coûts Les tableaux 10.2 et 10.3 présentent les coûts d’évaluations d’impact de quelques projets soutenus par la Banque mondiale. Les projets �gurant dans le tableau 10.2 sont issus d’une revue exhaustive des programmes �nancés par l’unité Protection sociale et emploi. Ceux du tableau 10.3 ont été sélectionnés en fonction de la dis- ponibilité des données budgétaires parmi les évaluations d’impact �nancées par le Fonds espagnol d’évaluation d’impact (SIEF). Ces deux échantillons ne sont pas nécessairement représentatifs de l’ensemble des évaluations menées par la Banque mondiale, d’autant plus que les données relatives aux coûts ne sont pas toujours disponibles, mais ils n’en constituent pas moins de bonnes références sur les coûts d’évaluations d’impact rigoureuses. Tableau 10.2 Coûts d’évaluations d’impact de projets soutenus par la Banque mondiale EI/coût Coût total du total du Coût total de programme programme Évaluation d’impact (EI) Pays l’EI (USD) (USD) (%) Développement des compétences et de l’emploi des migrants Chine 220 000 50 000 000 0,4 Projet de �let de protection sociale Colombie 130 000 86 400 000 0,2 Programme d’investissement République dans les secteurs sociaux dominicaine 600 000 19 400 000 3,1 Protection sociale Jamaïque 800 000 40 000 000 2,0 Assistance technique Projet de �let de protection sociale Pakistan 2 000 000 60 000 000 3,3 Projet de protection sociale Panama 1 000 000 24 000 000 4,2 1er projet communautaire d’amélio- ration des conditions de vie Rwanda 1 000 000 11 000 000 9,1 Phase 3 du projet de Fonds social Rép. du pour le développement Yémen 2 000 000 15 000 000 13,3 Moyenne 968 750 38 225 000 4,5 Source : calculs des auteurs à partir d’un échantillon de programmes de la Banque mondiale dans le secteur de la protection sociale. Remarque : EI = évaluation d’impact Mise en œuvre d’une évaluation d’impact 161 Tableau 10.3 Répartition des coûts pour un échantillon de projets soutenus par la Banque mondiale 162 Répartition des coûts de l’EI Personnel Consultants Collecte de Autres (coûts Déplace- Banque (nationaux et données (y.c. de diffusion et Évaluation d’impact du SIEF Pays Coût total ments mondiale internationaux) personnel) ateliers) Crédit d’appui à la réduction de la pauvreté et à la santé maternelle Bénin 1 690 000 270 000 200 000 320 000 840 000 60 000 Rémunération à la performance des enseignants Brésil 513 000 78 000 55 000 105 000 240 000 35 000 Programme Nadie es Perfecto pour améliorer les compétences parentales Chili 313 000 11 500 — 35 500 260 000 6 000 Rémunération à la performance dans le secteur de la santé : évaluation du projet Santé XI Chine 308 900 60 000 35 000 61 000 152 900 — Programme national de garantie de l’emploi rural Inde 390 000 41 500 50 000 13 500 270 000 15 000 Éducation, Santé et Nutrition/ Rôle du contrôle du paludisme dans l’amélioration de l’éducation Kenya 652 087 69 550 60 000 103 180 354 000 65 357 Campagne de prévention du sida chez les jeunes : abstinence, �délité et sexualité sans risque Lesotho 630 300 74 300 9 600 98 400 440 000 8 000 TMC, scolarisation et risque de sida Malawi 1 842 841 83 077 144 000 256 344 1 359 420 — Programme ContigoVamos por Mas Oportunidades dans l’État de Guanajuato Mexique 132 199 2 660 50 409 — 80 640 1 150 Projet pilote TMC et éducation en milieu rural Maroc 674 367 39 907 66 000 142 460 426 000 — Apprendre et grandir avec le VIH/sida : assignation aléatoire d’un programme de dévelop- pement de la petite enfance Mozambique 838 650 86 400 31 000 62 500 638 750 20 000 Formation des distributeurs communautaires à la préven- tion et au traitement du paludisme Nigéria 1 024 040 64 000 35 000 106 900 817 740 — Éducation, Santé et Nutrition/ Rôle du contrôle du paludisme dans l’amélioration de l’éducation Sénégal 644 047 61 800 60 000 102 890 354 000 65 357 Les TMC pour éviter le sida et d’autres maladies sexuelle- ment transmissibles Tanzanie 771 610 60 000 62 000 100 000 518 611 30 999 Moyenne 744 646 71 621 66 031 115 975 482 290 30 686 Source : calculs des auteurs à partir d’un échantillon d’évaluations d’impact �nancées par le Fonds espagnol d’évaluation d’impact. , Remarque : TMC = transferts monétaires conditionnels ;— = non disponible ; SIEF Fonds espagnol d’évaluation d’impact (Spanish Impact Evaluation Fund). 163 Les coûts directs des activités d’évaluation vont de 130 000 à deux millions de dollars pour un coût moyen de 968 750 dollars. Ces coûts sont très variables d’une évaluation à l’autre et peuvent paraître élevés en valeur absolue. Toutefois, en termes relatifs, ils ne dépassent pas 4,5 % en moyenne (fourchette comprise entre 0,2 % et 13,3 %) du coût total du programme6. À partir de l’échantillon de projets étudié, il apparaît que les évaluations d’impact ne représentent qu’un pourcentage limité du budget total d’un programme. Il convient en outre de comparer les coûts de l’évaluation d’impact au coût d’opportunités en l’absence d’une évaluation rigoureuse et, par conséquent, au risque de mise en œuvre d’un programme ineffi- cace. Les évaluations permettent aux chercheurs et aux décideurs d’identi�er les programmes ou les composantes d’un programme qui fonctionnent et ceux qui ne fonctionnent pas, et de déterminer les stratégies les plus efficaces pour atteindre les objectifs du programme. Dans cette perspective, les ressources nécessaires à la réalisation d’une évaluation d’impact constituent un investissement relativement faible au vu de l’utilité d’un tel travail. Le tableau 10.3 présente la répartition des coûts d’un échantillon d’évaluations d’impact �nancées par le Fonds espagnol d’évaluation d’impact (SIEF). Le coût total englobe le temps de travail du personnel de la Banque mondiale et des consultants nationaux et internationaux, les déplacements, la collecte des données et les activi- tés de diffusion de l’information7. Dans les évaluations �gurant dans le tableau, comme dans presque toutes les évaluations où les données existantes ne peuvent pas être utilisées, ce sont les coûts de collecte des données qui sont les plus importants : ils ne représentent pas moins de 60 % du coût total en moyenne. Il est important de souligner que ces chiffres concernent des évaluations de taille et de type différents. Le coût relatif de l’évaluation d’un programme pilote est généralement plus élevé que celui d’un programme d’envergure nationale ou ouvert à l’ensemble de la population. De plus, certaines évaluations ne nécessitent qu’une enquête de suivi ou peuvent se fonder sur des données existantes, tandis que d’autres exigent plusieurs opérations de collecte de données. Le manuel sur les Enquêtes sur le niveau de vie des ménages1 (Grosh et Glewwe, 2000) donne une estimation des coûts des opérations de collecte d’enquête de ménages dans divers pays. Les auteurs de l’étude insistent sur le fait que les coûts encourus dépendent largement des capacités de l’équipe locale, des ressources disponibles et du temps passé sur le terrain. Pour réaliser une meilleure estimation des coûts d’une enquête dans un contexte donné, il est recommandé de commencer par contacter les ser- vices statistiques nationaux. Estimation du budget d’une évaluation d’impact Il est évident que de nombreuses ressources doivent être mobilisées pour réaliser une évaluation d’impact. Le budget comprend les frais de personnel pour, au mini- mum, un chercheur, un assistant de recherche, un coordinateur de terrain, un spé- cialiste de l’échantillonnage, des enquêteurs et le personnel du projet qui peut 164 L’évaluation d’impact en pratique apporter un appui dans le cadre de l’évaluation. Ces ressources humaines peuvent aussi comprendre des chercheurs et des experts d’organisations internationales, des consultants locaux ou internationaux et du personnel local travaillant pour le pro- gramme. Aux frais de personnel s’ajoutent les frais de déplacements et de mission (hôtels et indemnités quotidiennes) ainsi que les frais de diffusion, souvent sous forme d’ateliers, de rapports et de publications académiques. Comme nous l’avons déjà souligné, les coûts les plus importants d’une évaluation sont les coûts relatifs à la collecte des données (y compris la création et la mise en œuvre d’une enquête pilote), au matériel et aux équipements nécessaires à cette col- lecte, à la formation et au salaire journalier des enquêteurs, aux véhicules et à l’es- sence ainsi qu’aux opérations de saisie des données. Pour calculer le coût de ces intrants, il est nécessaire de faire quelques hypothèses sur, par exemple, le temps nécessaire pour réaliser un questionnaire ou le temps de déplacement entre les sites. Le tableau 10.4 présente une feuille de calcul permettant d’estimer les coûts de la collecte des données. Les coûts d’une évaluation d’impact peuvent être répartis sur plusieurs exercices. Le tableau 10.5 montre comment les coûts de chaque étape d’une évaluation peuvent être répartis sur plusieurs exercices à des �ns comptables et de reporting. Les besoins �nanciers sont plus élevés les années où une collecte de données est réalisée. Financement des évaluations d’impact Une évaluation d’impact peut être �nancée à partir de plusieurs sources, dont les prêts-projets, les budgets directs des programmes, les subventions de recherche ou le �nancement de donateurs. Les équipes d’évaluation se tournent souvent vers plu- sieurs sources pour réunir les fonds nécessaires. Les évaluations ont été tradition- nellement principalement �nancées par des budgets de recherche, mais les sources de �nancement se diversi�ent de plus en plus avec le développement croissant des pratiques d’élaboration des politiques fondée sur les preuves. Lorsque l’enjeu d’un programme est important pour l’ensemble d’une communauté et qu’une évaluation solide et crédible peut être mise en place pour acquérir de nouvelles connaissances, les décideurs doivent être encouragés à rechercher des �nancements extérieurs, particulièrement puisque les résultats de l’évaluation constituent un bien public. Parmi les �nanceurs potentiels �gurent l’État, les banques de développement, les organisations multilatérales, les organismes des Nations Unies, les fondations, les mécènes ainsi que les instituts de recherche et d’évaluation tels que l’Initiative inter- nationale pour l’évaluation d’impact. Mise en œuvre d’une évaluation d’impact 165 Tableau 10.4 Feuille de calcul pour l’estimation du coût d’une évaluation d’impact Taux/ Nombre Tâches et ressources Nombre unité d’unités Total Personnel Personnel chargé de l’évaluation (gestionnaire de l’évaluation, etc.) Consultants internationaux et/ou nationaux (chercheurs/responsable d’enquêtes) Assistant de recherche Statisticien Coordonnateur de terrain Déplacements Billets d’avion/voyages nationaux et internationaux Transports routiers Frais de mission (hôtels et indemnités journalières) Collecte de donnéesaa Conception de l’instrument Pilotage Formation Déplacements et indemnités journalières Matériel et équipement pour l’enquête Impression des questionnaires Personnel de terrain Enquêteurs Superviseurs Transport (véhicules et essence) Chauffeurs Saisie et nettoyage des données Analyse et diffusion des données Ateliers Articles, rapports Autres Bureaux Communications Logiciels a. Les calculs relatifs à la collecte de données doivent refléter les hypothèses telles que le nombre de rondes de collecte nécessaires, le temps nécessaire à la collecte, le nombre de villages dans l’échantillon, le nombre de ménages par village, la longueur du questionnaire, les temps de déplacement, etc. 166 L’évaluation d’impact en pratique Tableau 10.5 Budget d’une évaluation d’impact Phase de conception Phase de collecte des données de référence Coût par Coût Coût par unité Nombre total unité Nombre Coût total Unités (USD) d’unités (USD) Unités (USD) d’unités (USD) A. Salaires du personnel Semaines 7 500 2 15 000 Semaines 7 500 2 15 000 B. Frais de consultants 10 250 27 940 Consultant international (1) Jours 450 15 6 750 Jours 450 0 0 Consultant international (2) Jours 350 10 3 500 Jours 350 10 3 500 Assistant de recherche/coordonnateur de terrain Jours 188 0 0 Jours 188 130 24 440 C. Déplacements et frais de mission 14 100 15 450 Personnel : billets d’avion internationaux Voyages 3 350 1 3 350 Voyages 3 350 1 3 350 Personnel : hôtels et indemnités quotidiennes Jours 150 5 750 Jours 150 5 750 Billets internationaux : consultants internationaux Voyages 3 500 2 7000 Voyages 3 500 2 7000 Hôtels et indemnités quotidiennes : Jours 150 20 3 000 Jours 150 20 3 000 consultants internationaux Billets internationaux : coordonnateur de terrain Voyages 0 0 Voyages 1 350 1 1 350 Hôtels et indemnités quotidiennes : Jours 0 0 Jours 150 0 0 coordonnateur de terrain D. Collecte de données 126 000 Données type 1 : consentement École 120 100 12 000 Données type 2 : résultats volet Éducation Enfant 14 3 000 42 000 Données type 3 : résultats volet Santé Enfant 24 3 000 7 200 V. Autres Atelier(s) Diffusion/reporting Autres 1 (frais généraux de coordination) Coût total par phase Phase de conception 39 350 Phase de collecte des données 184 390 167 de référence (à suivre) 168 Tableau 10.5 (suite) Données de suivi Phase I Données de suivi Phase II Coût par Coût Coût par unité Nombre total unité Nombre Coût total Unités (USD) d’unités (USD) Unités (USD) d’unités (USD) A. Salaires du personnel Semaines 7 500 2 15 000 Semaines 7 500 2 15 000 B. Frais de consultants 32 550 32 440 Consultant international (1) Jours 450 15 6 750 Jours 450 10 4 500 Consultant international (2) Jours 350 20 7 000 Jours 350 10 3 500 Assistant de recherche/coordonnateur de terrain Jours 188 100 18 800 Jours 188 130 24 440 C. Déplacements et frais de mission 20 000 20 000 Personnel : billets d’avion internationaux Voyages 3 350 2 6 700 Voyages 3 350 2 6 700 Personnel : hôtels et indemnités quotidiennes Jours 150 10 1 500 Jours 150 10 1 500 Billets internationaux : consultants internationaux Voyages 3 500 2 7 000 Voyages 3 500 2 7 000 Hôtels et indemnités quotidiennes : Jours 150 20 3 000 Jours 150 20 3 000 consultants internationaux Billets internationaux : coordonnateur de terrain Voyages 1 350 1 1 350 Voyages 1 350 1 1 350 Hôtels et indemnités quotidiennes : Jours 150 3 450 Jours 150 3 450 coordonnateur de terrain D. Collecte de données 114 000 114 000 Données type 1 : consentement Données type 2 : résultats volet Éducation Enfant 14 3 000 42 000 Enfant 14 3 000 42 000 Données type 3 : résultats volet Santé Enfant 24 3 000 72 000 Enfant 24 3 000 72 000 V. Autres 65 357 Atelier(s) 20 000 2 40 000 Diffusion/reporting 5 000 3 15 000 Autres 1 (frais généraux de coordination) 5 179 2 10 357 Coût total pas phase Phase de suivi I 181 550 Phase de suivi II 246 797 Coût total de l’évaluation : 652 087 Notes 1. Le contenu de cette section s’applique plus directement à la méthode de l’assignation aléatoire, mais les mêmes principes s’appliquent aux évaluations basées sur d’autres méthodes. 2. Voir Kimmel 1988  ; NIH 2006 ; USAID 2008  ; U.S. Department of Health and Human Services 2010  ; et U.S. National Archives 2009. 3. Parmi les risques et difficultés associés à la collecte de données pour l’évaluation de programmes sociaux citons l’impossibilité d’obtenir le consentement éclairé des sujets, l’évaluation du développement cognitif des enfants en présence des parents qui peut donner lieu à des suppositions sur leur développement futur, le fait de demander à parler en privé à des femmes ou d’interviewer des femmes sur des sujets sensibles en présence d’hommes de la famille, le fait d’ignorer le temps ou coût d’opportunité de participer à une enquête et l’offre d’une compensation le cas échéant. 4. Pour de plus amples détails sur les questions de calendrier des évaluations de programmes sociaux, voir King et Behrman (2009). 5. « Plusieurs raisons peuvent expliquer pourquoi la mise en œuvre d’un pro- gramme n’est pas immédiate ou parfaite, pourquoi la durée d’exposition à un traitement varie non seulement d’une zone à l’autre, mais aussi entre chaque béné�ciaire �nal, et pourquoi des temps d’expositions différents peuvent conduire à l’estimation d’impacts différents » (King et Behrman 2009, 56). 6. Dans ce cas, le coût est exprimé en pourcentage de la part du coût du projet �nancée par la Banque mondiale. 7. Ce chiffre ne comprend pas les coûts du personnel local souvent très impliqué dans la conception et la supervision de l’évaluation, car les données relatives à ces coûts sont rarement disponibles. Références Behrman, Jere R. et John Hoddinott. 2001. « An Evaluation of the Impact of PROGRESA on Pre-school Child Height. » FCND Briefs 104, International Food Policy Research Institute, Washington, DC. Currie, Janet. 2001. « Early Childhood Education Programs. » Journal of Economic Perspectives 15 (2) : 213–38. Currie, Janet et Duncan Thomas. 1995. « Does Head Start Make a Difference ? » American Economic Review 85 (3) : 34164. ———. 2000. « School Quality and the Longer-Term Effects of Head Start. » Journal of Economic Resources 35 (4) : 75574. Gertler, Paul J. 2004. « Do Conditional Cash Transfers Improve Child Health ? Evidence from PROGRESA’s Control Randomized Experiment. » American Economic Review 94 (2) : 33641. Grantham-McGregor, S., C. Powell, S. Walker et J. Himes. 1994. « The Long-Term Follow-up of Severely Malnourished Children Who Participated in an Interven- tion Program. » Child Development 65 : 428–93. Mise en œuvre d’une évaluation d’impact 169 Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Question- naires for Developing Countries : Lessons from 15 Years of the Living Standards Measurement Study, vols. 1, 2 et 3. Washington DC : Banque mondiale. Grosh, Margaret, Carlo del Ninno, Emil Tesliuc et Azedine Ouerghi. 2008. For Protection and Promotion : The Design and Implementation of Effective Safety Nets. Washington DC : Banque mondiale. Jalan, Jyotsna et Martin Ravallion. 2003a. « Estimating the Bene�t Incidence of an Antipoverty Program by Propensity-Score Matching. » Journal of Business & Economic Statistics 21 (1) : 19–30. ———. 2003b. « Does Piped Water Reduce Diarrhea for Children in Rural India ? » Journal of Econometrics 112 (1) : 15373. Kimmel, Allan. 1988. Ethics and Values in Applied Social Research. Californie : Sage Publications. King, Elizabeth M. et Jere R. Behrman. 2009. « Timing and Duration of Exposure in Evaluations of Social Programs. » World Bank Research Observer 24 (1) :55–82. King, Elizabeth M., Peter F. Orazem et Elizabeth M. Paterno. 2008. « Promotion with and without Learning : Effects on Student Enrollment and Dropout Behavior. » Document de travail consacré à la recherche sur les politiques 4722, Banque mondiale, Washington, DC. Levy, Santiago et Evelyne Rodríguez. 2005. Sin Herencia de Pobreza : El Programa Progresa-Oportunidades de México. Washington DC : Banque interaméricaine de développement. NIH (U.S. National Institutes of Health). 2006. « Regulations and Ethical Guidelines » et « Rapport Belmont ». Office of Human Subjects Research. http://ohsr.od.nih.gov/index.html. Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et Jose Luis Evia. 2002. « An Impact Evaluation of Education, Health, and Water Supply Investments by the Bolivian Social Investment Fund. » Étude économique de la Banque mondiale 16 (2) : 241–74. Rosenbaum, Paul. 2002. Observational Studies. Springer Series in Statistics. Rosenbaum, Paul et Donald Rubin. 1983. « The Central Role of the Propensity Score in Observational Studies of Causal Effects. » Biometrika 70 (1) : 41–55. Schultz, Paul. 2004. « School Subsidies for the Poor : Evaluating the Mexican Progresa Poverty Program. » Journal of Development Economics 74 (1) : 199–250. Skou�as, Emmanuel et Bonnie McClafferty. 2001. « Is Progresa Working ? Sum- mary of the Results of an Evaluation by IFPRI. » Institut international de recherche sur les politiques alimentaires, Washington, DC. USAID (agence américaine pour le développement international). 2008. « Procedures for Protection of Human Subjects in Research Supported by USAID. » http://www.usaid.gov/policy/ads/200/humansub.pdf. U.S. Department of Health and Human Services. 2010. « International Compilation of Human Research Protections. » Office for Human Research Protections. http://www.hhs.gov/ohrp/international/HSPCompilation.pdf. U.S. National Archives. 2009. « Protection of Human Subjects. » U.S. Code of Federal Regulations, Titre 22, partie 225. 170 L’évaluation d’impact en pratique CHAPITRE 11 Choisir l’échantillon Une fois que vous avez choisi une méthode de sélection du groupe de comparaison, l’étape suivante de la plani�cation d’une évaluation d’impact consiste à déterminer les données et l’échantillon nécessaires pour estimer avec précision les différences de résultats entre le groupe de traitement et le groupe de comparaison. Vous devez déterminer la taille de l’échantillon et la façon de prélever les unités de la population à l’étude pour former cet échantillon. Quelles sont les données nécessaires ? Il est essentiel de disposer de données de qualité pour évaluer l’impact de l’interven- tion sur les résultats à l’étude. La chaîne de résultats abordée au chapitre 2 constitue un bon point de départ pour dé�nir les indicateurs à mesurer et le moment le plus propice pour le faire. Les données les plus essentielles sont celles qui permettent de mesurer les indicateurs de résultats directement affectés par le programme. L’éva- luation d’impact ne doit toutefois pas se réduire à la mesure des résultats que le pro- gramme vise directement. Des données sur des indicateurs de résultats indirectement affectés par le programme ou sur des indicateurs reflétant les effets involontaires du programme augmentent la valeur des informations générées par l’évaluation d’impact. Comme nous l’avons vu au chapitre 2, les indicateurs de résultats doivent de préférence être spéci�ques, mesurables, attribuables, réalistes et ciblés. Les évaluations d’impact sont généralement réalisées sur plusieurs périodes, et vous devez donc déterminer le moment adéquat pour mesurer les indicateurs de 171 résultats. En suivant la chaîne de résultats, vous pouvez établir un classement des indicateurs de résultats allant des indicateurs à court terme (comme les taux de sco- larisation dans le contexte d’un programme éducatif ) aux indicateurs à long terme (comme l’achèvement des études ou l’insertion professionnelle). A�n de mesurer l’impact de manière �able au �l du temps, des données sur ces indicateurs doivent Concept clé : dans la mesure du possible être collectées dès l’enquête de référence. La section du Les indicateurs choisis chapitre 10 consacrée au calendrier des évaluations apporte des indications sur le doivent couvrir toute moment le plus propice pour collecter les données de suivi. la chaîne de résultats Nous allons voir que certains indicateurs peuvent ne pas se prêter à une évalua- a�n de mesurer les tion d’impact si les échantillons sont de taille réduite. En effet, la taille des échan- résultats �naux, les tillons nécessaire pour mesurer les impacts sur des indicateurs de résultats résultats intermé- extrêmement variables, rares ou susceptibles de n’être que légèrement affectés par diaires, la mise en une intervention, peut être prohibitive. Par exemple, pour cerner l’impact d’une œuvre de l’intervention, intervention sur le taux de mortalité maternelle, un échantillon doit contenir un les facteurs exogènes grand nombre de femmes enceintes. Dans ce cas, il peut être utile d’axer l’évaluation et les caractéristiques d’impact sur des indicateurs pour lesquels il existe une puissance suffisante pour de contrôle. détecter un impact. Outre les indicateurs de résultat, il est également utile de prendre en compte les éléments suivants : • Données administratives sur la mise en œuvre de l’intervention. Il faut au moins disposer de données de suivi pour savoir quand un programme débute et qui en béné�cie ainsi que pour pouvoir mesurer l’intensité de l’intervention dans les cas où tous les béné�ciaires ne béné�cient pas du même contenu, de la même qualité ou de la même durée de traitement. • Données sur les facteurs exogènes susceptibles d’influer sur le résultat à l’étude. Ces données permettent de véri�er s’il existe des influences extérieures. Cet as- pect est particulièrement important lors de l’utilisation de méthodes d’évaluation reposant sur un plus grand nombre d’hypothèses que les méthodes aléatoires. La prise en compte de variables de contrôle permet également de renforcer la puissance statistique. • Données sur d’autres caractéristiques. L’inclusion de variables de contrôles supplémentaires ou l’analyse de l’hétérogénéité des effets du programme selon certaines caractéristiques permet d’affiner l’estimation des effets du traitement. En résumé, il est nécessaire d’obtenir des indicateurs tout au long de la chaîne de résultats, y compris des indicateurs de résultats �naux, des indicateurs de résultats intermédiaires, et des mesures de la mise en œuvre de l’intervention, des facteurs exogènes et des caractéristiques de contrôl1. La méthodologie d’évaluation d’impact choisie détermine aussi les données nécessaires. Par exemple, si vous choisissez la méthode de l’appariement ou de la double différence, il vous faudra collecter des données portant sur une large gamme de caractéristiques à la fois pour le groupe de traitement et pour le groupe de com- paraison, par exemple pour pouvoir effectuer les tests de robustesse décrits dans la deuxième partie du manuel. 172 L’évaluation d’impact en pratique Il est utile d’élaborer, pour chaque évaluation, une matrice comprenant la liste des questions à l’étude, les indicateurs de résultats pour chaque question, les autres types d’indicateurs indispensables et les sources des données, comme indiqué à la �gure 2.3 (chapitre 2). Les données existantes sont-elles suf�santes ? Certaines données existantes sont presque toujours indispensables au début d’un programme pour estimer les valeurs de référence des indicateurs ou pour effectuer des calculs de puissance, comme nous le verrons plus loin. Au-delà de l’étape de plani�cation, l’utilisation de données existantes peut nettement diminuer le coût d’une évaluation d’impact. Toutefois, il est rare que les données existantes suffisent. Les évaluations d’im- pact nécessitent des données exhaustives couvrant un échantillon suffisamment important et représentatif à la fois du groupe de traitement et du groupe de compa- raison. Des données de recensement couvrant l’ensemble des groupes de traitement et de comparaison sont rarement disponibles. Même si des recensements ont été réali- sés, les données ne contiennent généralement qu’un nombre limité de variables ou ne sont pas collectées régulièrement. Les enquêtes nationales auprès des ménages comportent parfois une gamme étendue de variables, mais contiennent rarement suffisamment d’observations à la fois pour le groupe de traitement et le groupe de comparaison pour permettre une évaluation d’impact. Admettons par exemple que vous souhaitiez évaluer un vaste programme national qui concerne 10 % des ménages dans un pays donné. Si une enquête nationale est réalisée chaque année auprès de 5 000 ménages, elle couvrira peut-être 500 ménages béné�ciant du programme éva- lué. Cet échantillon est-il suffisant pour réaliser une évaluation d’impact ? Les calculs de puissance peuvent permettre de répondre à cette question, mais dans la plupart des cas, la réponse est non. Il convient toutefois d’envisager sérieusement l’utilisation de données adminis- tratives existantes pour réaliser des évaluations d’impact. Les données administra- tives sont collectées dans le cadre des activités ordinaires des organismes responsables de l’exécution des programmes, le plus souvent au moment de la prestation des services. Dans certains cas, les données de suivi contiennent des indicateurs de résultats. Par exemple, certaines écoles compilent les taux de scola- risation, de fréquentation ou les résultats aux examens tandis que certains centres de santé enregistrent les données anthropométriques et les vaccinations ou les dossiers de santé de leurs patients. Certaines évaluations rétrospectives mar- quantes sont fondées sur des registres administratifs (par exemple, l’étude de Galiani, Gertler et Schargrodsky publiée en 2005 sur la politique d’alimentation en eau en Argentine). A�n de déterminer si les données existantes peuvent être utilisées pour une éva- luation d’impact donnée, les questions suivantes doivent être posées : • Taille. Les bases de données existantes sont-elles assez grandes pour détecter un changement des indicateurs de résultats avec une puissance suffisante ? Choix de l’échantillon 173 • Échantillonnage. Les données existantes sont-elles disponibles à la fois pour le groupe de traitement et le groupe de comparaison ? Les échantillons existants sont-ils prélevés à partir d’un cadre d’échantillonnage correspondant à la popula- tion à l’étude  ? Les unités ont-elles été prélevées du cadre d’échantillonnage à l’aide d’une méthode probabiliste ? • Portée. Les données existantes contiennent-elles tous les indicateurs nécessaires pour répondre à toutes les questions de politique à l’étude ? • Fréquence. La collecte des données existantes est-elle suffisamment fréquente ? Des données existantes sont-elles à disposition pour toutes les unités de l’échan- tillon et toute la période étudiée ? Il est relativement rare que des données existantes soient suffisantes pour une évaluation d’impact. Vous devrez par conséquent fort probablement prévoir un bud- get pour la collecte de nouvelles données. La collecte des données représente sou- vent un coût important, mais il s’agit également d’un investissement à rendement élevé dont dépend la qualité de l’évaluation. Dans certains cas, les données nécessaires à l’évaluation d’impact peuvent être collectées en déployant de nouveaux systèmes d’information, pour autant que ce déploiement soit conforme à la méthodologie d’évaluation adoptée, en particulier que les indicateurs de résultats soient collectés pour le groupe de traitement et le groupe de comparaison. Il peut être nécessaire de lancer de nou- veaux systèmes d’information avant le lancement de nouvelles interventions a�n que les centres administratifs du groupe de comparaison utilisent le nouveau système avant de recevoir l’intervention à évaluer. Étant donné que la qualité des données administratives peut varier, des audits et des véri�cations externes sont nécessaires pour garantir la �abilité de l’évaluation. La collecte de données d’évaluation d’impact par le biais de sources administratives au lieu d’enquêtes peut nettement réduire le coût de l’évaluation, mais n’est pas toujours faisable. Si les données administratives ne sont pas suffisantes pour votre évaluation, vous devrez avoir recours à des données d’enquête. Il vous faudra alors détermi- ner si vous pouvez utiliser les enquêtes existantes ou si de nouvelles initiatives nationales de collecte de données sont prévues (par exemple des enquêtes démo- graphiques, sanitaires ou de mesure des niveaux de vie des ménages). Si une enquête couvrant les indicateurs à l’étude est prévue, il peut être possible d’étendre l’échantillonnage pour les besoins de l’évaluation. Par exemple, l’éva- luation du Fonds social du Nicaragua repose sur les données d’une enquête natio- nale sur la mesure du niveau de vie des ménages complété d’un échantillon supplémentaire de béné�ciaires (Pradhan et Rawlings 2002). Si une enquête pré- vue couvre la population à l’étude, il peut être possible d’y ajouter une série de questions aux �ns de l’évaluation. La plupart des évaluations d’impact nécessitent la collecte de données d’en- quêtes, dont au moins une enquête de référence et une enquête de suivi. Les données d’enquête peuvent être de différents types en fonction du programme à évaluer et des unités analysées. La plupart des évaluations prennent pour principale source de données des enquêtes réalisées auprès de personnes ou de ménages. Nous allons nous attacher ci-dessous aux principes généraux de collecte des données 174 L’évaluation d’impact en pratique d’enquête. S’ils s’appliquent principalement aux enquêtes auprès des ménages, ces principes peuvent également être appliqués à la plupart des autres types de don- nées d’enquête2. Avant de décider si vous allez utiliser les données existantes ou collecter de nouvelles données d’enquête, il convient de déterminer la taille de l’échantillon nécessaire. Si les données existantes contiennent un nombre suffisant d’observa- tions, vous pourriez être en mesure de les utiliser. Dans le cas contraire, des don- nées supplémentaires devront être collectées. Une fois que vous avez décidé de collecter des données d’enquête pour votre évaluation, vous devez : • déterminer qui va collecter les données ; • élaborer et tester des questionnaires ; • effectuer des travaux de collecte sur le terrain et des contrôles de qualité ; et • traiter et stocker les données. Dans la suite de ce chapitre, nous verrons comment déterminer la taille de l’échantillon nécessaire et la façon de procéder à l’échantillonnage. Les autres étapes de la collecte de données sont abordées au chapitre 12. La mise en œuvre des diffé- rentes étapes est généralement con�ée à un organisme indépendant, mais il est essentiel de comprendre leur portée et leurs principales composantes pour gérer efficacement une évaluation d’impact. Calculs de puissance : quelle est la taille de l’échantillon nécessaire ? Au moment de s’interroger sur l’éventuelle utilisation de données existantes ou la collecte de nouvelles données, la première étape consiste à dé�nir la taille de l’échantillon nécessaire. Les calculs effectués dans ce but sont appelés des « calculs de puissance  ». Dans cette section, nous évoquerons l’intuition sous-jacente aux Concept clé : calculs de puissance en nous concentrant sur le cas le plus simple : une évaluation Les calculs de réalisée à l’aide de la méthode de l’assignation aléatoire, en partant du principe que puissance indiquent la l’adhérence est totale. (L’adhérence totale signi�e que toutes les unités assignées taille de l’échantillon au groupe de traitement reçoivent effectivement le traitement et que toutes celles nécessaire pour qu’une qui sont assignées au groupe de comparaison ne le reçoivent effectivement pas.) évaluation fournisse une estimation précise de l’impact d’un Objectifs des calculs de puissance programme (c’est-à-dire de la Les calculs de puissance indiquent la taille minimum de l’échantillon nécessaire différence des pour réaliser une évaluation d’impact et pour répondre de manière �able à la ques- résultats entre le tion de politique à l’étude. Ils peuvent notamment être utilisés pour : groupe de traitement • Considérer si les bases de données existantes sont assez grandes pour réaliser et le groupe de une évaluation d’impact. comparaison). Choix de l’échantillon 175 • Éviter de collecter trop d’informations, ce qui peut s’avérer très coûteux. • Éviter de collecter trop peu de données. Admettons que vous souhaitiez évaluer un programme qui a un impact positif sur ses béné�ciaires. Si l’échantillon est trop petit, vous risquez de ne pas pouvoir détecter cet impact positif et de conclure que le programme n’a pas eu d’effet. Ceci peut amener les décideurs à supprimer le programme, dans ce cas au détriment des béné�ciaires et de la société. Les calculs de puissance indiquent la taille minimale de l’échantillon (et donc du budget minimal) nécessaire pour mesurer l’impact d’un programme, à savoir le plus petit échantillon permettant d’identi�er des différences pertinentes de résultats entre le groupe de traitement et le groupe de comparaison. Les calculs de puissance sont essentiels pour correctement déterminer les programmes qui fonctionnent et ceux qui ne fonctionnent pas. L’impact du programme est-il différent de zéro ? La plupart des évaluations d’impact cherchent à tester une hypothèse simple qui se résume par la question suivante : le programme a-t-il un impact ? Autrement dit, l’impact du programme est-il différent de zéro ? Deux étapes sont nécessaires pour répondre à cette question : 1. Estimer les résultats moyens pour le groupe de traitement et pour le groupe de comparaison. 2. Déterminer s’il existe une différence entre le résultat moyen du groupe de traite- ment et celui du groupe de comparaison. Estimer les résultats moyens du groupe de traitement et du groupe de comparaison Admettons que vous souhaitiez estimer l’impact d’un programme de nutrition sur le poids des enfants de cinq ans. Nous partons de l’hypothèse selon laquelle 100 000 enfants ont participé au programme et 100 000 enfants n’y ont pas participé, les participants ayant été sélectionnés de manière aléatoire parmi les 200  000 enfants du pays. Dans un premier temps, vous devrez estimer le poids moyen des participants et des non participants. Pour déterminer le poids moyen des enfants participant3 au programme, vous pourriez peser chacun d’entre eux puis calculer la moyenne. Cette approche serait évidemment extrêmement coûteuse. Heureusement, il n’est pas nécessaire de peser chaque enfant. En effet, la moyenne peut être estimée à partir du poids moyen d’un échantillon prélevé sur la population d’enfants participants4. Plus l’échantillon est grand, plus la moyenne de l’échantillon se rapprochera de la moyenne réelle. Si l’échantillon est petit (deux enfants par exemple), le poids moyen constituera une estimation très imprécise de la moyenne pour la population à l’étude. En revanche, un échantillon de 10 000 enfants donnera une estimation plus précise et plus proche 176 L’évaluation d’impact en pratique du véritable poids moyen. De manière générale, plus le nombre d’observations dans un échantillon est élevé, plus les statistiques qui en sont extraites sont �ables5. La �gure 11.1 illustre ce phénomène. Supposons que vous constituiez un échan- tillon à partir de la population à l’étude, dans ce cas les enfants participant au pro- gramme. Dans un premier temps, vous prélevez un échantillon de seulement deux observations. Dans ce cas, rien ne garantit que l’échantillon présente les mêmes caractéristiques que la population à l’étude. Vous risquez en effet de sélectionner deux individus présentant des caractéristiques inhabituelles. Ainsi, même si seule- ment 20 % des enfants de la population à l’étude portent des chapeaux ronds, il est possible que vous préleviez un échantillon de deux enfants à chapeau rond. Ce serait un coup de malchance, mais ce n’est pas impossible. Augmenter la taille de l’échan- tillon permet de réduire ce risque. Un grand échantillon est plus susceptible de res- sembler à la population à l’étude qu’un petit échantillon. La �gure 11.1 illustre ce qui se passe lorsque vous prélevez un grand échantillon. Il est fort probable qu’un grand échantillon présente plus ou moins les mêmes caractéristiques que la population : dans notre exemple, 20 % des enfants portent des chapeaux ronds, 10 % portent des chapeaux carrés et 70 % portent des chapeaux triangulaires. Nous savons maintenant qu’un grand échantillon permet de donner une image plus précise de la population des enfants participants. Il en va de même pour les enfants non participants : plus l’échantillon de non participants est grand, plus l’image que nous obtenons de la population est précise. Pourquoi est-ce important ? Si nous sommes en mesure d’estimer le résultat (poids) moyen des enfants partici- pants et non participants plus précisément, nous serons également en mesure d’éta- blir avec plus de précision la différence de poids entre les deux groupes, et donc Figure 11.1 Un grand échantillon ressemble mieux à la population Un petit échantillon Population à l’étude Un grand échantillon Choix de l’échantillon 177 l’impact du programme. En d’autres termes, si vous n’avez qu’une vague idée du poids moyen des enfants dans les groupes de traitement et de comparaison, vous ne pourrez pas avoir une idée précise de la différence de poids entre les deux groupes. Dans la section suivante, nous développons cette idée de façon légèrement plus formelle. Comparer les résultats moyens entre les groupes de traitement et de comparaison Une fois que vous avez estimé le résultat (poids) moyen du groupe de traitement (enfants participants sélectionnés par assignation aléatoire) et du groupe de compa- raison (enfants non participants sélectionnés par assignation aléatoire), vous pouvez déterminer s’il existe une différence entre les deux. Il vous suffit de soustraire les moyennes pour obtenir la différence. L’évaluation d’impact compare alors l’hypothèse nulle (ou hypothèse par défaut), H0 : impact = 0 (hypothèse selon laquelle le programme n’a pas d’impact), à l’hypothèse alternative : Ha : impact ≠ 0 (hypothèse selon laquelle le programme a un impact). Imaginez que, dans l’exemple du programme de nutrition, vous commenciez votre évaluation à partir d’un échantillon de deux enfants traités et de deux enfants de comparaison. Au vu de la taille réduite de l’échantillon, votre estimation du poids moyen des enfants traités et des enfants constituant le groupe de comparaison, et donc de la différence entre les deux groupes, ne sera pas très �able. Vous pouvez véri�er ce phénomène en prélevant différents échantillons de deux enfants traités et deux enfants constituant le groupe de comparaison. Vous constaterez que l’impact estimé du programme varie grandement. Maintenant, imaginons que vous effectuiez votre évaluation à partir d’un échan- tillon de 1 000 enfants traités et de 1 000 enfants constituant le groupe de comparai- son. Comme nous l’avons mentionné, vos estimations du poids moyen des deux groupes seront beaucoup plus précises. Votre estimation de la différence entre les deux groupes en sera également d’autant plus précise. Admettons que vous obteniez un poids moyen pour l’échantillon des enfants trai- tés (participants) de 25,2 kg contre 25 kg pour l’échantillon des enfants non partici- pants (groupe de comparaison). La différence entre les deux groupes s’établit à 0,2 kg. Si ces chiffres avaient été obtenus à partir d’échantillons comprenant chacun deux observations, vous n’auriez pas pu être certain que l’impact de 0,2 kg ne pro- vient pas d’un manque de précision dans vos estimations. En revanche, s’ils sont obtenus à partir d’échantillons de 1 000 observations chacun, vous pouvez affirmer avec plus de certitude que votre estimation se rapproche du véritable impact du programme, qui dans ce cas est positif. 178 L’évaluation d’impact en pratique La question fondamentale devient alors  : quelle taille doit précisément avoir l’échantillon pour être sûr qu’une estimation d’impact positif reflète effectivement le véritable impact du programme et non un manque de précision des estimations ? Deux erreurs potentielles dans les évaluations d’impact Lorsque vous cherchez à déterminer si un programme a un impact, vous pouvez commettre deux types d’erreurs potentielles. Une erreur de type I apparait lorsque l’évaluation amène à conclure qu’un programme a eu un impact alors que ce n’est pas le cas. Dans notre exemple du programme de nutrition, cette erreur serait commise si, en tant qu’évaluateur, vous arriviez à la conclusion que le poids moyen des enfants de l’échantillon traité était supérieur à celui des enfants de l’échantillon de compa- raison, alors que le poids moyen dans les deux groupes est en fait équivalent. Dans ce cas, l’impact positif que vous avez constaté est entièrement attribuable au manque de précision de vos estimations. À l’inverse, une erreur de type II apparait lorsque l’évaluation amène à conclure Concept clé : qu’un programme n’a eu aucun impact alors qu’il en a en réalité eu un. Dans notre La puissance est la exemple du programme de nutrition, vous commettriez une erreur de type II si vous probabilité d’observer arriviez à la conclusion que le poids moyen des enfants des deux échantillons est le un impact s’il se même, alors que le poids moyen des enfants de la population traitée est en fait diffé- produit. La puissance rent à celui des enfants du groupe de comparaison. Là encore, l’impact estimé aurait d’une évaluation dû être différent de zéro, mais le manque de précision de vos estimations vous amène d’impact est élevée à conclure que le programme n’a pas eu d’impact. si le risque de ne pas Lorsqu’ils testent l’hypothèse qu’un programme a eu un impact, les statisticiens observer un impact peuvent limiter la probabilité d’erreurs de type I. En effet, la probabilité de com- existant, c’est-à-dire mettre une erreur de type I est dé�nie par un paramètre appelé le «  niveau de de commettre une con�ance ». Le niveau de con�ance est souvent �xé à 5 %, ce qui indique que vous erreur de type II, pouvez être sûr à 95  % de votre conclusion selon laquelle le programme a eu un est faible. impact. Si vous craignez de commettre une erreur de type I, vous pouvez �xer un niveau de con�ance plus faible, de 1 % par exemple, pour pouvoir être sûr à 99 % de votre conclusion selon laquelle le programme a eu un impact. Les erreurs de type II sont également une source d’inquiétude pour les décideurs. De nombreux facteurs influencent la probabilité de commettre une erreur de type II ; toutefois, la taille de l’échantillon est un facteur déterminant. Si le poids moyen de 50 000 enfants traités est le même que le poids moyen de 50 000 enfants de comparaison, vous pouvez probablement conclure avec certitude que le pro- gramme n’a pas eu d’impact. En revanche, si les deux enfants de votre échantillon de traitement pèsent le même poids que les deux enfants du groupe de comparaison, il sera plus difficile de formuler une conclusion avec certitude. Vous vous demande- rez alors si le poids moyen est similaire parce que l’intervention n’a pas eu d’impact ou parce que les données sont insuffisantes pour tester l’hypothèse à partir d’un échantillon si petit. En prélevant de grands échantillons, vous réduisez le risque de Choix de l’échantillon 179 n’observer, par (bon ou mauvais) hasard, que des enfants ayant le même poids. Avec de grands échantillons, la différence de moyennes entre un échantillon de traitement et un échantillon de comparaison fournit une estimation �able de la véritable diffé- rence qui existe entre toutes les unités traitées et toutes les unités du groupe de comparaison. La puissance (ou puissance statistique) d’une évaluation d’impact correspond à la probabilité qu’elle détecte une différence entre les groupes de traitement et de com- paraison, si une telle différence existe. La puissance d’une évaluation d’impact est élevée si le risque de ne pas observer un impact qui existe, c’est-à-dire de commettre une erreur de type II, est faible. Les exemples cités plus haut montrent que la taille de l’échantillon est un facteur déterminant de la puissance d’une évaluation d’impact. Nous allons approfondir cette intuition dans les sections suivantes. Pourquoi les calculs de puissance sont déterminants pour les décisions politiques Les calculs de puissance permettent de déterminer la taille d’échantillon nécessaire pour éviter de conclure qu’un programme n’a pas eu d’impact alors qu’il en a en fait eu un (erreur de type II). La puissance d’un test est égale à un moins la probabilité d’une erreur de type II. La puissance d’une évaluation d’impact est élevée si une erreur de type II est peu probable, c’est-à-dire qu’il y a peu de chance que vous obteniez des résultats indi- quant que le programme évalué n’a pas eu d’impact alors qu’il en a bel et bien eu un. Dans une perspective purement politique, les évaluations d’impact de faible puissance qui présentent un fort risque d’erreur de type II sont potentiellement non seulement inutiles, mais également très coûteuses. La forte probabilité d’er- reur de type II compromet la �abilité de tout résultat n’indiquant pas d’impact. Consacrer des ressources à des évaluations d’impact à faible puissance est donc un investissement risqué. Les évaluations à faible puissance peuvent également avoir des conséquences dramatiques sur le plan pratique. Par exemple, dans notre exemple précédent du programme de nutrition, si vous concluez que le programme n’a pas d’impact alors qu’il en a bel et bien eu un, les décideurs seront susceptibles de mettre �n à un pro- gramme qui est en fait béné�que pour les enfants. Il est donc essentiel de limiter la probabilité d’erreurs de type II en utilisant des échantillons assez grands dans le cadre des évaluations d’impact. C’est la raison pour laquelle il est si important et pertinent d’effectuer des calculs de puissance. Les calculs de puissance étape par étape Nous abordons maintenant les principes fondamentaux de calculs de puissance à partir du cas simple d’un programme assigné aléatoirement. Pour réaliser des calculs de puissance, il faut poser les six questions suivantes : 1. Le programme produit-il des grappes ? 2. Quel est l’indicateur de résultat ? 180 L’évaluation d’impact en pratique 3. Souhaitez-vous comparer les impacts du programme entre plusieurs sous-groupes ? 4. Quel est le niveau minimum d’impact qui justi�erait l’investissement effectué dans l’intervention ? 5. Quel est le niveau de puissance raisonnable pour l’évaluation réalisée ? 6. Quelles sont la moyenne et la variance de référence des indicateurs de résultats ? Chacune de ces étapes doit être considérée dans le contexte politique particulier au sein duquel l’évaluation d’impact est mise en œuvre. Nous avons déjà mentionné que l’échelle minimum d’intervention conditionne la taille de l’échantillon nécessaire pour l’évaluation. La première étape des calculs de puissance consiste à déterminer si le programme que vous voulez évaluer produit des grappes. Des grappes sont formées lorsque le niveau d’intervention du pro- gramme est différent du niveau auquel vous souhaitez mesurer les résultats. Par exemple, un programme peut être mis en œuvre au niveau d’un hôpital, d’une école ou d’un village (donc, par grappes) alors que vous souhaitez mesurer son impact sur les patients, les étudiants ou les villageois (voir tableau 11.1)6. La nature des données d’échantillons obtenues pour un programme formant des grappes diffère légèrement de celle des échantillons obtenus pour un pro- gramme qui ne forme pas de grappes. Par conséquent, les étapes des calculs de puissance sont légèrement différentes selon que le traitement est assigné de manière aléatoire aux différentes grappes ou à toutes les unités d’une population. Nous aborderons chaque situation l’une après l’autre. Nous commencerons par les principes des calculs de puissance en l’absence de grappes, c’est-à-dire lorsque le traitement est assigné au niveau où les résultats sont observés, avant de passer aux cas où il existe des grappes. Tableau 11.1 Exemples de grappes Unité auprès de Niveau d’assignation laquelle le résultat Traitement du traitement (grappe) est mesuré Transferts monétaires conditionnels Village Ménages Traitement contre le paludisme École Individus Programme de formation Quartier Individus Choix de l’échantillon 181 Calculs de puissance en absence de grappes Admettons que vous ayez répondu à la première question ci-dessus en déterminant que les béné�ces du programme à évaluer ne sont pas assignés par grappe. En d’autres termes, les béné�ces du programme sont assignés de manière aléatoire à toutes les unités de la population éligible. Dans ce cas, l’échantillon d’évaluation peut être constitué en prélevant un échantillon aléatoire de la population à l’étude. Les deuxième et troisième étapes concernent les objectifs de l’évaluation. À la deu- xième étape, vous devez déterminer les principaux indicateurs de résultats que le pro- gramme cherche à améliorer. Ces indicateurs découlent de la question de recherche fondamentale de l’évaluation et du cadre conceptuel décrits dans la Partie 1. La pré- sente discussion contribuera à illustrer les types d’indicateurs qui se prêtent le mieux à une évaluation d’impact. Troisièmement, la question de politique qui motive l’évaluation requiert parfois la comparaison des impacts d’un programme entre différents sous-groupes, par exemple entre individus de différents âges ou catégories de revenus. Si tel est le cas, la taille des échantillons devra être plus grande, et les calculs de puissance devront être adaptés en conséquence. Par exemple, la question de politique peut demander si l’impact d’un programme éducatif varie entre les �lles et les garçons. Intuitivement, il faut disposer d’un nombre suffisant d’étudiants de chaque genre au sein du groupe de traitement et du groupe de comparaison pour pouvoir détecter l’impact sur chaque sous-groupe. Pour comparer l’impact d’un programme entre deux sous- groupes, il est parfois nécessaire de doubler la taille de l’échantillon. Lorsque les sous-groupes sont plus hétérogènes (tranches d’âges par exemple), la taille de l’échantillon nécessaire peut considérablement augmenter. Quatrièmement, vous devez déterminer l’impact minimum qui justi�erait l’in- vestissement effectué dans l’intervention. Il s’agit fondamentalement d’une ques- tion de politique et non d’une question technique. Un programme de transferts monétaires conditionnels est-il un investissement justi�é s’il réduit la pauvreté de 5 %, de 10 % ou de 15 % ? Un programme d’activation sur le marché du travail se justi�e-t-il s’il augmente les revenus de 5  %, de 10  % ou de 15  %  ? La réponse dépend du contexte, mais il est nécessaire, quelles que soient les circonstances, de déterminer le changement des indicateurs de résultat qui justi�erait un investisse- ment dans le programme. Autrement dit, il faut déterminer le niveau d’impact en dessous duquel une intervention est considérée comme un échec ? La réponse à cette question dépend non seulement du coût du programme et du type de traitement qu’il propose, mais également du coût d’opportunité de ne pas investir les fonds dans une autre intervention. Les calculs de puissance permettent d’adapter la taille de l’échantillon pour pou- voir détecter l’effet minimal désiré. Pour qu’une évaluation détecte un faible impact, les estimations de la différence de résultats moyens entre le groupe de traitement et le groupe de comparaison devront être très précises, ce qui nécessite un grand échantillon. En revanche, pour les interventions qui ne sont jugées utiles que si elles entraînent des changements considérables des indicateurs de résultat, les échan- 182 L’évaluation d’impact en pratique tillons utilisés pour l’évaluation d’impact pourront être plus petits. Il convient néan- Concept clé : moins de déterminer l’effet minimal détectable avec prudence étant donné que tout La taille de l’échan- impact inférieur à l’effet minimal désiré risque de ne pas être détecté. tillon requis augmente Cinquièmement, l’évaluateur doit consulter des statisticiens pour déterminer un si l’effet minimal niveau de puissance raisonnable pour l’évaluation prévue. Comme nous l’avons men- détectable est faible, tionné, la puissance d’un test est égale à un moins la probabilité d’une erreur de si l’indicateur de type II. La puissance est donc comprise entre zéro et un et plus elle est élevée, moins résultat est très il y a de risque de ne pas détecter un impact existant. Une puissance de 80 % est un variable ou s’il s’agit niveau fréquemment utilisé pour les calculs de puissance. Cela signi�e que vous d’un événement rare, allez détecter un impact existant dans 80 % des cas. Un niveau de puissance plus et si l’évaluation vise à élevé de 0,9 (ou 90 %) constitue souvent un niveau utile, bien que plus prudent et comparer les impacts entraînant par conséquent une hausse de la taille de l’échantillon requis7. entre différents Sixièmement, vous devez demander à un statisticien d’estimer certains para- sous-groupes. mètres de référence comme la moyenne et la variance des indicateurs de résultats. Ces valeurs de référence doivent de préférence être obtenues à partir de données existantes collectées dans un contexte comparable à celui du programme à l’étude8. Il est très important de noter que plus un indicateur de résultat est variable, plus il sera difficile de formuler une estimation �able de l’effet du traitement. Dans l’exemple du programme de nutrition, le poids des enfants est le résultat à l’étude. Si tous les enfants pèsent le même poids dans l’enquête de référence, il sera possible d’estimer l’impact de l’intervention à partir d’un échantillon relativement réduit. En revanche, si les poids de référence des enfants affichent une grande variance, un échantillon plus grand sera nécessaire pour estimer l’impact du programme. À l’issue de ces six étapes, le statisticien peut effectuer le calcul de puissance en utilisant un logiciel statistique standard9. Le calcul de puissance qui en résultera indiquera la taille de l’échantillon nécessaire en fonction des paramètres dé�nis aux étapes 1 à 6. Les calculs de puissance sont faciles à réaliser une fois que les questions d’ordre politique (points 3 et 4) ont été résolues.10 Lorsqu’un statisticien est mandaté pour faire des calculs de puissance, il est recommandé de demander une analyse de la sensibilité des calculs de puissance aux changements d’hypothèses. Ceci est important pour comprendre dans quelle mesure la taille de l’échantillon devra être augmentée pour que les hypothèses de départ deviennent plus conservatrices (baisse de l’impact espéré, hausse de la variance dans l’indicateur de résultat ou niveau de puissance plus élevé). Il est également utile de demander des calculs de puissance pour différents indicateurs de résultats étant donné que la taille de l’échantillon nécessaire peut considérable- ment changer si certains indicateurs de résultats sont plus ou moins variables que d’autres. En�n, les calculs de puissance permettent d’établir la taille minimum de l’échantillon nécessaire. Dans la pratique, les problèmes de mise en œuvre impli- quent souvent que la taille de l’échantillon effectif soit inférieure à la taille prévue. Toute déviation de ce type doit être envisagée avec prudence, mais il est conseillé d’ajouter une marge de 10 à 20 % à la taille de l’échantillon prévue par les calculs de puissance11. Choix de l’échantillon 183 Taille de l’échantillon nécessaire pour évaluer une version ampli�ée du Programme de subvention de l’assurance maladie (PSAM) La présidente et le ministre de la Santé se sont montrés satisfaits de la qualité et des résultats de l’évaluation du Programme de subvention de l’assurance maladie (PSAM), notre exemple des chapitres précédents. Toutefois, avant d’étendre le PSAM, ils décident de mettre en œuvre à titre de projet pilote une version ampli�ée du programme, qu’ils appellent PSAM+. Le PSAM �nance une partie des frais de l’assurance maladie pour les ménages pauvres qui vivent en milieu rural, couvrant les dépenses relatives aux soins de santé primaires et à l’achat de médicaments, mais pas les frais d’hospitalisation. La présidente et le ministre de la Santé souhaitent savoir si un PSAM+ ampli�é couvrant également les frais d’hospitalisation pourrait permettre de réduire davantage les dépenses de santé à la charge directe des ménages. Ils vous demandent donc de concevoir une évaluation d’impact pour savoir si le PSAM+ réduit bel et bien les dépenses de santé des ménages ruraux pauvres. Dans ce contexte, vous n’hésitez pas sur le choix de la méthode d’évaluation d’impact : le PSAM+ est doté de ressources limitées. Dans l’immédiat, il ne peut pas être mis en œuvre auprès de l’ensemble de la population. Vous concluez donc que l’assignation aléatoire est la méthode d’évaluation la plus pertinente et la plus robuste. La présidente et le ministre de la Santé comprennent le fonctionnement de la méthode d’assignation aléatoire et y sont très favorables. A�n de �naliser la conception de l’évaluation d’impact, vous demandez à un sta- tisticien de vous aider à dé�nir la taille de l’échantillon nécessaire. Avant de com- mencer, le statisticien vous demande de lui fournir certaines informations clés. Il a six questions à vous poser. 1. Le statisticien demande si le programme PSAM+ va générer des grappes. À ce stade, vous ne le savez pas encore. Vous pensez qu’il est possible de procéder à une assignation aléatoire du PSAM + au niveau des ménages parmi tous les ménages ruraux pauvres qui béné�cient déjà du PSAM. Toutefois, il vous semble possible que la présidente et le ministre de la Santé préfèrent peut-être assigner le programme au niveau des villages, ce qui entraînerait la création de grappes. Le statisticien propose de commencer par effectuer des calculs de puissance sans grappe, puis d’examiner dans quelle mesure l’existence de grappes influerait sur les résultats. 2. Le statisticien vous demande quel est l’indicateur de résultat. Vous expliquez que le gouvernement souhaite utiliser un indicateur bien dé�ni : les dépenses de san- té directes des ménages. Le statisticien cherche une base de données récente pour obtenir des valeurs de référence pour cet indicateur. Il propose d’utiliser l’enquête de suivi de l’évaluation du PSAM. Il remarque que, parmi les ménages ayant béné�cié du PSAM, les dépenses annuelles de santé directes par personne s’élèvent en moyenne à 7,84 dollars. 184 L’évaluation d’impact en pratique 3. Le statisticien s’assure que vous ne souhaitez pas mesurer l’impact du programme sur des sous-groupes par exemple des régions ou des populations spéci�ques. 4. Le statisticien demande quel est l’impact minimum qui justi�erait un investisse- ment dans la version ampli�ée du programme. En d’autres termes, il veut connaître le montant de la baisse des dépenses de santé en dessous de la moyenne de référence de 7,84 dollars qui justi�erait l’intervention. Il explique qu’il ne s’agit pas selon lui d’une considération technique, mais plutôt d’une question d’ordre politique. Pour cette raison c’est à un décideur tel que vous de déterminer l’effet minimum que l’évaluation doit permettre de détecter. Vous avez entendu la pré- sidente mentionner que le PSAM+ serait considéré comme efficace s’il permettait de réduire les dépenses de santé directes des ménages de deux dollars. Toutefois, vous savez que, dans le cadre de l’évaluation, il vaut mieux être prudent dans la détermination de l’impact minimum détectable, tout impact inférieur étant peu susceptible d’être détecté. Pour comprendre comment la taille de l’échantillon nécessaire varie en fonction de l’effet minimum détectable, vous suggérez au sta- tisticien d’effectuer des calculs en vue d’une réduction minimum des dépenses de santé directes de un dollar, de deux dollars et de trois dollars. 5. Le statisticien vous demande le niveau de puissance que vous jugeriez raison- nable pour l’évaluation réalisée. Il ajoute que les calculs de puissance sont géné- ralement réalisés sur la base d’une puissance de 0,9, mais il propose de réaliser ultérieurement des tests de sensibilité à un niveau moins conservateur de 0,8. 6. En�n, le statisticien demande quelle est la variance de l’indicateur de résultat dans la population à l’étude. Il consulte à nouveau les données des ménages ayant béné�cié du PSAM en indiquant que l’écart-type des dépenses de santé directes est de huit dollars. Avec toutes ces informations, le statisticien effectue les calculs de puissance. Comme convenu, il commence par le cas le plus conservateur d’une puissance de 0,9. Il obtient les résultats �gurant dans le tableau 11.2. Il conclut que pour détecter une baisse de deux dollars des dépenses de santé directes avec une puissance de 0,9, l’échantillon doit contenir au moins 672 unités (336 unités traitées et 336 unités de comparaison, en l’absence de grappes). Il indique que s’il vous convenait de détecter une baisse de trois dollars des dépenses de santé directes, un échantillon plus réduit d’au moins 300 unités (150 unités dans chaque groupe) serait suffisant. En revanche, un échantillon beaucoup plus important d’au moins 2  688 unités (1 344 dans chaque groupe) serait nécessaire pour détecter une baisse de un dollar dans les dépenses de santé directes. Choix de l’échantillon 185 Tableau 11.2 Taille de l’échantillon nécessaire selon les différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,9, sans grappe Effet minimal Groupe de Groupe de détectable traitement comparaison Échantillon total $1 1 344 1 344 2 688 $2 336 336 672 $3 150 150 300 Remarque : l’effet minimal détectable correspond à la réduction minimum des dépenses de santé directes des ménages que l’évaluation d’impact doit pouvoir détecter. Le statisticien produit ensuite un deuxième tableau pour un niveau de puis- sance de 0,8. Le tableau 11.3 montre que les tailles d’échantillons nécessaires sont inférieures pour une puissance de 0,8 que pour une puissance de 0,9. Pour détecter une baisse de deux dollars des dépenses de santé directes des ménages, un échan- tillon total d’au moins 502 unités est suffisant. Pour détecter une baisse de trois dol- lars, au moins 224 unités sont nécessaires. Toutefois, pour détecter une baisse de un dollar, au moins 2 008 unités sont nécessaires. Le statisticien explique que les résultats sont typiques des calculs de puissance : • Plus le niveau de puissance est élevé (ou prudent), plus la taille de l’échantillon nécessaire est importante. • Plus l’impact à détecter est réduit, plus l’échantillon nécessaire est grand. Tableau 11.3 Taille de l’échantillon nécessaire selon les différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,8, sans grappe Effet minimal Groupe de Groupe de détectable traitement comparaison Échantillon total 1$ 1 004 1 004 2 008 2$ 251 251 502 3$ 112 112 224 Remarque : l’effet minimal détectable correspond à la réduction minimum des dépenses de santé directes des ménages que l’évaluation d’impact doit pouvoir détecter. 186 L’évaluation d’impact en pratique Tableau 11.4 Taille de l’échantillon nécessaire pour détecter différents effets minimums désirés (hausse du taux d’hospitalisation), puissance = 0,9, sans grappe Effet minimal détectable (point Groupe de Groupe de de pourcentage) traitement comparaison Échantillon total 1 9 717 9 717 19 434 2 2 430 2 430 4 860 3 1 080 1 080 2 160 Remarque : l’effet minimal désiré correspond au changement minimum du taux d’hospitalisation (exprimé en points de pourcentage) que l’évaluation d’impact doit pouvoir détecter. Le statisticien demande si vous souhaitez réaliser des calculs de puissance pour d’autres indicateurs de résultats. Vous suggérez d’évaluer également la taille de l’échantillon nécessaire pour détecter si le PSAM+ affecte le taux d’hospitalisation. Dans l’échantillon des villages béné�ciant du PSAM, 5 % des ménages comptent un membre qui a été hospitalisé au cours de la dernière année. Le statisticien produit un nouveau tableau qui indique que des échantillons relativement importants seraient nécessaires même pour détecter de grands changements du taux d’hospitalisation de un, deux ou trois points par rapport au taux de référence de 5 % (tableau 11.4). Le tableau indique que les tailles des échantillons nécessaires sont plus impor- tantes pour ce résultat (taux d’hospitalisation) que pour les dépenses de santé directes. Le statisticien conclut que si vous souhaitez détecter les impacts sur ces deux indicateurs de résultats, vous devrez utiliser les plus grands échantillons pro- posés par les calculs de puissance portant sur le taux d’hospitalisation. Si vous choi- sissez d’utiliser des échantillons de la taille suggérée par les calculs de puissance effectués pour les dépenses de santé directes, le statisticien recommande de préciser à la présidente et au ministre de la Santé que l’évaluation ne présentera pas une puissance suffisante pour détecter les effets sur le taux d’hospitalisation. QUESTION 8 A. Quelle taille d’échantillon recommanderiez-vous pour estimer l’impact du PSAM+ sur les dépenses de santé directes ? B. La taille de cet échantillon est-elle suf�sante pour détecter un changement du taux d’hospitalisation ? Calculs de puissance avec grappes Les paragraphes précédents présentent les calculs de puissance pour des pro- grammes ne produisant pas de grappes. Toutefois, comme nous l’avons vu dans la deuxième partie du manuel, les béné�ces de nombreux programmes sont assignés par grappes. Nous allons donc décrire brièvement comment adapter les principes de base des calculs de puissance aux échantillons par grappes. Choix de l’échantillon 187 Lorsqu’il existe des grappes, il convient de noter que le nombre de grappes est un paramètre beaucoup plus important que le nombre d’individus qui composent les grappes. Un nombre suffisant de grappes est nécessaire pour pouvoir identi�er avec un degré de certitude suffisant l’éventuel impact d’un programme en comparant les résultats des échantillons de traitement et de comparaison. Si vous assignez de façon aléatoire un traitement au sein d’un petit nombre de grappes, il est peu probable que les groupes de traitement et de comparaison soient identiques. L’assignation aléatoire entre deux districts, deux écoles ou deux hôpi- taux ne garantit pas que les deux grappes soient similaires. En revanche, l’assigna- tion aléatoire d’une intervention entre 100 districts, 100 écoles ou 100 hôpitaux a plus de probabilités de créer un groupe de traitement et un groupe de comparaison similaires. En résumé, un nombre suffisant de grappes est nécessaire pour s’assurer qu’un équilibre est atteint. Par ailleurs, le nombre de grappes joue également un rôle dans la précision des effets estimés. Un nombre suffisant de grappes est nécessaire pour tester l’hypothèse selon laquelle un programme a un impact avec une puissance satisfaisante. Il est donc très important de s’assurer que le nombre de grappes dispo- nibles pour l’assignation aléatoire est assez grand. Sur la base de l’intuition décrite ci-dessus, vous pouvez dé�nir le nombre de grappes nécessaire pour effectuer un test d’hypothèse précis en effectuant des calculs de puissance. La réalisation de calculs de puissance pour des échantillons à grappes nécessite une étape supplémentaire par rapport à la procédure de base : 1. Le programme produit-il des grappes ? 2. Quel est l’indicateur de résultat ? 3. Souhaitez-vous comparer les impacts du programme entre plusieurs sous-groupes ? 4. Quel est le niveau minimum d’impact qui justi�erait l’investissement effectué dans l’intervention ? 5. Quelle est la moyenne de référence de l’indicateur de résultat ? 6. Quelle est la variance de l’indicateur de résultat dans la population à l’étude ? 7. Quelle est la variance de l’indicateur de résultat au sein des grappes ? Par rapport aux calculs de puissance sans grappe, une étape est ajoutée : vous devez demander à votre statisticien quel est le degré de corrélation entre les résul- tats au sein des grappes. À l’extrême, tous les résultats d’une même grappe peuvent afficher une corrélation parfaite. Par exemple, il est possible que les revenus des ménages ne soient pas particulièrement variables au sein d’un village, mais que d’importantes inégalités existent entre différents villages. Dans ce cas, si vous sou- haitez ajouter un individu à votre échantillon d’évaluation, l’addition d’un individu d’un nouveau village augmentera plus la puissance que l’addition d’un individu 188 L’évaluation d’impact en pratique venant d’un village déjà représenté. En effet, dans ce dernier cas, le deuxième vil- lageois sera très probablement similaire au villageois déjà inclus dans l’échantillon. En général, plus la corrélation intra-grappe des résultats est élevée, plus le nombre de grappes nécessaire pour obtenir un niveau de puissance donné augmente. Dans les échantillons par grappes, les calculs de puissance mettent en évidence la Concept clé : balance nécessaire entre l’ajout de nouvelles grappes à l’échantillon et de nouvelles Pour les calculs de observations dans les grappes de l’échantillon. L’augmentation relative de la puis- puissance, le nombre sance due à l’ajout d’une unité au sein d’une nouvelle grappe est presque toujours de grappes est plus plus importante que l’ajout d’une unité au sein d’une grappe existante. Bien que important que le l’augmentation de puissance associée à l’ajout d’une nouvelle grappe puisse être nombre d’individus importante, l’ajout de grappes peut aussi avoir des conséquences opérationnelles et au sein des grappes. affecter le coût de la collecte de données. La section suivante explique comment Il faut le plus souvent réaliser des calculs de puissance avec des grappes dans l’exemple du PSAM+ au moins 30 grappes et certaines des décisions possibles. dans chaque groupe Dans de nombreux cas, il faut au moins 30 à 50 grappes dans le groupe de traite- (groupe de traitement ment et dans le groupe de comparaison pour obtenir une puissance suffisante et et groupe de garantir l’équilibre des caractéristiques de référence avec la méthode d’assignation comparaison). aléatoire. Toutefois, le nombre peut varier en fonction des différents paramètres mentionnés ci-dessus, tout comme le degré de corrélation intra-grappe. De plus, le nombre de grappes nécessaire est généralement plus élevé avec des méthodes autres que l’assignation aléatoire (toutes choses égales par ailleurs). Taille de l’échantillon nécessaire pour évaluer une version ampli�ée du Programme de subvention de l’assurance maladie (PSAM) avec grappes Après votre discussion avec le statisticien concernant les calculs de puissance pour le PSAM+, vous décidez de vous entretenir avec la présidente et le ministre de la Santé au sujet des conséquences d’une assignation aléatoire du PSAM+ aux indivi- dus béné�ciant déjà du PSAM. Cette conversation vous permet d’établir qu’une telle procédure ne serait pas politiquement réalisable  : il serait difficile d’expliquer pourquoi une personne pourrait béné�cier d‘une couverture supplémentaire, mais pas son voisin. Au lieu d’appliquer la sélection aléatoire au niveau individuel, vous proposez de sélectionner de manière aléatoire plusieurs villages béné�ciant du PSAM pour pilo- ter le PSAM+. Tous les habitants des villages sélectionnés seraient alors éligibles. Cette procédure entraîne la création de grappes et nécessite donc de nouveaux calculs de puissance. Vous cherchez maintenant à déterminer la taille de l’échan- tillon nécessaire pour évaluer l’impact du PSAM+ dans un contexte d’assignation aléatoire par grappe. Vous consultez à nouveau votre statisticien. Il vous rassure en déclarant que cela ne nécessite qu’un petit effort supplémentaire. Sur sa liste, seule une question reste sans réponse. Il doit savoir la variance de l’indicateur de résultat au sein des grappes. Il trouve la réponse à cette question dans les données de suivi du PSAM  : la corrélation intra-village des dépenses de santé directes est égale à 0,04. Choix de l’échantillon 189 Il vous demande également si un plafond a été dé�ni pour le nombre de villages dans lesquels le nouveau projet pilote peut être lancé. Étant donné que le PSAM a été mis en œuvre dans 100 villages, vous lui expliquez que vous pourriez avoir au maxi- mum 50  villages de traitement et 50  villages de comparaison pour le programme PSAM+. Sur la base de ces informations, le statisticien produit les calculs illustrés au tableau 11.5 pour une puissance de 0,9. Il conclut que pour détecter une baisse de deux dollars des dépenses de santé directes, l’échantillon doit inclure au moins 900 unités, soit neuf unités par grappe pour 100 grappes. Il note que ce chiffre est supérieur à celui de l’échantillon corres- pondant à l’assignation aléatoire au niveau des ménages qui ne nécessite que 672 uni- tés au total. Pour détecter une baisse de trois dollars des dépenses de santé directes, l’échantillon doit inclure au moins 340  unités, ou quatre  unités par grappe pour 85 grappes. Toutefois, lorsque le statisticien tente de dé�nir l’échantillon nécessaire pour détecter une baisse de un dollar des dépenses de santé directes, il conclut qu’un tel impact ne pourrait pas être détecté avec 100  grappes. Au moins 109  grappes seraient nécessaires, et le nombre d’observations au sein de chaque grappe serait extrêmement élevé. Ces conclusions indiquent qu’un grand nombre de grappes est nécessaire pour qu’une évaluation ait assez de puissance pour détecter des impacts relativement réduits, indépendamment du nombre d’observations au sein de chaque grappe. Le statisticien suggère alors de recalculer ces chiffres avec une puissance de seulement 0,8 (voir le tableau 11.6). Les tailles d’échantillon nécessaires sont plus réduites, mais restent plus importantes pour un échantillon par grappes que pour un simple échantillon aléatoire. Tableau 11.5 Taille de l’échantillon nécessaire pour différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,9, 100 grappes maximum Échantillon Échantillon Effet minimal Nombre de Unités par total avec total sans détectable grappes grappe grappes grappe 1$ Impossible Impossible Impossible 2 688 2$ 100 9 900 672 3$ 85 4 340 300 Remarque : l’effet minimal détectable correspond à la réduction minimum des dépenses de santé directes des ménages que l’évaluation d’impact doit pouvoir détecter. 190 L’évaluation d’impact en pratique Tableau 11.6 Taille de l’échantillon nécessaire pour différents effets minimums détectables (baisse des dépenses de santé des ménages), puissance = 0,8, 100 grappes maximum Échantillon Échantillon Effet minimal Nombre de Unités par total avec total sans détectable grappes grappe grappes grappe $1 100 102 10 200 2 008 $2 90 7 630 502 $3 82 3 246 224 Remarque : l’effet minimal détectable correspond à la réduction minimum des dépenses de santé directes des ménages que l’évaluation d’impact doit pouvoir détecter. Le statisticien calcule alors comment le nombre total d’observations néces- saires varie en fonction du nombre de grappes. Il décide de refaire les calculs pour un effet minimal détectable de deux dollars et une puissance de 0,9. La taille de l’échantillon total nécessaire pour estimer un tel impact augmente fortement lorsque le nombre de grappes diminue (tableau 11.7). Pour 100 grappes, 900 obser- vations sont nécessaires. Pour 30 grappes, l’échantillon total doit alors contenir 6 690 observations. En revanche, pour 157 grappes, seules 785 observations sont nécessaires. QUESTION 9 A. Quelle taille d’échantillon total recommanderiez-vous pour estimer l’impact du PSAM+ sur les dépenses de santé directes ? B. Dans combien de villages recommanderiez-vous à la présidente et au ministre de la Santé de déployer le PSAM+ ? Tableau 11.7 Taille de l’échantillon nécessaire pour détecter un impact minimum de 2 dollars pour différents nombres de grappes, puissance = 0,9 Effet minimal Nombre de Unités par Échantillon total détectable grappes grappe sans grappe 2$ 30 223 6 690 2$ 60 20 1 200 2$ 86 11 946 2$ 100 9 900 2$ 120 7 840 2$ 135 6 810 2$ 157 5 785 Choix de l’échantillon 191 En résumé Pour résumer, la qualité d’une évaluation d’impact dépend directement de la qualité des données sur lesquelles elle se fonde. À ce titre, il est essentiel de créer des échan- tillons bien construits et d’une taille adéquate. Nous avons passé en revue les prin- cipes de base des calculs de puissance. Dans la plani�cation d’une évaluation, les calculs de puissance sont un outil essentiel pour limiter les coûts de collecte des données. Ils permettent d’éviter de collecter plus de données que nécessaire tout en minimisant le risque de conclure de façon erronée qu’un programme n’a pas d’im- pact alors qu’il en a bien eu un. Les calculs de puissance se fondent sur des informa- tions techniques et statistiques, mais aussi sur des décisions politiques. En général, l’augmentation de la taille de l’échantillon a des rendements décroissants. Pour dé�- nir la taille de l’échantillon adéquate, il faut donc trouver le juste équilibre entre la précision des estimations d’impact et les considérations budgétaires. Concept clé : Nous nous sommes concentrés ici sur le cas de référence d’une évaluation d’im- Les méthodes pact mise en œuvre au moyen de l’assignation aléatoire. Il s’agit du scénario le plus d’évaluation d’impact simple, et donc le plus adapté pour décrire l’intuition sous-jacente aux calculs de quasi expérimentales puissance. De nombreux aspects pratiques des calculs de puissance n’ont cepen- nécessitent presque dant pas été abordés, et de nombreux scénarios divergent des exemples simpli�és toujours des présentés ici. Par exemple, les méthodes d’évaluation d’impact quasi expérimen- échantillons plus tales nécessitent presque toujours des échantillons plus importants que dans le cas grands que le cas de l’assignation aléatoire. Par ailleurs, la taille de l’échantillon nécessaire aug- de référence de mente s’il existe un risque de biais dans l’estimation des effets du traitement ou l’assignation aléatoire. dans les cas où l’adhérence n’est pas totale. Ces aspects sortent du cadre du présent ouvrage, mais vous trouverez une description plus détaillée dans Spybrook et al. (2008) ou Rosenbaum (2009, chapitre 14). Il existe plusieurs ressources de référence pour approfondir la conception d’échantillons. Ainsi, la Fondation W.T. Grant a mis au point l’Optimal Design Software for Multi-Level and Longitudi- nal Research, un logiciel utile pour les analyses de puissance statistique en pré- sence de grappes. Dans la pratique, les agences qui commanditent une évaluation sont nombreuses à faire appel à un spécialiste pour effectuer les calculs de puis- sance. Ce dernier devrait être à même de prodiguer des conseils si des méthodes autres que l’assignation aléatoire sont utilisées. Choisir une stratégie d’échantillonnage La taille n’est pas le seul facteur qui garantit l’adéquation d’un échantillon pour une évaluation d’impact. Le procédé utilisé pour prélever l’échantillon de la population à l’étude a également une grande importance. Les principes d’échantillonnage peuvent orienter le prélèvement d’échantillons représentatifs. L’échantillonnage comprend trois étapes : 1. Déterminer la population à l’étude. 2. Dé�nir un cadre d’échantillonnage. 192 L’évaluation d’impact en pratique 3. Prélever autant d’unités du cadre d’échantillonnage que les calculs de puissance le nécessitent. Dans un premier temps, la population à l’étude doit être clairement dé�nie12. Pour cela, il convient de dé�nir avec précision l’unité d’observation pour laquelle les résultats seront mesurés, avec une description claire de la couverture géogra- phique ou de tout autre attribut pertinent caractérisant la population. Par exemple, Concept clé : si vous gérez un programme de développement de la petite enfance, vous pouvez Le cadre d’échantillon- chercher à mesurer les résultats cognitifs pour des enfants de trois à six ans dans nage est la liste l’ensemble du pays, pour des enfants de cette tranche d’âges uniquement dans les existante la plus zones rurales ou seulement pour des enfants inscrits à l’école maternelle. exhaustive des unités Dans un deuxième temps, une fois que la population à l’étude a été dé�nie, il constituant la convient de créer un cadre d’échantillonnage. Le cadre d’échantillonnage est la liste population à l’étude. la plus exhaustive qui puisse être dressée des unités d’une population à l’étude. Un biais de couverture Théoriquement, le cadre d’échantillonnage doit coïncider parfaitement avec la apparait s’il y a une population à l’étude. Par exemple, un recensement parfaitement à jour de la popu- divergence entre le lation à l’étude constituerait un cadre d’échantillonnage idéal. Dans la pratique, cadre d’échantillon- des listes existantes comme les données d’un recensement de population, d’un nage et la population recensement institutionnel ou des listes d’inscription à un programme sont sou- à l’étude. vent utilisées comme cadres d’échantillonnage. Un bon cadre d’échantillonnage est essentiel pour que les conclusions tirées de l’analyse d’un échantillon soient applicables à l’ensemble de la population. En effet, un cadre d’échantillonnage qui ne coïncide pas parfaitement avec la population à l’étude engendre un biais de couverture, comme l’illustre la �gure 11.2. En présence d’un biais de couverture, les résultats de l’échantillon n’ont pas une validité externe pour l’ensemble de la population à l’étude, mais uniquement pour Figure 11.2 Un cadre d’échantillonnage valide couvre l’intégralité de la population à l’étude Cadre d’échantillonnage valide Cadre d’échantillonnage invalide Population à l’étude Choix de l’échantillon 193 la population du cadre d’échantillonnage. Par conséquent, les biais de couverture faussent l’interprétation des résultats de l’évaluation d’impact puisque la source de ces résultats n’est pas claire. Lorsque vous envisagez de prélever un nouvel échantillon ou d’évaluer la qualité d’un échantillon existant, il est important de déterminer si le meilleur cadre d’échan- tillonnage disponible coïncide avec la population à l’étude. La généralisation des sta- tistiques extraites de l’échantillon à toute la population à l’étude dépend de l’ampleur du biais de couverture, autrement dit de l’absence de différence entre le cadre d’échantillonnage et la population à l’étude. Par exemple, un biais de couverture peut apparaitre si vous souhaitez étudier tous les ménages d’un pays, mais que vous utilisez l’annuaire téléphonique comme cadre d’échantillonnage : dans ce cas, les ménages sans téléphone ne seront pas inclus dans l’échantillon. Ceci peut fausser les résultats de l’évaluation si les ménages sans télé- phone présentent également d’autres caractéristiques qui les différencient de la popu- lation à l’étude et que ces caractéristiques affectent la façon dont les ménages béné�cieraient de l’intervention. Par exemple, les ménages sans téléphone peuvent se situer dans des zones rurales reculées. Si vous souhaitez évaluer l’impact d’un pro- gramme de formation professionnelle, omettre les ménages les plus isolés peut affec- ter les résultats de l’évaluation, car ces ménages sont probablement ceux qui ont le plus de mal à intégrer le marché du travail. Le risque de biais de couverture est réel, et la prudence est donc de rigueur lors de la dé�nition des cadres d’échantillonnage. Par exemple, les données de recense- ment peuvent contenir la liste de toutes les unités d’une population. Toutefois, si une période trop longue s’est écoulée entre le recensement et la formation d’un échan- tillon, le cadre d’échantillonnage peut ne pas être totalement à jour, ce qui créera un biais de couverture. Par ailleurs, il est possible que les données de recensement ne contiennent pas suffisamment d’informations sur des caractéristiques précises pour pouvoir constituer un cadre d’échantillonnage. Si la population à l’étude est consti- tuée d’enfants allant à l’école maternelle et que le recensement ne contient pas d’in- formations sur les inscriptions à l’école, des données complémentaires seront nécessaires13. Une fois que la population à l’étude et le cadre d’échantillonnage sont dé�nis, vous devez choisir la méthode de prélèvement de l’échantillon. Il existe plusieurs procédures. Les méthodes d’échantillonnage probabilistes sont les plus rigoureuses, Concept clé : car elles attribuent à chaque unité une probabilité bien dé�nie d’être sélectionnée. L’échantillonnage Les trois principales méthodes d’échantillonnage probabilistes sont les suivantes14 : est le processus par lequel les unités sont • Échantillonnage aléatoire. Toutes les unités de la population ont exactement la prélevées du cadre même probabilité d’être prélevées15. d’échantillonnage. • Échantillonnage aléatoire strati�é. La population est divisée en groupes (hommes L’échantillonnage et femmes par exemple) et un échantillonnage aléatoire est effectué au sein de probabiliste attribue chaque groupe. Par conséquent, toutes les unités d’un même groupe (ou strate) à chaque unité une ont la même probabilité d’être prélevées. Si les groupes sont assez grands, l’échan- probabilité bien dé�nie tillonnage strati�é permet de tirer des conclusions sur les résultats non seule- d’être sélectionnée. ment au niveau de la population, mais également au sein de chaque groupe. 194 L’évaluation d’impact en pratique La strati�cation est essentielle pour les évaluations qui visent à comparer les im- pacts d’un programme entre différents sous-groupes. • Échantillonnage par grappes. Les unités sont divisées en grappes et un échan- tillon aléatoire de grappes est prélevé. L’ensemble des unités des grappes préle- vées constitue alors l’échantillon ou seul un certain nombre d’unités sont sélec- tionnées de manière aléatoire au sein de chaque grappe. Par conséquent, chaque grappe a une probabilité bien dé�nie d’être sélectionnée, et les unités sélection- nées de chaque grappe ont elles aussi une probabilité bien dé�nie d’être prélevées. Dans le contexte d’une évaluation d’impact, la procédure de prélèvement d’un échantillon dépend souvent des règles d’éligibilité du programme à évaluer. Comme nous l’avons mentionné dans la section consacrée à la taille des échan- tillons, si la plus petite unité de mise en œuvre viable est plus grande que l’unité d’observation, l’assignation aléatoire du traitement engendrera la création de grappes. Pour cette raison, l’échantillonnage par grappes est souvent utilisé dans les études d’évaluation d’impact. L’échantillonnage non probabiliste peut entraîner de graves erreurs d’échan- tillonnage. L’échantillonnage dirigé ou l’échantillonnage de commodité sont parfois utilisés à la place des procédures d’échantillonnage probabilistes décrites ci-des- sus. Dans ces cas, des erreurs d’échantillonnage peuvent survenir même si le cadre d’échantillonnage couvre l’ensemble de la population et qu’il n’existe aucun biais de couverture. Considérons par exemple que pour une enquête nationale, un groupe d’enquêteurs est mandaté de collecter des données sur les ménages en se rendant dans les foyers les plus proches de l’école dans chaque village. En suivant cette procédure d’échantillonnage non probabiliste, il est probable que l’échan- tillon ne sera pas représentatif de l’ensemble de la population à l’étude. Un biais de couverture sera créé, car les foyers éloignés ne seront pas couverts par l’enquête. En �n de compte, il faut choisir avec prudence son cadre d’échantillonnage et sa procédure d’échantillonnage pour assurer la validité externe des résultats obtenus pour l’ensemble de la population à l’étude. Même si le cadre d’échantillonnage pré- sente une couverture parfaite et qu’une procédure d’échantillonnage probabiliste est utilisée, des erreurs non liées à l’échantillonnage peuvent affecter la validité externe de l’échantillon. Nous abordons ces erreurs dans le prochain chapitre. Notes 1. Les données sur les coûts sont également nécessaires pour l’analyse coût-béné�ce. 2. Pour une description détaillée des enquêtes auprès des ménages, voir Grosh et Glewwe (2000) et ONU (2005). Dal Poz et Gupta (2009) abordent certains problèmes spéci�ques à la collecte des données dans le secteur de la santé. 3. À ce stade, la discussion peut s’appliquer à n’importe quelle population : l’ensemble de la population à l’étude, la population du groupe de traitement ou la population du groupe de comparaison. Choix de l’échantillon 195 4. Dans ce contexte, le terme « population » ne fait pas référence à la population d’un pays, mais plutôt à l’ensemble du groupe d’enfants qui nous intéresse, à savoir la « population à l’étude ». 5. Cette intuition est formalisée par le « théorème limite central ». Pour un résultat  y , ce théorème énonce que la moyenne de l’échantillon constitue une estimation valide de la moyenne de la population. Par ailleurs, pour un échantillon de taille n et une variance de σ dans la population, la variance de la moyenne de l’échantillon est inversement proportionnelle à la taille de l’échantillon : 2 s var( y ) = . n Plus la taille de l’échantillon n augmente, plus la variance des estimations d’échantillon s’approche de zéro. Autrement dit, la moyenne est estimée avec plus de précision avec de grands échantillons qu’avec de petits échantillons. 6. L’allocation du traitement par grappe est souvent incontournable à cause de considérations sociales ou politiques qui rendent impossible l’assignation aléatoire à l’intérieur des grappes. Dans le contexte d’une évaluation d’impact, la création de grappes est souvent nécessaire en raison du risque de débordements ou de diffusion des béné�ces du programme entre les individus au sein des grappes. 7. Outre la puissance, il convient également de �xer un niveau de con�ance établissant une probabilité acceptable d’erreur de type I, généralement 0,05 (ou 0,01 pour un niveau plus conservateur). 8. Si les calculs de puissance sont effectués à partir de l’enquête de référence, l’auto-corrélation des résultats au �l du temps doit également être prise en compte. 9. Par exemple, Spybrook et al. (2008) ont développé Optimal Design, un logiciel convivial permettant de réaliser des calculs de puissance. 10. Il est généralement souhaitable d’avoir des groupes de traitement et de comparaison de la même taille. En effet, pour un nombre donné d’observa- tions dans un échantillon, la puissance est optimisée en allouant la moitié des observations au groupe de traitement et l’autre moitié au groupe de compa- raison. Toutefois, les groupes de traitement et de comparaison ne doivent pas systématiquement être de la même taille. Informez votre statisticien de toute contrainte s’opposant à l’utilisation de deux groupes de même taille ou de toute raison justi�ant l’utilisation de groupes de tailles inégales. 11. Les questions de non-réponse et d’attrition sont abordées au chapitre 12 de manière plus détaillée. 12. Dans le contexte de l’évaluation d’un programme, l’ensemble de la popula- tion à l’étude peut être assigné au groupe de traitement ou au groupe de comparaison. Cette section décrit de façon générale la façon de prélever un échantillon de la population à l’étude totale. 13. Si l’on procède à un échantillonnage par grappes et que la liste des unités au sein des grappes n’est plus d’actualité, il faut envisager la possibilité d’effectuer une énumération exhaustive des unités au sein de chaque grappe. Par exemple, si l’échantillon est prélevé au sein d’une communauté, l’agence chargée de la collecte des données peut commencer par dresser la liste de tous les ménages du village avant de réaliser l’enquête. 196 L’évaluation d’impact en pratique 14. Voir Cochran (1977) ; Lohr (1999) ; Kish (1995) ; Thompson (2002) ou, pour une présentation très abordable, Kalton (1983) pour une description de l’échan- tillonnage (y compris d’autres méthodes comme l’échantillonnage systéma- tique ou en plusieurs étapes) plus approfondie que les concepts de base abordés ici. Grosh et Muñoz (1996) ; Fink (2008) ; Iarossi (2006) ; et ONU (2005) formulent des conseils pratiques sur l’échantillonnage. 15. Au sens strict, les échantillons sont prélevés à partir de cadres d’échantillon- nage. Nous partons de l’hypothèse selon laquelle ce cadre coïncide parfaite- ment avec la population. Références Cochran, William G. 1977. Sampling Techniques. 3e édition. New York : John Wiley. Dal Poz, Mario et Neeru Gupta. 2009. « Assessment of Human Resources for Health Using Cross-National Comparison of Facility Surveys in Six Countries. » Human Resources for Health 7 : 22. Fink, Arlene G. 2008. How to Conduct Surveys: A Step by Step Guide. 4e édition. Beverly Hills, CA : Sage Publications. Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. « Water for Life: The Impact of the Privatization of Water Services on Child Mortality. » Journal of Political Economy 113 (1) : 83–120. Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Question- naires for Developing Countries: Lessons from 15 Years of the Living Standards Measurement Study. Washington DC : Banque mondiale. Grosh, Margaret et Juan Muñoz. 1996. « A Manual for Planning and Implementing the Living Standards Measurement Study Survey. » Document de travail LSMS 126, Banque mondiale, Washington, DC. Iarossi, Giuseppe. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys, Interpreting Results, and Influencing Respondents. Washington DC : Banque mondiale. Kalton, Graham. 1983. Introduction to Survey Sampling. Beverly Hills, CA : Sage Publications. Kish, Leslie. 1995. Survey Sampling. New York : John Wiley. Lohr, Sharon. 1999. Sampling: Design and Analysis. Paci�c Grove, CA : Brooks Cole. Pradhan, Menno et Laura B. Rawlings. 2002. « The Impact and Targeting of Social Infrastructure Investments: Lessons from the Nicaraguan Social Fund. » Étude économique de la Banque mondiale 16 (2) : 275–95. Rosenbaum, Paul. 2009. Design of Observational Studies. New York : Springer Series in Statistics. Spybrook, Jessaca, Stephen Raudenbush, Xiaofeng Liu, Richard Congdon et Andrés Martinez. 2008. Optimal Design for Longitudinal and Multilevel Research: Documen- tation for the “Optimal Design� Software. New York : William T. Grant Foundation. Thompson, Steven K. 2002. Sampling. 2e édition. New York : John Wiley. ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in Developing and Transition Countries. New York : Organisation des Nations Unies. Choix de l’échantillon 197 CHAPITRE 12 Collecter des données Au chapitre 11, nous avons décrit le type de données nécessaires pour mener une évaluation et suggéré que la plupart des évaluations nécessitaient la collecte de nouvelles données. Nous avons également vu comment déterminer la taille de l’échantillon nécessaire et la façon de procéder à l’échantillonnage. Dans le présent chapitre, nous allons passer en revue les étapes de la collecte de données. Ces étapes doivent être bien comprises pour que l’évaluation d’impact soit fondée sur des données de qualité qui ne la compromettent pas. Dans un premier temps, vous devrez faire appel à une société ou un organisme gouvernemental spécialisé dans la collecte de données. Vous devrez en parallèle commanditer l'élaboration d’un questionnaire approprié. L’agence qui collecte les données devra recruter et former du personnel de terrain et procéder à un pilotage du questionnaire. Après avoir effectué les modi�cations nécessaires, la société ou l'organisme pourra enta- mer le travail sur le terrain. En�n, les données collectées devront être saisies et validées avant d’être exploitées. Choisir une entité compétente pour collecter les données Vous devrez choisir assez tôt dans l’organisme qui sera responsable de la collecte des données, et ce en considérant nombre de facteurs importants. Ce travail peut potentiellement être réalisé par : • l’institution responsable de la mise en œuvre du programme ; 199 • une autre institution gouvernementale qui possède de l’expérience dans la collecte de données (comme l’agence nationale de statistique) ; ou • une société ou un groupe indépendant spécialisé dans la collecte de données. L’entité collectant les données doit dans tous les cas travailler en étroite collabora- tion avec l’organisme responsable de l’exécution du programme. Étant donné que les données de référence doivent être collectées avant que le programme ne soit lancé, cette collaboration est nécessaire pour s’assurer qu’aucun aspect du programme n’est mis en œuvre avant que les données n'aient été collectées. Lorsque des données de référence sont nécessaires au fonctionnement du programme (par exemple, pour produire un indice de ciblage dans le contexte d'une évaluation fondée sur un modèle de discontinuité de la régression), l'organisme de collecte des données doit être en mesure de les traiter rapidement et de les transférer à l'institution responsable du programme. Une collaboration étroite est également nécessaire pour déterminer le moment le plus propice à la collecte des données de l’enquête de suivi. Par exemple, si vous avez choisi une assignation aléatoire par phase, l’enquête de suivi devra être réalisée avant que le programme ne soit déployé au sein du groupe de comparaison a�n d’éviter toute contamination. Au moment de choisir l'entité qui collectera les données, il est essentiel de garder à l’esprit qu’il faut employer des procédures de collecte identiques pour les groupes de comparaison et de traitement. Souvent, l’organisme chargé de l’exécution du pro- gramme n’a de contact qu’avec le groupe de traitement et n’est donc pas le mieux placé pour collecter des données pour le groupe de comparaison. Il serait risqué d’utiliser deux agences de collecte de données différentes pour les groupes de traite- ment et de comparaison, car cela peut entraîner des divergences dans les résultats mesurés pour les deux groupes du simple fait de l’utilisation de procédures diffé- rentes. Si l’organisme d’exécution ne peut pas collecter des données de manière effi- ciente pour le groupe de traitement et le groupe de comparaison, mieux vaut envisager le recrutement d’un autre partenaire. Dans certains contextes, il est également recommandé de con�er la collecte de données à une agence indépendante pour assurer l’objectivité du travail. Les craintes d’une éventuelle partialité de l’organisme responsable de l’exécution du programme peuvent être infondées, mais la contribution d’un organisme n’ayant aucun intérêt dans les résultats de l’évaluation peut renforcer la crédibilité de l’évaluation. Étant donné que la collecte de données comprend une série d’opérations com- plexes, il est recommandé de faire appel à un organisme expérimenté. Rares sont les organismes responsables de l’exécution des programmes qui possèdent l’expérience suffisante pour collecter des données pour de grands échantillons avec une qualité suffisante pour une évaluation d’impact. Dans la plupart des cas, vous devrez envisa- ger de mandater une institution locale, comme le bureau national de statistique, ou une société ou un groupe indépendant spécialisé. Mandater une institution locale comme le bureau national de statistique peut être l’occasion, pour l’organisme, de se familiariser avec les études d’évaluation d’impact et d’étendre ses expertises. Toutefois, les bureaux nationaux de statistique ne 200 L’évaluation d’impact en pratique possèdent pas toujours les capacités suffisantes pour entreprendre des missions supplémentaires en dehors de leurs activités régulières. Ils peuvent également ne pas avoir l’expérience nécessaire pour réaliser des enquêtes dans le cadre d’évalua- tion d’impact, par exemple la mise en place de procédures de suivi des individus dans le temps. Dans ce cas, il peut être plus pratique de faire appel à une société ou à un groupe spécialisé dans la collecte de données. Il n’est pas impératif que la même entité collecte les données de référence et de suivi. Par exemple, pour l’évaluation d’impact d'un programme de formation dont la population cible est composée des personnes s’étant inscrites, l’institution chargée de la formation peut être responsable de la collecte des données de référence au moment de l’inscription des participants. Il est toutefois peu probable que cette même institution soit la mieux placée pour collecter les données de suivi pour les groupes de traitement et de comparaison. Dans ce contexte, il peut être avantageux de contracter séparément la collection des diverses rondes de collectes de données, tout en s’assurant qu’aucune information utile au suivi des ménages ou des individus ne soit perdue entre les rondes et que les mêmes procédures soient utilisées pour les enquêtes de référence et de suivi. Pour déterminer l’organisme le mieux à même de collecter les données pour l’évaluation d’impact, il faut tenir compte de toute une série de facteurs, y compris l’expérience en collecte de données, la capacité à collaborer avec l’organisme respon- sable de l’exécution du programme, l’impartialité, les opportunités de renforcer les capacités locales, la faculté d’adaptation au contexte de l’évaluation d’impact, ainsi que la qualité probable des données collectées. Rédiger un cahier des charges et sol- liciter des propositions techniques et �nancières est un moyen efficace de détermi- ner l’organisme le mieux placé pour collecter des données de qualité. Étant donné que les délais de réalisation du travail et la qualité des données sont des facteurs déterminants pour la �abilité de l’évaluation d’impact, le contrat avec l’agence de collecte des données doit être rédigé avec prudence. La portée des tra- vaux et des résultats attendus doit être décrite de manière très précise. Il est égale- ment recommandé d’introduire au sein des contrats des mesures incitatives associées à de clairs indicateurs de qualité. Par exemple, comme nous le verrons ci-après, le taux de non-réponse est un indicateur clé de la qualité des données. A�n d’encoura- ger les agences de collecte de données à limiter le taux de non-réponse, le contrat peut par exemple stipuler le paiement d’un coût unitaire pour 90 % de l’échantillon, d’un coût unitaire supérieur pour les unités comprises entre 90 % et 95 % et d’un coût unitaire encore plus élevé pour les unités comprises entre 95 % et 100 %. Un contrat séparé peut aussi être conclu pour la phase de suivi des non-répondants. Élaboration du questionnaire Au moment de commanditer une collecte de données, vous devez dé�nir des objec- tifs précis et donner des directives spéci�ques sur le contenu de l’instrument ou du Collecter des données 201 questionnaire à utiliser. Les instruments de collecte de données doivent permettre d’obtenir toutes les informations nécessaires pour répondre à la question de poli- tique sur laquelle porte l’évaluation d’impact. Choix des indicateurs Comme nous l’avons vu, des indicateurs doivent être mesurés tout au long de la chaîne de résultats, y compris des indicateurs de résultat �nal, des indicateurs de résultats intermédiaires, et des indicateurs de la mise en œuvre de l’intervention, des facteurs exogènes et des caractéristiques de contrôle. Il est important de choisir avec prudence les indicateurs à mesurer a�n de limiter les coûts de la collecte des données, de simpli�er la tâche de l’agence de collecte et d’améliorer la qualité des données collectées en réduisant le temps requis des répon- dants. Collecter des informations non pertinentes ou peu susceptibles d’être utili- sées est très coûteux. La rédaction à l’avance d’un plan d’analyse des données vous permettra d’établir des priorités et de dé�nir les informations nécessaires. Les données sur les indicateurs de résultats et sur les caractéristiques de contrôle doivent être collectées de la même manière pour l’enquête de référence que pour l’enquête de suivi. Il est très souhaitable de collecter des données de référence. Même si vous utilisez les méthodes de l’assignation aléatoire ou de discontinuité de la régression, pour lesquelles de simples différences pour les indicateurs mesurées après l’intervention fournissent en principe l’impact d’un programme, les données de référence sont indispensables pour véri�er si la méthode d’évaluation d’impact est appropriée (voir la liste de l’encadré 8.1 au chapitre 8). Disposer de données de référence est également une assurance si la sélection aléatoire ne fonctionne pas parfaitement et que la méthode de la double différence doit être utilisée à la place. Les données de référence sont également utiles pendant la phase d’analyse puisque les variables de contrôle contenues dans les données de référence peuvent contri- buer à augmenter la puissance statistique ou vous permettre d’analyser si les impacts varient pour différents sous-groupes. En�n, les données de référence peuvent servir à améliorer la conception du programme. Ainsi, elles permettent parfois d’analyser l’efficacité du ciblage ou fournissent des informations supplémentaires sur les béné- �ciaires à l’organisme responsable de l’exécution du programme. Mesure des indicateurs Une fois que les données essentielles à collecter sont dé�nies, l’étape suivante consiste à déterminer la façon dont vous allez mesurer ces indicateurs. La mesure est un art en soi, et mieux vaut la con�er à l’agence mandatée pour collecter les données, à des spécialistes ou aux évaluateurs. Des ouvrages entiers sont consacrés à la meilleure façon de mesurer des indicateurs particuliers, comme notamment la meilleure manière de formuler les questions qui �gurent dans les enquêtes menées 202 L’évaluation d’impact en pratique auprès des ménages (voir Grosh et Glewwe [2000] et ONU [2005])1 ou les procé- dures détaillées à suivre pour collecter des résultats d’examen ou des indicateurs de santé. Si ces considérations peuvent sembler laborieuses, elles n’en sont pas moins essentielles. Nous énonçons ici quelques principes généraux qui vous guideront dans la supervision de la collecte de données. Les indicateurs de résultat doivent, dans la mesure du possible, être conformes aux meilleures pratiques locales et internationales. Il est toujours utile de se pencher sur la façon dont les indicateurs à l’étude ont été mesurés dans des enquêtes anté- rieures, à la fois sur le plan local et international. L’utilisation des mêmes indicateurs (et des mêmes modules ou questions pour l’enquête) permet de garantir la compara- bilité entre les données existantes et les données collectées pour l’évaluation d’im- pact. Si vous décidez de choisir un indicateur qui n’est pas parfaitement comparable ou qui n’est pas bien mesuré, vous limitez l’utilité des résultats de l’évaluation. Tous les indicateurs doivent être mesurés exactement de la même façon pour toutes les unités du groupe de traitement et du groupe de comparaison. L’utilisation de méthodes de collecte différentes (par exemple une enquête téléphonique dans un cas et des entretiens en face à face dans l’autre) risque de générer un biais. Ce risque est également présent si vous collectez des données à des moments différents pour les deux groupes (par exemple si vous collectez les données du groupe de traitement pendant la saison des pluies et celles du groupe de comparaison pendant la saison sèche). C’est pourquoi les procédures utilisées pour mesurer un indicateur de résul- tat doivent être formulées de manière très précise. Le processus de collecte des don- nées doit être exactement le même pour toutes les unités. Dans le questionnaire, chaque module associé au programme doit être introduit sans affecter l’ordre ou le contexte des réponses dans d’autres sections du questionnaire. Formatage des questionnaires Des réponses différentes peuvent être obtenues en posant une même question de manière légèrement différente. Par conséquent, le contexte et la formulation des questions doivent être les mêmes pour toutes les unités a�n d’éviter tout biais dans les réponses. Glewwe (ONU 2005) formule six recommandations spéci�ques sur le contenu des questionnaires d’enquêtes auprès des ménages. Ces recommandations s’appliquent aussi à la plupart des autres instruments de collecte de données : 1. Chaque question doit être rédigée dans son intégralité dans le questionnaire a�n que l’enquêteur puisse réaliser son entretien en lisant chaque question mot pour mot. 2. Le questionnaire doit inclure des dé�nitions précises de tous les concepts clés mentionnés dans l’enquête a�n que l’enquêteur puisse y faire référence pendant l’entretien si nécessaire. Collecter des données 203 3. Chaque question doit être aussi courte et simple que possible et être rédigée dans des termes simples du quotidien. 4. Les questionnaires doivent être conçus de façon à ce que les réponses à presque toutes les questions soient précodées. 5. Le système de codage doit être le même pour toutes les questions. 6. L’enquête doit clairement indiquer les questions à sauter en fonction des ré- ponses aux questions précédentes. Une fois le questionnaire rédigé par la personne mandatée, il doit être présenté à une équipe de spécialistes. Toutes les personnes participant à l’évaluation (décideurs, chercheurs, analystes et collecteurs de données) doivent être consultées pour savoir si le questionnaire permettra d’obtenir toutes les informations nécessaires. Pilotage du questionnaire Il est important que le questionnaire fasse l’objet d’un pilotage sur le terrain avant d’être �nalisé. La réalisation d’un pilote permet de tester son contenu, son forma- tage et la formulation des questions. Il est essentiel de procéder à un pilotage com- plet du questionnaire sur le terrain dans des conditions réelles a�n de véri�er la durée d’administration et de s’assurer que son contenu est suffisamment cohérent et complet pour mesurer toutes les informations pertinentes. Le pilotage sur le terrain fait partie intégrante du travail de conception du questionnaire. Travail de terrain Même si vous engagez un partenaire externe pour la collecte des données, il est essentiel que vous compreniez toutes les étapes de ce processus pour pouvoir garantir que les mécanismes de contrôle de qualité et les mécanismes incitatifs appropriés sont en place. L’organisme de collecte des données doit coordonner les travaux d'un grand nombre d'intervenants, parmi lesquels les enquêteurs, les superviseurs, les coordonnateurs de terrain ainsi que le personnel d'appui logis- tique en plus d'une équipe de programmateurs, de superviseurs et d'opérateurs de saisie. Un plan de travail précis doit être mis en place pour coordonner le travail de toutes ces équipes ; le plan de travail constitue donc un produit important. Dès le début, le plan de travail doit prévoir une séance de formation de l’équipe de collecte avant que la collecte ne commence. À ce titre, un manuel de référence doit être rédigé et utilisé tout au long du travail sur le terrain. La formation est 204 L’évaluation d’impact en pratique essentielle pour s'assurer que les données sont collectées de la même manière par tous les intervenants. Le processus de formation est également une bonne occa- sion pour repérer les meilleurs enquêteurs et effectuer un dernier test des instru- ments et des procédures dans des conditions réelles. Une fois l’échantillon prélevé, les instruments conçus et testés, et les équipes formées, la collecte des données peut commencer. Il est utile de veiller à ce que le plan du travail de terrain prévoie que chaque équipe collecte des données pour le même nombre d’unités de traite- ment et de comparaison. Comme nous l’avons vu au chapitre  11, la qualité de l’échantillonnage dépend essentiellement de la qualité des données recueillies. Toutefois, de nombreuses erreurs non liées à l’échantillonnage peuvent survenir pendant la collecte de données. Dans le contexte d’une évaluation d’impact, cela est d’autant plus problématique si ces erreurs diffèrent entre les groupes de traitement et de comparaison. Une non-réponse apparait s’il est impossible de collecter des données exhaustives pour certaines unités de l’échantillon. Les échantillons effectifs se limitent aux uni- tés pour lesquelles des données peuvent être collectées, les unités qui choisissent de ne pas participer à une enquête peuvent rendre l'échantillon moins représentatif et créer un biais dans les résultats de l'évaluation. L’attrition est une forme courante de non-réponse. Elle se produit lorsque des unités quittent l’échantillon entre deux rondes de collecte de données, par exemple par manque de suivi des migrants. La non-réponse et l’attrition sont particulièrement problématiques dans le Concept clé : contexte des évaluations d’impact, car elles peuvent créer des différences entre le La non-réponse groupe de traitement et le groupe de comparaison. Par exemple, l’attrition peut caractérise le manque varier dans les deux groupes  : lors de la collecte de données de suivi, le taux de des données pour réponse parmi les unités traitées pourra être supérieur à celui des unités de compa- certaines unités de raison. Par exemple, ceci peut être dû au fait que les unités de comparaison sont l’échantillon prévu. déçues de ne pas avoir été sélectionnées pour le programme ou sont plus suscep- La non-réponse peut tibles de migrer. Un problème de non-réponse peut également survenir si un ques- entraîner un biais tionnaire n’est pas complet pour certaines unités. dans les résultats L’erreur de mesure est un autre type de problème pouvant générer un biais si elle de l’évaluation. est systématique. Une erreur de mesure survient lorsqu’il existe une différence entre la valeur d’une caractéristique fournie par le sondé et sa véritable valeur (inconnue) (Kasprzyk 2005). Cette différence peut être due à la façon dont le questionnaire est formulé ou à la méthode de collecte des données choisie. Elle peut également surve- nir par la faute des enquêteurs ou des sondés. La qualité d’une évaluation d’impact dépend directement de la qualité des don- Concept clé : nées collectées. Toutes les parties prenantes doivent connaître les normes de qualité Les meilleures qui régissent la collecte de données ; il faut notamment insister sur l’importance de pratiques en matière ces normes durant la formation des enquêteurs et dans les manuels de référence. d’évaluation d’impact Il est également essentiel de dé�nir des procédures détaillées pour réduire le taux de visent à limiter le taux non-réponse ou (si cela est jugé acceptable) remplacer les unités introuvables de de non-réponse et l’échantillon prévu. L’agence de collecte de données doit parfaitement comprendre d’attrition à 5 %. Collecter des données 205 quels sont les taux de non-réponse et d’attrition acceptables. Les meilleures pra- tiques en matière d’évaluation d’impact visent à limiter le taux de non-réponse et d’attrition à 5 %. Cet objectif n’est pas toujours réalisable au sein de populations très mobiles, mais il fournit toutefois une référence utile. Il arrive que, pour limiter le taux de non-réponse, les sondés se voient offrir une compensation. Dans tous les cas, le contrat avec l’agence de collecte des données doit prévoir des mesures incitatives claires, par exemple une rémunération supérieure si le taux de non-réponse est infé- rieur à 5 % ou tout autre taux jugé acceptable. En parallèle, des procédures d’assurance de la qualité bien dé�nies doivent être établies à toutes les étapes du processus de collecte de données : conception des pro- cédures d’échantillonnage, formulation du questionnaire, étapes de préparation, col- lecte, saisie, nettoyage et stockage des données. Les contrôles de qualité doivent être considérés comme une priorité pendant les travaux sur le terrain a�n de limiter les erreurs de non-réponse pour chaque unité. Des procédures précises doivent être mises en place pour revisiter les unités qui n’ont fourni aucune information ou pour lesquelles les informations sont incom- plètes. Le processus de contrôle de la qualité doit comporter plusieurs �ltres en pré- voyant par exemple que les enquêteurs, les superviseurs et, si nécessaire, les coordonnateurs de terrain véri�ent les cas de non-réponse. Les questionnaires cor- respondant aux cas de non-réponses doivent être clairement codés et consignés. Une fois les données saisies, le taux �nal de non-réponse peut être établi en révisant le statut de toutes les unités de l’échantillon prévu. Des contrôles de qualité doivent également être effectués si les données d’un questionnaire sont incomplètes. Là encore, le processus de contrôle de la qualité doit comporter plusieurs �ltres. L’enquêteur est chargé de véri�er les données immédia- tement après leur collecte. Le superviseur et le coordonnateur de terrain doivent effectuer ultérieurement des véri�cations aléatoires. Les contrôles visant à détecter les erreurs de mesure sont plus compliqués, mais eux aussi essentiels pour déterminer si les informations ont été collectées correcte- ment. Des contrôles de cohérence peuvent être intégrés au questionnaire. Par ailleurs, les superviseurs doivent effectuer des véri�cations ponctuelles et des contre-véri�cations pour s'assurer que les enquêteurs collectent les données confor- mément aux normes établies. Les coordonnateurs de terrain doivent également par- ticiper à ces contrôles pour réduire le risque de conflits d’intérêts au sein de la société de sondage. Il est essentiel que toutes les étapes du contrôle de la qualité soient rendues expli- cites pour l’organisme chargé de la collecte des données. Vous pouvez également envisager de faire appel à un organisme indépendant pour superviser la qualité des activités de collecte de données. Ceci permet de limiter de façon signi�cative les problèmes pouvant survenir en raison d'une supervision insuffisante de l’équipe de collecte de données. 206 L’évaluation d’impact en pratique Saisie et validation des données Les enquêtes auprès des ménages sont généralement réalisées à l’aide d’un question- naire papier bien que des instruments de collecte de données électroniques comme les ordinateurs portables et autres dispositifs portatifs deviennent plus courants. Dans tous les cas, les données doivent être numérisées et traitées. Un logiciel de saisie de données doit être créé et un système doit être mis en place pour gérer le flux des questionnaires à numériser. Il faut établir des normes et des procédures, et former les opérateurs de saisie, qui doivent tous suivre le même processus de saisie. Dans la mesure du possible, la saisie des données doit être intégrée aux opérations de col- lecte de données (y compris pendant la phase de pilotage) pour que tout problème concernant les données collectées puisse être rapidement identi�é et immédiate- ment véri�é sur le terrain. Si les enquêtes sont réalisées sur papier, il est impératif que les données brutes collectées soient saisies telles quelles, sans aucune modi�cation. A�n de réduire les erreurs de saisie, il est recommandé d’exiger une procédure de saisie de données en double aveugle a�n de repérer et de corriger toute erreur éventuelle. Outre les contrôles de qualité effectués au cours du processus de saisie des don- nées, le logiciel peut être programmé pour effectuer des véri�cations automatiques d’erreurs non liées à l’échantillonnage (par exemple de non-réponse partielle et incohérences) susceptibles d’avoir été commises sur le terrain. Si le processus de saisie des données est intégré aux procédures de travail sur le terrain, les données incomplètes ou incohérentes peuvent être transmises aux enquêteurs pour leur véri- �cation sur le terrain (Muñoz 2005, chapitre 15). Ce type d’intégration n’est pas sans poser de dé�s au niveau du flux organisationnel des opérations sur le terrain, mais il peut générer d’importants gains de qualité en réduisant les erreurs de mesure et en accroissant la puissance de l’évaluation d’impact. Le recours à une approche inté- grée de ce type doit être envisagé au moment de la plani�cation de la collecte de données. Les nouvelles technologies peuvent faciliter cette intégration. Comme nous l’avons vu, la collecte de données implique une série d'opérations dont la complexité ne doit pas être sous-estimée. L’encadré 12.1 illustre le processus de collecte des données en vue de l’évaluation des programmes pilotes Atención a Crisis au Nicaragua, qui a généré des données de qualité avec un très faible taux d’attrition et de non-réponse tout en minimisant les erreurs de mesure et de saisie. Seule la mise en place de procédures et de mesures incitatives appropriées dès l’engagement d’un orga- nisme de la collecte des données permet d’obtenir des données de qualité. À l’issue du processus de collecte des données, les données doivent être trans- mises, accompagnées d’une documentation détaillée, comprenant un manuel et un dictionnaire complets, et stockées de façon sécurisée. Si les données sont collectées dans le cadre d’une évaluation d’impact, elles doivent également être accompagnées d’informations supplémentaires sur le traitement et la participation au programme de chaque unité. L’analyse d’évaluation d’impact sera d’autant plus rapide qu’elle pourra se reposer sur des données et une documentation complète, permettant ainsi son utilisation plus rapidement dans le cycle d’élaboration de politiques. Cela facili- tera également le partage des informations. Collecter des données 207 Encadré 12.1 : Collecte de données pour l’évaluation des pro- grammes pilotes Atención a Crisis au Nicaragua En 2005, le Gouvernement du Nicaragua lance matiquement renvoyés sur le terrain pour véri�- le programme pilote Atención a Crisis. L ’objectif cation. Ces procédures et exigences sont est d'évaluer l’impact de la combinaison d'un décrites avec précision dans les termes de réfé- programme de transferts monétaires condition- rence de l’agence de collecte des données. nels (TMC) et de transferts productifs, tels que Par ailleurs, des procédures de suivi détaillées des transferts pour des investissements dans sont mises en place pour limiter l’attrition. Au des activités non agricoles ou la participation à début, un recensement complet des ménages des formations professionnelles. Le projet pilote résidant dans les communautés de traitement et est mis en œuvre par le ministère de la Famille de comparaison en 2008 est entrepris en collabo- avec le soutien de la Banque mondiale. ration étroite avec les dirigeants communautaires. Une assignation aléatoire en deux étapes est Au vu de l’importante mobilité géographique de la utilisée pour l'évaluation. Dans un premier temps, population, des mesures incitatives sont mises en 106 communautés cibles sont réparties de manière place pour encourager la société de collecte de aléatoire entre le groupe de comparaison et le données à suivre les migrants dans tout le pays. groupe de traitement. Dans un second temps, au Grâce à cette initiative, seulement 2 % des sein des communautés traitées, les ménages éli- 4 359 ménages d’origine ne sont pas interrogés gibles sont sélectionnés de manière aléatoire pour en 2009. La société de collecte de données est recevoir trois types de prestations : 1) un transfert également mandatée pour suivre tous les indivi- monétaire conditionnel ; 2) un TMC plus une dus des ménages interrogés en 2005. Là encore, bourse permettant à l’un des membres du ménage seuls 2 % des individus auxquels les transferts du de choisir une formation professionnelle ; et 3) un programme s’adressaient ne sont pas suivis (2 % TMC plus un transfert pour permettre un investis- étant par ailleurs décédés). Le taux d’attrition sement productif dans une activité non agricole, s’établit à 3 % pour tous les enfants des ménages dans le but de créer des actifs et de diversi�er les interrogés en 2005 et à 5 % pour tous les indivi- revenus (Macours et Vakis 2009). dus des ménages interrogés en 2005. Une enquête de référence est réalisée en Les taux d’attrition et de non-réponse don- 2005, avec une première enquête de suivi en nent une bonne indication de la qualité de l’en- 2006 et une deuxième enquête de suivi en 2008, quête. La société de collecte des données a deux ans après la �n de l’intervention. Des déployé d’importants efforts et mis en place des contrôles de qualité rigoureux sont mis en place à mesures incitatives pour obtenir ces résultats toutes les étapes du processus de collecte des remarquables. Il convient également de mention- données. Premièrement, les questionnaires sont ner que le coût unitaire par ménage ou individu testés sur le terrain et les enquêteurs sont for- suivi est également beaucoup plus élevé. De més à la fois dans des conditions théoriques et plus, les contrôles de qualité rigoureux entraînent pratiques. Deuxièmement, un système de super- une augmentation des coûts et un allongement vision sur le terrain est mis en place a�n que tous des délais de collecte des données. Toutefois, les questionnaires soient révisés plusieurs fois dans le contexte du projet pilote Atención a Cri- par les enquêteurs, les superviseurs, les coor- sis, l’échantillon reste représentatif à la fois au donnateurs de terrain et d’autres examinateurs. niveau des ménages et des individus plus de Troisièmement, un système de saisie des don- quatre ans après l'enquête de référence, l'erreur nées en double aveugle est utilisé avec un pro- de mesure est minimisée et la �abilité de l'éva- gramme complet de contrôle de la qualité capable luation est renforcée. Tous ces éléments font du de repérer les questionnaires incomplets ou programme Atención a Crisis l’un des projets de incohérents. Les questionnaires présentant des protection sociale dont la �abilité peut être étu- non-réponses ou des incohérences sont systé- diée avec le plus de con�ance. Source : Macours et Vakis 2009 ; auteurs. 208 L’évaluation d’impact en pratique Note 1. Voir également Fink et Kosecoff (2008) ; Iarossi (2006) ; et Leeuw, Hox et Dillman (2008), qui fournissent de nombreux conseils pratiques sur la collecte de données. Références Fink, Arlene G. et Jacqueline Kosecoff. 2008. How to Conduct Surveys: A Step by Step Guide. 4e édition. Londres : Sage Publications. Glewwe, Paul. 2005. « An Overview of Questionnaire Design for Household Surveys in Developing Countries. » In Household Sample Surveys in Developing and Transition Countries, chapitre 3. New York : Organisation des Nations Unies. Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Questionnaires for Developing Countries: Lessons from 15 Years of the Living Standards Measurement Study. Washington DC : Banque mondiale. Iarossi, Giuseppe. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys, Interpreting Results, and Influencing Respondents. Washington DC : Banque mondiale. Kasprzyk, Daniel. 2005. « Measurement Error in Household Surveys: Sources and Measurement. » In Household Sample Surveys in Developing and Transition Countries, chapitre 9. New York : Organisation des Nations Unies. Leeuw, Edith, Joop Hox et Don Dillman. 2008. International Handbook of Survey Methodology. New York : Taylor & Francis Group. Macours, Karen et Renos Vakis. 2009. « Changing Household Investments and Aspirations through Social Interactions: Evidence from a Randomized Experiment. » Document de travail consacré à la recherche sur les poli- tiques 5137, Banque mondiale, Washington, DC. Muñoz, Juan. 2005. « A Guide for Data Management of Household Surveys. » In Household Sample Surveys in Developing and Transition Countries, chapitre 15. New York : Organisation des Nations Unies. ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in Developing and Transition Countries. New York : Organisation des Nations Unies. Collecter des données 209 CHAPITRE 13 Production et diffusion des résultats Dans ce chapitre, nous abordons le contenu et la diffusion des divers rapports pro- duits au cours d’une évaluation d’impact. Pendant la phase de préparation, le ges- tionnaire de l’évaluation commence par élaborer un plan de réalisation de l’évaluation d’impact qui détaille les objectifs, la méthode, les stratégies d’échantillonnage et de collecte de données pour l’évaluation (l’encadré 13.1 propose une ébauche du plan d’évaluation). Les différents éléments du plan d’évaluation sont présentés dans les chapitres 1 à 12 ci-dessus. Une fois l’évaluation en cours, les évaluateurs produisent plusieurs rapports, dont un rapport de référence, au moins un rapport d’évaluation d’impact et des notes de synthèse politique. Les évaluateurs fournissent également des bases de données documentées. Lorsque le rapport d’évaluation d’impact est terminé et que les résul- tats sont connus, il faut déterminer la meilleure façon de diffuser les conclusions auprès des décideurs et autres parties prenantes concernées. Le présent chapitre est consacré à la production et à la diffusion des résultats de l’évaluation d’impact. Les produits de l’évaluation Les principaux produits d’une évaluation sont le rapport d’évaluation d’impact et des notes de synthèse politique résumant les principales conclusions. La réalisa- 211 Encadré 13.1 : Exemple de structure d’un plan d’évaluation d’impact 1. Introduction 2. Description de l’intervention 3. Objectifs de l’évaluation 3.1 Hypothèses, théorie du changement, chaîne de résultats 3.2 Questions de politique 3.3 Indicateurs de résultat clés 4. Méthode d’évaluation 5. Échantillonnage et données 5.1 Stratégie d’échantillonnage 5.2 Calculs de puissance 6. Plan de collecte des données 6.1 Enquête de référence 6.2 Enquête(s) de suivi . 7 Produits 7.1 Rapport de référence 7.2 Rapport d’évaluation d’impact 7.3 Note de synthèse politique 7.4 Bases de données documentées 8. Plan de diffusion 9. Questions éthiques 10. Calendrier 11. Budget et �nancement 12. Composition de l’équipe d’évaluation tion d’un rapport �nal d’évaluation peut prendre plusieurs années puisque les conclusions ne peuvent être obtenues que lorsque toutes les données de suivi ont été collectées. En raison de ce délai, les décideurs demandent souvent à recevoir des rapports d’évaluation intermédiaires, comme un rapport de référence, a�n de disposer d’informations préliminaires pour alimenter le dialogue et les décisions de politique publique1. Comme nous l’avons vu au chapitre 10, le gestionnaire de l’évaluation travaille en collaboration avec des analystes pour produire le rapport de référence et le rapport �nal. Les analystes sont des experts en statistique ou en économétrie qui peuvent 212 L’évaluation d’impact en pratique réaliser l’analyse de l’évaluation d’impact au moyen d’un logiciel statistique comme Stata, SPSS ou R. Ils sont chargés de garantir la qualité, la rigueur scienti�que et la crédibilité des résultats. Nous n’abordons pas dans ce chapitre la façon d’analyser les données2, mais plutôt le contenu des rapports produits à partir des données. Produit intermédiaire : le rapport de référence Le principal objectif du rapport de référence est de déterminer si la méthode d’éva- luation d’impact choisie est valide dans la pratique et de décrire les caractéris- tiques de la population éligible et les indicateurs de résultats de référence (avant le programme). Le rapport de référence contient également des informations sur le programme et ses béné�ciaires qui peuvent être utiles pour améliorer à la fois la mise en œuvre du programme et son évaluation. L’encadré  13.2 présente un exemple du contenu d’un rapport de référence3. Le rapport de référence est produit à partir de l’analyse de données de base et de données administratives décrivant les unités qui font partie du groupe de traitement ou de comparaison. L’assignation de ménages, d’individus ou d’établissements au Encadré 13.2 : Exemple de structure d’un rapport de référence 1. Introduction 2. Description de l’intervention (béné�ces, règles d’éligibilité, etc.) 3. Objectifs de l’évaluation 3.1 Hypothèses, théorie du changement, chaîne de résultats 3.2 Questions de politique 3.3 Indicateurs de résultat clés 4. Méthode d’évaluation 4.1 Méthode prévue initialement 4.2 Participants et non participants effectifs au programme 5. Échantillonnage et données 5.1 Stratégie d’échantillonnage 5.2 Calculs de puissance 5.3 Données collectées 6. Validation de la méthode d’évaluation . 7 Statistiques descriptives complètes 8. Conclusion et recommandations pour la mise en œuvre du programme Production et diffusion des résultats 213 groupe de traitement ou au groupe de comparaison s’effectue généralement après la collecte des données de référence. Par conséquent, l’assignation de chaque unité au groupe de traitement ou de comparaison est souvent enregistrée dans une base de données administrative distincte. Par exemple, un tirage au sort peut être organisé pour déterminer les communautés qui béné�cieront d’un programme de transferts monétaires parmi toutes les communautés éligibles auprès desquelles l’enquête de référence a été réalisée. Dans ce cas, les analystes doivent effectuer un croisement des données administratives et des données de référence. Si l’évaluation porte sur, disons, plus de 100 unités éligibles, il ne sera pas pratique d’effectuer un croisement par nom des données de référence et des données administratives. Il faudra attribuer à chaque unité éligible un numéro ou un identi�ant unique qui servira à l’identi�er dans toutes les sources de données, y compris dans les bases de données de référence et administratives. Les premières sections du rapport de référence approfondissent le plan d’évalua- tion d’impact en présentant le contexte de l’évaluation, le contenu de l’intervention (béné�ces du programme et règles d’assignation), les objectifs de l’évaluation (théo- rie du changement, principales questions de politique, hypothèses et indicateurs) et la méthode choisie pour l’évaluation. La section consacrée à la conception de l’éva- luation doit déterminer si l’assignation des béné�ces du programme a été conforme à la méthode prévue. Étant donné que l’assignation est généralement réalisée juste après l’enquête de référence, il est recommandé de présenter des informations sur l’assignation effective dans le rapport de référence. La section sur l’échantillonnage commence généralement par une description de la stratégie d’échantillonnage et des calculs de puissance effectués avant de passer aux détails sur la façon dont les don- nées de référence ont été collectées et le type d’informations qui sont disponibles. Le rapport doit mentionner toutes les éventuelles difficultés rencontrées lors de la col- lecte des données de référence et présenter des indicateurs de la qualité des don- nées, par exemple les taux de non-réponse. À ce titre, le rapport de référence peut mettre en évidence les principaux problèmes à résoudre au moment de collecter les données du suivi. Par exemple, si le taux de non-réponse est élevé lors de l’enquête de référence, les évaluateurs devront penser à élaborer de nouvelles procédures pour s’assurer que cela ne se reproduise pas pour l’enquête de suivi. Comme nous l’avons mentionné, le principal objectif du rapport de référence est de juger si la méthode d’évaluation choisie et présentée dans le plan d’évaluation reste valable en pratique. Nous avons vu au chapitre 8 que la plupart des méthodes d’évaluation d’impact ne produisent des estimations valides du contrefactuel que dans le cadre d’hypothèses spéci�ques. L’encadré 8.1 (chapitre 8) présente la liste des tests qui peuvent servir à tester la pertinence d’une méthode en fonction du contexte. Certains de ces tests ne nécessitent pas de données de suivi et peuvent être appliqués dès que les données de référence sont disponibles. Par exemple, si la méthode de l’assignation aléatoire ou de l’offre aléatoire est utilisée, le rapport de référence doit préciser si les groupes de traitement et de comparaison présentent les mêmes caractéristiques. Si l’évaluation est fondée sur la méthode de la discontinuité 214 L’évaluation d’impact en pratique de la régression, le rapport de référence doit considérer si l’indice d’éligibilité est continu autour du seuil d’éligibilité. Même si ces tests de falsi�cation ne garantissent pas que le groupe de comparaison reste valide jusqu’à l’enquête de suivi, il est impé- ratif de les présenter dans le rapport de référence. En plus d’éprouver la validité de la méthode d’évaluation, le rapport de référence doit comporter des tableaux décrivant les caractéristiques de l’échantillon d’évalua- tion. Ces tableaux peuvent faciliter la mise en œuvre du programme en permettant aux gestionnaires de mieux cerner le pro�l des béné�ciaires et d’adapter l’interven- tion à leurs besoins. Par exemple, les gestionnaires peuvent adapter le contenu des formations proposées par un programme de formation des jeunes en ayant une meilleure idée du niveau d’éducation ou de l’expérience professionnelle moyenne des participants. Du point de vue de l’évaluation, l’enquête de référence génère souvent des infor- mations qui n’étaient pas disponibles au moment de la formulation du plan d’évalua- tion. Supposons que vous cherchiez à évaluer l’impact d’un programme de santé dans les villages sur l’incidence de la diarrhée chez les enfants. Au moment de la rédaction du plan d’évaluation, il se peut que vous ne connaissiez pas le taux d’inci- dence exact de la diarrhée. Votre plan d’évaluation contient seulement une estima- tion sur laquelle sont fondés les calculs de puissance. Cependant, une fois que vous disposez des données de référence, vous pouvez véri�er le taux d’incidence de la diarrhée et véri�er si la taille initiale de votre échantillon est adéquate. Si vous constatez que les valeurs de référence des indicateurs de résultat sont différentes de celles utilisées pour les calculs de puissance initiaux, le rapport de référence pourra actualiser les calculs de puissance. A�n de garantir la crédibilité des résultats �naux de l’évaluation, il est judicieux de demander à des spécialistes externes d’effectuer une revue critique du rapport de référence. La diffusion du rapport de référence peut également renforcer le dialogue politique entre les parties prenantes au cours du cycle d’évaluation. Produits �naux : rapport d’évaluation d’impact, note de synthèse politique et bases de données Le rapport �nal d’évaluation d’impact est le principal produit de l’évaluation. Il est rédigé à partir des données de suivi4. Le principal objectif du rapport d’évaluation est de présenter les résultats de l’évaluation et de répondre à toutes les questions de politique posées initialement. Par ailleurs, le rapport doit montrer que l’évaluation est fondée sur des estimations valides du contrefactuel et que les impacts identi�és sont entièrement attribuables au programme. Le rapport d’évaluation d’impact �nal est un rapport exhaustif qui résume l’en- semble des travaux accomplis dans le cadre de l’évaluation et qui inclut une descrip- tion détaillée de l’analyse des données et des spéci�cations économétriques ainsi qu’une analyse des résultats, des tableaux et des annexes. L’encadré 13.3 présente un exemple de contenu d’un rapport d’évaluation d’impact. Il existe de nombreux bons Production et diffusion des résultats 215 exemples de rapports d’évaluation d’impact, comme Maluccio et Flores (2005), Levy et Ohls (2007) ou Skou�as (2005) pour les programmes de transferts moné- taires conditionnels ; Card et al. (2007) pour un programme de formation des jeunes ; Cattaneo et al. (2009) pour un programme de logement ; et Basinga et al. (2010) pour un programme de paiement à la performance dans le secteur de la santé. Comme pour le rapport de référence, les évaluateurs et analystes collaborent pour produire le rapport �nal d’évaluation d’impact. Ils commencent par produire une base de données contenant les données de référence, les données de suivi et les données administratives sur la mise en œuvre du programme, ainsi que les données sur l’assignation initiale aux groupes de traitement et de comparaison. Toutes ces sources de données doivent être croisées et consolidées en utilisant l’identi�ant unique de chaque unité. Étant donné que le rapport �nal d’évaluation d’impact est le principal produit de l’évaluation, il doit passer en revue les informations clés du plan d’évaluation et du rapport de référence avant de passer à l’analyse des résultats. La section d’introduc- tion du rapport �nal doit présenter la motivation pour l’intervention et l’évaluation Encadré 13.3 : Exemple de structure d’un rapport d’évaluation 1. Introduction 2. Description de l’intervention (béné�ces, règles d’éligibilité, etc.) 2.1. Conception 2.2 Mise en œuvre 3. Objectifs de l’évaluation 3.1 Hypothèses, théorie du changement, chaîne de résultats 3.2 Questions de politique 3.3 Indicateurs de résultat clés 4. Méthode d’évaluation 4.1 Théorie 4.2 Pratique 5. Échantillonnage et données 5.1 Stratégie d’échantillonnage 5.2 Calculs de puissance 5.3 Données collectées 6. Validation de la méthode d’évaluation . 7 Résultats 8. Tests de sensibilité 9. Conclusion et recommandations de politique 216 L’évaluation d’impact en pratique puis décrire l’intervention (béné�ces et règles d’assignation), les objectifs de l’éva- luation (théorie du changement, principales questions de politique, hypothèses et indicateurs), la méthode d’évaluation et la façon dont elle a été mise en œuvre. En général, l’interprétation des résultats dépend de la façon dont l’intervention a été mise en œuvre. Le rapport d’évaluation �nal doit donc aborder en détail la façon dont l’intervention a été mise en œuvre. Ces informations peuvent être présentées avant les résultats, par exemple en décrivant les données sur la mise en œuvre du programme obtenues à partir des enquêtes de suivi ou de sources administratives complémentaires. La section sur l’échantillonnage et les données doit contenir une description de la stratégie d’échantillonnage et des calculs de puissance avant l’analyse détaillée des données de référence et de suivi. Les indicateurs clés de qualité des données, comme les taux de non-réponse et d’attrition, doivent être présentés pour chaque ronde de données. Si ces taux sont élevés, l’analyste doit expliquer dans quelle mesure ils peu- vent affecter l’interprétation des résultats. Par exemple, il est essentiel de véri�er si les niveaux d’attrition ou de non-réponse sont similaires dans les groupes de compa- raison et de traitement. Une fois les données décrites, le rapport peut présenter les résultats pour chaque question de politique ainsi que pour tous les indicateurs de résultat identi�és dans les objectifs de l’évaluation. La structure de la présentation des résultats dépend du type de questions de politique à l’étude. Par exemple, l’évaluation vise-t-elle à éprou- ver la validité de différentes alternatives de conception de programme ou seulement l’efficacité d’une intervention  ? Cela intéresse-t-il les décideurs de savoir si les impacts du programme varient entre différents sous-groupes ? Pour les évaluations bien conçues et bien mises en œuvre, des résultats rigoureux peuvent être présentés de manière intuitive. Comme nous l’avons mentionné, le rapport d’évaluation d’impact doit établir que les impacts estimés sont entièrement attribuables au programme. Il doit donc com- porter une étude approfondie de la validité de la méthode d’évaluation, en commen- çant par présenter les résultats des tests de falsi�cation effectués avec les données de référence (encadré 8.1, chapitre 8), puis des tests éventuellement effectués à partir des données de suivi. Par exemple, si la méthode de la double différence est choisie, certains des tests de falsi�cation décrits dans l’encadré 8.1 ne peuvent être effectués que si les données de suivi sont disponibles. L’introduction du rapport d’évaluation doit énumérer toute difficulté rencontrée par la méthode d’évaluation entre l’enquête de référence et l’enquête de suivi. Par exemple, le manque d’adhérence des participants au groupe de traitement ou au groupe de comparaison a des implications importantes au niveau de l’analyse et de l’interprétation des résultats et doit donc être mentionné dès le début du rapport. Production et diffusion des résultats 217 Le rapport doit également contenir des renseignements sur le nombre d’unités assi- gnées au groupe de traitement n’ayant pas béné�cié du programme et sur le nombre d’unités assignées au groupe de comparaison en ayant béné�cié. L’analyse doit être ajustée pour prendre en compte toute différence observée par rapport à l’assignation initiale (ces techniques sont décrites dans la partie 2). En parallèle aux tests sur la validité de la méthode d’évaluation, le rapport �nal doit fournir une analyse approfondie de la nature, de la �abilité et de la sensibilité des résultats. Il doit contenir une série de tests de sensibilité portant sur la méthodo- logie d’évaluation employée. Par exemple, si une méthode d’appariement est utilisée, le rapport doit présenter les résultats de plusieurs techniques d’appariement alter- natives. Les analystes ont la responsabilité de déterminer et de présenter les tests de robustesse nécessaires à l’évaluation. La dernière partie du rapport doit fournir une réponse claire à toutes les questions de politique motivant l’évaluation et présenter des recommandations de politique détaillées fondées sur les résultats. Il est particulièrement important de comprendre comment l’intervention a été mise en œuvre si les résultats de l’évaluation font état d’un impact limité ou négatif. L’absence de résultats ou des résultats négatifs ne justi�ent pas des sanctions à l’en- contre du programme ou des évaluateurs. Au contraire, ils constituent une occasion d’expliquer clairement ce qui n’a pas fonctionné comme prévu, un élément essentiel pour améliorer les programmes et politiques. Lorsque des signes indiquent que l’évaluation va produire des résultats nuls ou négatifs, il est particulièrement impor- tant que l’équipe d’évaluation communique continuellement avec les décideurs et responsables du programme. Des évaluations de processus ou des travaux qualitatifs complémentaires peuvent contribuer à expliquer la raison pour laquelle un pro- gramme n’a pas produit les résultats escomptés. Une absence de résultats causée par la mise en œuvre imparfaite du programme doit être différenciée d’une absence de résultats causée par un programme bien mis en œuvre, mais mal conçu5. En général, les évaluations d’alternatives de conception d’un même programme sont les plus utiles pour distinguer formellement les caractéristiques qui fonctionnent ou pas. Globalement, l’analyse �nale des données doit générer des preuves convain- cantes que les impacts détectés sont effectivement attribuables au programme. Pour garantir l’objectivité et la légitimité des résultats, tous les rapports doivent faire l’ob- jet d’une revue critique externe et de consultations techniques rigoureuses avant d’être �nalisés. Le contenu du rapport �nal d’évaluation d’impact peut par la suite être retravaillé et publié dans un journal académique plus technique, renforçant ainsi la crédibilité des résultats de l’évaluation. 218 L’évaluation d’impact en pratique Outre le rapport d’évaluation complet, les évaluateurs doivent produire une ou plusieurs notes de synthèse politique pour communiquer les résultats aux décideurs et aux autres parties prenantes. La note de synthèse politique présente les princi- pales conclusions de l’évaluation sous forme de graphiques, de diagrammes ou d’autres formats lisibles, et résume les recommandations de politique de l’analyse. Elle contient également un résumé des caractéristiques techniques de l’évaluation. Elle peut être rendue publique en format papier ou mise en ligne et diffusée aux politiciens, à la société civile et aux médias. De bons exemples de notes de synthèse politique se trouvent sur les sites Internet de Poverty Action Lab (JPAL) ou du Réseau de développement humain de la Banque mondiale (par exemple, Poverty Action Lab 2008 ; Réseau de développement humain de la Banque mondiale 2010). Une base de données documentée constitue le dernier produit majeur généré par une évaluation d’impact. La documentation peut être effectuée à l’aide d’outils comme le Microdata Management Toolkit de l’International Household Survey Network (http://www.ihsn.org). Les décideurs et les évaluateurs conviennent géné- ralement d’un calendrier pour la réalisation de l’analyse et le partage des données d’évaluation. Il est important de mettre les données à la disposition du public pour assurer la transparence de l’évaluation. Ainsi, les résultats peuvent aussi être véri�és et validés par des chercheurs indépendants. La diffusion publique des données encourage d’autres chercheurs à effectuer des analyses supplémentaires, ce qui peut générer de nouvelles informations et de nouveaux résultats pertinents pour le pro- gramme. Lorsque les données sont rendues publiques, il est important de garantir l’anonymat de tous les sujets étudiés. Toute information permettant d’identi�er les sondés (nom, adresse ou informations sur le lieu) doit être supprimée des bases de données publiées. Les renseignements personnels doivent être traités de manière con�dentielle et ne doivent servir que dans le cadre de nouvelles activités de collecte de données dument autorisées. Diffusion des résultats Au-delà de la simple production des résultats, l’objectif des évaluations d’impact est de renforcer l’efficacité des politiques publiques et de contribuer à améliorer le bien- être des populations. A�n de garantir que l’évaluation d’impact est prise en compte dans les décisions de politique, il est essentiel d’établir une communication claire entre toutes les parties prenantes (décideurs, société civile et médias). Les évalua- tions influentes comprennent souvent un plan de diffusion détaillé qui décrit la façon dont les parties prenantes doivent être informées et mobilisées tout au long du cycle d’évaluation. Ce plan de diffusion peut faciliter la prise en compte des conclusions par les décideurs et garantir que l’évaluation d’impact produise de véritables résultats. Dès les premières phases de la conception de l’évaluation, les évaluateurs peu- vent établir de solides canaux de communication avec les décideurs. Comme nous Production et diffusion des résultats 219 l’avons souligné dans notre présentation des méthodes d’évaluation, la conception de l’évaluation dépend directement de la conception et du mode de mise en œuvre du programme. Il est donc essentiel que les évaluateurs externes et les décideurs qui commandent l’évaluation collaborent étroitement pendant la phase de conception du programme. Si l’équipe d’évaluation est bien organisée, il sera plus facile de faire en sorte que l’évaluation réponde aux besoins des décideurs et les progrès et les résultats seront régulièrement communiqués à ces derniers. Le plan de diffusion doit énoncer comment l’équipe d’évaluation contribuera à soutenir la demande pour les résultats de l’évaluation et assurer leur utilisation dans les prises de décisions. Les évaluateurs doivent sensibiliser toutes les parties pre- nantes internes et externes en leur communiquant efficacement les résultats tout au long du cycle d’évaluation. Au moment de lancer l’évaluation, l’organisation d’un ate- lier préalable avec les responsables du programme et les principales parties pre- nantes peut permettre d’établir un consensus sur les objectifs principaux, les questions de politique clés et la méthode de l’évaluation. C’est également l’occasion de mener des consultations et d’assurer que l’évaluation répond parfaitement aux besoins des parties prenantes, en plus de les sensibiliser à l’évaluation et de renforcer leur intérêt pour les résultats. Pendant l’évaluation, des réunions régulières d’un comité interinstitutionnel ou une table ronde permanente peuvent garantir que les travaux de l’équipe d’évalua- tion restent pertinents. Ces fora peuvent permettre d’obtenir des commentaires et des réactions sur des produits tels que les termes de références, les instruments d’en- quête, les modes de diffusion des résultats ou la meilleure manière d’atteindre les hauts responsables. Il est important d’organiser des événements de diffusion pour les produits inter- médiaires, comme le rapport de référence, a�n d’entretenir un dialogue actif avec les utilisateurs de l’évaluation. Prévoir des consultations sur le rapport de référence per- met à la fois de diffuser les résultats intermédiaires pertinents et de continuer à sen- sibiliser les parties prenantes sur les résultats à venir. Avant de �naliser le rapport d’évaluation, certains évaluateurs décident d’organi- ser une dernière consultation pour donner aux parties prenantes la possibilité de commenter les résultats. Ces consultations peuvent contribuer à améliorer la qualité des résultats et leur acceptation. Une fois que le rapport �nal d’évaluation d’impact et les notes de synthèse politique sont prêts, des événements de diffusion peuvent être organisés pour communiquer les résultats à toutes les parties prenantes. Un atelier national de consultation et de diffusion réunissant un grand nombre de par- ties prenantes est un bon moyen de discuter des résultats, de recevoir des commen- taires et de dé�nir les changements de politique qui pourraient être entrepris sur la base des résultats. Cet atelier peut être suivi d’un atelier de diffusion destiné aux hauts responsables (voir encadré  13.4). En dehors du pays concerné, les résultats peuvent être diffusés à l’occasion de conférences, de séminaires ou d’autres ren- contres s’ils sont jugés utiles pour les politiques d’autres pays. D’autres circuits de diffusion innovants, comme les interfaces en ligne, peuvent permettre de renforcer la visibilité des conclusions. 220 L’évaluation d’impact en pratique Encadré 13.4 : Diffuser les résultats d’une évaluation pour améliorer les politiques L’évaluation d’une initiative de paiement à la performance des prestataires de santé au Rwanda donne un bon exemple de stratégie de diffusion ef�cace. Sous la direction du ministère de la Santé, une équipe composée d’universitaires locaux et de spécialistes de la Banque mondiale est chargée de mener l’évaluation. Diverses parties prenantes participent à l’évaluation dès son lancement, ce qui se révèle essentiel pour garantir son succès et un fort support politique tout au long de sa mise en œuvre. Les résultats �naux de l’évaluation (Basinga et al. 2010) sont présentés à l’occasion d’un atelier pu- blic d’une journée réunissant de hauts responsables et plusieurs parties prenantes. Grâce à ces canaux de communication, les conclusions influencent fortement la for- mulation de la politique de santé au Rwanda. Les résultats sont également diffusés dans des conférences internationales sur la santé et par le biais d’un site Internet. Source : Morgan 2010. Au �nal, la diffusion des résultats d’une évaluation d’impact conformément à un plan bien conçu couvrant tout le cycle d’évaluation est essentielle pour que les résul- tats influencent le dialogue politique. Les évaluations d’impact ne peuvent remplir leur objectif premier, à savoir l’amélioration de l’efficacité des programmes de déve- loppement, que si les résultats sont partagés avec les décideurs et utilisés dans le processus de prise de décision. Notes 1. Une évaluation peut générer d’autres produits intermédiaires. Par exemple, des évaluations qualitatives ou de processus fournissent de précieuses informa- tions complémentaires avant la rédaction du rapport d’évaluation d’impact �nal. Nous nous concentrons ici sur le rapport de référence, car il constitue le principal produit intermédiaire des évaluations d’impact quantitatives qui font l’objet de cet ouvrage. 2. Khandker et al. (2009) présentent une introduction à l’évaluation qui comprend une revue de l’analyse des données, y compris les commandes Stata correspon- dantes à chaque méthode d’évaluation d’impact. 3. Cette structure est indicative et peut être adaptée en fonction de la nature de chaque évaluation, par exemple en modi�ant l’ordre ou le contenu des diffé- rentes sections. Production et diffusion des résultats 221 4. Lorsque différentes rondes de données de suivi sont collectées, un rapport d’évaluation d’impact peut être rédigé pour chaque ronde, et les résultats peuvent être comparés pour déterminer comment les impacts du programme varient au �l du temps. 5. Comme nous l’avons vu au chapitre 1, c’est la raison pour laquelle les essais d’efficacité pilotes visant à limiter les problèmes de mise en œuvre sont utiles pour déterminer si un programme donné est efficace quand il se déroule dans des circonstances idéales. Une fois la validation de principe documentée, l’étude pilote peut être étendue pour être testée dans des conditions réelles. Références Basinga, Paulin, Paul J. Gertler, Agnes Binagwaho, Agnes L. B. Soucat, Jennifer R. Sturdy et Christel M. J. Vermeersch. 2010. « Paying Primary Health Care Centers for Performance in Rwanda. » Document de travail consacré à la recherche sur les politiques 5190, Banque mondiale, Washington, DC. Card, David, Pablo Ibarraran, Ferdinando Regalia, David Rosas et Yuri Soares. 2007. « The Labor Market Impacts of Youth Training in the Dominican Republic: Evidence from a Randomized Evaluation: Evidence from a Randomized Evaluation. » NBER Working Paper 12883, National Bureau of Economic Research, Washington, DC. Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio Titiunik. 2009. « Housing, Health and Happiness. » American Economic Journal : Economic Policy 1 (1) : 75–105. Khandker, Shahidur R., Gayatri B. Koolwal et Hussain A. Samad. 2009. Handbook on Impact Evaluation: Quantitative Methods and Practices. Washington DC : Banque mondiale. Levy, Dan et Jim Ohls. 2007. « Evaluation of Jamaica’s PATH Program: Final Report. » Ref. No. 8966-090, Mathematica Policy Research, Inc., Washington, DC. Maluccio, John et Rafael Flores. 2005. « Impact Evaluation of a Conditional Cash Transfer Program: The Nicaraguan Red de Proteccion Social. » Rapport de recherche 141, Institut international de recherche sur les politiques alimen- taires, Washington, DC. Morgan, Lindsay. 2010. « Signed, Sealed, Delivered? Evidence from Rwanda on the Impact of Results-Based Financing for Health. » Note de synthèse politique HRBF, Banque mondiale, Washington, DC. Poverty Action Lab. 2008. « Solving Absenteeism, Raising Test Scores. » Policy Briefcase 6. http://www.povertyactionlab.org. Skou�as, Emmanuel. 2005. « PROGRESA and Its Impacts on the Welfare of Rural Households in Mexico. » Rapport de recherche 139, Institut international de recherche sur les politiques alimentaires, Washington, DC. Réseau de développement humain de la Banque mondiale. 2010. « Does Linking Teacher Pay to Student Performance Improve Results? » Notes de synthèse politique, série 1, Banque mondiale, Washington DC. http://www.worldbank.org/hdchiefeconomist. 222 L’évaluation d’impact en pratique CHAPITRE 14 Conclusion Le présent ouvrage est un guide pratique sur la conception et la mise en œuvre des évaluations d’impact. Son contenu s’adresse à trois groupes de lecteurs : 1)  les décideurs qui exploitent les informations générées par les évaluations d’impact, 2) les gestionnaires de projet et les professionnels du développement qui commanditent des évaluations, et 3) les techniciens qui conçoivent et mettent en œuvre des évaluations d’impact. L’évaluation d’impact vise essentiellement à générer des preuves quant à l’efficacité ou l’inefficacité des politiques sociales. Une évaluation d’impact classique compare les résultats en la présence et en l’absence d’un programme à l’étude. Les évaluations d’impact peuvent également permettre d’étudier différentes options de mise en œuvre d’un même programme ou de com- parer les performances de différents programmes. Les évaluations d’impact constituent, selon nous, un investissement justi�é pour de nombreux programmes. Complétées par des méthodes de suivi et d’autres formes d’évaluation, elles permettent de mieux comprendre l’efficacité des poli- tiques sociales. Nous avons présenté différentes méthodes d’évaluation d’impact ainsi que leurs avantages et leurs inconvénients en termes de mise en œuvre, d’économie politique, de contraintes �nancières et d’interprétation des résultats. Nous avons montré qu’une bonne méthode est une méthode qui s’adapte au contexte opérationnel et non le contraire. En�n, nous avons formulé des conseils pratiques et passé en revue des outils qui visent à faciliter la conduite d’une évalua- tion et l’exploitation de ses résultats. 223 Les évaluations d’impact sont des entreprises complexes nécessitant la coordina- tion de nombreux partenaires et activités. La liste suivante contient un résumé des principaux éléments qui caractérisent une bonne évaluation d’impact : ✓ Une question de politique concrète (fondée sur une théorie du changement) à laquelle l’évaluation d’impact peut fournir une réponse ✓ Une stratégie d’identi�cation (ou méthodologie d’évaluation) valide, compatible avec les règles opérationnelles du programme, qui illustre la relation causale entre le programme et les résultats à l’étude ✓ Un échantillon avec une puissance suffisante pour détecter des impacts signi�ca- tifs du point de vue politique et un échantillon représentatif qui permet de géné- raliser les résultats à une population plus étendue ✓ Une base de données de qualité fournissant les variables requises pour l’analyse, incluant à la fois des données de référence et des données de suivi, tant pour le groupe de traitement que pour le groupe de comparaison ✓ Une équipe d’évaluation bien organisée qui travaille en étroite collaboration avec les décideurs et gestionnaires du programme ✓ Un rapport d’impact et des notes de synthèse politique diffusés rapidement au public cible, qui fournissent des informations pertinentes pour la conception du programme et qui alimentent les dialogues de politique. Nous soulignons ci-après quelques conseils formulés dans cet ouvrage pour limiter les risques auxquels les évaluations d’impact font souvent face : ✓ Il est largement préférable de concevoir l’évaluation d’impact au début du cycle de projet dans le cadre de la conception du programme. Une plani�cation menée suffisamment tôt permet de concevoir une évaluation prospective fondée sur la meilleure méthodologie et laisse le temps nécessaire pour collecter des données de référence avant le lancement du programme dans les zones évaluées. ✓ Les résultats doivent être étayés par des données complémentaires provenant d’évaluations de processus et de données de suivi qui fournissent une image claire de la mise en œuvre du programme. Si un programme est efficace, il est important de comprendre pourquoi. Si un programme échoue, il est important de pouvoir distinguer entre un programme mal mis en œuvre et un programme mal conçu. ✓ Collectez des données de référence et intégrez une méthode de rechange à votre plan d’évaluation. Si la méthode d’évaluation initialement prévue n’est pas valide (par exemple si le groupe de comparaison initial béné�cie du pro- gramme), un plan de rechange peut éviter de devoir renoncer entièrement à l’évaluation. 224 L’évaluation d’impact en pratique ✓ Conservez un identi�ant unique pour chaque unité dans toutes les bases de don- nées a�n de pouvoir exploiter facilement toutes les ressources disponibles au moment de l’analyse. Par exemple, un ménage donné doit avoir le même identi- �ant tant dans les systèmes de suivi que dans les enquêtes de référence et de suivi. ✓ Les évaluations d’impact sont utiles aussi bien pour comprendre comment un programme fonctionne et éprouver différentes alternatives de conception de programmes que pour évaluer l’impact global d’un programme au béné�ce unique. La désagrégation des divers éléments d’un programme, même universel et très étendu, peut être un excellent moyen d’apprendre et de tester des innova- tions dans le cadre d’évaluations d’impact bien conçues. Le développement d’une innovation en tant que projet pilote à petite échelle dans le contexte d’une évalua- tion plus étendue peut fournir de précieuses informations pour les prises de décision futures. ✓ Les évaluations d’impact doivent être pleinement considérées comme l’une des composantes du programme ; il faut y consacrer le personnel et le budget adé- quats ainsi que des ressources techniques et �nancières suffisantes. Soyez réa- liste quant aux coûts et à la complexité que représente une évaluation d’impact. La conception de l’évaluation et la collecte des données de référence peuvent durer environ un an. Une fois le programme lancé, il faut une période d’exposi- tion suffisante avant que l’intervention n’affecte les résultats. Selon le pro- gramme, cette période peut s’étendre entre un à cinq ans, voire plus. La collecte d’une ou de plusieurs enquêtes de suivi, la réalisation des analyses et la diffu- sion des résultats nécessitent également des efforts importants sur plusieurs mois. Un cycle d’évaluation d’impact complet nécessite généralement au moins trois ou quatre ans d’efforts soutenus. Des ressources �nancières et techniques adéquates sont nécessaires à chaque étape du processus. Au �nal, les évaluations d’impact fournissent des réponses concrètes à des questions de politique spéci�ques. Même si les réponses sont taillées en fonction des besoins de l’entité qui commandite et �nance l’évaluation, d’autres organismes à travers le monde peuvent en tirer des enseignements et les utiliser dans leurs propres prises de décisions. Par exemple, plusieurs récents programmes de transferts monétaires conditionnels en Afrique, en Asie et en Europe ont tiré des enseignements des éva- luations novatrices des programmes Familias en Acción (Colombie), Progresa (Mexique) et d’autres programmes de transferts monétaires mis en œuvre en Amé- rique latine. Dans ce sens, les évaluations d’impact peuvent être considérées comme un bien public global. Les conclusions d’une évaluation alimentent les connaissances globales sur le sujet en question. Cet ensemble de preuves peut par la suite être uti- lisé par d’autres pays et dans d’autres contextes pour formuler des décisions de poli- tique éclairées. Dans ce sens, la communauté internationale renforce de plus en plus son support aux initiatives d’évaluations rigoureuses. Conclusion 225 À l’échelle nationale, les gouvernements les plus avertis et exigeants cherchent à démontrer à leurs citoyens les résultats obtenus et à rendre des comptes des perfor- mances de leurs politiques. Il est de plus en plus fréquent que des évaluations soient réalisées par des ministères nationaux ou des entités locales spécialement créés pour coordonner un programme d’évaluation national, à l’image du Conseil national d’évaluation de la politique de développement social (CONEVAL) au Mexique et du Département de suivi et d’évaluation de la performance en Afrique du Sud. De plus en plus, les conclusions et les preuves générées par les évaluations d’impact sont prises en compte pour informer les décisions budgétaires des congrès nationaux. Dans les systèmes où les programmes sont évalués sur la base de preuves tangibles en fonction de leurs impacts sur des résultats �naux, les programmes qui génèrent des données positives pourront être soutenus tandis que ceux qui produisent peu d’informations sur leur efficacité auront du mal à trouver des �nancements. Les institutions multilatérales comme la Banque mondiale et les banques de développement régionales ainsi que les agences de développement nationales, les États donateurs et les organismes philanthropiques exigent eux aussi des preuves plus nombreuses et plus concrètes sur l’efficacité des ressources de développement. Ces preuves sont un moyen de rendre compte aux organismes prêteurs ou donateurs de la performance des politiques mises en œuvre et d’orienter les prises de décisions concernant l’allocation des ressources de développement. Le nombre d’évaluations d’impact réalisées par les institutions de développement a fortement augmenté au cours des dernières années. La �gure 14.1 indique le nombre d’évaluations d’impact en cours ou effectuées par la Banque mondiale entre 2004 et 2010, par région. Cette tendance positive devrait se maintenir. Un nombre croissant d’institutions spécialisées dans la réalisation d’évaluations d’impact de qualité prospèrent, notamment dans la sphère universitaire, à l’image de Poverty Action Lab, d’Innovations for Poverty Action, du Center of Evaluation for Global Action ou des organismes indépendants qui soutiennent les évaluations d’im- pact comme l’International Initiative for Impact Evaluation. Plusieurs associations d’évaluation d’impact regroupent des spécialistes, des chercheurs et des décideurs intéressés par ce thème, parmi lesquelles le Network of Networks on Impact Evalua- tion et des associations régionales comme l’African Evaluation Association et le Réseau d’évaluation d’impact de la Latin American and Caribbean Economics Asso- ciation. Tous ces efforts illustrent l’importance croissante de l’évaluation d’impact dans la politique de développement international1. Par conséquent, que vous soyez un professionnel de l’évaluation d’impact, que vous commanditiez des évaluations d’impact ou que vous exploitiez leurs résultats pour vos prises de décision, il est aujourd’hui indispensable pour tout spécialiste du développement de comprendre le langage qui y est associé. Les preuves rigoureuses générées par les évaluations d’impact constituent un catalyseur du dialogue sur les politiques de développement et contribuent à justi�er le bien-fondé des décisions d’investissement dans des programmes et des politiques de développement. 226 L’évaluation d’impact en pratique Figure 14.1 Nombre d’évaluations d’impact effectuées par la Banque mondiale par région, 2004 2010 350 Nombre d’évaluations 300 d’impact en cours 250 200 150 100 50 0 2004 2005 2006 2007 2008 2009 2010 Asie du Sud Moyen-Orient et Afrique du Nord Amérique latine et Caraïbes Europe et Asie centrale Asie de l’Est et Pacifique Afrique Source : Banque mondiale. Les conclusions des évaluations d’impact permettent aux gestionnaires de projet de prendre des décisions éclairées sur la façon d’atteindre les résultats visés de la manière la plus rentable. Forts de ces conclusions, les décideurs peuvent boucler la boucle en intégrant les résultats des évaluations au processus de prise de décision. Ce type de preuves peut mieux informer les débats, les opinions et, au �nal, les déci- sions d’allocation de ressources humaines et monétaires prises par les gouverne- ments, les institutions multilatérales et les donateurs. L’élaboration de politiques fondées sur des preuves consiste essentiellement à reprogrammer les budgets pour étendre les programmes rentables, réduire les pro- grammes inefficaces et améliorer la conception des programmes en se fondant sur les meilleures données disponibles. En ce sens, l’évaluation d’impact n’est pas un exercice purement théorique. Elle répond au besoin de trouver des réponses à des questions de politique affectant la vie quotidienne des populations. Les décisions sur la manière optimale d’allouer des ressources limitées à des programmes de lutte contre la pauvreté, de santé, d’éducation, de sécurité sociale, de microcrédit, de développement agricole, etc. ont le potentiel d’améliorer le bien-être des popula- tions à travers le monde. Il est essentiel que ces décisions soient fondées sur les informations et les preuves les plus rigoureuses possible. Conclusion 227 Note 1. Pour en savoir plus, voir Savedoff, Levine et Birdsall (2006). Références Legovini, Arianna. 2010. « Development Impact Evaluation Initiative: A World Bank–Wide Strategic Approach to Enhance Development Effectiveness. » Rapport préliminaire aux Vice-présidents, Opérations, Banque mondiale, Washington, DC. Savedoff, William, Ruth Levine et Nancy Birdsall. 2006. « When Will We Ever Learn? Improving Lives through Impact Evaluation. » CGD Evaluation Gap Working Group Paper, Center for Global Development, Washington, DC. http://www.cgdev.org/content/publications/detail/7973. 228 L’évaluation d’impact en pratique GLOSSAIRE Les termes en italique sont dé�nis dans le présent glossaire. Activité. Actions prises ou travaux réalisés à travers lesquels des intrants, comme des fonds, de l’assistance technique ou d’autres types de ressources, sont mobilisés pour produire des extrants. Analyse coût béné�ce (ou analyse coût avantage). Calcul ex ante des coûts et des béné- �ces espérés, servant à évaluer des propositions de projets. Dans le cadre d’une évaluation d’impact, on peut calculer les coûts et béné�ces ex post si les béné�ces sont quanti�ables en termes monétaires et que des données sur les coûts sont disponibles. Appariement (« matching »). L’appariement est une méthode d’évaluation non expéri- mentale où l’on constitue le meilleur groupe de comparaison possible pour un groupe de trai- tement donné à l’aide de grandes bases de données et de techniques statistiques complexes. Attrition. Une attrition se produit lorsqu’il y a une déperdition de certaines unités de l’échantillon d’une ronde à l’autre de la collecte des données ; par exemple si les migrants ne sont pas suivis. L’attrition est un cas de non-réponse totale ou unitaire. L’attrition peut causer un biais dans les évaluations d’impact lorsqu’elle est corrélée avec le traitement. Biais. Le biais d’un estimateur est la différence entre la valeur espérée du paramètre estimé et la valeur réelle de ce dernier. Dans le cadre d’une évaluation d’impact, il s’agit de la diffé- rence entre l’impact calculé et l’impact réel du programme. Biais de sélection. Le biais de sélection se produit lorsque les raisons pour lesquelles un individu participe au programme sont corrélées aux résultats. Ce biais se produit souvent lorsque le groupe de comparaison est constitué d’individus qui ne sont pas éligibles pour par- ticiper au programme ou qui choisissent volontairement de ne pas y participer. Cadre d’échantillonnage (ou base d’échantillonnage). La liste la plus exhaustive qu’on puisse obtenir des unités constituant une population à l’étude. Toute différence entre le cadre d’échantillonnage et la population à l’étude donne lieu à un biais d’échantillonnage (biais de couverture). Si un biais de couverture existe, les résultats obtenus à partir de l’échantillon n’ont pas de validité externe pour l’ensemble de la population à l’étude. 229 Calculs de puissance. Les calculs de puissance indiquent la taille que doit avoir l’échantillon pour détecter l’effet minimal désiré dans une évaluation. Les calculs de puissance dépendent de paramètres comme la puissance (ou la probabilité d’une erreur de type II), le seuil de signi- �cation, la variance et la corrélation intra-grappe du résultat à l’étude. Chaîne de résultats. Une chaîne de résultats décrit la logique de réalisation des objectifs de développement d’un programme. Elle montre les liens entre les intrants et les résultats en passant par les activités et les extrants. Comparaison avant-après. Également appelée « comparaison pré-post » et « comparaison réflexive », la comparaison avant-après vise à évaluer l’impact d’un programme en procédant à un suivi de l’évolution des résultats obtenus par les participants au programme au �l du temps, en particulier en comparant les résultats avant et après sa mise en œuvre. Contrefactuel. Le contrefactuel est une estimation de ce qu’aurait été le résultat (Y) pour un participant au programme en l’absence du programme (P). Par dé�nition, le contrefactuel n’est pas observable. Il faut donc l’estimer en recourant à des groupes de comparaison. Corrélation intra-grappe. La corrélation intra-grappe est la corrélation (ou l’association) des résultats ou des caractéristiques entre les unités d’une même grappe. Par exemple, les enfants qui fréquentent la même école proviennent d’ordinaire de la même zone d’habitation ou du même milieu socioéconomique, ce qui implique une source de corrélation. Données d’enquête. Données qui correspondent à un échantillon de la population à l’étude. Se différencie des données de recensement. Données de recensement. Données qui recouvrent toutes les unités de la population à l’étude. Se différencie des données d’enquête. Double Différence. Également appelée « différence des différences » ou « DD ». La double différence estime le contrefactuel pour le changement du résultat dans le groupe de traitement par le changement du résultat dans le groupe de comparaison. Cette méthode permet de prendre en compte toute différence entre le groupe de traitement et le groupe de comparai- son qui est invariable dans le temps. Les deux différences sont donc celle de l’avant et de l’après, et celle entre le groupe de traitement et le groupe de comparaison. Échantillon. En statistique, un échantillon est un sous-ensemble d’une population. En règle générale, la taille de la population est très grande, ce qui rend son recensement, c’est-à-dire une énumération exhaustive de toutes ses unités, impraticable ou impossible. Les chercheurs prélèvent à la place à l’aide d’un cadre d’échantillonnage un sous-ensemble représentatif de la population, et recueillent des statistiques pour cet échantillon. Ces statistiques permettent alors d’inférer ou d’extrapoler les paramètres pour l’ensemble de la population. Le processus par lequel l’échantillon est obtenu de la population à l’étude s’appelle l’échantillonnage. Échantillon aléatoire. La meilleure façon d’éviter qu’un échantillon soit biaisé ou non représentatif est de le prélever de façon aléatoire. Un échantillon aléatoire est un échantillon probabiliste pour lequel toutes les unités de la population à l’étude ont la même probabilité d’être sélectionnées. Échantillon par grappes. Échantillon obtenu par le prélèvement d’un échantillon aléatoire de grappes, après quoi soit l’ensemble des unités des grappes sélectionnées constitue l’échantillon, soit un certain nombre d’unités est sélectionné de manière aléatoire dans chaque grappe prélevée. Chaque grappe a une probabilité bien dé�nie d’être sélectionnée, et les unités sélectionnées de chaque grappe ont elles aussi une probabilité bien dé�nie d’être prélevées. 230 L’évaluation d’impact en pratique Échantillon strati�é. Échantillon obtenu en répartissant la population à l’étude (cadre d’échantillonnage) en strates ou groupes (p. ex. groupe d’hommes et groupe de femmes), et en prélevant ensuite un échantillon aléatoire pour chaque groupe. Un échantillon strati�é est un échantillon probabiliste, c’est-à-dire que toutes les unités d’un même groupe (ou strate) ont la même probabilité d’être prélevées. Échantillonnage. Processus par lequel des unités sont prélevées du cadre d’échantillonnage obtenu pour la population à l’étude (univers). Il existe plusieurs procédures d’échantillon- nage. Les méthodes d’échantillonnage probabilistes sont les plus rigoureuses, car elles attri- buent à chaque unité une probabilité bien dé�nie d’être prélevée. L’échantillonnage aléatoire, l’échantillonnage aléatoire strati�é et l’échantillonnage par grappes sont toutes des méthodes d’échantillonnage probabiliste. Les échantillonnages non probabilistes, comme l’échantillon- nage par jugement et l’échantillonnage de convenance, peuvent mener à des erreurs d’échan- tillonnage. Effet. Changement intentionnel ou non dû directement ou indirectement à une intervention. Effet Hawthorne. L’effet Hawthorne se produit lorsque les unités changent de comporte- ment du fait même d’être observées. Effet John Henry. L’effet John Henry se produit lorsque les unités de comparaison font des efforts supplémentaires pour compenser l’absence du traitement. Lorsque l’on compare les unités de traitement aux unités de comparaison qui font des efforts supplémentaires, l’impact estimé du programme est biaisé ; c’est-à-dire que l’impact estimé est moindre que celui qu’on observerait si les unités de comparaison n’avaient pas fait d’effort supplémentaire. Effet minimal désiré. Le changement minimal des résultats qui justi�erait l’investissement consenti dans une intervention, prenant en compte non seulement le coût du programme et ses béné�ces, mais aussi son coût d’opportunité (les fonds n’ayant pas été investis ailleurs). L’effet minimal désiré est un paramètre qui entre dans les calculs de puissance : les échan- tillons d’évaluation doivent être de taille suffisante pour permettre de détecter l’effet minimal désiré à une certaine puissance. Effets de diffusion (ou effets de débordements ou « spillover »). Également appelé contamination s’ils affectent le groupe de comparaison. L’effet de diffusion se produit lorsque le groupe de comparaison est affecté par le traitement administré au groupe de traitement, même si le traitement n’est pas directement administré au groupe de comparaison. Si l’effet de diffusion sur le groupe de comparaison est négatif, c’est-à-dire si le programme nuit à ce groupe, la différence directe entre les résultats du groupe de traitement et ceux du groupe de comparaison produit une surestimation de l’impact du programme. Par contre, si l’effet de diffusion sur le groupe de comparaison est positif, c’est-à-dire si le programme est béné�que pour ce groupe, le résultat est alors une sous-estimation de l’impact du programme. Enquête de suivi. Également appelée « enquête post-intervention » ou « enquête ex post ». Enquête qui est réalisée après le démarrage du programme, après que les participants ont béné�cié du programme. Une évaluation d’impact peut comprendre plusieurs enquêtes de suivi. Erreur de type I. Erreur commise en rejetant l’hypothèse nulle alors qu’elle est valable. Dans le contexte d’une évaluation d’impact, une erreur de type I est commise lorsqu’une évaluation conclut qu’un programme a un impact, c’est-à-dire que l’hypothèse nulle selon laquelle il n’y a aucun impact est rejetée, alors que le programme n’a, en réalité, aucun impact, et que l’hypothèse nulle est donc valable. Le seuil de signi�cation détermine la probabilité de com- mettre une erreur de type I. Glossaire 231 Erreur de type II. Erreur commise en acceptant (en ne rejetant pas) l’hypothèse nulle alors que celle-ci n’est pas valable. Dans le contexte d’une évaluation d’impact, une erreur de type II est commise lorsqu’une évaluation conclut qu’un programme n’a aucun impact, c’est-à-dire que l’hypothèse nulle selon laquelle il n’y a aucun impact n’est pas rejetée, alors que le programme a, en réalité, un impact, et que l’hypothèse nulle n’est donc pas valable. La probabilité de commettre une erreur de type II est égale à 1 moins la puissance. Estimateur. Un estimateur est une statistique (une fonction des données observée d’un échantillon observables) qui sert à estimer un paramètre inconnu de la population. L’estima- tion est le résultat de l’application de la fonction à un échantillon de données. Estimateur de l’intention de traiter ou de l’IDT. L’estimateur de l’IDT est la simple diffé- rence entre l’indicateur de résultat Y pour le groupe auquel on a offert le traitement et le même indicateur pour le groupe auquel on n’a pas offert le traitement. Se différencie de l’effet du traitement sur les traités. Évaluation. Les évaluations sont des appréciations périodiques et objectives de projets ou de programmes ou de politiques prévus, en cours de réalisation ou réalisés. Les évaluations fournissent des informations sur des questions précises, souvent liées à la conception, à la mise en œuvre et aux résultats. Évaluation d’impact. Une évaluation d’impact est une évaluation qui tente d’établir un lien causal entre un programme et des indicateurs de résultats. Une évaluation d’impact tente de savoir si le programme est directement responsable de changements dans les indicateurs de résultats à l’étude. Se différencie de l’évaluation de processus. Évaluation de processus. Une évaluation de processus tente de déterminer la qualité ou le degré de performance des processus d’un programme, comme l’adéquation des procédures administratives, l’acceptabilité des béné�ces d’un programme, la clarté d’une campagne d’in- formation, les mécanismes internes des organismes de mise en œuvre, leurs moyens d’action, leurs dispositifs de prestation de service, leurs pratiques de gestion. Se différencie de l’évaluation d’impact. Extrant. Les biens ou services qui sont produits ou offerts directement par une intervention. Les extrants comprennent parfois des changements découlant de l’intervention et qui contri- buent à l’obtention des résultats. Grappe. Une grappe est un groupe d’unités qui se ressemblent d’une façon ou d’une autre. Dans un échantillonnage d’écoliers, par exemple, les enfants qui se rendent à la même école appartiennent à une même grappe car ils fréquentent les mêmes installations scolaires, ils disposent des mêmes enseignements et ils habitent le même quartier. Groupe de comparaison. Également appelé « groupe de contrôle » ou « groupe témoin » dans le cadre d’un essai contrôlé randomisé. Un groupe de comparaison valable a les mêmes caractéristiques que le groupe de participants au programme (groupe de traitement), à la seule exception que les unités du groupe de comparaison ne participent pas au programme. Les groupes de comparaison servent à estimer le contrefactuel. Groupe de traitement. Également appelé groupe d’intervention. Le groupe de traitement est le groupe des unités qui béné�cient d’une intervention, tandis que le groupe de comparai- son n’en béné�cie pas. Hypothèse. Une hypothèse est une explication avancée d’un phénomène observable. Voir également hypothèse nulle et hypothèse alternative. 232 L’évaluation d’impact en pratique Hypothèse alternative. Dans une évaluation d’impact, l’hypothèse alternative suppose généralement que l’hypothèse nulle est fausse, c’est-à-dire que l’intervention a un impact sur les résultats. Hypothèse nulle. Une hypothèse nulle est une hypothèse falsi�able en utilisant des données observables. L’hypothèse nulle postule généralement une position par défaut. Dans le cadre d’une évaluation d’impact, la position par défaut est généralement qu’il n’y a aucune diffé- rence entre le groupe de traitement et le groupe de comparaison ou, en d’autres termes, que l’intervention n’a aucun impact sur les résultats. Indicateur. Un indicateur est une variable qui mesure un phénomène à l’étude. Le phéno- mène peut être un intrant, un extrant, un résultat, une caractéristique ou un attribut. Intrants. Les ressources �nancières, humaines et matérielles utilisées par une intervention ou un programme. Ligne de base (ou enquête de référence). Pré-intervention, ex ante. La situation qui prévaut avant l’intervention, par rapport à laquelle l’évolution est mesurée et les comparai- sons sont faites. La ligne de base (ou enquête de référence) est collectée avant la mise en œuvre du programme ou de la politique à évaluer a�n d’obtenir une mesure des résultats en amont. Méthodes de sélection aléatoire. Les « méthodes de sélection aléatoire » désignent un ensemble de méthodes où la sélection aléatoire est employée pour estimer le contrefactuel. On compte notamment parmi ces méthodes l’assignation aléatoire du traitement, l’offre aléa- toire du traitement et la promotion aléatoire. Modèle de discontinuité de la régression. Le modèle de discontinuité de la régression est une méthode d’évaluation non expérimentale. Elle convient aux programmes qui utilisent un indice continu pour classi�er les participants potentiels et un seuil bien dé�ni pour identi�er les béné�ciaires. Le seuil d’éligibilité au programme est un seuil qui sépare le groupe de trai- tement et le groupe de comparaison. Non-réponse. L’absence ou le manque de données pour certaines unités d’un échantillon constituent une non-réponse. La non-réponse unitaire se produit lorsqu’on ne possède aucune information pour certaines unités de l’échantillon ; c’est-à-dire quand l’échantillon prélevé est différent de l’échantillon prévu. L’attrition est une forme de non-réponse unitaire ou totale (« unit non-response »). La non-réponse partielle (« item non-response ») se pro- duit lorsque les données sont incomplètes pour certaines unités prélevées. La non-réponse peut créer un biais dans les résultats de l’évaluation si elle est corrélée avec le traitement. Offre aléatoire. L’offre aléatoire est une méthode qui permet de déterminer l’impact d’une intervention. L’intervention est offerte aux personnes éligibles de manière aléatoire de façon à ce qu’elles aient toutes la même chance de participer au programme. Même si l’administra- teur du programme peut sélectionner au hasard, parmi toutes les unités éligibles, celles à qui offrir le traitement, il ne peut parfois pas obtenir une conformité absolue. Il ne peut pas for- cer une unité à participer ou à accepter, ni refuser la participation à une unité qui insiste pour participer. Dans ce contexte, l’offre aléatoire du programme sert de variable instrumentale pour la participation réelle au programme. Population à l’étude. Le groupe d’unités qui est éligible pour recevoir l’intervention ou du traitement. La population à l’étude est parfois appelée « univers ». Glossaire 233 Promotion aléatoire. La promotion aléatoire est une méthode proche de celle de l’offre aléa- toire. Au lieu de sélectionner au hasard les unités auxquelles on offre le traitement, les unités sont sélectionnées au hasard pour recevoir une promotion et ainsi augmenter la probabilité qu’elles participent au traitement. De cette façon, le programme demeure ouvert à tous. Puissance. La puissance est la probabilité d’observer un impact s’il existe. La puissance d’un test est égale à un moins la probabilité d’une erreur de type II, allant de zéro à un. La puissance varie le plus souvent entre 0,8 et 0,9. Les valeurs élevées de la puissance sont plus conserva- trices. Elles réduisent le risque des erreurs de type II. La puissance d’une évaluation d’impact est élevée si le risque de ne pas observer d’impacts, c’est-à-dire de commettre une erreur de type II, est faible. Puissance statistique. La puissance d’un test statistique est la probabilité que le test abou- tisse au rejet de l’hypothèse nulle lorsque l’hypothèse alternative est valable (c’est-à-dire qu’au- cune erreur de type II n’est commise). Le risque de commettre une erreur de type II décroit au fur et à mesure que la puissance augmente. La probabilité de commettre une erreur de type II est désignée par le taux de faux-négatif (β). La puissance est donc égale à 1 – β. Rapport coût-ef�cacité. Pour déterminer le rapport coût-efficacité, il faut comparer des interventions similaires sur les plans du coût et de l’efficacité. Ainsi, les évaluations d’impact de divers programmes éducatifs permettent aux décideurs de prendre des décisions éclairées sur l’intervention qui permet de produire les résultats souhaités au moindre coût et en fonc- tion des contraintes qui sont les leurs. Régression. En statistique, l’analyse de régression comprend l’ensemble des techniques pour modéliser et analyser plusieurs variables en considérant le lien entre une variable dépendante et une ou plusieurs variables indépendantes. Dans l’évaluation d’impact, l’ana- lyse de régression permet de comprendre comment l’indicateur de résultat Y (variable dépen- dante) évolue en fonction de l’affectation au traitement, ou groupe de comparaison P, (variable indépendante) alors que les caractéristiques des participants (variables indépendantes) ne changent pas. Résultat. Intermédiaire ou �nal. Un résultat est le produit de l’interaction entre des facteurs d’offre et de demande. Par exemple, si une intervention renforce l’offre des services de vacci- nation, le nombre de vaccinations constitue alors un résultat, celui-ci ne dépendant pas seule- ment de l’offre en vaccins, mais aussi du comportement des personnes ciblées : se rendent-elles au centre de vaccination pour se faire vacciner ? Les résultats �naux et les résultats à long terme sont plus distants, soit dans la dimension temporelle (une longue période est nécessaire pour arriver au résultat), soit dans la dimension causale (un grand nombre de liens de cause à effet sont nécessaires pour atteindre le résultat). Sélection aléatoire (ou essai contrôlé randomisé). La sélection aléatoire est considérée comme la méthode la plus rigoureuse pour estimer le contrefactuel. Elle est souvent décrite comme « l’étalon-or » de l’évaluation d’impact. Les béné�ciaires de l’intervention sont sélec- tionnés au hasard parmi la population éligible. Tous les individus éligibles ont donc la même chance de participer au programme. Avec des échantillons de taille suffisante, la sélection aléatoire garantit que les caractéristiques, observées et non observées des groupes de traite- ment et de contrôle soient semblables, éliminant ainsi le biais de sélection. 234 L’évaluation d’impact en pratique Seuil de signi�cation. Le seuil de signi�cation est généralement désigné par la lettre grecque α (alpha). Les seuils de signi�cation les plus courants sont 5 % (0,05), 1 % (0,01) et 0,1 % (0,001). Si un test de signi�cation produit une valeur p inférieure au seuil α, l’hypothèse nulle est rejetée. Un tel résultat est quali�é de manière informelle comme étant « statistique- ment signi�catif ». Plus le seuil de signi�cation est petit, plus la preuve requise doit être forte. Le choix du seuil de signi�cation est arbitraire. Mais le seuil de 5 % est conventionnel. Suivi. Le suivi est un processus continu de collecte et d’analyse d’informations dans le but de déterminer la performance du projet, du programme ou de la politique mis en œuvre. Ce pro- cessus s’appuie essentiellement sur les données administratives pour comparer la perfor- mance effective aux résultats espérés, les programmes entre eux et pour analyser leurs tendances dans le temps. Le suivi se concentre généralement sur les intrants, les activités et les extrants, ainsi qu’occasionnellement les résultats. Le suivi est utile pour la gestion quoti- dienne du programme. Traitement sur les traités (effet du). Également appelé estimateur TT. L’effet du traitement sur les traités désigne l’impact du traitement sur les unités qui ont effectivement reçu le trai- tement. Se différencie de l’intention de traiter. Validité externe. L’estimation de l’impact causal du programme a une validité externe si elle est généralisable à l’univers de toutes les unités éligibles. Pour qu’une évaluation ait une validité externe, l’échantillon de l’évaluation doit être représentatif de l’univers des unités éligibles. Validité interne. Une évaluation d’impact a une validité interne si elle se fonde sur un groupe de comparaison valide, c’est-à-dire un groupe de contrôle qui fournit une estimation valide du contrefactuel. Variable. Dans la terminologie statistique, une variable est un symbole qui représente une valeur changeante. Variable instrumentale. Une variable instrumentale est une variable qui permet d’estimer l’impact causal d’un programme lorsque la participation au programme est déterminée en partie par les participants potentiels. Pour être considérée comme une variable instrumentale valable, une variable doit posséder deux caractéristiques  : 1) elle doit être corrélée avec la participation au programme, et 2) elle ne doit pas être corrélée avec les résultats Y (sauf à travers la participation au programme), ni avec les variables non observées. Glossaire 235 ECO-CONTRÔLE Déclaration d’avantages environnementaux La Banque Mondiale a pris l’engagement de Sauvés: préserver les forêts et les ressources naturel- • 8 arbres les. La maison d’édition a décidé d’imprimer L’evaluation d’impact en practique sur du papier • 2 millions BTU recyclé comprenant 50 pourcent de papier déjà • 327 kg d’effet de serre net utilisé, selon les standards recommandés par • 13.128 litres d’eau usée Green Press Initiative, un programme à but non lucratif incitant les maisons d’édition à utiliser • 96 kg de déchets solides du bois qui ne provienne pas de forêts en danger. Pour plus d’informations, vous pouvez visiter www.greenpressinitiative.org. « Cet ouvrage constitue un guide pratique, complet et clair sur l’évaluation d’impact. Son contenu, qui traite des raisons de procéder à des évaluations d’impact, des avantages des différentes méthodologies, en passant par les calculs de puissance et les coûts, est présenté de manière très claire et couvre un grand nombre de domaines. Ce manuel deviendra un guide de référence incontournable et influencera l’élaboration des politiques pour les années à venir. » Orazio Attanasio, Professor of Economics, University College London; Director, Centre for the Evaluation of Development Policies, Institute for Fiscal Studies, Royaume-Uni. « Ce précieux ouvrage s’adresse à celles et ceux qui visent à mener des évaluations d’impact dans les pays en développement. Il décrit les enjeux conceptuels et pratiques des évaluations en s’appuyant sur des exemples tirés d’expériences récentes. » Michael Kremer, Gates Professor of Developing Societies, Department of Economics, Harvard University, États-Unis. « Les ingrédients de base indispensables à la réussite des évaluations de politiques publiques sont a) des méthodologies appropriées, b) la capacité à résoudre des problèmes pratiques tels que la collecte de données, les limites budgétaires ou la rédaction du rapport �nal et c) la responsabilisation des gouvernements. Cet ouvrage présente des outils méthodologiques solides pour évaluer l’impact des programmes publics. Il expose aussi de nombreux exemples et nous emmène au cœur de la mise en œuvre des évaluations d’impact, de l’étape qui consiste à convaincre les décideurs à celle de la diffusion des résultats. Si davantage de praticiens et de décideurs lisent ce manuel, nous aurons de meilleures politiques et de meilleurs résultats dans de nombreux pays. Si les gouvernements se responsabilisent aussi davantage, l’impact de ce manuel n’en sera que plus important. » Gonzalo Hernández Licona, Executive Secretary, National Council for the Evaluation of Social Development Policy (CONEVAL), Mexique. « Je recommande cet ouvrage comme un guide clair et accessible pour faire face aux dé�s pratiques et techniques inhérents à la conception des évaluations d’impact. Le manuel est fondé sur des ressources éprouvées lors d’ateliers conduits à travers le monde et constitue une référence utile tant pour les praticiens, que pour les décideurs ou les évaluateurs. » Nick York, Head of the Evaluation Department, Department for International Development, Royaume-Uni. « La connaissance est un atout essentiel pour comprendre la nature complexe du processus de développement. Les évaluations d’impact contribuent à combler le fossé entre l’intuition et les preuves et ainsi à améliorer l’élaboration de politiques publiques. Cet ouvrage est l’un des produits concrets du Fonds espagnol pour l’évaluation d’impact. Il munit les praticiens en matière de développement humain d’outils de pointe qui leur permettront de générer des preuves au sujet de quelles politiques sont efficaces et pourquoi. Parce qu’il améliore notre capacité à atteindre des résultats, cet ouvrage devrait transformer en profondeur les pratiques de développement. » Soraya Rodríguez Ramos, Secretary of State for International Cooperation, Espagne. ISBN 978-0-8213-8752-8 BANQUE MONDIALE SKU 18752