Avaliação de
Impacto na
Prática
Segunda edição
Visite o site do livro Avaliação de Impacto na
Prática em http://www.worldbank.org/ieinpractice.
O site contém materiais que complementam o
livro, tais como: soluções para as perguntas do
estudo de caso HISP    , bem como os conjuntos de
dados e códigos de análise correspondentes no
software Stata; um acompanhamento técnico
que oferece um tratamento mais formal da
análise dos dados; apresentações em PowerPoint
relacionadas aos capítulos; uma versão eletrônica
do livro com hyperlinks para outros sites; e links
para materiais adicionais.




Este livro só foi possível graças ao generoso
apoio do Fundo Estratégico de Avaliação de
Impacto (SIEF). Lançado em 2012, com o apoio
do Departamento para o Desenvolvimento
Internacional do Reino Unido (DfID), o SIEF
é um programa de parceria que promove a
formulação de políticas públicas baseadas em
evidências. Atualmente, o fundo concentra-se
em quatro áreas críticas para o desenvolvimento
humano saudável: educação básica,
sistemas de saúde e prestação de serviços,
desenvolvimento e nutrição na primeira infância
e água e saneamento. O SIEF trabalha em todo
o mundo, principalmente em países de baixa
renda, levando seu conhecimento técnico e as
evidências coletadas com a prática da avaliação
de impacto para vários programas e equipes de
formulação de políticas públicas.
Avaliação de
Impacto na
Prática
Segunda edição



Paul J. Gertler, Sebastián Martínez,
Patrick Premand, Laura B. Rawlings
e Christel M. J. Vermeersch
© 2018 Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial
1818 H Street NW, Washington D.C. 20433
Telefone: 202-473-1000; Internet: www.worldbank.org
Alguns direitos reservados
1 2 3 4 21 20 19 18
Este trabalho foi publicado originalmente em inglês pelo Banco Mundial como Impact Evaluation in Practice, Second
Edition em 2016. Em caso de discrepâncias, predomina o idioma original.
Este trabalho foi produzido pelo pessoal do Banco Mundial com contribuições externas. As apurações, interpretações
e conclusões expressas neste trabalho não reﬂetem necessariamente a opinião do Banco Mundial, de sua Diretoria
Executiva, do Banco Interamericano de Desenvolvimento (BID), nem dos governos dos países que representam. O
Banco Mundial não garante a exatidão dos dados apresentados neste trabalho. As fronteiras, cores, denominações e
outras informações apresentadas em qualquer mapa deste trabalho não indicam nenhum julgamento do Banco
Mundial ou do BID sobre a situação legal de qualquer território, nem o endosso ou a aceitação de tais fronteiras.
    Nada aqui constitui ou pode ser considerado como constituindo uma limitação ou dispensa de privilégios e
imunidades do Banco Mundial ou do BID, os quais são especiﬁcamente reservados.

Direitos e permissões



Este trabalho está disponível sob uma licença da Creative Commons Attribution 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0 IGO. Nos termos da licença Creative Commons Attribution, o usuário pode copiar,
distribuir, transmitir e adaptar este trabalho, inclusive para ﬁns comerciais, nas seguintes condições:
Atribuição — Favor citar o trabalho como se segue: Gertler, Paul J., Sebastián Martínez, Patrick Premand, Laura B. Rawlings e
Christel M. J. Vermeersch. 2018. Avaliação de Impacto na Prática, segunda edição. Washington, DC: Banco Interamericano de
Desenvolvimento e Banco Mundial. Licença: Creative Commons Attribution CC BY 3.0 IGO
Tradução — Se o usuário traduzir este trabalho, favor acrescentar o seguinte termo de isenção de responsabilidade
juntamente com a atribuição: Esta tradução não foi feita pelo Banco Mundial e não deve ser considerada tradução oﬁcial
do Banco Mundial. O Banco Mundial não se responsabiliza pelo conteúdo nem por qualquer erro dessa tradução.
Adaptações — Se o usuário criar uma adaptação deste trabalho, favor acrescentar o seguinte termo de isenção de
responsabilidade juntamente com a atribuição: Esta é uma adaptação de um trabalho original do Banco Mundial.
Pontos de vista e opiniões expressos na adaptação são de inteira responsabilidade do autor ou autores da adaptação
e não são endossados pelo Banco Mundial.
Conteúdo de terceiros — O Banco Mundial não é necessariamente proprietário de todos os componentes do conteúdo
incluído no trabalho. Portanto, o Banco Mundial não garante que o uso de qualquer componente individual de terceiros
ou parte do conteúdo do trabalho não infrinja direitos de terceiros. O risco de reivindicações resultantes de tal violação
recai inteiramente sobre o usuário. Se o usuário desejar reutilizar um componente do trabalho, recairá sobre ele a
responsabilidade de determinar se é necessária permissão para tal reutilização, bem como obter a referida permissão
junto ao proprietário dos direitos autorais. Exemplos de componentes podem incluir, embora não de forma exclusiva,
quadros, ﬁguras ou imagens.
Todas as consultas sobre direitos e licenças devem ser endereçadas a World Bank Publications, The World Bank
Group, 1818 H Street NW, Washington, DC 20433, USA; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0889-0
eISBN (eletrônico): 978-1-4648-1264-4
DOI: 10.1596/978-1-4648-0889-0
Ilustração: C. Andrés Gómez-Peña e Michaela Wieser
Desenho da capa: Critical Stages
SUMÁRIO

Prefácio                                                     xv

Agradecimentos                                              xxi

Sobre os autores                                           xxiii

Siglas e abreviações                                       xxvii


PARTE 1. INTRODUÇÃO À AVALIAÇÃO DE IMPACTO                    1

Capítulo 1. Por que avaliar?                                  3
Políticas baseadas em evidências                              3
O que é avaliação de impacto?                                 8
Avaliação de impacto prospectiva versus retrospectiva        10
Estudos de eﬁcácia e de efetividade                          12
Abordagens complementares                                    14
Considerações éticas relativas à avaliação de impacto        22
Avaliação de impacto para decisões de políticas públicas     24
A decisão sobre realizar ou não uma avaliação de impacto     29

Capítulo 2. Preparando-se para uma avaliação                35
Etapas iniciais                                              35
A construção de uma teoria da mudança                        36
Desenvolver uma cadeia de resultados                         38
Especiﬁcar as perguntas de avaliação                         40
Seleção de indicadores de resultado e desempenho             46
Lista de veriﬁcação: obter dados para seus indicadores       47


PARTE 2. COMO AVALIAR                                       51

Capítulo 3. Inferência causal e contrafactuais              53
Inferência causal                                            53
O contrafactual                                              55
Duas estimativas falsas do contrafactual                     60
                                                                   v
     Capítulo 4. Seleção aleatória                                            71
     Avaliação de programas com base nas regras de seleção                    71
     Seleção aleatória do tratamento                                          72
     Lista de veriﬁcação: seleção aleatória                                   91

     Capítulo 5. Variáveis instrumentais                                      99
     Avaliação de programas quando há cumprimento parcial da seleção          99
     Tipos de estimativas de impacto                                         101
     Cumprimento parcial                                                     103
     Promoção aleatória como variável instrumental                           113
     Lista de veriﬁcação: promoção aleatória como uma
        variável instrumental                                                123

     Capítulo 6. Método de regressão descontínua                             125
     Avaliação de programas que usam índice de elegibilidade                 125
     Método de regressão descontínua fuzzy                                   131
     Como veriﬁcar a validade do método de regressão descontínua             132
     Limitações e interpretação do método de regressão descontínua           137
     Lista de veriﬁcação: método de regressão descontínua                    139

     Capítulo 7. Diferença em diferenças                                     143
     Avaliação de um programa quando a regra de seleção
        é menos clara                                                        143
     O método diferença em diferenças                                        144
     Como o método diferença em diferenças é útil?                           148
     A hipótese da “igualdade de tendências” na diferença
        em diferenças                                                        150
     Limitações do método diferença em diferenças                            156
     Lista de veriﬁcação: diferença em diferenças                            156

     Capítulo 8. Pareamento                                                  159
     Criar um grupo de comparação artiﬁcial                                  159
     Pareamento por escore de propensão                                      161
     Combinar o pareamento com outros métodos                                164
     Limitações do método de pareamento                                      168
     Lista de veriﬁcação: pareamento                                         174

     Capítulo 9. Enfrentar os desaﬁos metodológicos                          177
     Efeitos heterogêneos do tratamento                                      177
     Efeitos comportamentais não desejados                                   178




vi                                                 Avaliação de Impacto na Prática
Cumprimento parcial                                                  179
Transbordamentos                                                     181
Atrição                                                              187
Tempo e persistência dos efeitos                                     191

Capítulo 10. Avaliação de programas multifacetados                   195
Avaliar programas que combinam várias opções de tratamento           195
Avaliar programas com diferentes níveis de tratamento                196
Avaliar intervenções múltiplas                                       200


PARTE 3. COMO IMPLEMENTAR UMA
AVALIAÇÃO DE IMPACTO                                                 205

Capítulo 11. A escolha de um método de avaliação
de impacto                                                           207
Determinar o método a ser usado para um dado programa                207
Como as regras operacionais de um programa podem ajudar
  a escolher um método de avaliação de impacto                       208
Uma comparação dos métodos de avaliação de impacto                   214
Encontrar a menor unidade viável de intervenção                      219

Capítulo 12. Gerenciamento da avaliação de impacto                   225
Gerenciar a equipe, o tempo e o orçamento de uma avaliação           225
Funções e responsabilidades das equipes de pesquisa e
  de formulação e gestão                                             226
Estabelecer a colaboração                                            233
Como programar uma avaliação ao longo do tempo                       239
Como orçar uma avaliação                                             242

Capítulo 13. A ética e a ciência da avaliação de impacto             259
A gestão de avaliações éticas e críveis                              259
A ética das avaliações de impacto                                    260
Garantir avaliações conﬁáveis e críveis por meio da ciência aberta   266
Lista de veriﬁcação: uma avaliação de impacto ética e crível         273

Capítulo 14. Disseminar resultados e lograr impacto
em políticas públicas                                                277
Uma sólida base de evidências para as políticas públicas             277
Adaptar a estratégia de comunicação para diferentes públicos-alvo    281
Disseminar os resultados                                             285



Sumário                                                                    vii
       PARTE 4. COMO OBTER DADOS PARA A
       AVALIAÇÃO DE IMPACTO                                                     291

       Capítulo 15. A escolha da amostra                                         293
       Cálculos de amostragem e poder estatístico                                293
       A escolha da amostra                                                      293
       Decidir o tamanho de uma amostra para a avaliação de impacto:
          cálculos de poder estatístico                                          299


       Capítulo 16. A busca de fontes adequadas de dados                         325
       Tipos de dados necessários                                                325
       Uso dos dados quantitativos existentes                                    328
       A coleta de novos dados de pesquisa                                       334


       Capítulo 17. Conclusão                                                    357
       Avaliações de impacto: iniciativas complexas, mas que
          valem a pena                                                           357
       Lista de veriﬁcação: elementos centrais de uma avaliação de
          impacto bem elaborada                                                  358
       Lista de veriﬁcação: sugestões para mitigar riscos comuns
          na realização de uma avaliação de impacto                              358


       Glossário                                                                 363


       Boxes
        1.1    Como uma avaliação bem-sucedida pode promover a
               sustentabilidade política de um programa de desenvolvimento:
               programa de transferência condicional de renda do México             5
        1.2    O impacto político de um modelo pré-escolar inovador:
               desenvolvimento na pré-escola e na primeira infância em
               Moçambique                                                           7
        1.3    Testando a possibilidade de generalização dos resultados:
               uma avaliação em múltiplos locais sobre uma iniciativa de
               “emancipação” para mitigar a pobreza extrema                       13
        1.4    Simulação dos possíveis efeitos do projeto por meio de
               modelagem estrutural: a construção de um modelo para testar
               projetos alternativos usando os dados do Progresa no México        16
        1.5    Uma avaliação do método misto em ação: combinando um
               experimento aleatório controlado com um estudo etnográﬁco
               na Índia                                                           17
viii                                                   Avaliação de Impacto na Prática
 1.6  Orientar a expansão nacional por meio de uma avaliação de
      processo na Tanzânia                                          19
 1.7 Estimar o custo-efetividade: comparação de avaliações de
      programas que afetam o aprendizado em escolas de ensino
      fundamental                                                  21
 1.8 Avaliar programas inovadores: a Behavioural Insights Team
      do Reino Unido                                               25
 1.9 Avaliar alternativas de desenho de programas: desnutrição e
      desenvolvimento cognitivo na Colômbia                        27
 1.10 A abordagem de agrupamento na avaliação de impacto:
      gerando evidências estrategicamente para preencher
      lacunas de conhecimento                                      28
 2.1 A articulação de uma teoria da mudança: como pisos de
      cimento geraram felicidade no México                         37
 2.2 Avaliação de mecanismo                                        41
 2.3 Uma reforma do currículo de matemática no ensino médio:
      formular uma cadeia de resultados e uma pergunta
      de avaliação                                                 43
 3.1 O problema do contrafactual: a jovem Única e o programa de
      transferência de renda                                       56
 4.1 A seleção aleatória como uma valiosa ferramenta operacional   73
 4.2 Seleção aleatória como regra de alocação do programa:
      transferências condicionais de renda e educação no México    78
 4.3 Seleção aleatória de subsídios para melhorar as
      perspectivas de emprego de jovens no norte de Uganda         78
 4.4 Seleção aleatória de intervenções no setor de água e
      saneamento na zona rural da Bolívia                          79
 4.5 Seleção aleatória na proteção a nascentes para
      melhorar a saúde no Quênia                                   80
 4.6 Seleção aleatória de informações sobre os riscos do
      HIV para reduzir a gravidez na adolescência no Quênia        80
 5.1 O uso do método de variáveis instrumentais para avaliar
      o impacto do programa Vila Sésamo na preparação
      para a vida escolar                                          100
 5.2 Usando o método de variáveis instrumentais para lidar
      com o não cumprimento em um programa de vouchers
      escolares na Colômbia                                        110
 5.3 Promoção aleatória de investimentos em infraestrutura
      educacional na Bolívia                                       119
 6.1 Uso do método de regressão descontínua para avaliar o
      impacto da redução das mensalidades sobre as taxas de
      matrícula escolar na Colômbia                                126
Sumário                                                                  ix
     6.2   Redes de seguridade social baseadas em um índice de
           pobreza na Jamaica                                                 130
     6.3   O efeito da divisão dos estudantes de acordo com as
           notas sobre o desempenho escolar no Quênia                         133
     7.1   Uso do método diferença em diferenças para compreender
           o impacto dos incentivos eleitorais sobre as taxas de evasão
           escolar no Brasil                                                  145
     7.2   Utilizar a DD para estudar os efeitos do aumento do
           efetivo policial sobre a criminalidade na Argentina                149
     7.3   Teste da hipótese da igualdade de tendências: privatização de
           concessionárias de água e mortalidade infantil na Argentina        153
     7.4   Teste da hipótese da igualdade de tendências: a
           construção de escolas na Indonésia                                 154
     8.1   Diferença em diferenças com pareamento: estradas rurais e
           desenvolvimento dos mercados locais no Vietnã                      165
     8.2   Diferença em diferenças com pareamento: pisos de cimento,
           saúde infantil e felicidade materna no México                      166
     8.3   O método de controle sintético: os efeitos econômicos de um
           conﬂito terrorista na Espanha                                      168
     9.1   Relatos folclóricos relacionados à avaliação de impacto:
           o efeito Hawthorne e o efeito John Henry                           179
     9.2   Transbordamentos negativos devido a efeitos de
           equilíbrio geral: intermediação de mão de obra e
           resultados no mercado de trabalho na França                        183
     9.3   Como trabalhar com transbordamentos: vermifugação,
           externalidades e educação no Quênia                                184
     9.4   Avaliação dos efeitos do transbordamento: transferências
           condicionais de renda e transbordamentos no México                 188
     9.5   Atrição em estudos com acompanhamento de longo prazo:
           desenvolvimento na primeira infância e migração na Jamaica         189
     9.6   Avaliar os efeitos de longo prazo: subsídios e a adoção de
           mosquiteiros tratados com inseticida no Quênia                     192
    10.1   Testar a intensidade de programas para melhorar a adesão a
           tratamentos antirretrovirais                                       198
    10.2   Testar alternativas de programas para monitorar a
           corrupção na Indonésia                                             199
    11.1   Programas de transferência de renda e o nível mínimo de
           intervenção                                                        222
    12.1   Princípios orientadores para o engajamento entre as
           equipes de formulação e gestão e de pesquisa                       230
    12.2   Roteiro geral de um plano de avaliação de impacto                  231


x                                                   Avaliação de Impacto na Prática
12.3      Exemplos de modelos para equipes de pesquisa e de
          formulação e gestão                                           236
13.1      Registros de avaliação na área de ciências sociais            269
14.1      O impacto sobre a política pública de um modelo inovador
          de pré-escola em Moçambique                                   279
14.2      Ferramentas de extensão e disseminação                        286
14.3      Disseminação efetiva de avaliações de impacto                 287
14.4      Disseminar as avaliações de impacto online                    288
14.5      Blogs sobre avaliação de impacto                              289
15.1      A amostragem aleatória não é suﬁciente para a avaliação de
          impacto                                                       297
16.1      A construção de uma base de dados para a avaliação do
          Plan Nacer na Argentina                                       332
16.2      Uso de dados do censo para reavaliar o PRAF em Honduras       333
16.3      Desenho e formatação de questionários                         340
16.4      Alguns prós e contras da coleta eletrônica de dados           344
16.5      Coleta de dados para a avaliação do programa-piloto
          Atención a Crisis, na Nicarágua                               350
16.6      Orientações para a documentação e o armazenamento
          de dados                                                      351

Figuras
 2.1        Os elementos de uma cadeia de resultados                     39
B2.2.1      Identiﬁcar um mecanismo de experimento a partir de
            uma cadeia de resultados mais longa                          42
B2.3.1      Uma cadeia de resultados para a reforma do currículo
            de matemática do ensino médio                                43
 2.2        A cadeia de resultados do HISP                               45
 3.1        O clone perfeito                                             57
 3.2        Um grupo de comparação válido                                59
 3.3        Estimativas antes e depois de um programa de microcrédito    61
 4.1        Características dos grupos sob seleção aleatória do
            tratamento                                                   76
 4.2        Amostragem aleatória e seleção aleatória do tratamento       82
 4.3        Etapas da seleção aleatória do tratamento                    85
 4.4        Seleção aleatória dos tratados usando uma planilha           88
 4.5        Estimar o impacto com a seleção aleatória                    90
 5.1        Seleção aleatória com cumprimento parcial                   106
 5.2        Estimar o efeito médio local do tratamento na presença
            de seleção aleatória com cumprimento parcial                108
 5.3        Promoção aleatória                                          117


Sumário                                                                       xi
       5.4      Estimar o efeito médio local do tratamento na presença
                de promoção aleatória                                             118
       6.1      Produção de arroz, propriedades menores versus
                propriedades maiores (linha de base)                              128
       6.2      Produção de arroz, propriedades menores versus
                propriedades maiores (período de acompanhamento)                  129
       6.3      Cumprimento com seleção                                           132
       6.4      Manipulação do índice de elegibilidade                            133
       6.5      HISP: Densidade das famílias, por índice de pobreza na
                linha de base                                                     135
       6.6      Participação no HISP por índice de pobreza na linha de base       136
       6.7      Índice de pobreza e despesas com saúde, HISP     , dois
                anos depois                                                       136
       7.1      Método diferença em diferenças                                    146
       7.2      Diferença em diferenças quando as tendências de
                resultado diferem                                                 151
       8.1      Pareamento exato por quatro características                       160
       8.2      Pareamento por escore de propensão e suporte comum                162
       8.3      Pareamento para o HISP: suporte comum                             172
       9.1      Um exemplo clássico de transbordamento:
                externalidades positivas da vermifugação de crianças
                em idade escolar                                                  186
      10.1      Etapas da seleção aleatória para dois níveis de tratamento        197
      10.2      Etapas na seleção aleatória de duas intervenções                  201
      10.3      Desenho cruzado para um programa com duas
                intervenções                                                      202
      15.1      Usar a amostra para inferir as características médias
                da população de interesse                                         294
      15.2      Uma listagem válida cobre toda a população de interesse           295
      B15.1.1   Amostragem aleatória entre grupos não comparáveis
                de participantes e não participantes                              298
      B15.1.2   Seleção aleatória dos beneﬁciários do programa para
                o grupo de tratamento e para o grupo de comparação                299
      15.3      Uma amostra maior tem maior probabilidade de se
                assemelhar à população de interesse                               302



      Quadros
       3.1      Avaliar o HISP: comparação antes e depois                          64
       3.2      Avaliar o HISP: antes e depois com análise de regressão            65
       3.3      Avaliar o HISP: comparação das médias das famílias
                inscritas e não inscritas                                          67
xii                                                     Avaliação de Impacto na Prática
 3.4      Avaliar o HISP: análise de regressão das famílias inscritas
          e não inscritas                                                68
 4.1      Avaliar o HISP: balanceamento entre os povoados de
          tratamento e de comparação na linha de base                    93
 4.2      Avaliar o HISP: seleção aleatória com comparação
          de médias                                                     94
 4.3      Avaliar o HISP: seleção aleatória com análise de
          regressão                                                      94
 5.1      Avaliar o HISP: comparação de médias da promoção aleatória    121
 5.2      Avaliar o HISP: promoção aleatória com análise
          de regressão                                                  122
 6.1      Avaliar o HISP: método de regressão descontínua com
          análise de regressão                                          137
 7.1      Cálculo do método diferença em diferenças                     147
 7.2      Avaliar o HISP: comparação de médias da diferença em
          diferenças                                                    155
 7.3      Avaliar o HISP: diferença em diferenças com análise
          de regressão                                                  155
 8.1      Estimar o escore de propensão com base nas
          características observáveis da linha de base                  171
 8.2      Avaliar o HISP: pareamento com as características da linha
          de base e comparação de médias                                172
 8.3      Avaliar o HISP: pareamento com as características da linha
          de base e análise de regressão                                173
 8.4      Avaliar o HISP: diferença em diferenças combinada com
          pareamento usando as características da linha de base         173
B10.1.1   Resumo do desenho do programa                                 198
11.1      Relação entre as regras operacionais de um programa
          e os métodos de avaliação de impacto                          211
11.2      Comparação de métodos de avaliação de impacto                 215
12.1      Custo das avaliações de impacto de uma seleção de
          programas apoiados pelo Banco Mundial                         243
12.2      Custos desagregados de uma seleção de avaliações
          de impacto apoiadas pelo Banco Mundial                        244
12.3      Exemplo de orçamento para uma avaliação de impacto            251
13.1      Garantir informações conﬁáveis e críveis para as políticas
          públicas por meio da ciência aberta                           267
14.1      Engajar os públicos-alvo para lograr impacto nas políticas
          públicas: por que, quando e como                              281
15.1      Exemplos de conglomerados                                     306
15.2      Avaliar o HISP: tamanho de amostra necessário
          para identiﬁcar vários efeitos mínimos detectáveis            311
Sumário                                                                       xiii
      15.3   Avaliar o HISP: tamanho de amostra necessário para
             identiﬁcar vários efeitos mínimos detectáveis                   312
      15.4   Avaliar o HISP: tamanho de amostra necessário para
             identiﬁcar vários efeitos mínimos detectáveis (aumento
             na taxa de hospitalização)                                      313
      15.5   Avaliar o HISP: tamanho de amostra necessário para
             identiﬁcar vários efeitos mínimos detectáveis
             (diminuição nas despesas com saúde das famílias)                316
      15.6   Avaliar o HISP: tamanho de amostra necessário
             para detectar um impacto mínimo de US$ 2 para
             vários totais de conglomerados                                  317




xiv                                                Avaliação de Impacto na Prática
PREFÁCIO



Este livro oferece uma introdução acessível ao tema da avaliação de impacto
e sua prática na agenda de desenvolvimento socioeconômico. Fornece
orientações práticas para a concepção e implementação de avaliações de
impacto, juntamente com uma visão geral não técnica de métodos de avalia-
ção de impacto.
    Esta é a segunda edição do manual de Avaliação de Impacto na Prática.
Publicado pela primeira vez em 2011, o manual tem sido amplamente utili-
zado por comunidades acadêmicas e de fomento ao desenvolvimento em
todo o mundo. A primeira edição está disponível em inglês, francês, portu-
guês e espanhol.
    A versão atualizada abrange as mais recentes técnicas de avaliação de
programas e recomendações para implementação, bem como um conjunto
mais amplo de exemplos e estudos de casos que se baseiam em intervenções
recentes de fomento à agenda de desenvolvimento socioeconômico. Inclui
também novos materiais sobre ética de pesquisa e parcerias para conduzir
avaliações de impacto. Ao longo do livro, estudos de caso ilustram aplicações
das avaliações de impacto. O livro fornece links para materiais didáticos
complementares disponíveis on-line.
    A abordagem da avaliação de impacto neste livro é, em boa medida,
intuitiva e tentamos minimizar a notação técnica. Os métodos são extraí-
dos diretamente de pesquisa aplicada na área de ciências sociais e compar-
tilham muitas semelhanças com os métodos de pesquisa utilizados nas
ciências naturais. Nesse sentido, a avaliação de impacto reúne ferramentas
de pesquisa empírica amplamente utilizadas na economia e em outras
ciências sociais, juntamente com as realidades operacionais e de economia
política relacionadas à implementação de políticas públicas e práticas de
desenvolvimento.
    Nossa abordagem da avaliação de impacto também é pragmática: acredi-
tamos que os métodos mais apropriados devem ser identiﬁcados para

                                                                                xv
      atender ao contexto operacional, e não o contrário. A melhor maneira de
      alcançar esse objetivo é no início de um programa, por meio da criação de
      avaliações de impacto prospectivas que sejam formuladas durante a imple-
      mentação do projeto. Argumentamos que a obtenção de consenso entre as
      principais partes interessadas e a identiﬁcação de um desenho de avaliação
      que satisfaça o contexto político e operacional são tão importantes quanto o
      próprio método. Também acreditamos que as avaliações de impacto devem
      ser claras sobre suas limitações e ressalvas. Por ﬁm, incentivamos forte-
      mente os responsáveis pela formulação de políticas públicas e os gestores de
      programas a considerar as avaliações de impacto como parte de uma teoria
      da mudança bem desenvolvida que deﬁna claramente os mecanismos cau-
      sais pelos quais um programa atua para produzir e inﬂuenciar resultados, e
      os encorajamos a combinar avaliações de impacto com o monitoramento e
      a avaliação complementar para obter uma visão completa dos resultados.
         Nossas experiências e lições sobre como fazer avaliação de impacto na
      prática são extraídas do ensino e do trabalho com centenas de parceiros
      competentes das áreas governamental, acadêmica e de desenvolvimento
      socioeconômico. Este livro se baseia em experiências obtidas durante deze-
      nas de anos trabalhando com avaliações de impacto em quase todos os can-
      tos do globo e é dedicado às futuras gerações de proﬁssionais e responsáveis
      pela formulação de políticas públicas.
         Esperamos que o livro seja um recurso valioso para a comunidade que
      atua com o desenvolvimento internacional, universidades e gestores públi-
      cos que buscam cultivar melhores evidências a respeito do que funciona
      para a agenda de desenvolvimento. Mais e melhores avaliações de impacto
      ajudarão a fortalecer a base de evidências para a criação de políticas e pro-
      gramas de desenvolvimento em todo o mundo. Nossa esperança é que, se os
      governos e os proﬁssionais da área de desenvolvimento puderem tomar
      decisões políticas baseadas em evidências — incluindo evidências geradas
      por meio da avaliação de impacto —, os recursos destinados ao desenvolvi-
      mento socioeconômico serão gastos de maneira mais eﬁcaz para reduzir a
      pobreza e melhorar a vida das pessoas.


      Roteiro para o conteúdo do livro

      Parte 1 – Introdução à avaliação de impacto (capítulos 1 e 2) discute por que
      a avaliação de impacto pode ser realizada e quando vale a pena fazê-la.
      Analisamos os vários objetivos que a avaliação de impacto pode alcançar e
      destacamos as questões de políticas públicas fundamentais que ela pode vir
      a responder. Insistimos na necessidade de traçar cuidadosamente uma
      teoria da mudança que explique os mecanismos pelos quais os programas
xvi                                                      Avaliação de Impacto na Prática
podem inﬂuenciar os resultados ﬁnais. Insistimos na análise cuidadosa dos
indicadores de resultados e da dimensão dos efeitos previstos.
   Parte 2 – Como avaliar (capítulos 3 a 10) analisa várias metodologias que
produzem grupos de comparação que podem ser usados para estimar os
impactos dos programas. Começamos por introduzir o contrafactual como
o ponto crucial de qualquer avaliação de impacto, explicando as proprieda-
des que a estimativa do contrafactual deve ter e fornecendo exemplos de
estimativas inválidas do contrafactual. Em seguida, apresentamos um
menu de opções de avaliação de impacto que pode produzir estimativas
válidas do contrafactual. Em especial, discutimos a intuição básica por trás
de cinco metodologias de avaliação de impacto: seleção aleatória, variáveis
instrumentais, método de regressão descontínua, diferença em diferenças e
pareamento. Discutimos por que e como cada método pode produzir uma
estimativa válida do contrafactual, em que contexto de política pública
cada método pode ser implementado e as principais limitações de cada
método.
   Ao longo dessa parte do livro, usa-se um estudo de caso — o Programa de
Subsídio ao Seguro Saúde (HISP) — para ilustrar como os métodos podem
ser aplicados. Além disso, apresentamos exemplos especíﬁcos de avaliações
de impacto que utilizaram cada método. A parte 2 conclui com uma discus-
são sobre como combinar métodos e resolver problemas que podem surgir
durante a implementação, reconhecendo que os projetos de avaliação de
impacto muitas vezes não são implementados exatamente conforme o pla-
nejado originalmente. Nesse contexto, analisamos os desaﬁos comuns
encontrados durante a implementação, incluindo o cumprimento parcial ou
os transbordamentos, e discutimos como abordar essas questões. O capítulo
10 termina com orientações sobre avaliações de programas multifacetados,
especialmente aqueles com diferentes níveis de tratamento e múltiplos
tratamentos.
   Parte 3 – Como implementar uma avaliação de impacto (capítulos 11 a
14) analisa como implementar uma avaliação de impacto, começando no
capítulo 11, com explicações sobre como usar as regras de operação de
programas — ou seja, os recursos disponíveis de um programa, os critérios
de seleção de beneﬁciários e o cronograma de implementação — como
base para a seleção de um método de avaliação de impacto. Um quadro
simples foi criado para determinar qual das metodologias de avaliação de
impacto apresentadas na parte 2 é mais adequada para um determinado
programa, dependendo das suas regras operacionais. O capítulo 12 discute a
relação entre a equipe de pesquisa e a equipe de gestão e formulação de polí-
ticas públicas e seus respectivos papéis na formação conjunta de uma equipe
de avaliação. Analisamos a distinção entre independência e imparcialidade,
e destacamos áreas que podem se revelar sensíveis na realização de uma
Prefácio                                                                        xvii
        avaliação de impacto. Também fornecemos orientação sobre como geren-
        ciar as expectativas, ressaltar alguns dos riscos comuns envolvidos na reali-
        zação de avaliações de impacto e oferecer sugestões sobre como gerenciar
        esses riscos. O capítulo termina com uma visão geral de como gerenciar as
        atividades de avaliação de impacto, incluindo a formação da equipe de
        avaliação, a criação de um cronograma para a avaliação, a realização de um
        orçamento, a captação de recursos e a coleta de dados. O capítulo 13 (1)
        fornece uma visão geral sobre a ética e a ciência da avaliação de impacto,
        incluindo a importância de não negar benefícios aos beneﬁciários elegíveis
        para efeitos da avaliação; (2) o papel dos conselhos de revisão de ética de
        pesquisa que aprovam e monitoram as pesquisas envolvendo seres huma-
        nos; e a (3) importância de registrar as avaliações seguindo a prática da ciên-
        cia aberta, por meio da qual os dados são disponibilizados publicamente
        para pesquisas adicionais e replicação dos resultados. O capítulo 14 fornece
        orientações sobre como usar as avaliações de impacto para fornecer dados e
        informações aos responsáveis pelas políticas públicas, incluindo recomen-
        dações sobre como tornar os resultados relevantes; uma discussão sobre
        os tipos de produtos que as avaliações de impacto podem e devem fornecer;
        e orientações sobre como produzir e disseminar resultados para maximizar
        o impacto das políticas.
           Parte 4 – Como obter dados para a avaliação de impacto (capítulos 15 a 17)
        discute como obter dados para a avaliação de impacto, incluindo a escolha
        da amostra e a determinação do tamanho adequado da amostra de avaliação
        (capítulo 15), bem como a localização de fontes de dados apropriadas
        (capítulo 16). O capítulo 17 conclui a parte 4 e fornece algumas listas de
        veriﬁcação.


        Material complementar on-line

        Os materiais complementares estão localizados no site de Avaliação de
        Impacto na Prática (http://www.worldbank.org/ieinpractice) e incluem
        soluções para as questões do estudo de caso HISP apresentado neste livro, o
        conjunto de dados e o código de análise correspondentes do software Stata,
        bem como material técnico que fornece um tratamento mais formal para a
        análise de dados. Encontram-se também apresentações em PowerPoint
        vinculadas aos capítulos, uma versão on-line do livro — com hiperlinks para
        sites — e links para materiais adicionais.
           O site Avaliação de Impacto na Prática também oferece links para o
        material relacionado nos sites Fundo Estratégico de Avaliação de Impacto
        (SIEF), do Banco Mundial, Avaliação de Impacto sobre o Desenvolvimento
        (DIME) e Ferramentas de Avaliação de Impacto, bem como para o Portal de
xviii                                                       Avaliação de Impacto na Prática
Avaliação de Impacto do Banco Interamericano de Desenvolvimento e o
curso de métodos aplicados de avaliação de impacto da Universidade da
Califórnia, em Berkeley.


Desenvolvimento do livro Avaliação
de Impacto na Prática

A primeira edição do livro Avaliação de Impacto na Prática se baseou em um
conjunto de materiais didáticos desenvolvidos para as oﬁcinas Turning
Promises to Evidence (Transformando promessas em evidências), organi-
zadas pelo Departamento do Economista-Chefe para o Desenvolvimento
Humano em parceria com unidades regionais e com o Grupo de Pesquisa de
Economia do Desenvolvimento do Banco Mundial. Quando a primeira
edição estava sendo preparada, a oﬁcina tinha sido realizada mais de
20 vezes em todas as regiões do mundo.
   A realização das oﬁcinas e a publicação tanto da primeira quanto da
segunda edição deste manual ocorreram graças a generosas doações do
governo espanhol, do Departamento para o Desenvolvimento Internacional
do Reino Unido (DFID) e da Fundação do Fundo de Investimento para
Crianças (CIFF UK) por meio de contribuições para o Fundo Estratégico
de Avaliação de Impacto (SIEF). A segunda edição também se beneﬁciou
do  apoio do Escritório de Planejamento Estratégico e Eﬁcácia do
Desenvolvimento do Banco Interamericano de Desenvolvimento (BID).
   Esta segunda edição foi atualizada para abranger as técnicas mais
modernas e as orientações de implementação mais avançadas na esteira dos
progressos realizados nos últimos anos. Também ampliamos o conjunto de
exemplos e estudos de caso para reﬂetir aplicações de amplo alcance para a
avaliação de impacto em projetos da agenda de desenvolvimento socioeco-
nômico e enfatizamos suas ligações com as políticas públicas. Por ﬁm, inclu-
ímos aplicações de técnicas de avaliação de impacto com o Stata, utilizando
o conjunto de dados do estudo de caso HISP, como parte do material on-line
complementar.




Prefácio                                                                       xix
AGRADECIMENTOS



Os materiais didáticos nos quais o livro se baseia passaram por inúmeras
versões e foram ensinados por diversos professores talentosos, que deixa-
ram sua marca nos métodos e na abordagem de avaliação de impacto adota-
dos no livro. Gostaríamos de agradecer e reconhecer as contribuições e a
ajuda valiosa de vários professores que apresentaram a seus alunos as
oﬁcinas que serviram de base para a compilação da primeira edição deste
livro, incluindo Paloma Acevedo Alameda, Felipe Barrera, Sergio Bautista-
Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro Carneiro, Ryan Cooper,
Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz, Deon Filmer,
Jed Friedman, Emanuela Galasso, Sebastian Galiani, Arianna Legovini,
Phillippe Leite, Gonzalo Hernández Licona, Mattias Lundberg, Karen
Macours, Juan Muñoz, Plamen Nikolov, Berk Özler, Nancy Qian, Gloria M.
Rubio, Norbert Schady, Julieta Trias e Sigrid Vivo Guzman. Agradecemos os
comentários de nossos pares que ﬁzeram a revisão da primeira edição do
livro (Barbara Bruns, Arianna Legovini, Dan Levy e Emmanuel Skouﬁas),
bem como da segunda edição (David Evans, Francisco Gallego, Dan Levy e
Damien de Walque), além de Gillette Hall. Também agradecemos os esfor-
ços de uma talentosa equipe de organização de oﬁcinas, que inclui Holly
Balgrave, Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana
Ringland, Adam Ross e Jennifer Sturdy.
   Agradecemos a todos os indivíduos que participaram da elaboração das
transcrições originais da oﬁcina de julho de 2009 em Pequim, na China, nas
quais se baseiam partes deste livro, especialmente Paloma Acevedo Alameda,
Carlos Asenjo Ruiz, Sebastian Bauhoff, Bradley Chen, Changcheng Song,
Jane Zhang e Shufang Zhang. Também somos gratos a Garret Christensen e
à Berkeley Initiative for Transparency in the Social Sciences, além de
Jennifer Sturdy e Elisa Rothenbühler, pelas contribuições ao capítulo 13.
Agradecemos ainda a Marina Tolchinsky e Kristine Cronin pela excelente
assistência de pesquisa; Cameron Breslin e Restituto Cardenas pelo apoio

                                                                             xxi
       com os agendamentos; Marco Guzman e Martin Ruegenberg pela criação
       das ilustrações, e Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh e
       Stuart K. Tucker pelo apoio editorial durante a produção da primeira e
       segunda edições deste livro.
          Gostaríamos também de reconhecer o contínuo apoio e entusiasmo a
       este projeto por parte de nossos gerentes do Banco Mundial e do Banco
       Interamericano de Desenvolvimento, e, especialmente, da equipe do SIEF,
       incluindo Daphna Berman, Holly Blagrave, Restituto Cardenas, Joost de
       Laat, Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
       Rosenfeld e Julieta Trias. Ficamos muito agradecidos pelo apoio recebido
       do SIEF, incluindo Luis Benveniste, Joost de Laat e Julieta Trias. Gostaríamos
       ainda de agradecer a Andrés Gómez-Peña, do Banco Interamericano de
       Desenvolvimento, e a Patricia Katayama e Mayya Revzina, do Banco
       Mundial, por sua ajuda com as comunicações e o processo de publicação.
          A elaboração da segunda edição deste livro em sua versão em portu-
       guês foi realizada pelo Escritório de Planejamento Estratégico e Eﬁcácia
       do Desenvolvimento do Banco Interamericano de Desenvolvimento.
       Agradecemos particularmente a Carola Álvarez e Arturo Galindo pelo
       apoio a essa iniciativa. Estamos em dívida com Andrés Gómez-Peña e
       Michaela Wieser por seu esforço e dedicação na coordenação do pro-
       cesso de tradução. De igual forma, agradecemos especialmente a Claudia
       Gonçalves pela tradução do livro, bem como a Eloisa D. Marques, encar-
       regada da edição e da leitura das provas da tradução em português. Cabe
       também o nosso reconhecimento a Maína Celidonio pelo trabalho inten-
       sivo de revisão técnica de cada um dos capítulos do livro e a André
       Loureiro pela revisão ﬁnal do manuscrito.
          Por ﬁm, gostaríamos de agradecer aos participantes de numerosas oﬁci-
       nas, especialmente as realizadas em Abidjã, Acra, Amã, Ancara, Berkeley,
       Buenos Aires, Cairo, Cidade do Cabo, Cidade do México, Cidade do Panamá,
       Cuernavaca, Daca, Dacar, Fortaleza, Katmandu, Kigali, Lima, Madri,
       Manágua, Manila, Nova Délhi, Paipa, Pequim, Pretória, Rio de Janeiro,
       Santiago, São Salvador, Sarajevo, Seul, Sóﬁa, Túnis e Washington DC.
          Devido ao interesse dos gestores de políticas públicas, a suas perguntas
       perspicazes e seu entusiasmo, pudemos aprender passo a passo o que eles
       estão buscando nas avaliações de impacto. Esperamos que este livro reﬂita
       suas ideias.




xxii                                                       Avaliação de Impacto na Prática
SOBRE OS AUTORES



Paul J. Gertler é professor de economia na cátedra Li Ka Shing da
Universidade da Califórnia em Berkeley, onde leciona na Haas School of
Business e na Escola de Saúde Pública. Gertler também é diretor cientíﬁco
do Centro para Ação Global Efetiva da Universidade da Califórnia.
Especialista em avaliação de impacto reconhecido internacionalmente,
atuou como economista-chefe da Rede de Desenvolvimento Humano do
Banco Mundial entre 2004 e 2007; foi também presidente-fundador do
Conselho de Administração da Iniciativa Internacional para Avaliação de
Impacto (3ie) entre 2009 e 2012. No Banco Mundial, Gertler liderou um
esforço para institucionalizar e ampliar a avaliação de impacto para apren-
der o que funciona na área do desenvolvimento humano. Foi o pesquisa-
dor principal de diversas avaliações de impacto implementadas em escala
em diferentes localidades, incluindo o programa de transferência condi-
cional de renda do México, o Progresa/Oportunidades, e o sistema de
pagamento por desempenho para a área de saúde de Ruanda. Gertler é
doutor em economia pela Universidade de Wisconsin e ocupou postos
acadêmicos em Harvard, na RAND e na Universidade Estadual de Nova
York em Stony Brook.

Sebastián Martínez é economista principal do Departamento de
Planejamento Estratégico e Eﬁcácia no Desenvolvimento do Banco
Interamericano de Desenvolvimento (BID). O trabalho de Martínez
concentra-se no fortalecimento da base de evidências e da eﬁcácia do desen-
volvimento dos setores sociais e de infraestrutura, incluindo as áreas de
saúde, proteção social, mercados de trabalho, água e saneamento básico e
habitação e desenvolvimento urbano. Lidera uma equipe de economistas
que realiza pesquisas sobre os impactos de programas e políticas de desen-
volvimento, apoia a implementação de avaliações de impacto de operações e
dirige a capacitação de clientes e funcionários. Antes de ingressar no BID,
Martínez passou seis anos no Banco Mundial, onde liderou avaliações de
                                                                              xxiii
       programas sociais na América Latina e na África Subsaariana. É doutorado
       em economia pela Universidade da Califórnia em Berkeley, com especiali-
       zação em desenvolvimento e microeconomia aplicada.

       Patrick Premand é economista-sênior da área de proteção social e práticas
       trabalhistas globais do Banco Mundial. Realiza trabalhos operacionais e de
       análise sobre proteção social e redes de segurança, mercados de trabalho,
       emprego juvenil e empreendedorismo, além de desenvolvimento da pri-
       meira infância. A pesquisa de Premand concentra-se na coleta de evidências
       relacionadas à eﬁcácia das políticas de desenvolvimento por meio de avalia-
       ções de impacto de programas de desenvolvimento social e humano em
       larga escala. No Banco Mundial, Premand também ocupou cargos na
       Unidade de Economia do Desenvolvimento Humano da África, no
       Departamento do Economista-Chefe para Desenvolvimento Humano e na
       Unidade de Estudos sobre a Pobreza da América Latina e do Caribe. É dou-
       tor em economia pela Universidade de Oxford.

       Laura B. Rawlings é especialista principal em Proteção Social do Banco
       Mundial, com mais de 20 anos de experiência na concepção, implementa-
       ção e avaliação de programas de desenvolvimento humano. Gerencia ope-
       rações e pesquisas voltadas para o desenvolvimento de abordagens
       inovadoras de sistemas de proteção social eﬁcientes e escaláveis em locais
       com poucos recursos. Rawlings liderou uma equipe responsável pelo
       desenvolvimento da Estratégia Trabalhista e de Proteção Social para o
       período de 2012 a 2022 do Banco Mundial e, anteriormente, atuou como
       gerente do Fundo Estratégico de Avaliação de Impacto (SIEF). Foi também
       líder setorial de Desenvolvimento Humano na América Central, onde era
       responsável pela gestão das carteiras de saúde, educação e proteção social
       do Banco Mundial. Rawlings começou sua carreira no Banco Mundial no
       Grupo de Pesquisa sobre Desenvolvimento, onde trabalhou na avaliação de
       impacto de programas sociais. Trabalhou na América Latina e no Caribe,
       bem como na África Subsaariana, liderando diversas iniciativas de pes-
       quisa e projetos nas áreas de transferência condicional de renda, obras
       públicas, fundos sociais, desenvolvimento na primeira infância e sistemas
       de proteção social. Antes de ingressar no Banco Mundial, Rawlings traba-
       lhou para o Overseas Development Council, onde dirigiu um programa
       educacional relacionado a questões de desenvolvimento para funcionários
       do Congresso dos Estados Unidos. Rawlings publicou vários livros e arti-
       gos sobre avaliação e desenvolvimento humano e é professora-adjunta do
       programa de Desenvolvimento Humano Global da Universidade de
       Georgetown, em Washington DC.


xxiv                                                     Avaliação de Impacto na Prática
Christel M. J. Vermeersch é economista-sênior da Prática Global de
Saúde, Nutrição e População do Banco Mundial e trabalha com questões
relacionadas ao ﬁnanciamento do setor de saúde, ao ﬁnanciamento baseado
em resultados, ao monitoramento e avaliação e à avaliação de impacto.
Anteriormente, Vermeersch atuou nas áreas de educação, desenvolvimento
na primeira infância e capacitação. Foi coautora de estudos de avaliação de
impacto de programas de ﬁnanciamento baseados em resultados na
Argentina e em Ruanda, do acompanhamento de longo prazo de um estudo
de estimulação na primeira infância, bem como do kit de avaliação de
impacto em saúde do Banco Mundial. Antes de ingressar no Banco Mundial,
teve bolsa como pesquisadora do pós-doutorado Prize da Universidade de
Oxford. Vermeersch é doutora em economia pela Universidade de Harvard.




Sobre os autores                                                              xxv
SIGLAS E ABREVIAÇÕES



3ie     Iniciativa Internacional para Avaliação de Impacto
ATE     efeito médio do tratamento (average treatment effect)
BID     Banco Interamericano de Desenvolvimento
CITI    Collaborative Institutional Training (Iniciativa de
        Treinamento Institucional Colaborativo)
DIME    Development Impact Evaluation (Avaliação de Impacto
        sobre o Desenvolvimento) (Banco Mundial)
HISP    Health Insurance Subsidy Program (Programa de Subsídio
        ao Seguro Saúde)
ID      número de identiﬁcação
IHSN    International Household Survey Network (Rede
        Internacional de Pesquisas Domiciliares)
IRB     Conselho de Revisão de Práticas Éticas de Pesquisa
        (Institutional Review Board)
ITT     intenção de tratar
J-PAL   Abdul Latif Jameel Poverty Action Lab (Laboratório de Ação
        contra a Pobreza Abdul Latif Jameel)
LATE    efeito médio local do tratamento (local average effect
        treatment)
NIH     National Institutes of Health (Estados Unidos)
ODI     Overseas Development Institute
OMS     Organização Mundial da Saúde
ONG     organização não-governamental
ONU     Organização das Nações Unidas
OSF     Open Science Framework


                                                                     xxvii
         RCT     experimento aleatório controlado (randomized
                 controlled trial)
         RDD     método de regressão descontínua (regression
                 discontinuity design)
         RIDIE   Registro de Avaliações de Impacto sobre Desenvolvimento
                 Econômico Internacionais (Registry for International
                 Development Impact Evaluations)
         SIEF    Fundo Estratégico de Avaliação de Impacto (Strategic
                 Impact Evaluation Fund) (Banco Mundial)
         SMART   especíﬁco, mensurável, atribuível, realista e direcionado
                 (speciﬁc, measurable, attributable, realistic, targeted)
         SUTVA   pressuposto de estabilidade de valor da unidade de trata-
                 mento (stable unit treatment value assumption)
         TCR     transferência condicional de renda
         TOT     tratamento no tratado (treatment-on-the-treated)
         USAID   Agência dos Estados Unidos para o Desenvolvimento
                 Internacional
         VI      variáveis instrumentais




xxviii                                                Avaliação de Impacto na Prática
Parte 1

INTRODUÇÃO À
AVALIAÇÃO DE
IMPACTO


Nesta primeira parte do livro, apresentamos uma visão geral sobre o que é
avaliação de impacto. No capítulo 1, discutimos por que a avaliação de impacto
é importante e como ela se encaixa no contexto da implementação de políti-
cas públicas baseadas em evidências e na ética. Comparamos a avaliação de
impacto com o monitoramento, introduzimos as características que deﬁnem a
avaliação de impacto e discutimos abordagens complementares, incluindo aná-
lises de custo-benefício e análises de custo-efetividade. Introduzimos um foco
central do livro: como os recursos disponíveis para um programa, os critérios
de elegibilidade para a seleção dos beneﬁciários e o cronograma da imple-
mentação servem para estruturar as opções na hora da seleção de métodos
de avaliação de impacto. Finalmente, apresentamos diferentes modalidades
de avaliação de impacto, tais como as avaliações prospectiva e retrospectiva
e os testes de eﬁcácia versus testes de efetividade — e concluímos com uma
discussão sobre quando utilizar as avaliações de impacto.

No capítulo 2, discutimos como formular perguntas de avaliação e hipóteses
que sejam úteis às políticas. Essas questões e hipóteses formam a base da
avaliação, pois determinam o que ela busca responder. Introduzimos também o
conceito fundamental de uma teoria da mudança e o uso de cadeias de resulta-
dos e indicadores de desempenho. O capítulo 2 apresenta a primeira introdução
ao estudo de caso ﬁccional, o Programa de Subsídio ao Seguro Saúde (HISP),
que é usado em todo o livro e no material complementar encontrado no site de
Avaliação de Impacto na Prática (www.worldbank.org/ieinpractice).
CAPÍTULO 1




Por que avaliar?

Políticas baseadas em evidências

Os programas e políticas de desenvolvimento geralmente são elaborados
para alterar resultados como, por exemplo, aumentar a renda, melhorar o
aprendizado ou reduzir doenças. Uma questão crucial de política pública,
mas que não é examinada com frequência, é saber se essas mudanças são
realmente alcançadas ou não. Em geral, os gestores de programas e respon-
sáveis pela formulação de políticas públicas concentram-se em controlar e
medir os insumos e os produtos imediatos de um programa — tais como o
total de gastos ou o número de livros didáticos distribuídos e quantas pes-
soas participaram de um programa de incentivo ao emprego — em vez de
avaliar se os programas atingiram os objetivos pretendidos de melhoria do
bem-estar.
   As avaliações de impacto fazem parte de uma agenda mais ampla da for-
mulação de políticas baseadas em evidências. Essa crescente tendência glo-
bal é marcada por uma mudança no enfoque, que passou dos insumos para
os resultados, e está reformulando as políticas públicas. O foco nos resulta-
dos está sendo usado não apenas para deﬁnir e monitorar metas nacionais e
internacionais, mas os resultados estão, cada vez mais, sendo usados e exigi-
dos por gestores de programas para aperfeiçoar a prestação de contas,
determinar a alocação orçamentária e orientar o modelo dos programas e
as decisões relacionadas às políticas.


                                                                                3
       O monitoramento e a avaliação estão no cerne da formulação de políticas
    baseadas em evidências. Eles fornecem um núcleo básico de ferramentas
    que as partes interessadas podem usar para veriﬁcar e melhorar a qualidade,
    eﬁcácia e efetividade das políticas e dos programas nas várias etapas da
    implementação — ou, em outras palavras, para focar em resultados. No nível
    da gestão do programa, é necessário compreender quais as opções de dese-
    nho de programas que são mais custo-efetivos ou demonstrar, junto aos
    tomadores de decisões, que os programas estão atingindo os resultados pre-
    tendidos de forma a obter alocações orçamentárias para mantê-los ou
    expandi-los. No nível nacional, os ministérios competem por recursos
    orçamentários. Ao ﬁm e ao cabo, os governos são responsáveis por prestar
    contas a seus cidadãos sobre o desempenho dos programas públicos. As evi-
    dências podem constituir uma base sólida para a promoção da transparên-
    cia e da prestação de contas.
       As evidências robustas geradas pelas avaliações de impacto estão cada
    vez mais servindo de base para reforçar a prestação de contas, a inovação e
    o aprendizado. Em um contexto no qual os formuladores de políticas e a
    sociedade civil exigem resultados e cobram prestação de contas dos progra-
    mas públicos, a avaliação de impacto pode oferecer evidências críveis e
    robustas quanto ao desempenho e, fundamentalmente, quanto a saber se
    um programa especíﬁco atingiu ou está atingindo os resultados desejados.
    As avaliações de impacto também estão progressivamente sendo usadas
    para testar inovações na concepção de programas ou na prestação de
    serviços. Em nível global, as avaliações de impacto são fundamentais para a
    construção de conhecimento sobre a efetividade dos programas, pois escla-
    recem o que funciona e o que não funciona na redução da pobreza e na pro-
    moção do bem-estar.
       Simpliﬁcando, uma avaliação de impacto estima as mudanças no
    bem-estar dos indivíduos que podem ser atribuídas a um projeto, política
    pública ou programa especíﬁco. O enfoque na atribuição do resultado é o
    selo distintivo das avaliações de impacto. Igualmente, seu desaﬁo central é
    identiﬁcar a relação causal entre o programa ou a política e os resultados
    de interesse.
       As avaliações de impacto geralmente estimam os impactos médios de
    um programa, das diferentes formas de implementação do programa ou de
    uma inovação do projeto. Por exemplo: será que um programa de água e
    saneamento básico aumentou o acesso à água potável e melhorou a saúde
    da população? Será que um currículo alternativo aumentou as notas dos
    estudantes nos testes? Será que a inovação de incluir as habilidades não
    cognitivas como parte de um programa de treinamento para jovens foi
    bem-sucedida na promoção do empreendedorismo e no aumento da renda?
    Em cada um desses casos, a avaliação de impacto fornece informações
4                                                     Avaliação de Impacto na Prática
sobre se o programa causou as mudanças desejadas nos resultados, em
contraste com estudos de caso ou fatos reais especíﬁcos, que podem forne-
cer apenas informações parciais e não ser representativos do impacto geral
do programa. Nesse sentido, avaliações de impacto bem concebidas e bem
implementadas são capazes de fornecer evidências convincentes e abran-
gentes que podem ser usadas para proporcionar informações para a tomada
de decisão sobre políticas, moldar a opinião pública e melhorar a execução
dos programas.
   As avaliações de impacto clássicas abordam a efetividade de um pro-
grama em comparação com a ausência do programa. O boxe 1.1 aborda a
conhecida avaliação de impacto do programa de transferência condicional




     Boxe 1.1: Como uma avaliação bem-sucedida pode promover a
     sustentabilidade política de um programa de desenvolvimento:
     programa de transferência condicional de renda do México
     Na década de 1990, o governo do México            As eleições presidenciais do ano 2000
     lançou um inovador programa de transfe-       trouxeram uma mudança do partido no
     rência condicional de renda batizado de       poder. Em 2001, os avaliadores externos do
     “Progresa” (juntamente com alguns ele-        Progresa apresentaram suas descobertas
     mentos do programa, o nome mudou para         ao novo governo eleito. Os resultados do
     “Oportunidades” e, posteriormente, para       programa eram impressionantes: mostra-
     “Prospera”). Os seus objetivos eram pro-      vam que o programa estava bem focalizado
     porcionar às famílias pobres um apoio ﬁ-      nos pobres e tinha gerado mudanças pro-
     nanceiro de curto prazo e criar incentivos    missoras no capital humano das famílias.
     para investimentos no capital humano das      Schultz (2004) concluiu que o programa
     crianças, principalmente ao fornecer trans-   tinha melhorado signiﬁcativamente a matrí-
     ferências de dinheiro para mães de famílias   cula escolar, com um aumento médio de
     pobres desde que seus ﬁlhos frequentas-       escolaridade de 0,7 ano. Gertler (2004)
     sem regularmente a escola e fossem aten-      constatou que a incidência de doenças nas
     didos em um centro de saúde.                  crianças tinha diminuído 23%, e que entre
         Desde o início, o governo considerou      os adultos houvera uma redução de 19% em
     essencial acompanhar e avaliar o programa.    dias perdidos de trabalho devido a doença
     Os funcionários que atuavam no programa       ou incapacidade. Entre os resultados nutri-
     contrataram um grupo de pesquisadores         cionais, Behrman e Hoddinott (2001) consta-
     para desenhar uma avaliação de impacto        taram que o programa tinha reduzido a
     que seria parte integrante do programa à      probabilidade de nanismo em cerca de
     medida que ele se expandia para as várias     1 centímetro por ano para crianças na faixa
     comunidades participantes.                    etária crítica de 12 a 36 meses.


                                                                                      (continua)


Por que avaliar?                                                                                   5
    Boxe 1.1: Como uma avaliação bem-sucedida pode promover a sustentabilidade política de um
    programa de desenvolvimento: programa de transferência condicional de renda do México (continuação)

       Os resultados da avaliação deram                 programas assistenciais, como o do subsí-
    suporte a um diálogo político baseado em            dio à tortilla, cujo alvo não era bem deﬁnido
    evidências e contribuíram para a decisão do         e acabou sendo reduzido.
    novo governo de continuar com o programa,              A bem-sucedida avaliação do Progresa
    cujo alcance foi ampliado, tendo sido intro-        contribuiu também para a rápida adoção dos
    duzidas bolsas para os alunos do ensino             programas de transferência condicional de
    médio e melhores programas de saúde para            renda em todo o mundo e para a adoção de
    adolescentes. Ao mesmo tempo, os resul-             legislação, no México, exigindo que todos
    tados foram usados para modiﬁcar outros             os projetos sociais fossem avaliados.

    Fontes: Behrman e Hoddinott 2001; Fiszbein e Schady 2009; Gertler 2004; Levy e Rodríguez 2005; Schultz
    2004; Skouﬁas e McClafferty 2001.




                 de renda do México, ilustrando como a avaliação contribuiu para as dis-
                 cussões sobre políticas referentes à expansão do programa.1
                    O boxe 1.2 ilustra como a avaliação de impacto inﬂuenciou a política edu-
                 cacional em Moçambique ao mostrar que as pré-escolas comunitárias
                 podem ser uma forma acessível e eﬁcaz de aprimorar a educação na pri-
                 meira infância e levar as crianças a se matricularem na escola primária na
                 idade certa.
                    Além de abordar a questão básica sobre se um programa é eﬁcaz ou
                 não, as avaliações de impacto também podem ser usadas para testar expli-
                 citamente diferentes formas de implementação ou inovações no desenho
                 dos programas. À medida que os formuladores de políticas públicas se
                 concentram cada vez mais em entender melhor como aperfeiçoar a imple-
                 mentação e fazer o melhor uso dos seus recursos, as abordagens que tes-
                 tam desenhos alternativos de projetos estão rapidamente ganhando
                 terreno. Por exemplo, uma avaliação pode comparar o desempenho de um
                 programa de treinamento ao de uma campanha publicitária e veriﬁcar
                 qual deles é mais eﬁcaz para melhorar os conhecimentos ﬁnanceiros.
                 Uma avaliação de impacto pode testar a combinação de abordagens rela-
                 tivas a nutrição e estimulação infantil que tenha o maior impacto no
                 desenvolvimento da criança. Pode também testar uma inovação no dese-
                 nho para melhorar um programa existente, como o uso de mensagens de
                 texto para lembrar os usuários sobre a hora certa para a ingestão de medi-
                 camentos prescritos.


6                                                                              Avaliação de Impacto na Prática
     Boxe 1.2: O impacto político de um modelo pré-escolar inovador:
     desenvolvimento na pré-escola e na primeira infância em
     Moçambique
     Embora a pré-escola seja reconhecida como        escola primária e 10% mais propensas a
     um bom investimento e uma abordagem eﬁ-          começar os estudos na idade certa do que
     caz para preparar as crianças para a escola e    as crianças no grupo de comparação.
     vida adulta, os países em desenvolvimento        Na escola primária, as crianças que haviam
     têm se deparado com o desaﬁo de introduzir       frequentado a pré-escola passaram quase
     um modelo pré-escolar escalável e ﬁnancei-       50% mais tempo fazendo lição de casa e
     ramente acessível. Em Moçambique, apenas         outras atividades relacionadas à escola do
     cerca de 4% das crianças frequentam a            que aquelas que não haviam frequentado.
     pré-escola. Ao chegar à escola primária, algu-   A avaliação também mostrou ganhos positi-
     mas crianças de comunidades rurais mos-          vos na preparação para a vida escolar: as
     tram sinais de atraso no desenvolvimento e       crianças que tinham frequentado a pré-escola
     geralmente não estão preparadas para as          apresentaram melhor desempenho em
     demandas da sala de aula. Além disso, ape-       testes de desenvolvimento cognitivo e
     sar de a taxa de matrícula na escola primária    socioemocional e de habilidades motoras
     ser de quase 95%, um terço das crianças          de controle ﬁno em relação ao grupo de
     não se matricula na idade correta.               comparação.
         Em 2006, Save the Children lançou um             Outros membros da família também se
     programa pré-escolar comunitário piloto nas      beneﬁciaram da matrícula das crianças na
     comunidades rurais de Moçambique com o           pré-escola por terem mais tempo para
     objetivo de melhorar o desenvolvimento           participar de atividades produtivas. A pro-
     cognitivo, social, emocional e físico das        babilidade de os irmãos mais velhos fre-
     crianças. No que se acredita ser a primeira      quentarem a escola era 6% maior. E a
     avaliação aleatória de um programa pré-          probabilidade de que os cuidadores tives-
     -escolar na África rural, uma equipe de pes-     sem trabalhado nos 30 dias anteriores era
     quisa conduziu uma avaliação de impacto do       26% maior quando a criança pequena fre-
     programa em 2008. Com base nos resulta-          quentava a pré-escola.
     dos positivos da avaliação, o governo de             Essa avaliação mostrou que, mesmo em
     Moçambique adotou e decidiu expandir o           um ambiente de baixa renda, as pré-escolas
     modelo de pré-escola comunitária de Save         podem ser uma forma eﬁcaz de promover o
     the Children para 600 comunidades.               desenvolvimento cognitivo, preparar as
         A avaliação constatou que as crianças        crianças para o ensino fundamental e
     que frequentaram a pré-escola estavam            aumentar a probabilidade de que elas ini-
     24% mais propensas a se matricular na            ciem a escola primária na idade apropriada.

     Fonte: Martinez, Nadeau e Pereira 2012.




Por que avaliar?                                                                                     7
                            O que é avaliação de impacto?

                            A avaliação de impacto é uma entre várias abordagens que respaldam políti-
                            cas baseadas em evidências, incluindo o monitoramento e outros tipos de
                            avaliação.
                               O monitoramento é um processo contínuo, que acompanha o que está
                            acontecendo com um determinado programa e usa os dados coletados para
                            informar sobre sua implementação e fornecer subsídios para a gestão e
                            tomada de decisões no dia a dia. Utilizando, principalmente, dados adminis-
                            trativos, o monitoramento rastreia os desembolsos ﬁnanceiros e o desempe-
                            nho do programa em relação aos resultados esperados e analisa tendências
                            ao longo do tempo.2 O monitoramento é necessário em todos os programas
                            e é uma fonte essencial de informação sobre o seu desempenho, incluindo a
Conceito-chave              implementação e os custos. Geralmente, o monitoramento acompanha insu-
As avaliações são           mos, atividades e produtos, embora possa, às vezes, incluir resultados, tais
análises periódicas e       como o progresso em relação às metas nacionais de desenvolvimento.
objetivas de uma               As avaliações são análises periódicas e objetivas de um projeto, política
política pública, projeto   ou programa planejado, em andamento ou concluído. As avaliações são usa-
ou programa
                            das seletivamente para responder perguntas especíﬁcas relacionadas ao
planejado, em
andamento ou                desenho, à implementação e aos resultados. Ao contrário do monitoramento
concluído. As               contínuo, elas são realizadas em pontos separados no tempo e, geralmente,
avaliações são usadas       buscam uma perspectiva externa de especialistas. O seu desenho, método e
para responder              custo variam substancialmente, dependendo do tipo de pergunta que a ava-
perguntas especíﬁcas,
                            liação tenta responder. Em geral, as avaliações compreendem três tipos de
geralmente relaciona-
das ao desenho, à
                            questões (Imas e Rist 2009):3
implementação ou aos        • Perguntas descritivas procuram saber o que está ocorrendo.
resultados.
                              Concentram-se nos processos, condições, relações organizacionais e
                              pontos de vista das partes interessadas.
                            • Perguntas normativas comparam o que está ocorrendo ao que deveria
                              ocorrer. Avaliam atividades e se as metas estão sendo alcançadas ou não.
                              As perguntas normativas podem se aplicar a insumos, atividades e
                              produtos.
                            • Perguntas de causa e efeito concentram-se na atribuição. Questionam a
                              diferença que a intervenção exerce nos resultados.
                               Existem muitos tipos de avaliações e métodos de avaliação que se baseiam
                            em dados quantitativos e qualitativos. Os dados qualitativos não são expres-
                            sos em números, mas sim por meio da linguagem ou, às vezes, de imagens.
                            Os dados quantitativos são medições numéricas e estão comumente associa-
                            dos a escalas ou métricas. Tanto os dados quantitativos quanto os qualitati-
                            vos podem ser utilizados para responder as questões levantadas acima.
8                                                                             Avaliação de Impacto na Prática
Na prática, muitas avaliações dependem de ambos os tipos de dados. Existem
várias fontes de dados que podem ser usadas nas avaliações e que se valem
de dados primários coletados especiﬁcamente para a avaliação ou de dados
secundários disponíveis (ver o capítulo 16 sobre fontes de dados). Este livro
concentra-se nas avaliações de impacto que usam dados quantitativos, mas
ressalta o valor do monitoramento, dos métodos de avaliação complementa-
res e do uso tanto de dados quantitativos quanto qualitativos.
   As avaliações de impacto são um tipo particular de avaliação que procura
responder a uma pergunta especíﬁca de causa e efeito: qual é o impacto (ou
efeito causal) de um programa sobre um resultado de interesse? Esta per-
gunta básica incorpora uma importante dimensão causal. O foco reside ape-
nas no impacto, ou seja, as mudanças diretamente atribuíveis a um programa,
modalidade de programa ou inovação no desenho do projeto.
   A pergunta básica da avaliação de impacto — qual é o impacto (ou efeito
causal) de um programa sobre um resultado de interesse? — pode ser apli-
cada a muitos contextos. Por exemplo, qual é o efeito causal das bolsas de
estudo na frequência escolar e no desempenho acadêmico dos alunos? Qual         Conceito-chave
é o impacto da contratação de fornecedores privados para serviços de aten-      As avaliações de
ção básica no acesso ao sistema de saúde? Se o chão de terra batida fosse       impacto procuram
substituído por um piso de cimento, qual seria o impacto sobre a saúde das      responder a um tipo de
crianças? Será que estradas melhores aumentam o acesso aos mercados de          pergunta especíﬁco:
trabalho e a renda familiar? E, se o fazem, em quanto? O tamanho das tur-       qual é o impacto (ou
                                                                                efeito causal) de um
mas nas escolas inﬂuencia o desempenho dos alunos? E, se o faz, em quanto?
                                                                                programa sobre um
Conforme esses exemplos demonstram, espera-se que a pergunta básica da          resultado de interesse?
avaliação analise o impacto de uma modalidade de programa ou inovação no
desenho, e não apenas de um programa.
                                                                                Conceito-chave
   O foco na causalidade e na atribuição é a marca das avaliações de impacto.
                                                                                A escolha de um
Todos os métodos de avaliação de impacto tratam de alguma forma de ques-        método de avaliação
tão de causa e efeito. A abordagem da questão da causalidade determina as       de impacto depende
metodologias que podem ser usadas. Para poder estimar o efeito causal ou o      das características
impacto de um programa nos resultados, qualquer método de avaliação de          operacionais do
impacto escolhido deve estimar o chamado contrafactual, ou seja, qual teria     programa que está
                                                                                sendo avaliado,
sido o resultado para os participantes do programa se eles não tivessem par-
                                                                                particularmente dos
ticipado no programa. Na prática, a avaliação de impacto exige que a equipe     recursos disponíveis,
de avaliação encontre um grupo de comparação para estimar o que teria           dos critérios de
acontecido aos participantes do programa sem o programa e, em seguida,          elegibilidade para a
faça comparações com o grupo de tratamento que recebeu o programa. A            seleção dos
                                                                                beneﬁciários e do
parte 2 do livro descreve os principais métodos que podem ser usados para
                                                                                cronograma de
encontrar grupos de comparação adequados.                                       implementação do
   Uma das principais mensagens deste livro é que a escolha de um método        programa.
de avaliação de impacto depende das características operacionais do pro-
grama que está sendo avaliado. Quando as regras de operação do programa
Por que avaliar?                                                                                        9
     são equitativas e transparentes e possibilitam a prestação de contas, um
     bom desenho de avaliação de impacto pode quase sempre ser encontrado —
     desde que a avaliação de impacto seja planejada no início do processo de
     elaboração ou implementação de um programa. Ter regras claras e bem
     deﬁnidas sobre as operações do programa não somente tem valor intrín-
     seco para políticas públicas sólidas e para o gerenciamento de programas,
     como também é essencial para a construção de bons grupos de compara-
     ção — a base das avaliações de impacto rigorosas. Especiﬁcamente, a esco-
     lha de um método de avaliação de impacto é determinada pelas
     características operacionais do programa, particularmente pelos recursos
     disponíveis, pelos critérios de elegibilidade para a seleção dos beneﬁciá-
     rios e pelo cronograma de implementação do programa. Como discutire-
     mos nas partes 2 e 3 do livro, podem ser feitas três perguntas sobre o
     contexto operacional de determinado programa: o programa tem recursos
     para atender a todos os beneﬁciários elegíveis? O programa é focalizado ou
     universal? O programa será oferecido a todos os beneﬁciários de uma vez
     ou em sequência? A resposta a essas três perguntas determinará quais dos
     métodos apresentados na parte 2 — seleção aleatória, variáveis instrumen-
     tais, regressão descontínua, diferenças em diferenças ou pareamento — são
     os mais adequados ao seu contexto operacional.


     Avaliação de impacto prospectiva versus
     retrospectiva

     As avaliações de impacto podem ser divididas em duas categorias: prospec-
     tivas e retrospectivas. As avaliações prospectivas são desenvolvidas ao
     mesmo tempo em que o programa está sendo elaborado e são integradas à
     implementação do programa. Os dados de linha de base são coletados antes
     da implementação do programa, tanto para o grupo que receberá a inter-
     venção (conhecido como grupo de tratamento) quanto para o grupo usado
     como comparação, que não receberá a intervenção (conhecido como grupo
     de comparação). As avaliações retrospectivas avaliam o impacto do pro-
     grama após sua implementação, gerando grupos de tratamento e de compa-
     ração a posteriori.
        Em geral, as avaliações de impacto prospectivas tendem a produzir resul-
     tados mais robustos e conﬁáveis, por três razões. Em primeiro lugar, os
     dados de linha de base podem ser coletados para estabelecer medidas dos
     resultados de interesse antes do início do programa e são importantes para
     medir os resultados pré-intervenção. Os dados de linha de base dos grupos
     de tratamento e de comparação devem ser analisados para assegurar que os
     grupos sejam semelhantes. Os dados de linha de base também podem ser
10                                                     Avaliação de Impacto na Prática
usados para avaliar a efetividade da focalização, ou seja, para saber se o pro-
grama atinge os beneﬁciários visados.
   Em segundo lugar, a deﬁnição de medidas para o êxito de um programa
na fase de planejamento deve se concentrar tanto no programa quanto na
avaliação dos resultados pretendidos. Como veremos, as avaliações de
impacto se originam da teoria da mudança ou da cadeia de resultados de um
programa. A concepção de uma avaliação de impacto ajuda a esclarecer os
objetivos do programa — especialmente porque requer o estabelecimento
de medidas bem deﬁnidas para o seu êxito. Os formuladores de políticas
devem deﬁnir metas claras para o programa e formular perguntas objetivas
a ser respondidas pela avaliação a ﬁm de garantir que os resultados sejam de
fato relevantes para a política. Na verdade, o pleno apoio dos formuladores
de políticas é um pré-requisito para a realização de uma avaliação
bem-sucedida. As avaliações de impacto não devem ser empreendidas a
menos que os formuladores de políticas estejam convencidos da sua legiti-
midade e do seu valor para informar a tomada de importantes decisões de
políticas públicas.
   Em terceiro lugar, o mais importante: em uma avaliação prospectiva, os
grupos de tratamento e de comparação são identiﬁcados antes da interven-
ção que está sendo avaliada ser implementada. Como explicaremos mais
detalhadamente nos capítulos a seguir, existem muito mais opções para rea-
lizar avaliações válidas quando elas são planejadas desde o início do pro-
grama, antes de sua implementação. Nas partes 2 e 3, discutimos que é quase
sempre possível encontrar uma estimativa válida do contrafactual para
qualquer programa com regras de seleção claras e transparentes, desde que
a avaliação seja planejada prospectivamente. Em suma, as avaliações pros-
pectivas têm uma melhor chance de gerar contrafactuais válidos. Na fase de
concepção, podem ser consideradas formas alternativas de estimar um con-
trafactual válido. O desenho da avaliação de impacto também pode ser
totalmente alinhado às regras de operação do programa, bem como às eta-
pas de sua implantação ou expansão.
   Por outro lado, nas avaliações retrospectivas, é comum que a equipe de
avaliadores possua informações tão limitadas que se torna difícil analisar
se o programa foi implementado com sucesso e se os seus participantes
realmente se beneﬁciaram dele. Muitos programas não coletam dados de              Conceito-chave
linha de base a menos que a avaliação tenha sido integrada desde o início e,      As avaliações
uma vez que o programa começa a funcionar, é tarde demais para realizar           prospectivas são
essa coleta.                                                                      concebidas e
   As avaliações retrospectivas que usam os dados existentes são necessá-         estruturadas antes da
rias para os programas criados no passado. As opções para obter uma esti-         implementação de um
                                                                                  programa.
mativa válida do contrafactual são muito mais limitadas nessas situações. A
avaliação depende de regras claras de operação do programa referentes à
Por que avaliar?                                                                                     11
     alocação dos benefícios. Depende também da disponibilidade de dados, com
     cobertura suﬁciente dos grupos de tratamento e de comparação, tanto antes
     quanto depois da implementação do programa. Como resultado, a viabili-
     dade de uma avaliação retrospectiva depende do contexto e nunca é
     garantida. Mesmo quando factíveis, as avaliações retrospectivas geralmente
     lançam mão de métodos quase-experimentais, que dependem de pressu-
     postos mais fortes, e, portanto, podem produzir evidências mais facilmente
     contestáveis.4


     Estudos de eﬁcácia e de efetividade

     O principal papel da avaliação de impacto é produzir evidências sobre o
     desempenho de um programa para o uso de autoridades governamentais,
     gestores de programas, membros da sociedade civil e outras partes
     interessadas. Os resultados da avaliação de impacto são particularmente
     úteis quando as conclusões podem ser aplicadas para uma população de
     interesse mais ampla. A questão da possibilidade de generalização é essen-
     cial para os formuladores de políticas, pois determina se os resultados iden-
     tiﬁcados na avaliação podem ser replicados para outros grupos além
     daqueles estudados na avaliação, caso o programa venha a ser ampliado.
        Nos primórdios das avaliações de impacto, uma grande parcela das evi-
     dências se baseava em estudos de eﬁcácia: análises realizadas em um ambiente
     especíﬁco, sob condições rigorosamente controladas, para garantir a ﬁdeli-
     dade entre o projeto de avaliação e a implementação do programa. Como os
     estudos de eﬁcácia são, muitas vezes, realizados como projetos-piloto com
     forte envolvimento técnico dos pesquisadores durante a implementação do
     programa, o impacto desses projetos-piloto de pequena escala pode não ser
     necessariamente informativo no caso de um projeto semelhante implemen-
     tado em uma escala maior e em circunstâncias normais. Estudos de eﬁcácia
     exploram a prova do conceito, muitas vezes para testar a viabilidade de um
     novo programa ou uma teoria da mudança especíﬁca. Se o programa não
     gerar os impactos antecipados sob essas condições cuidadosamente adminis-
     tradas, é improvável que funcione se for implementado em circunstâncias
     normais. Por exemplo, uma intervenção-piloto que introduza novos protoco-
     los de tratamento médico pode funcionar em um hospital com excelentes
     gestores e corpo médico, mas a mesma intervenção pode não funcionar em
     um hospital mediano com gestores menos atentos e uma equipe menor. Além
     disso, os cálculos de custo-benefício variam, uma vez que os custos ﬁxos e as
     economias de escala podem não ser capturados em estudos de eﬁcácia
     pequenos. Como resultado, embora as evidências dos estudos de eﬁcácia
     possam ser úteis para testar uma abordagem inovadora, os resultados
12                                                      Avaliação de Impacto na Prática
frequentemente limitam as generalizações e nem sempre representam ade-
quadamente os contextos mais gerais, que, normalmente, são a principal pre-
ocupação dos formuladores de políticas.
   Por outro lado, os estudos de efetividade fornecem evidências de inter-              Conceito-chave
venções que ocorrem em circunstâncias normais, utilizando canais de                     Os estudos de
implementação regulares e que visam a produzir descobertas que podem                    eﬁcácia avaliam se
ser generalizadas para uma grande população. Quando as avaliações de                    um programa pode
                                                                                        funcionar em
efetividade são devidamente concebidas e implementadas, os resultados
                                                                                        condições ideais,
podem ser generalizáveis aos beneﬁciários pretendidos para além da amos-                enquanto os estudos
tra avaliada, desde que a expansão utilize as mesmas estruturas de imple-               de efetividade
mentação e alcance populações semelhantes à da amostra da avaliação.                    avaliam se um
Essa validade externa é de fundamental importância para os formuladores                 programa funciona
                                                                                        em condições
de políticas, pois permite que eles utilizem os resultados da avaliação para
                                                                                        normais.
orientar decisões sobre o programa que poderão ser aplicadas também aos
beneﬁciários pretendidos que não fazem parte da amostra de avaliação
(ver o boxe 1.3).



     Boxe 1.3: Testando a possibilidade de generalização dos
     resultados: uma avaliação em múltiplos locais sobre uma
     iniciativa de “emancipação” para mitigar a pobreza extrema
     Ao avaliar um programa em contextos múlti-      grande organização global de desenvolvi-
     plos, os pesquisadores podem examinar se        mento, o modelo visava ajudar a “emanci-
     os resultados de uma avaliação de impacto       par” da pobreza extrema os muito pobres
     são generalizáveis. Essas avaliações multilo-   por meio de transferência de renda, bens de
     cacionais (realizadas em vários locais dife-    produção e capacitação intensiva.
     rentes) contribuem para o crescente corpo           Banerjee e coautores procuraram deter-
     de evidências sobre o que funciona e o que      minar se a abordagem de “emancipação”
     não funciona em termos de desenvolvimen-        funcionaria em todos os países por meio de
     to econômico e podem fornecer insights          seis avaliações de impacto aleatórias e
     importantes para os formuladores de políti-     simultâneas realizadas na Etiópia, Gana,
     cas públicas de todo o mundo.                   Honduras, Índia, Paquistão e Peru. Em cada
         Por exemplo, em 2007  , Banerjee iniciou    país, os pesquisadores trabalharam com
     uma avaliação multilocacional de uma inicia-    organizações não governamentais (ONGs)
     tiva de “emancipação” para mitigar a pobreza    locais para implementar um programa simi-
     extrema. O modelo havia recebido muita          lar de emancipação. Apesar do programa ter
     atenção em todo o mundo depois de apre-         sido ajustado de acordo com os diferentes
     sentar resultados impressionantes em            contextos de cada país, os princípios-chave
     Bangladesh. Desenvolvido pelo Comitê de         permaneceram os mesmos. O programa
     Avanço Rural de Bangladesh (BRAC), uma          tinha como público-alvo as famílias mais

                                                                                        (continua)


Por que avaliar?                                                                                         13
     Boxe 1.3: Testando a possibilidade de generalização dos resultados: uma avaliação em múltiplos locais
     sobre uma iniciativa de “emancipação” para mitigar a pobreza extrema (continuação)

     pobres que residiam nos povoados das regi-           com trabalho, salário e rendimentos, saúde
     ões mais pobres de cada país. Durante 24             mental e envolvimento político. A magnitude
     meses, as famílias beneﬁciárias receberam            dos impactos variou entre os diversos países,
     bens de produção, capacitação, acompanha-            com impactos substanciais no valor dos ati-
     mento, orientações relacionadas a habilida-          vos em todos os países, com exceção de um.
     des úteis no mercado de trabalho e no                Não houve impactos estatisticamente signiﬁ-
     cotidiano, dinheiro, informações sobre saúde         cativos no índice de saúde física.
     e ajuda com inclusão ﬁnanceira. A avaliação              Os resultados variaram de país para país.
     de impacto analisou a efetividade do forneci-        As melhorias no consumo per capita não
     mento desse pacote de benefícios.                    foram signiﬁcativas em Honduras e no Peru,
         O estudo avaliou os impactos do pro-             e as melhorias no valor dos ativos não foram
     grama em dez conjuntos de resultados. Um             signiﬁcativas em Honduras. No conjunto,
     ano após o término do programa nos seis paí-         porém, a avaliação apontou para a promessa
     ses, tinha havido melhorias signiﬁcativas em         representada por esse tipo de intervenção
     oito dos dez conjuntos de resultados: con-           multifacetada para melhorar a qualidade de
     sumo per capita, segurança alimentar, valor          vida dos extremamente pobres em uma
     dos ativos, inclusão ﬁnanceira, tempo gasto          variedade de contextos.

     Fontes: Banerjee e outros 2015; BRAC 2013.




                   Abordagens complementares

                   Conforme observado, as avaliações de impacto respondem perguntas espe-
                   cíﬁcas de causa e efeito. Outras abordagens — incluindo o monitoramento
                   rigoroso do programa, bem como a utilização complementar de outras abor-
                   dagens de avaliação, como simulações ex-ante, análise de métodos mistos
                   baseada em dados qualitativos e quantitativos e avaliações de processos —
                   podem servir como complementos valiosos para avaliações de impacto.
                   Essas outras abordagens têm muitas aplicações úteis, tais como estimar o
                   efeito das reformas antes que sejam implementadas, ajudar a enfocar ques-
                   tões centrais da avaliação de impacto, acompanhar a implementação do
                   programa e interpretar os resultados das avaliações de impacto.
                      Realizadas isoladamente, distantes de outras fontes de informação, as
                   avaliações de impacto são vulneráveis tanto em termos de qualidade técnica
                   quanto de relevância política. Embora os seus resultados possam fornecer
                   evidências sólidas quanto à existência ou não de um efeito, são muitas vezes
                   limitados em fornecer insights sobre os canais pelos quais a política ou pro-
                   grama afetou os resultados observados. Sem as informações obtidas com
                   avaliações de processos quanto à natureza e ao conteúdo do programa para
14                                                                               Avaliação de Impacto na Prática
contextualizar os resultados da avaliação, os formuladores de políticas
podem ﬁcar confusos em relação aos motivos pelos quais os resultados
foram ou não alcançados. Ademais, sem o monitoramento dos dados sobre
como, quando e onde o programa está sendo implementado, a avaliação não
será capaz de informar se ou quando os benefícios foram recebidos pelos
beneﬁciários pretendidos ou se os benefícios chegaram ao grupo de compa-
ração involuntariamente.

Monitoramento

A implementação do monitoramento dos programas, geralmente por meio
do uso de dados administrativos, é fundamental para uma avaliação de
impacto. Permite que a equipe de avaliação veriﬁque se as atividades estão
sendo implementadas conforme o planejado, que participantes receberam o
programa, quão rapidamente o programa está se expandindo e como os
recursos estão sendo gastos. Essas informações são essenciais para a imple-
mentação da avaliação para, por exemplo, garantir que os dados de linha de
base sejam coletados antes da introdução do programa na amostra de ava-
liação e veriﬁcar a integridade dos grupos de tratamento e comparação.
O monitoramento é fundamental para conferir se um determinado beneﬁci-
ário realmente está participando do programa e se um não beneﬁciário não
está participando. Adicionalmente, os dados administrativos podem forne-
cer informações sobre o custo de implementação do programa, que também
são necessárias para a análise de custo-benefício e custo-efetividade.

Simulações ex-ante

As simulações ex-ante são avaliações que utilizam os dados disponíveis para
simular os efeitos esperados de um programa ou reforma de política pública
sobre os resultados de interesse. Podem ser muito úteis para avaliar a efeti-
vidade relativa esperada de uma série de opções alternativas de desenho de
programas em relação aos resultados. Esses são métodos comumente usa-
dos e que dependem da disponibilidade de dados abrangentes e de alta qua-
lidade, podendo ser empregados para aplicar modelos de simulação
adequados à pergunta em questão (ver o boxe 1.4). Em contraste com as ava-
liações de impacto, esses métodos são utilizados para simular os efeitos
futuros potenciais, em vez de medir os impactos reais dos programas
implementados. Esse tipo de método pode ser extremamente útil para a ava-
liação comparativa dos efeitos prováveis dos programas e o estabelecimento
de objetivos realistas, bem como para a estimativa de custos, taxas de retorno
e outros parâmetros econômicos. São, muitas vezes, utilizados como base
para a análise econômica dos projetos, especialmente antes da introdução
de uma reforma ou da implementação de um projeto.
Por que avaliar?                                                                 15
     Boxe 1.4: Simulação dos possíveis efeitos do projeto por meio de
     modelagem estrutural: a construção de um modelo para testar
     projetos alternativos usando os dados do Progresa no México
     Um determinado tipo de simulação ex-ante —             incentivos ﬁnanceiros para os alunos das
     a modelagem estrutural — pode ser usado                séries mais elevadas, os efeitos sobre a
     para estimar os efeitos de um programa sob             média de escolaridade concluída provavel-
     diferentes desenhos alternativos. Na avalia-           mente seriam maiores.
     ção do Progresa/Oportunidades/Prospera,                    Nesse caso, as projeções foram feitas
     descrita no boxe 1.1, os dados coletados               usando a pesquisa de linha de base de uma
     foram suﬁcientemente ricos para que os                 avaliação de impacto que havia sido
     pesquisadores construíssem um modelo                   concluída. Os resultados das previsões
     que pudesse simular os efeitos esperados               poderiam ser testados para veriﬁcar se
     dos desenhos de programas alternativos.                teriam o mesmo impacto que o experimento
         Todd e Wolpin (2006) utilizaram dados de           do programa real. No entanto, isso geral-
     linha de base da avaliação de impacto para             mente não é possível. Esse tipo de método
     construir um modelo das decisões dos pais a            de simulação é frequentemente usado
     respeito de seus ﬁlhos, incluindo a educação.          antes que o programa seja realmente imple-
     Simularam quais seriam os efeitos sob dife-            mentado para examinar os prováveis efeitos
     rentes desenhos de programas e descobri-               dos vários desenhos alternativos de
     ram que, se o programa eliminasse os                   programas. Dessa maneira, simulações
     incentivos ﬁnanceiros vinculados à frequên-            ex-ante podem fornecer uma base para res-
     cia escolar para os alunos das séries mais             tringir a gama de opções a ser testada na
     baixas e usasse o dinheiro para aumentar os            prática.

     Fonte: Todd e Wolpin 2006.
     Observação: para outro exemplo de modelagem estrutural, ver Bourguignon, Ferreira e Leite (2003).




                   Métodos mistos

                   As abordagens de métodos mistos que combinam dados quantitativos e
                   qualitativos são um complemento-chave das avaliações de impacto basea-
                   das apenas no uso de dados quantitativos, especialmente para ajudar a
                   gerar hipóteses e formular as perguntas de pesquisa antes da coleta de
                   dados quantitativos, e fornecer perspectivas e insights sobre o desempenho
                   de um programa durante e após sua implementação. Existem muitos méto-
                   dos qualitativos, os quais compreendem seu próprio campo de pesquisa.5
                   Os métodos que geram dados qualitativos geralmente empregam aborda-
                   gens abertas que não dependem de respostas predeterminadas dos
                   entrevistados. Os dados são gerados por meio de uma série de abordagens,
                   incluindo grupos focais, histórias de vida e entrevistas com os beneﬁciários
16                                                                                   Avaliação de Impacto na Prática
selecionados e outros informantes-chave (Rao e Woolcock 2003). Podem
também incluir várias análises observacionais e etnográﬁcas. Apesar de as
observações, os pontos de vista e as opiniões coletadas durante o trabalho
qualitativo geralmente não serem estatisticamente representativas dos
beneﬁciários do programa — e, portanto, não serem passíveis de generali-
zação —, são úteis para entender por que certos resultados foram ou não
alcançados (ver o boxe 1.5).




     Boxe 1.5: Uma avaliação do método misto em ação: combinando
     um experimento aleatório controlado com um estudo etnográﬁco
     na Índia
     As abordagens de métodos mistos podem           signiﬁcativo, o estudo qualitativo forneceu
     ser especialmente úteis para avaliar progra-    informações sobre por que a intervenção
     mas cujos resultados são difíceis de mensurar   fracassou. A pesquisa qualitativa identiﬁcou
     por meio de pesquisas quantitativas. Os pro-    vários fatores que diﬁcultaram a efetividade
     gramas relacionados a democracia e gover-       da intervenção: variações na qualidade da
     nança são um exemplo.                           organização do programa, falta de apoio da
        Ao desenvolver uma estratégia de avalia-     liderança e estruturas de poder local muito
     ção para o programa People’s Campaign           arraigadas.
     (Campanha do Povo), que visava a melhorar           A evidência qualitativa também revelou
     a participação dos cidadãos nos governos        alguns impactos menos tangíveis e inespe-
     dos povoados, Ananthpur, Malik e Rao            rados do programa. Nos povoados que parti-
     (2014) integraram um experimento aleatório      ciparam do tratamento, o programa
     (RCT em inglês) a um estudo etnográﬁco          melhorou a resolução de conﬂitos relativa
     realizado em um subconjunto de 10% da           à prestação de serviços e aumentou a parti-
     amostra de avaliação utilizada para o RCT.      cipação das mulheres nas atividades de
     Foram utilizados métodos de pareamento          desenvolvimento dos povoados. Além disso,
     para garantir características semelhantes       os pesquisadores de campo observaram
     entre os povoados de tratamento e de com-       que os governos dos povoados de trata-
     paração da amostra do estudo qualitativo.       mento funcionaram melhor.
     Um pesquisador de campo experiente foi              Sem a compreensão diferenciada sobre
     designado para viver em cada um dos povo-       o contexto e a dinâmica local fornecida pelo
     ados e estudar os impactos do programa          componente qualitativo, os pesquisadores
     sobre suas estruturas sociais e políticas.      não teriam sido capazes de entender por
        O estudo etnográﬁco continuou por dois       que os dados quantitativos não detectaram
     anos após o RCT ter terminado, permitindo       impactos. O estudo etnográﬁco proporcio-
     observações dos efeitos de longo prazo.         nou uma avaliação mais rica, com insights
     Apesar de o RCT ter detectado que a inter-      sobre os elementos úteis para a melhoria do
     venção não teve impacto estatisticamente        programa.

     Fonte: Ananthpur, Malik e Rao 2014.



Por que avaliar?                                                                                    17
        As avaliações que integram análises qualitativas e quantitativas se carac-
     terizam como métodos mistos (Bamberger, Rao e Woolcock 2010). Ao desen-
     volver uma iniciativa de método misto, Creswell (2014) deﬁne três
     abordagens básicas:
     1. Paralelo convergente. Tanto os dados quantitativos quanto os qualitativos
        são coletados ao mesmo tempo e utilizados para gerar e conjugar resulta-
        dos iniciais sobre como o programa está sendo implementado e perce-
        bido pelos beneﬁciários.
     2. Sequencial explicativa. Os dados qualitativos fornecem contexto e expli-
        cações para os resultados quantitativos com o intuito de explorar os casos
        particulares de sucesso e fracasso, e para desenvolver explicações siste-
        máticas sobre o desempenho do programa conforme detectado pelos
        resultados quantitativos. Dessa forma, o trabalho qualitativo pode ajudar
        a explicar por que certos resultados são observados na análise quantita-
        tiva e também ser usado para explorar a “caixa preta” do que aconteceu
        no programa (Bamberger, Rao e Woolcock, 2010).
     3. Sequencial exploratória. A equipe de avaliação pode usar grupos focais,
        listagens, entrevistas com informantes-chave e outras abordagens quali-
        tativas para desenvolver hipóteses sobre como e por que o programa fun-
        cionaria e para esclarecer questões de pesquisa que precisam ser
        abordadas no trabalho de avaliação de impacto quantitativo, incluindo as
        alternativas de desenho do programa mais relevantes a ser testadas pela
        avaliação de impacto.


     Avaliação de processos

     As avaliações de processos se concentram em como um programa é imple-
     mentado e como opera, analisando se ele está de acordo com o projeto
     original e documentando seu desenvolvimento e operação. Geralmente, as
     avaliações de processos podem ser realizadas com relativa rapidez e a um
     custo acessível. Nos projetos-piloto e nos estágios iniciais de um programa,
     podem ser uma valiosa fonte de informações sobre como melhorar a
     implementação do programa e são frequentemente usadas como as pri-
     meiras etapas do desenvolvimento de um programa para que possam ser
     feitos ajustes operacionais antes que o desenho do programa seja ﬁnalizado.
     Essas avaliações podem testar se um programa está funcionando conforme
     planejado e se ele é consistente com a teoria da mudança do programa
     (boxe 1.6).
        Uma avaliação de processo deve incluir os seguintes elementos, que
     geralmente são extraídos de uma cadeia de resultados ou de um modelo
18                                                      Avaliação de Impacto na Prática
     Boxe 1.6: Orientar a expansão nacional por meio de uma
     avaliação de processo na Tanzânia
     O desempenho de um programa tem mui-            mudanças nos relacionamentos entre os
     tas facetas. As evidências das avaliações de    membros da família ou a dinâmica
     processos podem complementar os resulta-        comunitária. O objetivo da avaliação de pro-
     dos da avaliação de impacto e fornecer uma      cesso era entender como o programa ope-
     visão mais completa sobre o desempenho          rava na prática e fazer recomendações para
     do programa. Isso pode ser especialmente        melhorias.
     importante para que os programas-piloto             A avaliação de impacto constatou que o
     sejam capazes de esclarecer como as novas       programa teve impactos positivos e estatis-
     instituições e os novos processos estão         ticamente signiﬁcativos sobre os principais
     funcionando.                                    resultados nas áreas de educação e saúde.
         Em 2010, o governo da Tanzânia decidiu      As crianças das famílias participantes
     criar um projeto-piloto comunitário de trans-   tinham uma probabilidade aproximada-
     ferência condicional de renda em três           mente 15% maior de concluir o ensino fun-
     distritos. O programa ofereceu transferência    damental e 11% menor de ﬁcar doentes. Os
     de renda para famílias pobres com base no       grupos focais formados com professores
     cumprimento de certos requisitos de educa-      revelaram ainda que os alunos dos grupos
     ção e saúde. Os grupos comunitários auxilia-    de tratamento eram mais preparados e
     vam na concessão dos benefícios de forma        atentos.
     que as famílias mais vulneráveis de suas            No entanto, os grupos focais formados
     localidades recebessem a transferência de       por membros da comunidade indicaram que
     renda. Para avaliar se esse sistema comuni-     havia um nível de descontentamento com o
     tário funcionava no contexto tanzaniano, um     processo de seleção dos beneﬁciários. Os
     grupo de pesquisadores do Banco Mundial         participantes reclamaram da falta de trans-
     decidiu integrar uma avaliação de processo a    parência na seleção dos participantes e dos
     uma avaliação de impacto tradicional.           atrasos nos pagamentos. A avaliação do pro-
         A avaliação de processo utilizou dados      cesso permitiu aos gestores do programa
     qualitativos e quantitativos. Um ano após a     abordar essas questões, melhorando as
     realização da pesquisa de linha de base nos     operações da iniciativa.
     distritos-piloto, os pesquisadores organiza-        As informações proporcionadas pelo
     ram um exercício de pontuação para avaliar      trabalho de avaliação foram cruciais para a
     os aspectos do programa com base em gru-        decisão do governo tanzaniano de expan-
     pos focais constituídos por membros da          dir o programa. Espera-se que a transfe-
     comunidade. Esses grupos também foram           rência condicional de renda baseada nas
     usados para realizar discussões profundas       comunidades atinja quase 1 milhão de
     sobre os impactos do programa que podiam        lares até 2017, aproveitando as lições
     ser mais difíceis de quantiﬁcar, como as        dessa avaliação.

     Fontes: Berman 2014; Evans e outros 2014.




Por que avaliar?                                                                                    19
                         lógico (ver o capítulo 2), complementados por documentos do programa e
                         entrevistas com informantes-chave e grupos focais de beneﬁciários:6

                         • Objetivos do programa e contexto no qual o programa está operando
                         • Descrição do processo usado para conceber e implementar o programa
                         • Descrição das operações do programa, incluindo quaisquer alterações
                           nas operações
                         • Dados básicos sobre as operações do programa, incluindo indicadores
                           ﬁnanceiros e de cobertura
                         • Identiﬁcação e descrição de eventos intermediários que possam ter afe-
                           tado a implementação e os resultados
                         • Documentação, como notas conceituais, manuais de operações, atas de
                           reuniões, relatórios e memorandos.

                            A aplicação de uma avaliação de impacto a um programa cujos processos
                         operacionais não tenham sido validados apresenta o risco de que ou os
                         recursos de avaliação de impacto sejam desperdiçados, quando uma avalia-
                         ção de processo mais simples teria sido suﬁciente, ou os ajustes necessários
                         no desenho do programa sejam introduzidos após a avaliação de impacto
                         já estar em andamento, alterando, assim, a natureza do programa que está
                         sendo avaliado e a utilidade da avaliação de impacto.


                         Análises de custo-benefício e de custo-efetividade

                         É fundamental que a avaliação de impacto seja complementada com infor-
                         mações sobre o custo do projeto, da política ou do programa que está sendo
Conceitos-chave          avaliado.
A análise de                Uma vez que os resultados da avaliação de impacto estejam disponíveis,
custo-benefício estima   eles podem ser combinados com informações sobre os custos do programa
o total de benefícios
                         para responder duas perguntas adicionais. Primeiro, considerando a forma
esperados de um
programa em              básica da avaliação de impacto, adicionar informações de custo permitirá
comparação aos custos    realizar uma análise de custo-benefício que responderá à pergunta: qual é
totais esperados. A      o benefício gerado pelo programa para um dado custo? A análise de
análise de custo-        custo-benefício estima o total de benefícios esperados de um programa em
-efetividade compara o
                         comparação ao total de custos esperados. Procura quantiﬁcar, em termos
custo relativo de dois
ou mais programas ou
                         monetários, todos os custos e benefícios de um programa e avaliar se os
alternativas de          benefícios ultrapassaram os custos.
programas para              Em um mundo ideal, a análise de custo baseada em evidências de avalia-
alcançar um resultado    ção de impacto ocorreria não somente para um programa especíﬁco, mas
comum.                   também para uma série de programas ou alternativas de programa, de modo
20                                                                         Avaliação de Impacto na Prática
que os formuladores de políticas pudessem avaliar que programa ou alter-
nativa de programa teria a melhor relação custo-efetividade para alcançar
um determinado objetivo. Quando uma avaliação de impacto testa alternati-
vas de programa, a inclusão de informações de custo permite responder
uma segunda pergunta: como as várias alternativas de implementação do
programa se comparam em termos de custo-efetividade? Essa análise de
custo-efetividade compara o custo relativo de dois ou mais programas (ou
alternativas de programa) para alcançar um mesmo resultado comum, como
a produtividade agrícola ou as notas de estudantes.
   Em uma análise de custo-benefício ou custo-efetividade, a avaliação de
impacto estima o lado do benefício ou da efetividade e a análise de custo
fornece informações sobre os custos do programa. Este livro enfoca a avalia-
ção de impacto e não discute detalhadamente como coletar dados de custos
ou realizar a análise de custo-benefício ou custo-efetividade.7 Entretanto, é
fundamental que a avaliação de impacto seja complementada por informa-
ções sobre os custos do projeto, da política ou do programa que estiver sendo
avaliado. Quando as informações sobre impacto e custo estão disponíveis
para uma variedade de programas, a análise de custo-efetividade pode iden-
tiﬁcar que investimentos geram as taxas de retorno mais altas e permite que
os formuladores de políticas públicas tomem decisões bem informadas
sobre quais as intervenções nas quais devem investir. O boxe 1.7 ilustra como
as avaliações de impacto podem ser usadas para identiﬁcar os programas
com maior custo-efetividade e melhorar a alocação de recursos.




     Boxe 1.7: Estimar o custo-efetividade: comparação de avaliações
     de programas que afetam o aprendizado em escolas de ensino
     fundamental
     Ao avaliar uma série de programas com ob-     resultados de aprendizado obtidos em paí-
     jetivos semelhantes, é possível comparar      ses em desenvolvimento, Kremer, Brannen
     o custo-efetividade relativo das diferentes   e Glennerster (2013) utilizaram informa-
     abordagens para melhorar resultados,          ções sobre custos provenientes de 30 ava-
     como o aprendizado nas escolas de ensino      liações de impacto para analisar a relação
     fundamental. Para que isso seja possível,     de custo-efetividade de diferentes tipos de
     os avaliadores devem disponibilizar não       intervenções educacionais.
     apenas os resultados das avaliações de            Os autores compararam vários tipos de
     impacto, como também informações deta-        intervenções educacionais, incluindo acesso
     lhadas sobre os custos relacionados às        à educação, insumos educacionais, inovações
     intervenções. Em uma meta-análise dos         pedagógicas, responsabilização de professores

                                                                                       (continua)



Por que avaliar?                                                                                    21
     Boxe 1.7: Estimar o custo-efetividade: comparação de avaliações de programas que afetam o aprendiza-
     do em escolas de ensino fundamental (continuação)


     e gestão escolar. Investigaram, especial-               Os programas que empoderaram as
     mente, a melhoria nas notas de testes dos           comunidades locais mediante intervenções
     alunos, em termos de desvio padrão, que             de gestão escolar parecem ser os mais bem-
     poderia ser obtida com o investimento de            sucedidos e custo-efetivos, especialmente
     US$ 100 no programa. Embora seja prová-             quando essas reformas foram formalizadas.
     vel que os custos caíssem se os programas           Por exemplo, enquanto a criação e o treina-
     fossem implementados em larga escala, os            mento de comitês escolares locais na
     pesquisadores mantiveram, por coerência,            Indonésia não tiveram impacto signiﬁcativo
     os custos relatados nas avaliações.                 nos resultados dos testes, tornar esses comi-
     Descobriram que as reformas e interven-             tês mais representativos por meio de elei-
     ções pedagógicas que melhoram a presta-             ções foi altamente efetivo quanto ao custo.
     ção de contas e aumentam os incentivos                  Como ilustra o estudo de Kremer, Brannen
     aos professores tendem a apresentar maior           e Glennerster (2013), comparar avaliações de
     custo-efetividade. Por outro lado, os pes-          intervenções que têm objetivos semelhantes
     quisadores concluíram que o fornecimento            pode esclarecer a efetividade de diferentes
     de mais dos mesmos insumos sem alterar              intervenções em diferentes contextos. No
     os métodos pedagógicos nem a prestação              entanto, os pesquisadores devem reconhe-
     de contas teve impactos limitados nas pon-          cer que os contextos variam consideravel-
     tuações dos testes. Por exemplo, um pro-            mente entre programas. Ademais, continua
     grama que aumentou o número de                      sendo relativamente raro ter dados detalha-
     professores em escolas no Quênia não teve           dos sobre vários programas com medidas de
     impacto signiﬁcativo nos resultados dos             resultado, avaliações de impacto e informa-
     testes dos alunos.                                  ções sobre custos que sejam comparáveis.

     Fonte: Kremer, Brannen e Glennerster 2013.




                   Considerações éticas relativas à avaliação
                   de impacto

                   Quando a decisão de desenvolver uma avaliação de impacto é tomada, algu-
                   mas importantes questões éticas devem ser consideradas. Já se questionou
                   inclusive se a avaliação de impacto é em si mesma ética. Um ponto de par-
                   tida para esse debate é considerar a ética de investir recursos públicos subs-
                   tanciais em programas cuja eﬁcácia é desconhecida. Nesse contexto, a falta
                   de avaliação pode ser vista como não ética. As informações sobre a eﬁcácia
                   dos programas geradas pelas avaliações de impacto podem levar a um inves-
                   timento mais eﬁcaz e ético dos recursos públicos.
                      Outras considerações éticas se referem às regras usadas para selecio-
                   nar os beneﬁciários dos programas, aos métodos usados para estudar os
22                                                                             Avaliação de Impacto na Prática
participantes e à transparência na documentação dos dados, planos de
pesquisa e resultados. Essas questões são discutidas em detalhe no
capítulo 13.
   O princípio ético mais básico em uma avaliação é que a realização de
intervenções com benefícios conhecidos não deve ser negada ou adiada ape-
nas em função da avaliação. Neste livro, argumentamos que as avaliações
não devem determinar como os benefícios são alocados, mas que, em vez
disso, devem ser ajustadas a regras de seleção de programas que sejam equi-
tativas e transparentes. Nesse contexto, quaisquer preocupações éticas
sobre as regras de seleção dos programas não resultam da própria avaliação
de impacto, mas diretamente das regras operacionais do programa. O plane-
jamento das avaliações pode ser útil para esclarecer as regras operacionais
dos programas e ajudar a rever se elas são equitativas e transparentes com
base em critérios claros de elegibilidade.
   A seleção aleatória dos benefícios do programa suscita, muitas vezes,
preocupações éticas sobre a negação de benefícios a candidatos elegíveis.
No entanto, a maioria dos programas opera em contextos operacionais
com recursos ﬁnanceiros e administrativos limitados, tornando impos-
sível atingir todos os beneﬁciários elegíveis de uma só vez. Do ponto de
vista ético, todos os indivíduos que são igualmente elegíveis para parti-
cipar em qualquer tipo de programa social devem ter a mesma chance
de receber os benefícios da iniciativa. A seleção aleatória cumpre esse
requisito ético. Nas situações em que um programa será introduzido
gradualmente ao longo do tempo, o cronograma de implementação pode
ser baseado na seleção aleatória da ordem em que beneﬁciários igual-
mente merecedores receberão o programa. Nesses casos, os beneﬁciá-
rios que entram mais tarde no programa podem ser utilizados como
grupo de comparação para beneﬁciários anteriores, gerando um projeto
sólido de avaliação, bem como um método transparente e justo para a
alocação de recursos escassos.
   A ética da avaliação de impacto vai além da ética das regras de seleção dos
programas. Inclui também a ética da realização de pesquisas com seres
humanos, assim como a ética da realização de pesquisas transparentes,
objetivas e reproduzíveis, conforme é discutido no capítulo 13.
   Em muitos países e instituições internacionais, foram criados conselhos
de revisão ou comitês de ética para regulamentar pesquisas envolvendo
seres humanos. Esses conselhos são encarregados de avaliar, aprovar e
monitorar estudos de pesquisas e têm como objetivos principais proteger os
direitos e promover o bem-estar de todos os participantes. Embora as ava-
liações de impacto sejam principalmente tarefas operacionais, constituem
também estudos de pesquisa e, como tais, devem aderir às diretrizes de pes-
quisa cujo objeto de estudo sejam seres humanos.
Por que avaliar?                                                                 23
        Um componente ético igualmente importante em pesquisa é que a sua
     avaliação de impacto seja objetiva, transparente e reproduzível. Para que a
     investigação seja transparente, a avaliação de impacto pode ser incluída em
     um plano de pré-análise e submetida a um registro de estudos. Uma vez con-
     cluída a pesquisa, os dados e o código usados na análise podem ser disponi-
     bilizados publicamente para que outros possam replicar o trabalho, sempre
     atentando para a proteção do anonimato dos participantes.


     Avaliação de impacto para decisões de
     políticas públicas

     As avaliações de impacto são necessárias para orientar os formuladores
     de políticas públicas a respeito de uma série de decisões, que vão dos
     cortes em programas ineﬁcazes à ampliação das intervenções que funcio-
     nam, ao ajuste dos benefícios e à seleção entre várias alternativas de
     programas. São mais eﬁcazes quando aplicadas seletivamente para res-
     ponder a importantes questões de políticas públicas e, geralmente, se
     aplicam a programas-piloto inovadores que estão testando uma aborda-
     gem não comprovada, mas promissora. A avaliação da transferência con-
     dicional de renda no México, descrita no boxe 1.1, tornou-se inﬂuente não
     só pelo caráter inovador do programa, mas também porque forneceu evi-
     dências fortes e críveis que não podiam ser ignoradas pelas decisões polí-
     ticas subsequentes. A adoção e expansão do programa, tanto em nível
     nacional quanto internacional, foram fortemente inﬂuenciadas pelos
     resultados dessa avaliação.
        As avaliações de impacto podem ser utilizadas para explorar diferen-
     tes tipos de questões de políticas públicas. O modelo básico de uma ava-
     liação de impacto testará a efetividade de um determinado programa. Em
     outras palavras, responderá à seguinte pergunta: será que determinado
     programa ou intervenção é eﬁcaz em comparação à sua não existência?
     Conforme discutido na parte 2, a ﬁm de estimar a efetividade, esse tipo de
     avaliação de impacto se baseia em comparar um grupo de tratamento que
     recebeu a inovação, o programa ou a política com um grupo de compara-
     ção que não recebeu esse benefício. O principal desaﬁo de uma avaliação
     de impacto é construir um grupo de comparação que seja o mais seme-
     lhante possível ao grupo de tratamento. O grau de comparabilidade entre
     os grupos de tratamento e de comparação é fundamental para a validade
     interna da avaliação e, portanto, é essencial para mensurar o impacto cau-
     sal de um programa.
        As avaliações de impacto também estão sendo cada vez mais utilizadas
     para testar inovações no desenho de programas que não dispõem de um
24                                                     Avaliação de Impacto na Prática
grupo de comparação puro selecionado fora do programa. Esse tipo de
avaliação é, muitas vezes, realizado para veriﬁcar se determinada inova-
ção é capaz de aumentar a efetividade do programa ou reduzir os custos
(ver o boxe 1.8).
   As avaliações também podem ser usadas para testar a efetividade de
alternativas de implementação dos programas. Por exemplo, podem respon-
der à seguinte pergunta: quando um programa pode ser implementado de
várias maneiras, qual é a modalidade mais efetiva ou com mais custo-
efetividade? Nesse tipo de avaliação, duas ou mais abordagens ou desenhos
de um programa podem ser comparados para gerar evidências sobre qual é
a alternativa de maior custo-efetividade para alcançar um determinado
objetivo. Por exemplo, um programa pode desejar testar campanhas alter-
nativas de divulgação e selecionar um grupo para receber as informações via
correio, outro para receber visitas em casa e um terceiro para receber men-
sagens de texto (SMS) a ﬁm de avaliar qual é a melhor relação de
custo-efetividade. As avaliações de impacto que testam os tratamentos




     Boxe 1.8: Avaliar programas inovadores: a Behavioural Insights
     Team do Reino Unido
     Criada em 2010 pelo governo britânico, a        políticas nacionais, muitas vezes usando
     Behavioural Insights Team-BIT (Equipe de        dados administrativos.
     Insights Comportamentais) foi a primeira            A BIT realizou avaliações de inovações
     instituição governamental dedicada a me-        em serviços públicos baseando-se na litera-
     lhorar os serviços públicos por meio da apli-   tura da ciência comportamental. A organiza-
     cação da ciência comportamental. Entre os       ção trabalhou em conjunto com um bairro
     objetivos da organização estão o aumento        de Londres para introduzir um incentivo via
     do custo-efetividade dos serviços públicos,     loteria para aumentar o registro de eleitores
     a introdução de modelos realistas do com-       antes das eleições. Os residentes foram
     portamento humano na análise de políticas       distribuídos aleatoriamente em três grupos:
     públicas e o incentivo para que as pessoas      sem loteria, loteria com um prêmio de
     façam escolhas melhores. Com esse obje-         £ 1.000 caso se registrassem antes de
     tivo, a BIT utiliza experimentos, conjugados    determinada data, e loteria com um prêmio
     com avaliações de impacto, para testar          de £ 5.000 caso se registrassem antes da
     ideias inovadoras em políticas públicas.        mesma data. A BIT descobriu que o incen-
     Desde sua criação, a organização imple-         tivo vinculado à loteria aumentou signiﬁcati-
     mentou mais de 150 experimentos aleató-         vamente o registro de eleitores. Além
     rios em uma ampla variedade de áreas de         disso, o governo local economizou muito
                                                                                         (continua)




Por que avaliar?                                                                                      25
     Boxe 1.8: Avaliar programas inovadores: a Behavioural Insights Team do Reino Unido (continuação)

     dinheiro: antes dessa iniciativa, as autorida-          do governo na internet. A frase curta que
     des tinham criado um dispendioso sistema                obteve o melhor desempenho se baseou na
     de campanha de porta em porta para                      ideia de reciprocidade ao perguntar: se preci-
     aumentar o registro dos eleitores.                      sasse de um transplante de órgão, você teria
         Em outra avaliação inovadora, a BIT ﬁr-             um? Por isso, ajude os outros.
     mou uma parceria com o Serviço Nacional de                  A BIT é controlada e ﬁnanciada conjunta-
     Saúde e o Departamento de Saúde para ana-               mente pelo governo britânico, pela inovadora
     lisar como incentivar as pessoas, com custo-            instituição de caridade Nesta, e pelos pró-
     -efetividade, a se registrarem como doadoras            prios funcionários. O modelo se espalhou
     de órgãos. Esse foi um dos maiores experi-              além do Reino Unido. Hoje, há escritórios da
     mentos aleatórios realizado no setor público            BIT na Austrália e nos Estados Unidos. Além
     do Reino Unido. Os pesquisadores chegaram               disso, os Estados Unidos seguiram o modelo
     a resultados encorajadores a partir de uma              da BIT para estabelecer uma Iniciativa de
     intervenção que testou o uso de diferentes              Ciência Social e Comportamental na Casa
     mensagens em uma página de alto tráfego                 Branca em 2015.

     Fonte: Behavioural Insights Team, http://www.behaviouralinsights.co.uk.




                   alternativos normalmente incluem um grupo de tratamento para cada uma
                   das opções, assim como um grupo de comparação puro que não receberá
                   nenhuma intervenção do programa. Isso permite que os tomadores de deci-
                   sões escolham entre as várias alternativas de implementação, e podem ser
                   muito úteis para melhorar o desempenho dos programas e cortar custos
                   (boxe 1.9).
                      Ademais, é possível fazer comparações entre subgrupos de beneﬁciá-
                   rios de uma determinada avaliação para responder à seguinte pergunta: o
                   programa é mais efetivo para um subgrupo em comparação com outro
                   subgrupo? Por exemplo, a introdução de um novo currículo terá aumen-
                   tado mais as notas nos testes dos estudantes do sexo feminino ou do sexo
                   masculino? Esse tipo de pergunta de avaliação de impacto procura docu-
                   mentar se existe alguma heterogeneidade nos impactos do programa entre
                   os subgrupos. Essas questões devem ser consideradas logo no início do
                   processo de avaliação, pois precisam ser incorporadas ao desenho da ava-
                   liação de impacto e requerem amostras suﬁcientemente grandes para pos-
                   sibilitar a análise dos diferentes subgrupos de interesse.
                      Além das várias características de desenho já discutidas, é útil considerar
                   os canais pelos quais as avaliações de impacto afetam as políticas públicas.
                   Isso pode acontecer em um programa com relação à continuidade, à refor-
                   mulação ou ao encerramento da iniciativa. Os resultados das avaliações
26                                                                                Avaliação de Impacto na Prática
     Boxe 1.9: Avaliar alternativas de desenho de programas:
     desnutrição e desenvolvimento cognitivo na Colômbia
     No início dos anos 1970, a Human Ecology         de tratamento. Os grupos se diferenciavam
     Research Station (Estação de Pesquisa sobre      somente pela data em que começaram o
     Ecologia Humana) implementou, em colabo-         tratamento e, portanto, pela quantidade de
     ração com o Ministério da Educação da            tempo que permaneceram no programa. O
     Colômbia, um programa-piloto para enfren-        grupo 4 começou antes e foi exposto ao tra-
     tar a desnutrição infantil em Cali, fornecendo   tamento pelo período mais longo, seguido
     assistência médica e atividades educativas,      pelos grupos 3, 2 e, por último, 1. O trata-
     assim como alimentos e suplementos               mento consistia em seis horas diárias de
     nutricionais. Como parte desse piloto, uma       assistência médica e atividades educativas,
     equipe de avaliadores foi encarregada de de-     mais a ingestão de alimentos e suplementos
     terminar quanto tempo o programa deveria         nutricionais. Em intervalos regulares durante
     durar para reduzir a desnutrição entre crian-    o programa, os avaliadores usavam testes
     ças de idade pré-escolar de famílias de baixa    cognitivos para acompanhar o progresso das
     renda e se as intervenções também pode-          crianças em todos os quatro grupos.
     riam resultar em melhorias no desenvolvi-            Os avaliadores descobriram que as crian-
     mento cognitivo.                                 ças que permaneceram no programa por
         O programa foi eventualmente oferecido       mais tempo obtiveram os maiores ganhos
     para todas as famílias elegíveis, mas,           cognitivos. No teste de inteligência de
     durante o piloto, os avaliadores puderam         Stanford-Binet, que estima a idade mental
     comparar grupos semelhantes de crianças          menos a idade cronológica, as crianças do
     que receberam o tratamento com diferentes        grupo 4 obtiveram uma média de -5 meses,
     durações. Primeiramente, os avaliadores          enquanto as crianças do grupo 1 obtiveram
     usaram um processo de seleção para identi-       uma média de -15 meses.
     ﬁcar um público-alvo de 333 crianças                 Esse exemplo ilustra como os gestores
     desnutridas. Essas crianças foram, então,        de programas e formuladores de políticas
     classiﬁcadas em 20 setores de acordo com         podem usar as avaliações de tratamentos
     o bairro de residência, e cada setor foi alea-   múltiplos para determinar a forma mais efe-
     toriamente alocado a um dos quatro grupos        tiva de implementar o programa.

     Fonte: McKay e outros 1978.




de  impacto também podem fornecer informações para a expansão de
projetos-piloto, como ilustra o exemplo de Moçambique no boxe 1.2.
   As avaliações também podem disseminar evidências de um país para
outro ou ser usadas para explorar questões fundamentais, como as que se
referem ao comportamento. Aventurar-se além das fronteiras da avaliação
de um programa individual levanta a questão da possibilidade de
generalização. Conforme se verá no capítulo 4 no contexto de uma determi-
nada avaliação, a amostra da avaliação é elaborada para representar
Por que avaliar?                                                                                      27
                  estatisticamente a população de unidades elegíveis das quais se extraiu a
                  amostra, sendo, portanto, válida externamente. Além da validade externa, a
                  generalização levanta a questão se os resultados de uma avaliação realizada
                  localmente serão válidos em outros contextos e entre outros grupos
                  populacionais. Este conceito mais expansivo e ambicioso depende da acu-
                  mulação de evidências empíricas críveis em uma variedade de contextos.
                     Cada vez mais, a área de avaliação de impacto vem procurando se basear
                  no estoque crescente de avaliações com credibilidade para obter resultados
                  amplamente generalizáveis. Este esforço concentra-se em testar se uma
                  determinada teoria da mudança é válida em diferentes contextos e em
                  explorar se um programa semelhante testado em diferentes conﬁgurações e
                  ambientes produz resultados semelhantes (ver o boxe 1.10). O uso de avalia-
                  ções múltiplas para responder a perguntas centrais ou reunir evidências por
                  meio de meta-análises, revisões sistemáticas e registros de avaliação está




     Boxe 1.10: A abordagem de agrupamento na avaliação de impacto:
     gerando evidências estrategicamente para preencher lacunas de
     conhecimento
     Embora o grau de generalização de uma             conjunto de perguntas de pesquisa destinado
     única avaliação de impacto possa ser baixo,       a orientar o desenho dos programas e das
     em combinação com avaliações semelhantes          políticas no sentido de gerar avaliações de
     obtidas em diferentes contextos, os proﬁs-        impacto que contribuam para uma base de
     sionais da área de desenvolvimento econômi-       evidências conjunta. O objetivo é direcionar a
     co podem tirar conclusões mais amplamente         pesquisa e gerar evidências sobre determi-
     aplicáveis sobre o que funciona e o que não       nado tipo de intervenção ou resultados.
     funciona. Cada vez mais, as iniciativas de ava-       Dentro desses agrupamentos, as avalia-
     liação de impacto, como o Fundo Estratégico       ções são desenvolvidas para preencher as
     para a Avaliação de Impacto (SIEF), do Banco      lacunas do conjunto de evidências existente.
     Mundial, e a Avaliação de Impacto sobre o         Por exemplo, existem evidências sólidas
     Desenvolvimento (DIME), bem como a                que mostram que as crianças que recebem
     Iniciativa Internacional para a Avaliação de      uma combinação de nutrição, estimulação
     Impacto (3ie), visam fornecer aos responsá-       cognitiva e assistência médica nos primei-
     veis pelas políticas públicas insumos sobre       ros 1.000 dias de vida têm uma maior proba-
     como as intervenções podem ser mais am-           bilidade de não apresentar atrasos no
     plamente aplicadas por meio de uma aborda-        desenvolvimento. No entanto, faltam pes-
     gem de agrupamento de pesquisa.                   quisas sobre a melhor maneira de oferecer
         Em geral, os convites à apresentação de       esse benefício combinado de forma escalá-
     propostas são formulados em torno de um           vel e com custo-efetividade. O SIEF vem

                                                                                             (continua)



28                                                                          Avaliação de Impacto na Prática
     Boxe 1.10: A abordagem de agrupamento na avaliação de impacto: gerando evidências
     estrategicamente para preencher lacunas de conhecimento (continuação)

     apoiando pesquisas voltadas para essa                 veriﬁcar quais os tipos de programas que
     questão em Bangladesh, Colômbia, Índia,               funcionam em várias conﬁgurações e
     Indonésia, Madagáscar, Moçambique, Nepal              ambientes. Podem, com isso, revisar seus
     e Níger.                                              próprios desenhos de políticas e progra-
        Agrupar as avaliações em torno de um               mas armados com uma melhor compreen-
     conjunto comum de perguntas de pesquisa               são sobre os contextos em que
     e usar um conjunto básico de métricas                 determinados programas funcionaram ou
     para analisar os resultados ajuda os formu-           não, ou sobre o modo como determinados
     ladores de políticas públicas e proﬁssionais          resultados foram alcançados em vários
     da área de desenvolvimento econômico a                casos diferentes.

     Fontes: DIME (http://www.worldbank.org/dime), SIEF (http://www.worldbank.org/en/programs/sief-trust-fund)
     e 3ie (http://www.3ieimpact.org).




crescendo rapidamente e abre uma nova fronteira no trabalho de avaliação.
Se os resultados são consistentes em múltiplas conﬁgurações, isso dá aos
responsáveis pela formulação de políticas públicas uma maior conﬁança na
viabilidade dos programas em uma variedade de contextos e grupos
populacionais. Trata-se de uma consideração importante, uma vez que os
debates sobre a capacidade de replicar os resultados são fundamentais para
responder aos questionamentos sobre a efetividade e a escalabilidade de
determinado programa.


A decisão sobre realizar ou não uma avaliação
de impacto

Nem todos os programas justiﬁcam a realização de uma avaliação de
impacto. As avaliações de impacto devem ser utilizadas de forma seletiva
quando é necessário fazer uma profunda análise de causalidade. Elas podem
ser dispendiosas se você coletar seus próprios dados. Por isso, o orçamento
de avaliação deve ser usado estrategicamente. Se você está começando um
novo programa — ou pensando em expandi-lo — e está se questionando se
deve realizar uma avaliação de impacto, algumas perguntas básicas podem
ajudar nessa decisão.
   A primeira pergunta a fazer é: o que está em jogo? Será que as evidências
sobre o sucesso do programa, sua forma de implementação ou uma inova-
ção no desenho do projeto serão relevantes para a tomada de decisões
Por que avaliar?                                                                                                 29
     importantes? Frequentemente, essas decisões envolvem alocações orça-
     mentárias e a escala do programa. Se houver implicações orçamentárias
     limitadas ou se os resultados forem afetar apenas algumas pessoas, talvez
     não valha a pena fazer uma avaliação de impacto. Por exemplo, talvez não
     valha a pena realizar uma avaliação de impacto de um programa implemen-
     tado em uma pequena clínica que oferece aconselhamento a pacientes de
     hospital utilizando voluntários. Em comparação, uma reforma salarial
     implementada para a categoria dos professores, que acabaria por afetar
     todos os docentes do ensino fundamental de um país, seria um programa
     com implicações muito maiores.
        Se você determinar que há muita coisa em jogo, as próximas perguntas
     são: existe alguma evidência de que o programa funciona? Em especial, você
     sabe qual seria a magnitude do impacto do programa? Há evidências dispo-
     níveis sobre programas semelhantes em circunstâncias parecidas? Se não
     houver evidência disponível sobre o potencial do tipo de programa que está
     sendo contemplado, você pode querer começar com um piloto que incor-
     pore uma avaliação de impacto. Em contrapartida, se existirem evidências
     disponíveis sob circunstâncias semelhantes, o custo de uma avaliação de
     impacto provavelmente só será justiﬁcado se ela puder abordar alguma nova
     e importante pergunta de política pública. Esse é o caso se o seu programa
     incluir inovações importantes que ainda não foram testadas.
        Para justiﬁcar a mobilização dos recursos técnicos e ﬁnanceiros necessá-
     rios à realização de uma avaliação de impacto de alta qualidade, a interven-
     ção a ser avaliada deve ser:
     • Inovadora. Ela testará uma abordagem nova e promissora.
     • Replicável. Ela pode ser ampliada para vários grupos ou pode ser aplicada
       em uma conﬁguração ou em um ambiente diferente.
     • Estrategicamente relevante. As evidências fornecidas pela avaliação de
       impacto orientarão uma importante decisão referente à intervenção.
       Essa decisão pode estar relacionada à expansão do programa, à sua refor-
       mulação ou a alocações orçamentárias.
     • Não testada. Pouco se sabe sobre a efetividade do programa ou sobre as
       formas alternativas de desenho do programa, tanto em nível mundial
       quanto em um contexto especíﬁco.
     • Inﬂuente. Os resultados serão utilizados para fundamentar e orientar as
       decisões sobre políticas públicas.
       A pergunta ﬁnal que deve ser feita é: dispomos dos recursos necessários
     para fazer uma avaliação de impacto de qualidade? Esses recursos referem-se


30                                                     Avaliação de Impacto na Prática
a elementos técnicos, tais como dados e tempo apropriados, recursos ﬁnan-
ceiros para realizar a avaliação, bem como recursos institucionais relacio-
nados às equipes envolvidas e seu interesse e comprometimento para
coletar e usar evidências causais. Conforme será discutido mais detalhada-
mente no capítulo 12, uma equipe de avaliação é essencialmente uma par-
ceria entre dois grupos: uma equipe de formuladores de políticas públicas
e uma equipe de pesquisadores. Essas equipes precisam trabalhar pelo
objetivo comum de garantir que uma avaliação bem projetada e tecnica-
mente robusta seja implementada adequadamente e forneça resultados
relevantes para questões-chave relacionadas à formulação de políticas
públicas e ao desenho de programas. A compreensão clara da equipe de
avaliação sobre as premissas e as promessas da avaliação de impacto aju-
dará a garantir seu sucesso.
   Se você decidir que a avaliação de impacto faz sentido após levar em
conta as perguntas expostas acima, além da necessidade de examinar a cau-
salidade, as implicações associadas aos resultados e a necessidade de evi-
dências sobre o desempenho de seu programa, continue com a leitura — este
livro foi feito para você e para a sua equipe de avaliação.



Recursos adicionais

• Para acessar os materiais complementares a este capítulo e os hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (www.world-
  bank.org/ieinpractice).
• Para obter informações adicionais sobre avaliações de impacto, ver Khandker,
  Shahidur R., Gayatri B. Koolwal e Hussain Samad. 2009. Handbook on
  Quantitative Methods of Program Evaluation. Washington, DC: Banco
  Mundial.
• Para obter uma boa visão geral dos experimentos aleatórios, ver Glennerster,
  Rachel e Kudzai Takavarasha. 2013. Running Randomized Evaluations:
  A Practical Guide. Princeton, NJ: Princeton University Press.
• Outros recursos sobre experimentos aleatórios incluem:
  –  Duﬂo, Esther, Rachel Glennerster e Michael Kremer. 2007. “Using
     Randomization in Development Economics Research: A Toolkit.” CEPR
     Discussion Paper No. 6059, Center for Economic Policy Research, Londres.
  –  Duﬂo, Esther e Michael Kremer. 2008. “Use of Randomization in the
     Evaluation of Development Effectiveness.” Em vol. 7 de Evaluating
     Development Effectiveness. Washington, DC: Banco Mundial.
• Outros recursos úteis sobre avaliação de impacto incluem:
  –  Leeuw, Frans e Jos Vaessen. 2009. Impact Evaluations and Development.
     NONIE Guidance on Impact Evaluation. Washington, DC: NONIE.



Por que avaliar?                                                                 31
        –  Ravallion, Martin. 2001. “The Mystery of the Vanishing Beneﬁts: Ms.
           Speedy Analyst’s Introduction to Evaluation.” World Bank Economic Review
           15 (1): 115–40.
        –  ———. 2008. “Evaluating Anti-Poverty Programs.” Em vol. 4 de Handbook
           of Development Economics, editado por T. Paul Schultz e John Strauss.
           Amsterdã: North Holland.
        –  ———. 2009. “Evaluation in the Practice of Development.” World Bank
           Research Observer 24 (1): 29–53.




     Notas

     1. Para uma visão geral dos programas de transferência condicional de renda e do
        papel inﬂuente desempenhado pelo programa do México e sua avaliação de
        impacto, ver Fiszbein e Schady (2009).
     2. Dados administrativos são os dados rotineiramente coletados como parte da
        administração do programa e incluem informações sobre custos, registro e
        transações, geralmente como parte da prestação de serviços.
     3. Existem muitas tipologias para avaliações e questões de avaliação. Ver Berk e
        Rossi (1998) e Rossi, Lipsey e Freeman (2003).
     4. Métodos quase-experimentais são métodos de avaliação de impacto que usam
        um contrafactual, mas são diferentes dos métodos experimentais porque não se
        baseiam na seleção aleatória da intervenção. Ver a parte 2 para uma discussão
        sobre ambos os tipos de métodos.
     5. Para uma visão geral dos métodos de pesquisa qualitativa, ver Patton (1990).
     6. Adaptado do Bureau of Justice Assistance (1997, 97–98 e 102–3).
     7. Para uma discussão detalhada sobre a análise de custo-benefício, ver Zerbe e
        Dively (1994); Brent (1996); Belli e outros (2001); e Boardman e outros. (2001).




     Referências

     Ananthpur, Kripa, Kabir Malik e Vijayendra Rao. 2014. “The Anatomy of
       Failure: An Ethnography of a Randomized Trial to Deepen Democracy in
       Rural India.” Policy Research Working Paper 6958, Banco Mundial,
       Washington, DC.
     Bamberger, Michael, Vijayendra Rao e Michael Woolcock. 2010. “Using Mixed
       Methods in Monitoring and Evaluation: Experiences from International
       Development.” Policy Research Working Paper 5245, Banco Mundial,
       Washington, DC.
     Banerjee, Abhijit, Esther Duﬂo, Nathanael Goldberg, Dean Karlan, Robert Osei e
       outros. 2015. “A Multifaceted Program Causes Lasting Progress for the Very
       Poor: Evidence from Six Countries.” Science 348 (6236). doi:10.1126
       /science.1260799.


32                                                           Avaliação de Impacto na Prática
Behrman, Jere R. e John Hoddinott. 2001. “An Evaluation of the Impact of
   PROGRESA on Pre-school Child Height.” FCND Briefs 104, International
   Food Policy Research Institute, Washington, DC.
Belli, Pedro, Jock Anderson, Howard Barnum, John Dixon e Jee-Peng Tan. 2001.
   Handbook of Economic Analysis of Investment Operations. Washington, DC:
   Banco Mundial.
Berk, Richard A. e Peter Rossi. 1998. Thinking about Program Evaluation, segunda
   edição. Thousand Oaks, CA: SAGE Publications.
Berman, Daphna. 2014. “Tanzania: Can Local Communities Successfully Run Cash
   Transfer Programs?” Human Development Network, Banco Mundial,
   Washington, DC.
Boardman, Anthony, Aidan Vining, David Greenberg e David Weimer. 2001.
   Cost-Beneﬁt Analysis: Concepts and Practice. New Jersey: Prentice Hall.
Bourguignon, François, Francisco H. G. Ferreira e Phillippe G. Leite. 2003.
   “Conditional Cash Transfers, Schooling, and Child Labor: Micro-Simulating
   Brazil’s Bolsa Escola Program.” The World Bank Economic Review 17 (2):
   229–54.
BRAC (Bangladesh Rural Advancement Committee). 2013. “An End in Sight for
   Ultra-poverty.” BRAC Brieﬁng Note, novembro. http://www.brac.net/sites
   /default/ﬁles/BRAC%20Brieﬁng%20-%20TUP.pdf.
Brent, Robert. 1996. Applied Cost-Beneﬁt Analysis. Cheltenham, U.K.: Edward Elgar.
Bureau of Justice Assistance. 1997. Urban Street Gang Enforcement. Relatório
   preparado pelo Institute for Law and Justice, Inc. Washington, DC: Office of
   Justice Programs, Bureau of Justice Assistance, U.S. Department of Justice.
Creswell, John W. 2014. Research Design: Qualitative, Quantitative, and Mixed
   Methods Approaches. Thousand Oaks, CA: SAGE Publications.
Evans, David K., Stephanie Hausladen, Katrina Kosec e Natasha Reese. 2014.
   “Community-based Conditional Cash Transfers in Tanzania: Results from a
   Randomized Trial.” Banco Mundial, Washington, DC.
Fiszbein, Ariel e Norbert Schady. 2009. Conditional Cash Transfers, Reducing
   Present and Future Poverty. Policy Research Report 47603. Washington, DC:
   Banco Mundial.
Gertler, Paul J. 2004. “Do Conditional Cash Transfers Improve Child Health?
   Evidence from PROGRESA’s Control Randomized Experiment.” American
   Economic Review 94 (2): 336–41.
Glennerster, Rachel e Kudzai Takavarasha. 2013. Running Randomized Evaluations:
   A Practical Guide. Princeton, NJ: Princeton University Press.
Imas, Linda G. M. e Ray C. Rist. 2009. The Road to Results: Designing and
   Conducting Effective Development Evaluations. Washington, DC: Banco
   Mundial.
Kremer, Michael, Conner Brannen e Rachel Glennerster. 2013. “The Challenge of
   Education and Learning in the Developing World.” Science 340 (6130): 297–300.
Khandker, Shahidur, Gayatri B. Koolwal e Hussain A. Samad. 2010. Handbook on
   Impact Evaluation: Quantitative Methods and Practices. Washington, DC: Banco
   Mundial.


Por que avaliar?                                                                     33
     Levy, Santiago e Evelyne Rodríguez. 2005. Sin Herencia de Pobreza: El Programa
        Progresa-Oportunidades de México. Washington, DC: Banco Interamericano de
        Desenvolvimento.
     Martínez, Sebastián, Sophie Nadeau e Vitor Pereira, 2012. “The Promise of
        Preschool in Africa: A Randomized Impact Evaluation of Early Childhood
        Development in Rural Mozambique.” Washington, DC: Banco Mundial e Save
        the Children.
     McKay, Harrison, Arlene McKay, Leonardo Siniestra, Hernando Gomez e Pascuala
        Lloreda. 1978. “Improving Cognitive Ability in Chronically Deprived Children.”
        Science 200 (21): 270–78.
     Patton, M. Q. 1990. Qualitative Evaluation and Research Methods, segunda edição.
        Newbury Park, CA: SAGE Publications.
     Rao, Vijayendra e Michael Woolcock. 2003. “Integrating Qualitative and
        Quantitative Approaches in Program Evaluation.” Em The Impact of Economic
        Policies on Poverty and Income Distribution: Evaluation Techniques and Tools,
        editado por F. J. Bourguignon and L. Pereira da Silva, 165–90. Nova York: Oxford
        University Press.
     Rossi, Peter, Mark W. Lipsey e Howard Freeman. 2003. Evaluation: A Systematic
        Approach, sétima edição. Thousand Oaks, CA: SAGE Publications.
     Schultz, Paul. 2004. “School Subsidies for the Poor: Evaluating the Mexican
        Progresa Poverty Program.” Journal of Development Economics 74 (1): 199–250.
     Skouﬁas, Emmanuel e Bonnie McClafferty. 2001. “Is Progresa Working? Summary
        of the Results of an Evaluation by IFPRI.” International Food Policy Research
        Institute, Washington, DC.
     Todd, Petra e Kenneth Wolpin. 2006. “Using Experimental Data to Validate a
        Dynamic Behavioral Model of Child Schooling and Fertility: Assessing the
        Impact of a School Subsidy Program in Mexico.” American Economic Review
        96 (5): 1384–417.
     Zerbe, Richard e Dwight Dively. 1994. Beneﬁt Cost Analysis in Theory and Practice.
        Nova York: Harper Collins Publishing.




34                                                          Avaliação de Impacto na Prática
CAPÍTULO 2




Preparando-se para
uma avaliação

Etapas iniciais

Este capítulo deﬁne as etapas iniciais da elaboração de uma avaliação. Essas
etapas incluem a construção de uma teoria da mudança que detalhe como o
projeto deve alcançar os resultados pretendidos, o desenvolvimento de uma
cadeia de resultados como uma ferramenta útil para descrever a teoria da
mudança, a especiﬁcação da(s) pergunta(s) da pesquisa e a seleção de indi-
cadores para avaliar o desempenho.
   Essas etapas são necessárias para se preparar para uma avaliação.
É melhor adotá-las no início do programa ou da reforma que está sendo
avaliada, ainda durante o período de concepção do projeto. As etapas men-
cionadas envolvem o engajamento de uma gama de atores — dos formula-
dores de políticas públicas aos gestores dos programas — para forjar uma
visão comum sobre os objetivos do programa e sobre como eles serão
alcançados. Esse engajamento cria um consenso sobre o foco da avaliação e
as principais perguntas a ser respondidas, e fortalece as ligações entre a
avaliação, a implementação do programa e a política. A aplicação dessas
etapas confere clareza e especiﬁcidade ao processo, o que é útil tanto para
o desenvolvimento de uma boa avaliação de impacto quanto para o dese-
nho e a implementação de um programa eﬁcaz. Cada etapa é claramente
deﬁnida e articulada de acordo com o marco lógico agregado à cadeia de
                                                                               35
     resultados — da especiﬁcação precisa de metas e perguntas até a articulação
     das ideias incorporadas na teoria da mudança e a identiﬁcação dos resulta-
     dos que o programa pretende gerar. Uma deﬁnição clara dos indicadores
     especíﬁcos que serão utilizados para medir o êxito do programa é necessá-
     ria não apenas para garantir que a avaliação tenha foco, mas também para
     assegurar que o programa tenha objetivos bem deﬁnidos. Serve também
     como base para determinar a magnitude dos efeitos previstos do programa.
     Esses parâmetros são essenciais para estabelecer os elementos técnicos da
     avaliação, incluindo o tamanho da amostra necessária e os cálculos de
     poder estatístico, conforme analisado no capítulo 15.
         Na maioria das avaliações de impacto, será importante incluir uma aná-
     lise de custo-benefício ou custo-efetividade, como se viu no capítulo 1. Os
     formuladores de políticas públicas sempre estão preocupados em saber não
     apenas quais os programas ou as reformas que são eﬁcazes, mas também
     quais são os custos. Essa é uma consideração crucial para orientar as deci-
     sões quanto à possibilidade de ampliação e replicação de um programa —
     uma preocupação central para as decisões referentes a políticas públicas.


     A construção de uma teoria da mudança

     Uma teoria da mudança é a descrição de como uma intervenção é pensada
     para gerar os resultados desejados. Ela descreve a lógica causal de como e
     por que um determinado programa, uma forma de implementação do pro-
     grama ou uma inovação no desenho do programa atingirá os resultados pre-
     tendidos. Uma teoria da mudança é o alicerce-chave de qualquer avaliação
     de impacto, considerando-se que o foco da pesquisa está no binômio causa e
     efeito. Como uma das primeiras etapas de um desenho de avaliação, cons-
     truir uma teoria da mudança pode ajudar a especiﬁcar as perguntas da
     pesquisa.
        As teorias da mudança retratam uma sequência de eventos que leva aos
     resultados. Elas exploram as condições e pressupostos necessários para que
     a mudança ocorra, explicitam a lógica causal do programa e mapeiam as
     intervenções do programa ao longo de trajetórias lógico-causais. Trabalhar
     com os atores relevantes do programa para construir uma teoria da mudança
     pode clariﬁcar e melhorar o desenho do programa. Isso é especialmente
     importante nos programas que buscam inﬂuenciar o comportamento: as
     teorias da mudança podem ajudar a distinguir os insumos e as atividades da
     intervenção, os resultados que são obtidos e aqueles que decorrem das
     mudanças comportamentais esperadas dos beneﬁciários.
        O melhor momento para desenvolver uma teoria da mudança para
     um  programa é no início do processo de concepção, quando as partes
36                                                    Avaliação de Impacto na Prática
interessadas podem se reunir para desenvolver uma visão comum para o
programa, seus objetivos e o caminho para alcançá-los. As partes interessa-
das podem, então, começar a implementar o programa a partir de um enten-
dimento comum da iniciativa, de seus objetivos e de como ela funciona.
   Os proﬁssionais responsáveis pela elaboração dos programas também
devem analisar a literatura para descobrir relatos sobre experiências com
programas semelhantes e veriﬁcar os contextos e pressupostos por trás das
trajetórias causais da teoria da mudança que estão delineando. Por exemplo,
no caso do projeto realizado no México (descrito no boxe 2.1), no qual a
terra batida foi substituída por pisos de cimento, a literatura forneceu infor-
mações valiosas sobre como os parasitas são transmitidos e como a infesta-
ção parasitária leva à diarreia infantil.




     Boxe 2.1: A articulação de uma teoria da mudança: como pisos de
     cimento geraram felicidade no México
     Na avaliação do projeto Piso Firme, Cattaneo    pode ser concluído em cerca de um dia.
     e outros (2009) investigaram qual o impacto     Entre os resultados esperados da melhoria
     que as melhorias na habitação têm sobre a       do ambiente doméstico estão a limpeza,
     saúde e o bem-estar. Tanto o projeto quanto     saúde e felicidade dos moradores.
     a avaliação foram motivados por uma clara           O raciocínio por trás dessa cadeia de
     teoria da mudança.                              resultados é que os pisos de terra batida
         O objetivo do projeto Piso Firme é melho-   são um vetor para parasitas, já que é mais
     rar o padrão de vida — especialmente a          difícil mantê-los limpos. Os parasitas vivem
     saúde — de grupos vulneráveis que vivem         e se reproduzem em meio às fezes e podem
     em áreas densamente povoadas e de baixa         ser ingeridos pelos seres humanos quando
     renda no México. O programa teve início no      são trazidos para dentro de casa por animais
     norte do estado de Coahuila, e se baseou        ou pessoas. Evidências mostram que as
     em um diagnóstico conduzido pelo governo        crianças pequenas que vivem em casas
     estadual.                                       com chão de terra são mais propensas a ser
         A cadeia de resultados do programa é        infectadas por parasitas intestinais, que
     clara. Os bairros elegíveis passam por uma      podem causar diarreia e desnutrição e, mui-
     pesquisa de porta em porta e as famílias        tas vezes, prejudicam o desenvolvimento
     selecionadas recebem uma oferta de até 50       cognitivo e podem até mesmo levar à
     metros quadrados de cimento. O governo          morte. Os pisos de cimento interrompem a
     compra e entrega o cimento, e as famílias e     transmissão de infestações parasitárias.
     os voluntários da comunidade fornecem a         Eles também controlam melhor a tempera-
     mão de obra para instalar o piso. O produto     tura da casa e são esteticamente mais
     é a construção de um piso de cimento, que       agradáveis.

                                                                                         (continua)



Preparando-se para uma avaliação                                                                      37
          Boxe 2.1: A articulação de uma teoria da mudança: como pisos de cimento geraram felicidade
          no México (continuação)

             Esses resultados esperados orientaram           resultar em um melhor desenvolvimento
          as perguntas de pesquisa que Cattaneo e            cognitivo das crianças pequenas. Os pesqui-
          outros (2009) abordaram na avaliação. Eles         sadores também previram e testaram as
          levantaram a hipótese de que a substituição        melhorias no bem-estar dos adultos, con-
          dos pisos de terra por pisos de cimento            forme medido pela maior satisfação das pes-
          reduziria a incidência de diarreia, desnutrição    soas com sua situação habitacional e por
          e deﬁciência de micronutrientes. Por sua           taxas mais baixas de depressão e de
          vez, a melhoria na saúde e nutrição deveria        estresse percebido.

          Fonte: Cattaneo e outros 2009.




                         Desenvolver uma cadeia de resultados

Conceito-chave           Uma cadeia de resultados é uma maneira de descrever uma teoria da
Uma cadeia de            mudança. Outras abordagens incluem modelos teóricos, marcos lógicos,
resultados estabelece    estruturas lógicas e modelos de resultados. Cada um desses modelos inclui
a sequência de           os elementos básicos de uma teoria da mudança: uma cadeia causal, uma
insumos, atividades e
                         especiﬁcação das inﬂuências e condições externas e as principais hipóteses.
produtos cuja função é
melhorar os resultados   Neste livro, usaremos o modelo de cadeia de resultados porque acreditamos
e os resultados ﬁnais.   que esse é o modelo mais simples e mais claro para descrever a teoria da
                         mudança no contexto operacional dos programas de desenvolvimento.
                            Uma cadeia de resultados estabelece a lógica causal a partir do início do
                         programa, começando pelos recursos disponíveis, até o seu ﬁnal, analisando
                         as metas de longo prazo. Estabelece um esquema lógico e plausível para
                         explicar como uma sequência de insumos, atividades e produtos, pelos quais
                         um programa é diretamente responsável, interage com o comportamento
                         para estabelecer caminhos através dos quais os impactos são alcançados
                         (ﬁgura 2.1). Uma cadeia de resultados básica mapeia os seguintes elementos:
                         • Insumos. Os recursos à disposição do projeto, incluindo pessoal e
                           orçamento.
                         • Atividades. As ações adotadas ou o trabalho realizado para converter
                           insumos em produtos.
                         • Produtos. Os bens tangíveis e os serviços que as atividades do projeto pro-
                           duzem. Eles estão diretamente sob o controle da agência responsável
                           pela implementação.
                         • Resultados. Os resultados que são provavelmente obtidos após a popula-
                           ção beneﬁciária utilizar os produtos do projeto. São geralmente
38                                                                                   Avaliação de Impacto na Prática
Figura 2.1        Os elementos de uma cadeia de resultados


                                                                                  RESULTADOS
   INSUMOS              ATIVIDADES          PRODUTOS          RESULTADOS             FINAIS



     Recursos          Ações tomadas         Produtos                              Os objetivos
   financeiros,          ou trabalho      resultantes da         Uso dos            finais dos
    humanos,            desenvolvido      conversão de        produtos pelo        programas.
  entre outros,        para converter      insumos em         público-alvo.
  mobilizados             insumos            produtos
   para apoiar          em produtos          tangíveis.                           Metas de longo
  as atividades          específicos.                                                 prazo.




    Orçamento,           Série de        Bens e serviços          Não está         Mudanças nos
  pessoal e outros      atividades         produzidos e        completamente         resultados
     recursos         desenvolvidas     distribuídos, sob o   sob o controle da     afetados por
    disponíveis        para produzir        controle da          agência de       múltiplos fatores.
                      bens e serviços       agência de         implementação.
                                         implementação.



             Implementação (LADO DA OFERTA)                   Resultados (DEMANDA+OFERTA)




   alcançados no curto e médio prazo e, normalmente, não estão direta-
   mente sob o controle da agência responsável pela implementação.
• Resultados ﬁnais. Os resultados ﬁnais alcançados indicam se os objeti-
  vos do projeto foram cumpridos. Podem, normalmente, ser inﬂuencia-
  dos por múltiplos fatores e são alcançados após um período de tempo
  mais longo.
   A cadeia de resultados abrange a implementação e os resultados.
A  implementação diz respeito ao trabalho realizado pelo projeto,
incluindo insumos, atividades e produtos. Essas são as áreas sob a res-
ponsabilidade direta do projeto, sendo geralmente monitoradas para
veriﬁcar se a iniciativa está entregando os bens e serviços conforme pre-
visto. Os resultados consistem na soma dos resultados e dos resultados
ﬁnais, que não estão sob o controle direto do projeto e dependem das
mudanças comportamentais adotadas pelos beneﬁciários do programa.
Em outras palavras: dependem da interação entre o lado da oferta
(implementação) e o lado da demanda (beneﬁciários). Essas são, em
geral, as áreas sujeitas à avaliação de impacto utilizada para medir a
efetividade.
   Uma boa cadeia de resultados ajudará a expor as hipóteses e riscos implíci-
tos na teoria da mudança. Os formuladores de políticas públicas estão em
melhor posição para articular a lógica causal e as hipóteses nas quais ela se
Preparando-se para uma avaliação                                                                       39
     baseia — assim como para detectar os riscos que podem afetar a obtenção
     dos resultados pretendidos. A equipe que conduz a avaliação deve se infor-
     mar sobre essas hipóteses e riscos implícitos mediante consultas com os for-
     muladores de políticas públicas. Uma boa cadeia de resultados também se
     referirá a evidências encontradas na literatura sobre o desempenho de pro-
     gramas semelhantes.
         As cadeias de resultados são úteis para todos os projetos, independen-
     temente de incluírem ou não uma avaliação de impacto, pois permitem
     que os formuladores de políticas públicas e gestores de programas tornem
     explícitos os objetivos do programa, ajudando, dessa forma, a esclarecer
     a  lógica causal e a sequência de eventos por trás de um programa.
     Adicionalmente, elas podem identiﬁcar lacunas e elos fracos do desenho
     do programa, ajudando, dessa forma, a melhorá-lo. As cadeias de resulta-
     dos ainda facilitam o monitoramento e a avaliação ao tornar claro quais as
     informações que precisam ser monitoradas ao longo de cada elo da cadeia
     para acompanhar a implementação do programa e quais os indicadores de
     resultados que precisam ser incluídos na avaliação.


     Especiﬁcar as perguntas de avaliação

     Uma pergunta de avaliação clara é o ponto de partida para qualquer avalia-
     ção eﬁcaz. A formulação de uma pergunta de avaliação concentra a ativi-
     dade de pesquisa para assegurar que a avaliação seja feita sob medida para
     satisfazer o interesse da política em questão. No caso de uma avaliação de
     impacto, ela precisa ser estruturada como uma hipótese testável. A avaliação
     de impacto gera, então, evidências críveis para responder a essa pergunta.
     Conforme já foi mencionado, a pergunta básica da avaliação de impacto é:
     qual é o impacto (ou efeito causal) de um programa sobre um resultado de
     interesse? O foco está no impacto, isto é, nas mudanças diretamente atribuí-
     veis a um programa, a uma forma de implementação do programa ou a uma
     inovação no desenho.
        A pergunta de avaliação deve ser guiada pelo interesse central da política
     em questão. Conforme discutido no capítulo 1, as avaliações de impacto
     podem explorar uma variedade de questões. Num primeiro momento, a
     equipe de avaliação deve esclarecer qual a pergunta a ser respondida e utili-
     zar a teoria da mudança antes de analisar como a avaliação será conduzida.
        Tradicionalmente, as avaliações de impacto se concentram no impacto
     de um programa já completamente implementado nos resultados ﬁnais, em
     contraposição aos resultados observados em um grupo de comparação que
     não se beneﬁciou do programa. Com a expansão do uso de avaliações de
     impacto, a equipe de avaliação pode se questionar: a pergunta principal da
40                                                      Avaliação de Impacto na Prática
avaliação deve ser aquela “clássica” sobre a eﬁcácia de determinado pro-
grama para modiﬁcar os resultados ﬁnais? Ou ela deve testar se uma forma
de implementação do programa tem maior custo-efetividade do que outra?
Ou deve ser a respeito da introdução de uma inovação no desenho do pro-
grama cujo objetivo é mudar o comportamento, como, por exemplo, taxa de
matrículas? De forma criativa, a avaliação de impacto vem introduzindo
novas abordagens para tratar questões de interesse político em várias disci-
plinas (ver o boxe 2.2).




     Boxe 2.2: Avaliação de mecanismo
     Uma avaliação de mecanismo é uma avalia-        e barracas que vendem frutas e verduras
     ção de impacto que testa um determinado         frescas e outros alimentos nutritivos. Você
     mecanismo causal na teoria da mudança.          acredita que essa baixa oferta pode estar
     Digamos que tenha sido identiﬁcado um           contribuindo para a obesidade, e que é pos-
     problema e um possível programa que             sível remediar a situação oferecendo subsí-
     possa resolvê-lo. Você está pensando em         dios para que os verdureiros estabeleçam
     formular uma avaliação para testar a efetivi-   mais pontos de venda. Uma cadeia de resul-
     dade do programa. A sua avaliação deveria       tados simples é apresentada abaixo (ver
     testar diretamente o impacto do programa?       ﬁgura B2.2.1).
     Uma corrente recente de pensamento argu-            O enfoque de uma avaliação de programa
     menta que esse tipo de avaliação de progra-     seria testar o impacto de subsídios a verdu-
     ma pode não ser a melhor abordagem ini-         reiros em um conjunto de bairros pobres.
     cial, e que em alguns casos é preferível não    Uma avaliação de mecanismo, por sua vez,
     realizar uma avaliação direta do impacto,       poderia testar mais diretamente alguns pres-
     mas simplesmente testar alguns dos pres-        supostos subjacentes ao programa, como,
     supostos ou mecanismos subjacentes à in-        por exemplo, a seguinte hipótese: se os
     tervenção. As avaliações de mecanismo não       moradores de bairros pobres tiverem mais
     testam diretamente o impacto de um pro-         acesso a alimentos nutritivos, o consumo
     grama, mas um mecanismo causal subja-           desses alimentos aumentará. Uma forma
     cente à escolha do programa.                    de testar essa premissa seria distribuir uma
         Por exemplo, você pode estar preocu-        cesta semanal grátis de frutas e verduras a
     pado com o fato de que as pessoas que           um grupo de moradores e comparar a inges-
     vivem em bairros pobres de uma cidade têm       tão desses alimentos com a dos moradores
     taxas de obesidade mais altas do que as         que não receberem a cesta grátis. Se não se
     pessoas que vivem em bairros mais aﬂuen-        notar diferença no consumo de frutas e ver-
     tes da mesma cidade. Depois de fazer uma        duras com essa avaliação de mecanismo, é
     pesquisa, você observou que os bairros          pouco provável que a concessão de subsí-
     pobres contam com menos mercados                dios a verdureiros venha a ter um impacto

                                                                                        (continua)



Preparando-se para uma avaliação                                                                     41
     Boxe 2.2: Avaliação de mecanismo (continuação)

     Figura B2.2.1 Identiﬁcar um mecanismo de experimento a partir de uma cadeia de
     resultados mais longa


                                                                                                      RESULTADOS
         INSUMOS               ATIVIDADES            PRODUTOS                RESULTADOS
                                                                                                         FINAIS




        • Fundos.           • Subsídios a        • Maior número de        • Moradores de bairros   • Menor prevalência
                              verdureiros.         mercados/barracas        pobres ingerem           de obesidade entre
                                                   que vendem frutas e      alimentos mais           moradores de
                                                   verduras.                nutritivos.              bairros pobres.
                                                 • Maior oferta de
                                                   alimentos nutritivos
                                                   em bairros pobres.

                                                                            Resultados (LADO DA DEMANDA +
                    Implementação (LADO DA OFERTA)
                                                                                    LADO DA OFERTA)




     signiﬁcativo, porque um dos mecanismos                   de moradores. As cestas grátis de alimentos,
     causais subjacentes não funciona.                        por outro lado, seriam muito mais baratas,
        Uma avaliação de mecanismo deveria nor-               sendo suﬁciente entregá-las a umas poucas
     malmente ser mais barata para implementar                centenas de famílias. Mesmo que a avaliação
     do que uma avaliação completa do programa,               de mecanismo demonstre que funciona,
     porque pode ser realizada em escala menor.               ainda assim seria necessário realizar uma ava-
     No exemplo da obesidade, seria bastante                  liação para saber se a concessão de subsídios
     caro conceder subsídios a verdureiros em                 é uma forma efetiva de disponibilizar frutas e
     muitos bairros e pesquisar um grande número              verduras a moradores de bairros pobres.

     Fonte: Ludwig, Kling e Mullainathan 2011.




                       Em uma avaliação de impacto, a pergunta de avaliação precisa ser formu-
                    lada como uma hipótese bem deﬁnida e testável. A pergunta deve ser formu-
                    lada de tal forma que se possa quantiﬁcar a diferença dos resultados obtidos
                    entre os grupos de tratamento e de comparação. A cadeia de resultados pode
                    ser usada como base para formular a hipótese que se quer testar usando a
                    avaliação de impacto. Conforme ilustrado no boxe 2.2, frequentemente
                    existe mais de uma hipótese associada ao programa, mas nem todas podem
                    ou devem ser exploradas em uma avaliação de impacto. No exemplo do cur-
                    rículo de matemática do boxe 2.3, a pergunta de avaliação foi extraída de
                    elementos fundamentais da teoria da mudança e formulada como uma


42                                                                                      Avaliação de Impacto na Prática
     Boxe 2.3: Uma reforma do currículo de matemática no ensino
     médio: formular uma cadeia de resultados e uma pergunta
     de avaliação
     Imagine que o Ministério da Educação do                    • As atividades do programa consistem em
     país A está pensando em introduzir um novo                   elaborar o novo currículo de matemática,
     currículo de matemática para o ensino                        desenvolver um programa de formação
     médio. Esse currículo é desenhado para ser                   de professores, oferecer treinamento aos
     mais intuitivo para professores e alunos,                    professores e encomendar, imprimir e
     melhorar o desempenho dos alunos em tes-                     distribuir novos livros didáticos.
     tes padronizados de matemática e, em últi-
                                                                • Os produtos são o número de professo-
     ma instância, aumentar a taxa de conclusão
                                                                  res capacitados, o número de livros didá-
     do ensino médio e de acesso a melhores
                                                                  ticos entregues nas salas de aula e a
     empregos.
                                                                  elaboração de testes padronizados para o
         A cadeia de resultados a seguir descreve
                                                                  novo currículo.
     a teoria da mudança para o programa.
                                                                • Os resultados de curto prazo consistem
     • Os insumos incluem pessoal do
                                                                  na utilização dos novos métodos e dos
       Ministério da Educação para liderar a
                                                                  livros didáticos pelos professores em suas
       reforma, professores de matemática do
                                                                  aulas e na aplicação dos novos testes.
       ensino médio, um orçamento para desen-
       volver o novo currículo de matemática e                  • Os resultados de médio prazo são
       as instalações municipais onde os profes-                  as melhorias no desempenho dos alunos
       sores de matemática serão treinados.                       nos testes padronizados de matemática.

     Figura B2.3.1 Uma cadeia de resultados para a reforma do currículo de matemática
     do ensino médio


                                                                                                         RESULTADOS
         INSUMOS                 ATIVIDADES              PRODUTOS              RESULTADOS
                                                                                                            FINAIS




       • Recursos             • Desenho do novo    • 5.000 professores   • Professores utilizando   • Taxas de conclusão
         financeiros para o     currículo.           de matemática de      os livros didáticos e      mais elevadas.
         novo programa        • Formação dos         ensino médio          o novo currículo na      • Maiores salários.
         de matemática.         professores.         formados.             sala de aula.            • Maiores taxas de
       • Pessoal do           • Desenvolvimento,   • 100.000 livros      • Alunos seguindo o          emprego.
         Ministério da          impressão,           didáticos             currículo.
         Educação,              distribuição de      distribuídos nas    • Desempenho melhor
         professores de         novos livros         salas de aula.        dos alunos nos
         ensino médio.          didáticos.                                 exames de
       • Instalações de                                                    matemática.
         formação.


                     Implementação (LADO DA OFERTA)                            Resultados (DEMANDA+OFERTA)




                                                                                                               (continua)



Preparando-se para uma avaliação                                                                                            43
     Boxe 2.3: Uma reforma do currículo de matemática no ensino médio: formular uma cadeia de
     resultados e uma pergunta de avaliação (continuação)

     • Os resultados ﬁnais são o aumento das                • Se a implementação for realizada con-
       taxas de conclusão do ensino médio e,                  forme o planejado, os resultados dos tes-
       posteriormente, taxas de emprego mais                  tes de matemática aumentarão, em
       altas e maiores salários para os alunos                média, cinco pontos.
       formados.                                            • O desempenho em matemática durante o
     Há várias hipóteses subjacentes à teoria da              ensino médio inﬂuencia as taxas de con-
     mudança:                                                 clusão do ensino médio, as perspectivas
     • Os professores treinados utilizam o novo               de emprego e a renda futura dos alunos.
       currículo de maneira eﬁcaz.                             A principal pergunta de avaliação formu-
     • Se os professores forem capacitados e                lada pela equipe de avaliação, composta
       os livros didáticos forem distribuídos, o            pelos formuladores de políticas públicas do
       conteúdo será aplicado e os alunos                   Ministério da Educação e pelos pesquisadores
       seguirão o currículo.                                envolvidos na avaliação da efetividade do pro-
     • O novo currículo é superior ao antigo na             grama, é: qual é o efeito do novo currículo de
       função de transmitir os conhecimentos                matemática nas notas dos testes? Esta ques-
       em matemática.                                       tão vai ao cerne do interesse da política pública
                                                            em relação à eﬁcácia do novo currículo.




                            O Programa de Subsídio ao Seguro Saúde (HISP):
                            uma introdução

                    O Programa de Subsídio ao Seguro Saúde (HISP) é o caso ﬁctício de um
                    governo que empreende uma reforma de larga escala no setor de saúde.
                    O caso será utilizado ao longo deste livro para ilustrar diversos aspectos
                    e discutir várias questões relacionadas à avaliação de impacto. O site de
                    Avaliação de Impacto na Prática (www.worldbank.org/ieinpractice) con-
                    tém respostas para perguntas referentes ao estudo de caso HISP, além de
                    uma base de dados, a programação de análise empírica pelo software do
                    Stata e um complemento técnico on-line que fornece um tratamento
                    mais formal para a análise de dados.
                       O objetivo ﬁnal do HISP é melhorar a saúde da população do país.
                    O inovador — e potencialmente dispendioso — HISP está sendo introdu-
                    zido como um programa-piloto. A preocupação do governo é que as famí-
                    lias pobres que vivem na zona rural não conseguem arcar com os custos
                    da assistência médica básica, o que gera consequências negativas para a
                    sua saúde. Para resolver essa questão, o HISP subsidia um seguro saúde
                    para as famílias rurais pobres, cobrindo as despesas relacionadas aos

44                                                                                 Avaliação de Impacto na Prática
 Figura 2.2 A cadeia de resultados do HISP


                                                                                                     RESULTADOS
    INSUMOS                ATIVIDADES               PRODUTOS                 RESULTADOS
                                                                                                        FINAIS




 • Orçamento para o   • Desenho dos            • Instalações de saúde     • Número e porcentagem • Melhoria dos
   programa-piloto      benefícios e da          em 100 povoados-           de famílias elegíveis     resultados de
   HISP.                operação do HISP.        piloto rurais que          inscritas no primeiro ano saúde.
 • Rede de            • Capacitação de pessoal participam do              • Gastos menores com
   instalações de       em clínicas rurais nos   programa.                  saúde para famílias
   saúde.               povoados-piloto.       • Campanha para              rurais pobres.
 • Pessoal nas        • Criação de sistemas de alcançar 4.959             • Maior acesso a atenção
   secretarias de       pagamentos e gestão      famílias elegíveis nos     básica de saúde.
   saúde do governo     de informações.          povoados-piloto.         • Satisfação com o
   central e local.   • Lançamento do HISP                                  programa HISP.
                        em 100 povoados-
                        piloto rurais.
                      • Campanha de
                        informação e
                        educação.
                                                                             Resultados (LADO DA DEMANDA +
              Implementação (LADO DA OFERTA)
                                                                                     LADO DA OFERTA)




 cuidados básicos de saúde e medicamentos. O objetivo principal do HISP
 é reduzir o custo da assistência médica para as famílias pobres e, em
 última instância, melhorar a sua condição de saúde. Os formuladores de
 políticas públicas estão considerando a expansão do HISP para cobrir
 todo o país, o que custaria centenas de milhões de dólares.
    A cadeia de resultados do HISP é apresentada na ﬁgura 2.2. As hipóte-
 ses relacionadas à reforma do HISP pressupõem o seguinte: que as famí-
 lias se inscreverão no programa quando ele for oferecido; que a inscrição
 no programa reduzirá as despesas diretas das famílias com saúde; que os
 custos são fatores que restringem o acesso das populações das zonas
 rurais a assistência médica e a medicamentos; e que os gastos diretos com
 saúde são um dos principais fatores que determinam a situação de
 pobreza e as más condições de saúde dessas famílias.
    A principal pergunta de avaliação é: qual é o impacto do HISP sobre as
 despesas diretas com saúde das famílias pobres? Ao longo do livro e no
 material on-line, responderemos várias vezes essa mesma pergunta de
 avaliação para o HISP, utilizando diferentes abordagens metodológicas.
 Veremos que respostas diferentes — e, às vezes, conﬂitantes — emergirão,
 dependendo da metodologia de avaliação usada.


hipótese clara, testável e quantiﬁcável: qual é o efeito de um novo currículo
de matemática sobre as notas dos testes dos alunos? No exemplo que aplica-
remos ao longo do livro, o Programa de Subsídio ao Seguro de Saúde (Health
Insurance Subsidy Program–HISP), a pergunta de avaliação é: qual o efeito
do HISP sobre as despesas diretas com saúde das famílias pobres?
Preparando-se para uma avaliação                                                                                      45
                           Seleção de indicadores de resultado e
                           desempenho

Conceito-chave             Uma pergunta clara de avaliação deve ser acompanhada da especiﬁcação
Os bons indicadores        dos indicadores ou das variáveis de resultado que serão utilizados para ava-
são especíﬁcos,            liar os impactos do programa. Os indicadores de resultado selecionados
mensuráveis,               serão usados para determinar se certo programa ou reforma é bem-suce-
atribuíveis, realistas e
                           dido ou não. Serão também importantes na aplicação de cálculos de poder
direcionados.
                           estatístico que são empregados para determinar o tamanho das amostras
                           necessárias para a avaliação, conforme discutido no capítulo 15.
                              Uma vez selecionados os principais indicadores de interesse, é necessá-
                           rio estabelecer objetivos claros para o programa. Essa etapa equivale a
                           determinar o efeito esperado sobre os principais indicadores de resultados
                           já escolhidos. O tamanho dos efeitos consiste na magnitude das mudanças
                           esperadas pelo programa ou pela reforma, por exemplo, a variação nas notas
                           dos testes dos alunos ou a taxa de aceitação de um novo tipo de apólice de
                           seguro. O tamanho dos efeitos esperados é a base para a realização dos
                           cálculos de poder estatístico.
                              É fundamental que a equipe de avaliação (pesquisadores e gestores)
                           esteja de acordo tanto sobre os indicadores de resultados de interesse
                           quanto sobre o tamanho dos efeitos previstos da intervenção (para obter
                           mais informações sobre a equipe de avaliação, ver o capítulo 12). Esses são
                           os indicadores que serão utilizados para avaliar o sucesso do programa e
                           formar a base para os cálculos de poder estatístico. As avaliações de impacto
                           podem gerar estimativas inadequadas dos impactos porque as amostras
                           não são suﬁcientemente grandes para detectar as mudanças provocadas
                           pelo programa (diz-se que as amostras têm “baixo poder”). O  tamanho
                           mínimo dos efeitos esperados deve ser especiﬁcado para estabelecer crité-
                           rios básicos que permitirão determinar se a intervenção foi bem-sucedida.
                           Quando há dados disponíveis, podem ser realizadas simulações ex-ante
                           para comparar diferentes cenários que auxiliarão na deﬁnição do tamanho
                           dos efeitos esperados para uma série de indicadores. As simulações ex-ante
                           também podem ser usadas para analisar estimativas iniciais de custo-bene-
                           fício ou custo-efetividade e para comparar intervenções alternativas capa-
                           zes de gerar as mudanças esperadas nos indicadores de interesse.
                              Uma cadeia de resultados claramente articulada fornece um roteiro útil
                           para selecionar os indicadores que serão empregados ao longo da cadeia.
                           Entre esses indicadores estão aqueles a ser utilizados tanto para monitorar
                           a execução do programa quanto para avaliar os seus impactos. Cabe enfati-
                           zar novamente a importância de envolver na seleção desses indicadores as
                           partes interessadas do programa, tanto a equipe de gestores quanto a de

46                                                                            Avaliação de Impacto na Prática
pesquisadores, para assegurar que aqueles que forem selecionados repre-
sentarão boas medidas de desempenho do programa. Uma regra geral
amplamente utilizada para garantir que os indicadores utilizados consti-
tuam boas medidas de desempenho é resumida pelo acrônimo SMART
(em inglês). Os indicadores devem ser:
• Especíﬁcos (speciﬁc): para medir as informações necessárias com a maior
  acurácia possível
• Mensuráveis (measurable): para garantir que as informações sejam facil-
  mente obtidas
• Atribuíveis (attributable): para garantir que cada medida esteja vinculada
  às dimensões embutidas no programa
• Realistas (realistic): para garantir que os dados possam ser obtidos em
  tempo hábil, com frequência e custo razoáveis
• Direcionados (targeted): para a população-alvo do programa.
   Ao escolher os indicadores, lembre-se que é importante identiﬁcá-los ao
longo de toda a cadeia de resultados, e não apenas no nível dos impactos,
de modo que se possa rastrear a lógica causal de quaisquer resultados do pro-
grama que venham a ser observados. Em avaliações de implementação que
foquem em testar duas ou mais alternativas de desenho da intervenção, os
resultados de interesse podem ocorrer mais cedo na cadeia de resultados,
como um produto gerado pelo programa ou um resultado intermediário.
Mesmo que se esteja interessado apenas em medidas dos impactos dos progra-
mas, ainda assim é importante monitorar os indicadores de implementação, de
forma a permitir que se determine se as intervenções foram realizadas con-
forme o planejado, se atingiram os beneﬁciários desejados e se foram imple-
mentadas no tempo pretendido. Sem demarcar esses indicadores ao longo da
cadeia de resultados, a avaliação de impacto corre o risco de produzir uma
“caixa preta” que identiﬁcará se os resultados previstos se concretizaram ou
não, mas não será capaz de explicar o porquê dos resultados obtidos.



Lista de veriﬁcação: obter dados para seus
indicadores

Para fazer uma lista de veriﬁcação ﬁnal após a seleção dos indicadores, é útil
considerar as providências que devem ser tomadas para obter os dados que
serão utilizados para medir esses indicadores. Na parte 4 do livro, há uma
discussão completa sobre como obter dados para a avaliação do

Preparando-se para uma avaliação                                                 47
     seu programa. A lista de veriﬁcação abaixo cobre as providências práticas
     necessárias para garantir que se possa gerar cada um dos indicadores de
     maneira conﬁável e em tempo hábil (adaptado de PNUD 2009):
     ¸ Os indicadores (produtos e resultados) estão claramente especiﬁcados?
       Eles devem ser extraídos das principais perguntas de avaliação e devem
       ser consistentes com a documentação do desenho do programa e com a
       cadeia de resultados.
     ¸ Os indicadores são SMART (especíﬁcos, mensuráveis, atribuíveis, realis-
       tas e direcionados)?
     ¸ Qual é a fonte de dados de cada um dos indicadores? É necessário que
       haja clareza quanto à fonte a partir da qual os dados serão obtidos, como
       uma pesquisa domiciliar ou dados administrativos.
     ¸ Com que frequência os dados serão coletados? Inclua um cronograma
       para essa atividade.
     ¸ Quem é o responsável pela coleta dos dados? Deﬁna quem é o responsá-
       vel pela organização da coleta de dados, pela veriﬁcação da fonte e quali-
       dade dos dados e pela garantia do cumprimento dos padrões éticos.
     ¸ Quem é o responsável pela análise e elaboração de relatórios? Especiﬁque
       a frequência e o método de análise e a responsabilidade pela produção de
       relatórios.
     ¸ Que recursos são necessários para gerar os dados? Assegure que os recur-
       sos necessários (inclusive humanos) estejam bem deﬁnidos e comprome-
       tidos em gerar os dados. Esta geralmente é a parte mais dispendiosa de
       uma avaliação quando há coleta de dados primários.
     ¸ Existe documentação apropriada? Estabeleça planos para deﬁnir como
       os dados serão documentados, incluindo a utilização de um arquivo de
       registro e a garantia de anonimato.
     ¸ Quais são os riscos envolvidos? Considere todos os riscos e hipóteses no
       momento da realização das atividades planejadas de monitoramento e
       avaliação e leve em conta como elas podem afetar o cronograma e a qua-
       lidade dos dados e dos indicadores.


     Recursos adicionais

     • Para acessar os materiais complementares a este capítulo e hiperlinks com
       recursos adicionais, consulte o site Avaliação de Impacto na Prática (www
       .worldbank.org/ieinpractice).
48                                                       Avaliação de Impacto na Prática
• Uma ﬁgura sobre a teoria da mudança, um quadro da cadeia de resultados e
  exemplos de indicadores para ﬁnanciamentos de projetos baseados em resul-
  tados são disponibilizados no Módulo 1 da Impact Evaluation Toolkit (www
  .worldbank.org/health/impactevaluationtoolkit), do Banco Mundial.
• Uma boa revisão sobre as teorias da mudança pode ser encontrada em Imas,
  Linda G. M. e Ray C. Rist. 2009. The Road to Results: Designing and Conducting
  Effective Development Evaluations. Washington, DC: Banco Mundial.
• Para discussões sobre como selecionar indicadores de desempenho, consulte:
  –  Imas, Linda G. M. e Ray C. Rist. 2009. The Road to Results: Designing and
     Conducting Effective Development Evaluations. Washington, DC: Banco
     Mundial.
  –  Kusek, Jody Zall e Ray C. Rist. 2004. Ten Steps to a Results-Based
     Monitoring and Evaluation System. Washington, DC: Banco Mundial.



Referências

Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastián Martínez e Rocio
   Titiunik. 2009. “Housing, Health and Happiness.” American Economic Journal:
   Economic Policy 1 (1): 75–105.
Imas, Linda G. M. e Ray C. Rist. 2009. The Road to Results: Designing and
   Conducting Effective Development Evaluations. Washington, DC: Banco
   Mundial.
Kusek, Jody Zall e Ray C. Rist. 2004. Ten Steps to a Results-Based Monitoring and
   Evaluation System. Washington, DC: Banco Mundial.
Ludwig, Jens, Jeffrey R. Kling e Sendhil Mullainathan. 2011. “Mechanism
   Experiments and Policy Evaluations.” Journal of Economic Perspectives 25 (3):
   17–38.
PNUD (Programa de Desenvolvimento das Nações Unidas). 2009. Handbook on
   Planning, Monitoring and Evaluating for Development Results. Nova York: UNDP.




Preparando-se para uma avaliação                                                    49
Parte 2

COMO AVALIAR


A parte 2 deste livro explica o que as avaliações de impacto fazem, que per-
guntas elas respondem, que métodos estão disponíveis para realizá-las e as
vantagens e desvantagens de cada um deles. A abordagem para a avaliação de
impacto preconizada neste livro favorece a seleção do método mais rigoroso
compatível com as características operacionais de um programa. O menu de
opções de avaliação de impacto discutido aqui inclui os métodos de seleção
aleatória, variáveis instrumentais, regressão descontínua, diferença em diferen-
ças e pareamento. Todas essas abordagens compartilham o objetivo comum
de criar grupos de comparação válidos para que os verdadeiros impactos de um
programa possam ser estimados.

Iniciamos o capítulo 3 introduzindo o conceito de contrafactual como o ponto
crucial de qualquer avaliação de impacto, explicando as propriedades que a
sua estimativa deve ter e fornecendo exemplos de estimativas inválidas ou fal-
sas do contrafactual. Em seguida, os capítulos 4 a 8 discutem cada metodolo-
gia: a seleção aleatória no capítulo 4; as variáveis instrumentais no capítulo 5;
o método de regressão descontínua no capítulo 6; o de diferença em dife-
renças no capítulo 7; e o pareamento no capítulo 8. Analisamos como e por
que cada método pode produzir uma estimativa válida do contrafactual, em
que contexto de política pública cada método pode ser implementado e as
principais limitações de cada um deles. Ilustramos o uso de cada um com
exemplos especíﬁcos do mundo real relacionados a avaliações de impacto que
empregaram esses métodos, bem como o estudo de caso do Programa de
Subsídio ao Seguro Saúde (HISP), que foi introduzido no capítulo 2. No capí-
tulo 9, discutimos como lidar com os problemas que podem surgir durante
a implementação, reconhecendo que as avaliações de impacto muitas vezes
não são implementadas exatamente conforme o planejado. Nesse contexto,
analisamos os desaﬁos mais comuns, entre os quais o cumprimento parcial,
as externalidades e a atrição, e fornecemos orientação sobre como lidar com
essas questões. O capítulo 10 conclui com orientações sobre avaliações de
programas multifacetados, especialmente aqueles com diferentes níveis de
tratamento e múltiplos tipos de tratamento.

Na parte 2, você terá a chance de aplicar métodos e testar sua compreensão
usando o estudo de caso do HISP  . Lembre-se que a pergunta-chave de avaliação
para os formuladores de políticas do HISP é: qual o impacto do Programa de
Subsídio ao Seguro Saúde sobre as despesas diretas com assistência médica
das famílias pobres? Usaremos a base de dados do HISP para ilustrar cada
método de avaliação e tentar responder essa pergunta. Parta do princípio que
os dados já foram organizados corretamente para eliminar quaisquer proble-
mas relacionados a eles. O livro fornecerá os resultados da análise para que
você interprete. Mais especiﬁcamente, sua tarefa será determinar por que a
estimativa sobre o impacto do HISP muda com a utilização de cada método e
decidir que resultados são suﬁcientemente conﬁáveis para servir de justiﬁcativa
para (ou contra) a expansão do HISP  . As soluções dos problemas são forneci-
das no site Avaliação de Impacto na Prática (www.worldbank.org/ieinpractice).
Se estiver interessado em replicar a análise, também encontrará a base de
dados, a programação pelo software Stata e um complemento técnico on-line
que fornece um tratamento mais formal para a análise de dados nesse site.

A parte 3 começa com uma explicação sobre como utilizar as regras de opera-
ção do programa — a saber, os recursos disponíveis, os critérios de seleção dos
beneﬁciários e o timing da implementação — para a seleção de um método de
avaliação de impacto. Um arcabouço simples é apresentado para determinar
qual das metodologias de avaliação de impacto apresentadas na parte 2 é a
mais adequada para um determinado programa, dependendo de suas regras
operacionais.
CAPÍTULO 3




Inferência causal e
contrafactuais

Inferência causal

Começamos examinando dois conceitos que são parte integrante do
processo de realização de avaliações de impacto rigorosas e conﬁáveis —
a inferência causal e os contrafactuais.
   Muitas questões políticas envolvem relações de causa e efeito: a capacita-
ção dos professores melhora as notas dos alunos nas provas? Os programas
de transferência condicional de renda geram melhores resultados de saúde
para as crianças? Os programas de formação proﬁssional aumentam a renda
dos participantes?
   As avaliações de impacto buscam responder esse tipo de pergunta de
causa e efeito com rigor cientíﬁco. Avaliar o impacto de um programa sobre
um conjunto de variáveis de resultado é o equivalente a avaliar o efeito
                                                                                Conceito-chave
causal do programa sobre essas variáveis. A pergunta básica de avaliação de
                                                                                As avaliações de
impacto constitui essencialmente um problema de inferência causal.1             impacto determinam
   Embora questões de causa e efeito sejam comuns, respondê-las de forma        até que ponto um
rigorosa é uma tarefa desaﬁadora. No contexto de um programa de formação        programa — e
proﬁssional, por exemplo, simplesmente observar que a renda de um aluno         somente esse
aumentou depois de ele ter concluído o programa não é suﬁciente para esta-      programa — causou
                                                                                uma mudança em uma
belecer a causalidade. Mesmo que o participante não tivesse feito o treina-
                                                                                variável de resultado.
mento, sua renda poderia ter aumentado devido a seus próprios esforços, à
                                                                                                   53
     mudança nas condições do mercado de trabalho ou por causa de muitos
     outros fatores que podem afetar a renda das pessoas. As avaliações de impacto
     nos ajudam a superar o desaﬁo de estabelecer a causalidade ao deﬁnirmos
     empiricamente até que ponto um determinado programa — e somente esse
     programa — contribuiu para a mudança de um resultado. Para estabelecer a
     causalidade entre um programa e uma variável de resultado, usamos méto-
     dos de avaliação de impacto para descartar a possibilidade de que qualquer
     outro fator além do programa de interesse explique o impacto observado.
        A resposta à pergunta básica de avaliação de impacto — qual é o impacto
     ou efeito causal de um programa (P) sobre uma variável de resultado de
     interesse (Y )? — é dada pela fórmula básica de avaliação de impacto:

                               Δ = (Y | P = 1) − (Y | P = 0).

        Essa fórmula estabelece que o impacto causal (Δ) de um programa (P)
     sobre uma variável de resultado (Y ) é a diferença entre o resultado (Y ) com
     o emprego do programa (ou seja, quando P = 1) e o mesmo resultado (Y ) sem
     a presença do programa (isto é, quando P = 0).
        Por exemplo, se P denota um programa de formação proﬁssional e Y sig-
     niﬁca a renda, então o impacto causal do programa de formação proﬁssional
     (Δ) é a diferença entre a renda de uma pessoa (Y ) depois de participar do
     programa de formação proﬁssional (ou seja, quando P = 1) e a renda dessa
     pessoa (Y) no mesmo momento caso ela não tivesse participado do pro-
     grama (ou seja, quando P = 0). Dito de outra forma, gostaríamos de medir a
     renda no mesmo ponto no tempo para a mesma unidade de observação
     (uma pessoa, neste caso), mas em dois estados diferentes do mundo ou da
     realidade. Se fosse possível fazer isso, estaríamos observando quanta renda
     o mesmo indivíduo teria tido no mesmo ponto no tempo com e sem o pro-
     grama, de modo que a única explicação possível para qualquer diferença de
     renda dessa pessoa seria o programa. Ao comparar o mesmo indivíduo com
     ele mesmo no mesmo momento, teríamos conseguido eliminar quaisquer
     fatores externos que também pudessem explicar a diferença nos resultados.
     Dessa maneira, poderíamos conﬁar que a relação entre o programa de for-
     mação proﬁssional e a mudança de renda é causal.
        A fórmula básica de avaliação de impacto é válida para qualquer unidade
     que esteja sendo analisada — uma pessoa, uma família, uma comunidade,
     uma empresa, uma escola, um hospital ou outra unidade de observação que
     possa receber ou ser afetada por um programa. A fórmula também é válida
     para qualquer variável de resultado (Y ) relacionada ao programa em
     questão. Após medirmos os dois componentes básicos dessa fórmula — a
     variável Y tanto com o programa quanto sem ele –, poderemos responder a
     qualquer pergunta sobre o impacto do programa.

54                                                              Avaliação de Impacto na Prática
O contrafactual

Conforme já foi discutido, podemos pensar no impacto (Δ) de um programa
como a diferença de resultados (Y ) para a mesma unidade (pessoa, família,
comunidade, etc.) com e sem participação em um programa. No entanto,
sabemos que medir a mesma unidade em dois estados diferentes ao mesmo
tempo é impossível. Em qualquer momento analisado, uma unidade ou par-
ticipou do programa ou não participou. A unidade não pode ser observada
simultaneamente em dois estados diferentes (em outras palavras, com e sem
o programa). Isso é chamado de problema do contrafactual: como podemos
medir o que teria acontecido se outro estado tivesse prevalecido? Embora
possamos observar e medir o resultado (Y) para um participante do pro-
grama (Y | P = 1), não existem dados para estabelecer qual seria o resultado
na ausência do programa (Y | P = 0). Na fórmula básica de avaliação de
impacto, o termo (Y | P = 0) representa o contrafactual. Podemos pensar nisso   Conceito-chave
como o que teria acontecido com o resultado se uma pessoa ou unidade de         O contrafactual
                                                                                é o que teria
observação não tivesse participado do programa.
                                                                                acontecido — qual
   Por exemplo, imagine que o “sr. Azarado” tomou uma pílula e morreu           teria sido o resultado
cinco dias depois. Só porque o sr. Azarado morreu depois de tomar a             (Y ) para um
pílula, não se pode concluir que a pílula causou a sua morte. Talvez ele        participante
estivesse muito doente quando tomou a pílula, e a doença tenha sido a           do programa — na
causadora da morte, não a pílula. Inferir causalidade exigirá que você des-     ausência do
                                                                                programa (P ).
carte outros fatores potenciais que poderiam afetar o resultado em
questão. Nesse simples exemplo usado para determinar se tomar a pílula
causou a morte do sr. Azarado, um avaliador precisaria estabelecer o que
teria acontecido ao sr. Azarado se ele não tivesse tomado a pílula. Mas,
como o sr. Azarado realmente tomou a pílula, não é possível observar
diretamente o que teria acontecido se ele não tivesse feito isso. O que teria
acontecido com ele se ele não tivesse tomado a pílula é o contrafactual.
Para identiﬁcar o impacto da pílula, o principal desaﬁo do avaliador é
determinar como seria o estado contrafactual do mundo para o Sr. Azarado
(ver o boxe 3.1 para um outro exemplo).
   Ao realizar uma avaliação de impacto, é relativamente fácil obter o pri-
meiro termo da fórmula básica (Y | P = 1) — ou seja, o resultado com a reali-
zação de um programa (também conhecido como resultado para os tratados).
Simplesmente medimos o resultado de interesse para o participante do
                                                                                Conceito-chave
programa. No entanto, não podemos observar diretamente o segundo termo
                                                                                Como não somos
da fórmula (Y | P = 0) para o participante. Precisamos obter essa lacuna de
                                                                                capazes de observar
informação estimando o contrafactual.                                           diretamente o
   Para nos ajudar a entender o conceito-chave de estimar o contrafactual,      contrafactual,
recorremos a outro exemplo hipotético. Seria possível resolver o problema       precisamos estimá-lo.


Inferência causal e contrafactuais                                                                  55
     Boxe 3.1: O problema do contrafactual: a jovem Única e o
     programa de transferência de renda
     A “jovem Única” é uma menina recém-                Infelizmente, no entanto, é impossível
     nascida cuja mãe recebe a oferta de uma        observar a jovem Única com e sem o pro-
     transferência mensal de renda desde que        grama de transferência de renda: ou sua
     ela garanta que a criança fará exames de       família cumpre as condições (exames, vaci-
     saúde regulares no posto de saúde local,       nas, monitoramento do crescimento) e
     que será vacinada e que seu crescimento        recebe a transferência de renda, ou não. Em
     será monitorado. O governo acredita que a      outras palavras, não podemos observar qual
     transferência de renda motivará a mãe da       é o contrafactual. Como a mãe da jovem
     jovem Única a procurar os serviços de saúde    Única realmente cumpriu as condições exi-
     exigidos pelo programa e a ajudará a crescer   gidas e recebeu a transferência de renda,
     saudável e alcançar uma boa estatura. Para a   não podemos saber qual seria a altura da
     avaliação de impacto da transferência de       jovem Única caso sua mãe não tivesse rece-
     renda, o governo selecionou a altura como      bido a transferência de renda.
     um indicador de resultado de saúde no              Encontrar uma comparação adequada
     longo prazo.                                   para a jovem Única será um desaﬁo justa-
         Suponha que seja possível medir a altura   mente porque ela é única. Seu histórico
     da jovem Única aos 3 anos de idade.            socioeconômico, seus atributos genéticos e
     Idealmente, para avaliar o impacto do pro-     suas características pessoais e familiares
     grama, você deveria medir a altura da jovem    exatos não podem ser encontrados em mais
     Única aos 3 anos de idade, tendo sua mãe       ninguém. Se fôssemos simplesmente com-
     recebido a transferência de renda, e tam-      parar a jovem Única com uma criança que
     bém deveria medir a altura dela aos 3 anos     não esteja inscrita no programa de transfe-
     sem que sua mãe tivesse recebido a trans-      rência de renda — como, digamos, o “jovem
     ferência de renda. Em seguida, você com-       Inimitável” —, a comparação poderia não ser
     pararia as duas medições de altura para        adequada. A jovem Única com certeza não é
     estabelecer o impacto. Se fosse possível       idêntica ao jovem Inimitável. Eles provavel-
     comparar a altura da jovem Única aos 3         mente não têm a mesma aparência, não
     anos com o programa e sua altura aos 3         vivem no mesmo lugar, não têm os mesmos
     anos sem o programa, saberíamos que            pais e podem não ter apresentado a mesma
     qualquer diferença em termos de altura         altura ao nascer. Portanto, se observarmos
     teria sido causada apenas pelo programa de     que o jovem Inimitável é mais baixo do que a
     transferência de renda. Como todas as          jovem Única aos 3 anos de idade, não sere-
     outras circunstâncias relacionadas à jovem     mos capazes de saber se essa diferença se
     Única seriam as mesmas, não haveria            deve ao programa de transferência de renda
     outras características que pudessem expli-     ou a uma das muitas outras diferenças que
     car a diferença de altura.                     existem entre essas duas crianças.




56                                                                      Avaliação de Impacto na Prática
Figura 3.1    O clone perfeito

               Beneﬁciário                                       Clone




                 6 doces                                                 4 doces


                                     Impacto = 6 – 4 = 2 doces




contrafactual se o avaliador pudesse encontrar um “clone perfeito” para
um participante do programa (ﬁgura 3.1). Por exemplo, digamos que o sr.
Fulano de Tal começou a receber US$ 12 de mesada e queremos medir o
impacto desse tratamento em seu consumo de doces. Se se pudesse identi-
ﬁcar um clone perfeito para o sr. Fulano de Tal, a avaliação seria fácil: bas-
taria comparar o número de doces comidos por ele (digamos, seis) depois
de receber o dinheiro com o número de doces comidos por seu clone (diga-
mos, quatro), que não recebeu nenhuma mesada. Neste caso, o impacto do
dinheiro recebido seria de dois doces: a diferença entre o número de doces
consumidos sob tratamento (seis) e o número de doces consumidos sem o
tratamento (quatro). Na realidade, sabemos que é impossível identiﬁcar
clones perfeitos: mesmo entre gêmeos geneticamente idênticos existem
diferenças importantes.


Como estimar o contrafactual

A chave para estimar o contrafactual para os participantes de um programa
é passar do nível individual ou da unidade de observação para o nível
de  grupo. Embora não exista um clone perfeito para uma única unidade,
podemos fazer uso de propriedades da estatística para gerar dois grupos de
unidades que, caso seus tamanhos sejam grandes o suﬁciente, serão estatis-
ticamente indistinguíveis um do outro. O grupo que participa do programa
Inferência causal e contrafactuais                                                 57
                        é conhecido como o grupo de tratamento, e seu resultado será (Y | P = 1) após
                        ter participado do programa. O grupo de comparação (às vezes chamado de
                        grupo de controle), estatisticamente idêntico, é o grupo que não será afetado
                        pelo programa e nos permitirá estimar o resultado contrafactual (Y | P = 0),
                        ou seja, o resultado que teria prevalecido para o grupo de tratamento caso
                        ele não tivesse recebido o programa.
                           Assim, na prática, o desaﬁo de uma avaliação de impacto é identiﬁcar um
                        grupo de tratamento e um grupo de comparação que sejam estatisticamente
                        idênticos, em média, na ausência do programa. Se os dois grupos forem
                        idênticos, sendo que a única diferença entre eles é que um grupo participa
                        do programa e o outro não, poderemos ter certeza de que qualquer dife-
                        rença observada nos resultados deve ser atribuída ao programa. Encontrar
                        tais grupos de comparação é a tarefa crucial de qualquer avaliação de
                        impacto, independentemente do tipo de programa que esteja sendo avaliado.
                        Simpliﬁcando: sem um grupo de comparação que produza uma estimativa
                        válida do contrafactual, o verdadeiro impacto de um programa não pode ser
Conceito-chave          estabelecido.
Sem um grupo de            Dessa maneira, o principal desaﬁo para identiﬁcar impactos é encontrar
comparação que          um grupo de comparação válido que tenha as mesmas características do
produza uma             grupo de tratamento na ausência de um programa. Especiﬁcamente, os gru-
estimativa válida do
                        pos de tratamento e de comparação devem ser iguais em pelo menos três
contrafactual, o
verdadeiro impacto de   quesitos.
um programa não pode       Em primeiro lugar, as características médias do grupo de tratamento e do
ser estabelecido.       grupo de comparação devem ser idênticas na ausência do programa.2
                        Embora não seja necessário que as unidades individuais do grupo de trata-
                        mento tenham clones perfeitos no grupo de comparação, em média as carac-
                        terísticas dos grupos de tratamento e de comparação devem ser as mesmas.
                        Por exemplo, a idade média das unidades do grupo de tratamento deve ser a
                        mesma que a do grupo de comparação.
                           Em segundo lugar, o tratamento não deve afetar o grupo de comparação
                        direta ou indiretamente. No exemplo da mesada, o grupo de tratamento não
                        deve transferir recursos para o grupo de comparação (efeito direto) ou afe-
                        tar o preço dos doces nos mercados locais (efeito indireto). Por exemplo, se
                        quisermos isolar o impacto da mesada no consumo de doces, o grupo de
                        tratamento também não deve ser estimulado a realizar mais idas à loja de
                        doces do que o grupo de comparação. Caso contrário, não será possível dis-
                        tinguir se o consumo adicional de doces se deve ao dinheiro extra ou às visi-
                        tas extras à loja.
                           Em terceiro lugar, os resultados das unidades do grupo de controle
                        deveriam mudar da mesma maneira que os resultados do grupo de trata-
                        mento se ambos os grupos recebessem o programa (ou não). Nesse sentido,
                        os grupos de tratamento e de comparação deveriam reagir ao programa da
58                                                                         Avaliação de Impacto na Prática
mesma maneira. Por exemplo, se a renda das pessoas do grupo de trata-
mento aumentou em US$ 100 graças a um programa de treinamento, então
a renda das pessoas do grupo de comparação também teria aumentado em                 Conceito-chave
US$ 100 caso elas tivessem recebido treinamento.                                     Um grupo de
   Quando essas três condições são satisfeitas, apenas a existência do pro-          comparação válido (1)
grama de interesse explicará quaisquer diferenças na variável de resultado           tem as mesmas
                                                                                     características, em
(Y) entre os dois grupos. Isso porque a única diferença entre os grupos de
                                                                                     média, que o grupo de
tratamento e de comparação é o fato de que os membros do grupo de trata-             tratamento na ausência
mento recebem o programa, enquanto os membros do grupo de compara-                   do programa, (2) não é
ção, não. Quando a diferença de resultados pode ser inteiramente atribuída           afetado pelo programa,
ao programa, o impacto causal do programa foi identiﬁcado.                           e (3) reagiria ao
   Voltando ao caso do sr. Fulano de Tal, vimos que, para estimar o impacto          programa da mesma
                                                                                     forma que o grupo de
do dinheiro recebido em seu consumo de doces, teríamos que cumprir a
                                                                                     tratamento caso
tarefa implausível de encontrar o seu clone. Em vez de analisar o impacto            recebesse o programa.
apenas para um indivíduo, é mais realista analisar o impacto médio para um
grupo de indivíduos (ﬁgura 3.2). Caso seja possível identiﬁcar outro grupo
de indivíduos que compartilhe a mesma idade média, composição de gênero,
nível educacional, preferência por doces e assim por diante, mas que não
receba dinheiro adicional, então se conseguiria estimar o impacto de rece-
ber o dinheiro extra. Esse impacto seria simplesmente a diferença entre o
consumo médio de doces nos dois grupos. Assim, se o grupo de tratamento
consome uma média de 6 doces por pessoa, enquanto o grupo de compara-
ção consome uma média de 4, o impacto médio do dinheiro extra no con-
sumo de doces seria de 2 doces.


Figura 3.2    Um grupo de comparação válido


Tratamento                                                              Comparação




              Y médio = 6 doces                         Y médio = 4 doces


                                 Impacto = 6 – 4 = 2 doces


Inferência causal e contrafactuais                                                                      59
Conceito-chave               Após deﬁnir um grupo de comparação válido, é importante considerar o
Quando o grupo de         que aconteceria se decidíssemos realizar uma avaliação de impacto sem
comparação não            encontrar esse grupo. Intuitivamente, um grupo de comparação inválido é
fornece o verdadeiro
                          aquele que difere do grupo de tratamento de alguma forma que não ape-
contrafactual, o
impacto estimado do
                          nas a ausência do tratamento. Essas diferenças adicionais podem fazer com
programa será inválido.   que a estimativa do impacto seja inválida ou, em termos estatísticos, envie-
Em termos estatísticos,   sada: a avaliação do impacto não estimará o verdadeiro impacto do
a estimativa do           programa. Em vez disso, ela estimará o efeito do programa combinado com
impacto será              essas outras diferenças.
enviesada.



                          Duas estimativas falsas do contrafactual

                          No restante da parte 2 deste livro, vamos discutir os vários métodos que
                          podem ser usados para criar grupos de comparação válidos que permitirão
                          estimar o contrafactual. Antes disso, no entanto, é útil discutir dois métodos
                          comuns, mas altamente arriscados, de criação de grupos de comparação que
                          muitas vezes levam a estimativas inadequadas (falsas) do contrafactual:
                          • As comparações antes e depois (também conhecidas como comparações
                            pré-pós ou reﬂexivas) comparam os resultados do mesmo grupo antes e
                            depois de sua participação em um programa.
                          • As comparações inscrito e não inscrito (ou autosselecionadas) comparam
                            os resultados de um grupo que opta por participar de um programa com
                            os de um grupo que escolhe não participar.



                          Estimativa contrafactual falsa 1: comparar os resultados antes e
                          depois de um programa

                          Uma comparação antes e depois tenta estimar o impacto de um programa
                          acompanhando as mudanças nos resultados para os participantes do pro-
                          grama ao longo do tempo. Voltando à fórmula básica de avaliação de impacto,
                          o resultado para o grupo de tratamento (Y | P = 1) é simplesmente o resul-
                          tado após sua participação no programa. No entanto, as comparações antes
                          e depois tomam o contrafactual estimado (Y | P = 0) como o resultado para o
                          grupo de tratamento antes de a intervenção ter começado. Essencialmente,
                          esta comparação pressupõe que, se o programa nunca tivesse existido, o
                          resultado (Y) para os participantes do programa teria sido exatamente o
                          mesmo que a sua situação antes do programa. Infelizmente, para a maioria
                          dos programas implementados ao longo do tempo, essa suposição simples-
                          mente não se sustenta.
60                                                                            Avaliação de Impacto na Prática
   Considere-se a avaliação de um programa de microcrédito para agricul-
tores rurais pobres. O programa fornece microcrédito aos agricultores para
que eles possam comprar fertilizantes para aumentar sua produção de
arroz. Observa-se que, no ano anterior ao início do programa, os agriculto-
res colheram uma média de 1.000 quilogramas (kg) de arroz por hectare
(ponto B na ﬁgura 3.3). O programa de microcrédito é lançado e, um ano
depois, a produção de arroz aumentou para 1.100 kg por hectare (ponto A na
ﬁgura 3.3). Se você estivesse tentando avaliar o impacto desse programa
usando uma comparação antes e depois, tomaria o resultado da linha de
base como uma estimativa do contrafactual. Ao aplicar a fórmula básica de
avaliação de impacto, você concluiria que o programa aumentou a produção
de arroz em 100 kg por hectare (A-B).
   No entanto, imagine que o regime de chuvas foi normal no ano anterior
ao lançamento do programa, mas uma seca ocorreu no ano em que o pro-
grama teve início. Devido à seca, a produtividade média dos agricultores
sem o esquema de microcrédito provavelmente seria menor do que B:
digamos que ela ﬁcaria no nível D. Nesse caso, o verdadeiro impacto do
programa seria A-D, que é maior do que os 100  kg estimados usando a



Figura 3.3                                   Estimativas antes e depois de um programa de microcrédito




                                     1,100                                                          A
Produção de arroz (kg por hectare)




                                                             Variação observada

                                                                              Contrafactual C       C?   Δ = 100




                                                                      Contrafactual B
                                     1,000                                                          B




                                                                  Contrafactual D
                                                                                                    D?

                                                   Ano 0                                        Ano 1

Observação: Δ = mudança na produção de arroz (kg); ha = hectares; kg = quilogramas.

Inferência causal e contrafactuais                                                                                 61
     comparação antes e depois. Ao contrário, se as chuvas tivessem melhorado
     entre os dois anos, a produção de arroz contrafactual poderia ter alcançado
     o nível C. Nesse caso, o verdadeiro impacto do programa teria sido inferior
     a 100 kg. Em outras palavras, a menos que nossa avaliação de impacto seja
     capaz de explicar o nível de precipitação e todos os outros fatores que
     podem afetar a produção de arroz ao longo do tempo, simplesmente não
     podemos calcular o verdadeiro impacto do programa fazendo uma compa-
     ração antes e depois.
        No exemplo anterior de microcrédito, o nível de chuvas era um dos inú-
     meros fatores externos que podiam afetar o resultado de interesse do
     programa (produtividade do arroz) ao longo do tempo. Da mesma forma,




            Avaliar o impacto do HISP: uma comparação dos
            resultados antes e depois

      Lembre-se que o Programa de Subsídio ao Seguro Saúde (HISP) é um
      novo programa a ser lançado em seu país que subsidia a compra de seguro
      de saúde para as famílias pobres das zonas rurais, e que esse seguro cobre
      as despesas relacionadas a assistência médica e aquisição de medicamen-
      tos para os inscritos no programa. O objetivo do HISP é reduzir a quantia
      que as famílias pobres gastam com cuidados primários de saúde e medi-
      camentos e visa, em última instância, melhorar a situação de saúde das
      famílias. Embora muitos indicadores de resultados possam ser conside-
      rados para a avaliação do programa, o governo de seu país está particular-
      mente interessado em analisar os efeitos do HISP sobre as despesas
      anuais com saúde per capita das famílias (que doravante serão chamadas
      simplesmente de despesas com saúde).
         O HISP representará uma boa parcela do orçamento público nacional
      caso o programa seja ampliado para todo o país — segundo algumas esti-
      mativas, até 1,5% do produto interno bruto (PIB). Além disso, existem
      complexidades administrativas e logísticas consideráveis na gestão de um
      programa dessa natureza. Por essas razões, o alto escalão do governo deci-
      diu introduzir o HISP primeiramente como um programa-piloto e, depois,
      dependendo dos resultados da primeira fase, expandi-lo gradualmente ao
      longo do tempo. Com base nos resultados das análises ﬁnanceiras e de
      custo-benefício, as autoridades governamentais anunciaram que, para
      que o HISP seja viável e possa ser estendido ao país como um todo, o pro-
      grama deverá reduzir as despesas com saúde das famílias rurais pobres
      em pelo menos US$  10, em média, em comparação ao que elas teriam
      gasto na ausência do programa, e terá que fazê-lo dentro de dois anos.

62                                                     Avaliação de Impacto na Prática
    O HISP será implantado em 100 povoados rurais durante a fase piloto
 inicial. Pouco antes do início do programa, o governo contratará uma
 empresa especializada em pesquisa de campo para realizar um levanta-
 mento de linha de base de todos os 4.959 domicílios desses povoados.
 A  pesquisa coletará informações detalhadas sobre cada família,
 incluindo sua composição demográﬁca, os ativos que possui, o acesso a
 assistência médica e despesas com saúde no ano anterior. Pouco depois
 da realização do levantamento da linha de base, o HISP será lançado
 nos 100  povoados-piloto com ampla divulgação, que incluirá eventos
 comunitários e outras campanhas promocionais para estimular as famí-
 lias a se inscrever no programa.
    Dos 4.959 domicílios da amostra de linha de base, 2.907 se inscre-
 veram no HISP, e o programa operará com sucesso pelos próximos
 dois anos. Todas as clínicas de saúde e farmácias dos 100 povoados
 aceitaram atender os beneﬁciários desse programa de seguro saúde, e
 as pesquisas mostrarão que a maioria das famílias registradas está
 satisfeita com o programa. Ao ﬁnal do período-piloto de dois anos,
 uma segunda rodada de dados será coletada para a mesma amostra de
 4.959 domicílios.3
    O presidente e o ministro da Saúde nomearam você como responsá-
 vel por supervisionar a avaliação de impacto do HISP e por recomendar
 ou não a ampliação do programa para todo o território nacional. Sua
 pergunta de interesse para a avaliação de impacto é: qual é o impacto do
 Programa de Subsídio ao Seguro Saúde sobre as despesas com saúde
 das famílias pobres? Lembre-se de que há muito em jogo. Caso se deter-
 mine que o HISP ajudou a reduzir as despesas com assistência médica
 em US$  10 ou mais, o programa será expandido nacionalmente. Se o
 programa não atingir a meta de US$  10, você não recomendará sua
 ampliação.
    O primeiro consultor “especialista” que você contratou indica que,
 para estimar o impacto do HISP, você deve calcular a mudança nos
 gastos com assistência médica ao longo do tempo para as famílias que
 se inscreveram no programa. O consultor argumenta que, como o HISP
 cobre todos os gastos com assistência médica, qualquer diminuição
 nas despesas ao longo do tempo deve ser atribuível ao efeito do HISP.
 Utilizando o subconjunto de famílias inscritas, você calcula a média
 das suas despesas médicas antes da implementação do programa e faz
 o mesmo cálculo dois anos depois. Em outras palavras, você realiza
 uma comparação do tipo antes e depois. Os resultados são apresenta-
 dos no quadro 3.1. Observe que o grupo de tratamento reduziu seus
 gastos diretos com assistência médica em US$ 6,65, tendo passado de

Inferência causal e contrafactuais                                          63
     Quadro 3.1 Avaliar o HISP: comparação antes e depois

                                       Depois       Antes    Diferença     Estatística-t
      Despesas com saúde
      das famílias (US$)                 7,84       14,49    −6,65**         −39,76

      Observação: Nível de signiﬁcância: ** = 1%.

     US$ 14,49 antes da introdução do HISP para US$ 7,84 dois anos depois.
     Conforme indicado pelo valor da estatística t, a diferença entre as des-
     pesas com saúde antes e depois do programa é estatisticamente
     signiﬁcativa.4 Isso signiﬁca que você encontra fortes evidências contra
     a hipótese de que a verdadeira diferença entre as despesas de antes e
     depois da intervenção é zero.
        Mesmo que a comparação antes e depois diga respeito ao mesmo
     grupo de famílias, você está preocupado com a possibilidade de que
     outras circunstâncias também possam ter mudado para essas famílias
     nos últimos dois anos, afetando seus gastos com saúde. Por exemplo, uma
     série de novos medicamentos foi lançada recentemente. Você também
     está preocupado com a possibilidade de a redução nos gastos com saúde
     ter decorrido, pelo menos em parte, da crise ﬁnanceira que seu país pas-
     sou recentemente. Para resolver algumas dessas questões, seu consultor
     realiza uma análise de regressão mais soﬁsticada na tentativa de contro-
     lar para alguns fatores adicionais.
        A análise de regressão é uma ferramenta estatística para estudar as
     relações entre uma variável dependente (a variável a ser explicada) e
     variáveis explicativas. Os resultados aparecem no quadro 3.2. A regressão
     linear é a forma mais simples: a variável dependente é representada pelas
     despesas com saúde, e há apenas uma variável explicativa: um indicador
     binário (0-1) que assume o valor 0 se a observação se referir a informa-
     ções coletadas na linha de base ou 1 se a observação corresponder ao
     período pós-intervenção.
        Uma regressão linear multivariada acrescenta variáveis explicativas
     para controlar ou manter constantes outras características observadas nas
     famílias de sua amostra, incluindo indicadores de riqueza (ativos), com-
     posição familiar, etc.5
        Observe que o resultado da regressão linear é equivalente à diferença
     simples de antes e depois das despesas médias com saúde observadas no
     quadro 3.1 (uma redução de US$ 6,65 nos gastos com saúde). Ao usar a
     regressão linear multivariada para controlar para outros fatores disponí-
     veis em seus dados, você encontra um resultado semelhante — uma dimi-
     nuição de US$ 6,71 nos gastos com saúde.

64                                                          Avaliação de Impacto na Prática
  Quadro 3.2 Avaliar o HISP: antes e depois com análise de regressão

                                 Regressão linear        Regressão linear multivariada
   Impacto estimado nas
   despesas com saúde                 −6,65**                          −6,71**
   das famílias (em US$)                (0,23)                           (0,23)

  Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.


       Perguntas 1 sobre o HISP

 A. A comparação antes e depois consegue controlar para todos os fatores
    que afetam os gastos com saúde ao longo do tempo?
 B. Com base nos resultados da análise antes e depois, o HISP deve ser
    ampliado para todo o país?




muitos dos resultados que os programas de desenvolvimento socioeconô-
mico visam melhorar, como renda, produtividade, saúde ou educação,
são afetados por uma série de fatores ao longo do tempo. Por essa razão,
o  resultado da linha de base quase nunca é uma boa estimativa do
contrafactual. É por isso que consideramos esse resultado uma estimativa
falsa do contrafactual.


Estimativa contrafactual falsa 2: comparar os grupos inscritos e
não inscritos (autosselecionados)

Comparar um grupo de indivíduos que se inscreveu voluntariamente
em um programa com um grupo de indivíduos que optou por não parti-
cipar é outro método arriscado para avaliar o impacto de uma
intervenção. Um grupo de comparação que se autosseleciona para não
participar de um programa fornecerá outra estimativa falsa do contra-
factual desejado. A seleção ocorre quando a participação no programa é
baseada nas preferências, decisões ou características não observadas
dos participantes potenciais.
   Considere, por exemplo, um programa de formação proﬁssional para
jovens desempregados. Suponha que, dois anos após o lançamento do pro-
grama, uma avaliação tenta estimar o impacto da intervenção sobre a renda
ao comparar os rendimentos médios de um grupo de jovens que optou por
se inscrever no programa com os de um grupo de jovens que, apesar de
elegíveis, escolheram não se inscrever. Suponha que os resultados mos-
tram que os jovens que optaram por se inscrever no programa ganham o
Inferência causal e contrafactuais                                                       65
                         dobro daqueles que optaram por não se inscrever. Como esses resultados
                         deveriam ser interpretados? Neste caso, o contrafactual é estimado com
                         base na renda dos indivíduos que decidiram não se inscrever no programa.
                         No entanto, é provável que os dois grupos sejam fundamentalmente
                         diferentes. Aqueles indivíduos que optaram por participar do programa
                         podem ser altamente motivados para melhorar sua condição de vida e
                         esperar um elevado retorno do treinamento. Em contrapartida, aqueles
                         que optaram por não se inscrever podem ser jovens desestimulados que
                         não esperam se beneﬁciar desse tipo de programa. É provável que esses
                         dois grupos se desempenhassem de forma muito diferente no mercado de
                         trabalho e tivessem rendimentos diferentes mesmo sem o programa de for-
                         mação proﬁssional.
                            O mesmo problema surge quando a admissão em um programa é base-
                         ada em preferências não observadas dos administradores da iniciativa.
                         Digamos, por exemplo, que os administradores condicionam a admissão
                         e a inscrição à realização de uma entrevista. Os indivíduos que são admi-
                         tidos no programa podem ser aqueles que os administradores acreditam
                         ter uma boa chance de se beneﬁciar da iniciativa. Aqueles que não são
                         admitidos podem demonstrar menos motivação na entrevista, ser menos
                         qualiﬁcados ou simplesmente não se desempenhar bem em entrevistas.
                         Mais uma vez, é provável que esses dois grupos de jovens tivessem rendas
                         diferentes no mercado de trabalho mesmo na ausência de um programa
                         de formação proﬁssional.
Conceito-chave              Dessa maneira, o grupo que não se inscreveu não fornece uma boa esti-
O viés de seleção        mativa do contrafactual. Se você observar uma diferença de renda entre os
ocorre quando as         dois grupos, não será capaz de determinar se ela provém do programa de
razões pelas quais um    treinamento ou das diferenças subjacentes em termos de motivação, habi-
indivíduo participa de
                         lidades e outros fatores que diferem entre os dois grupos. O fato de indiví-
um programa estão
correlacionadas com os   duos menos motivados ou menos qualiﬁcados não se inscreverem no
resultados. Garantir     programa de treinamento, portanto, gera um viés na estimativa do impacto
que o impacto            do programa.6 Esse viés é chamado de viés de seleção. De um modo mais
estimado esteja livre    geral, o viés de seleção ocorre quando as razões pelas quais um indivíduo
de viés de seleção é     participa de um programa estão correlacionadas aos resultados, mesmo na
um dos principais
                         ausência do programa. Garantir que o impacto estimado esteja livre de viés
objetivos e desaﬁos
para qualquer            de seleção é um dos principais objetivos e desaﬁos para qualquer avaliação
avaliação de impacto.    de impacto. Nesse exemplo, se os jovens que se matricularam no treina-
                         mento de formação proﬁssional tivessem rendimentos mais elevados
                         mesmo na ausência do programa, o viés de seleção seria positivo. Em outras
                         palavras, você superestimaria o impacto do programa de formação proﬁs-
                         sional atribuindo à intervenção a renda mais alta que os participantes
                         teriam de qualquer forma.


66                                                                         Avaliação de Impacto na Prática
         Avaliar o impacto do HISP: comparação das famílias
         inscritas com as não inscritas

 Após analisar em mais profundidade a comparação de antes e depois com
 sua equipe de avaliação, você percebe que ainda há muitos outros fatores
 que podem explicar parte da mudança nas despesas com saúde das famí-
 lias ao longo do tempo (em especial, o ministro da Fazenda está preocu-
 pado com a possibilidade de que uma crise ﬁnanceira recente possa ter
 afetado a renda das famílias e possa explicar a mudança observada nas
 despesas com saúde).
    Outro consultor sugere que seria mais apropriado estimar o contra-
 factual no período pós-intervenção, isto é, dois anos após o início do
 programa. Esse consultor observa corretamente que, dos 4.959 domicí-
 lios da amostra de linha de base, apenas 2.907 realmente se inscreveram
 no programa, de modo que aproximadamente 41% das famílias da amos-
 tra permanecem sem a cobertura do HISP. O consultor argumenta que
 todas as famílias dos 100 povoados cobertos pelo programa-piloto eram
 elegíveis para se inscrever. Todas essas famílias frequentam as mesmas
 clínicas de saúde e estão sujeitas aos mesmos preços locais dos produtos
 farmacêuticos. Além disso, a maioria das famílias está engajada em ati-
 vidades econômicas semelhantes. O consultor argumenta ainda que,
 nessas circunstâncias, os resultados do grupo não inscrito após a inter-
 venção poderiam servir para estimar o resultado contrafactual do grupo
 inscrito no HISP. Portanto, você decide calcular os gastos médios com
 saúde no período pós-intervenção, tanto para as famílias que se inscre-
 veram no programa quanto para as que não o ﬁzeram. Os resultados são
 apresentados no quadro 3.3. Utilizando os gastos médios com saúde das
 famílias não inscritas como estimativa do contrafactual, você descobrirá
 que o programa reduziu os gastos médios com saúde em aproximada-
 mente US$ 14,46.



 Quadro 3.3 Avaliar o HISP: comparação das médias das famílias inscritas
 e não inscritas

                                                   Não
                                     Inscritas   inscritas   Diferença   Estatística-t
   Despesas com saúde
   das famílias (em US$)               7,84       22,30      −14,46**      −49,08

 Observação: nível de signiﬁcância: ** = 1%.




Inferência causal e contrafactuais                                                       67
     Quadro 3.4 Avaliar o HISP: análise de regressão das famílias inscritas
     e não inscritas

                                              Regressão linear             Regressão linear
                                                                             multivariada
     Impacto estimado nas despesas                 −14,46**                     −9,98**
     com saúde das famílias (em US$)                (0,33)                       (0,29)

     Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.

        Ao continuar discutindo esse resultado com o consultor, você ques-
     tiona se as famílias que optaram por não se inscrever no programa podem
     ser sistematicamente diferentes das que se inscreveram. Por exemplo, as
     famílias que se inscreveram no HISP podem ser aquelas cujas despesas
     com saúde seriam naturalmente maiores ou aquelas formadas por pes-
     soas mais bem informadas sobre o programa ou ainda por pessoas que se
     importam mais com a saúde de seus familiares. Alternativamente, talvez
     as famílias que se inscreveram fossem mais pobres, em média, do que
     aquelas que não se inscreveram, uma vez que o HISP era direcionado a
     famílias pobres. Seu consultor argumenta que a análise de regressão pode
     controlar para essas diferenças potenciais entre os dois grupos. Realiza,
     portanto, uma regressão multivariada adicional para controlar para todas
     as características das famílias disponíveis na base de dados e estima o
     impacto do programa conforme mostra o quadro 3.4.
        Com uma regressão linear simples dos gastos com saúde em uma vari-
     ável indicadora que afere se um domicílio se inscreveu ou não no pro-
     grama, você encontra um impacto negativo estimado de US$ 14,46. Em
     outras palavras, você estima que o programa tenha reduzido as despesas
     médicas em US$ 14,46. Entretanto, quando todas as outras características
     dos dados são controladas, você estima que o programa reduziu os gastos
     com saúde em US$ 9,98 ao ano.


          Perguntas 2 sobre o HISP

     A. Esta análise é capaz de controlar para todos os fatores que determi-
        nam as diferenças nos gastos com saúde entre os dois grupos?
     B. Com base nesses resultados gerados pelo método de inscritos e não
        inscritos, o HISP deve ser ampliado para todo o país?




68                                                                  Avaliação de Impacto na Prática
Recursos adicionais

•  Para acessar os materiais complementares ao livro e os hiperlinks a recursos
   adicionais, ver o site Avaliação de Impacto na Prática (www.worldbank.org/
   ieinpractice).



Notas

1. Utilizamos o Modelo Causal de Rubin como arcabouço para a inferência causal
   (Imbens e Rubin 2008; Rubin 1974).
2. Essa condição será ﬂexibilizada em alguns métodos de avaliação de impacto,
   porém exigirá que a variação média na variável de resultado (tendência) seja a
   mesma na ausência do programa.
3. Pressupomos que nenhuma família deixou a amostra ao longo de dois anos (a
   atrição da amostra é zero). Esta não é uma hipótese realista para a maioria das
   pesquisas domiciliares. Na prática, as famílias que se mudam muitas vezes não
   conseguem ser rastreadas, e algumas famílias se desfazem, deixando de existir
   por completo.
4. Observe que uma estatística t de 1,96 ou mais (em valores absolutos) é estatisti-
   camente signiﬁcativa ao nível de 5%.
5. Para obter mais informações sobre a análise multivariada, consulte material
   técnico complementar on-line disponível no site Avaliação de Impacto na
   Prática (www.worldbank.org/ieinpractice).
6. Outro exemplo: se os jovens que acreditam que se beneﬁciarão substancial-
   mente com o programa de treinamento também forem os mais propensos a se
   inscrever no programa (por exemplo, porque preveem receber salários mais
   altos após o treinamento), compará-los a um grupo que espera ter um retorno
   menor e que não se inscreveu no programa resultará em uma estimativa
   enviesada do impacto.



Referências

Imbens, Guido W. e Donald B. Rubin. 2008. “Rubin Causal Model.” In The New
  Palgrave Dictionary of Economics, segunda edição, editado por Steven N. Durlauf
  e Lawrence E. Blume. Palgrave.
Rubin, Donald B. 1974. “Estimating Causal Effects of Treatments in Randomized
  and Nonrandomized Studies.” Journal of Educational Psychology 66 (5): 688–701.




Inferência causal e contrafactuais                                                     69
CAPÍTULO 4




Seleção aleatória

Avaliação de programas com base nas regras
de seleção

Após discutir duas estimativas “falsas” de contrafactual comumente usadas,
mas que têm alto risco de incorporarem viés — comparações antes e depois
e comparações entre inscritos e não inscritos —, voltamo-nos agora para um
conjunto de métodos que podem ser aplicados para estimar os impactos do
programa com maior rigor. Gerar essas estimativas, no entanto, nem sempre
é uma tarefa tão simples como poderia parecer à primeira vista. A maioria
dos programas é projetada e implementada em um ambiente complexo e em
mudança, no qual muitos fatores podem inﬂuenciar os resultados, tanto
para os participantes do programa quanto para aqueles que não participam
dele. Secas, terremotos, recessões, mudanças de governo e mudanças nas
políticas locais e internacionais fazem parte do mundo real. Em uma avalia-
ção, queremos garantir que o impacto estimado do nosso programa perma-
neça válido apesar desses inúmeros fatores.
   As regras de um programa para a seleção dos participantes serão o parâ-
metro fundamental de determinação do método de avaliação de impacto.
Acreditamos que, na maioria dos casos, os métodos de avaliação devem
procurar ajustar-se ao contexto das regras operacionais de um programa
(com alguns ajustes aqui e ali), e não o contrário. No entanto, partimos tam-
bém da premissa de que a oferta de vagas de todos os programas deve ter
regras justas e transparentes. Uma das regras mais justas e transparentes de
                                                                                71
     alocação de recursos escassos entre pessoas igualmente merecedoras des-
     ses recursos é dar a todas as que são elegíveis uma oportunidade igual de
     participar no programa. Uma maneira de fazer isso é simplesmente reali-
     zar um sorteio.
        Neste capítulo, examinaremos um método semelhante ao sorteio para
     deﬁnir quem participa ou não de um programa em determinado momento:
     o método de seleção aleatória, também conhecido como experimentos aleató-
     rios controlados (randomized controlled trials, ou RCTs). Esse método não
     apenas fornece aos administradores do programa uma regra de participação
     justa e transparente para pessoas igualmente elegíveis, como também cons-
     titui o método mais robusto para avaliar o impacto de uma intervenção. Por
     esses motivos, a aplicação desse método para avaliar o impacto de progra-
     mas sociais aumentou substancialmente nos últimos anos.


     Seleção aleatória do tratamento

     Quando a seleção para um programa é realizada aleatoriamente — ou seja,
     por meio de um sorteio — para uma grande população elegível, podemos
     gerar uma estimativa robusta do contrafactual. A seleção aleatória do trata-
     mento é considerada o padrão-ouro da avaliação de impacto. Ela utiliza um
     processo aleatório, ou ao acaso, para determinar quem terá acesso ao pro-
     grama e quem não terá.1 Quando se utiliza a seleção aleatória, cada unidade
     elegível (por exemplo, um indivíduo, uma família, uma empresa, uma escola,
     um hospital ou uma comunidade) tem a mesma probabilidade de ser sele-
     cionada para o tratamento em um programa.2
        Antes de discutirmos como implementar a seleção aleatória na prática e
     por que ela gera uma estimativa ótima do contrafactual, consideremos
     alguns motivos pelos quais a seleção aleatória também é considerada uma
     maneira justa e transparente de oferecer os serviços de um programa. Após
     a população-alvo ser deﬁnida (por exemplo, famílias abaixo da linha de
     pobreza, crianças com menos de 5 anos ou estradas em áreas rurais do
     norte do país), a seleção aleatória é tida como uma regra de alocação justa
     porque permite que os gestores de programas assegurem que cada unidade
     elegível terá a mesma chance de receber o programa e que o programa não
     está sendo concedido por meio de critérios arbitrários ou subjetivos, ou
     mesmo por apadrinhamento ou outras práticas injustas. Quando há excesso
     de demanda de um programa, a seleção aleatória é uma regra que pode ser
     facilmente explicada pelos gestores de programas e entendida pela popula-
     ção e é considerada justa em muitas situações. Além disso, quando o pro-
     cesso de seleção é conduzido de forma aberta e transparente, ele não pode
     ser facilmente manipulado e, portanto, protege os gestores contra possíveis
72                                                     Avaliação de Impacto na Prática
acusações de favorecimento ou corrupção. Assim, a seleção aleatória tem
seus méritos próprios como um mecanismo de alocação que vai muito
além de sua utilidade como ferramenta de avaliação de impacto. Na reali-
dade, vários programas usam sorteios de maneira rotineira como uma
forma de selecionar participantes no conjunto de indivíduos elegíveis,
principalmente devido às suas vantagens para administração e governança.3
O boxe 4.1 apresenta dois desses casos para países na África.



     Boxe 4.1: A seleção aleatória como uma valiosa ferramenta
     operacional
     A seleção aleatória pode ser uma regra útil     pequenos pedaços de papel, com números
     para a distribuição dos benefícios de um pro-   de 1 a N, foram colocados em uma caixa.
     grama, mesmo fora do contexto de uma            Em seguida, os candidatos foram chamados
     avaliação de impacto. Os dois casos a se-       um a um para sortear um número da caixa
     guir, ocorridos na África, ilustram como.       diante de todos os outros inscritos. Os
         Na Costa do Marﬁm, após um período de       números sorteados eram lidos em voz alta.
     crise, o governo introduziu um programa de      Após todos os candidatos sorteados terem
     empregos temporários que, inicialmente,         sido chamados, alguém veriﬁcou, um por
     tinha ex-combatentes como público-alvo e        um, os números restantes na caixa para
     que, posteriormente, foi expandido para         assegurar que eles se referiam aos candida-
     atender os jovens em geral. O programa pro-     tos que não compareceram ao sorteio. Se
     porcionou aos jovens oportunidades de           houvesse N vagas disponíveis para o pro-
     emprego de curto prazo, principalmente em       grama, os inscritos que sortearam os núme-
     atividades como limpeza ou reconstrução de      ros mais baixos seriam os selecionados para
     estradas para o departamento nacional de        o programa. O processo de sorteio foi orga-
     estradas. Os jovens dos municípios partici-     nizado separadamente para homens e
     pantes foram convidados a se inscrever.         mulheres, foi bem aceito pelos participantes
     Dada a atratividade dos benefícios, houve       e ajudou a garantir uma imagem de justiça e
     uma procura muito superior ao número de         transparência ao programa em um ambiente
     vagas disponíveis. A ﬁm de utilizar um          pós-conﬂito marcado por tensões sociais.
     método transparente e justo de distribuição     Após vários anos de operação, os pesquisa-
     dos benefícios entre os candidatos, os ges-     dores utilizaram essa regra de alocação, já
     tores do programa colocaram em prática um       integrada à operação do programa, para rea-
     sorteio público dos beneﬁciários. Após o        lizar a avaliação de seu impacto.
     período de inscrições ser encerrado e o             No Níger, o governo começou a desen-
     número de candidatos (digamos, N) de um         volver um programa nacional de proteção
     determinado local ser conhecido, foi organi-    social em 2011 com o apoio do Banco
     zado um sorteio público. Todas as inscrições    Mundial. O Níger é um dos países mais
     foram reunidas em um local público e            pobres do mundo, e a população de famílias
                                                                                         (continua)




Seleção aleatória                                                                                     73
     Boxe 4.1: A seleção aleatória como uma valiosa ferramenta operacional (continuação)


     pobres elegíveis ao programa ultrapassava              escritos em pedaços de papel e colocados
     em muito os benefícios disponíveis durante             em uma caixa. Em seguida, uma criança
     os primeiros anos de funcionamento da                  retirava aleatoriamente da caixa os nomes
     iniciativa. Os gestores do programa basea-             das comunidades a ser beneﬁciadas até
     ram-se em focalização geográﬁca para iden-             que as cotas fossem preenchidas. O pro-
     tiﬁcar as regiões onde o programa de                   cedimento foi realizado separadamente
     transferência de renda seria implementado              para os povoados nômades e sedentários
     em primeiro lugar. Foi possível fazer isso             para assegurar a representatividade de
     porque existiam dados para determinar a                cada grupo. (Após a seleção das comunida-
     pobreza relativa ou a vulnerabilidade das              des, um mecanismo separado de seleção
     famílias nas províncias e municipalidades do           de famílias foi implementado para identiﬁ-
     país. No entanto, existiam pouquíssimos                car os domicílios mais pobres, que mais
     dados disponíveis para avaliar quais as                tarde foram inscritos como beneﬁciários.)
     comunidades dentro das municipalidades                 A transparência e a justiça dos sorteios
     que seriam mais merecedoras do programa                públicos foram muito apreciadas pelos
     com base em critérios objetivos. Para a pri-           representantes das comunidades e gesto-
     meira fase da iniciativa, os gestores decidiram        res do programa, tanto que o processo de
     utilizar sorteios públicos para selecionar as          sorteio público continuou a ser usado no
     comunidades que seriam beneﬁciadas                     segundo e terceiro ciclos do programa para
     nas municipalidades-alvo. Essa decisão foi             selecionar mais de 1.000 comunidades em
     tomada, em parte, porque os dados disponí-             todo o país. Mesmo que os sorteios públi-
     veis para priorizar as comunidades de                  cos não fossem necessários para a realiza-
     maneira objetiva eram limitados e, em                  ção de uma avaliação de impacto naquele
     parte, porque uma avaliação de impacto                 momento, seu valor como um instrumento
     estava sendo incorporada ao programa.                  transparente, justo e amplamente aceito
     Nesses sorteios públicos, todos os líderes             para alocar benefícios para populações ele-
     das comunidades foram convidados a com-                gíveis ao programa justiﬁcava seu uso con-
     parecer ao centro municipal local e os                 tinuado aos olhos dos gestores e das
     nomes de suas comunidades foram                        autoridades locais.

     Fontes: Bertrand e outros 2016; Premand, Barry e Smitz 2016.




                      A seleção aleatória muitas vezes pode ser implementada a partir das
                   regras operacionais de um programa. Para muitos programas, a população-
                   alvo — ou seja, o conjunto de todas as unidades que o programa gostaria
                   de atender — é maior do que o número de participantes que o programa
                   pode realmente acomodar em um determinado momento. Por exemplo,
                   em um único ano, um programa educacional pode ser capaz de fornecer
                   material escolar para 500 escolas entre milhares de escolas elegíveis em
                   um país. Ou um programa de melhoria de estradas rurais pode ter
                   como  objetivo pavimentar 250 dessas rodovias, embora existam outras
74                                                                               Avaliação de Impacto na Prática
centenas que desejaria melhorar. Ou um programa de emprego para
jovens pode ter o objetivo de atingir 2.000 jovens desempregados em seu
primeiro ano de operação, embora haja dezenas de milhares de jovens
desempregados que o programa gostaria de atender. Devido a uma varie-
dade de razões, os programas podem ser incapazes de cobrir toda a popu-
lação de interesse. Restrições orçamentárias podem simplesmente
impedir que os administradores ofereçam o programa a todas as unidades
elegíveis desde o início. Mesmo que exista orçamento disponível para
cobrir um número ilimitado de participantes, há restrições de capacidade
que, por vezes, impedem que um programa seja lançado para todos os
interessados ao mesmo tempo. Por exemplo, no caso do programa de for-
mação proﬁssional para jovens, o número de jovens desempregados que
deseja obter uma formação proﬁssional pode ser superior ao número de
vagas disponíveis nas escolas técnicas existentes durante o primeiro ano
do programa, e essa restrição de oferta é limitadora do número de jovens
que pode se inscrever no programa.
    Quando a população de participantes elegíveis é maior do que o número
de vagas disponibilizadas pelo programa, alguém deve decidir quem parti-
cipará ou não na iniciativa. Em outras palavras, os administradores de pro-
gramas devem deﬁnir um mecanismo de racionamento dos serviços do
programa. As vagas de um programa poderiam ser preenchidas por ordem
de chegada ou com base em características observadas (por exemplo, o
atendimento às áreas mais pobres primeiro). Ou a seleção poderia se
basear em características não observadas (por exemplo, permitir que os
indivíduos se inscrevam com base em seu próprio conhecimento e
motivação). Ou poderia se basear em um sorteio. Mesmo em contextos nos
quais é possível classiﬁcar os participantes potenciais de acordo com uma
medida de vulnerabilidade, pode ser desejável alocar parte dos benefícios
por meio de um sorteio. Tomemos, por exemplo, um programa que tenha
como público-alvo 20% das famílias mais pobres de acordo com uma
medida de renda. Se a renda só puder ser medida de maneira imperfeita, o
programa poderia usar essa medida para incluir todos os potenciais parti-
cipantes identiﬁcados como extremamente pobres (por exemplo, os 15%
mais pobres). Mas, como a renda é medida de maneira imperfeita, os domi-
cílios situados imediatamente abaixo do limiar de elegibilidade do percen-
til 20 na realidade podem ou não ser elegíveis (só saberíamos caso
pudéssemos medir a verdadeira renda), enquanto aqueles situados ime-
diatamente acima do percentil 20 também podem ser elegíveis ou não.
Nesse contexto, a realização de um sorteio para alocar benefícios às famí-
lias situadas em torno do percentil 20 (por exemplo, entre os percentis 15
e 25 da distribuição de renda) poderia ser uma maneira justa de alocar
recursos para esse grupo de famílias.
Seleção aleatória                                                             75
                         Por que a seleção aleatória produz uma excelente estimativa do
                         contrafactual?

Conceito-chave           Conforme discutido anteriormente, o grupo de comparação ideal deveria
Na seleção aleatória,    ser tão parecido quanto possível com o grupo de tratamento em todos os
cada unidade elegível    aspectos, exceto no que se refere à participação no programa que está sendo
tem a mesma              avaliado. Quando designamos aleatoriamente as unidades aos grupos de tra-
probabilidade de ser
                         tamento e de comparação, esse processo de seleção aleatória por si só pro-
selecionada para
tratamento, o que        duz dois grupos que têm uma alta probabilidade de ser estatisticamente
assegura a equivalên-    idênticos desde que o número de unidades potenciais a que se aplicará o
cia entre os grupos de   processo de seleção aleatória seja suﬁcientemente grande. Mais especiﬁca-
tratamento e de          mente, com um número suﬁcientemente grande de unidades, o processo de
comparação, tanto nas
                         seleção aleatória produzirá grupos com médias estatisticamente equivalen-
características
observadas quanto        tes para todas as suas características.4
naquelas não                A ﬁgura 4.1 ilustra por que a seleção aleatória produz um grupo de com-
observadas.              paração que é estatisticamente equivalente ao grupo de tratamento.
                         Suponhamos que a população de unidades elegíveis (o conjunto de partici-
                         pantes potenciais, ou a população de interesse para a avaliação) seja consti-
                         tuída por 1.000 pessoas. Metade dessas pessoas é distribuída aleatoriamente
                         ao grupo de tratamento e a outra metade é aleatoriamente designada ao
                         grupo de comparação. Por exemplo, imagine que você escreveu os nomes de
                         todas as 1.000 pessoas em pedaços de papel individuais, misturou-os em
                         uma cesta e, em seguida, pediu a alguém para sortear 500 nomes. Se os pri-
                         meiros 500 nomes formarem o grupo de tratamento, tem-se, então, um
                         grupo de tratamento escolhido aleatoriamente (os primeiros 500 nomes
                         sorteados) e também um grupo de comparação selecionado aleatoriamente
                         (os 500 nomes que restaram na cesta).
                            Agora, suponhamos que, das 1.000 pessoas originais, 40% sejam mulheres.
                         Como os nomes foram selecionados aleatoriamente, dos 500 nomes tirados

                         Figura 4.1   Características dos grupos sob seleção aleatória do tratamento



                                                População de unidades elegíveis


                          A seleção aleatória preserva                     A seleção aleatória preserva
                          as características                               as características



                                Grupo de tratamento:                     Grupo de comparação: não
                                  selecionado para                     selecionado para o tratamento
                                    o tratamento

76                                                                           Avaliação de Impacto na Prática
da cesta aproximadamente 40% também serão de mulheres. Se, entre as
1.000 pessoas, 20% tinham olhos azuis, então aproximadamente 20% dos
grupos de tratamento e de comparação também devem ter olhos azuis. Em
geral, se a população de unidades elegíveis for suﬁcientemente grande, o
mecanismo de seleção aleatória assegurará que qualquer característica da
população seja observada para o grupo de tratamento e para o grupo de
comparação. Assim como as características observadas, como o sexo ou a cor
dos olhos, são reﬂetidas nos grupos de tratamento e de comparação, então,
logicamente, as características que são mais difíceis de observar (denomina-
das variáveis não observadas) — tais como motivação, preferências ou outros
traços de personalidade difíceis de mensurar — também serão igualmente
reﬂetidas nos dois grupos. Assim, os grupos de tratamento e comparação que
forem gerados por meio da seleção aleatória serão semelhantes não apenas
em suas características observadas, mas também em suas características não
observadas. Ter dois grupos semelhantes em todos os aspectos garante que o
contrafactual estimado se aproxime do verdadeiro valor do resultado na
ausência do tratamento e que, após o programa ser implementado, os impac-
tos estimados não sofram do problema de viés de seleção.
   Quando uma avaliação utiliza o método de seleção aleatória para deli-
mitar os grupos de tratamento e de comparação, em tese o processo deve
produzir dois grupos equivalentes, desde que se baseie em um número
suﬁcientemente grande de unidades. Com os dados da linha de base de
nossa amostra de avaliação, podemos testar essa hipótese empiricamente
e veriﬁcar que, na realidade, não há diferenças sistemáticas nas caracterís-
ticas observadas entre os grupos de tratamento e de comparação antes do
início do programa. Depois de lançarmos o programa, se observarmos
diferenças nos resultados entre os grupos de tratamento e de comparação,
saberemos que essas diferenças de resultados só podem ser explicadas
pela introdução do programa, uma vez que os dois grupos eram idênticos
na linha de base, antes do início do programa, e foram expostos aos mes-
mos fatores ambientais externos ao longo do tempo. Nesse sentido, o
grupo de comparação controla para todos os fatores que também possam
explicar o resultado de interesse.
   Para estimar o impacto de um programa com base no método de seleção
aleatória, basta levar em consideração a diferença entre o resultado sob
tratamento (o resultado médio do grupo de tratamento selecionado aleato-
riamente) e a nossa estimativa do contrafactual (o resultado médio do
grupo de comparação selecionado aleatoriamente). Podemos ter certeza
de que nosso impacto estimado representa o verdadeiro impacto do pro-
grama, uma vez que eliminamos todos os fatores observados e não observa-
dos que, de outra forma, poderiam explicar plausivelmente a diferença dos
resultados. Nos boxes 4.2 a 4.6, discutimos aplicações reais do método de
Seleção aleatória                                                              77
     Boxe 4.2: Seleção aleatória como regra de alocação do programa:
     transferências condicionais de renda e educação no México
     O programa Progresa, atualmente chamado                nos dois primeiros anos, e as 181 restantes
     Prospera, efetua transferências de renda para          serviram de grupo de comparação antes de
     mães pobres que vivem na zona rural do                 entrarem no programa no terceiro ano.
     México sob a condição de que elas enviem                   Com base na seleção aleatória, Schultz
     seus ﬁlhos para a escola e os levem para fazer         (2004) detectou um aumento médio de
     exames médicos regularmente (ver o boxe 1.1            3,4% nas matrículas para todos os alunos
     do capítulo 1). A transferência de renda, volta-       da 1ª à 8ª série, sendo que o maior aumento
     da para as crianças entre a 3ª e 9ª séries, repre-     se deu entre as meninas que tinham conclu-
     senta cerca de 50% a 75% do custo da men-              ído a 6ª série, com 14,8%.a A razão provável
     salidade em escolas particulares e é garantida         para esse aumento é o fato de as meninas
     por três anos. As comunidades e famílias elegí-        apresentarem uma tendência maior de eva-
     veis para participar do programa foram deter-          são escolar à medida que ﬁcam mais velhas
     minadas com base em um índice de pobreza               e, por isso, recebem uma transferência ligei-
     criado a partir dos dados do censo e da coleta         ramente maior para permanecer na escola
     de dados de linha de base. Devido à necessida-         após a conclusão das primeiras séries. Em
     de de introduzir gradativamente esse progra-           seguida, esses impactos de curto prazo
     ma social em larga escala, cerca de dois terços        foram extrapolados para prever o impacto
     das localidades (314 de 495) foram seleciona-          de longo prazo do programa Progresa sobre
     das aleatoriamente para receber o programa             a escolaridade e a renda ao longo da vida.

     Fonte: Schultz 2004.
     a
       Para ser mais preciso, Schultz combinou a seleção aleatória com o método da diferença em diferenças discu-
     tido no capítulo 7.




     Boxe 4.3: Seleção aleatória de subsídios para melhorar as
     perspectivas de emprego de jovens no norte de Uganda
     Em 2005, o governo de Uganda iniciou um                     Aproveitando a alta demanda desper-
     programa destinado a diminuir o desemprego              tada pelo programa, os avaliadores trabalha-
     entre jovens e a promover a estabilidade social         ram com o governo para criar um sistema
     na região do norte do país, afetada por um              de aleatorização e deﬁnir quais os grupos
     conﬂito. O Programa de Oportunidades para               que receberiam ﬁnanciamento. O governo
     Jovens convidou grupos de jovens adultos a              central de Uganda pediu aos governos dis-
     apresentar propostas para abertura de empre-            tritais que apresentassem um número de
     sas e formação proﬁssional que poderiam ser             propostas superior ao dobro daquelas que
     ﬁnanciadas de forma subsidiada pelo governo.            poderiam ser ﬁnanciadas. Depois de anali-
     Milhares de propostas foram apresentadas,               sar as propostas, o governo deﬁniu uma
     mas o governo só podia ﬁnanciar algumas                 lista de 535 propostas elegíveis para o
     centenas delas.                                         programa. Em seguida, as propostas foram
                                                                                                        (continua)

78                                                                                   Avaliação de Impacto na Prática
     Boxe 4.3: Seleção aleatória de subsídios para melhorar as perspectivas de emprego de jovens no norte
     de Uganda (continuação)

     aleatoriamente alocadas entre os grupos de             vezes superior de estar desempenhando
     tratamento e de comparação, com 265 para               um ofício qualiﬁcado do que os jovens do
     o de tratamento e 270 para o de comparação.            grupo de comparação. Eles também ganha-
         O ﬁnanciamento oferecido ao grupo de               vam 38% mais e tinham 57% mais capital
     tratamento foi, em média, de US$ 382 por               social. No entanto, os pesquisadores não
     pessoa. Quatro anos após a concessão dos               detectaram nenhum impacto do programa
     ﬁnanciamentos, os jovens do grupo de trata-            sobre coesão social ou comportamento
     mento tinham uma chance mais de duas                   antissocial.

     Fonte: Blattman, Fiala e Martínez 2014.




     Boxe 4.4: Seleção aleatória de intervenções no setor de água e
     saneamento na zona rural da Bolívia
     A partir de 2012, o governo boliviano, com o           comunidades de cada grupo foram sortea-
     apoio     do     Banco    Interamericano    de         dos e colocados em uma lista. As comunida-
     Desenvolvimento, implementou uma seleção               des que estavam no topo da lista foram
     aleatória de intervenções no setor de água e           alocadas ao grupo de tratamento. Cada sor-
     saneamento para pequenas comunidades                   teio foi monitorado por um tabelião indepen-
     rurais. Entre os 24 municípios mais necessita-         dente, que posteriormente registrou e
     dos do país, o programa identiﬁcou mais de             validou os resultados, conferindo um nível
     369 comunidades que eram elegíveis para a              adicional de legitimidade ao processo. Para
     intervenção. Como havia recursos disponíveis           as comunidades deixadas de fora do pro-
     para cobrir apenas 182 comunidades, o progra-          grama, os governos municipais se compro-
     ma usou a seleção aleatória para dar a cada co-        meteram a usar a mesma lista ordenada
     munidade elegível a mesma oportunidade de              aleatoriamente para alocar fundos futuros
     participar do programa. Junto com os governos          após a conclusão da avaliação. Dessa
     municipais, os administradores do programa             maneira, nenhuma comunidade seria exclu-
     organizaram uma série de eventos onde realiza-         ída da intervenção com o único propósito de
     ram sorteios públicos na presença de líderes           servir de grupo de comparação para a
     comunitários, da imprensa e da sociedade civil.        avaliação. No entanto, como restrições orça-
         Primeiro, as comunidades foram dividi-             mentárias limitavam o número de projetos
     das em grupos de acordo com o tamanho de               implantados em cada município, o grupo de
     sua população. Em seguida, nomes das                   comparação continuou existindo.

     Fonte: Projeto nº BO-L1065 do Banco Interamericano de Desenvolvimento, http://www.iadb.org/en/projects
     /project-description-title,1303.html?id=BO-L1065.
     Observação: ver o sorteio público para a realização de uma seleção aleatória em https://vimeo.com/86744573.



Seleção aleatória                                                                                                  79
     Boxe 4.5: Seleção aleatória na proteção a nascentes para
     melhorar a saúde no Quênia
     A ligação entre a qualidade da água e os        contaminação. A partir de 2005, a ONG
     impactos sobre a saúde nos países em de-        International Child Support (ICS) implemen-
     senvolvimento tem sido bem documentada.         tou um programa de proteção de nascentes
     No entanto, os benefícios para a saúde da       em dois distritos do oeste do Quênia.
     melhoria da infraestrutura em torno de fon-     Devido a restrições ﬁnanceiras e administra-
     tes de água são menos evidentes. Kremer         tivas, a ICS decidiu implementar o programa
     e outros (2011) mediram os efeitos de um        ao longo de quatro anos. Isso permitiu que
     programa que fornece tecnologia de              os avaliadores usassem as fontes que ainda
     proteção das nascentes para melhorar a          não tinham recebido o tratamento como
     qualidade da água no Quênia, selecionan-        grupo de comparação.
     do aleatoriamente fontes para receber o             Das 200 fontes elegíveis, 100 foram sele-
     tratamento.                                     cionadas aleatoriamente para receber o pro-
         Aproximadamente 43% dos domicílios          grama nos dois primeiros anos. O estudo
     localizados na zona rural do oeste do Quênia    detectou que a proteção das fontes reduziu a
     obtêm água potável de fontes naturais.          contaminação fecal da água em 66% e os
     A tecnologia de proteção de fontes veda         casos de diarreia infantil entre os usuários
     as nascentes de água para diminuir a            dessas fontes em 25%.

     Fonte: Kremer e outros 2011.




     Boxe 4.6: Seleção aleatória de informações sobre os riscos do HIV
     para reduzir a gravidez na adolescência no Quênia
     Em um experimento aleatório realizado no        relativos), visava reduzir o sexo entre ho-
     oeste do Quênia, Dupas (2011) testou a efe-     mens mais velhos e meninas mais jovens,
     tividade de dois tratamentos educacionais       fornecendo informações sobre as taxas de
     diferentes relacionados ao HIV e à aids na      HIV desagregadas por idade e sexo.
     redução do comportamento sexual de risco            O estudo foi realizado em dois distritos
     entre os adolescentes. O primeiro tratamen-     rurais no Quênia e incluiu 328 escolas de
     to compreendia o treinamento de professo-       ensino fundamental na amostra. Os pesqui-
     res no currículo nacional sobre HIV/aids, que   sadores selecionaram aleatoriamente 163
     se concentrava na redução do risco e enco-      escolas para receber o primeiro tratamento,
     rajava a abstinência. O segundo, batizado de    que foi estratiﬁcado por localização, notas
     Relative    Risk    Information    Campaign     dos alunos e distribuição de gênero dos
     (Campanha de informação sobre os riscos         estudantes. Em seguida, 71 escolas foram

                                                                                          (continua)



80                                                                        Avaliação de Impacto na Prática
     Boxe 4.6: Seleção aleatória de informações sobre os riscos do HIV para reduzir a gravidez na
     adolescência no Quênia (continuação)

     alocadas aleatoriamente para o segundo               quanto às informações às quais os alunos
     tratamento, o que criou uma estratiﬁcação            tinham sido expostos antes do início do
     quanto à participação no primeiro tratamento.        programa. Um ano após o término do pro-
     Isso produziu quatro grupos de escolas:              grama, Dupas descobriu que a Campanha
     escolas que receberam o primeiro trata-              de informação sobre os riscos relativos tinha
     mento, escolas que receberam o segundo               gerado uma diminuição de 28% na probabi-
     tratamento, escolas que receberam ambos              lidade de uma menina ﬁcar grávida. Em
     os tratamentos e escolas que não recebe-             comparação, as escolas que receberam ape-
     ram o tratamento.                                    nas o primeiro tratamento não tinham regis-
         A seleção aleatória das escolas garantiu         trado nenhum efeito sobre a gravidez na
     que não houvesse diferença sistemática               adolescência.

     Fonte: Dupas 2011.




seleção aleatória para avaliar o impacto de várias intervenções realizadas
em todo o mundo.
   Na ﬁgura 4.1, partimos do princípio que todas as unidades da população
elegível seriam alocadas ao grupo de tratamento ou ao grupo de comparação.
Em alguns casos, no entanto, não é necessário incluir todas as unidades na
avaliação. Por exemplo, se a população de unidades elegíveis incluir 1 milhão
de mães e você quiser avaliar a efetividade dos bônus em dinheiro na proba-
bilidade de elas vacinarem seus ﬁlhos, pode ser suﬁciente selecionar uma
amostra aleatória representativa de, digamos, 1.000 mães e alocá-las ao
grupo de tratamento ou de comparação. A ﬁgura 4.2 ilustra esse processo.
De acordo com a mesma lógica explicada acima, a seleção de uma amostra
aleatória da população de unidades elegíveis para formar a amostra de ava-
liação preserva as características dessa população. Na amostra de avaliação,
mais uma vez a alocação aleatória de indivíduos aos grupos de tratamento e
de comparação preserva as características encontradas. Discutiremos em
mais profundidade o processo de amostragem no capítulo 15.


Validade externa e interna                                                                          Conceito-chave
                                                                                                    Uma avaliação tem
As etapas descritas acima para a seleção aleatória do tratamento garanti-                           validade interna se
rão tanto a validade interna quanto externa das estimativas de impacto                              utilizar um grupo de
(ﬁgura 4.2).                                                                                        comparação válido para
   Validade interna signiﬁca que o impacto estimado do programa é livre de                          criar o contrafactual
todos os outros fatores potenciais externos que afetam os resultados (fatores                       desejado.

Seleção aleatória                                                                                                      81
                         Figura 4.2 Amostragem aleatória e seleção aleatória do tratamento


                                        População de unidades elegíveis

                                                                                                     Validade
                                                            A seleção aleatória preserva
                                                                                                     externa
                                                            as características

                                               Amostra de avaliação

                         A seleção aleatória
                                                                   A seleção aleatória
                         preserva as
                                                                   preserva as características
                         características                                                             Validade
                                                                                                     interna
                               Grupo de tratamento:            Grupo de comparação:
                                selecionado para o             não selecionado para
                                    tratamento                     o tratamento




                         confundidores), ou seja, que o grupo de comparação fornece uma estimativa
                         válida do contrafactual, de modo que podemos estimar o verdadeiro impacto
                         do programa. Lembre-se de que a seleção aleatória cria um grupo de compa-
                         ração que é estatisticamente equivalente ao grupo de tratamento na linha de
                         base, antes do início do programa. Uma vez iniciado o programa, o grupo de
                         comparação é exposto ao mesmo conjunto de fatores externos que o grupo
                         de tratamento ao longo do tempo — a única exceção é o programa. Portanto,
                         se houver diferenças nos resultados entre os grupos de tratamento e compa-
                         ração, elas só podem se dever ao fato de que o grupo de tratamento passou
                         pelo programa. A validade interna de uma avaliação de impacto é assegu-
                         rada por meio do processo de seleção aleatória do tratamento.
Conceito-chave              Validade externa signiﬁca que a amostra de avaliação representa correta-
Uma avaliação é          mente a população de unidades elegíveis. Dessa maneira, os resultados da
externamente válida se   avaliação podem ser generalizados para essa população. Utilizamos uma
a amostra de avaliação
                         amostragem aleatória para garantir que a amostra de avaliação seja repre-
for representativa da
população de unidades
                         sentativa da população de elegíveis e que os impactos identiﬁcados na amos-
elegíveis. Dessa         tra possam ser extrapolados para essa população.
maneira, os resultados      Observe que utilizamos um processo de aleatorização para duas ﬁnalida-
da avaliação poderão     des diferentes: amostragem aleatória da população de elegíveis (para a vali-
ser generalizados para   dade externa) e seleção aleatória do tratamento como método de avaliação
essa população.
                         de impacto (para a validade interna). Uma avaliação de impacto pode pro-
                         duzir estimativas de impacto internamente válidas por meio da seleção ale-
                         atória de tratamento. No entanto, se a avaliação for realizada em uma
                         amostra não aleatória da população, os impactos estimados podem não ser
                         generalizáveis para a população de unidades elegíveis. Inversamente, se a
                         avaliação utilizar uma amostra aleatória da população de unidades elegíveis,
82                                                                              Avaliação de Impacto na Prática
mas o tratamento não for selecionado de forma aleatória, a amostra será
representativa da população, mas o grupo de comparação pode não ser
válido, comprometendo, assim, a validade interna. Em alguns contextos, os
programas podem enfrentar restrições que exigem um equilíbrio entre a
validade interna e externa. Analisemos o programa discutido anteriormente,
que tem como público-alvo 20% das famílias mais pobres em termos de
renda. Se esse programa incorporar todas as famílias abaixo do percentil 15,
mas realizar uma avaliação de impacto com seleção aleatória em uma amos-
tra aleatória dos domicílios situados entre os percentis 15 a 25, essa avaliação
terá validade interna graças à seleção aleatória. Isto é, conheceremos o ver-
dadeiro impacto para o subconjunto de famílias dos percentis 15 a 25. Mas a
validade externa da avaliação de impacto será limitada, uma vez que os
resultados não podem ser extrapolados diretamente para toda a população
de beneﬁciários, e, em especial, para as famílias abaixo do percentil 15.


Quando pode ser usada a seleção aleatória?

A seleção aleatória pode ser usada como uma regra de alocação dos serviços
do programa em um de dois cenários especíﬁcos:
1. Quando a população elegível for superior ao número de vagas disponíveis
   no programa. Quando a demanda por um programa excede a oferta, um
   sorteio pode ser usado para selecionar o grupo de tratamento dentro da
   população elegível. Nesse contexto, cada unidade da população tem a
   mesma chance (ou uma chance conhecida maior do que zero e menor do
   que um) de ser selecionada para o programa. O grupo sorteado é o grupo
   de tratamento e o restante da população que não recebe o programa é o
   grupo de comparação. Enquanto existir uma restrição que impeça a
   expansão do programa para toda a população, os grupos de comparação
   podem ser mantidos para medir os impactos do programa no curto,
   médio e longo prazos. Nesse contexto, não há o dilema ético de manter
   um grupo de comparação indeﬁnidamente, uma vez que um subconjunto
   da população será, necessariamente, deixado de fora do programa devido
   a restrições relacionadas às vagas disponíveis.
   A título de exemplo, suponhamos que o Ministério da Educação deseje
   ﬁnanciar a implantação de bibliotecas escolares para as escolas públicas
   de todo o país, mas o Ministério da Fazenda pode apenas destinar fundos
   suﬁcientes para cobrir um terço dessas bibliotecas. Se o Ministério da
   Educação quiser que cada escola pública tenha a mesma chance de rece-
   ber uma biblioteca, realizará um sorteio no qual cada escola terá a mesma
   chance (uma em três) de ser selecionada. As escolas que forem sorteadas
   receberão uma nova biblioteca e constituirão o grupo de tratamento, e os
Seleção aleatória                                                                  83
       dois terços restantes das escolas públicas do país não receberão a biblio-
       teca e servirão como grupo de comparação. A menos que fundos adicio-
       nais sejam alocados para o programa, um grupo de escolas permanecerá
       sem ﬁnanciamento para implantar essas bibliotecas, e elas poderão ser
       usadas como grupo de comparação para representar o contrafactual.
     2. Quando um programa precisa ser introduzido gradualmente até abranger
        toda a população elegível. Quando um programa é implantado gradual-
        mente, a aleatorização da ordem em que os participantes recebem o pro-
        grama dá a cada unidade elegível a mesma chance de receber o tratamento
        na primeira fase ou em uma fase posterior do programa. Enquanto o
        último grupo não entrar no programa, ele servirá como grupo de compa-
        ração válido a partir do qual o contrafactual para os grupos que já foram
        selecionados em fases anteriores poderá ser estimado. Essa conﬁguração
        também permite que a avaliação capte os efeitos de diferentes tempos de
        exposição ao tratamento, isto é, o efeito de receber um programa por mais
        ou menos tempo.
       Por exemplo, suponhamos que o Ministério da Saúde deseja treinar
       15 mil enfermeiros no país no uso de um novo protocolo de saúde, mas
       que serão necessários três anos para capacitar todos eles. No contexto de
       uma avaliação de impacto, o ministério poderia selecionar aleatoria-
       mente um terço dos enfermeiros para receber o treinamento no primeiro
       ano, um terço para receber treinamento no segundo ano e um terço para
       receber treinamento no terceiro ano. Para avaliar o efeito do programa
       de treinamento um ano após sua implementação, o grupo de enfermeiros
       treinados no primeiro ano constituiria o grupo de tratamento e o grupo
       de enfermeiros selecionados para o terceiro ano seria o grupo de compa-
       ração, uma vez que este ainda não teria recebido o treinamento no
       segundo ano.


     Como selecionar aleatoriamente um tratamento?

     Agora que já discutimos o que a seleção aleatória faz e por que ela produz
     um bom grupo de comparação, vamos nos voltar para as etapas necessá-
     rias para selecionar com sucesso um tratamento de maneira aleatória.
     A ﬁgura 4.3 ilustra esse processo.
        A etapa 1 é deﬁnir as unidades que são elegíveis para o programa.
     Lembre-se que, dependendo do programa, uma unidade pode ser uma pes-
     soa, um centro de saúde, uma escola, uma empresa ou até mesmo todo um
     povoado ou município. A população de unidades elegíveis é constituída por
     aquelas para as quais você está interessado em saber o impacto de seu
     programa. Por exemplo, se você estiver implementando um programa de
84                                                     Avaliação de Impacto na Prática
Figura 4.3    Etapas da seleção aleatória do tratamento

   1. Definir as unidades           2. Selecionar a amostra                3. Aleatorização da seleção
   elegíveis                        de avaliação                           para o tratamento
                                                                                             Comparação




                                                                                              Tratamento




                            Validade externa                  Validade interna



             Inelegível               Elegível




treinamento para professores de escolas do ensino fundamental localizadas
em áreas rurais, os professores de escolas de ensino fundamental localiza-
das em áreas urbanas ou os professores de escolas do ensino médio não per-
tencerão à sua população de unidades elegíveis.
   Depois de ter determinado a população de unidades elegíveis, será neces-
sário comparar o tamanho do grupo com o número de observações necessá-
rias para a avaliação. O tamanho da amostra de avaliação é determinado por
cálculos de poder estatístico e se baseia no tipo de perguntas que você gos-
taria que fosse respondido (ver o capítulo 15). Se a população elegível for
pequena, todas as unidades elegíveis poderão ter que ser incluídas na
avaliação. Ao contrário, se houver mais unidades elegíveis do que as neces-
sárias para a avaliação, a segunda etapa será selecionar uma amostra de uni-
dades da população a ser incluída na amostra de avaliação.
   Esta segunda etapa é realizada principalmente para limitar os custos
da coleta de dados. Caso se veriﬁque que os dados dos sistemas de moni-
toramento existentes podem ser utilizados para a avaliação e caso esses
sistemas abarquem toda a população de unidades elegíveis, pode não ser
necessário criar uma amostra de avaliação separada. No entanto,
Seleção aleatória                                                                                        85
     imagine uma avaliação na qual a população de unidades elegíveis inclua
     dezenas de milhares de professores de todas as escolas do país e para a
     qual você precisa coletar informações detalhadas sobre a prática e o
     conhecimento pedagógicos desses professores. Entrevistar e avaliar
     cada professor do país pode ser proibitivamente oneroso e logistica-
     mente inviável. Com base nos seus cálculos de poder, você pode deter-
     minar que, para responder a sua pergunta de avaliação, é suﬁciente
     tomar uma amostra de 1.000 professores distribuídos em 200 escolas.
     Desde que a amostra de professores seja representativa de toda a popu-
     lação de professores, qualquer resultado encontrado na avaliação será
     externamente válido e poderá ser generalizado para o restante dos pro-
     fessores do país. Coletar dados sobre essa amostra de 1.000 professores
     de 200 escolas será muito mais barato do que coletar dados sobre cada
     professor de todas as escolas do país.
        A etapa 3 consiste em formar os grupos de tratamento e de comparação
     por meio da seleção aleatória das unidades da amostra de avaliação. Nos
     casos em que a seleção aleatória tiver que ser feita de forma pública, diga-
     mos, pela televisão, pode ser preciso usar uma técnica prática simples,
     como jogar cara ou coroa, ou sortear nomes de dentro de um chapéu. Os
     exemplos a seguir supõem que a unidade de aleatorização é uma pessoa,
     mas a mesma lógica pode ser aplicada à aleatorização de unidades de obser-
     vação compostas por um número maior de componentes, como escolas,
     empresas ou comunidades:

     1. Se deseja alocar 50% dos indivíduos ao grupo de tratamento e 50% ao
        grupo de comparação, jogue cara ou coroa para cada pessoa. Você deve
        decidir antecipadamente se a ocorrência de cara ou coroa alocará uma
        pessoa para o grupo de tratamento ou não.

     2. Se deseja alocar um terço da amostra de avaliação ao grupo de trata-
        mento, pode jogar dados para cada pessoa. Em primeiro lugar, deve deci-
        dir que regra será usada. Por exemplo, se lançar um dado e ele exibir o
        número 1 ou 2, isso poderia signiﬁcar a alocação ao grupo de tratamento,
        enquanto os números 3, 4, 5 ou 6 signiﬁcariam a alocação ao grupo de
        comparação. O dado seria jogado uma vez para cada pessoa da amostra
        de avaliação, que seria alocada com base no número que aparecer.

     3. Escreva os nomes de todas as pessoas em pedaços de papel de tamanho e
        forma idênticos. Dobre os papéis de modo que os nomes não possam ser
        vistos, e misture-os bem dentro de um chapéu ou algum outro recipiente.
        Antes de começar o sorteio, deﬁna a regra a ser usada, ou seja, quantos
        pedaços de papel você sorteará e se o sorteio de um nome signiﬁcará a
        alocação dessa pessoa ao grupo de tratamento. Quando a regra estiver
86                                                     Avaliação de Impacto na Prática
   clara, peça a alguém na multidão (alguém imparcial, como uma criança)
   para sortear uma quantidade de pedaços de papel equivalente ao total de
   participantes que for preciso para formar o grupo de tratamento.
   Se precisar selecionar muitas unidades (digamos, mais de 100), aborda-
gens simples como essas levarão muito tempo e será necessário empregar
um processo automatizado. Para isso, primeiro é preciso deﬁnir a regra que
será utilizada para selecionar participantes com base em números aleatórios.
Por exemplo, se tiver uma amostra de avaliação composta por 100 unidades
e precisar alocar 40 unidades ao grupo de tratamento, poderá decidir alocar
as 40 unidades com os números aleatórios mais altos ao grupo de trata-
mento e o restante, ao grupo de comparação. Para implementar a seleção
aleatória, terá que atribuir um número aleatório a cada unidade da amostra
de avaliação usando o gerador de números aleatórios de uma planilha ou um
software estatístico especializado (ﬁgura 4.4) e aplicar a regra deﬁnida ante-
riormente para formar os grupos de tratamento e de comparação. É impor-
tante deﬁnir a regra de seleção antes de gerar os números aleatórios. Caso
contrário, poderá ﬁcar tentado a deﬁnir uma regra com base nos números
aleatórios que visualizar, e isso invalidaria a seleção aleatória.
   A lógica por trás do processo automatizado não difere da seleção aleató-
ria baseada em um sorteio de cara ou coroa ou de papeizinhos com nomes
retirados de um chapéu; trata-se simplesmente de um mecanismo que
determina aleatoriamente se cada unidade fará parte do grupo de trata-
mento ou do grupo de comparação.
   Independentemente de se decidir usar um sorteio público, um lance
de dados ou números aleatórios gerados por computador, é importante
documentar o processo para garantir que ele seja transparente. Isso sig-
niﬁca, em primeiro lugar, que a regra de seleção deve ser decidida anteci-
padamente e comunicada ao público. Em segundo lugar, essa regra deve
ser seguida depois de sortear os números aleatórios. Em terceiro lugar, é
preciso ser capaz de demonstrar que o processo foi realmente aleatório.
Nos casos de loterias e jogos de dados, pode-se gravar o processo em
vídeo. A seleção de números aleatórios baseada em computador exige que
se forneça um registro dos cálculos para que o processo possa ser repli-
cado por auditores.5


Em que nível se realiza a seleção aleatória?

A seleção aleatória pode ser feita em vários níveis, incluindo o individual,
familiar, empresarial, comunitário ou regional. Em geral, o nível de seleção
aleatória das unidades aos grupos de tratamento e comparação será muito
afetado pelo local e pela forma como o programa estiver sendo implementado.
Seleção aleatória                                                                87
     Figura 4.4        Seleção aleatória dos tratados usando uma planilha




     Fonte: Autores.




     Por exemplo, se um programa de saúde estiver sendo implementado no
     nível das clínicas de saúde, em primeiro lugar seria necessário selecionar
     uma amostra aleatória de clínicas e, em seguida, selecionar aleatoriamente
     algumas delas para o grupo de tratamento e as outras, para o grupo de
     comparação.
        Quando o nível da seleção aleatória for mais elevado ou agregado, como
     as regiões ou províncias de um país, pode ser difícil realizar uma avaliação
     de impacto, pois o número de regiões ou províncias da maioria dos países
     não é suﬁcientemente grande para que sejam formados grupos de trata-
     mento e de comparação balanceados. Por exemplo, se um país tiver apenas
     seis estados, o grupo de tratamento e o grupo de comparação teriam apenas
     três estados cada, o que é insuﬁciente para assegurar que as características
     dos grupos de tratamento e comparação sejam balanceadas na linha de base.
     Além disso, para que a seleção aleatória produza estimativas imparciais
     sobre o impacto do programa, é importante assegurar que os fatores tempo-
     rais externos (como o clima ou os ciclos eleitorais locais) sejam, em média,
     os mesmos nos grupos de tratamento e de comparação. À medida que o nível
     de seleção aumenta, torna-se cada vez mais improvável que esses fatores se
88                                                           Avaliação de Impacto na Prática
mostrem balanceados entre os grupos de tratamento e de comparação. Por
exemplo, a precipitação pluviométrica é um fator externo temporal, pois
varia sistematicamente de um ano para outro. Em uma avaliação no setor
agrícola, seria necessário garantir que as secas atingiriam igualmente os
estados do grupo de tratamento e os do grupo de comparação. Com apenas
três estados no grupo de tratamento e três no de comparação, seria fácil per-
der esse balanceamento. Por outro lado, se a unidade de seleção fosse redu-
zida para o nível dos municípios, seria mais provável que a precipitação
pluviométrica ﬁcasse balanceada entre os grupos de tratamento e de com-
paração ao longo do tempo.
   Por outro lado, à medida que o nível de seleção aleatória é menor — por
exemplo, quando envolve indivíduos ou famílias —, aumentam as chances
de que o grupo de comparação seja inadvertidamente afetado pelo
programa. Devem-se considerar dois tipos particulares de riscos ao se
escolher o nível de seleção: os transbordamentos e o cumprimento parcial.
Os transbordamentos ocorrem quando o grupo de tratamento afeta direta
ou indiretamente os resultados do grupo de comparação (ou vice-versa).
O cumprimento parcial ocorre quando alguns membros do grupo de com-
paração participam do programa ou quando alguns membros do grupo de
tratamento não participam (leia uma discussão adicional sobre esses con-
ceitos no capítulo 9).
   Ao considerar cuidadosamente o nível de seleção aleatória, o risco de
transbordamentos e de cumprimento parcial pode ser minimizado. Os indi-
víduos podem ser alocados em grupos ou conglomerados, tais como estu-
dantes de uma escola ou domicílios de uma comunidade, para minimizar os
ﬂuxos de informação e os contatos entre os indivíduos dos grupos de trata-
mento e de comparação. Para reduzir o cumprimento parcial, o nível de
seleção também deve ser escolhido de acordo com a capacidade do pro-
grama de manter uma distinção clara entre os grupos de tratamento e de
comparação ao longo da intervenção. Se o programa incluir atividades
comunitárias, pode ser difícil evitar expor todos os indivíduos da comuni-
dade ao programa.
   Um exemplo bem conhecido de transbordamento é o fornecimento de
vermífugos a crianças. Se as famílias do grupo de tratamento residirem
perto de uma família do grupo de comparação, as crianças das famílias de
comparação podem ser afetadas positivamente por um transbordamento do
tratamento, pois as chances de contraírem vermes dos vizinhos serão redu-
zidas (Kremer e Miguel, 2004). Para isolar o impacto do programa, as famí-
lias de tratamento e comparação precisam estar localizadas suﬁcientemente
longe umas das outras para evitar tais transbordamentos. No entanto, à
medida que a distância entre as famílias aumenta, torna-se mais oneroso
tanto para implementar o programa quanto para realizar as pesquisas
Seleção aleatória                                                               89
     domiciliares. Como regra geral, se for possível reduzir os transbordamentos
     a um grau relativamente aceitável, é melhor executar a seleção aleatória do
     tratamento no nível mais baixo possível de execução do programa. Isso
     assegurará que o número de unidades nos grupos de tratamento e de com-
     paração seja o maior possível.


     Estimar o impacto com a seleção aleatória

     Após obter uma amostra aleatória de avaliação e selecionar o tratamento
     de maneira aleatória, é bastante simples estimar o impacto do programa.
     Depois que ele tiver operado por algum tempo, os resultados das unida-
     des de tratamento e de comparação terão que ser medidos. O impacto do
     programa é simplesmente a diferença entre o resultado médio (Y) para o
     grupo de tratamento e o resultado médio (Y) para o grupo de comparação.
     Por exemplo, no caso genérico que mostra a ﬁgura 4.5, o resultado médio
     para o grupo de tratamento é 100, e o resultado médio para o grupo de
     comparação é 80. Assim, o impacto do programa é 20. Por ora, estamos
     pressupondo que todas as unidades do grupo de tratamento foram efeti-
     vamente tratadas e nenhuma unidade do grupo de comparação foi
     tratada. Em nosso exemplo do programa de formação de professores,
     todos os professores selecionados para o grupo de tratamento receberam
     o treinamento e nenhum dos professores do grupo de comparação parti-
     cipou do programa. No capítulo 5, discutimos o cenário (mais realista) no
     qual o cumprimento é incompleto: ou seja, quando menos de 100% das
     unidades do grupo de tratamento realmente participam da intervenção
     ou algumas unidades de comparação obtêm acesso ao programa. Nesse
     caso, uma estimativa não enviesada sobre o impacto do programa ainda
     pode ser obtida por meio da seleção aleatória, embora a interpretação
     dos resultados possa variar.



            Figura 4.5    Estimar o impacto com a seleção aleatória


             Tratamento             Comparação               Impacto
             Média (Y ) para o grupo Média (Y ) para o grupo
             de tratamento = 100                             Impacto = ΔY = 20
                                     de comparação = 80




90                                                            Avaliação de Impacto na Prática
Lista de veriﬁcação: seleção aleatória

A seleção aleatória é o método mais robusto para estimar contrafactuais. Ela
é considerada o padrão-ouro da avaliação de impacto. Alguns testes básicos
ainda precisam ser realizados para analisar a validade dessa estratégia de
avaliação em determinados contextos.
¸ As características estão balanceadas na linha de base? Compare as
  características do grupo de tratamento e do grupo de comparação na
  linha de base.6
¸ Ocorreu algum não cumprimento do especiﬁcado pela seleção aleatória?
  Veriﬁque se todas as unidades elegíveis receberam o tratamento e se
  nenhuma unidade inelegível recebeu o tratamento. Caso tenha ocorrido
  um não cumprimento, será necessário utilizar o método da variável ins-
  trumental (ver o capítulo 5).
¸ Os números de unidades nos grupos de tratamento e de comparação
  são suﬁcientemente grandes? Se não forem, é recomendável combinar
  a seleção aleatória com o método de diferença em diferenças (ver o
  capítulo 7).
¸ Existe alguma razão para acreditar que os resultados de algumas unida-
  des podem, de alguma forma, depender da seleção de outras unidades?
  Pode haver algum impacto do tratamento para as unidades do grupo de
  comparação (ver o capítulo 9)?



         Avaliar o impacto do HISP: seleção aleatória

 Voltemos agora ao exemplo do Programa de Subsídio ao Seguro Saúde
 (HISP) e veriﬁquemos o que signiﬁca seleção aleatória nesse contexto.
 Lembre-se que você está tentando estimar o impacto do programa a par-
 tir de um projeto-piloto que envolve 100 povoados de tratamento.
     Após realizar duas avaliações de impacto usando estimadores do con-
 trafactual potencialmente enviesados no capítulo 3 (e obter recomenda-
 ções de políticas conﬂitantes), você decide voltar à prancheta para
 repensar como obter uma estimativa mais rigorosa do contrafactual.
 Depois de novas deliberações com sua equipe de avaliação, você está con-
 vencido de que, para criar uma estimativa válida do contrafactual, será
 necessário identiﬁcar um grupo de povoados tão semelhante quanto pos-
 sível aos 100 povoados de tratamento em todos os aspectos, com a dife-
 rença que um grupo participou do HISP e o outro, não. Como o HISP foi

Seleção aleatória                                                              91
     lançado como piloto, e os 100 povoados de tratamento foram seleciona-
     dos aleatoriamente dentre todos os povoados rurais do país, você observa
     que os povoados de tratamento devem, em média, ter as mesmas caracte-
     rísticas das localidades rurais não tratadas do país. O contrafactual pode,
     portanto, ser estimado de forma válida medindo-se os gastos com saúde
     das famílias elegíveis dos povoados rurais que não participaram do
     programa.
        Felizmente, no momento das pesquisas de linha de base e de acom-
     panhamento, a empresa de pesquisas coletou dados sobre outros 100
     povoados rurais que não receberam o programa. Esses 100 povoados
     também foram selecionados aleatoriamente a partir da população de
     povoados rurais do país. Assim, a forma pela qual os dois grupos de
     povoados foram escolhidos garante que eles têm características estatis-
     ticamente idênticas, exceto pelo fato de que os 100 povoados de trata-
     mento receberam o HISP e os 100 povoados de comparação, não. A
     seleção aleatória do tratamento foi cumprida.
        Realizada a seleção aleatória do tratamento, você está bastante
     confiante de que nenhum outro fator externo além do HISP poderia
     explicar quaisquer diferenças nos resultados entre os povoados de
     tratamento e de comparação. Para validar esse pressuposto, você
     verifica se as famílias elegíveis dos povoados de tratamento e de
     comparação apresentam características semelhantes na linha de
     base, conforme mostra o quadro 4.1.
        Observa-se que as características médias das famílias dos povoados
     de tratamento e de comparação são, de fato, muito semelhantes. As úni-
     cas diferenças estatisticamente signiﬁcativas são o número de anos de
     escolaridade do chefe de família e a distância até o hospital, e essas dife-
     renças são pequenas (apenas 0,16 ano, ou menos de 6% da média dos
     anos de escolaridade do grupo de comparação, e 2,91 km, ou menos de
     3% da distância média até um hospital do grupo de comparação). Mesmo
     com um experimento aleatório realizado em uma amostra grande, pode-
     se esperar um pequeno número de diferenças devido ao acaso e às pro-
     priedades do teste estatístico. Na verdade, ao utilizar níveis padrão de
     signiﬁcância de 5%, pode-se esperar que as diferenças em cerca de 5%
     das características sejam estatisticamente signiﬁcativas, embora a mag-
     nitude dessas diferenças não seja grande.
        Com a validade do grupo de comparação estabelecida, agora você
     pode estimar o contrafactual como os gastos médios com saúde das
     famílias elegíveis nos 100 povoados de comparação. O quadro 4.2
     mostra os gastos médios com saúde das famílias elegíveis nos povoa-
     dos de tratamento e de comparação. Você observa que no início do

92                                                      Avaliação de Impacto na Prática
 Quadro 4.1 Avaliar o HISP: balanceamento entre os povoados de
 tratamento e de comparação na linha de base

                           Povoados de        Povoados de
   Características          tratamento        comparação
   das famílias               (n=2964)          (n=2664)    Diferença   Estatística t
   Despesas com
   saúde (em US$
   per capita, por ano)        14,49             14,57       −0,08         −0,73
   Idade do chefe de
   família (anos)              41,66            42,29        −0,64         −1,69
   Idade do cônjuge
   (anos)                      36,84            36,88          0,04          0,12
   Nível educacional
   do chefe de família
   (anos)                       2,97              2,81         0,16*        2,30

   Nível educacional
   do cônjuge (anos)            2,70              2,67         0,03         0,43
   Chefe de família é
   do sexo feminino
   =1                           0,07              0,08       −0,01         −0,58
   Indígena =1                  0,43              0,42         0,01         0,69
   Número de
   membros do
   domicílio                    5,77              5,71         0,06          1,12
   Tem chão de
   terra=1                      0,72              0,73       −0,01         −1,09
   Tem banheiro=1               0,57              0,56         0,01         1,04

   Hectares de terra            1,68              1,72       −0,04         −0,57
   Distância até o
   hospital (km)              109,20            106,29         2,91*        2,57

 Observação: nível de signiﬁcância: * = 5%.


 estudo, ou seja, na linha de base, os gastos médios com a saúde das
 famílias nos grupos de tratamento e de comparação não são estatisti-
 camente diferentes, como seria de se esperar com a seleção aleatória.
    Considerando agora que você tem um grupo de comparação válido,
 é possível deﬁnir o impacto do HISP simplesmente calculando para o
 período de acompanhamento a diferença entre a média das despesas
 com saúde das famílias dos povoados de tratamento e das famílias


Seleção aleatória                                                                       93
     Quadro 4.2 Avaliar o HISP: seleção aleatória com comparação de médias

                           Povoados de           Povoados de
                            tratamento           comparação        Diferença      Estatística t
      Despesas com
      saúde das
      famílias na
      linha de base
      (em US$)                 14,49               14,57            −0,08            −0,73
      Despesas com
      saúde das
      famílias no
      acompanha-
      mento (em
      US$)                      7,84               17,98           −10,14**        −49,15

     Observação: nível de signiﬁcância: ** = 1%.




     Quadro 4.3 Avaliar o HISP: seleção aleatória com análise de regressão

                                Regressão linear           Regressão linear multivariada
      Impacto estimado
      nos gastos com                   −10,14**                        −10,01**
      saúde das famílias                (0,39)                           (0,34)

     Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.


     dos povoados de comparação selecionados aleatoriamente. O impacto
     é uma redução de US$ 10,14 ao longo de dois anos. Replicar esse
     resultado por meio de uma análise de regressão linear produzirá o
     mesmo número, conforme mostra o quadro 4.3. Por ﬁm, você executa
     uma análise de regressão multivariada que controla para algumas
     outras características observáveis das famílias da amostra e observa
     que o programa reduziu os gastos das famílias inscritas em US$ 10,01
     no período de dois anos, total que é quase idêntico ao resultado da
     regressão linear.
        Com a seleção aleatória, podemos ter certeza de que não existem fato-
     res sistematicamente diferentes entre os grupos de tratamento e de com-
     paração que também possam explicar a diferença nos gastos com saúde.
     Ambos os conjuntos de povoados começaram o programa com caracte-
     rísticas médias muito parecidas e foram expostos ao mesmo conjunto de
     políticas e programas nacionais durante os dois anos de tratamento.
     Dessa maneira, a única razão plausível para que as famílias pobres das
     comunidades de tratamento apresentem gastos menores do que os das

94                                                                  Avaliação de Impacto na Prática
 famílias dos povoados de comparação é o fato de que o primeiro grupo
 recebeu o programa de seguro de saúde e o outro, não.


       Pergunta 3 sobre o HISP

 A. Por que a estimativa de impacto obtida por meio de uma regressão
    linear multivariada praticamente não mudou ao se fazer o controle
    para outros fatores em comparação à regressão linear simples e à com-
    paração de médias?
 B. Com base no impacto estimado por meio do método de seleção aleató-
    ria, deverá o HISP ser ampliado nacionalmente?



Recursos adicionais

• Para acessar os materiais complementares a este capítulo e hiperlinks
  com recursos adicionais, ver o site Avaliação de Impacto na Prática (www
  .worldbank.org/ieinpractice).
• Para acessar recursos adicionais sobre avaliações de impacto com seleção
  aleatória, ver o Portal do Banco Interamericano de Desenvolvimento (www
  .iadb.org/evaluationhub).
• Para ter uma visão geral sobre avaliações de impacto com seleção aleatória, ver
  o seguinte livro e seu respectivo site:
  –  Glennerster, Rachel e Kudzai Takavarasha. 2013. Running Randomized
      Evaluations: A Practical Guide. Princeton, NJ: Princeton University Press
      (http://runningres.com/).
• Para uma discussão detalhada sobre como alcançar o balanceamento entre os
  grupos de tratamento e de comparação por meio da seleção aleatória, ver:
  –  Bruhn, Miriam e David McKenzie. 2009. “In Pursuit of Balance:
      Randomization in Practice in Development Field Experiments.” American
      Economic Journal: Applied Economics 1 (4): 200–32.
• Para visualizar um evento de seleção aleatória realizado para uma avaliação
  ocorrida em Camarões, ver as Ferramentas de Avaliação de Impacto do Banco
  Mundial, Módulo 3 (www.worldbank.org/health/impactevaluationtoolkit).


Notas

1. A seleção aleatória do tratamento também é comumente chamada de testes
   controlados aleatórios, experimentos aleatórios, avaliações experimentais e
   experimentos sociais, entre outras denominações. Estritamente falando, um
   experimento não precisa identiﬁcar os impactos de uma intervenção utilizando
   a seleção aleatória, mas os avaliadores geralmente usam o termo experimento
   apenas quando a avaliação emprega a seleção aleatória.
Seleção aleatória                                                                   95
     2. Observe que essa probabilidade não signiﬁca necessariamente uma chance de
        50-50 de ser sorteado. Na prática, a maioria das avaliações que utilizam seleção
        aleatória dá a cada unidade elegível uma chance de ser selecionada de modo que
        o número de vencedores (que receberão o tratamento) seja igual ao número
        total de vagas disponíveis no programa. Por exemplo, se um programa tiver
        ﬁnanciamento suﬁciente para atender apenas 1.000 comunidades entre uma
        população de 10.000 comunidades elegíveis, cada comunidade terá uma chance
        em 10 de ser selecionada para o tratamento. O poder estatístico (conceito
        discutido mais detalhadamente no capítulo 15) será maximizado quando a
        amostra de avaliação for dividida igualmente entre os grupos de tratamento e de
        comparação. No exemplo mostrado aqui, para uma amostra total de 2.000
        comunidades, o poder estatístico será maximizado pela amostragem de todas as
        1.000 comunidades de tratamento e de uma subamostra de 1.000 comunidades
        de comparação, em vez de uma amostra aleatória simples de 20% das 10.000
        comunidades originais elegíveis (o que produziria uma amostra de avaliação de,
        aproximadamente, 200 comunidades de tratamento e 1.800 comunidades de
        comparação).
     3. Por exemplo, programas de habitação que fornecem casas subsidiadas
        costumam utilizar sorteios para selecionar os participantes do programa.
        Muitas escolas charter dos Estados Unidos (que recebem ﬁnanciamento do
        governo, mas são geridas pela iniciativa privada e operam
        independentemente) também usam sorteios para selecionar os candidatos
        que serão admitidos às escolas.
     4. Além de criar grupos com características médias semelhantes, a seleção
        aleatória também cria grupos que têm distribuições semelhantes.
     5. A maioria dos programas de software permite que você deﬁna um número
        semente (número usado para inicializar um gerador de números
        pseudoaleatórios) para tornar os resultados da seleção aleatória totalmente
        transparentes e replicáveis.
     6. Conforme mencionado, por razões estatísticas, nem todas as características
        observadas devem ser semelhantes nos grupos de tratamento e de comparação
        para que a aleatorização seja bem-sucedida. Mesmo quando as características
        dos dois grupos são de fato iguais, pode-se esperar que 5% das características
        apresentem uma diferença estatisticamente signiﬁcativa quando um nível de
        conﬁança de 95% for usado para o teste. Deve-se atentar especialmente para
        as variáveis nas quais a diferença entre os grupos de tratamento e de
        comparação é grande.



     Referências

     Bertrand, M., B. Crépon, A. Marguerie e P. Premand. 2016. “Impacts à Court et
        Moyen Terme sur les Jeunes des Travaux à Haute Intensité de Main d’œuvre
        (THIMO): Résultats de l’évaluation d’impact de la composante THIMO du
        Projet Emploi Jeunes et Développement des Compétence (PEJEDEC) en Côte
        d’Ivoire.” Washington, D.C.: Banco Mundial e Abidjan, BCP-Emploi.



96                                                          Avaliação de Impacto na Prática
Blattman, Christopher, Nathan Fiala e Sebastián Martínez. 2014. “Generating
   Skilled Self-Employment in Developing Countries: Experimental Evidence
   from Uganda.” Quarterly Journal of Economics 129 (2): 697–752. doi: 10.1093/
   qje/qjt057.
Bruhn, Miriam e David McKenzie. 2009. “In Pursuit of Balance: Randomization in
   Practice in Development Field Experiments.” American Economic Journal:
   Applied Economics 1(4): 200–232.
Dupas, Pascaline. 2011. “Do Teenagers Respond to HIV Risk Information? Evidence
   from a Field Experiment in Kenya.” American Economic Journal: Applied
   Economics 3 (1): 1–34.
Glennerster, Rachel e Kudzai Takavarasha. 2013. Running Randomized Evaluations:
   A Practical Guide. Princeton, NJ: Princeton University Press.
Kremer, Michael, Jessica Leino, Edward Miguel e Alix Peterson Zwane. 2011.
   “Spring Cleaning: Rural Water Impacts, Valuation, and Property Rights
   Institutions.” Quarterly Journal of Economics 126: 145–205.
Kremer, Michael e Edward Miguel. 2004. “Worms: Identifying Impacts on
   Education and Health in the Presence of Treatment Externalities.”
   Econometrica 72 (1): 159–217.
Premand, P., O. Barry e M. Smitz. 2016. “Transferts monétaires, valeur ajoutée de
   mesures d’accompagnement comportemental, et développement de la petite
   enfance au Niger. Rapport descriptif de l’évaluation d’impact à court terme du
   Projet Filets Sociaux.” Washington, D.C.: Banco Mundial.
Schultz, Paul. 2004. “School Subsidies for the Poor: Evaluating the Mexican
   Progresa Poverty Program.” Journal of Development Economics 74 (1): 199–250.




Seleção aleatória                                                                   97
CAPÍTULO 5




Variáveis instrumentais


Avaliação de programas quando há cumprimento
parcial da seleção

Na discussão sobre seleção aleatória apresentada no capítulo 4, partimos do
pressuposto que o administrador do programa tem o poder de selecionar uni-
dades para os grupos de tratamento e de comparação, sendo que aquelas alo-
cadas para o tratamento participam do programa e aquelas alocadas para o
grupo de comparação não participam do programa. Em outras palavras, as
unidades selecionadas para os grupos de tratamento e de comparação cum-
prem com sua alocação. O cumprimento completo é obtido com mais
frequência em laboratório ou ensaios clínicos, nos quais, primeiramente,
o pesquisador pode se certiﬁcar de que todos os sujeitos do grupo de trata-
mento passarão por um determinado tratamento e, em segundo lugar, pode
estar seguro de que nenhum dos sujeitos do grupo de comparação passará por
esse mesmo tratamento.1 De maneira mais geral, no capítulo 4, partimos do
pressuposto que os programas são capazes de determinar quem são os parti-
cipantes potenciais, excluindo alguns e garantindo que outros participem.
   No entanto, em programas sociais da vida real, pode não ser realista acre-
ditar que o administrador do programa seja capaz de garantir total confor-
midade com a alocação de cada grupo. Ainda assim, muitos programas
permitem que os participantes potenciais optem por se inscrever e,
                                                                                99
                          portanto, não conseguem excluir participantes potenciais que desejem fazer
                          parte dessas iniciativas. Além disso, alguns programas têm um orçamento
                          suﬁcientemente grande para oferecer seus benefícios a toda a população
                          elegível imediatamente, de modo que a seleção aleatória dos grupos de tra-
                          tamento e comparação e a exclusão de potenciais participantes em nome da
                          avaliação seriam atitudes antiéticas. Portanto, necessitamos de uma forma
                          alternativa para avaliar o impacto desse tipo de programas.
Conceito-chave               Um método batizado de variáveis instrumentais pode nos ajudar a avaliar
O método de variável      os programas que apresentam cumprimento parcial, inscrições voluntárias
instrumental baseia-se    ou cobertura universal. Em geral, para estimar impactos, o método de variá-
em alguma fonte
                          veis instrumentais (VI) depende de alguma fonte externa de variação para
externa de variação
para determinar o
                          determinar o status do tratamento. O método tem amplas aplicações além
status do tratamento.     da avaliação de impacto. Intuitivamente, podemos descrever uma variável
A variável instrumental   instrumental como algo fora do controle do indivíduo e que inﬂuencia sua
inﬂuencia a               probabilidade de participar de um programa, mas que não está associado a
probabilidade de          suas características.
participar de um
                             Neste capítulo, discutiremos como essa variação externa, ou VI, pode ser
programa, mas está
fora do controle dos      gerada pelas regras de operação do programa que são controladas pelos ges-
participantes e não       tores ou por suas equipes de avaliação. Para produzir estimativas de impacto
está relacionada às       válidas, essa fonte externa de variação, ou variável instrumental, deve satis-
suas características.     fazer uma série de condições que discutiremos em detalhe neste capítulo.
                          A seleção aleatória para o tratamento, conforme discutido no capítulo 4, é
                          um instrumento muito bom, pois satisfaz todas as condições necessárias.
                          Usaremos o método de VI em duas aplicações comuns de avaliação de
                          impacto. Em primeiro lugar, vamos utilizá-lo como uma extensão do método
                          de seleção aleatória quando nem todas as unidades cumprem as alocações
                          de seu grupo. Em segundo lugar, vamos empregá-lo no desenho da promo-
                          ção aleatória do tratamento, um método de avaliação que pode funcionar
                          para alguns programas que oferecem inscrições voluntárias ou cobertura
                          universal. O boxe 5.1 ilustra um uso criativo do método de VI.



           Boxe 5.1: O uso do método de variáveis instrumentais para
           avaliar o impacto do programa Vila Sésamo na preparação
           para a vida escolar
           O programa de TV Vila Sésamo, voltado para      e elogios da crítica após sua primeira exibi-
           a preparação de crianças em idade pré-          ção, em 1969. Desde então, o programa já
           escolar para os primeiros anos do ensino fun-   foi assistido por milhões de crianças. Em
           damental, rapidamente ganhou popularidade       2015, Kearney e Levine procuraram avaliar os
                                                                                                (continua)



100                                                                             Avaliação de Impacto na Prática
     Boxe 5.1: O uso do método de variáveis instrumentais para avaliar o impacto do programa Vila Sésamo
     na preparação para a vida escolar (continuação)

     impactos de longo prazo do programa me-            que, como as torres de TV foram construídas
     diante uma avaliação retrospectiva realizada       em locais determinados pelo governo —
     nos Estados Unidos. Aproveitando as limita-        antes de Vila Sésamo começar a ser transmi-
     ções da tecnologia de transmissão televisiva       tido —, a variável não estaria relacionada às
     dos primeiros anos do programa, os pesqui-         características do domicílio nem às mudanças
     sadores usaram uma abordagem de variáveis          no resultado.
     instrumentais.                                         A avaliação detectou resultados positivos
        Nos primeiros anos, o programa não era          relacionados à preparação para a vida esco-
     acessível a todos os domicílios norte-america-     lar em crianças em idade pré-escolar. Nas
     nos, pois era transmitido apenas em canais         áreas onde havia recepção do sinal de UHF
     de frequência ultra alta (UHF). Apenas cerca       quando o programa começou a ser transmi-
     de dois terços da população dos EUA viviam         tido, as crianças apresentaram maior pro-
     em áreas onde o programa era acessível.            pensão a avançar pelos primeiros anos do
     Dessa maneira, Kearney e Levine (2005) utili-      ensino fundamental na idade apropriada.
     zaram a distância entre os domicílios e a torre    Esse efeito foi particularmente notável em
     de TV mais próxima com sinal UHF como ins-         crianças afro-americanas e não hispânicas,
     trumento para determinar a participação no         em meninos e em crianças que viviam em
     programa. Os pesquisadores argumentam              áreas economicamente desfavorecidas.

     Fonte: Kearney e Levine 2015.




Tipos de estimativas de impacto

Uma avaliação de impacto sempre calcula o impacto de um programa
através da comparação dos resultados de um grupo de tratamento com a
estimativa do contrafactual obtida a partir de um grupo de comparação. No
capítulo 4, presumimos a hipótese do cumprimento completo com o trata-
mento, isto é, todas as unidades às quais um programa foi oferecido real-
mente se inscreveram nele e nenhuma das unidades de comparação recebeu
o programa. Nesse cenário, estimamos o efeito médio do tratamento (ATE,
do inglês “average treatment effect”) para a população.
   Na avaliação de programas que ocorrem na vida real, nos quais os
participantes potenciais podem decidir se desejam se inscrever ou não,
o cumprimento completo é menos comum do que em cenários como os de
experimentos feitos em laboratório. Na prática, os programas normalmente
oferecem a oportunidade do tratamento a um grupo especíﬁco, e algumas
unidades participam da iniciativa, enquanto outras, não. Nesse caso, sem o
cumprimento completo, as avaliações de impacto podem estimar o efeito da
oferta de um programa ou o efeito da participação nesse programa.
Variáveis instrumentais                                                                                    101
                              Na ausência do cumprimento completo no grupo de tratamento, o
                           impacto estimado Δ é chamado de intenção de tratar (ITT, do inglês “inten-
                           tion to treat”), deﬁnido como a comparação entre os grupos aos quais o pro-
                           grama foi oferecido aleatoriamente (grupo de tratamento) ou não (grupo de
                           comparação) — independentemente de os participantes do grupo de trata-
                           mento realmente terem ou não se inscrito na iniciativa. A ITT é uma média
                           ponderada dos resultados dos participantes e não participantes no grupo de
                           tratamento comparada ao resultado médio do grupo de comparação. Ela é
                           importante para os casos em que tentamos determinar o impacto médio da
                           oferta de um programa e em que a inscrição no grupo de tratamento é
                           voluntária. Em contrapartida, também podemos estar interessados em
                           saber o impacto de um programa para o grupo de indivíduos que receberam
                           a oferta do programa e realmente participaram dele. Esse impacto estimado
                           é chamado de tratamento no tratado (TOT, do inglês “treatment on the trea-
                           ted”). A ITT e o TOT serão os mesmos quando houver cumprimento com-
                           pleto. Voltaremos à diferença entre a ITT e o TOT em seções futuras, mas
                           comecemos com um exemplo para ilustrar esses conceitos.
                              Consideremos o Programa de Subsídio ao Seguro Saúde, ou HISP, discu-
                           tido em capítulos anteriores. Devido a considerações operacionais e para
                           minimizar os transbordamentos, a menor unidade de tratamento escolhida
                           pelo governo é o povoado. As famílias dos povoados participantes do trata-
                           mento (aqueles para os quais o programa de seguro saúde está sendo ofere-
                           cido) podem se inscrever voluntariamente para receber um subsídio de
                           seguro saúde, enquanto as famílias das comunidades de comparação não
                           podem. Mesmo que todas as famílias dos povoados de tratamento sejam ele-
                           gíveis para se inscrever no programa de seguro saúde, uma parcela dos
                           domicílios — digamos, 10% — pode optar por não o fazer (talvez por já terem
                           seguro saúde concedido pelas empresas onde trabalham, por serem saudá-
Conceito-chave             veis e não anteverem a necessidade de assistência médica ou devido a uma
A intenção de tratar       miríade de outras razões).
(ITT) estima a diferença
                              Nesse cenário, 90% das famílias dos povoados de tratamento decidem se
de resultados entre as
unidades selecionadas      inscrever no programa e, de fato, recebem os serviços oferecidos por ele. A
para o grupo de            estimativa ITT seria obtida pela comparação do resultado médio de todas as
tratamento e as            famílias para as quais o programa foi oferecido — ou seja, para 100% das
unidades selecionadas      famílias dos povoados de tratamento — com o resultado médio dos povoa-
para o grupo de            dos de comparação (onde nenhuma família se inscreveu). Em contrapartida,
comparação,
independentemente de
                           o TOT pode ser descrito como o impacto estimado para os 90% das famílias
as unidades alocadas       dos povoados de tratamento que se inscreveram no programa. É importante
para o grupo de            observar que, como os indivíduos que participam de um programa ao rece-
tratamento realmente       berem uma oferta podem diferir dos indivíduos que receberam essa mesma
receberem o                oferta, mas optaram por não participar, o impacto TOT não é, necessaria-
tratamento.
                           mente, igual ao impacto que obteríamos para os 10% das famílias dos
102                                                                          Avaliação de Impacto na Prática
povoados participantes do tratamento que não se inscreveram, caso elas         Conceito-chave
viessem a se inscrever. Dessa maneira, os efeitos locais do tratamento não     O tratamento no tratado
podem ser extrapolados diretamente de um grupo para o outro.                   (TOT) estima a diferença
                                                                               entre os resultados das
                                                                               unidades que realmente
                                                                               recebem o tratamento e
Cumprimento parcial                                                            o grupo de comparação.

Conforme já foi discutido, em programas sociais na vida real, é desejável o
cumprimento completo dos critérios de seleção de um programa (e, por-
tanto, a adesão ao tratamento ou ao status de comparação), e os gestores
públicos e equipes de avaliação normalmente se esforçam para se aproximar
desse ideal. Na prática, uma adesão estrita de 100% às alocações de trata-
mento e de comparação pode não ocorrer, apesar de todos os esforços das
equipes responsáveis pela implementação do programa e pela avaliação.
Trabalharemos com os diferentes casos que podem ocorrer e discutiremos
as implicações para os métodos de avaliação que podem ser utilizados. Antes
de mais nada, gostaríamos de enfatizar que a melhor solução para o cumpri-
mento parcial é evitá-lo em primeiro lugar. Nesse sentido, os gestores de
programas e os formuladores de políticas públicas devem se esforçar para
manter o cumprimento tão alto quanto possível no grupo de tratamento e
tão baixo quanto possível no grupo de comparação.
    Digamos que você esteja tentando avaliar um programa de capacitação
de professores, em que 2.000 professores são elegíveis para participar de um
treinamento piloto. Os professores foram selecionados aleatoriamente para
um dos dois grupos: 1.000 professores foram alocados para o grupo de trata-
mento e 1.000 professores foram alocados para o grupo de comparação. Se
todos os professores do grupo de tratamento receberem a capacitação e
nenhum professor do grupo de comparação a receber, poderemos estimar o
efeito médio do tratamento (ATE) por meio da diferença entre os resultados
médios (digamos, as notas dos estudantes nas provas) dos dois grupos. Este
ATE é o impacto médio do tratamento para os 1.000 professores participan-
tes, uma vez que todos os professores selecionados para o grupo de trata-
mento realmente participaram do curso, enquanto nenhum dos professores
selecionados para o grupo de comparação participou.
    O primeiro caso de cumprimento parcial ocorrerá quando algumas das
unidades selecionadas para o grupo de tratamento optarem por não se ins-
crever ou forem deixadas sem tratamento. No exemplo do programa de
capacitação de professores, alguns professores selecionados para o grupo de
tratamento não apareceram no primeiro dia do curso. Nesse caso, não pode-
mos calcular o tratamento médio para a população de professores porque
alguns professores não se inscreveram. Por isso, não será possível calcular
quais teriam sido seus resultados após o tratamento. Mas podemos estimar
Variáveis instrumentais                                                                            103
      o impacto médio do programa para os professores que realmente ﬁzeram ou
      aceitaram o tratamento. Queremos estimar o impacto do programa para os
      professores selecionados para o grupo de tratamento e que realmente se
      inscreveram nele. Essa é a estimativa de tratamento no tratado (TOT).
      No  exemplo da capacitação de professores, a estimativa TOT fornece o
      impacto para os professores alocados no grupo de tratamento que realmente
      compareceram às aulas e receberam o treinamento.
         O segundo caso de cumprimento parcial ocorre quando os indivíduos sele-
      cionados para o grupo de comparação conseguem participar do programa.
      Aqui os impactos não podem ser estimados diretamente para todo o grupo de
      tratamento, pois seus correspondentes no grupo de comparação não podem
      ser observados sem tratamento. As unidades tratadas no grupo de compara-
      ção deveriam gerar uma estimativa do contrafactual para algumas unidades
      no grupo de tratamento, mas essas unidades receberam o tratamento.
      Portanto, não há maneira de saber qual seria o impacto do programa para esse
      subconjunto de indivíduos. No exemplo do programa de capacitação de pro-
      fessores, digamos que os professores mais motivados do grupo de compara-
      ção consigam participar do curso de alguma maneira. Nesse caso, os
      professores mais motivados do grupo de tratamento não teriam pares no
      grupo de comparação e, portanto, não seria possível estimar o impacto do
      treinamento para aquele segmento de professores motivados.
         Quando houver descumprimento de ambos os lados, é preciso conside-
      rar cuidadosamente o tipo de efeito do tratamento que será estimado e
      como interpretá-lo. A primeira opção é realizar uma comparação direta
      entre o grupo originalmente selecionado para o tratamento e o grupo origi-
      nalmente selecionado para o grupo de comparação. Isso resultará na esti-
      mativa da intenção de tratar (ITT). A ITT compara os indivíduos que
      pretendíamos tratar (aqueles selecionados para o grupo de tratamento)
      com os que não pretendíamos tratar (aqueles selecionados para o grupo de
      comparação). Se o descumprimento ocorrer apenas do lado do tratamento,
      essa pode ser uma medida interessante e relevante de impacto, pois, de
      qualquer modo, a maioria dos formuladores de políticas públicas e gestores
      de programas só pode oferecer um programa — não podem obrigar sua
      população-alvo a aceitá-lo.
         No exemplo do programa de capacitação de professores, o governo pode
      querer descobrir o impacto médio do programa para todos os professores
      selecionados para o tratamento, mesmo que alguns deles não participem do
      curso. Isso ocorre porque, mesmo que o governo expanda o programa, pro-
      vavelmente sempre haverá professores que nunca participarão dele. No
      entanto, se houver descumprimento no lado da comparação, a estimativa da
      intenção de tratar não será tão elucidativa. No caso do programa de capaci-
      tação de professores, como o grupo de comparação inclui professores que
104                                                     Avaliação de Impacto na Prática
foram treinados, o resultado médio do grupo de comparação foi afetado pelo
tratamento. Suponhamos que o efeito do curso de professores sobre os
resultados seja positivo. Se os professores tratados do grupo de comparação
forem os professores mais motivados e se eles se beneﬁciarem mais do trei-
namento, o resultado médio para o grupo de comparação terá um viés posi-
tivo (porque os professores motivados do grupo de comparação que foram
treinados aumentarão o resultado médio) e a estimativa ITT apresentará
um viés negativo (uma vez que ela é a diferença entre os resultados médios
dos grupos de tratamento e de comparação).
   Sob essas circunstâncias de descumprimento, uma segunda opção é esti-
mar o que é conhecido como o efeito médio local do tratamento (LATE, do
inglês “local average treatment effect”). O LATE precisa ser interpretado
cuidadosamente, pois representa os efeitos do programa apenas para um
subgrupo especíﬁco da população. Em especial, quando há descumpri-
mento tanto no grupo de tratamento quanto no grupo de comparação, o
LATE é o impacto para o subgrupo que cumpriu com a alocação determi-
nada pela seleção aleatória. No exemplo do programa de capacitação de pro-
fessores, se houver descumprimento nos grupos de tratamento e de
comparação, a estimativa do LATE será válida apenas para os professores do
grupo de tratamento que se inscreveram no programa e que não teriam se
inscrito caso tivessem sido alocados para o grupo de comparação.
   No restante desta seção, explicaremos como estimar o LATE e, igual-
mente importante, como interpretar os resultados. Os princípios para esti-
mar um LATE são aplicados quando há descumprimento no grupo de
tratamento, no grupo de comparação ou em ambos simultaneamente.
O TOT é simplesmente um LATE no caso mais especíﬁco em que há des-
cumprimento apenas no grupo de tratamento. Portanto, o restante deste
capítulo se concentrará em mostrar como estimar o LATE.


Seleção aleatória para um programa e participação ﬁnal

Imaginemos que se está avaliando o impacto de um programa de treina-
mento proﬁssional sobre os salários dos trabalhadores. O programa é aleato-
rizado no nível individual. O grupo de tratamento é selecionado para o
programa, enquanto o grupo de comparação não é. Muito provavelmente,
você encontrará três tipos de indivíduos nessa população:

• Participa se for selecionado. Estes são os indivíduos que cumprem sua
  alocação. Se forem selecionados para o grupo de tratamento (alocados
  ao programa), participarão ou se inscreverão nele. Se forem seleciona-
  dos  para o grupo de comparação (não alocados ao programa), não se
  inscreverão.
Variáveis instrumentais                                                       105
                          • Nunca. Estes são os indivíduos que nunca se inscrevem nem participam
                            do programa, mesmo que sejam selecionados para o grupo de tratamento.
                            Se forem selecionados para o grupo de tratamento, esses indivíduos serão
                            não cumpridores.
                          • Sempre. Estes são os indivíduos que encontrarão uma maneira de se ins-
                            crever no programa ou de participar dele, mesmo que sejam selecionados
                            para o grupo de comparação. Se forem selecionados para o grupo de com-
                            paração, serão não cumpridores.
                             No contexto do programa de treinamento proﬁssional, o grupo Nunca
                          pode ser formado por pessoas desmotivadas que, mesmo que tenham sido
                          selecionadas e recebido uma vaga no curso, não comparecem às aulas.
                          Os  indivíduos do grupo Sempre, ao contrário, estão tão motivados que
                          encontram uma maneira de entrar no programa mesmo que tenham sido
                          inicialmente selecionados para o grupo de comparação. O grupo Participa se
                          for selecionado é aquele formado pelas pessoas que se inscrevem no curso
                          caso sejam selecionadas para ele, mas que não procuram se matricular se
                          forem selecionadas para o grupo de comparação.
                             A ﬁgura 5.1 apresenta a seleção aleatória do programa e o número ﬁnal de
                          inscritos quando os tipos Participa se for selecionado, Nunca e Sempre estão
                          presentes. Digamos que a população seja composta por 80% de Participa se
                          for selecionado, 10% de Nunca, e 10% de Sempre. Se tomarmos uma amostra
                          aleatória da população para a amostra de avaliação, esta terá também


  Figura 5.1       Seleção aleatória com cumprimento parcial

      Definir as unidades elegíveis     Selecionar a amostra      Aleatorizar a seleção           Inscrição
                                        de avaliação              para o tratamento




   Nunca Participa Sempre Validade externa                 Validade interna
  participa apenas participa
              se for
          selecionado

106                                                                                Avaliação de Impacto na Prática
aproximadamente 80% de Participa se for selecionado, 10% de Nunca e 10%
de Sempre. Em seguida, se selecionarmos aleatoriamente a amostra de ava-
liação para os grupos de tratamento e comparação, teríamos mais uma vez
aproximadamente 80% de Participa se for selecionado, 10% de Nunca e 10%
de Sempre em ambos os grupos. No grupo selecionado para o tratamento, os
indivíduos do tipo Participa se for selecionado e Sempre se inscreverão, e
somente os do grupo Nunca ﬁcarão ausentes. No grupo de comparação, os
indivíduos do tipo Sempre se inscreverão, enquanto os do grupo Participa se
for selecionado e Nunca ﬁcarão de fora. É importante lembrar que, embora
saibamos que esses três tipos de indivíduos existem na população, não pode-
mos, necessariamente, distinguir o tipo de um indivíduo até que observe-
mos certos comportamentos. No grupo de tratamento, seremos capazes de
identiﬁcar o tipo Nunca quando os indivíduos desse grupo não se inscreve-
rem, mas não conseguiremos distinguir os tipos Participa se for selecionado
e Sempre, pois ambos se inscreverão. No grupo de comparação, seremos
capazes de identiﬁcar o tipo Sempre quando os indivíduos desse tipo se ins-
creverem, mas não conseguiremos distinguir o Participa se for selecionado
do Nunca, uma vez que ambos os tipos permanecerão como não inscritos.


Estimar o impacto na presença de seleção aleatória com
cumprimento parcial

Após estabelecermos a diferença entre a seleção aleatória de um programa e
a inscrição ou aceite real, estimaremos o efeito médio local do tratamento
(LATE) do programa. Essa estimativa é feita em duas etapas, ilustradas na
ﬁgura 5.2.2
   Para estimar o impacto do programa na presença de seleção aleatória
com cumprimento parcial, primeiro estimamos o impacto mediante a esti-
mativa da intenção de tratar (ITT). Lembre-se que essa é a diferença entre o
indicador de resultado (Y) para o grupo que selecionamos para o tratamento
e o mesmo indicador para o grupo que não selecionamos para o tratamento.
Por exemplo, se o salário médio (Y) para o grupo de tratamento for de
US$ 110 e o salário médio para o grupo de comparação for de US$ 70, a esti-
mativa do impacto da intenção de tratar seria de US$ 40 (US$ 110 menos
US$ 70).
   Em segundo lugar, precisamos recuperar a estimativa do efeito médio
local do tratamento (LATE) para o grupo Participa se for selecionado a
partir da estimativa da intenção de tratar. Para fazer isso, precisamos
identiﬁcar de onde veio a diferença de US$ 40. Procederemos por elimi-
nação. Primeiro, sabemos que a variação não pode ser causada por qual-
quer diferença entre as pessoas que nunca se inscrevem (os do tipo Nunca)
nos grupos de tratamento e de comparação. Isso porque os Nunca não se
Variáveis instrumentais                                                        107
      Figura 5.2 Estimar o efeito médio local do tratamento na presença de
      seleção aleatória com cumprimento parcial


                       Grupo selecionado          Grupo não selecionado
                                                                                        Impacto
                       para o tratamento            para o tratamento
                    Percentual inscrito = 90%    Percentual inscrito = 10%
                                                                                  Δ% de inscritos = 80%
                    Média Y para aqueles         Média Y para aqueles não
                                                                                      ΔY = ITT = 40
                    selecionados para o          selecionados para o
                                                                                   LATE = 40/80% = 50
                    tratamento = 110             tratamento = 70

       Nunca
       participa




      Participa
      apenas se
      selecionado
      para o
      tratamento




      Sempre
      participa



      Observação: Δ = impacto causal; Y = resultado. A estimativa da intenção de tratar (ITT) é obtida ao
      compararmos os resultados daqueles selecionados para o grupo de tratamento com os daqueles se-
      lecionados para o grupo de comparação, independentemente da inscrição real. A estimativa do efeito
      médio local do tratamento (LATE) fornece o impacto do programa para aqueles que se inscrevem
      apenas se forem selecionados para o programa (Participa se for selecionado). A estimativa do LATE
      não informa o impacto do programa para aqueles que nunca se inscrevem (Nunca) nem para aqueles
      que sempre se inscrevem (Sempre).




      inscreveram no programa e, portanto, para eles, não importa se estão no
      grupo de tratamento ou de comparação. Segundo, sabemos que a dife-
      rença de US$ 40 não pode ser causada por diferenças entre as pessoas do
      tipo Sempre dos grupos de tratamento e de comparação porque essas pes-
      soas sempre se inscrevem no programa. Para elas, também não faz dife-
      rença se fazem parte do grupo de tratamento ou do grupo de comparação.
      Dessa maneira, a diferença nos resultados entre os dois grupos deve,
      necessariamente, se originar do efeito do programa sobre o único grupo
      afetado por sua seleção para o tratamento ou comparação, ou seja, o grupo
      Participa se for selecionado. Assim, se pudermos identiﬁcar as pessoas do
      tipo Participa se for selecionado em ambos os grupos, será fácil estimar o
      impacto do programa sobre eles.
         Na realidade, embora saibamos que esses três tipos de indivíduos existem
      na população, não podemos separá-los, enquanto unidades independentes,


108                                                                       Avaliação de Impacto na Prática
em Participa se for selecionado, Nunca ou Sempre. No grupo selecionado
para o tratamento, podemos identiﬁcar os Nunca (porque eles não se inscre-
veram), mas não podemos diferenciar os Sempre dos Participa se for selecio-
nado (porque ambos se inscreveram). No grupo que não foi selecionado para
o tratamento, podemos identiﬁcar o grupo Sempre (porque eles se inscreve-
ram no programa), mas não podemos diferenciar o Nunca do Participa se for
selecionado.
   No entanto, quando observamos que 90% das unidades do grupo de tra-
tamento se inscreveram, podemos deduzir que 10% das unidades de nossa
população devem ser do tipo Nunca (ou seja, a fração de indivíduos do grupo
que foi selecionado para o tratamento mas não se inscreveu). Além disso, se
observarmos que 10% das unidades do grupo não selecionado para o trata-
mento se inscreveram, saberemos que 10% são do tipo Sempre (novamente,
a fração de indivíduos do nosso grupo que não foi selecionada para trata-
mento, mas se inscreveu). Isso deixa 80% das unidades no grupo Participa se
for selecionado. Sabemos que o impacto total de US$ 40 originou-se de uma
diferença na inscrição de 80% das unidades de nossa amostra que são do
grupo Participa se for selecionado. Dessa maneira, se 80% das unidades são
responsáveis por um impacto médio de US$ 40 para todo o grupo alocado ao
tratamento, então o impacto sobre esses 80% de indivíduos do tipo Participa
se for selecionado deve ser de 40/0,8, ou US$  50. Em outras palavras, o
impacto do programa para o grupo Participa se for selecionado é de US$ 50,
mas quando esse impacto é dividido por todo o grupo selecionado para o
tratamento, o efeito médio é diluído pelos 20% que descumpriram a seleção
aleatória original.
   Lembre-se que uma das questões básicas da autosseleção para a partici-
pação em programas é o fato de que nem sempre é possível saber por que
algumas pessoas optam por participar e outras, não. Quando realizamos
uma avaliação na qual as unidades são selecionadas aleatoriamente para o
programa, mas a participação real é voluntária ou existe uma maneira de as
unidades do grupo de comparação entrarem no programa, temos um pro-
blema semelhante: nem sempre compreenderemos os processos comporta-
mentais que determinam se um indivíduo se comporta como um indivíduo
do tipo Nunca, do tipo Sempre ou do tipo Participa se for selecionado. No
entanto, desde que o descumprimento não seja muito grande, a seleção ale-
atória ainda fornece uma poderosa ferramenta para estimar o impacto.
A  desvantagem da seleção aleatória com cumprimento parcial é que essa
estimativa de impacto não é mais válida para toda a população. Em vez disso,
a estimativa deve ser interpretada como uma estimativa local que se aplica
apenas a um subgrupo especíﬁco da nossa população-alvo, o do tipo
Participa se for selecionado.

Variáveis instrumentais                                                        109
                       A seleção aleatória para um programa tem duas características importan-
                    tes que nos permitem estimar o impacto quando há cumprimento parcial
                    (ver o boxe 5.2):
                    1. Pode servir de preditor para as inscrições reais no programa caso a maio-
                       ria das pessoas se comporte como Participa se for selecionado, inscre-
                       vendo-se no programa quando selecionadas para o tratamento e não se
                       inscrevendo quando não selecionadas para tratamento.



      Boxe 5.2: Usando o método de variáveis instrumentais para lidar
      com o não cumprimento em um programa de vouchers escolares
      na Colômbia
      O Programa de Ampliação da Cobertura do             Foi registrado certo nível de não cumpri-
      Ensino Médio (Programa de Ampliación de         mento da seleção aleatória. Aproximadamente
      Cobertura de la Educación Secundaria, ou        90% dos vencedores do sorteio realmente
      PACES), na Colômbia, forneceu vouchers a        usaram o voucher ou outra forma de bolsa de
      mais de 125.000 estudantes para cobrir          estudos, e 24% dos não contemplados pelo
      pouco mais da metade dos custos de fre-         sorteio tinham, na verdade, recebido bolsas
      quentar uma escola secundária particular.       de estudos. Usando a terminologia mencio-
      Devido ao orçamento limitado do PACES, os       nada anteriormente, a população devia ter
      vouchers foram distribuídos por meio de um      10% de indivíduos do tipo Nunca, 24% do
      sorteio. Angrist e outros (2002) aproveita-     tipo Sempre e 66% do tipo Participa se for
      ram a seleção aleatória para o tratamento       selecionado. Portanto, Angrist e outros
      para determinar o efeito do programa de         (2002) também utilizaram a seleção original,
      vouchers sobre os resultados educacionais       ou o status de contemplado ou não contem-
      e sociais.                                      plado pelo sorteio, como uma variável instru-
         Os autores descobriram que os vencedo-       mental para o tratamento no tratado ou para
      res do sorteio tinham uma probabilidade         o recebimento de uma bolsa de estudos. Por
      10% maior de completar a 8ª série e um          ﬁm, os pesquisadores conseguiram realizar
      desempenho, em média, 0,2 desvio padrão         uma análise de custo-benefício para enten-
      maior em testes padronizados três anos          der melhor o impacto do programa de vou-
      após o sorteio inicial. Eles também descobri-   chers sobre as despesas do governo e das
      ram que os efeitos educacionais foram maio-     famílias. Concluíram que os custos sociais
      res para as meninas do que para os meninos.     totais do programa são pequenos e são com-
      Em seguida, os pesquisadores analisaram o       pensados pelos retornos esperados para os
      impacto do programa sobre vários resulta-       participantes e suas famílias. Isso sugere que
      dos não educacionais e descobriram que os       os programas baseados no lado da demanda
      vencedores do sorteio tinham uma propen-        dos beneﬁciários, como o PACES, podem ser
      são menor de serem casados e trabalhavam        uma forma custo-efetiva de aumentar o nível
      cerca de 1,2 hora a menos por semana.           de escolaridade da população.

      Fonte: Angrist e outros 2002.



110                                                                        Avaliação de Impacto na Prática
2. Como os dois grupos (dos selecionados e dos não selecionados para o tra-
   tamento) são gerados por meio de um processo aleatório, as característi-
   cas dos indivíduos dos dois grupos não são correlacionadas com nenhum
   outro fator — como capacidade ou motivação — que também possa afetar
   os resultados (Y).
   Em termos estatísticos, a seleção aleatória serve como uma variável ins-
trumental que prevê a inscrição efetiva das unidades em um programa, mas
que não está correlacionada a outras características das unidades que podem
estar relacionadas aos resultados. Mesmo que parte da decisão dos indiví-
duos de se inscrever em um programa não possa ser controlada pelos gesto-
res do programa, outra parte dessa decisão está sob o controle dos gestores.
Em especial, a parte da decisão que pode ser controlada é a seleção para os
grupos de tratamento e de comparação. Desde que a seleção para os grupos
de tratamento e de comparação preveja a inscrição ﬁnal no programa, a sele-
ção aleatória pode ser utilizada como um instrumento para prever a inscri-
ção ﬁnal. Ter essa variável instrumental (VI) nos permite recuperar as
estimativas do efeito médio local do tratamento a partir das estimativas do
efeito da intenção de tratar para o tipo de unidades de Participa se for
selecionado.
   Uma VI válida deve satisfazer duas condições básicas:
1. Não deve ser correlacionada com as características dos grupos de trata-
   mento e de comparação. Isso é alcançado por meio da seleção aleatória
   para o tratamento entre as unidades da amostra de avaliação. Essa condi-
   ção é conhecida como exogeneidade. É importante que a variável instru-
   mental não afete diretamente o resultado de interesse. Os impactos
   devem ser causados apenas pelo programa que estamos interessados em
   avaliar.
2. Deve afetar a participação dos grupos de tratamento e de comparação de
   maneira diferente. Geralmente, pensamos em aumentar a participação
   no grupo de tratamento. Isso pode ser veriﬁcado se observarmos que a
   participação é maior no grupo de tratamento do que no grupo de compa-
   ração. Essa condição é conhecida como relevância.


Interpretar a estimativa do efeito médio local do tratamento

A diferença entre a estimativa do efeito médio de um tratamento e a estima-
tiva do efeito médio local de um tratamento é especialmente importante
quando se trata de interpretar os resultados de uma avaliação. Pensemos sis-
tematicamente como interpretar uma estimativa do LATE. Primeiro, preci-
samos reconhecer que os indivíduos que cumprem a alocação deﬁnida pela
Variáveis instrumentais                                                        111
      seleção aleatória de um programa (os indivíduos do tipo Participa se for sele-
      cionado) são diferentes dos indivíduos que não a cumprem (os indivíduos
      dos tipos Nunca e Sempre). Em particular, no grupo de tratamento, os não
      cumpridores/não participantes (Nunca) podem ser aqueles que esperam
      obter poucos benefícios da intervenção. No grupo de comparação, os não
      cumpridores/participantes (Sempre) provavelmente pertencem ao grupo de
      indivíduos que espera se beneﬁciar mais de sua participação no programa.
      Em nosso exemplo do programa de capacitação de professores, os professo-
      res que são selecionados para o treinamento, mas decidem não participar
      (indivíduos do tipo Nunca), podem ser aqueles que acreditam não precisar
      de treinamento, professores cujo custo de oportunidade do tempo é maior
      (por exemplo, porque possuem um segundo emprego ou precisam cuidar
      dos ﬁlhos) ou professores que não são supervisionados adequadamente e
      podem escapar do treinamento sem maiores consequências. Por outro lado,
      os professores que são selecionados para o grupo de comparação, mas se
      inscrevem de qualquer maneira (os indivíduos do tipo Sempre), podem ser
      aqueles que sentem que precisam de treinamento, os que não têm ﬁlhos
      para cuidar ou aqueles cujo diretor mantém um controle rigoroso sobre as
      atividades do corpo docente e insiste que todos precisam ser treinados.
         Segundo, sabemos que a estimativa do LATE fornece o impacto para um
      subgrupo especíﬁco da população: ela leva em consideração apenas os
      subgrupos que não são afetados por nenhum dos tipos de descumprimento.
      Em outras palavras, considera somente o tipo Participa se for selecionado.
      Como esse tipo é diferente dos tipos Nunca e Sempre, o impacto encon-
      trado por meio da estimativa do LATE não se aplica aos tipos Nunca ou
      Sempre. Por exemplo, se o Ministério da Educação implementasse uma
      segunda rodada de treinamento e obrigasse, de alguma maneira, os profes-
      sores do tipo Nunca que não foram treinados na primeira rodada a passar
      pela capacitação, não seria possível saber se esses professores apresenta-
      riam efeitos maiores, menores ou iguais em relação aos professores que
      participaram da primeira rodada. Da mesma forma, se os professores mais
      motivados sempre encontram uma maneira de participar do programa de
      capacitação, apesar de terem sido aleatoriamente selecionados para o
      grupo de comparação, o efeito médio local do tratamento para aqueles que
      cumprem a alocação nos grupos de tratamento e de comparação não nos dá
      informações sobre o impacto do programa para os professores altamente
      motivados (do tipo Sempre). A estimativa do efeito médio local do trata-
      mento aplica-se apenas a um subconjunto especíﬁco da população: o tipo
      que não é afetado pelo descumprimento — ou seja, apenas o tipo que cum-
      pre com a seleção aleatória — e não deve ser extrapolada para outros sub-
      conjuntos da população.

112                                                       Avaliação de Impacto na Prática
Promoção aleatória como variável instrumental

Na seção anterior, vimos como estimar o impacto com base na seleção alea-
tória para o grupo de tratamento, mesmo que o cumprimento da alocação
original do programa seja imperfeito. A seguir, propomos uma abordagem
muito semelhante que poderá ser aplicada para avaliar programas que apre-
sentam elegibilidade universal, inscrições abertas, ou aqueles em que o
administrador não tem controle sobre quem participa ou não da iniciativa.
   Essa abordagem, batizada de promoção aleatória (também conhecida
como desenho de encorajamento), fornece um encorajamento adicional para
que um grupo aleatório de unidades se inscreva no programa. Essa promo-
ção aleatória serve como uma variável instrumental. Atua como uma fonte
externa de variação que afeta a probabilidade de receber o tratamento, mas
não está relacionada com as características dos participantes.
   Os programas de inscrição voluntária normalmente permitem que os
indivíduos que estão interessados no programa decidam por conta própria
se desejam ou não se inscrever e participar. Mais uma vez, consideremos o
programa de capacitação proﬁssional discutido anteriormente, só que, desta
vez, não será possível utilizar a seleção aleatória, e qualquer indivíduo que
deseje se inscrever no programa poderá fazê-lo. Em linha com o nosso
exemplo anterior, esperamos encontrar diferentes tipos de pessoas: as cum-
pridoras, as do grupo Nunca e as do grupo Sempre.
• Sempre. Estes são os indivíduos que sempre se inscreverão no programa.
• Nunca. Estes são os indivíduos que nunca se inscreverão.
• Cumpridores ou Participa se for encorajado. Nesse contexto, qualquer
  indivíduo que queira se inscrever no programa poderá fazê-lo. No
  entanto, alguns indivíduos que estariam interessados em se inscrever, por
  uma variedade de razões, podem não ter informações suﬁcientes ou o
  incentivo correto para fazê-lo. Aqui, os cumpridores são aqueles que
  Participam se forem encorajados: formam um grupo de indivíduos que se
  inscreverão no programa apenas se receberem um incentivo, um estí-
  mulo ou uma promoção adicional que os motive a fazê-lo. Sem esse estí-
  mulo adicional, os indivíduos do grupo Participa se for encorajado
  simplesmente ﬁcariam de fora do programa.
Voltando ao exemplo da capacitação proﬁssional, se a agência que organiza o
treinamento for bem ﬁnanciada e tiver capacidade suﬁciente para atender a
demanda, poderá adotar uma política de “portas abertas” e tratar todos os
desempregados que desejem participar do programa. É improvável, no
entanto, que todos os desempregados tomem a iniciativa de participar do

Variáveis instrumentais                                                         113
      treinamento ou até mesmo que tenham conhecimento da existência do pro-
      grama. Alguns desempregados podem se mostrar relutantes em se inscrever,
      pois sabem muito pouco sobre o conteúdo do treinamento e acham difícil
      obter informações adicionais. Suponhamos agora que a agência de capacita-
      ção proﬁssional contrate um agente comunitário para percorrer a cidade e
      encorajar um grupo de pessoas desempregadas selecionado aleatoriamente
      para se inscrever no programa de capacitação proﬁssional. Com a lista de
      desempregados selecionados aleatoriamente nas mãos, esse agente bate na
      porta dessas pessoas, descreve o programa de capacitação e oferece ajuda
      imediata para que se inscrevam no programa. A visita é uma forma de promo-
      ção, ou encorajamento para a participação no programa. É claro que o agente
      não pode obrigar ninguém a participar. Além disso, os desempregados que o
      agente comunitário não visitar também poderão se inscrever, embora eles
      tenham que comparecer à agência para fazê-lo. Dessa maneira, temos agora
      dois grupos de desempregados: aqueles que foram selecionados aleatoria-
      mente para receber uma visita do agente comunitário e aqueles que não
      foram selecionados aleatoriamente para a visita. Se o esforço de divulgação
      for efetivo, a taxa de inscrição entre os desempregados que foram visitados
      deve ser superior à taxa entre os desempregados que não foram visitados.
         Agora pensemos sobre como podemos avaliar esse programa de capacita-
      ção proﬁssional. Não podemos simplesmente comparar os desempregados
      que se inscreveram àqueles que não se inscreveram, porque os desemprega-
      dos que se inscreveram provavelmente são muito diferentes daqueles que
      não se inscreveram, tanto com respeito às variáveis observáveis quanto às
      não observáveis: podem ter um nível educacional maior ou menor (isso
      pode ser facilmente observado) e provavelmente estarão mais motivados e
      ansiosos para encontrar um emprego (isso é difícil de observar e de medir).
         No entanto, existe alguma variação adicional que podemos explorar para
      encontrar um grupo de comparação válido. Considere, por um momento, se
      podemos comparar o grupo de pessoas que foram aleatoriamente seleciona-
      das para receber uma visita do agente comunitário com o grupo que não foi
      visitado. Como os grupos de encorajados e não encorajados foram determi-
      nados aleatoriamente, ambos os grupos contêm composições idênticas de
      pessoas muito motivadas (Sempre), que se inscreverão caso o agente comu-
      nitário bata em sua porta ou não. Ambos os grupos também contêm pessoas
      desmotivadas (Nunca), que não se inscreverão no programa apesar dos
      esforços do agente comunitário. Por ﬁm, se o agente for eﬁcaz em sua tarefa
      de motivar as inscrições, algumas pessoas (Participa se for encorajado) se
      inscreverão no treinamento se o agente as visitar, mas não se inscreverão
      caso ele não o faça.
         Como o agente comunitário visitou um grupo de indivíduos seleciona-
      dos aleatoriamente, é possível derivar uma estimativa do LATE, conforme
114                                                     Avaliação de Impacto na Prática
discutido anteriormente. A única diferença é que, em vez de selecionar
aleatoriamente o programa, estaremos promovendo aleatoriamente esse
mesmo programa. Desde que as pessoas do grupo Participa se for encora-
jado (que se inscrevem quando nos comunicamos com elas, mas não se
inscrevem quando não as alcançamos) apareçam em número suﬁciente,
teremos uma variação entre o grupo com a promoção e o grupo sem a pro-
moção que nos permitirá identiﬁcar o impacto da capacitação sobre o
grupo Participa se for encorajado. Em vez de cumprir a alocação do trata-
mento, esse grupo agora estará cumprindo seu papel de responder positi-
vamente à promoção.
   Para que essa estratégia funcione, desejamos que a divulgação ou a pro-
moção sejam eﬁcazes para aumentar substancialmente o número de inscri-
ções entre o grupo de indivíduos do tipo Participa se for encorajado. Ao
mesmo tempo, não queremos que as atividades de promoção sozinhas
inﬂuenciem os resultados ﬁnais de interesse (como rendimentos), uma vez
que, no ﬁm das contas, estamos interessados em estimar o impacto do pro-
grama de capacitação, e não o impacto da estratégia de promoção sobre os
resultados ﬁnais. Por exemplo, se os agentes comunitários oferecessem
grandes quantias de dinheiro aos desempregados para que eles se inscreves-
sem no programa, seria difícil dizer se quaisquer mudanças posteriores
observadas na renda desses desempregados foram causadas pelo treina-
mento ou pela própria atividade de divulgação.
   A promoção aleatória é uma estratégia criativa que gera o equivalente a
um grupo de comparação para ﬁns de avaliação de impacto. Ela pode ser
usada quando um programa trabalha com um sistema de inscrições livres e
quando é possível organizar uma campanha de promoção dirigida a uma
amostra aleatória da população de interesse. A promoção aleatória é outro
exemplo de variável instrumental que nos permite estimar o impacto de
forma não enviesada. Mas, novamente, da mesma maneira que a seleção ale-
atória com cumprimento parcial, as avaliações de impacto baseadas na pro-
moção aleatória fornecem uma estimativa do LATE, ou seja, uma estimativa
do efeito local sobre um subgrupo especíﬁco da população, o grupo do tipo
Participa se for encorajado. Como já observamos anteriormente, essa estima-
tiva do LATE não pode ser extrapolada diretamente para toda a população,
uma vez que os grupos Sempre e Nunca são provavelmente muito diferentes
do grupo Participa se for encorajado.


Você disse “promoção”?

A promoção aleatória visa aumentar a participação de uma subamostra da
população selecionada aleatoriamente em um programa voluntário. A pró-
pria promoção pode assumir diversas formas. Por exemplo, podemos optar
Variáveis instrumentais                                                       115
Conceito-chave             por lançar uma campanha informativa para alcançar aqueles indivíduos que
A promoção aleatória é     não se inscreveram por não saberem ou não compreenderem totalmente o
um método de variáveis     conteúdo do programa. Como alternativa, podemos optar por fornecer
instrumentais que nos      incentivos à inscrição, como pequenos presentes ou prêmios ou disponibili-
permite estimar o
                           zar meios de transporte até o local do programa.
impacto de forma não
enviesada. O método
                              Conforme o que se discutiu sobre o método de variáveis instrumentais de
fornece aleatoriamente     maneira mais geral, uma série de condições devem ser atendidas para que a
uma promoção ou            abordagem da promoção aleatória produza uma estimativa válida do
incentivo para que os      impacto do programa:
indivíduos participem do
programa. Essa é uma       1. Os grupos de indivíduos encorajados e não encorajados devem ser seme-
estratégia útil para          lhantes. Isto é, as médias das características dos dois grupos devem ser
avaliar programas             estatisticamente equivalentes. É possível conseguir isso por meio da alo-
abertos a todos que
                              cação aleatória das atividades de divulgação ou promoção entre as unida-
forem elegíveis.
                              des da amostra de avaliação.
                           2. A promoção em si não deve afetar diretamente os resultados de interesse.
                              Esse é um requisito fundamental para que possamos aﬁrmar que as
                              mudanças nos resultados de interesse são causadas pelo próprio pro-
                              grama, e não pela promoção.
                           3. A campanha de promoção deve alterar signiﬁcativamente as taxas de ins-
                              crição no grupo promovido em relação ao grupo não promovido.
                              Geralmente, tentamos aumentar as inscrições usando o encorajamento.
                              Isso pode ser observado ao veriﬁcarmos que as taxas de inscrição são
                              mais elevadas no grupo que recebe a promoção do que no grupo que não
                              a recebe.


                           O processo de promoção aleatória

                           O processo de promoção aleatória é apresentado na ﬁgura 5.3. Como nos
                           métodos anteriores, iniciamos com a população de unidades elegíveis para o
                           programa. Em contraste com a alocação aleatória, ao utilizarmos esse pro-
                           cesso não somos mais capazes de escolher aleatoriamente quem receberá o
                           programa e quem não receberá, pois sua natureza é totalmente voluntária.
                           No entanto, dentro da população de unidades elegíveis haverá três tipos de
                           unidades:
                           • Sempre. Aqueles que sempre desejam se inscrever no programa.
                           • Participa se for encorajado. Aqueles que se inscreverão no programa ape-
                             nas quando receberem um encorajamento adicional.
                           • Nunca. Aqueles que nunca desejam se inscrever no programa, quer
                             tenham recebido algum encorajamento ou não.
116                                                                          Avaliação de Impacto na Prática
Figura 5.3    Promoção aleatória

Definir as unidades elegíveis        Selecionar a amostra      Aleatorizar a promoção   Inscrição
                                     de avaliação              para o tratamento


                                                   Sem promoção




                                                       Promoção



Nunca Participa Sempre Validade externa                Validade interna
       se for
    encorajado




   Mais uma vez, observe que fazer parte do grupo Sempre, do Participa se
for encorajado ou do Nunca é uma característica intrínseca das unidades que
não pode ser facilmente medida pela equipe de avaliação do programa, pois
está relacionada a fatores como motivação, inteligência e nível de
informação.
   Após deﬁnir a população elegível, a próxima etapa é selecionar aleatoria-
mente uma amostra da população para fazer parte da avaliação. Essas são as
unidades sobre as quais vamos coletar dados. Em alguns casos — por exemplo,
quando tivermos dados para toda a população de unidades elegíveis —, pode-
remos optar por incluir toda essa população na amostra de avaliação.
   Após deﬁnir a amostra de avaliação, a promoção aleatória aloca aleato-
riamente a amostra de avaliação a um grupo encorajado e a um grupo não
encorajado. Como estamos escolhendo aleatoriamente os membros do
grupo encorajado e do grupo não encorajado, ambos compartilharão as
características da amostra de avaliação como um todo, e esses traços serão
equivalentes às características da população de unidades elegíveis.
Portanto, o grupo encorajado e o grupo não encorajado terão característi-
cas semelhantes.
   Após o término da campanha de promoção, poderemos observar as taxas
de inscrição em ambos os grupos. No grupo não encorajado, apenas os indi-
víduos do grupo Sempre se inscreverão. Embora saibamos quais as unidades
que fazem parte do grupo Sempre no grupo não encorajado, não seremos
capazes de distinguir os indivíduos do grupo Nunca e do grupo Participa se
for encorajado nesse grupo. Por outro lado, no grupo encorajado, tanto os
Variáveis instrumentais                                                                             117
      indivíduos do tipo Participa se for encorajado quanto os do tipo Sempre se
      inscreverão, enquanto os do tipo Nunca não se inscreverão. Dessa maneira,
      no grupo que recebe a promoção, seremos capazes de identiﬁcar o grupo
      Nunca, mas não seremos capazes de distinguir entre o Participa se for enco-
      rajado e o Sempre.


      Estimar o impacto na presença de promoção aleatória

      Imagine que, para um conjunto de 10 indivíduos por grupo, a campanha de
      promoção tenha elevado a taxa de inscrição de 30% no grupo não encora-
      jado (3 Sempre) para 80% no grupo encorajado (3 Sempre e 5 Participa se for
      encorajado). Suponha que o resultado médio para todos os indivíduos do
      grupo não encorajado (10 indivíduos) seja 70, e que o resultado médio para
      todos os indivíduos do grupo encorajado (10 indivíduos) seja 110 (ﬁgura 5.4).
      Qual seria, então, o impacto do programa?
         Primeiramente, calculemos a diferença direta entre os resultados dos
      grupos de encorajados e não encorajados, que é de 40 (110 menos 70).
      Sabemos que nenhuma parcela dessa diferença de 40 é proveniente dos
      indivíduos do tipo Nunca, pois eles não se inscreveram em nenhum dos gru-
      pos. Sabemos também que nenhuma parcela dessa diferença de 40 provém
      do grupo Sempre, pois eles se inscreveram em ambos os grupos. Dessa
      maneira, toda a diferença de 40 deve ter se originado do grupo Participa se
      for encorajado.

      Figura 5.4 Estimar o efeito médio local do tratamento na presença de
      promoção aleatória


                   Grupo encorajado            Grupo não encorajado                   Impacto
                                                                           Δ% de inscritos = 50%
                   % de inscritos = 80%        % de inscritos = 30%
                                                                           ΔY = 40
                   Média Y para o grupo        Média Y para o grupo
                                                                           Impacto da estimativa do
                   encorajado = 110            não encorajado = 70
                                                                           LATE = 40/50% = 80

      Nunca




      Participa
      se for
      encorajado




      Sempre




      Observação: Δ = impacto causal; Y = resultado. Os indivíduos que aparecem contra o fundo sombre-
      ado são aqueles que se inscreverão.


118                                                                   Avaliação de Impacto na Prática
   A segunda etapa é obter a estimativa do LATE do programa para o grupo
Participa se for encorajado. Sabemos que a diferença total de 40 observada
entre os grupos de encorajados e não encorajados pode ser atribuída ao
grupo Participa se for encorajado, que constitui apenas 50% da população.
Para avaliar o efeito médio do programa para um cumpridor, dividimos 40
pelo percentual do grupo Participa se for encorajado na população. Embora
não possamos identiﬁcar diretamente os indivíduos do grupo Participa se
for encorajado, podemos deduzir qual deve ser sua porcentagem na população:
é a diferença entre as taxas de inscrição dos grupos encorajado e não
encorajado (50%, ou 0,5). Portanto, a estimativa do efeito médio local do
tratamento do programa para o grupo Participa se for encorajado é igual a
40/0,5 = 80.
   Considerando que a promoção é alocada aleatoriamente, os grupos enco-
rajado e não encorajado têm características iguais. Assim, as diferenças
observadas entre os resultados médios dos dois grupos devem ser causadas
pelo fato de que, no grupo que recebeu a promoção, os indivíduos do grupo
Participa se for encorajado se inscrevem, enquanto que, no grupo que não
recebeu a promoção, esses indivíduos não se inscrevem. Mais uma vez, não
devemos extrapolar diretamente os impactos estimados para o grupo
Participa se for encorajado a outros grupos, uma vez que esses impactos pro-
vavelmente são muito diferentes daqueles observados nos grupos Nunca e
Sempre. O boxe 5.3 apresenta um exemplo de promoção aleatória para um
projeto na Bolívia.




     Boxe 5.3: Promoção aleatória de investimentos em infraestrutura
     educacional na Bolívia
     Em 1991, a Bolívia institucionalizou e am-      da região do Chaco foram selecionadas alea-
     pliou o bem-sucedido Fundo de Investimento      toriamente para a promoção ativa da inter-
     Social (SIF), que proporcionava ﬁnanciamen-     venção do SIF e receberam visitas e
     to a comunidades rurais para que realizas-      estímulo adicionais por parte do pessoal do
     sem pequenos investimentos em infraestru-       programa para se candidatar. O programa
     tura nos setores de educação, saúde e           estava aberto a todas as comunidades elegí-
     fornecimento de água. O Banco Mundial,          veis da região e era orientado pela demanda,
     que estava ajudando a ﬁnanciar o SIF , elabo-   uma vez que as comunidades tinham que
     rou uma avaliação de impacto que foi incor-     solicitar ﬁnanciamento para projetos especí-
     porada ao projeto do programa.                  ﬁcos. Nem todas as comunidades se inscre-
         Como parte da avaliação de impacto do       veram no programa, mas a aceitação foi
     componente educacional, as comunidades          maior entre as comunidades incentivadas.

                                                                                         (continua)



Variáveis instrumentais                                                                               119
      Boxe 5.3: Promoção aleatória de investimentos em infraestrutura educacional na Bolívia (continuação)


         Newman e outros (2002) utilizaram a pro-         educacionais, com exceção de uma diminui-
      moção aleatória como variável instrumental.         ção de aproximadamente 2,5% na taxa de
      Eles encontraram que os investimentos em            evasão escolar. Como resultado desses
      educação foram capazes de melhorar as               achados, atualmente o Ministério da
      medidas de qualidade da infraestrutura              Educação da Bolívia e o SIF concentram
      escolar, como eletricidade, instalações de          mais atenção e recursos no “software” da
      saneamento, livros didáticos por aluno e            educação, ﬁnanciando melhorias na infraes-
      a proporção aluno-professor. No entanto,            trutura física somente quando elas fazem
      detectaram pouco impacto nos resultados             parte de uma intervenção integrada.

      Fonte: Newman e outros 2002.




                            Avaliar o impacto do HISP: promoção aleatória

                     Tentaremos agora usar o método de promoção aleatória para avaliar o
                     impacto do Programa de Subsídio ao Seguro Saúde (HISP). Suponha que
                     o Ministério da Saúde tome a decisão de disponibilizar imediatamente o
                     subsídio para o seguro saúde a qualquer família que queira se inscrever.
                     Você observa que esse cenário é diferente daquele relacionado ao caso
                     de seleção aleatória que analisamos até agora. No entanto, você sabe que,
                     realisticamente, essa ampliação nacional será incremental ao longo do
                     tempo. Por isso, você fecha um acordo para tentar acelerar a inscrição
                     em um subconjunto aleatório de povoados por meio de uma campanha
                     de divulgação. Em uma subamostra aleatória de povoados, você realiza
                     um esforço de promoção intensivo do programa que inclui iniciativas de
                     comunicação e marketing social com o objetivo de aumentar a conscien-
                     tização sobre o HISP. As atividades de promoção são cuidadosamente
                     elaboradas para evitar conteúdos que possam inadvertidamente estimu-
                     lar mudanças em outros comportamentos relacionados à saúde, pois isso
                     invalidaria a promoção como uma variável instrumental. Em vez disso, a
                     promoção concentra-se exclusivamente no aumento das inscrições no
                     HISP. Depois de dois anos de promoção e implementação do programa,
                     você descobre que 49,2% das famílias que foram alocadas aleatoriamente
                     para a promoção se inscreveram no programa, enquanto apenas 8,4%
                     das famílias dos povoados não encorajados se inscreveram na iniciativa
                     (quadro 5.1).

120                                                                               Avaliação de Impacto na Prática
 Quadro 5.1 Avaliar o HISP: comparação de médias da promoção aleatória

                           Povoados            Povoados não
                          encorajados           encorajados   Diferença   Estatística t
   Despesas das
   famílias com
   saúde na linha de
   base (em US$)               17,19              17,24        −0,05         −0,47
   Despesas das
   famílias com
   saúde no período
   de acompanha-
   mento (em US$)             14,97              18,85         −3,87        −16,43
   Taxa de inscrição
   no HISP                    49,20%              8,42%        40,78%         49,85

 Observação: nível de signiﬁcância: ** = 1%.


    Como os povoados que recebem e não recebem a promoção foram sele-
 cionados ao acaso, você sabe que as características médias dos dois grupos
 devem ser as mesmas na ausência da promoção. Você pode veriﬁcar essa
 suposição comparando os gastos com saúde da linha de base (bem como
 quaisquer outras características) das duas populações. Após dois anos de
 implementação do programa, você observa que o gasto médio com saúde
 nos povoados incentivados é de US$  14,97, comparado a US$  18,85 das
 áreas não incentivadas (uma diferença de US$ 3,87). No entanto, como a
 única diferença entre os povoados encorajados e não encorajados é o fato
 de a inscrição no programa ser maior nos povoados encorajados (graças à
 promoção), essa diferença de US$ 3,87 nas despesas com saúde provavel-
 mente se deve ao percentual adicional de 40,78% das famílias que se ins-
 creveram nos povoados encorajados devido à promoção. Portanto,
 precisamos ajustar a diferença nos gastos com saúde para podermos
 encontrar o impacto do programa sobre o grupo Participa se for encorajado.
 Para fazer isso, dividimos a estimativa da intenção de tratar — isto é, a dife-
 rença direta entre os grupos encorajado e não encorajado — pela porcenta-
 gem do grupo Participa se for encorajado: −3,87/0,4078 = −US$ 9,49. Seu
 colega, um econometrista que sugere a utilização da promoção aleatória
 como uma variável instrumental, estima o impacto do programa por meio
 de um procedimento de mínimos quadrados em dois estágios (consulte o
 complemento técnico on-line em http://www.worldbank.org/einpractice
 para obter mais detalhes sobre a abordagem econométrica para estimar
 impactos com VI). Ele encontra os resultados mostrados no quadro 5.2.
 Esse impacto estimado é válido para as famílias que se inscreveram no

Variáveis instrumentais                                                                   121
       Quadro 5.2 Avaliar o HISP: promoção aleatória com análise de regressão

                                                Regressão linear            Regressão linear
                                                                              multivariada
        Impacto estimado sobre os                    −9,50**                      −9,74**
        gastos com saúde das                          (0,52)                       (0,46)
        famílias (em US$)

       Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.

       programa devido à promoção e que, de outra forma, não teriam se inscrito:
       em outras palavras, para o grupo Participa se for encorajado.


            Perguntas 4 sobre o HISP

       A. Quais são as condições-chave necessárias para aceitar os resultados da
          avaliação na presença de promoção aleatória do HISP?
       B. Com base nesses resultados, o HISP deve ser ampliado para todo
          o país?



      Limitações do método de promoção aleatória

      A promoção aleatória é uma estratégia útil para avaliar o impacto de progra-
      mas com adesão voluntária e programas com elegibilidade universal, espe-
      cialmente porque não exige a exclusão de quaisquer unidades elegíveis. No
      entanto, a abordagem tem algumas limitações dignas de nota em compara-
      ção à seleção aleatória para o grupo de tratamento.
         Em primeiro lugar, a estratégia de promoção deve ser efetiva. Se a campa-
      nha de promoção não aumentar a taxa de inscrição, não aparecerá nenhuma
      diferença entre os grupos encorajado e não encorajado e não haverá nada
      para comparar. Portanto, é crucial elaborar cuidadosamente e testar exten-
      sivamente a campanha de promoção para garantir que ela seja efetiva. O
      lado positivo é que o projeto da campanha de promoção pode ajudar os ges-
      tores de programas, pois os ensinaria como aumentar o número de inscri-
      ções após a conclusão do período de avaliação.
         Em segundo lugar, o método de promoção aleatória estima o impacto do
      programa apenas para um subconjunto da população de unidades elegíveis
      (um LATE). Mais especiﬁcamente, o impacto médio local do programa é
      estimado a partir do grupo de indivíduos que se inscreveu na iniciativa ape-
      nas quando encorajados a fazê-lo. No entanto, os indivíduos desse grupo
      podem ter características muito diferentes daquelas dos indivíduos que

122                                                                   Avaliação de Impacto na Prática
sempre ou nunca se inscrevem. Portanto, o efeito médio do tratamento para
toda a população pode ser diferente do efeito médio do tratamento estimado
para os indivíduos que participam somente quando encorajados. Uma ava-
liação da promoção aleatória não estimará os impactos para o grupo de indi-
víduos que se inscreverem no programa sem nenhum incentivo. Em alguns
contextos, esse grupo (o Sempre) pode ser precisamente o grupo que o pro-
grama visava beneﬁciar. Nesse contexto, o tipo de projeto que prevê a utili-
zação da promoção aleatória lançará luz sobre os impactos esperados para
novas populações que se inscreveriam caso fossem submetidas a um encora-
jamento adicional, mas não sobre os impactos para a população que já se
inscreveu por conta própria.



Lista de veriﬁcação: promoção aleatória como
uma variável instrumental

A promoção aleatória levará a estimativas válidas do contrafactual se a cam-
panha de promoção aumentar substancialmente a aceitação do programa
sem afetar diretamente os resultados de interesse.
¸ As características de linha de base estão equilibradas entre as unidades
  que receberam a campanha de promoção e aquelas que não a receberam?
  Compare as características de linha de base dos dois grupos.
¸ A campanha de promoção afeta substancialmente a aceitação do pro-
  grama? Deveria afetar. Compare as taxas de aceitação do programa nas
  subamostras encorajadas e não encorajadas.
¸ A campanha de promoção afeta diretamente os resultados? Não deve-
  ria. Em geral, essa relação não pode ser testada diretamente e, por isso,
  você precisa conﬁar na teoria, no bom senso e no conhecimento apro-
  fundado sobre a deﬁnição da avaliação de impacto para se orientar
  nesse caso.



Recursos adicionais

• Para acessar os materiais complementares a este capítulo e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
  .worldbank.org/ieinpractice).
• Para acessar recursos adicionais sobre o método de variáveis instrumentais,
  ver o Portal do Banco Interamericano de Desenvolvimento (http://www.iadb
  .org/evaluationhub).

Variáveis instrumentais                                                         123
      Notas

      1. Na área das ciências médicas, os pacientes do grupo de comparação normal-
         mente recebem um placebo, isto é, uma pílula de açúcar que não deve ter
         nenhum efeito sobre o resultado pretendido. Isso é feito para ampliar ainda mais
         o controle sobre o efeito placebo, ou seja, sobre as potenciais mudanças de
         comportamento e resultados que poderiam ocorrer simplesmente a partir do ato
         de receber um tratamento, mesmo que o tratamento em si seja ineﬁcaz.
      2. Estas duas etapas correspondem à técnica econométrica de mínimos
         quadrados em dois estágios, que produz uma estimativa do efeito médio local
         do tratamento.



      Referências

      Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King e Michael Kremer.
        2002. “Vouchers for Private Schooling in Colombia: Evidence from a
        Randomized Natural Experiment.” American Economic Review 92 (5): 1535–58.
      Kearney, Melissa S. e Philip B. Levine. 2015. “Early Childhood Education by MOOC:
        Lessons from Sesame Street.” Working Paper 21229, National Bureau of
        Economic Research, Cambridge, MA.
      Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa e
        Jose Luis Evia. 2002. “An Impact Evaluation of Education, Health, and Water
        Supply Investments by the Bolivian Social Investment Fund.” World Bank
        Economic Review 16 (2): 241–74.




124                                                          Avaliação de Impacto na Prática
CAPÍTULO 6




Método de regressão
descontínua

Avaliação de programas que usam índice de
elegibilidade

Os programas sociais muitas vezes usam um índice para decidir quem é ele-
gível para se inscrever no programa e quem não é. Por exemplo, os progra-
mas de combate à pobreza geralmente são direcionados a famílias pobres,
que são identiﬁcadas por uma pontuação ou um índice de pobreza. O índice
de pobreza pode se basear em uma fórmula que mede um conjunto de bens
e atua como estimativa da renda (como salário, nível de consumo ou poder
de compra).1 As famílias com índice baixo são classiﬁcadas como pobres e as
famílias com índice mais elevado são consideradas relativamente prósperas.
Os programas de combate à pobreza geralmente determinam um limiar ou
ponto de corte abaixo do qual as famílias são consideradas pobres e tornam-se
elegíveis para essas iniciativas. O sistema colombiano de seleção de beneﬁ-
ciários para programas sociais é um exemplo (ver o boxe 6.1). As notas obti-
das por estudantes em testes são outro exemplo (ver o boxe 6.3). A admissão
em uma faculdade pode ser concedida aos estudantes que apresentarem o
melhor desempenho em um teste padronizado, cujos resultados serão orde-
nados a partir do desempenho mais baixo até o mais elevado. Se o número
de vagas for limitado, apenas os alunos que pontuarem acima de um

                                                                                125
      Boxe 6.1: Uso do método de regressão descontínua para avaliar o
      impacto da redução das mensalidades sobre as taxas de matrícu-
      la escolar na Colômbia
      Barrera-Osorio, Linden e Urquiola (2007) usa-     linha de base (o início do programa). Em
      ram o método de regressão descontínua             outras palavras, não há “saltos” nas carac-
      (RDD) para avaliar o impacto de um programa       terísticas ao longo do indicador SISBEN.
      de redução de mensalidades na Colômbia            Em segundo lugar, as famílias de ambos
      (Gratuitad) sobre as taxas de matrícula na ci-    os lados do ponto de corte têm caracterís-
      dade de Bogotá. O programa é focalizado de        ticas semelhantes, o que produz um grupo
      acordo com um indicador denominado                de comparação crível. Em terceiro lugar,
      SISBEN, um índice contínuo de pobreza cujo        uma grande amostra de famílias estava
      valor é determinado pelas características da      disponível. Por ﬁm, o governo manteve
      família, tais como o local de moradia, os mate-   sob sigilo a fórmula usada para calcular o
      riais utilizados na construção do domicílio, os   índice SISBEN, de modo que as pontua-
      serviços disponíveis no local de residência, o    ções ﬁcassem protegidas de qualquer
      perﬁl demográﬁco, as condições de saúde, o        manipulação.
      nível educacional, a renda e a ocupação de            Usando o RDD, os pesquisadores desco-
      cada membro da família. O governo estabele-       briram que o programa teve um impacto
      ceu dois pontos de corte ao longo do índice       positivo signiﬁcativo sobre as taxas de
      SISBEN: as crianças de famílias com pontua-       matrícula escolar. Especiﬁcamente, a taxa
      ções abaixo do ponto de corte nº 1 são elegí-     de matrícula foi 3 pontos percentuais maior
      veis para receber educação gratuita da 1ª à 11ª   para os alunos do ensino fundamental cujas
      séries; as crianças de famílias com escores       famílias ﬁcaram abaixo da nota de corte nº 1
      situados entre o ponto de corte nº 1 e nº 2 são   e 6 pontos percentuais mais elevada para os
      elegíveis para receber um subsídio de 50%         alunos do ensino médio cujas famílias se
      nas mensalidades da 10ª e da 11ª séries; e as     situaram entre as notas de corte nº 1 e nº 2.
      crianças de famílias com pontuações acima         Esse estudo fornece evidências sobre os
      do ponto de corte nº 2 não são elegíveis para     benefícios da redução dos custos diretos da
      receber educação gratuita ou subsídios.           escola, especialmente para os estudantes
          Os autores usaram um RDD por quatro           em situação de risco. No entanto, seus auto-
      motivos. Em primeiro lugar, as característi-      res também ressaltam a necessidade de
      cas das famílias, tais como a renda ou o          mais pesquisas sobre a elasticidade-preço
      nível educacional do chefe de família, são        para orientar melhor a elaboração de progra-
      contínuas ao longo do índice SISBEN na            mas de subsídios como esse.

      Fonte: Barrera-Osorio, Linden e Urquiola 2007.




                    determinado limiar (como os 10% melhores) serão admitidos à faculdade.
                    Em ambos os exemplos, há um índice contínuo de elegibilidade (índice de
                    pobreza e nota no teste, respectivamente) que permite classiﬁcar a popula-
                    ção de interesse, bem como um limiar ou ponto de corte que determina
                    quem é elegível e quem não é.
126                                                                          Avaliação de Impacto na Prática
   O método de regressão descontínua (RDD, do inglês regression disconti-
nuity design) é um método de avaliação de impacto que pode ser usado em
programas que têm um índice contínuo de elegibilidade com um critério de
elegibilidade claramente deﬁnido (ponto de corte) para determinar quem é
elegível e quem não é. Para aplicar o método de regressão descontínua, as
seguintes condições principais devem ser atendidas:

1. O índice deve ordenar as pessoas ou unidades de forma contínua ou
   “suave”. Índices como indicadores de pobreza, notas de testes ou idade
   apresentam diversos valores que podem ser ordenados de maneira
   crescente, do menor para o maior e, portanto, podem ser considerados
   suaves. Em contraste, as variáveis que apresentam categorias discretas,
   que comportam apenas alguns valores possíveis ou que não podem ser
   ordenadas não são consideradas suaves. Exemplos dessa última cate-
   goria de variáveis incluem a situação trabalhista (empregado ou desem-
   pregado), o nível educacional (ensino fundamental, ensino médio, grau
   universitário ou pós-graduação), a posse de carro (sim ou não) ou o
   país de nascimento.

2. O índice deve ter um ponto de corte claramente deﬁnido, isto é, um
   ponto no índice acima ou abaixo do qual a população é classiﬁcada como
   elegível para o programa. Por exemplo, as famílias que apresentarem um
   índice de pobreza inferior a 50 em uma escala que vai até 100 poderão
   ser classiﬁcadas como pobres, os indivíduos com 67 anos de idade ou
   mais velhos poderão ser classiﬁcados como elegíveis para o recebimento
   de pensão e os alunos que obtiverem nota 90 ou mais (em uma escala
   que vai até 100) em um teste poderão ser elegíveis para receber uma
   bolsa de estudos. Os pontos de corte desses exemplos são 50, 67 e 90,
   respectivamente.

3. O ponto de corte deve ser exclusivo do programa de interesse. Ou seja,
   nenhum outro programa além daquele a ser avaliado deverá utilizar o
   mesmo ponto de corte. Por exemplo, se um índice de pobreza abaixo de
   50 qualiﬁcar uma família para receber benefícios como transferência
   de renda, seguro de saúde e transporte público gratuito, não podería-
   mos usar o RDD para estimar o impacto do programa de transferência
   de renda em si.

4. A pontuação de um determinado indivíduo ou unidade não pode ser
   manipulada por recenseadores, beneﬁciários potenciais, gestores de pro-
   gramas ou políticos.
O RDD estima o impacto no entorno do critério de elegibilidade como a
diferença entre o resultado médio das unidades participantes do tratamento,
Método de regressão descontínua                                               127
                         que estão no lado tratado do ponto de corte, e o resultado médio das unida-
                         des do lado não tratado (comparação) do ponto de corte.
Conceito-chave              Consideremos um programa agrícola que vise melhorar a produção total
O método de regressão    de arroz mediante subsídios à compra de fertilizantes pelos agricultores. O
descontínua (RDD) é      programa destina-se a pequenas e médias propriedades rurais, deﬁnidas
um método de
                         como propriedades com menos de 50 hectares. Antes do início do programa,
avaliação de impacto
adequado para
                         poderíamos esperar que as propriedades agrícolas menores registrassem
programas que utilizam   uma produção mais baixa do que aquelas de maior dimensão, como é mos-
um índice contínuo       trado na ﬁgura 6.1, que calcula o tamanho das propriedades e a produção de
para ordenar os          arroz. Neste caso, o critério de elegibilidade é o número de hectares da pro-
participantes            priedade, e o ponto de corte são 50 hectares. As regras do programa estabe-
potenciais e que têm
                         lecem que as propriedades situadas abaixo do ponto de corte de 50 hectares
um ponto de corte ao
longo do índice que      são elegíveis para receber os subsídios para a compra de fertilizantes e que
determina se os          as propriedades com 50 hectares ou mais não são. Neste caso, podemos
participantes            esperar que várias propriedades com 48, 49 ou mesmo 49,9 hectares partici-
potenciais são ou não    parão do programa. Outro grupo de propriedades, com 50, 50,1 e 50,2 hec-
elegíveis para receber
                         tares, não participará do programa por ter ﬁcado do lado inelegível do
o programa.
                         ponto de corte. O grupo de propriedades com 49,9 hectares provavelmente
                         é muito semelhante ao grupo de propriedades com 50,1 hectares em todos
                         os aspectos, exceto que um grupo receberá o subsídio para a compra de


                         Figura 6.1 Produção de arroz, propriedades menores versus propriedades
                         maiores (linha de base)
                         Produção de arroz (bushels* por hectare)




                                                                    20


                                                                    19


                                                                    18


                                                                    17


                                                                    16


                                                                    15
                                                                         20   30          40         50            60           70           80

                                                                                               Hectares de terra

                                                                                   + = produção das propriedades > 50 hectares
                                                                                   • = produção das propriedades < 50 hectares

128                                                                                                                Avaliação de Impacto na Prática
Figura 6.2 Produção de arroz, propriedades menores versus propriedades
maiores (período de acompanhamento)
Produção de arroz (bushels* por hectare)



                                           20


                                           19


                                                                          A
                                           18


                                           17
                                                                          B
                                                                                                 A
                                           16                                                           Impacto
                                                                                                 B

                                           15
                                                20   30         40         50            60       70              80
                                                                     Hectares de terra
                                                          + = produção das propriedades > 50 hectares
                                                          • = produção das propriedades < 50 hectares

* Bushel é uma medida usada para cerais que, nos Estados Unidos, corresponde a 35,238 litros.


fertilizantes e o outro, não. À medida que nos afastamos do ponto de corte de
elegibilidade, as propriedades elegíveis e inelegíveis podem diferir mais.
Mas o tamanho da propriedade é uma boa medida para mensurar suas dife-
renças, o que nos permite controlar muitas delas.
   Após o programa ser implementado e começar a subsidiar o custo do
fertilizante para pequenas e médias propriedades rurais, a avaliação de
impacto poderia usar um RDD para avaliar o impacto da iniciativa
(ﬁgura 6.2). O RDD calcula o impacto como a diferença entre os resulta-
dos, como a produção total de arroz, das unidades situadas em ambos os
lados do ponto de corte de elegibilidade, que no nosso exemplo é um
tamanho de propriedade de 50 hectares. As propriedades que eram
muito grandes para se inscrever no programa constituem o grupo de
comparação e geram uma estimativa do resultado contrafactual para
aquelas propriedades do grupo de tratamento que eram pequenas o suﬁ-
ciente para se inscrever na iniciativa. Como esses dois grupos de pro-
priedades rurais eram muito semelhantes no início do estudo (ou na
linha de base) e estão expostos ao mesmo conjunto de fatores externos
ao longo do tempo (tais como clima, oscilações de preços e políticas agrí-
colas locais e nacionais), a única razão plausível para a obtenção de
resultados diferentes deve ser o próprio programa.
Método de regressão descontínua                                                                                        129
                     Como o grupo de comparação também é formado por propriedades situ-
                  adas pouco acima do ponto de corte de elegibilidade, o impacto calculado
                  por um RDD é válido apenas localmente — ou seja, em torno do ponto de
                  corte de elegibilidade. Dessa maneira, obtemos uma estimativa de um efeito
                  médio local de tratamento (LATE) (ver o capítulo 5). O impacto do pro-
                  grama de subsídios para a compra de fertilizantes é válido para as maiores
                  propriedades de tamanho médio, ou seja, aquelas com pouco menos de
                  50 hectares de terra. A avaliação de impacto não será, necessariamente,
                  capaz de identiﬁcar diretamente o impacto do programa para as proprieda-
                  des menores — digamos, aquelas com 10 ou 20 hectares de terra —, nas quais
                  os efeitos de um subsídio para a compra de fertilizantes podem diferir signi-
                  ﬁcativamente daqueles observados nas propriedades de porte médio, com
                  48 ou 49 hectares. Uma vantagem do RDD é que, após as regras de elegibili-
                  dade do programa serem aplicadas, nenhuma unidade elegível precisa ser
                  deixada sem tratamento em nome da realização da avaliação de impacto.
                  A desvantagem é que o impacto para as observações situadas longe da linha
                  de corte não será conhecido. O boxe 6.2 apresenta um exemplo do uso do
                  RDD para avaliar um programa de seguridade social na Jamaica.




      Boxe 6.2: Redes de seguridade social baseadas em um índice de
      pobreza na Jamaica
      O método de regressão descontínua (RDD)              Como a elegibilidade ao programa foi
      foi utilizado para avaliar o impacto de uma      determinada por uma fórmula baseada em
      iniciativa de seguridade social na Jamaica.      pontos, Levy e Ohls (2010) conseguiram
      Em 2001, o governo do país lançou o              comparar as famílias situadas pouco abaixo
      Programa de Avanço por meio da Saúde e da        do ponto de corte de elegibilidade com as
      Educação (PATH, sigla em inglês) para au-        famílias situadas pouco acima (entre 2 e 15
      mentar os investimentos em capital huma-         pontos do ponto de corte). Os pesquisado-
      no e melhorar a focalização de benefícios        res justiﬁcaram a utilização do RDD com
      sociais para os pobres. O programa fornecia      dados de linha de base, mostrando que as
      repasses de recursos nas áreas de saúde e        famílias dos grupos de tratamento e de
      educação para crianças de famílias pobres        comparação apresentavam níveis de
      elegíveis, condicionados à frequência esco-      pobreza semelhantes, conforme medido
      lar e a visitas regulares aos postos de saúde.   pela pontuação do índice de condições de
      O benefício mensal médio para cada criança       vida, e níveis de motivação também simila-
      era de aproximadamente US$ 6,50, além de         res, pois todas as famílias da amostra
      uma isenção governamental de certas taxas        tinham se inscrito no programa. Os pesqui-
      relacionadas a saúde e educação.                 sadores também usaram a pontuação do

                                                                                           (continua)



130                                                                        Avaliação de Impacto na Prática
    Boxe 6.2: Redes de seguridade social baseadas em um índice de pobreza na Jamaica (continuação)



    critério de elegibilidade do programa na aná-      capazes de encontrar qualquer impacto de
    lise de regressão para ajudar no controle de       longo prazo sobre o desempenho escolar ou
    quaisquer diferenças entre os dois grupos.         as condições de saúde, concluíram que a
        Levy e Ohls (2010) descobriram que o           magnitude dos impactos detectados por
    programa PATH aumentou a frequência                eles foi amplamente consistente com os
    escolar em 0,5 dia por mês, em média, para         programas de transferência condicional de
    crianças de 6 a 17 anos, o que é signiﬁcativo      renda implementados em outros países.
    se considerarmos uma taxa de frequência já         Um último aspecto interessante dessa ava-
    bastante alta, de 85%. Além disso, as visitas      liação foi o fato de ela ter reunido dados
    aos postos de saúde das crianças entre 0 a         quantitativos e qualitativos, pois usou siste-
    6 anos aumentaram em cerca de 38%.                 mas de informação, entrevistas, grupos
    Embora os pesquisadores não tenham sido            focais e pesquisas domiciliares.

    Fonte: Levy e Ohls 2010.




Método de regressão descontínua fuzzy

Após termos veriﬁcado que não há evidências de manipulação no índice de
elegibilidade, ainda poderemos enfrentar um desaﬁo se as unidades não res-
peitarem sua alocação ao grupo de tratamento ou ao de comparação. Em
outras palavras, algumas unidades que estão qualiﬁcadas para receber o
programa com base em seu índice de elegibilidade podem optar por não
participar, enquanto outras unidades que não estão qualiﬁcadas para rece-
ber o programa, também com base em seu índice de elegibilidade, podem
encontrar uma maneira de participar da iniciativa. Quando todas as unida-
des cumprem com a alocação que lhes foi atribuída com base em seu índice
de elegibilidade, dizemos que a regressão descontínua é sharp, enquanto
que, se houver descumprimento em qualquer um dos lados do ponto de
corte, dizemos que ela é fuzzy (ﬁgura 6.3). Se a regressão descontínua for
fuzzy, poderemos usar a abordagem da variável instrumental para corrigir o
descumprimento (ver o capítulo 5). Lembre-se que, no caso da seleção alea-
tória com descumprimento, usamos a seleção aleatória como a variável ins-
trumental para nos ajudar a corrigir o descumprimento. No caso do RDD,
podemos usar a seleção original com base no índice de elegibilidade como a
variável instrumental. No entanto, fazer isso tem um inconveniente: nossa
estimativa do impacto do RDD instrumental será mais localizada — no sen-
tido de que ela não será mais válida para todas as observações próximas do
Método de regressão descontínua                                                                         131
      Figura 6.3                     Cumprimento com seleção

                                          a. RDD sharp                                                  b. RDD fuzzy
                                     (cumprimento completo)                                         (cumprimento parcial)




                                                                     Percentual de famílias
      Percentual de famílias




                                                                        que participam
         que participam        100                                                            100

                                50                                                             50

                               10                                                              10

                                      30 40 50 60 70 80                                             30 40 50 60 70 80
                                Índice de pobreza na linha de base                            Índice de pobreza na linha de base



      ponto de corte, mas, em vez disso, representará o impacto para o subgrupo
      da população que está situado próximo ao ponto de corte e que participa do
      programa apenas devido aos critérios de elegibilidade.


      Como veriﬁcar a validade do método de
      regressão descontínua

      Para que um RDD produza uma estimativa do LATE não enviesada no ponto
      de corte, é importante que o índice de elegibilidade não seja manipulado em
      torno do ponto de corte de modo que um indivíduo possa alterar seu status
      de membro do grupo de tratamento para membro do grupo de comparação
      ou vice-versa.2 A manipulação dos critérios de elegibilidade pode assumir
      muitas formas. Por exemplo, os recenseadores que coletam os dados utiliza-
      dos para calcular a pontuação de elegibilidade podem alterar uma ou duas
      respostas dos entrevistados. Ou os entrevistados podem mentir proposital-
      mente para os recenseadores se acreditarem que essa atitude os qualiﬁcará
      para o programa. Além disso, a manipulação das pontuações pode piorar com
      o passar do tempo, pois os recenseadores, os entrevistados e os políticos já
      terão aprendido as “regras do jogo”. No exemplo do subsídio para a compra
      de fertilizantes, a manipulação em torno do ponto de corte poderia ocorrer
      caso os proprietários de terras pudessem alterar as escrituras de suas pro-
      priedades ou reportar incorretamente o tamanho de seus lotes. Ou um agri-
      cultor com 50,3 hectares de terra poderia encontrar uma maneira de vender
      meio hectare para se qualiﬁcar para o programa caso considere que os bene-
      fícios esperados do subsídio para a compra de fertilizantes valem a pena.
          Um indicador de manipulação é ilustrado pela ﬁgura 6.4. O painel a mos-
      tra a distribuição dos domicílios de acordo com seu índice de elegibilidade
132                                                                                                  Avaliação de Impacto na Prática
Figura 6.4                            Manipulação do índice de elegibilidade

                                    a. sem manipulação                                                            b. com manipulação
Percentual de famílias




                                                                               Percentual de famílias
                                                Não elegíveis                                                                  Não elegíveis

                                   Elegíveis                                                                      Elegíveis


                         20   30      40       50    60         70   80   90                            20   30     40        50   60          70   80   90
                          Índice de pobreza na linha de base                                             Índice de pobreza na linha de base




                          Boxe 6.3: O efeito da divisão dos estudantes de acordo com as
                          notas sobre o desempenho escolar no Quênia
                          Para avaliar se a alocação de alunos às salas                                       melhor do que aqueles alocados às turmas
                          de aula com base em seu desempenho me-                                              de baixo desempenho.
                          lhora os resultados educacionais, Duﬂo,                                                 Em média, as notas ﬁnais nos testes rea-
                          Dupas e Kremer (2011) realizaram um experi-                                         lizados pelas escolas que alocaram seus
                          mento com 121 escolas primárias do oeste                                            alunos a turmas de acordo com seu desem-
                          do Quênia. Em metade das escolas, os alu-                                           penho registraram um desvio-padrão 0,14
                          nos foram divididos aleatoriamente em dois                                          maior do que o das escolas que não usaram
                          tipos diferentes de salas de aula. Na outra                                         esse método e, em vez disso, utilizaram a
                          metade das escolas, os alunos foram aloca-                                          alocação aleatória para criar grupos equiva-
                          dos ou para um tipo de alto desempenho ou                                           lentes de alunos. Esses resultados não
                          para um tipo de baixo desempenho com                                                foram inﬂuenciados apenas pelos alunos
                          base em seus resultados nos testes iniciais.                                        das turmas de alto desempenho, pois os
                          Para fazer essa divisão, as notas dos estudan-                                      alunos das turmas de baixo desempenho
                          tes foram utilizadas como critério de seleção.                                      também apresentaram melhora nos resulta-
                              O método de regressão descontínua                                               dos dos testes. Para os estudantes situados
                          (RDD) permitiu aos pesquisadores testar se                                          à direita da nota de corte, os pesquisadores
                          a composição dos alunos dentro das salas                                            descobriram que não houve diferença signi-
                          de aula afetou diretamente os resultados                                            ﬁcativa nas notas dos testes ﬁnais. Esses
                          nos testes. Compararam as notas ﬁnais dos                                           resultados rejeitam a hipótese de que os
                          alunos posicionados bem próximos ao ponto                                           estudantes se beneﬁciam diretamente da
                          de corte para veriﬁcar se aqueles alocados                                          presença de colegas de classe com melhor
                          às turmas de alto desempenho se saíam                                               desempenho.

                          Fonte: Duﬂo, Dupas e Kremer 2011.



Método de regressão descontínua                                                                                                                               133
      (calculado com os dados da linha de base) quando não há manipulação.
      A densidade de domicílios situados em torno do ponto de corte (50) é contí-
      nua (ou suave). O painel b mostra uma situação diferente: um número maior
      de famílias parece estar “concentrado” logo abaixo do ponto de corte,
      enquanto uma quantidade relativamente pequena de famílias pode ser
      encontrada logo acima do ponto de corte. Como não há uma razão a priori
      para acreditarmos que deveria haver uma grande alteração no número de
      domicílios em torno do ponto de corte, a ocorrência dessa mudança na dis-
      tribuição em torno desse ponto é evidência de que, de alguma maneira, as
      famílias podem estar manipulando suas pontuações para obter acesso ao
      programa. Um segundo teste para detectar a manipulação plota o índice de




             Avaliar o impacto do HISP: método de
             regressão descontínua

       Agora, consideremos como o método de regressão descontínua pode ser
       aplicado ao nosso Programa de Subsídio ao Seguro Saúde (HISP).
       Depois de realizar mais algumas investigações sobre o projeto do HISP,
       você descobre que, além de selecionar aleatoriamente os povoados que
       serão submetidos ao tratamento, as autoridades direcionaram o pro-
       grama para famílias de baixa renda utilizando a linha de pobreza
       nacional. A linha de pobreza se baseia em um índice de pobreza que
       atribui a cada família do país uma pontuação entre 20 e 100 com base
       em seus ativos, condições habitacionais e estrutura sociodemográﬁca.
       A linha de pobreza foi oﬁcialmente ﬁxada em 58. Isso signiﬁca que todas
       as famílias com uma pontuação de 58 ou menor são classiﬁcadas como
       pobres, e todas as famílias com uma pontuação superior a 58 são consi-
       deradas não pobres. Mesmo nos povoados de tratamento, apenas as
       famílias pobres são elegíveis para se inscrever no HISP. Seu conjunto de
       dados inclui informações sobre as famílias pobres e não pobres dos
       povoados de tratamento.
          Antes de calcular as estimativas segundo o método de regressão des-
       contínua, você decide veriﬁcar se há alguma evidência de manipulação
       no índice de elegibilidade. Como primeira etapa, veriﬁca se a densidade
       do índice de elegibilidade gera alguma preocupação relacionada à
       manipulação desse indicador. Plota a porcentagem de famílias para
       cada ponto do índice de pobreza da linha de base (ﬁgura 6.5).3 O gráﬁco
       não indica qualquer “concentração” de famílias abaixo do ponto de
       corte de 58.


134                                                     Avaliação de Impacto na Prática
 Figura 6.5                   HISP: Densidade das famílias, por índice de pobreza na linha
 de base


                      0,04




                      0,03
 Densidade estimada




                      0,02




                      0,01

                                                 Elegíveis Não elegíveis

                                                       58
                        0
                             20            40               60             80            100
                                       Índice de pobreza na linha de base (20–100)


    Em seguida, você veriﬁca se as famílias respeitaram sua alocação aos
 grupos de tratamento e de comparação com base na respectiva pontuação
 de elegibilidade. Você plota a participação no programa em relação ao
 índice de pobreza da linha de base (ﬁgura 6.6) e descobre que, dois anos
 após o início do programa-piloto, apenas as famílias que apresentavam
 uma pontuação de 58 ou menor (isto é, aquelas que ﬁcavam à esquerda da
 linha de pobreza) puderam se inscrever no HISP. Além disso, todas as
 famílias elegíveis se inscreveram no HISP. Em outras palavras, você
 detecta um cumprimento pleno e uma regressão descontínua sharp.
    Agora, você prossegue à aplicação do RDD para calcular o impacto do
 programa. Usando dados de acompanhamento, plota novamente a rela-
 ção entre as pontuações no índice de pobreza e os gastos previstos com
 saúde e encontra a relação ilustrada na ﬁgura 6.7. Na relação entre o
 índice de pobreza e os gastos previstos com saúde, você detecta uma clara
 ruptura, ou descontinuidade, na linha de pobreza (58).
    A descontinuidade reﬂete uma diminuição nos gastos com saúde das
 famílias elegíveis para receber o programa. Considerando que as famílias
 de ambos os lados do ponto de corte de 58 são muito semelhantes, a
 explicação plausível para a diferença no nível de despesas com saúde é


Método de regressão descontínua                                                                135
      Figura 6.6                                 Participação no HISP por índice de pobreza na linha de base


                                      1,0



                                      0,8
      Taxa de participação no HISP




                                      0,6

                                                                  Elegíveis   Não elegíveis

                                      0,4



                                      0,2



                                       0
                                            20              40                60               80                100
                                                         Índice de pobreza na linha de base (20–100)

      Figura 6.7 Índice de pobreza e despesas com saúde, HISP, dois
      anos depois


                                      60
                                                                  Elegíveis   Não elegíveis
        Despesas com saúde (em US$)




                                      40




                                      20                                 A



                                                                               B

                                       0                                      58
                                            20              40                60               80                100
                                                         Índice de pobreza na linha de base (20–100)

                                                     Despesas com saúde (em US$)               Valores preditos
                                                     Impacto estimado sobre as despesas com saúde


136                                                                                     Avaliação de Impacto na Prática
 Quadro 6.1 Avaliar o HISP: método de regressão descontínua com
 análise de regressão
                                                 Regressão linear multivariada
  Impacto estimado sobre as despesas                             −9,03**
  com saúde das famílias                                          (0,43)

 Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.

 que um grupo de famílias era elegível para se inscrever no programa e o
 outro, não. Você estima essa diferença por meio de uma regressão. Os
 resultados são mostrados no quadro 6.1.


      Perguntas 5 sobre o HISP

 A. O resultado mostrado no quadro 6.1 é válido para todas as famílias
    elegíveis?
 B. Comparado com o impacto estimado por meio do método de seleção
    aleatória, o que esse resultado diz sobre as famílias que apresentam
    um índice de pobreza um pouco inferior a 58?
 C. Com base nas estimativas de impacto do RDD, o HISP deveria ser
    ampliado para todo o país?



elegibilidade e a variável do resultado na linha de base e veriﬁca se não há
descontinuidade ou “saltos” à direita do ponto de corte.


Limitações e interpretação do método de
regressão descontínua

O método de regressão descontínua fornece estimativas do efeito médio
local de tratamento (LATE) em torno do critério de elegibilidade no ponto
em que as unidades de tratamento e de comparação são mais semelhantes.
Quanto mais perto do ponto de corte chegarmos, mais semelhantes serão
as unidades de ambos os lados. Na verdade, quando nos aproximamos
muito do ponto de corte, as unidades de ambos os lados do corte são tão
semelhantes que a comparação será tão boa quanto se tivéssemos esco-
lhido os grupos de tratamento e de comparação usando seleção aleatória
para o tratamento.
   Como o RDD estima o impacto do programa em torno do ponto de corte,
ou seja, localmente, a estimativa não pode ser, necessariamente, generali-
zada para unidades cujas pontuações estão mais afastadas do ponto de corte,
Método de regressão descontínua                                                        137
      isto é, nas regiões em que os indivíduos elegíveis e não elegíveis podem
      não ser tão semelhantes. O fato de o RDD não ser capaz de fornecer uma
      estimativa do efeito médio do tratamento para todos os participantes do
      programa pode ser visto como uma vantagem e uma limitação do método,
      dependendo da pergunta de avaliação de interesse. Se a avaliação pretender,
      principalmente, responder à pergunta: o programa deve existir ou não?, o
      efeito médio do tratamento para toda a população elegível pode ser o parâ-
      metro mais relevante, e, claramente, o RDD ﬁcará aquém de ser perfeito. No
      entanto, se a pergunta de interesse for: o programa deve ser reduzido ou
      expandido na margem? — ou seja, para os (potenciais) beneﬁciários em
      torno do ponto de corte —, o RDD produzirá precisamente a estimativa local
      de interesse para orientar essa importante decisão de política pública.
          Conforme mencionado, pode ocorrer uma complicação adicional quando
      o cumprimento em ambos os lados do ponto de corte for imperfeito. Essa
      regressão descontínua fuzzy ocorre quando as unidades que não são elegí-
      veis com base em sua pontuação no índice conseguem, no entanto, obter
      acesso ao programa, ou quando as unidades que são elegíveis com base em
      sua pontuação no índice optam por não participar do programa. Nesse caso,
      podemos usar uma metodologia de variável instrumental semelhante à des-
      crita no capítulo 5: a localização de unidades acima ou abaixo do ponto de
      corte será usada como variável instrumental para a participação observada
      no programa. Como foi o caso nos exemplos discutidos no capítulo 5, essa
      decisão tem um inconveniente: conseguiremos estimar o impacto apenas
      para aquelas unidades que são sensíveis aos critérios de elegibilidade — ou
      seja, o tipo Participa se elegível pela pontuação, mas não os tipos Sempre
      ou Nunca.
          O fato de o RDD estimar o impacto apenas em torno do ponto de corte
      também gera desaﬁos em termos do poder estatístico da análise. Às vezes,
      apenas um conjunto restrito de observações que estão localizadas perto do
      ponto de corte são usadas na análise, diminuindo, assim, o número de obser-
      vações da análise do RDD em relação aos métodos que analisam todas as
      unidades nos grupos de tratamento e de comparação. Para obter poder esta-
      tístico suﬁciente ao aplicar o RDD, será preciso escolher um intervalo em
      torno do ponto de corte que inclua um número suﬁciente de observações.
      Na prática, deve-se tentar utilizar um intervalo tão amplo quanto possível e,
      ao mesmo tempo, manter o balanceamento das características observáveis
      da população situada acima e abaixo do ponto de corte. Em seguida, pode-se
      executar a estimativa várias vezes usando diferentes faixas para veriﬁcar se
      as estimativas são sensíveis à faixa escolhida.
          Uma ressalva adicional ao usar o método de regressão descontínua é que
      a especiﬁcação pode ser sensível à forma funcional usada na modelagem
      da relação entre o índice de elegibilidade e o resultado de interesse.
138                                                      Avaliação de Impacto na Prática
Nos exemplos apresentados neste capítulo, pressupusemos que a relação
entre o índice de elegibilidade e o resultado era linear. Na realidade, a rela-
ção poderia ser mais complexa e incluir relações não lineares e interações
entre variáveis. Se não se levar em conta essas relações complexas na esti-
mação, elas podem ser confundidas com uma descontinuidade, levando a
uma interpretação incorreta do impacto estimado do RDD. Na prática,
pode-se estimar o impacto do programa usando várias formas funcionais
(linear, quadrática, cúbica, quártica, etc.) para avaliar se, de fato, as estimati-
vas de impacto são sensíveis à forma funcional.
   Por ﬁm, conforme discutido acima, existem algumas condições impor-
tantes para a regra de elegibilidade e o ponto de corte. Primeiramente,
eles devem ser exclusivos do programa de interesse. Um índice de pobreza
que apresente um ranking de famílias ou indivíduos, por exemplo, pode
ser usado para direcionar diversos programas sociais voltados à popula-
ção pobre. Nesse caso, não será possível isolar o impacto de um programa
especíﬁco de combate à pobreza de todos os outros programas que usam
os mesmos critérios de focalização. Em segundo lugar, a regra de elegibi-
lidade e o ponto de corte devem ser resistentes a manipulação por parte
de recenseadores, beneﬁciários potenciais, administradores de progra-
mas ou políticos. A manipulação do índice de elegibilidade cria uma des-
continuidade no índice que mina a condição básica para que o método
funcione: ou seja, que o índice de elegibilidade seja contínuo em torno do
ponto de corte.
   Mesmo com essas limitações, o RDD é um poderoso método de avaliação
de impacto para gerar estimativas não enviesadas do impacto de um pro-
grama em torno do ponto de corte de elegibilidade. O RDD tira proveito das
regras de alocação de programas ao usar índices contínuos de elegibilidade,
que já são comuns em muitos programas sociais. Quando se aplicam as
regras de focalização baseadas em índices, não é necessário excluir do trata-
mento um grupo de famílias ou indivíduos elegíveis por causa da avaliação;
em vez disso, é possível aplicar o método de regressão descontínua.



Lista de veriﬁcação: método de regressão
descontínua

O método de regressão descontínua exige que o índice de elegibilidade seja
contínuo em torno do ponto de corte e que as unidades situadas pouco
acima ou pouco abaixo desse ponto de corte sejam semelhantes.
¸ O índice é contínuo em torno do ponto de corte no momento da linha de
  base (início do programa)?
Método de regressão descontínua                                                       139
      ¸ Existe alguma evidência de descumprimento da regra que determina a
        elegibilidade para o tratamento? Veriﬁque se todas as unidades elegíveis
        receberam o tratamento e se as unidades não elegíveis não receberam. Se
        for detectado descumprimento, será preciso combinar o RDD com uma
        abordagem de variável instrumental para corrigir essa “descontinuidade
        fuzzy”.4
      ¸ Existe alguma evidência de que as pontuações do índice podem ter sido
        manipuladas para inﬂuenciar quem se qualiﬁcaria para receber o pro-
        grama? Veriﬁque se a distribuição da pontuação do índice é suave no
        ponto de corte. Se encontrar evidências de “concentração” de pontua-
        ções do índice acima ou abaixo do ponto de corte, isso pode indicar
        manipulação.
      ¸ O ponto de corte é exclusivo do programa que está sendo avaliado ou
        também é usado por outros programas?



      Recursos adicionais

      • Para acessar os materiais complementares a este capítulo e hiperlinks com
         recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
         .worldbank.org/ieinpractice).
      • Para acessar informações sobre como avaliar um programa de transferência de
        renda utilizando o RDD, ver o seguinte post do Blog de Impacto no
        Desenvolvimento do Banco Mundial (World Bank Development Impact Blog)
        (http://blogs.worldbank.org/impactevaluations/).
      • Para uma revisão das questões práticas no momento da implementação do RDD,
        ver Imbens, Guido e Thomas Lemieux. 2008. “Regression Discontinuity Designs:
        A Guide to Practice.” Journal of Econometrics 142 (2): 615–35.




      Notas

      1. Isso às vezes é chamado teste de elegibilidade multidimensional.
      2. O índice de elegibilidade contínuo é, às vezes, chamado “variável deﬁnidora da
         descontinuidade”(“forcing variable”).
      3. Nota técnica: a densidade foi estimada com a utilização do método univariado
         de kernel Epanechnikov.
      4. Nesse caso, você usaria a posição à esquerda ou à direita do ponto de corte como
         uma variável instrumental para a participação real no programa no primeiro
         estágio de uma estimativa de mínimos quadrados em dois estágios.


140                                                          Avaliação de Impacto na Prática
Referências

Barrera-Osorio, Felipe, Leigh Linden e Miguel Urquiola. 2007. “The Effects of User
   Fee Reductions on Enrollment: Evidence from a Quasi-Experiment.” Columbia
   University e Banco Mundial, Washington, DC.
Duﬂo, Esther, Pascaline Dupas e Michael Kremer. 2011. “Peer Effects, Teacher
   Incentives, and the Impact of Tracking: Evidence from a Randomized
   Evaluation in Kenya.” American Economic Review 101: 1739–74.
Imbens, Guido e Thomas Lemieux. 2008. “Regression Discontinuity Designs: A
   Guide to Practice.” Journal of Econometrics 142 (2): 615–35.
Levy, Dan e Jim Ohls. 2010. “Evaluation of Jamaica’s PATH Conditional Cash
   Transfer Programme.” Journal of Development Effectiveness 2 (4): 421–41.




Método de regressão descontínua                                                      141
CAPÍTULO 7




Diferença em diferenças

Avaliação de um programa quando a regra de
seleção é menos clara

Os três métodos de avaliação de impacto discutidos até este ponto — seleção
aleatória, variáveis instrumentais (VI) e método de regressão descontínua
(RDD) — produzem estimativas do contrafactual por meio de regras explíci-
tas de alocação dos beneﬁciários dos programas. Já discutimos por que esses
métodos oferecem estimativas conﬁáveis do contrafactual com relativa-
mente poucas suposições e restrições. Os próximos dois tipos de métodos —
diferença em diferenças (DD) e pareamento — oferecem um conjunto
adicional de ferramentas que podem ser aplicadas quando as regras de sele-
ção dos beneﬁciários são menos claras ou quando nenhum dos três métodos
descritos anteriormente é factível. Tanto o método diferença em diferenças
quanto o de pareamento são comumente utilizados neste caso. No entanto,
ambos também exigem, normalmente, pressupostos mais fortes do que os
métodos de seleção aleatória, VI ou RDD. Intuitivamente, se não conhece-
mos a regra de seleção do programa, teremos uma dimensão adicional
desconhecida em nossa avaliação sobre a qual precisamos fazer suposi-
ções. Como as suposições que fazemos não são necessariamente verdadei-
ras, o uso do método diferença em diferenças ou o pareamento nem
sempre pode fornecer estimativas conﬁáveis dos impactos do programa.



                                                                              143
                         O método diferença em diferenças

Conceito-chave           O método diferença em diferenças compara as mudanças nos resultados ao
A diferença em           longo do tempo entre uma população que está inscrita em um programa
diferenças compara as    (o grupo de tratamento) e uma população que não está (o grupo de compara-
mudanças nos             ção). Tomemos, por exemplo, um programa de recuperação de estradas que é
resultados ao longo do
                         executado em um município, mas não pode ser selecionado aleatoriamente
tempo entre os
inscritos em um          entre municípios, e que também não é selecionado com base em um índice
programa (o grupo de     com um ponto de corte ou limite claramente deﬁnido que permita a aplicação
tratamento) e os não     do método de regressão descontínua. Os governos municipais podem optar
inscritos (o grupo de    por se inscrever ou não no programa. Um dos objetivos do programa é melho-
comparação). Isso nos    rar o acesso da população aos mercados de trabalho, e um dos indicadores de
permite corrigir
                         resultados é o nível de emprego. Conforme discutido no capítulo 3, simples-
quaisquer diferenças
entre os grupos de       mente observar a mudança entre o antes e o depois em relação às taxas de
tratamento e de          emprego dos municípios que se inscreveram no programa não captará o seu
comparação que sejam     impacto causal, pois muitos outros fatores também poderão inﬂuenciar o nível
constantes ao longo do   de emprego ao longo do tempo. Ao mesmo tempo, comparar os municípios que
tempo.
                         se inscreveram e não se inscreveram no programa de recuperação de estradas
                         será problemático se houver fatores não observados que expliquem por que
                         alguns municípios se inscreveram na iniciativa e outros, não (o problema do
                         viés de seleção discutido no cenário do inscrito versus o não inscrito).
                             E se, porém, combinássemos os dois métodos e comparássemos as mudan-
                         ças antes e depois nos resultados para um grupo que se inscreveu no programa
                         às mudanças antes e depois para um grupo que não se inscreveu no programa?
                         A diferença nos resultados de antes e depois do grupo inscrito — a primeira
                         diferença — controlará para os fatores que são constantes ao longo do tempo
                         nesse grupo, uma vez que estaremos comparando o grupo com ele mesmo.
                         Mas ainda temos que lidar com os fatores que variam ao longo do tempo
                         (os fatores variantes no tempo) para esse grupo. Uma maneira de captar esses
                         fatores que variam ao longo do tempo é medir a mudança antes e depois dos
                         resultados para um grupo que não se inscreveu no programa, mas foi exposto
                         ao mesmo conjunto de condições ambientais — a segunda diferença. Se “lim-
                         parmos” a primeira diferença dos outros fatores variantes no tempo que afe-
                         tam o resultado de interesse ao subtrairmos a segunda diferença, eliminaremos
                         uma fonte de viés que era fonte de preocupação nas comparações simples de
                         antes e depois. A abordagem da diferença em diferenças faz o que seu nome
                         sugere. Ela combina as duas estimativas falsas do contrafactual (comparações
                         antes e depois e comparações entre aqueles que optam por se inscrever e
                         aqueles que optam por não se inscrever) para produzir uma melhor estima-
                         tiva do contrafactual. No exemplo do programa de recuperação de estradas, o
                         método DD pode ser capaz de comparar mudanças no nível de emprego antes
                         e depois de o programa ser implementado para indivíduos residentes nos
 144                                                                        Avaliação de Impacto na Prática
municípios que se inscreveram no programa às mudanças no nível de emprego
dos municípios que não se inscreveram no programa.
   É importante observar que o que estamos estimando aqui é o contrafac-
tual da mudança nos resultados para o grupo de tratamento: a nossa estima-
tiva desse contrafactual é a mudança nos resultados para o grupo de
comparação. Os grupos de tratamento e de comparação não necessaria-
mente necessitam ter as mesmas condições antes da intervenção. Mas, para
que o método DD seja válido, o grupo de comparação deve representar pre-
cisamente a mudança nos resultados que teria sido experimentada pelo
grupo de tratamento na ausência de tratamento. Para aplicar diferença em
diferenças, é necessário medir os resultados do grupo que recebe o pro-
grama (o grupo de tratamento) e do grupo que não recebe (o grupo de com-
paração) antes e depois do programa. No boxe 7.1, apresentamos um exemplo
no qual o método DD foi usado para compreender o impacto de incentivos



     Boxe 7.1: Uso do método diferença em diferenças para
     compreender o impacto dos incentivos eleitorais sobre as taxas
     de evasão escolar no Brasil
     Em um estudo empírico sobre os incentivos      os pesquisadores compararam a melhora nas
     das eleições locais, De Janvry, Finan e        taxas de evasão escolar nos municípios cujos
     Sadoulet (2011) analisaram o impacto de um     prefeitos estavam no primeiro mandato e
     programa de transferência condicional de       aqueles que estavam no segundo mandato.
     renda (TCR) no Brasil. O programa Bolsa        A hipótese dos pesquisadores era que, como
     Escola deu às mães de famílias pobres          o Brasil tem um limite de dois mandatos para
     um subsídio mensal vinculado à frequência      os políticos locais, os prefeitos no primeiro
     escolar de seus ﬁlhos. Essa TCR era um pro-    mandato estavam preocupados com a reelei-
     grama federal semelhante ao Oportunidades,     ção e, portanto, agiam de maneira diferente
     do México (ver os boxes 1.1 e 4.2), mas        dos prefeitos no segundo mandato, que não
     foi descentralizado para o nível municipal.    tinham mais preocupações eleitorais.
     Assim, os governos municipais ﬁcaram res-          No geral, o programa reduziu com sucesso
     ponsáveis pela identiﬁcação dos beneﬁciá-      as taxas de evasão escolar, registrando uma
     rios e pela implementação do programa.         diminuição média de 8% na evasão para os
         Usando o método diferença em diferen-      beneﬁciários. Os pesquisadores descobriram
     ças, De Janvry, Finan e Sadoulet estimaram o   que o impacto do programa tinha sido 36%
     impacto do programa sobre as taxas de eva-     maior em municípios com prefeitos em pri-
     são escolar. Detectaram uma variação consi-    meiro mandato. A conclusão é que a preocu-
     derável no desempenho do programa nos          pação com a reeleição incentivou os políticos
     diversos municípios em que ele tinha sido      locais a aumentar seus esforços na imple-
     implementado. Para explorar essa variação,     mentação do programa Bolsa Escola.

     Fonte: De Janvry, Finan e Sadoulet 2011.



Diferença em diferenças                                                                             145
      Figura 7.1    Método diferença em diferenças

      Resultado                                            Grupo de
       (taxa de                                           comparação
      emprego)
                                                                             D = 0,81
                                            C = 0,78
                                                                            B = 0,74
                                                                           Impacto estimado = 0,11
                                                                            E = 0,63
                                            A = 0,60

                                                             Grupo de Tendência do grupo de
                                                            tratamento comparação




                                                                                           Período
                     Ano -2          Ano -1          Ano 0           Ano 1

      Observação: todas as diferenças entre pontos devem ser lidas como diferenças verticais nos resulta-
      dos medidos no eixo vertical.



      eleitorais sobre a implementação de um programa de transferência de renda
      no Brasil e sobre as taxas de evasão escolar.
         A ﬁgura 7.1 ilustra o método diferença em diferenças para o exemplo da
      recuperação de estradas. Ano 0 é o ano da linha de base. No ano 1, um grupo
      de municípios participantes do tratamento se inscreve no programa,
      enquanto um grupo de municípios de comparação não se inscreve. O nível
      do resultado (taxa de emprego) para o grupo de tratamento vai de A, antes
      do início do programa, para B após o início do programa, enquanto o resul-
      tado para o grupo de comparação vai de C, antes do início do programa,
      para D, após o início do programa.
         Lembrem-se de nossas duas estimativas falsas do contrafactual: a dife-
      rença nos resultados antes e depois da intervenção para o grupo de trata-
      mento (B − A) e a diferença nos resultados após a intervenção entre os
      grupos de tratamento e comparação (B − D). No método diferença em dife-
      renças, a estimativa do contrafactual é obtida ao se computar a mudança nos
      resultados para o grupo de comparação (D − C), e, em seguida, subtrair esse
      valor da mudança nos resultados para o grupo de tratamento (B − A). Usar a
      variação nos resultados para o grupo de comparação como a estimativa do
      contrafactual da mudança nos resultados para o grupo de tratamento é
      semelhante a supor que, caso o grupo inscrito não tivesse participado do
      programa, seu resultado teria evoluído, ao longo do tempo, de acordo com a


146                                                                     Avaliação de Impacto na Prática
mesma tendência do grupo não inscrito: ou seja, a mudança no resultado do
grupo inscrito teria sido de A para E, conforme mostra a ﬁgura 7.1.
   Em resumo, o impacto do programa é simplesmente computado como a
diferença entre duas diferenças:

   Impacto DD = (B − A) − (D − C) = (0,74 – 0,60) − (0,81 − 0,78) = 0,11.

   As relações apresentadas na ﬁgura 7.1 também podem ser apresentadas
em um quadro simples. O quadro 7.1 desmembra os componentes das esti-
mativas da diferença em diferenças. A primeira linha contém os resultados
para o grupo de tratamento antes da intervenção (A) e depois da interven-
ção (B). A comparação antes e depois para o grupo de tratamento é a pri-
meira diferença (B − A). A segunda linha contém os resultados para o grupo
de comparação antes da intervenção (C) e após a intervenção (D). Dessa
maneira, a segunda diferença (que corresponde ao contrafactual) é (D − C).
   O método diferença em diferenças calcula a estimativa de impacto da
seguinte maneira:
1. Calculamos a diferença no resultado (Y) entre as situações de antes e
   depois para o grupo de tratamento (B − A).
2. Calculamos a diferença no resultado (Y) entre as situações de antes e
   depois para o grupo de comparação (D − C).
3. Em seguida, calculamos a diferença entre a diferença nos resultados para
   o grupo de tratamento (B − A) e a diferença para o grupo de comparação
   (D − C), ou a diferença em diferenças (DD) = (B − A) − (D − C). Essa dife-
   rença em diferenças é a nossa estimativa de impacto.



Quadro 7.1    Cálculo do método diferença em diferenças

                               Depois       Antes            Diferença
 Tratamento/inscritos             B           A                B−A
 Comparação/não inscritos        D            C                D−C
 Diferença                     B−D          A−C        DD = (B − A) − (D − C)


                               Depois       Antes            Diferença
 Tratamento/inscritos           0,74         0,60               0,14
 Comparação/não inscritos       0,81         0,78               0,03
 Diferença                     −0,07        −0,18      DD = 0,14 − 0,03 = 0,11



Diferença em diferenças                                                          147
                            Também poderíamos calcular a diferença em diferenças de outra
                         maneira: primeiro, calculando a diferença no resultado entre o grupo de tra-
                         tamento e o grupo de comparação na situação “depois” e, em seguida, calcu-
                         lando a diferença no resultado entre o grupo de tratamento e o grupo de
                         comparação na situação “antes”, e, por ﬁm, subtraindo o último do primeiro
                         resultado.

                           Impacto DD = (B − D) − (A − C) = (0,74 − 0,81) − (0,60 − 0,78) = 0,11.


                         Como o método diferença em diferenças é útil?

                         Para entender como o método diferença em diferenças é útil, vamos
                         começar com nossa segunda estimativa falsa do contrafactual discutida
                         no capítulo 3, que comparou as unidades que estavam inscritas em um
                         programa com aquelas que não estavam inscritas nesse mesmo programa.
                         Lembre-se de que a principal preocupação com essa comparação é o fato
                         de que os dois conjuntos de unidades podem ter características diferentes
                         e que podem ser essas características — e não o programa — que expli-
                         quem a diferença nos resultados entre os dois grupos. As diferenças das
                         características não observáveis se mostraram especialmente preocupan-
                         tes: por deﬁnição, é impossível incluir as características não observáveis
                         nessa análise.
                            O método diferença em diferenças ajuda a solucionar esse problema na
                         medida em que muitas das características de unidades ou indivíduos
                         podem ser plausivelmente consideradas como constantes ao longo do
                         tempo (ou, seja, elas são temporalmente invariantes). Pense, por exemplo,
                         nas características observáveis, como o ano de nascimento de uma pessoa,
                         a localização de uma região próxima do oceano, o clima de uma cidade ou
Conceito-chave           o nível de educação de um pai. A maioria desse tipo de variáveis, embora
Em vez de comparar       esteja possivelmente relacionada aos resultados, provavelmente não
resultados entre os      mudará ao longo da avaliação. Usando o mesmo raciocínio, podemos con-
grupos de tratamento e
                         cluir que muitas características não observáveis dos indivíduos também
de comparação após a
intervenção, o método
                         são mais ou menos constantes ao longo do tempo. Considere, por exemplo,
de diferença em          traços de personalidade ou o histórico de saúde familiar. Pode ser plausí-
diferenças compara as    vel pensar que essas características intrínsecas de uma pessoa não mudam
tendências entre os      ao longo do tempo.
grupos de tratamento e      Em vez de comparar os resultados entre os grupos de tratamento e de
de comparação.
                         comparação após a intervenção, o método diferença em diferenças compara
                         as tendências entre os grupos de tratamento e de comparação. A tendência



148                                                                          Avaliação de Impacto na Prática
para um indivíduo é a diferença no resultado para esse indivíduo antes e
depois do programa. Ao subtrair o resultado de antes do programa do resul-
tado obtido depois desse mesmo programa, anulamos o efeito de todas as
características que são únicas para aquele indivíduo e que não mudam ao
longo do tempo. Curiosamente, dessa maneira anulamos (ou controlamos)
não apenas o efeito das características observáveis invariantes no tempo,
mas também o efeito de características não observáveis e temporalmente
invariantes, como aquelas mencionadas acima. O boxe 7.2 descreve um
estudo que utilizou o método diferença em diferenças para estimar o
impacto do aumento da presença policial sobre a incidência de roubos de
carros em Buenos Aires.




     Boxe 7.2: Utilizar a DD para estudar os efeitos do aumento do
     efetivo policial sobre a criminalidade na Argentina
     DiTella e Schargrodsky (2005) analisaram se      tendem a aumentar a presença policial em
     o aumento do efetivo policial reduziu a crimi-   áreas com taxas de criminalidade mais eleva-
     nalidade na Argentina. Em 1994, um ataque        das. Em contrapartida, o aumento do policia-
     terrorista a um grande centro judaico em         mento na Argentina não estava relacionado,
     Buenos Aires levou o governo argentino a         de maneira nenhuma, à incidência de furtos
     aumentar a proteção policial para edifícios      de carros e, por isso, o estudo não sofreu
     vinculados a judeus no país.                     esse problema de simultaneidade. DiTella e
         Ao tentarem compreender o impacto da         Schargrodsky conseguiram usar o método
     presença da polícia sobre a incidência de cri-   diferença em diferenças para estimar o
     mes, DiTella e Schargrodsky coletaram dados      impacto do aumento da presença policial
     sobre o número de roubos de carro por quar-      sobre a incidência de roubos de carro.
     teirão em três bairros de Buenos Aires antes         Os resultados revelaram que a presença
     e depois do ataque terrorista. Em seguida,       da polícia teve um efeito dissuasor positivo
     eles combinaram essas informações com            sobre a criminalidade. Contudo, esse efeito foi
     dados geográﬁcos relacionados à localização      localizado. Nos quarteirões com edifícios vin-
     de instituições judaicas nesses bairros. Esse    culados à comunidade judaica que receberam
     estudo apresentou uma abordagem dife-            proteção policial, os roubos de carros diminuí-
     rente em relação à de regressão tipicamente      ram signiﬁcativamente em comparação aos
     utilizada em estudos sobre a incidência de       outros quarteirões (75%). Os pesquisadores
     crimes. Estudos sobre o impacto do policia-      não detectaram nenhum impacto sobre os
     mento muitas vezes enfrentam um pro-             roubos de carros registrados a um ou dois
     blema de endogeneidade, pois os governos         quarteirões dos edifícios protegidos.

     Fonte: DiTella e Schargrodsky 2005.




Diferença em diferenças                                                                                 149
      A hipótese da “igualdade de tendências” na
      diferença em diferenças

      Embora o método diferença em diferenças nos permita tratar das dife-
      renças entre o grupo de tratamento e o grupo de comparação que são
      constantes ao longo do tempo, não nos ajudará a eliminar as diferenças
      entre o grupo de tratamento e de comparação que mudam ao longo do
      tempo. No exemplo do programa de recuperação de estradas, se as áreas
      de tratamento também se beneﬁciarem da construção concomitante de
      um novo porto marítimo, não seremos capazes de separar o efeito da
      recuperação de estradas do efeito da construção do porto marítimo utili-
      zando a abordagem diferença em diferenças. Para que o método forneça
      uma estimativa válida do contrafactual, precisamos partir do princípio
      que não existem diferenças que variem no tempo entre os grupos de tra-
      tamento e de comparação.
         Outra maneira de analisar essa questão é pensar que, na ausência do pro-
      grama, as diferenças nos resultados entre os grupos de tratamento e de com-
      paração teriam que evoluir em conjunto. Ou seja, sem tratamento, os
      resultados teriam que aumentar ou diminuir à mesma taxa em ambos os
      grupos; é preciso que os resultados exibam tendências iguais na ausência do
      tratamento.
         É claro que não há como provar que as diferenças entre os grupos de tra-
      tamento e de comparação evoluiriam em conjunto na ausência do programa.
      A razão é que não podemos observar o que teria acontecido ao grupo de
      tratamento na ausência do tratamento — em outras palavras, não podemos
      observar o contrafactual.
         Dessa maneira, quando usamos o método diferença em diferenças,
      devemos supor que, na ausência do programa, o resultado do grupo de tra-
      tamento teria evoluído em paralelo com o resultado do grupo de compara-
      ção. A ﬁgura 7.2 ilustra uma violação dessa premissa fundamental. Se as
      tendências dos resultados forem diferentes para os grupos de tratamento
      e de comparação, o efeito estimado do tratamento obtido pelo método
      diferença em diferenças seria inválido ou enviesado. Isso ocorre porque a
      tendência para o grupo de comparação não é uma estimativa válida para a
      tendência contrafactual que teria prevalecido para o grupo de tratamento
      na ausência do programa. Conforme mostra a ﬁgura 7.2, se, na realidade, os
      resultados para o grupo de comparação crescerem mais lentamente do que
      os resultados para o grupo de tratamento na ausência do programa, utili-
      zar a tendência para o grupo de comparação como estimativa do contra-
      factual da tendência para o grupo de tratamento gera uma estimativa
      enviesada do impacto do programa. Mais especiﬁcamente, superestimarí-
      amos o impacto do programa.
150                                                     Avaliação de Impacto na Prática
Figura 7.2 Diferença em diferenças quando as tendências de
resultado diferem

                                             Grupo de
Resultado                                   comparação
 (taxa de
emprego)                                                    D = 0,81
                              C = 0,78
                                            Contrafactual
                                             verdadeiro
                                                             B = 0,74
                                                            Impacto
                                                            verdadeiro < 0,11
                              A = 0,60                       E = 0,63

                                                            Tendência do grupo de
                                              Grupo de
                                                            comparação
                                             tratamento




                                                                         Período
              Ano -2      Ano -1         Ano 0       Ano 1




Testando a validade da hipótese da “igualdade de tendências” na
diferença em diferenças

Apesar de não podermos provar, a validade da hipótese subjacente da
igualdade de tendências pode ser testada. Uma primeira veriﬁcação de
validade consiste em comparar as alterações nos resultados dos grupos de
tratamento e de comparação antes da implementação do programa. No
programa de recuperação de estradas, isso signiﬁca que compararíamos a
variação do nível de emprego entre os grupos de tratamento e de compa-
ração antes do início do programa, ou seja, entre o ano -2 e o ano -1 e entre
o ano -1 e o ano 0. Caso os resultados tenham evoluído em conjunto antes
do início do programa, ganharemos conﬁança para aﬁrmar que os resulta-
dos teriam continuado a avançar em conjunto após a intervenção. Para
veriﬁcar a igualdade das tendências pré-intervenção, precisamos de, pelo
menos, duas observações consecutivas sobre o grupo de tratamento e o
grupo de comparação antes do início do programa. Isso signiﬁca que a
avaliação exigiria três observações consecutivas: duas observações pré-
intervenção para avaliar as tendências do pré-programa e, pelo menos,
uma observação pós-intervenção para avaliar o impacto utilizando o
método diferença em diferenças.
Diferença em diferenças                                                             151
         Uma segunda maneira de testar a hipótese da igualdade de tendências
      seria executar o que é conhecido como um teste placebo. Para esse teste, rea-
      lizaríamos uma estimativa adicional da diferença em diferenças utilizando
      um grupo de tratamento “falso”, isto é, um grupo que se sabe que não foi
      afetado pelo programa. Digamos, por exemplo, que se decida estimar como
      aulas de reforço escolar oferecidas para alunos da sétima série afetam a pro-
      babilidade desses alunos de frequentar a escola, e se escolhem os alunos da
      oitava série como grupo de comparação. Para testar se os alunos da sétima e
      da oitava séries apresentam as mesmas tendências em termos de frequência
      escolar, pode-se testar se os alunos da oitava e da sexta série têm as mesmas
      tendências. Sabe-se que os alunos da sexta série não são afetados pelo pro-
      grama e, portanto, se ﬁzermos uma estimativa da diferença em diferenças
      usando os alunos da oitava série como grupo de comparação e os alunos da
      sexta série como grupo de tratamento falso, teremos que encontrar um
      impacto zero. Se isso não ocorrer, o impacto encontrado deverá estar rela-
      cionado a alguma diferença subjacente nas tendências entre os alunos da
      sexta e da oitava séries. Isso, por sua vez, gerará dúvidas sobre se os alunos
      da sétima e da oitava séries podem, supostamente, ter tendências iguais na
      ausência do programa.
         Uma terceira maneira de testar a hipótese da igualdade de tendências
      seria realizar o teste placebo não apenas com um grupo de tratamento
      falso, mas também com uma variável de resultado falsa. No exemplo das
      aulas de reforço escolar, pode-se desejar testar a validade de utilizar os alu-
      nos da oitava série como grupo de comparação ao estimar o impacto do
      reforço sobre um resultado que você sabe que não será afetado pela inicia-
      tiva, como o número de irmãos que cada aluno tem. Se a estimativa da dife-
      rença em diferenças detectar um impacto das aulas de reforço sobre o
      número de irmãos que os alunos têm, saberemos que o grupo de compara-
      ção deve ser falho.
         Uma quarta maneira de testar a hipótese da igualdade de tendências
      seria realizar a estimativa da diferença em diferenças usando diferentes
      grupos de comparação. No exemplo das aulas de reforço escolar, pri-
      meiro faríamos a estimativa utilizando alunos da oitava série como grupo
      de comparação e, em seguida, uma segunda estimativa usando os alunos
      da sexta série como grupo de comparação. Se ambos forem grupos de
      comparação válidos, veriﬁcaremos que o impacto estimado será aproxi-
      madamente o mesmo em ambos os cálculos. Nos boxes 7.3 e 7.4, apresen-
      tamos dois exemplos de avaliações baseadas na diferença em diferenças
      que utilizaram uma combinação desses métodos para testar a hipótese
      da igualdade de tendências.



152                                                       Avaliação de Impacto na Prática
     Boxe 7.3: Teste da hipótese da igualdade de tendências:
     privatização de concessionárias de água e mortalidade
     infantil na Argentina
     Galiani, Gertler e Schargrodsky (2005) usa-     de privatização. Mostraram também que a
     ram o método diferença em diferenças para       decisão de privatizar não estava correlacio-
     abordar uma importante questão de política      nada a choques econômicos ou aos níveis
     pública: a privatização do serviço de forne-    históricos de mortalidade infantil dos muni-
     cimento de água melhora os resultados de        cípios. Os pesquisadores veriﬁcaram a vali-
     saúde e ajuda a mitigar a pobreza? Durante      dade de seus resultados realizando um
     a década de 1990, a Argentina iniciou uma       teste placebo usando um resultado falso:
     das maiores campanhas de privatização de        eles separaram as causas de mortalidade
     todos os tempos ao transferir o controle        infantil que estão relacionadas à condição da
     de concessionárias locais de fornecimento       água, como doenças infecciosas e parasitá-
     de água para empresas privadas reguladas.       rias, daquelas que não estão relacionadas a
     O processo de privatização ocorreu ao           ela, tais como acidentes e doenças congêni-
     longo de uma década, e o maior número de        tas. Em seguida, testaram o impacto da pri-
     privatizações aconteceu depois de 1995,         vatização dos serviços de fornecimento de
     tendo alcançado cerca de 30% dos municí-        água separadamente para os dois subcon-
     pios do país e 60% da população.                juntos de causas de mortalidade. Os pesqui-
         A avaliação tirou proveito dessa mudança    sadores mostraram que a privatização dos
     no controle das empresas ao longo do tempo      serviços de água estava relacionada a redu-
     para determinar o impacto da privatização       ções nas mortes por doenças infecciosas e
     sobre a mortalidade de crianças menores de      parasitárias, mas não estava vinculada a
     5 anos. Antes de 1995, as taxas de mortali-     reduções nas mortes causadas por aciden-
     dade infantil estavam declinando a um ritmo     tes e doenças congênitas.
     praticamente igual em toda a Argentina. A           Por ﬁm, a avaliação veriﬁcou que a morta-
     partir de 1995, as taxas de mortalidade dimi-   lidade infantil diminuiu cerca de 8% nas
     nuíram mais rapidamente nos municípios          áreas onde as empresas de água foram
     que privatizaram seus serviços de água.         privatizadas, e que o efeito foi maior — com
         Os pesquisadores argumentaram que,          queda de aproximadamente 26% — nas
     nesse contexto, a hipótese da igualdade de      áreas mais pobres, onde a expansão da rede
     tendências por trás do método diferença em      de água também foi maior. Esse estudo lan-
     diferenças provavelmente seria verdadeira.      çou luz sobre uma série de importantes
     Em especial, demonstraram que nenhuma           debates relacionados à privatização de servi-
     diferença nas tendências de mortalidade         ços públicos. Os pesquisadores concluíram
     infantil era observada entre os municípios      que, na Argentina, o setor privado regulado
     que faziam parte do grupo de tratamento         foi mais bem-sucedido do que o setor público
     e aqueles que faziam parte do grupo             na melhoria dos indicadores de acesso, ser-
     de comparação antes do início do processo       viço e, especialmente, mortalidade infantil.

     Fonte: Galiani, Gertler e Schargrodsky 2005.




Diferença em diferenças                                                                              153
      Boxe 7.4: Teste da hipótese da igualdade de tendências: a
      construção de escolas na Indonésia
      Duﬂo (2001) analisou os impactos a médio e      de estimativa válido, ela precisava primeiro
      longo prazos de um programa para construir      testar a hipótese da igualdade de tendências
      escolas na Indonésia sobre os resultados        entre os distritos. Para isso, Duﬂo usou um
      educacionais e do mercado de trabalho. Em       teste placebo com um grupo de tratamento
      1973, a Indonésia embarcou em um progra-        falso. Comparou um grupo que, em 1974,
      ma de construção de escolas em larga esca-      tinha entre 18 e 24 anos a um grupo que
      la e ergueu mais de 61.000 escolas primá-       tinha entre 12 e 17 anos. Como os indivíduos
      rias. Para atrair os estudantes que ainda não   de ambos os grupos eram velhos demais
      tinham se matriculado na rede escolar, o        para se beneﬁciar do novo programa, as
      governo deﬁniu que o número de escolas a        mudanças em seu nível de escolaridade não
      ser construído em cada distrito seria propor-   deveriam ser sistematicamente diferentes
      cional ao número de alunos não matricula-       entre os distritos do país. A estimativa dessa
      dos que vivia nesses distritos. Duﬂo procu-     regressão da diferença em diferenças foi
      rou avaliar o impacto do programa sobre o       próxima de zero. Esse resultado sugeriu
      nível de escolaridade e salários. A exposição   que, antes do início do programa, a escolari-
      ao tratamento foi medida pelo número de         dade não tinha aumentado mais rapida-
      escolas da região, e as coortes dos grupos      mente nas áreas que acabariam por se
      de tratamento e de comparação foram iden-       tornar distritos de alta exposição do que nos
      tiﬁcadas pela idade dos indivíduos no mo-       distritos de baixa exposição. O teste placebo
      mento em que o programa foi lançado. O          também mostrou que a estratégia de identi-
      grupo de tratamento era composto por ho-        ﬁcação, que utilizava a idade no momento da
      mens nascidos depois de 1962, já que eles       construção das escolas, funcionava.
      eram jovens o suﬁciente para se beneﬁciar           A avaliação detectou resultados positivos
      das novas escolas primárias que foram           em relação ao nível de escolaridade e salá-
      construídas em 1974. O grupo de compara-        rios dos estudantes que tiveram alta exposi-
      ção era formado por homens nascidos antes       ção ao programa, ou seja, aqueles que
      de 1962, que seriam velhos demais para se       tinham menos de 8 anos quando as escolas
      beneﬁciar do programa.                          foram construídas. Para esses alunos, cada
          Duﬂo usou o método diferença em dife-       nova escola construída por grupo de 1.000
      renças para estimar o impacto do programa       crianças foi associada a um ganho de 0,12 a
      sobre o nível médio de escolaridade e de        0,19 ano de escolaridade e a um aumento
      salários dessa população, comparando as         de 3% a 5,4% nos salários. O programa
      diferenças entre os resultados dos distritos    também aumentou em 12% a probabilidade
      com alta e baixa exposição ao programa.         de as crianças participantes completarem o
      Para demonstrar que esse era um método          ensino fundamental.

      Fonte: Duﬂo 2001.




154                                                                        Avaliação de Impacto na Prática
        Avaliar o impacto do HISP: uso do método diferença em
        diferenças

 O método diferença em diferenças pode ser usado para avaliar o nosso
 Programa de Subsídio ao Seguro Saúde (HISP). Neste cenário, você tem
 dados de dois períodos distintos para dois grupos de famílias: um grupo
 que se inscreveu no programa e outro grupo que não. Lembrando o caso
 dos grupos inscritos e não inscritos, você percebe que não pode simples-
 mente comparar os gastos médios com saúde dos dois grupos devido ao
 viés de seleção. Como você tem dados referentes a dois períodos para
 cada família da amostra, poderá usar esses dados para solucionar alguns
 desses desaﬁos ao comparar a mudança nos gastos com saúde dos dois
 grupos, supondo que a mudança nos gastos com saúde do grupo não ins-
 crito reﬂita o que teria acontecido com as despesas do grupo inscrito na
 ausência do programa (ver o quadro 7.2). Observe que não importa de que
 maneira você calculará a dupla diferença.
    Em seguida, você estima o efeito usando a análise de regressão (quadro 7.3).
 Utilizando uma regressão linear simples para calcular a estimativa simples


 Quadro 7.2 Avaliar o HISP: comparação de médias da diferença em
 diferenças

                                      Antes
                         Depois       (linha
                    (acompanhamento) de base)                          Diferença
  Inscritos                   7,84               14,49                    −6,65
  Não inscritos              22,30               20,79                     1,51
  Diferença                                                  DD = −6,65 − 1,51 = −8,16

 Observação: o quadro apresenta os gastos médios com saúde das famílias para os domicílios
 inscritos e não inscritos antes e depois do início do HISP.


 Quadro 7.3 Avaliar o HISP: diferença em diferenças com análise de
 regressão

                                                                 Regressão linear
                                Regressão linear                   multivariada
  Impacto estimado
  sobre os gastos com                 −8,16**                          −8,16**
  saúde das famílias                    (0,32)                          (0,32)

 Observação: os erros padrão estão entre parênteses. Nível de signiﬁcância: ** = 1%.




Diferença em diferenças                                                                      155
       da diferença em diferenças, você veriﬁca que o programa reduziu os gastos
       com saúde das famílias em US$ 8,16. A seguir, reﬁna sua análise ao adicio-
       nar variáveis de controle adicionais. Em outras palavras, usa uma regressão
       linear multivariada que leva em conta uma série de outros fatores e detecta
       a mesma redução nos gastos com saúde das famílias.


           Perguntas 6 sobre o HISP

       A. Quais são as hipóteses básicas necessárias para aceitar esse resultado
          obtido por meio do método diferença em diferenças?
       B. Com base no resultado da diferença em diferenças, o HISP deve ser
          ampliado para todo o país?



      Limitações do método diferença em diferenças

      Mesmo quando as tendências são iguais antes do início da intervenção, o
      viés da estimativa do método diferença em diferenças pode ainda aparecer e
      passar despercebido. Isso porque a DD atribui à intervenção quaisquer dife-
      renças entre as tendências dos grupos de tratamento e de comparação que
      ocorram a partir do momento em que a intervenção começa. Se houver
      outros fatores que afetem a diferença das tendências entre os dois grupos
      que não foram considerados na regressão multivariada, a estimativa será
      inválida ou enviesada.
         Digamos que se está tentando estimar o impacto de fertilizantes subsidia-
      dos sobre a produção de arroz e que se está fazendo isso medindo a produção
      de arroz de agricultores subsidiados (grupo de tratamento) e não subsidia-
      dos (grupo de comparação) antes e depois da distribuição dos subsídios. Se
      no ano 1 houver uma seca que afete somente os agricultores subsidiados, a
      estimativa da diferença em diferenças produzirá uma estimativa inválida do
      impacto causado pelos subsídios destinados à compra de fertilizantes. Em
      geral, qualquer fator que afete desproporcionalmente um dos dois grupos e
      o faça concomitantemente ao recebimento do programa pelo grupo de trata-
      mento — e não seja considerado na regressão — tem o potencial de invalidar
      ou enviesar a estimativa de impacto do programa. O método diferença em
      diferenças pressupõe que nenhum fator desse tipo estará presente.

      Lista de veriﬁcação: diferença em diferenças

      No método diferença em diferenças pressupõe-se que as tendências dos
      resultados são semelhantes nos grupos de comparação e de tratamento
156                                                      Avaliação de Impacto na Prática
antes da intervenção, e que os únicos fatores que explicam as diferenças
entre os resultados dos dois grupos são constantes ao longo do tempo —
além, é claro, do próprio programa.
¸ Os resultados teriam evoluído em conjunto nos grupos de tratamento e
  de comparação na ausência do programa? Isso pode ser avaliado por
  meio de vários testes de falsiﬁcação, como os seguintes: (1) Os resultados
  dos grupos de tratamento e de comparação estavam evoluindo em con-
  junto antes da intervenção? Se dois períodos de dados estiverem disponí-
  veis antes do início do programa, analise-os para veriﬁcar se alguma
  diferença nas tendências aparece entre os dois grupos. (2) E quanto aos
  resultados falsos que não deveriam ser afetados pelo programa? Eles
  estavam evoluindo de forma similar antes e depois do início da interven-
  ção nos grupos de tratamento e de comparação?
¸ Realize a análise do método diferença em diferenças usando vários gru-
  pos de comparação plausíveis. Devem-se obter estimativas semelhantes
  para o impacto do programa.
¸ Realize a análise do método diferença em diferenças usando os grupos de
  tratamento e de comparação inicialmente selecionados e um resultado
  falso que não deveria ser afetado pelo programa. O programa deveria
  apresentar impacto zero sobre esse resultado.
¸ Realize a análise do método diferença em diferenças usando a variável de
  resultado escolhida e com dois grupos que sabidamente não foram afeta-
  dos pelo programa. O programa deveria apresentar impacto zero.


Recursos adicionais

• Para acessar os materiais complementares a este capítulo e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
  .worldbank.org/ieinpractice).
• Para mais informações sobre suposições não discutidas do método diferenças
  em diferenças, ver o Blog de Impacto no Desenvolvimento do Banco Mundial
  (World Bank Development Impact Blog – http://blogs.worldbank.org
  /impactevaluations).



Referências

De Janvry, Alain, Frederico Finan e Elisabeth Sadoulet. 2011. “Local Electoral
   Incentives and Decentralized Program Performance.” Review of Economics and
   Statistics 94 (3): 672–85.
Diferença em diferenças                                                          157
      DiTella, Rafael, e Ernesto Schargrodsky. 2005. “Do Police Reduce Crime? Estimates
         Using the Allocation of Police Forces after a Terrorist Attack.” American
         Economic Review 94 (1): 115–33.
      Duﬂo, Esther. 2001. “Schooling and Labor Market Consequences of School
         Construction in Indonesia: Evidence from an Unusual Policy Experiment.”
         American Economic Review 91 (4): 795–813.
      Galiani, Sebastian, Paul Gertler e Ernesto Schargrodsky. 2005. “Water for Life: The
         Impact of the Privatization of Water Services on Child Mortality.” Journal of
         Political Economy 113 (1): 83–120.




158                                                          Avaliação de Impacto na Prática
CAPÍTULO 8




Pareamento

Criar um grupo de comparação artiﬁcial

O método descrito neste capítulo consiste em um conjunto de técnicas esta-     Conceito-chave
tísticas às quais chamaremos coletivamente de pareamento. Os métodos de        O pareamento utiliza
pareamento podem ser aplicados no contexto de quase todas as regras de         grandes bases de
seleção dos beneﬁciários do programa, desde que exista um grupo que não        dados e técnicas
                                                                               estatísticas para criar
tenha participado do programa. O pareamento utiliza, essencialmente, téc-
                                                                               o melhor grupo de
nicas estatísticas para criar um grupo de comparação artiﬁcial. Para cada      comparação possível
possível unidade do grupo de tratamento, procura encontrar uma unidade         com base nas
de não tratamento (ou conjunto de unidades de não tratamento) que possua       características
as características mais semelhantes possíveis. Considere um caso em que se     observáveis.
esteja tentando avaliar o impacto de um programa de capacitação proﬁssio-
nal sobre a renda e se tenha em mãos uma base de dados — como registros
de rendimentos e pagamento de impostos — que contém tanto os indiví-
duos que se inscreveram no programa quanto os indivíduos que não se ins-
creveram. O programa que se está tentando avaliar não tem regras de
seleção claras (como a seleção aleatória ou um índice de elegibilidade) para
explicar por que alguns indivíduos se inscreveram no programa e outros, não.
Nesse contexto, os métodos de pareamento permitirão identiﬁcar o con-
junto de indivíduos não inscritos que mais se parecem com os indivíduos
tratados com base nas características que estão disponíveis no banco de
dados. Esses indivíduos pareados não inscritos passam, então, a ser o grupo
de comparação que será usado para estimar o contrafactual.
                                                                                                   159
         Encontrar um bom pareamento para cada participante do programa
      requer aproximar o máximo possível as características que explicam a
      decisão dos indivíduos de se inscrever no programa, o que, infelizmente,
      é mais fácil falar do que fazer. Se a lista de características relevantes
      observáveis for muito grande ou se cada característica assumir muitos
      valores, pode ser difícil identiﬁcar um pareamento para cada uma das
      unidades do grupo de tratamento. À medida que aumenta o número de
      características ou dimensões em relação às quais se quer realizar o pare-
      amento das unidades que se inscreveram no programa, é possível se
      deparar com o que chamamos de problema da dimensionalidade. Por
      exemplo, se forem usadas apenas três características importantes para
      identiﬁcar o grupo de comparação pareado, como idade, sexo e se o indi-
      víduo tem diploma do ensino médio, provavelmente se encontrarão pares
      para todos os participantes inscritos no programa no conjunto daqueles
      que não estão inscritos (os não inscritos), mas corre-se o risco de deixar
      de fora outras características potencialmente importantes. No entanto,
      se aumentarmos a lista de características — digamos, para incluir o
      número de ﬁlhos, o número de anos de estudo, o número de meses desem-
      pregado, o número de anos de experiência proﬁssional e assim por diante —,
      a base de dados pode não conter um bom par para a maioria dos partici-
      pantes do programa que estão inscritos, a menos que tenha um número
      muito grande de observações. A ﬁgura 8.1 ilustra o pareamento com base
      em quatro características: idade, sexo, meses desempregado e diploma de
      ensino médio.



      Figura 8.1   Pareamento exato por quatro características


                   Unidades tratadas                      Unidades não tratadas

                       Meses de   Diploma                         Meses de  Diploma
      Idade   Sexo               do ensino        Idade   Sexo             do ensino
                      desemprego   médio                         desemprego médio
        19     1          3          0             24       1         8        1
        35     1          12           1           38       0         1           0
        41     0          17           1           58       1         7           1
        23     1           6           0           21       0         2           1
        55     0          21           1           34       1         20          0
        27     0           4           1           41       0         17          1
        24     1           8           1           46       0         9           0
        46     0           3           0           41       0         11          1
        33     0          12           1           19       1         3           0
        40     1           2           0           27       0         4           0

160                                                       Avaliação de Impacto na Prática
Pareamento por escore de propensão

Felizmente, o problema da dimensionalidade pode ser facilmente eliminado
por meio de um método chamado pareamento por escore de propensão
(Rosenbaum e Rubin 1983). Nessa abordagem, não é mais necessário tentar
encontrar um par para cada unidade inscrita e as unidades não inscritas que
tenha exatamente o mesmo valor para todas as características de controle
observáveis. Em vez disso, para cada unidade do grupo de tratamento e do
grupo de não inscritos, calculamos a probabilidade de que essa unidade se ins-
creva no programa (o chamado escore de propensão) com base nos valores
observáveis de suas características (as variáveis explicativas). Essa pontuação
é um número real entre 0 e 1 que resume a inﬂuência de todas as característi-
cas observáveis sobre a probabilidade de se inscrever no programa. Devemos
usar apenas as características observáveis na linha de base para calcular o
escore de propensão. Isso ocorre porque as características pós-tratamento
podem ter sido afetadas pelo próprio programa, e o uso dessas características
para identiﬁcar o grupo de comparação pareado causaria um viés nos resulta-
dos. Quando o tratamento afeta as características individuais e usamos essas
características para realizar o pareamento, escolhemos um grupo de compa-
ração que se pareça com o grupo tratado por causa do próprio tratamento.
Sem o tratamento, essas características pareceriam mais diferentes. Isso viola
a exigência básica para uma boa estimativa do contrafactual: o grupo de com-
paração deve ser semelhante em todos os aspectos, exceto pelo fato de que o
grupo de tratamento recebe o tratamento e o grupo de comparação, não.
   Após o escore de propensão ter sido computado para todas as unidades,
as unidades do grupo de tratamento podem ser pareadas com as unidades
do conjunto de não inscritos que têm o escore de propensão mais próximo.1
Essas unidades mais próximas se tornam o grupo de comparação e são usa-
das para produzir uma estimativa do contrafactual. O método de parea-
mento por escore de propensão tenta imitar a seleção aleatória aos grupos
de tratamento e de comparação ao selecionar para o grupo de comparação
aquelas unidades que têm propensões semelhantes às das unidades do
grupo de tratamento. Como o pareamento por escore de propensão não é
um método de seleção aleatória, mas tenta imitá-lo, pertence à categoria dos
métodos quase-experimentais.
   A diferença média nos resultados entre as unidades de tratamento ou ins-
critas e suas unidades de comparação pareadas produz o impacto estimado
do programa. Em resumo, o impacto do programa é estimado comparando-se
os resultados médios de um grupo de tratamento ou grupo inscrito e os
resultados médios de um subgrupo de unidades estatisticamente pareadas,
sendo que o pareamento se baseia nas características observáveis disponí-
veis nos dados que se têm em mãos.
Pareamento                                                                        161
         Para que o pareamento por escore de propensão produza estimativas do
      impacto de um programa para todas as observações tratadas, cada unidade de
      tratamento ou inscrita precisa ser pareada com sucesso a uma unidade não
      inscrita.2 Na prática, no entanto, pode ser que, para algumas unidades inscri-
      tas, nenhuma unidade do conjunto de não inscritos tenha escores de propen-
      são semelhantes. Em termos técnicos, pode haver uma falta de suporte
      comum, ou ausência de sobreposição, entre os escores de propensão do grupo
      de tratamento ou inscrito e os do grupo de não inscritos.
         A ﬁgura 8.2 fornece um exemplo da falta de suporte comum. Primeiramente,
      estimamos a probabilidade de que cada unidade da amostra se inscreva no
      programa com base nas características observáveis dessa unidade, ou seja, o
      escore de propensão. A ﬁgura mostra a distribuição dos escores de propensão
      separadamente para os inscritos e os não inscritos. A questão é que essas dis-
      tribuições não se sobrepõem perfeitamente. No meio da distribuição, os pare-
      amentos são relativamente fáceis de encontrar, pois há tanto inscritos quanto
      não inscritos com esses níveis de escores de propensão. No entanto, os inscri-
      tos com escores de propensão próximos de 1 não podem ser pareados com
      nenhum não inscrito, pois não há nenhum não inscrito com escores de pro-
      pensão tão elevados. Intuitivamente, as unidades que têm alta probabilidade
      de se inscrever no programa são tão diferentes das unidades não inscritas que
      não podemos encontrar um bom par para elas. Da mesma forma, as unidades
      não inscritas com escores de propensão próximos de 0 não podem ser parea-
      das com nenhuma unidade inscrita, pois não há inscritos com escores de


      Figura 8.2      Pareamento por escore de propensão e suporte comum


                          Não inscritos              Inscritos
      Densidade




                                          Suporte comum




                  0                 Escore de propensão                                 1

162                                                         Avaliação de Impacto na Prática
propensão tão baixos. Dessa maneira, a falta de suporte comum aparecerá
nas extremidades, ou caudas, da distribuição dos escores de propensão. Neste
caso, o procedimento de pareamento estima o efeito médio local do trata-
mento (LATE) para observações sobre o suporte comum.
   As etapas a ser seguidas para aplicar o pareamento por escore de pro-
pensão são resumidas em Jalan e Ravallion (2003).3 Primeiramente, é pre-
ciso ter pesquisas representativas e altamente comparáveis nas quais seja
possível identiﬁcar as unidades que se inscreveram no programa e as que
não o ﬁzeram. Em segundo lugar, há que agrupar as duas amostras e esti-
mar a probabilidade de que cada indivíduo se matricule no programa, com
base nas características individuais observadas na pesquisa. Essa etapa
produz o escore de propensão. Em terceiro lugar, é necessário restringir a
amostra a unidades para as quais exista suporte comum na distribuição do
escore de propensão. Em quarto lugar, para cada unidade inscrita, é preciso
localizar um subgrupo de unidades não inscritas que tenha escores de pro-
pensão semelhantes. Quinto, deve-se comparar os resultados das unidades
submetidas ao tratamento ou inscritas com seu grupo de comparação pare-
ado ou unidades não inscritas. A diferença nos resultados médios entre
esses dois subgrupos é a medida do impacto que pode ser atribuído ao pro-
grama para essa observação tratada em particular. Em sexto lugar, a média
desses impactos individuais produzirá uma estimativa do efeito médio
local do tratamento. Na prática, os programas estatísticos mais comumente
usados incluem comandos pré-programados que executam as etapas 2 a 6
automaticamente.
   Em geral, é importante lembrar três questões cruciais sobre o parea-
mento. Em primeiro lugar, os métodos de pareamento só podem utilizar as
características observáveis para criar um grupo de comparação, uma vez que
as características não observáveis não podem ser levadas em consideração.
Se houver qualquer característica não observável que afete a probabilidade
de uma unidade se inscrever no programa e também afete o resultado de
interesse, as estimativas de impacto obtidas com o grupo de comparação
pareado serão enviesadas. Para que um resultado de pareamento seja des-
provido de viés, ele necessita ser respaldado pela hipótese forte de que não
há diferenças não observáveis nos grupos de tratamento e de comparação
que também estejam associadas aos resultados de interesse.
   Em segundo lugar, o pareamento deve ser feito utilizando apenas carac-
terísticas que não são afetadas pelo programa. A maioria das características
que são medidas após o início do programa não se encaixaria nessa catego-
ria. Se os dados da linha de base (pré-intervenção) não estiverem disponí-
veis e os únicos dados disponíveis forem de um momento posterior ao do
início da intervenção, as únicas características que poderemos utilizar para
criar uma amostra com pareamento serão aquelas (geralmente poucas) que
Pareamento                                                                     163
      não são afetadas por um programa, como idade e sexo. Mesmo que preten-
      damos realizar o pareamento em um conjunto muito mais rico de caracte-
      rísticas, incluindo os resultados de interesse, não poderemos fazê-lo, pois
      essas características são potencialmente afetadas pela intervenção. Não é
      recomendado realizar o pareamento com base unicamente nas característi-
      cas pós-intervenção. Se os dados da linha de base estiverem disponíveis,
      podemos realizar o pareamento com base em um conjunto mais rico de
      características, incluindo os resultados de interesse. Considerando que os
      dados são coletados antes da intervenção, essas variáveis pré-intervenção
      não podem ter sido afetadas pelo programa. No entanto, se os dados da linha
      de base sobre os resultados de interesse estiverem disponíveis, não se deve
      usar o método de pareamento por si só. Deve-se combiná-lo com o método
      diferença em diferenças para reduzir o risco de viés. Esse procedimento é
      discutido na próxima seção.
         Em terceiro lugar, os resultados da estimativa do método de pareamento
      são tão bons quanto as características que forem usadas para realizar os
      pareamentos. Embora seja importante ser capaz de realizar esses parea-
      mentos usando um grande número de características, ainda mais impor-
      tante é ser capaz de parear as unidades com base em características que
      determinam a inscrição no programa. Quanto melhor entendermos os crité-
      rios utilizados para a seleção dos participantes, melhores serão nossas chan-
      ces de criar o grupo de comparação pareado.


      Combinar o pareamento com outros métodos

      Embora a técnica do pareamento exija uma quantidade signiﬁcativa de
      dados e possua um risco signiﬁcativo de viés, ela tem sido usada para avaliar
      programas de desenvolvimento socioeconômico em uma ampla gama de
      conﬁgurações. Os usos mais convincentes do método são aqueles que com-
      binam o pareamento com outros métodos e aqueles que utilizam o método
      de controle sintético. Nesta seção, discutiremos a diferença em diferenças
      com pareamento e o método de controle sintético.


      Diferença em diferenças com pareamento

      Quando os dados da linha de base sobre os resultados de interesse estão dis-
      poníveis, o pareamento pode ser combinado ao método diferença em dife-
      renças para reduzir o risco de viés da estimativa. Conforme discutido, o
      pareamento simples por escore de propensão não é capaz de incorporar
      características não observáveis que podem explicar por que um grupo opta
      por se inscrever em um programa e que também podem afetar os resultados.
164                                                      Avaliação de Impacto na Prática
O pareamento combinado à diferença em diferenças pelo menos dá conta de
quaisquer características não observáveis que sejam constantes ao longo do
tempo entre os dois grupos. Ele é implementado da seguinte forma:
1. Faça o pareamento com base nas características da linha de base observá-
   veis (conforme discutido).
2. Para cada unidade inscrita, calcule a mudança nos resultados entre os
   períodos de antes e depois (a primeira diferença).
3. Para cada unidade inscrita, calcule a mudança nos resultados entre os
   períodos de antes e depois para a comparação pareada dessa unidade (a
   segunda diferença).
4. Subtraia a segunda diferença da primeira diferença, isto é, aplique o
   método diferença em diferenças.
5. Por ﬁm, calcule a média dessas diferenças duplas.
Os boxes 8.1 e 8.2 fornecem exemplos de avaliações que utilizaram o método
diferença em diferenças com pareamento na prática.




    Boxe 8.1: Diferença em diferenças com pareamento: estradas
    rurais e desenvolvimento dos mercados locais no Vietnã
    Mu e Van de Walle (2011) usaram o parea-        dados de uma pesquisa de linha de base, os
    mento por escore de propensão combinado         pesquisadores detectaram uma variedade de
    ao método diferença em diferenças para es-      fatores no nível municipal que inﬂuenciavam
    timar o impacto de um programa de recupe-       se uma estrada de determinado município
    ração de estradas rurais sobre o desenvolvi-    seria selecionada para o programa, como o
    mento dos mercados locais no nível              tamanho da população local, a proporção
    municipal. De 1997 a 2001, o governo viet-      de minorias étnicas, o padrão de vida, a den-
    namita recuperou 5000 km de estradas ru-        sidade das estradas existentes e a presença
    rais. As estradas foram selecionadas de         de meios de transporte de passageiros.
    acordo com os critérios de custo e densida-     Estimaram os escores de propensão com
    de populacional.                                base nessas características e limitaram o
        Como os municípios que se beneﬁciaram       tamanho da amostra à área de suporte
    das estradas recuperadas não foram selecio-     comum. Isso resultou em 94 municípios de
    nados aleatoriamente, os pesquisadores utili-   tratamento e 95 municípios de comparação.
    zaram o pareamento por escore de propensão      Para reduzir ainda mais o viés de seleção
    para criar um grupo de comparação. Usando       potencial, os pesquisadores usaram o

                                                                                        (continua)



Pareamento                                                                                           165
      Boxe 8.1: Diferença em diferenças com pareamento: estradas rurais e desenvolvimento dos mercados
      locais no Vietnã (continuação)

      método diferença em diferenças para estimar       migrassem das atividades agrícolas para
      as mudanças nas condições dos mercados            atividades mais relacionadas ao setor
      locais.                                           de serviços, como alfaiatarias e salões de
         Dois anos após o programa, os resulta-         cabeleireiro. No entanto, os resultados
      dos indicaram que a recuperação das estra-        variaram substancialmente entre os municí-
      das resultou em impactos positivos e              pios. Nos municípios mais pobres, os
      signiﬁcativos quanto à presença e à fre-          impactos tenderam a ser maiores devido ao
      quência de mercados locais e à disponibili-       menor nível de desenvolvimento inicial de
      dade de serviços. Novos mercados se               seus mercados. Os pesquisadores concluí-
      desenvolveram em 10% mais municípios              ram que projetos de pequenas melhorias
      de tratamento do que nos municípios de            viárias podem ter impactos maiores se
      comparação. Nos municípios de trata-              forem direcionados a áreas cujo desenvolvi-
      mento, era mais comum que as famílias             mento inicial era baixo.

      Fonte: Mu e Van de Walle 2011.




      Boxe 8.2: Diferença em diferenças com pareamento: pisos de
      cimento, saúde infantil e felicidade materna no México
      O programa Piso Firme, do México, oferece          comparabilidade entre os grupos de trata-
      até 50 metros quadrados de piso de concre-         mento e de comparação, os pesquisadores
      to a domicílios com pisos de terra batida (ver     limitaram sua amostra aos domicílios de
      boxe 2.1). O Piso Firme começou como um            cidades vizinhas que ﬁcavam bem próximas
      programa local no estado de Coahuila, mas          à fronteira entre os dois estados. Dentro
      acabou sendo adotado nacionalmente.                dessa amostra, usaram técnicas de parea-
      Cattaneo e outros (2009) aproveitaram a va-        mento para selecionar blocos de tratamento
      riação geográﬁca para avaliar o impacto            e de comparação que fossem os mais
      desse grande esforço de melhoria habitacio-        semelhantes. As características pré-trata-
      nal sobre os resultados relacionados à saúde       mento utilizadas foram a proporção de
      e ao bem-estar das famílias beneﬁciadas.           domicílios com piso de terra batida, o
          Os pesquisadores usaram o método               número de crianças pequenas e o número
      diferença em diferenças combinado ao               de domicílios dentro de cada bloco.
      método do pareamento para comparar as                  Além do pareamento, os pesquisadores
      famílias de Coahuila com famílias semelhan-        usaram variáveis instrumentais para recupe-
      tes do estado vizinho de Durango, que ainda        rar o efeito médio local do tratamento a par-
      não havia implementado o programa no               tir do efeito da intenção de tratar. Com a
      momento da pesquisa. Para melhorar a               oferta de pisos de cimento como variável
                                                                                                (continua)



166                                                                            Avaliação de Impacto na Prática
    Boxe 8.2: Diferença em diferenças com pareamento: pisos de cimento, saúde infantil e felicidade
    materna no México (continuação)

    instrumental para a disponibilidade real de          e uma redução de 52% em uma escala de
    pisos de cimento, descobriram que o pro-             avaliação da depressão e de 45% em uma
    grama levou a uma redução de 18,2% na                escala de avaliação do estresse percebido.
    presença de parasitas, 12,4% na prevalên-                Cattaneo e outros (2009) concluíram que
    cia de diarreia e 19,4% na prevalência de            o programa Piso Firme teve um impacto
    anemia. Além disso, conseguiram usar a               absoluto maior sobre o desenvolvimento
    variabilidade na quantidade de espaço total          cognitivo infantil a um custo menor do que o
    efetivamente coberto por cimento para pre-           Oportunidades/Progresa,       programa   de
    ver que a substituição completa dos pisos            transferência condicional de renda de larga
    de terra por pisos de cimento em uma casa            escala do México, e também do que progra-
    geraria uma redução de 78% nas infesta-              mas comparáveis de suplementação nutri-
    ções parasitárias, 49% na ocorrência de              cional e de estímulo cognitivo na primeira
    diarreia e 81% na ocorrência de anemia,              infância. Os pisos de cimento também
    além de uma melhora de 36% a 96% no                  foram mais eﬁcientes em prevenir o surgi-
    desenvolvimento cognitivo infantil. Os auto-         mento de infecções parasitárias do que os
    res também coletaram dados sobre o bem-              tratamentos comuns de vermifugação. Os
    -estar dos adultos e descobriram que os              autores aﬁrmam que programas para substi-
    pisos de cimento deixaram as mães mais               tuir pisos de terra batida por pisos de
    felizes, com um aumento de 59% nos rela-             cimento têm grandes chances de melhorar a
    tos de satisfação com suas residências e de          saúde infantil com custo-efetividade em
    69% de satisfação com a qualidade de vida,           contextos semelhantes.

    Fonte: Cattaneo e outros 2009.




O método de controle sintético

O método de controle sintético permite calcular a estimativa de impacto em
situações em que uma única unidade (como um país, uma empresa ou um
hospital) recebe uma intervenção ou é exposta a um evento. Em vez de com-
parar essa unidade tratada a um grupo de unidades não tratadas, esse
método utiliza informações sobre as características da unidade tratada e das
unidades não tratadas para construir uma única unidade de comparação
“sintética”, ou artiﬁcial, através da ponderação de cada unidade não tratada
de maneira que a unidade de comparação sintética se assemelhe mais à uni-
dade tratada. Isso requer uma longa série de observações ao longo do tempo
sobre as características tanto da unidade tratada quanto das unidades não
tratadas. Essa combinação de unidades de comparação numa unidade sinté-
tica proporciona uma comparação melhor para a unidade tratada do que
qualquer unidade não tratada individualmente. O boxe 8.3 fornece um
exemplo de avaliação que utilizou o método de controle sintético.
Pareamento                                                                                              167
      Boxe 8.3: O método de controle sintético: os efeitos econômicos
      de um conﬂito terrorista na Espanha
      Abadie e Gardeazabal (2003) utilizaram o     Por conseguinte, uma comparação entre o
      método de controle sintético para investi-   crescimento do PIB da economia basca e
      gar os efeitos econômicos do conﬂito ter-    o do restante da Espanha reﬂetiria tanto o
      rorista no País Basco. No início dos anos    efeito do terrorismo quanto o efeito des-
      1970, o País Basco era uma das regiões       sas diferenças nos determinantes do cres-
      mais ricas da Espanha. No entanto, no        cimento econômico antes do início dos
      ﬁnal da década de 1990, após 30 anos de      atentados terroristas. Em outras palavras,
      conﬂito, a região havia caído para a sexta   a abordagem do método diferença em di-
      posição em termos de produto interno         ferenças resultaria em resultados enviesa-
      bruto (PIB) per capita. No começo da onda    dos do impacto do terrorismo sobre o
      de atentados terroristas, no início dos      crescimento econômico do País Basco.
      anos 1970, o País Basco diferia das outras   Para lidar com essa situação, os autores
      regiões espanholas em características que    utilizaram uma combinação de outras regi-
      se acredita estavam relacionadas ao          ões espanholas para criar uma região de
      potencial de crescimento econômico.          comparação “sintética” .

      Fonte: Abadie e Gardeazabal 2003.




                    Limitações do método de pareamento

                    Embora os procedimentos de pareamento possam ser aplicados em mui-
                    tas conﬁgurações, independentemente das regras de alocação de um pro-
                    grama, eles apresentam várias falhas graves. Em primeiro lugar, exigem
                    extensas bases de dados em grandes amostras de unidades e, mesmo
                    quando disponíveis, pode haver falta de suporte comum entre o grupo de
                    tratamento, ou inscrito, e o grupo de não participantes. Em segundo lugar,
                    o pareamento só pode ser realizado com base nas características observá-
                    veis. Por deﬁnição, não podemos incorporar características não observá-
                    veis ao cálculo do escore de propensão. Portanto, para que o procedimento
                    de pareamento identiﬁque um grupo de comparação válido, devemos ter
                    certeza de que não existem diferenças sistemáticas entre as característi-
                    cas não observáveis das unidades de tratamento e as unidades de compa-
                    ração pareadas4 que poderiam inﬂuenciar o resultado (Y). Como não
                    podemos provar que não existem tais características não observáveis que
                    afetam tanto a participação quanto os resultados, devemos supor que
                    elas não existem. Esse é, geralmente, um pressuposto bastante forte.


168                                                                   Avaliação de Impacto na Prática
Embora o pareamento ajude a controlar para as características pré-trata-
mento observáveis, não podemos excluir o viés decorrente de caracterís-
ticas não observáveis. Em resumo, a suposição de que nenhum viés de
seleção ocorreu a partir das características não observáveis é muito forte
e, pior ainda, não pode ser testada.
    O pareamento sozinho é, geralmente, menos robusto do que os outros
métodos de avaliação que discutimos, uma vez que ele requer a forte supo-
sição de que não há características não observáveis que afetem simultane-
amente a participação no programa e os resultados de interesse. Os métodos
de seleção aleatória, de variável instrumental e de regressão descontínua,
por outro lado, não requerem a hipótese não comprovável de que não exis-
tem variáveis não observáveis. Eles também não requerem amostras tão
grandes ou uma gama de características pré-tratamento tão ampla como o
pareamento por escore de propensão.
    Na prática, os métodos de pareamento geralmente são usados quando
as opções de seleção aleatória, variáveis instrumentais e de regressão des-
contínua não são possíveis. O pareamento ex-post é muito arriscado quando
não há dados de linha de base disponíveis sobre o resultado de interesse ou
sobre as características socioeconômicas. Se uma avaliação utilizar dados
de pesquisa coletados após o início do programa (isto é, ex-post) para infe-
rir quais são as características socioeconômicas das pessoas na linha de
base e, em seguida, parear o grupo tratado com um grupo de comparação
usando essas características inferidas, poderá inadvertidamente realizar
o  pareamento com base em características que também foram afetadas
pelo programa. Nesse caso, o resultado da estimativa seria inválido ou
enviesado.
    Por outro lado, quando os dados de linha de base estão disponíveis, o
pareamento baseado nas características socioeconômicas da linha de
base pode ser muito útil se for combinado a outras técnicas, como dife-
rença em diferenças, o que nos permitirá corrigir para as diferenças
entre os grupos que são ﬁxas ao longo do tempo. O pareamento também
é mais conﬁável quando a regra de seleção do programa e as variáveis
subjacentes são conhecidas e, nesse caso, o pareamento pode ser reali-
zado nessas variáveis.
    Pelo que foi visto até agora, provavelmente já deve ter ﬁcado claro para
os leitores que as avaliações de impacto são mais bem desenhadas antes
que o programa comece a ser implementado. Após o início do programa,
se não houver nenhuma maneira de inﬂuenciar sua seleção e caso nenhum
dado de linha de base tenha sido coletado, as opções disponíveis para
a  realização de uma avaliação de impacto rigorosa serão poucas ou
inexistentes.


Pareamento                                                                     169
            Avaliar o impacto do HISP: uso das técnicas de
            pareamento

      Após aprender sobre as técnicas de pareamento, você pode se perguntar
      se poderia usá-las para estimar o impacto do Programa de Subsídio ao
      Seguro Saúde (HISP). Assim, decide usar algumas técnicas de parea-
      mento para selecionar um grupo de famílias não inscritas que se asseme-
      lha às famílias inscritas com base nas características observáveis da linha
      de base. Para fazer isso, você usa o pacote de pareamento de seu software
      estatístico. Em primeiro lugar, ele estima a probabilidade de uma família
      se inscrever no programa com base nos valores observáveis das caracte-
      rísticas (as variáveis explicativas), tais como a idade do chefe de família e
      do cônjuge, seu nível educacional, o fato de o chefe de família ser mulher,
      se a família é nativa, e assim por diante.
         Vamos realizar o pareamento utilizando dois cenários. No primeiro
      cenário, há um grande conjunto de variáveis para prever a inscrição,
      incluindo as características socioeconômicas da família. No segundo
      cenário, há pouca informação para prever a inscrição (apenas o nível
      educacional e a idade do chefe de família). Conforme mostra o quadro 8.1,
      a probabilidade de uma família se inscrever no programa é menor se a
      idade de seus membros for maior, se eles forem mais instruídos, se a
      família for cheﬁada por uma mulher, se residir em casa com banheiro ou
      possuir maiores lotes de terra. Em contrapartida, se a família for nativa,
      tiver mais membros e se a casa tiver piso de terra e estiver localizada
      longe de um hospital, a probabilidade de que essa família se inscreva no
      programa é maior. Dessa maneira, em geral, aparentemente as famílias
      mais pobres e menos instruídas são mais propensas a se inscrever, o que
      é uma boa notícia para um programa direcionado para pessoas pobres.
         Agora que o software estimou a probabilidade de cada família se ins-
      crever no programa (o escore de propensão), veriﬁque a distribuição do
      escore de propensão para as famílias inscritas e de comparação pareadas.
      A ﬁgura 8.3 mostra que o suporte comum (quando utilizamos o conjunto
      completo de variáveis explicativas) se estende por toda a distribuição do
      escore de propensão. Na realidade, nenhuma das famílias inscritas se
      situa fora da área de suporte comum. Em outras palavras, somos capazes
      de encontrar uma família de comparação pareada para cada uma das
      famílias inscritas.
         Você decide usar o pareamento com o vizinho mais próximo, ou seja,
      orienta o software a localizar, para cada família inscrita, a família não inscrita
      que tenha o escore de propensão mais próximo daquele da família inscrita.


170                                                          Avaliação de Impacto na Prática
 Quadro 8.1 Estimar o escore de propensão com base nas características
 observáveis da linha de base

                                          Conjunto completo             Conjunto limitado
  Variável dependente:                       de variáveis                 de variáveis
  inscritos = 1                              explicativas                 explicativas
  Variáveis explicativas:
  características observáveis
  da linha de base                              Coeﬁciente                   Coeﬁciente
  Idade do chefe de família                      -0,013**                     -0,021**
  (anos)
  Idade do cônjuge (anos)                        -0,008**                     -0,041**
  Nível educacional do chefe de                  -0,022**
  família (anos)
  Nível educacional do cônjuge                   -0,016*
  (anos)
  Chefe de família é mulher =1                   -0,020
  Nativos = 1                                     0,161**
  Número de membros da                            0,119**
  família
  Piso de terra batida = 1                        0,376**
  Banheiro = 1                                   -0,124**
  Hectares de terra                              -0,028**
  Distância até o hospital (km)                   0,002**
  Constante                                      -0,497**                     0,554**

 Observação: regressão probit. A variável dependente é 1 se a família se inscreveu no HISP e 0 caso
 ela não tenha se inscrito. Os coeﬁcientes representam a contribuição de cada variável explicativa
 para a probabilidade de uma família se inscrever no HISP.
 Nível de signiﬁcância: * = 5%, ** = 1%


 Dessa maneira, o software restringirá a amostra a essas famílias dos gru-
 pos inscritos e não inscritos para as quais for capaz de encontrar um par
 no outro grupo.
    Para obter o impacto estimado usando o método de pareamento, pri-
 meiro você calcula o impacto para cada família inscrita individualmente
 (usando a família de comparação pareada para cada família) e, em
 seguida, calcula a média desses impactos individuais. O quadro 8.2 mos-
 tra que o impacto estimado a partir da aplicação desse procedimento é
 uma redução de US$ 9,95 nos gastos com saúde das famílias.
    Por ﬁm, o software também permite calcular o erro padrão para o
 impacto estimado utilizando a regressão linear5 (quadro 8.3).


Pareamento                                                                                            171
      Figura 8.3          Pareamento para o HISP: suporte comum

                  5


                  4
      Densidade


                  3


                  2


                  1


                  0
                      0                   .2                         .4                         .6
                                               Escore de propensão
                                           Não inscritos        Inscritos



      Quadro 8.2 Avaliar o HISP: pareamento com as características da linha de
      base e comparação de médias

                                     Inscritos      Comparação pareada             Diferença
        Gastos com saúde                7,84                17 ,79                   - 9,95
        das famílias (em US$)                        (usando um conjunto
                                                     completo de variáveis
                                                         explicativas)
                                                               19,9                  -11,35
                                                     (usando um conjunto
                                                      limitado de variáveis
                                                           explicativas)

      Observação: este quadro compara as despesas médias com saúde das famílias inscritas e as famí-
      lias de comparação pareadas.

         Você percebe que também tem informações da linha de base sobre os
      resultados de interesse em seus dados de pesquisa, de modo que decide
      aplicar o método diferença em diferenças com pareamento, além de uti-
      lizar o conjunto completo de variáveis explicativas. Ou seja, você calcula
      a diferença entre os gastos com saúde durante o acompanhamento das
      famílias inscritas e de comparação pareadas, calcula a diferença entre os
      gastos com saúde no início do estudo das famílias inscritas e de


172                                                                  Avaliação de Impacto na Prática
 Quadro 8.3 Avaliar o HISP: pareamento com as características da linha de
 base e análise de regressão

                               Regressão linear                  Regressão linear
                               (pareamento com um                (pareamento com um
                               conjunto completo de              conjunto limitado de
                               variáveis explicativas)           variáveis explicativas)
  Impacto estimado
  sobre os gastos
  com saúde das                           -9,95**                            -11,35**
  famílias (em US$)                        (0,24)                              (0,22)

 Observação: o erro padrão está entre parênteses. Nível de signiﬁcância: ** = 1%




 Quadro 8.4 Avaliar o HISP: diferença em diferenças combinada com
 pareamento usando as características da linha de base

                                                      Comparação
                                                      pareada usando
                                                      um conjunto
                                                      completo de
                                                      variáveis
                                       Inscritos      explicativas                 Diferença
  Gastos com     Acompa-
  saúde das      nhamento                  7,84              17,79                    -9,95
  famílias (US$) Linha de
                 base                    14,49              15,03                      0,54
                                                                                     Diferença
                                                                                    em diferen-
                                                                                    ças pareada
                                                                                     = -9,41**
                                                                                       (0,19)

 Observação: o erro padrão está entre parênteses e foi calculado utilizando a regressão linear. Nível
 de signiﬁcância: ** = 1%

 comparação pareadas e, em seguida, calcula a diferença entre essas duas
 diferenças. O quadro 8.4 mostra o resultado dessa abordagem de dife-
 rença em diferenças com pareamento.


       Perguntas 7 sobre o HISP

 A. Quais são as hipóteses básicas necessárias para aceitar esses resulta-
     dos baseados no método de pareamento?
 B. Por que os resultados do método de pareamento são diferentes se você


Pareamento                                                                                              173
          usar o conjunto completo versus o conjunto limitado de variáveis
          explicativas?
       C. O que acontece quando você compara o resultado do método de
          pareamento com o resultado da seleção aleatória? Por que você acha
          que os resultados são tão diferentes quando o pareamento usa um
          conjunto limitado de variáveis explicativas? Por que o resultado é
          mais semelhante quando o pareamento usa um conjunto completo de
          variáveis explicativas?
       D. Com base no resultado do método de pareamento, o HISP deverá ser
          ampliado para todo o país?




      Lista de veriﬁcação: pareamento

      O pareamento se baseia na hipótese de que as unidades inscritas e não ins-
      critas são semelhantes em termos de quaisquer variáveis não observáveis
      que possam afetar tanto a probabilidade de participar do programa quanto o
      resultado de interesse.
      ¸ A participação no programa é determinada por variáveis que não podem
        ser observadas? Não se pode testar essa hipótese diretamente, portanto
        será preciso conﬁar na teoria, no senso comum e no bom conhecimento
        sobre o contexto da avaliação de impacto para se orientar.
      ¸ As características observáveis estão bem balanceadas entre os subgru-
        pos pareados? Compare as características observáveis na linha de base
        de cada unidade de tratamento e o seu grupo de unidades de compara-
        ção pareadas.
      ¸ É possível encontrar uma comparação pareada para cada unidade de tra-
        tamento? Veriﬁque se existe suporte comum suﬁciente na distribuição
        dos escores de propensão. Pequenas áreas de suporte comum indicam
        que as pessoas inscritas e não inscritas são muito diferentes, e isso gera
        dúvidas sobre se o pareamento é um método crível.




      Recursos adicionais

      • Para acessar os materiais complementares a este livro e hiperlinks com recursos
        adicionais, ver o site Avaliação de Impacto na Prática (http://www.worldbank.
        org/ieinpractice).
174                                                         Avaliação de Impacto na Prática
• Para obter mais informações sobre pareamento, ver Rosenbaum, Paul. 2002.
  Observational Studies. Segunda edição. Springer Series in Statistics. Nova York:
  Springer-Verlag.
• Para obter mais informações sobre a implementação do escore de propensão,
  ver Heinrich, Carolyn, Alessandro Maffioli e Gonzalo Vásquez. 2010. “A Primer
  for Applying Propensity-Score Matching. Impact-Evaluation Guidelines”.
  Technical Note IDB-TN-161. Banco Interamericano de Desenvolvimento,
  Washington, DC.



Notas

1. Nota técnica: na prática, muitas deﬁnições do que constitui a unidade mais
   próxima são usadas para fazer o pareamento. As unidades de comparação
   mais próximas podem ser deﬁnidas com base em uma estratiﬁcação do escore
   de propensão — a identiﬁcação dos vizinhos mais próximos da unidade de
   tratamento, com base na distância, dentro de um determinado raio — ou
   usando técnicas de kernel. Considera-se uma boa prática veriﬁcar a robustez
   dos resultados de pareamento utilizando vários algoritmos de pareamento.
   Ver Rosenbaum (2002) para mais detalhes.
2. A discussão sobre o método de pareamento apresentada neste livro concentra-se
   no pareamento de um para um. Vários outros tipos de pareamento, tais como o
   pareamento de um para vários ou o pareamento com/sem reposição não serão
   discutidos. Em todos esses casos, no entanto, o arcabouço conceitual descrito
   aqui também se aplicaria.
3. Uma análise detalhada do método de pareamento pode ser encontrada em
   Rosenbaum (2002).
4. Nota técnica: quando os escores de propensão das unidades inscritas não forem
   totalmente cobertos pela área de suporte comum, os erros padrão deverão ser
   estimados utilizando “bootstrapping”, em vez de regressão linear.
5. Para os leitores com formação em econometria, isso signiﬁca que a participação
   é independente dos resultados, dadas as características socioeconômicas
   utilizadas para realizar o pareamento.



Referências

Abadie, Alberto e Javier Gardeazabal. 2003. “The Economic Costs of Conﬂict: A
   Case Study of the Basque Country.” American Economic Review 93 (1): 113–32.
Cattaneo, Matias D., Sebastian Galiani, Paul J. Gertler, Sebastián Martínez e Rocio
   Titiunik. 2009. “Housing, Health, and Happiness.” American Economic Journal:
   Economic Policy 1 (1): 75–105.
Heinrich, Carolyn, Alessandro Maffioli e Gonzalo Vásquez. 2010. “A Primer for
   Applying Propensity-Score Matching. Impact-Evaluation Guidelines.”
   Technical Note IDB-TN-161. Banco Interamericano de Desenvolvimento,
   Washington, DC.
Pareamento                                                                            175
      Jalan, Jyotsna e Martin Ravallion. 2003. “Estimating the Beneﬁt Incidence of an
         Antipoverty Program by Propensity-Score Matching.” Journal of Business &
         Economic Statistics 21 (1): 19–30.
      Mu, Ren e Dominique Van de Walle. 2011. “Rural Roads and Local Market
         Development in Vietnam.” Journal of Development Studies 47 (5): 709–34.
      Rosenbaum, Paul. 2002. Observational Studies. 2ª edição. Springer Series in
         Statistics. Nova York: Springer-Verlag.
      Rosenbaum, Paul e Donald Rubin. 1983. “The Central Role of the Propensity Score
         in Observational Studies of Causal Effects.” Biometrika 70 (1): 41–55.




176                                                        Avaliação de Impacto na Prática
CAPÍTULO 9




Enfrentar os desaﬁos
metodológicos

Efeitos heterogêneos do tratamento

Já vimos que a maioria dos métodos de avaliação de impacto produz esti-
mativas válidas do contrafactual apenas sob certas hipóteses. O principal
risco da aplicação de qualquer método é que suas suposições subjacentes
não sejam verdadeiras, resultando em estimativas enviesadas do impacto
do programa. Mas há também uma série de outros riscos que são comuns à
maioria das metodologias que analisamos. Discutiremos os principais
neste capítulo.
   Um tipo de risco surge quando se está estimando o impacto de um pro-
grama para um grupo inteiro e seus resultados mascaram algumas diferen-
ças nos impactos entre diferentes beneﬁciários, isto é, mascaram o que
chamamos de efeitos heterogêneos de tratamento. A maioria dos métodos
de avaliação de impacto pressupõe que um programa afeta os resultados de
todas as unidades da população de forma linear e homogênea.
   Se acreditamos que subpopulações diversas possam ter experimentado
o impacto de um programa de maneira muito diferente, talvez seja reco-
mendável dispor de amostras estratiﬁcadas para cada subpopulação.
Digamos, por exemplo, que estamos interessados em descobrir o impacto
de um programa de merenda escolar sobre meninas, mas que apenas 10%

                                                                            177
      dos alunos sejam do sexo feminino. Nesse caso, até mesmo uma grande
      amostra aleatória de alunos pode não conter um número suﬁciente de meni-
      nas para permitir que se estime o impacto do programa sobre esse grupo.
      Para o desenho amostral da avaliação, seria preciso estratiﬁcar a amostra
      com base no sexo dos alunos e incluir um número suﬁcientemente grande
      de meninas para poder detectar uma determinada magnitude do efeito do
      programa para esse subgrupo.



      Efeitos comportamentais não desejados

      Ao realizar uma avaliação de impacto, podemos também induzir respostas
      comportamentais não desejadas na população que se está estudando, con-
      forme exposto a seguir:

      • O efeito Hawthorne ocorre quando o simples fato de se observar as unida-
        des avaliadas faz com que elas se comportem de maneira diferente (ver o
        boxe 9.1).

      • O efeito John Henry ocorre quando as unidades de comparação traba-
        lham mais arduamente para compensar o fato de o programa não ter sido
        oferecido a elas (ver o boxe 9.1).
      • A antecipação pode levar a outro tipo de efeito comportamental não
        desejável. Em um programa com seleção aleatória, as unidades do grupo
        de comparação podem esperar receber o programa no futuro e começar
        a mudar o seu comportamento antes de receber os serviços do
        programa.
      • O viés de substituição é outro efeito comportamental que afeta o grupo de
        comparação: as unidades que não foram selecionadas para receber o pro-
        grama podem ser capazes de encontrar programas substitutos por inicia-
        tiva própria.
      As respostas comportamentais que afetam desproporcionalmente o grupo
      de comparação são um problema, pois podem minar a validade interna dos
      resultados da avaliação, mesmo que se utilize a seleção aleatória como
      método de avaliação. Um grupo de comparação que trabalhe mais ardua-
      mente para compensar o não recebimento de um tratamento, ou que mude
      seu comportamento ao prever o recebimento do programa, não representa
      bem o contrafactual desejado.
         Se houver motivos para acreditar que essas respostas comportamentais
      não desejadas podem estar presentes, a criação de outros grupos de compa-
      ração não afetados de maneira nenhuma pela intervenção pode ser uma
178                                                     Avaliação de Impacto na Prática
     Boxe 9.1: Relatos folclóricos relacionados à avaliação de impacto:
     o efeito Hawthorne e o efeito John Henry
     O termo efeito Hawthorne refere-se a experi-            terem ﬁcado um tanto desacreditados, o
     mentos que foram realizados entre 1924 e                termo efeito Hawthorne tem sido usado para
     1932 na Hawthorne Works, uma fábrica de                 descrever esse tipo de situação.
     equipamentos elétricos localizada no estado                O termo efeito John Henry foi cunhado
     norte-americano de Illinois. Esses experi-              por Gary Saretsky em 1972 e refere-se ao
     mentos testaram o impacto de mudanças                   lendário herói norte-americano John Henry,
     nas condições de trabalho (como aumentar                um operador de broca de aço encarregado
     ou diminuir a intensidade da luz) sobre a pro-          de perfurar rochas e fazer buracos para a
     dutividade dos trabalhadores, e descobriram             inserção de explosivos durante a construção
     que qualquer mudança nas condições de tra-              de um túnel ferroviário. Segundo a lenda,
     balho (mais ou menos luz, intervalos de des-            quando soube que seu desempenho estava
     canso maiores ou menores e outras altera-               sendo comparado ao desempenho de uma
     ções semelhantes) gerava um aumento na                  broca a vapor, Henry passou a trabalhar
     produtividade. Isso foi interpretado como um            muito mais arduamente para superar a
     efeito da avaliação em si: os trabalhadores             máquina. Infelizmente, o resultado desse
     que ﬁzeram parte desses experimentos                    esforço extra foi a sua morte. Mas o termo
     viam-se como especiais, e sua produtividade             continua sendo aplicado para descrever situ-
     tinha aumentado por causa disso, e não devi-            ações nas quais as unidades do grupo de
     do a mudanças nas condições de trabalho.                comparação trabalham mais arduamente
     Apesar de, posteriormente, os experimentos              para compensar o não recebimento de um
     originais terem sido alvo de controvérsias e            programa.

     Fontes: Landsberger 1958; Levitt and List 2009; Saretsky 1972.




opção, pois permite testar explicitamente a presença de respostas não dese-
jadas. Também pode ser útil coletar dados qualitativos para entender melhor
as respostas comportamentais.


Cumprimento parcial

O cumprimento parcial é uma discrepância entre o status selecionado e o
status real de tratamento. O cumprimento parcial ocorre quando algumas
unidades selecionadas para o grupo de tratamento não recebem o trata-
mento e algumas unidades selecionadas para o grupo de comparação rece-
bem o tratamento. No capítulo 5, discutimos o cumprimento parcial em
relação à seleção aleatória, mas o cumprimento parcial também pode ocor-
rer no método de regressão descontínua (como foi discutido no capítulo 6) e
no da diferença em diferenças (capítulo 7). Antes que possamos interpretar
Enfrentar os desaﬁos metodológicos                                                                          179
      as estimativas de impacto obtidas por qualquer um desses métodos, é neces-
      sário saber se houve cumprimento parcial do programa.
         O cumprimento parcial pode ocorrer de várias maneiras:

      • Nem todos os participantes selecionados para o programa realmente par-
        ticipam da iniciativa. Às vezes, unidades que são selecionadas para um
        programa optam por não participar.

      • Alguns selecionados para participar são excluídos do programa devido a
        erros administrativos ou de implementação.

      • Algumas unidades do grupo de comparação recebem ofertas para partici-
        par do programa por engano, e acabam por se inscrever nele.

      • Algumas unidades do grupo de comparação conseguem participar do
        programa, mesmo que não recebam uma oferta para participar da
        iniciativa.

      • O programa é alocado com base em um índice de elegibilidade contínuo,
        mas o ponto de corte de elegibilidade não é aplicado com rigor.
      • Ocorre uma migração seletiva com base no status do tratamento. Por
        exemplo, a avaliação pode comparar os resultados de municípios trata-
        dos e não tratados, mas os indivíduos podem optar por se mudar para
        outro município caso não gostem do status de tratamento de seu
        município.
      Em geral, na presença do cumprimento parcial, os métodos padrão de
      avaliação de impacto produzem estimativas da intenção de tratar. No
      entanto, o efeito médio local do tratamento pode ser recuperado a partir
      das estimativas da intenção de tratar utilizando a abordagem de variáveis
      instrumentais.
         No capítulo 5, apresentamos a melhor maneira de lidar com o cumpri-
      mento parcial no contexto de seleção aleatória. Ao usarmos um ajuste para
      a porcentagem de cumpridores (aqueles que cumprem as regras de seleção
      para o programa) da amostra de avaliação, conseguimos recuperar o efeito
      médio local do tratamento para os cumpridores da estimativa da intenção de
      tratar. Esse ajuste pode ser estendido a outros métodos por meio da aplica-
      ção da abordagem mais geral de variáveis instrumentais. A variável instru-
      mental contém uma fonte externa de variação que ajuda a corrigir o viés que
      pode resultar do cumprimento parcial. No caso da seleção aleatória com
      cumprimento parcial, utilizamos uma variável binária 0/1 (chamada de vari-
      ável dummy em inglês) que assume o valor 1 caso a unidade tenha sido origi-
      nalmente selecionada para o grupo de tratamento e 0 se originalmente
      selecionada para o grupo de comparação. Durante a etapa de análise,
180                                                    Avaliação de Impacto na Prática
a variável instrumental é usada no contexto de uma regressão em dois está-
gios, que permite identiﬁcar o impacto do tratamento sobre aqueles que
cumprem as regras de participação no programa.
   A lógica da abordagem das variáveis instrumentais pode ser estendida ao
contexto de outros métodos de avaliação:
• No contexto do método de regressão descontínua, a variável instrumen-
  tal utilizada seria uma variável 0/1 que indica se uma unidade está locali-
  zada do lado inelegível ou do lado elegível do ponto de corte.
• No contexto da migração seletiva, uma possível variável instrumental
  para a localização do indivíduo após o início do programa seria a localiza-
  ção desse indivíduo antes do anúncio do programa.
Apesar da possibilidade de solucionar o problema de cumprimento parcial
usando variáveis instrumentais, é importante lembrar três pontos:
1. Do ponto de vista técnico, não é desejável que uma grande parte do grupo
   de comparação se inscreva no programa. À medida que a parcela do
   grupo de comparação que se inscreve no programa aumenta, a fração de
   cumpridores na população diminuirá, e o efeito médio local do trata-
   mento estimado com o método de variáveis instrumentais será válido
   somente para uma parcela reduzida da população de interesse. Se essa
   parte do grupo de comparação que se inscreve for grande demais, os
   resultados podem perder toda a relevância para a política pública, já que
   eles não seriam mais aplicáveis a uma parcela expressiva da população
   de interesse.
2. Por outro lado, não é desejável que uma grande parcela do grupo de tra-
   tamento permaneça não inscrita. Mais uma vez, à medida que a parcela
   do grupo de tratamento que se inscreve no programa diminui, a fração de
   cumpridores na população diminui. O efeito médio local do tratamento
   estimado com o método de variáveis instrumentais será válido apenas
   para uma parcela reduzida da população de interesse.
3. Conforme foi discutido no capítulo 5, o método de variáveis instrumen-
   tais só é válido em determinadas circunstâncias; deﬁnitivamente, não é
   uma solução universal.



Transbordamentos

Os transbordamentos (ou efeitos de transbordamento) são outro pro-
blema comum que pode afetar as avaliações, quer elas utilizem o método de
seleção aleatória, de regressão descontínua ou de diferença em diferenças.
Enfrentar os desaﬁos metodológicos                                              181
      Um transbordamento acontece quando uma intervenção afeta um não parti-
      cipante do programa, seja de forma positiva ou negativa. Existem quatro
      tipos de efeitos de transbordamento, de acordo com Angelucci e Di Maro
      (2015):

      • Externalidades. Esses são efeitos do programa sobre os indivíduos trata-
        dos que acabam afetando os indivíduos não tratados. Por exemplo, vaci-
        nar as crianças de um povoado contra a gripe diminui a probabilidade de
        que os não vacinados da mesma localidade peguem essa doença. Esse é
        um exemplo de externalidade positiva. As externalidades também podem
        ser negativas. Por exemplo, a produção agrícola de um agricultor pode
        ser parcialmente destruída caso seja contaminada pelo herbicida apli-
        cado por seu vizinho.

      • Interações sociais. Os transbordamentos podem resultar de interações
        sociais e econômicas entre as populações tratadas e não tratadas, levando
        a impactos indiretos sobre os não tratados. Por exemplo, um estudante
        que recebeu um tablet como parte de um programa de aprimoramento do
        aprendizado compartilha o aparelho com outro aluno que não está parti-
        cipando do programa.

      • Efeitos de equilíbrio de contexto. Esses efeitos ocorrem quando uma inter-
        venção afeta as normas comportamentais ou sociais dentro de um dado
        contexto, como uma localidade tratada. Por exemplo, aumentar a quanti-
        dade de recursos que os centros de saúde tratados recebem para que pos-
        sam ampliar sua gama de serviços pode afetar as expectativas da
        população sobre qual deve ser a gama de serviços oferecida por todos os
        centros de saúde.
      • Efeitos de equilíbrio geral. Esses efeitos ocorrem quando as intervenções
        afetam a oferta e a demanda de bens ou serviços e, portanto, alteram o
        preço de mercado desses bens e serviços. Por exemplo, um programa que
        dá a mulheres pobres vouchers para usar os serviços de parto em clínicas
        ou hospitais particulares pode aumentar repentinamente a demanda de
        serviços nessas instalações, elevando, assim, o preço do serviço para
        todos os outros usuários. O boxe 9.2 apresenta um exemplo de transbor-
        damentos negativos devido a efeitos de equilíbrio geral no contexto de
        um programa de capacitação proﬁssional.
         Se o não participante que experimentar o transbordamento for um mem-
      bro do grupo de comparação, o transbordamento violará a exigência básica
      de que o resultado de uma unidade não deve ser afetado pelo status de trata-
      mento de outras unidades. Esse pressuposto de estabilidade de valor da uni-
      dade de tratamento (SUTVA, do inglês stable unit treatment value assumption)
182                                                     Avaliação de Impacto na Prática
     Boxe 9.2: Transbordamentos negativos devido a efeitos de
     equilíbrio geral: intermediação de mão de obra e resultados
     no mercado de trabalho na França
     Os programas de intermediação de mão           o candidato auxiliado pelo programa conse-
     de obra são populares em muitos países         guiu. Para investigar essa hipótese, realiza-
     industrializados, onde os governos contra-     ram um experimento aleatório que incluiu
     tam organizações terceirizadas para ajudar     235 mercados de trabalho (como cidades)
     os trabalhadores desempregados em sua          da França. Esses mercados de trabalho
     busca de emprego. Muitos estudos detec-        foram selecionados aleatoriamente para
     taram que esses programas de intermedia-       entrar em um entre cinco grupos distintos,
     ção de mão de obra têm um impacto signi-       que variavam em termos da proporção de
     ﬁcativo e positivo sobre os que buscam         candidatos desempregados a ser seleciona-
     emprego.                                       dos ao tratamento de aconselhamento (0%,
        Crépon e outros (2013) investigaram se      25%, 50%, 75% e 100%). Em cada mercado
     o fornecimento de assistência à busca de       de trabalho, os candidatos elegíveis foram
     emprego para candidatos jovens e com boa       selecionados aleatoriamente para o trata-
     formação na França poderia ter efeitos         mento seguindo a proporção descrita. Após
     negativos sobre outros candidatos que não      oito meses, os resultados mostraram que
     contassem com o apoio do programa. Eles        os jovens desempregados que foram aloca-
     levantaram a hipótese de que poderia estar     dos para o programa registraram uma pro-
     operando um mecanismo de transborda-           babilidade bem maior de encontrar um
     mento: quando o mercado de trabalho não        emprego estável do que aqueles que não
     está se expandindo muito, ajudar um candi-     foram. Mas esses ganhos parecem ter
     dato a encontrar um emprego pode ocorrer       ocorrido, em parte, em detrimento dos tra-
     em detrimento de outro candidato que           balhadores elegíveis que não participaram
     poderia ter sido contratado para o cargo que   do programa.

     Fonte: Crépon e outros 2013.




é  necessário para garantir que a seleção aleatória produza estimativas de
impacto não enviesadas. Intuitivamente, se o grupo de comparação for indire-
tamente afetado pelo benefício recebido pelo grupo de tratamento (por
exemplo, se os estudantes do grupo de comparação tomarem emprestados
os tablets dos alunos tratados), a comparação não representará corretamente
o que teria acontecido ao grupo de tratamento na ausência do tratamento
(o contrafactual).
    Se o não participante que experimentar o transbordamento não for um
membro do grupo de comparação, a hipótese SUTVA se sustentaria, e o grupo
de comparação ainda forneceria uma boa estimativa do contrafactual.
No entanto, ainda gostaríamos de medir o transbordamento, pois ele repre-
senta um tipo de impacto do programa. Em outras palavras, a comparação dos
Enfrentar os desaﬁos metodológicos                                                                  183
                  resultados dos grupos de tratamento e de comparação geraria estimativas não
                  enviesadas do impacto do tratamento sobre o grupo tratado, mas não levaria
                  em conta o impacto do programa sobre outros grupos.
                     Um exemplo clássico de transbordamento devido a externalidades é
                  apresentado por Kremer e Miguel (2004), que examinaram o impacto da
                  administração de remédios contra vermes a crianças de escolas quenianas
                  (boxe 9.3). Os vermes intestinais são parasitas que podem ser transmitidos
                  de uma pessoa para outra por meio do contato com fezes contaminadas.
                  Quando uma criança recebe vermífugos, sua carga de vermes diminui, assim




      Boxe 9.3: Como trabalhar com transbordamentos: vermifugação,
      externalidades e educação no Quênia
      O projeto de vermifugação nas escolas pri-     os transbordamentos para as demais esco-
      márias de Busia, no Quênia, foi elaborado      las usando a variação exógena na proximi-
      para testar diversos aspectos do tratamento    dade entre as escolas de comparação e de
      e da prevenção de vermes. O projeto foi re-    tratamento. Embora o cumprimento da sele-
      alizado pela ONG holandesa International       ção aleatória tenha sido relativamente alto
      Child Support Africa, em cooperação com o      (75% dos alunos selecionados para o trata-
      Ministério da Saúde queniano. A iniciativa     mento receberam a medicação contra ver-
      envolveu 75 escolas que contavam com           mes e apenas um pequeno percentual das
      mais de 30.000 alunos matriculados, com        unidades do grupo de comparação recebe-
      idades entre 6 e 18 anos. Os estudantes        ram o tratamento), os pesquisadores tam-
      foram tratados com medicação contra ver-       bém puderam aproveitar o cumprimento
      mes de acordo com as recomendações da          parcial para estimar as externalidades de
      Organização Mundial da Saúde (OMS),            saúde dentro de cada escola.
      tendo recebido também informações sobre            O efeito direto das intervenções foi a
      a prevenção da contaminação por vermes         redução, em 26 pontos percentuais, das
      com palestras sobre saúde, cartazes e trei-    verminoses de moderadas a intensas nos
      namento de professores.                        alunos que tomaram a medicação.
          Devido a restrições administrativas e      Ao mesmo tempo, as infecções de mode-
      ﬁnanceiras, a implantação do programa foi      radas a intensas entre os alunos que fre-
      escalonada por ordem alfabética, de acordo     quentavam as escolas participantes do
      com a inicial do nome das escolas, sendo       tratamento mas que não tomaram a medi-
      que o primeiro grupo de 25 escolas iniciou o   cação caíram 12 pontos percentuais devido
      tratamento em 1998, o segundo grupo, em        ao efeito indireto de transbordamento.
      1999, e o terceiro grupo, em 2001. A seleção   Também ocorreram externalidades entre
      aleatória das escolas permitiu que Kremer e    as escolas.
      Miguel (2004) estimassem o impacto da ver-         Como o custo da vermifugação é muito
      mifugação em uma escola e identiﬁcassem        baixo e os efeitos sobre a saúde e a educação
                                                                                           (continua)



184                                                                       Avaliação de Impacto na Prática
     Boxe 9.3: Como trabalhar com transbordamentos: vermifugação, externalidades e educação
     no Quênia (continuação)


     são relativamente altos, os pesquisadores         incidência de doenças existentes na África
     concluíram que o tratamento contra vermes         estaria contribuindo para o baixo nível de
     é uma maneira relativamente econômica, ou         renda das populações locais. Dessa maneira,
     custo-eﬁciente, de melhorar as taxas de fre-      Kremer e Miguel aﬁrmam que o estudo refor-
     quência escolar. O estudo também mostrou          çou o argumento em prol da concessão de
     que as doenças tropicais, como é o caso dos       subsídios públicos para tratamentos de doen-
     vermes, podem desempenhar um papel                ças que apresentem benefícios de transbor-
     importante nos resultados educacionais e          damento semelhantes em países em
     fortaleceu os argumentos de que a alta            desenvolvimento.

     Fonte: Kremer e Miguel 2004.




como também diminui a carga de vermes das pessoas que vivem no mesmo
ambiente, já que essas pessoas não entrarão mais em contato com os vermes
da criança tratada. Dessa maneira, no exemplo do Quênia, quando o medica-
mento foi administrado às crianças de uma determinada escola, ele beneﬁ-
ciou não apenas essas crianças (benefício direto), mas também as crianças
das escolas vizinhas (benefício indireto).
   Conforme ilustrado pela ﬁgura 9.1, a vermifugação das crianças das esco-
las do grupo A também diminui o número de vermes que afeta crianças que
não frequentam as escolas do grupo A. Em especial, a vermifugação pode
diminuir o número de vermes que afeta as crianças que frequentam as esco-
las de comparação do grupo B, que estão localizadas perto das escolas do
grupo A. No entanto, as escolas de comparação mais afastadas das escolas do
grupo A — as escolas do grupo C — não experimentam os efeitos de trans-
bordamento porque o medicamento administrado ao grupo A não mata
nenhum dos vermes que afetam as crianças que frequentam as escolas do
grupo C. A avaliação e os seus resultados são discutidos mais detalhada-
mente no boxe 9.3.


Desenho de uma avaliação de impacto que incorpore os
transbordamentos

Digamos que se esteja elaborando uma avaliação de impacto para um pro-
grama que poderá apresentar transbordamentos. Como se deve abordar
essa questão? A primeira coisa a fazer é perceber que o objetivo da avaliação
precisa ser ampliado. Embora uma avaliação padrão vise estimar o impacto
(ou efeito causal) de um programa sobre um resultado de interesse para
Enfrentar os desaﬁos metodológicos                                                                    185
      Figura 9.1 Um exemplo clássico de transbordamento: externalidades
      positivas da vermifugação de crianças em idade escolar




                                                              de captação
                                                           ea     da esco de
                                                         Ár lunos        la
                                                          a
                                 de captação
                              ea     da esco de
                            Ár lunos        la
                             a                               Escola B

                                Escola A




                                                          Área de externalidades
                                                          do tratamento contra
                                                          vermes


                                                              de captaçã
                                                          rea os da esc o de
                                                         Á lun          ola
                                                          a

                                                             Escola C




      unidades que recebem o tratamento, uma avaliação com transbordamentos
      terá que responder a duas perguntas:
      1. A pergunta padrão de avaliação sobre o impacto direto. Qual é o impacto
         (ou efeito causal) de um programa sobre um resultado de interesse para
         as unidades que recebem o tratamento? Esse é o impacto direto que o
         programa tem sobre os grupos tratados.
      2. Uma pergunta de avaliação adicional sobre o impacto indireto. Qual é o
         impacto (ou efeito causal) de um programa sobre um resultado de inte-
         resse para as unidades que não recebem o tratamento? Esse é o impacto
         indireto que o programa tem sobre os grupos não tratados.
         Para estimar o impacto direto sobre os grupos tratados, será preciso
      escolher o grupo de comparação de maneira que ele não seja afetado por
      transbordamentos. Por exemplo, pode-se exigir que os povoados, clínicas ou
      domicílios de tratamento e de comparação estejam localizados
186                                                    Avaliação de Impacto na Prática
suﬁcientemente longe uns dos outros para tornar os transbordamentos mais
improváveis.
    Para estimar o impacto indireto sobre os grupos não tratados, deve-se
identiﬁcar um grupo de comparação adicional para cada grupo não tratado
potencialmente afetado por transbordamentos. Por exemplo, os agentes
comunitários da área de saúde podem realizar visitas domiciliares para for-
necer aos pais informações sobre os benefícios da adoção de uma dieta
mais variada para seus ﬁlhos. Suponhamos que os agentes comunitários
visitem apenas alguns domicílios de determinado povoado. Pode ser que
haja interesse nos efeitos de transbordamento sobre as crianças dos domi-
cílios não visitados e, nesse caso, seria preciso encontrar um grupo de com-
paração para essas crianças. Ao mesmo tempo, pode ser possível que a
intervenção também afete a diversidade da dieta alimentar dos adultos.
Se esse efeito indireto for de interesse para a avaliação, também seria
necessário encontrar um grupo de comparação para os adultos. À medida
que o número de canais potenciais de transbordamento aumenta, o dese-
nho da avaliação pode tornar-se bastante complicado.
    Avaliações com transbordamento apresentam alguns desaﬁos especíﬁcos.
Em primeiro lugar, quando for provável que ocorram efeitos de transborda-
mento, é importante entender sobre qual mecanismo de transbordamento
estamos falando: biológico, social, ambiental ou outros. Se não soubermos
qual é o mecanismo de transbordamento que está em ação, não seremos
capazes de escolher adequadamente os grupos de comparação que serão ou
não afetados pelos transbordamentos. Em segundo lugar, uma avaliação com
transbordamentos requer uma coleta de dados mais extensa do que uma ava-
liação na qual essa não seja uma preocupação: existe um grupo de compara-
ção adicional (no exemplo anterior, esse grupo é composto por povoados
vizinhos). Pode também ser preciso coletar dados sobre unidades adicionais
(no exemplo anterior, os adultos dos domicílios que recebem as visitas sobre
nutrição para as crianças). O boxe 9.4 analisa como os pesquisadores lidaram
com os transbordamentos na avaliação de um programa de transferência
condicional de renda no México.


Atrição

O viés de atrição é outro problema comum que pode afetar as avaliações,
quer elas utilizem os métodos de seleção aleatória, de regressão descontínua
ou de diferença em diferenças. O problema da atrição ocorre quando partes
da amostra desaparecem ao longo do tempo e os pesquisadores não conse-
guem encontrar todos os membros iniciais dos grupos de tratamento e de
comparação nas pesquisas de acompanhamento. Por exemplo, de 2.500
Enfrentar os desaﬁos metodológicos                                             187
      Boxe 9.4: Avaliação dos efeitos do transbordamento:
      transferências condicionais de renda e transbordamentos
      no México
      Angelucci e De Giorgi (2009) examinaram os       forneceram um contrafactual válido para as
      transbordamentos do programa Progresa,           famílias inelegíveis dos povoados de trata-
      do México, que forneceu transferências con-      mento, e permitiram que os pesquisadores
      dicionais de renda a famílias pobres (ver os     estimassem os transbordamentos dentro
      boxes 1.1 e 4.2). Os pesquisadores procura-      dos povoados para as famílias inelegíveis.
      ram analisar se existia o compartilhamento           Os pesquisadores encontraram evidên-
      de riscos dentro dos povoados. Se as famí-       cias de transbordamentos positivos relacio-
      lias compartilhassem riscos, então os domi-      nados ao consumo das famílias. O consumo
      cílios elegíveis poderiam estar transferindo     de alimentos para adultos aumentou cerca
      parte da renda recebida a famílias inelegíveis   de 10% por mês nas famílias inelegíveis
      por meio de empréstimos ou doações.              dos povoados de tratamento. Esse
          O programa Progresa foi implementado         aumento representou cerca de metade do
      de forma sequencial durante os dois primei-      aumento médio no consumo de alimentos
      ros anos: em 1998, 320 povoados foram            entre as famílias elegíveis. Os resultados
      selecionados aleatoriamente para receber as      também deram respaldo à hipótese de
      transferências de renda e, em 1999, outros       compartilhamento de riscos nos povoados.
      186 foram incluídos no programa. Dessa           As famílias inelegíveis dos povoados de tra-
      maneira, entre 1998 e 1999, havia 320 povo-      tamento receberam mais empréstimos e
      ados de tratamento e 186 povoados de com-        transferências de dinheiro de familiares e
      paração. Dentro de cada povoado de               amigos do que as famílias inelegíveis dos
      tratamento, a elegibilidade de um domicílio      povoados de comparação. Isso signiﬁca
      para receber as transferências do Progresa       que o efeito de transbordamento se deu
      era determinada pela condição ou não de          por meio dos mercados locais de seguros e
      pobreza, e dados censitários foram coleta-       de crédito.
      dos para ambos os grupos. Isso criou quatro          Com base nesses resultados, Angelucci
      subgrupos dentro da amostra: populações          e De Giorgi concluíram que as avaliações
      elegíveis e inelegíveis dentro dos povoados      anteriores do Progresa subestimaram o
      de tratamento e de comparação. Supondo           impacto do programa em 12%, pois não
      que o programa não tenha afetado indireta-       contabilizaram os efeitos indiretos sobre as
      mente os povoados de comparação, as famí-        famílias inelegíveis dentro dos povoados de
      lias inelegíveis dos povoados de comparação      tratamento.

      Fonte: Angelucci e De Giorgi 2009.




                    famílias pesquisadas na linha de base, os pesquisadores são capazes de
                    encontrar apenas 2.300 em uma pesquisa de acompanhamento dois anos
                    mais tarde. Se os pesquisadores retornarem e tentarem pesquisar o mesmo
                    grupo, digamos, dez anos depois, talvez encontrem uma parcela ainda
                    menor das famílias originais.
188                                                                        Avaliação de Impacto na Prática
   A atrição pode acontecer por várias razões. Por exemplo, os membros das
famílias ou mesmo famílias inteiras podem se mudar para outro povoado,
cidade, região ou até mesmo outro país. Em um exemplo recente de acom-
panhamento de longo prazo de uma intervenção de desenvolvimento para
crianças na primeira infância na Jamaica, durante a pesquisa de acompa-
nhamento, realizada 22 anos depois da intervenção, 18% das unidades da
amostra tinham migrado para o exterior (ver o boxe 9.5). Em outros casos, os
entrevistados podem não estar mais dispostos a responder uma pesquisa
adicional. Ou conﬂitos e a falta de segurança podem impedir a equipe de
pesquisa de realizar o levantamento em alguns locais que foram incluídos na
linha de base.




     Boxe 9.5: Atrição em estudos com acompanhamento de
     longo prazo: desenvolvimento na primeira infância e
     migração na Jamaica
     A atrição amostral pode ser especialmente        grupo de comparação. No período de acom-
     problemática quando muitos anos se pas-          panhamento, os pesquisadores consegui-
     sam entre as pesquisas de linha de base e        ram entrevistar novamente cerca de 80%
     de acompanhamento. Em 1986, uma equipe           dos participantes iniciais. Não foram detec-
     da University of the West Indies (Universidade   tadas evidências de atrição seletiva na
     das Índias Ocidentais) iniciou um estudo na      amostra, o que signiﬁca que não havia dife-
     Jamaica para medir os resultados no longo        renças signiﬁcativas nas características ini-
     prazo de uma intervenção para o desenvolvi-      ciais (de linha de base) entre aqueles que
     mento das crianças na primeira infância. Em      puderam ser entrevistados aos 22 anos e
     2008, quando os participantes iniciais tinham    aqueles que não puderam participar desse
     22 anos, foi realizado um acompanhamento.        segundo levantamento. No entanto, ao con-
     A tarefa de rastrear todos os participantes do   siderar o subgrupo de crianças que tinham
     estudo original foi desaﬁadora.                  se tornado trabalhadores migrantes, houve
         A intervenção compreendia um pro-            sinais de atrição seletiva. De um grupo de
     grama de dois anos em Kingston, Jamaica,         23 trabalhadores migrantes, nove deixa-
     para proporcionar estímulos psicossociais e      ram a amostra, e uma parcela signiﬁcativa-
     suplementação alimentar a crianças entre         mente maior deles pertencia ao grupo de
     dois e cinco anos que apresentavam proble-       tratamento. Isso signiﬁca que a migração e o
     mas de baixa estatura. Um total de 129           tratamento estavam de alguma forma rela-
     crianças foram selecionadas aleatoriamente       cionados. Como os trabalhadores migrantes
     para um de três grupos de tratamento ou          normalmente tinham rendimento mais alto
     para o grupo de comparação. Os pesquisa-         do trabalho do que aqueles que permanece-
     dores também entrevistaram 84 crianças           ram na Jamaica, isso diﬁcultou a estimativa
     com estatura normal para criar um segundo        dos impactos.

                                                                                          (continua)



Enfrentar os desaﬁos metodológicos                                                                     189
      Boxe 9.5: Atrição em estudos com acompanhamento de longo prazo: desenvolvimento na primeira
      infância e migração na Jamaica (continuação)

          Para contornar o potencial viés de atri-          impacto, os pesquisadores obtiveram resulta-
      ção entre os trabalhadores migrantes, os              dos de que o programa tinha tido um impacto
      pesquisadores lançaram mão de técnicas                impressionante. A intervenção para o desen-
      econométricas. Previram o rendimento dos              volvimento das crianças na primeira infância
      trabalhadores migrantes que haviam abando-            tinha aumentado a renda em 25% para o
      nado a amostra por meio de uma regres-                grupo de tratamento. Esse efeito foi grande
      são de mínimos quadrados ordinários (MQO)             o suﬁciente para que o grupo de tratamento
      usando o status do tratamento, o sexo e               com baixa estatura conseguisse alcançar
      a migração como fatores determinantes.                20 anos depois o grupo de comparação, que
      Utilizando essas previsões para estimar o             não possuía esse tipo de problema.

      Fonte: Gertler e outros 2014; Grantham-McGregor e outros 1991.




                       A atrição amostral pode ser problemática por duas razões. Em primeiro
                    lugar, a amostra de acompanhamento pode deixar de representar correta-
                    mente a população de interesse. Lembre-se que, quando escolhemos a
                    amostra no momento da seleção aleatória, escolhemos aquela que repre-
                    senta adequadamente a população de interesse. Em outras palavras, esco-
                    lhemos uma amostra que tenha validade externa para a nossa população de
                    interesse. Se a pesquisa de acompanhamento ou a coleta de dados forem
                    afetados por uma quantidade substancial de atrição, ﬁcaremos preocupados
                    com a possibilidade de a amostra de acompanhamento representar apenas
                    um subconjunto especíﬁco da população de interesse. Por exemplo, se as
                    pessoas mais escolarizadas da amostra original também forem aquelas que
                    migram, nossa pesquisa de acompanhamento deixará de fora essas pessoas
                    e não mais representará acuradamente a população de interesse, que incluía
                    aquelas pessoas mais instruídas.
                       Em segundo lugar, a amostra de acompanhamento pode não mais ser
                    equilibrada entre o grupo de tratamento e o grupo de comparação. Digamos
                    que se esteja tentando avaliar um programa que visa aumentar o nível edu-
                    cacional das meninas e suponhamos que as meninas mais escolarizadas
                    tenham uma probabilidade maior de se mudar para as cidades para procurar
                    trabalho. A pesquisa de acompanhamento poderá, então, exibir um nível de
                    atrição desproporcionalmente elevado no grupo de tratamento, relativa-
                    mente ao grupo de comparação. Isso pode afetar a validade interna da ava-
                    liação do programa: contrastando as unidades de tratamento e de
                    comparação que encontrarmos na pesquisa de acompanhamento, não será
                    possível estimar com rigor o impacto do programa.
190                                                                             Avaliação de Impacto na Prática
   Caso se detecte atrição amostral durante uma pesquisa de acompanha-
mento, os dois testes a seguir podem ajudar a avaliar a extensão do pro-
blema. Em primeiro lugar, deve-se veriﬁcar se as características da linha de
base das unidades que saíram da amostra são estatisticamente iguais às
características da linha de base das unidades que responderam com êxito a
pesquisa de acompanhamento. Desde que as características de linha de
base de ambos os grupos não sejam estatisticamente diferentes, sua nova
amostra provavelmente continuará representando adequadamente a popu-
lação de interesse.
   Em segundo lugar, deve-se veriﬁcar se a taxa de atrição no grupo de
tratamento é semelhante à do grupo de comparação. Se as taxas forem sig-
niﬁcativamente diferentes, talvez a amostra não seja mais válida e será
necessário utilizar várias técnicas estatísticas para tentar corrigir esse
problema. Um método comum é a ponderação pela probabilidade inversa,
um método que repondera estatisticamente os dados (neste caso, os dados
de acompanhamento) de modo a corrigir o fato de uma parcela dos parti-
cipantes da pesquisa inicial estar ausente. O método repondera a amostra
de acompanhamento de forma que ela ﬁque semelhante à amostra da
linha de base.1


Tempo e persistência dos efeitos

Os prováveis canais de transmissão entre insumos, atividades, produtos e
resultados de uma intervenção podem surgir imediatamente ou após um
intervalo de tempo curto ou longo, e geralmente estão intimamente relacio-
nados a mudanças no comportamento humano. O capítulo 2 enfatizou a
importância de analisar esses canais antes que a intervenção se inicie e
desenvolver uma cadeia causal clara para os programas que estão sendo ava-
liados. Para simpliﬁcar a discussão, temos evitado falar sobre questões rela-
cionadas ao tempo. É importante, porém, considerarmos esse aspecto na
elaboração de uma avaliação.
   Em primeiro lugar, os programas não necessariamente produzem
impactos imediatamente após seu início (King e Behrman 2009). Os ges-
tores dos programas podem precisar de tempo para operacionalizá-los,
os beneﬁciários podem não se beneﬁciar imediatamente pois mudanças
comportamentais levam tempo para ocorrer, e as instituições também
podem não se ajustar imediatamente. Por outro lado, se as instituições e
os beneﬁciários mudarem determinados comportamentos, é possível que
essas novas posturas sejam mantidas mesmo que o programa seja des-
continuado. Por exemplo, um programa que incentive as famílias a reci-
clar lixo e economizar energia pode se manter efetivo após a retirada dos
Enfrentar os desaﬁos metodológicos                                              191
                    incentivos se a iniciativa for capaz de alterar o comportamento das famí-
                    lias em relação à reciclagem de lixo e economia de energia. Ao elaborar
                    uma avaliação, é preciso ser muito cuidadoso (e realista) ao analisar
                    quanto tempo pode levar para que um programa atinja sua efetividade
                    plena. Poderá ser necessário realizar várias pesquisas de acompanha-
                    mento para medir o impacto do programa ao longo do tempo, ou mesmo
                    após o programa ser descontinuado. O boxe 9.6 ilustra uma avaliação em
                    que alguns efeitos do programa só se tornaram evidentes após a inter-
                    rupção da intervenção inicial.




      Boxe 9.6: Avaliar os efeitos de longo prazo: subsídios e a adoção
      de mosquiteiros tratados com inseticida no Quênia
      Dupas (2014) desenhou uma avaliação de im-      o preço do mosquiteiro de US$ 3,80 para
      pacto para medir os efeitos de curto e de       US$ 0,75 apresentavam uma probabilidade
      longo prazo sobre a demanda de mosquitei-       60% maior de comprá-lo. Quando o mosqui-
      ros tratados com inseticida em Busia, no        teiro foi oferecido gratuitamente, a taxa de
      Quênia. Usando um experimento de preços         utilização do mosquiteiro aumentou para
      em duas fases, Dupas selecionou aleatoria-      98%. No longo prazo, as taxas de utilização
      mente famílias para vários níveis de subsídio   mais elevadas traduziram-se em uma maior
      para a compra de um novo tipo de mosquitei-     propensão a pagar pelo produto, uma vez
      ro. Um ano depois, todas as famílias de um      que as famílias perceberam os benefícios de
      subconjunto de povoados tiveram a oportuni-     ter um mosquiteiro. Aqueles que receberam
      dade de comprar o mesmo mosquiteiro. Isso       alguns dos maiores níveis de subsídios na
      permitiu que os pesquisadores medissem a        primeira fase do programa apresentaram
      propensão das famílias a pagar pelos mos-       uma propensão três vezes maior de comprar
      quiteiros e avaliassem como essa propensão      outro mosquiteiro na segunda fase do pro-
      se alterava dependendo do subsídio concedi-     grama a um preço superior ao dobro do
      do durante a primeira fase do programa.         original.
          Em geral, os resultados indicaram que           Os resultados desse estudo mostraram
      um único subsídio teve impacto signiﬁcati-      que ocorre um efeito de aprendizado em
      vamente positivo sobre o uso de mosquitei-      intervenções para estimular o uso de mos-
      ros e a propensão a pagar por eles no longo     quiteiros. Isto sugere que é importante con-
      prazo. Na primeira fase do experimento, os      siderar os impactos das intervenções no
      resultados de Dupas mostram que as famí-        longo prazo, bem como detectar a persis-
      lias que receberam um subsídio que reduziu      tência de seus efeitos.

      Fonte: Dupas 2014.




192                                                                       Avaliação de Impacto na Prática
Recursos adicionais

• Para acessar os materiais complementares a este livro e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
  .worldbank.org/ieinpractice).



Nota

1. Um método estatístico mais avançado seria estimar os “limites sharp” dos
   efeitos do tratamento (ver Lee, 2009).



Referências

Angelucci, Manuela e Giacomo De Giorgi. 2009. “Indirect Effects of an Aid
   Program: How Do Cash Transfers Affect Ineligibles’ Consumption.” American
   Economic Review 99 (1): 486–508.
Angelucci, Manuela e Vicenzo Di Maro. 2015. “Programme Evaluation and
   Spillover Effects.” Journal of Development Effectiveness. doi:
   10.1080/19439342.2015.1033441.
Crépon, Bruno, Esther Duﬂo, Marc Gurgand, Roland Rathelot e Philippe Zamora.
   2013. “Do Labor Market Policies Have Displacement Effects? Evidence from a
   Clustered Randomized Experiment.” Quarterly Journal of Economics 128 (2):
   531–80.
Dupas, Pascaline. 2014. “Short-Run Subsidies and Long-Run Adoption of New
   Health Products: Evidence from a Field Experiment.” Econometrica 82 (1):
   197–228.
Gertler, Paul, James Heckman, Rodrigo Pinto, Arianna Zanolini, Christel
   Vermeersch, Susan Walker, Susan M. Chang e Sally Grantham-McGregor. 2014.
   “Labor Market Returns to an Early Childhood Stimulation Intervention in
   Jamaica.” Science 344 (6187): 998–1001.
Grantham-McGregor, Sally, Christine Powell, Susan Walker e John Himes. 1991.
   “Nutritional Supplementation, Psychosocial Stimulation and Development of
   Stunted Children: The Jamaican Study.” Lancet 338: 1–5.
King, Elizabeth M. e Jere R. Behrman. 2009. “Timing and Duration of Exposure in
   Evaluations of Social Programs.” World Bank Research Observer 24 (1): 55–82.
Kremer, Michael e Edward Miguel. 2004. “Worms: Identifying Impacts on
   Education and Health in the Presence of Treatment Externalities.”
   Econometrica 72 (1): 159–217.
Landsberger, Henry A. 1958. Hawthorne Revisited. Ithaca, NY: Cornell University
   Press.
Lee, David. 2009. “Training, Wages, and Sample Selection: Estimating Sharp
   Bounds on Treatment Effects.” Review of Economic Studies 76 (3):1071–1102.



Enfrentar os desaﬁos metodológicos                                                193
      Levitt, Steven D. e John A. List. 2009. “Was There Really a Hawthorne Effect at the
         Hawthorne Plant? An Analysis of the Original Illumination Experiments.”
         Working Paper 15016, National Bureau of Economic Research, Cambridge, MA.
      Saretsky, Gary. 1972. “The OEO P.C. Experiment and the John Henry Effect.” Phi
         Delta Kappan 53: 579–81.




194                                                          Avaliação de Impacto na Prática
CAPÍTULO 10




Avaliação de programas
multifacetados

Avaliar programas que combinam várias opções
de tratamento

Até agora, temos discutido programas que incluem somente um tipo de tra-
tamento. Na realidade, muitas perguntas relevantes sobre políticas surgem
no contexto de programas multifacetados, isto é, programas que combinam
várias opções de tratamento.1 Os formuladores de políticas públicas podem
estar interessados em descobrir não só se um programa funciona ou não,
mas também se o programa funciona melhor do que outro ou se pode ter um
custo mais baixo. Por exemplo, se quisermos aumentar a frequência escolar,
será mais efetivo implementar intervenções pelo lado da demanda (tais
como transferências de renda para as famílias) ou intervenções pelo lado da
oferta (tais como maiores incentivos para os professores)? Se introduzirmos
essas duas intervenções em conjunto, elas funcionarão melhor juntas do que
cada uma delas separada? Em outras palavras, elas são complementares?
Por outro lado, se o custo-efetividade do programa for uma prioridade, tal-
vez se queira determinar o nível ótimo de serviços que o programa deveria
prover. Por exemplo, qual a duração ótima de um programa de formação
proﬁssional? Um programa de seis meses tem um efeito maior sobre a
chance dos treinandos de ser contratados do que um programa de três


                                                                              195
      meses? Em caso aﬁrmativo, a diferença é suﬁcientemente grande para justi-
      ﬁcar os recursos adicionais necessários para implementar um programa de
      seis meses? Por ﬁm, os formuladores de políticas públicas podem estar inte-
      ressados em encontrar maneiras de alterar um programa existente para
      torná-lo mais efetivo e podem querer testar uma variedade de mecanismos
      a ﬁm de encontrar o que funciona melhor.
         Além de simplesmente estimar o impacto de uma intervenção sobre um
      resultado de interesse, as avaliações de impacto podem ajudar a responder
      questões mais amplas, como as seguintes:
      • Qual é o impacto de um tratamento comparado ao impacto de outro tra-
        tamento? Por exemplo, qual é o impacto sobre o desenvolvimento cogni-
        tivo das crianças de um programa que ofereça aos pais treinamento sobre
        criação dos ﬁlhos em comparação a uma intervenção nutricional?
      • O impacto conjunto de um primeiro tratamento e de um segundo trata-
        mento é maior do que a soma dos dois impactos individuais? Por exem-
        plo, o impacto total da intervenção que oferece treinamento aos pais e
        intervenção nutricional é maior, menor ou igual à soma dos efeitos das
        duas intervenções individuais?
      • Qual é o impacto adicional de um tratamento de intensidade mais ele-
        vada em comparação a um tratamento de menor intensidade? Por exem-
        plo, qual é o efeito sobre a evolução cognitiva de crianças com baixa
        estatura da visita de um assistente social a cada duas semanas, em com-
        paração a apenas uma visita por mês?
         Este capítulo fornece exemplos de como desenhar avaliações de impacto
      para dois tipos de programas multifacetados: aqueles com múltiplos níveis
      do mesmo tratamento e aqueles com múltiplos tratamentos. Em primeiro
      lugar, discutimos como desenhar uma avaliação de impacto para um pro-
      grama com múltiplos níveis de tratamento. Em seguida, analisamos como
      distinguir entre os vários tipos de impacto de um programa com tratamen-
      tos múltiplos. A discussão pressupõe que estamos utilizando o método de
      seleção aleatória, mas também pode ser generalizada para outros métodos.


      Avaliar programas com diferentes níveis de
      tratamento

      É relativamente fácil elaborar uma avaliação de impacto para um pro-
      grama com diferentes níveis ou intensidades de tratamento. Imagine
      que estamos tentando avaliar o impacto de um programa que tem dois
      níveis de tratamento: alto (por exemplo, visitas quinzenais) e baixo
196                                                     Avaliação de Impacto na Prática
Figura 10.1   Etapas da seleção aleatória para dois níveis de tratamento

1. Definir as unidades    2. Selecionar a amostra   3. Aleatorizar a seleção para os
elegíveis                 de avaliação              níveis alto e baixo do tratamento




        Inelegíveis          Elegíveis




(digamos, visitas mensais). Desejamos avaliar o impacto de ambas as
opções e também saber o quanto as visitas adicionais afetam os resulta-
dos. Para fazer isso, é possível realizar um sorteio para definir quem
receberá o tratamento mais intenso, quem receberá o tratamento
menos intenso e quem será selecionado para o grupo de comparação.
A figura 10.1 ilustra esse processo.
   Da mesma forma que no método da seleção aleatória padrão, na etapa 1 é
preciso deﬁnir a população de unidades elegíveis para o programa. Na etapa 2,
deve-se selecionar uma amostra aleatória de unidades a serem incluídas na
avaliação, a amostra de avaliação. Tendo a amostra de avaliação, na etapa 3
selecionam-se aleatoriamente unidades para o grupo que receberá o trata-
mento de alta intensidade, para o grupo que receberá tratamento de baixa
intensidade ou para o grupo de comparação. Como resultado da seleção ale-
atória para vários níveis de tratamento, terão sido criados três grupos
distintos:
• O grupo A constitui o grupo de comparação.
• O grupo B recebe o tratamento de baixa intensidade.
• O grupo C recebe o tratamento de alta intensidade.
Quando implementada corretamente, a seleção aleatória garante que os três
grupos são semelhantes. Portanto, pode-se estimar o impacto do tratamento
de alta intensidade comparando o resultado médio do grupo C ao resultado
médio do grupo A. Pode-se também estimar o impacto do tratamento de
baixa intensidade comparando o resultado médio do grupo B com o resul-
tado médio do grupo A. Por ﬁm, pode-se avaliar se o tratamento de alta
Avaliação de programas multifacetados                                                   197
                          intensidade tem um impacto maior do que o tratamento de baixa intensi-
                          dade comparando os resultados médios para os grupos B e C.
Conceito-chave               Para estimar o impacto de um programa com mais de dois níveis de trata-
Ao avaliar programas      mento, segue-se a mesma lógica. Se houver três níveis de tratamento, o pro-
com n diferentes níveis   cesso de seleção aleatória criará três grupos de tratamento diferentes, além
de tratamento, devem      de um grupo de comparação. Em geral, com n níveis de tratamento diferen-
existir n grupos de       tes, haverá n grupos de tratamento e um grupo de comparação. Os boxes 10.1
tratamento mais um
grupo de comparação.
                          e 10.2 fornecem exemplos de avaliações de impacto que testam tratamentos
                          de diferentes intensidades ou múltiplas opções de tratamento.




           Boxe 10.1: Testar a intensidade de programas para melhorar a
           adesão a tratamentos antirretrovirais
           Pop-Eleches e outros (2011) usaram um pro-       enquanto as mensagens longas incluíam um
           jeto transversal em vários níveis para avaliar   lembrete e uma palavra de estímulo (“Este
           o impacto do uso de lembretes enviados por       é o seu lembrete: seja forte e tenha cora-
           mensagens de texto (SMS) sobre a adesão          gem, nós nos importamos com você”). Um
           dos pacientes com HIV/aids à terapia antirre-    total de 531 pacientes foram selecionados
           troviral em uma clínica rural no Quênia. O       para um dos quatro grupos de tratamento
           estudo variou a intensidade do tratamento        ou para o grupo de comparação. Os grupos
           de duas maneiras: a frequência com que as        de tratamento foram divididos em: mensa-
           mensagens eram enviadas aos pacientes            gens semanais curtas, mensagens sema-
           (diariamente ou semanalmente) e o tama-          nais longas, mensagens diárias curtas ou
           nho dessas mensagens (curtas ou longas).         mensagens diárias longas.
           As mensagens curtas incluíam apenas um              Um terço da amostra foi alocado ao
           lembrete (“Este é o seu lembrete”),              grupo de comparação, e os dois terços


           Quadro B10.1.1      Resumo do desenho do programa


                                                        Frequência da                  Número de
             Grupo         Tipo de mensagem             mensagem                       pacientes
             1             Apenas um lembrete           Semanal                             73
             2             Lembrete + estímulo          Semanal                             74
             3             Apenas um lembrete           Diária                              70
             4             Lembrete + estímulo          Diária                              72
             5             Nenhuma (grupo de            Nenhuma                            139
                           comparação)

                                                                                                 (continua)



198                                                                            Avaliação de Impacto na Prática
     Boxe 10.1: Testar a intensidade de programas para melhorar a adesão a tratamentos
     antirretrovirais (continuação)


     restantes foram distribuídos uniformemente         causa importante de falha de resistência ao
     para cada um dos quatro grupos de interven-        tratamento em contexto de recursos limita-
     ção. Uma sequência de números aleatórios           dos. Contrariamente às expectativas, adicio-
     entre 0 e 1 foi gerada. Quatro intervalos          nar palavras de estímulo às mensagens
     iguais entre 0 e 2/3 correspondiam aos qua-        mais longas não foi mais eﬁcaz do que uma
     tro grupos de intervenção, enquanto o inter-       mensagem curta ou nenhuma mensagem.
     valo de 2/3 a 1 correspondia ao grupo de               Os pesquisadores também encontraram
     controle.                                          que, enquanto as mensagens semanais
         Os investigadores encontraram que as           melhoraram a adesão ao tratamento, as
     mensagens semanais aumentaram o per-               mensagens diárias não o ﬁzeram, mas eles
     centual de pacientes que atingiam 90% de           não conseguiram detectar por que as men-
     adesão à terapia antirretroviral em aproxima-      sagens semanais se mostraram mais eﬁca-
     damente 13% a 16% em comparação aos                zes. É possível que a habituação, ou seja, a
     pacientes que não receberam nenhuma                diminuição da resposta a um estímulo repe-
     mensagem. Essas mensagens semanais                 tido com frequência, possa explicar esse
     também se mostraram eﬁcientes na redu-             resultado ou que os pacientes simples-
     ção da frequência das interrupções do trata-       mente tenham achado as mensagens diá-
     mento, que já tinham se mostrado uma               rias intrusivas demais.

     Fonte: Pop-Eleches e outros 2011.




     Boxe 10.2: Testar alternativas de programas para monitorar a
     corrupção na Indonésia
     Na Indonésia, Olken (2007) usou um dese-               Um dos tratamentos múltiplos incluiu a
     nho cruzado para testar diferentes méto-           seleção aleatória de alguns povoados que
     dos de controle da corrupção, desde uma            foram informados que seu projeto de constru-
     abordagem de ﬁscalização de cima para              ção seria auditado por um agente do governo.
     baixo até um monitoramento comunitário             Em seguida, para testar a participação da
     popular. Usou uma metodologia de sele-             comunidade no monitoramento, os pesquisa-
     ção aleatória em mais de 600 povoados              dores implementaram duas intervenções.
     que estavam construindo estradas como              Distribuíram convites para reuniões comunitá-
     parte de um projeto nacional de melhoria           rias de prestação de contas e forneceram for-
     de infraestrutura.                                 mulários para a inserção de comentários que
                                                                                             (continua)


Avaliação de programas multifacetados                                                                     199
      Boxe 10.2: Testar alternativas de programas para monitorar a corrupção na Indonésia (continuação)

      poderiam ser preenchidos anonimamente.               desviados em cerca de 8 pontos percentuais
      Para medir os níveis de corrupção, uma               (a partir de 24%). O aumento da participação
      equipe independente de engenheiros e agri-           da comunidade no monitoramento teve um
      mensores retirou amostras das novas estra-           impacto sobre o desvio de mão de obra,
      das, estimou o custo dos materiais utilizados        mas não sobre o desvio de gastos. E os for-
      e, em seguida, comparou seus cálculos com            mulários de comentários só se mostraram
      os orçamentos apresentados.                          efetivos quando distribuídos nas escolas,
          Olken encontrou que aumentar de 4%               para que as crianças os entregassem às
      para 100% a chance de uma auditoria                  suas famílias, mas não quando eram entre-
      governamental reduziu o total de gastos              gues pelos líderes comunitários locais.

      Fonte: Olken 2007.




                    Avaliar intervenções múltiplas

                    Além de comparar vários níveis de tratamento, pode-se querer comparar
                    opções de tratamento inteiramente diferentes. Na realidade, os formulado-
                    res de políticas públicas geralmente preferem comparar os méritos relativos
                    de diferentes tipos de intervenções, em vez de simplesmente conhecer o
                    impacto de uma única intervenção.
                       Imaginemos que se queira avaliar o impacto sobre a frequência escolar de
                    um programa com duas intervenções diferentes: transferência de renda
                    para as famílias dos alunos condicionada à matrícula escolar, e transporte
                    gratuito de ônibus para a escola. Em primeiro lugar, pode-se querer conhe-
                    cer o impacto de cada intervenção separadamente. Esse caso é praticamente
                    idêntico àquele em que se testam os diferentes níveis de tratamento de uma
                    intervenção: em vez de selecionar aleatoriamente unidades para níveis mais
                    ou menos intensos de tratamento e para o grupo de comparação, pode-se
                    selecioná-las aleatoriamente para um grupo de transferência de renda, para
                    um grupo de transporte gratuito de ônibus e para o grupo de comparação.
                    Em geral, com n intervenções diferentes, haverá n grupos de tratamento,
                    além do grupo de comparação.
                       Além de querer descobrir o impacto de cada intervenção separada-
                    mente, pode-se também querer saber se a combinação das duas é melhor
                    do que apenas a soma de seus efeitos individuais. Do ponto de vista dos
                    participantes, o programa estará disponível em três formatos diferentes:
                    apenas transferência condicional de renda, apenas transporte gratuito de
                    ônibus ou uma combinação de transferência condicional de renda e trans-
                    porte gratuito de ônibus.
200                                                                               Avaliação de Impacto na Prática
Figura 10.2   Etapas na seleção aleatória de duas intervenções

1. Definir as unidades 2. Selecionar a amostra 3. Aleatorizar a 4 e 5. Aleatorizar a
elegíveis              de avaliação            seleção para o seleção para o 2º
                                               1º tratamento tratamento




     Inelegíveis       Elegíveis




   A seleção aleatória para um programa com duas intervenções é muito
parecida com o processo de um programa com uma única intervenção.
A principal diferença é a necessidade de conduzir vários sorteios indepen-
dentes em vez de um só. Isso produz um desenho cruzado, que às vezes é
chamado de desenho transversal. A ﬁgura 10.2 ilustra esse processo. Da
mesma maneira que antes, a etapa 1 é usada para deﬁnir a população de
unidades elegíveis para o programa. A etapa 2 visa selecionar uma amostra
aleatória de unidades elegíveis da população para formar a amostra de ava-
liação. Após obter a amostra de avaliação, na etapa 3 selecionamos aleato-
riamente unidades da amostra de avaliação para um grupo de tratamento e
para um grupo de comparação. Na etapa 4, usamos um segundo sorteio
para selecionar aleatoriamente um subconjunto do grupo de tratamento
para receber a segunda intervenção. Por ﬁm, na etapa 5, realizamos mais
um sorteio para selecionar um subconjunto do grupo de comparação ini-
cial para receber a segunda intervenção, enquanto o outro subconjunto
permanecerá como grupo de comparação puro.2 Como resultado da sele-
ção aleatória aos dois tratamentos, terão sido criados quatro grupos, con-
forme ilustra a ﬁgura 10.3.
• O grupo A recebe as duas intervenções (transferência de renda e trans-
  porte de ônibus).
• O grupo B recebe a intervenção 1, mas não a intervenção 2 (apenas trans-
  ferência de renda).
Avaliação de programas multifacetados                                                  201
      Figura 10.3                    Desenho cruzado para um programa com duas intervenções



                                                           Intervenção 1

                                             Tratamento                        Comparação

                                               Grupo A                           Grupo C

                        Tratamento
        Intervenção 2




                                               Grupo B                           Grupo D
                        Comparação




      • O grupo C não recebe a intervenção 1, mas recebe a intervenção 2 (apenas
        transporte de ônibus).
      • O grupo D não recebe nem a intervenção 1 nem a intervenção 2 e consti-
        tui o grupo de comparação puro.
      Quando corretamente implementada, a seleção aleatória garante que os
      quatro grupos são semelhantes. Portanto, pode-se estimar o impacto da
      primeira intervenção comparando o resultado (como a taxa de frequência
      escolar) do grupo B com o resultado do grupo de comparação puro, o grupo
      D. Pode-se também estimar o impacto da segunda intervenção comparando
      o resultado do grupo C ao resultado do grupo de comparação puro, o grupo
      D. Além disso, esse tipo de desenho também permite comparar o impacto
      incremental do recebimento da segunda intervenção quando uma unidade
      já está recebendo a primeira. A comparação dos resultados do grupo A e do
      grupo B resultará no impacto da segunda intervenção para as unidades que
      já receberam a primeira intervenção. A comparação dos resultados do grupo
      A e do grupo C resultará no impacto da primeira intervenção nas unidades
      que já receberam a segunda intervenção.
          A descrição anterior utilizou o exemplo da seleção aleatória para explicar
      como uma avaliação de impacto pode ser concebida para um programa com


202                                                                        Avaliação de Impacto na Prática
duas intervenções diferentes. Quando um programa compreende mais de
duas intervenções, o número de sorteios pode ser aumentado e a avaliação
pode ser ainda mais subdividida para criar grupos que recebam as várias
combinações de intervenções. Projetos com múltiplos tratamentos e múlti-
plos níveis de tratamento também podem ser implementados. Mesmo que o
número de grupos aumente, a teoria básica por trás do desenho da avaliação
permanece a mesma descrita anteriormente.
   No entanto, a avaliação de mais de uma ou duas intervenções criará desa-
ﬁos práticos tanto para a avaliação quanto para a operação do programa,
uma vez que a complexidade do projeto aumentará exponencialmente com
o número de tratamentos. Para avaliar uma intervenção, apenas dois grupos
são necessários: um grupo de tratamento e um grupo de comparação. Para
avaliar duas intervenções, são necessários quatro grupos: três grupos de
tratamento e um grupo de comparação. Para avaliar três intervenções,
incluindo todas as combinações possíveis entre as três, serão necessários
2 × 2 × 2 = 8 grupos na avaliação. Em geral, para uma avaliação que inclua
todas as combinações possíveis entre n intervenções, serão necessários 2n
grupos. Além disso, para se poder distinguir as diferenças nos resultados
entre os diferentes grupos, cada grupo deve conter um número suﬁciente
de unidades de observação para garantir poder estatístico suﬁciente.
Na prática, a detecção das diferenças entre os tipos de intervenção pode
exigir amostras maiores do que quando se compara um grupo de trata-
mento a um grupo de comparação puro. Se os dois tipos de tratamento             Conceito-chave
forem bem-sucedidos em provocar mudanças nos resultados desejados,              Para uma avaliação
serão necessárias amostras maiores para detectar as potenciais pequenas         que analise o impacto
                                                                                de todas as combina-
diferenças entre os dois grupos.3
                                                                                ções possíveis entre n
   Por ﬁm, o desenho cruzado também pode ser usado em desenhos de ava-          intervenções
liação que combinem vários métodos de avaliação. As regras operacionais         diferentes, será
que orientam a seleção de cada tratamento determinarão qual a combinação        necessário um total de
de métodos que deve ser usada. Por exemplo, pode ser que o primeiro trata-      2n grupos de
mento seja alocado com base num índice de elegibilidade, mas que o segundo      tratamento e de
                                                                                comparação.
seja alocado de forma aleatória. Nesse caso, o desenho poderá usar um
método de regressão descontínua para a primeira intervenção e um método
de seleção aleatória para a segunda intervenção.



Recursos adicionais

• Para acessar os materiais complementares a este livro e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
  .worldbank.org/ieinpractice).


Avaliação de programas multifacetados                                                             203
      • Para obter mais informações sobre projetos de avaliação de impacto com
        múltiplas opções de tratamento, ver Banerjee, Abhijit e Esther Duﬂo. 2009.
        “The Experimental Approach to Development Economics.” Annual Review of
        Economics 1: 151–78.



      Notas

      1. Ver Banerjee e Duﬂo (2009) para uma discussão mais extensa.
      2. Observe que, na prática, é possível combinar os três sorteios em apenas um e
         ainda obter o mesmo resultado.
      3. Testar o impacto de intervenções múltiplas também tem uma implicação
         mais sutil: à medida que aumentamos o número de intervenções ou níveis
         de tratamento que testamos uns contra os outros, aumentamos a probabili-
         dade de encontrar um impacto em pelo menos um dos testes, mesmo que
         não haja nenhum impacto. Em outras palavras, é mais provável que encon-
         tremos um resultado falso positivo. Para evitar isso, os testes estatísticos
         devem ser ajustados para considerar o teste de hipóteses múltiplas. Os falsos
         positivos também são chamados de erros do tipo II. Ver o capítulo 15 para
         mais informações sobre os erros do tipo II e referências sobre testes de
         hipóteses múltiplas.



      Referências

      Banerjee, Abhijit e Esther Duﬂo. 2009. “The Experimental Approach to
         Development Economics.” Annual Review of Economics 1: 151–78.
      Olken, Benjamin. 2007. “Monitoring Corruption: Evidence from a Field Experiment
         in Indonesia.” Journal of Political Economy 115 (2): 200–249.
      Pop-Eleches, Cristian, Harsha Thirumurthy, James Habyarimana, Joshua Zivin,
         Markus Goldstein, Damien de Walque, Leslie MacKeen, Jessica Haberer,
         Sylvester Kimaiyo, John Sidle, Duncan Ngare e David Bangsberg. 2011. “Mobile
         Phone Technologies Improve Adherence to Antiretroviral Treatment in a
         Resource-Limited Setting: A Randomized Controlled Trial of Text Message
         Reminders.” AIDS 25 (6): 825–34.




204                                                        Avaliação de Impacto na Prática
Parte 3

COMO IMPLEMENTAR
UMA AVALIAÇÃO DE
IMPACTO


A parte 3 deste livro concentra-se em como implementar uma avaliação de
impacto: como selecionar um método de avaliação de impacto compatível
com as regras operacionais de um programa; como gerenciar uma avaliação
de impacto assegurando uma forte parceria entre as equipes de pesquisa e de
formulação e gestão de políticas públicas e administrando o tempo e o orça-
mento de uma avaliação; como garantir que uma avaliação seja ética e crível
seguindo os princípios deﬁnidos para trabalhar com seres humanos e usando
os princípios da ciência aberta; e como usar a avaliação de impacto para orien-
tar a formulação de políticas públicas.

O capítulo 11 descreve como usar as regras operacionais do programa — ou
seja, os recursos disponíveis, os critérios para a seleção de beneﬁciários e o
momento de sua implementação — como base para a escolha de um método
de avaliação de impacto. Um quadro simples foi criado para deﬁnir qual das
metodologias de avaliação de impacto apresentadas na parte 2 é a mais ade-
quada para determinado programa, dependendo de suas regras operacionais.
O capítulo discute ainda por que o método de avaliação preferido deverá ser
aquele que exigir os pressupostos mais fracos e requerer o mínimo de dados
no contexto de suas regras operacionais.

O capítulo 12 discute a relação entre as equipes de pesquisa e de formulação
e gestão das políticas públicas e seus respectivos papéis. Examina a distinção
entre independência e imparcialidade e destaca as áreas que podem se revelar
sensíveis na realização de uma avaliação de impacto. O capítulo também for-
nece orientação sobre como gerenciar as expectativas das partes interessadas
e destaca alguns dos riscos comuns envolvidos na realização de avaliações de
impacto, bem como sugestões sobre como administrar esses riscos. O capítulo
se encerra com uma visão geral de como gerenciar as atividades de avaliação
de impacto, incluindo a criação da equipe de avaliação, a elaboração de um cro-
nograma, do orçamento e a captação de recursos.

O capítulo 13 fornece uma visão geral sobre a ética e a ciência da avaliação de
impacto e aborda, entre outros temas, a importância de não negar benefícios
aos beneﬁciários elegíveis em nome da avaliação; a melhor maneira de apli-
car os princípios fundamentais da pesquisa ética envolvendo seres humanos; o
papel dos comitês de ética em pesquisa que aprovam e monitoram pesquisas
envolvendo seres humanos; e a importância de praticar a ciência aberta, que
inclui o registro das avaliações e a disponibilização de dados ao público para
pesquisas futuras e para a replicação de resultados.

O capítulo 14 fornece informações sobre como usar as avaliações de impacto
para orientar as políticas públicas, incluindo indicações sobre como tornar os
resultados relevantes; uma discussão sobre os tipos de produtos que as avalia-
ções de impacto podem e devem fornecer; e orientações sobre como produzir
e disseminar resultados para maximizar o impacto para as políticas públicas.
CAPÍTULO 11




A escolha de um método de
avaliação de impacto

Determinar o método a ser usado para um
dado programa

A chave para identiﬁcar o impacto causal de um programa é encontrar um
grupo de comparação válido para estimar o contrafactual e responder à
questão de interesse para a política pública. Na parte 2, discutimos uma
série de métodos, incluindo seleção aleatória, variáveis instrumentais,
regressão descontínua, diferença em diferenças e pareamento. Neste capí-
tulo, analisaremos que método escolher para avaliar um determinado tipo
de programa.
   Em primeiro lugar, mostraremos que as regras operacionais do programa
fornecem orientações claras sobre como encontrar grupos de comparação e,
portanto, sobre qual o método mais apropriado para o contexto de política
pública em foco. Um princípio abrangente está relacionado às regras opera-
cionais do programa: se elas forem bem deﬁnidas, poderão ajudar a determi-
nar qual o método mais adequado para avaliar esse programa especíﬁco.
   Em segundo lugar, os métodos introduzidos na parte 2 têm diferentes
requisitos de dados e baseiam-se em diferentes pressupostos subjacentes.
Alguns métodos exigem pressupostos mais fortes do que outros para esti-
mar com precisão as mudanças nos resultados causadas pela intervenção.


                                                                             207
                          Em geral, preferimos o método que exige pressupostos mais fracos e requer
                          o mínimo de dados no contexto das regras operacionais.
                             Por ﬁm, discutiremos como escolher a unidade da intervenção. Por
                          exemplo, o programa será alocado no nível individual ou em um nível
                          superior, como comunidades ou distritos? Em geral, preferimos escolher a
                          menor unidade viável de intervenção de acordo com as restrições
                          operacionais.



                          Como as regras operacionais de um programa
                          podem ajudar a escolher um método de
                          avaliação de impacto

Conceito-chave            Uma das principais mensagens deste livro é que podemos utilizar as regras
As regras operacionais    operacionais de um programa para encontrar grupos de comparação válidos
de um programa            desde que sejam bem deﬁnidas. Na realidade, as regras operacionais do pro-
determinam qual o         grama fornecem um guia sobre qual é o método mais adequado para avaliar
método de avaliação
                          esse programa especíﬁco. Elas podem e devem determinar o método de ava-
de impacto mais
adequado para avaliar     liação — e não vice-versa. A avaliação não deve alterar drasticamente os
esse programa — e         elementos-chave de regras de alocação bem deﬁnidas em nome de um dese-
não vice-versa.           nho de avaliação mais “limpo”.
                             As regras operacionais mais relevantes para o projeto de avaliação são
                          aquelas que identiﬁcam quem é elegível para o programa e como essas
                          unidades serão selecionadas para participar da iniciativa. Os grupos de
                          comparação são formados pelas unidades que são elegíveis, mas que não
                          podem ser incorporadas em determinado momento (por exemplo,
                          quando há restrições de recursos ou excesso de demanda), ou por aquelas
                          unidades próximas do ponto de corte de elegibilidade para a participação
                          no programa.


Conceito-chave
                          Princípios para regras bem deﬁnidas de seleção de beneﬁciários
Ao projetar avaliações    Ao projetar avaliações de impacto prospectivas, quase sempre pode-
de impacto prospecti-
                          mos encontrar grupos de comparação válidos se as regras operacionais
vas, quase sempre
podemos encontrar         para a seleção de beneficiários forem equitativas, transparentes e
grupos de comparação      responsáveis:
válidos se as regras
operacionais para a       • As regras equitativas de seleção de beneﬁciários ordenam ou priorizam a
seleção de beneﬁciá-        elegibilidade com base em um indicador de necessidade deﬁnido em
rios forem equitativas,     comum acordo, ou estipulam que os benefícios do programa serão oferta-
transparentes e             dos para todos, ou que, pelo menos, todos terão a mesma chance de rece-
responsáveis.               ber a oferta dos benefícios.
208                                                                        Avaliação de Impacto na Prática
• As regras transparentes de seleção de beneﬁciários são tornadas públicas,
  de modo que terceiros que não fazem parte das equipes da iniciativa pos-
  sam implicitamente concordar com elas e monitorar se elas realmente
  estão sendo seguidas. As regras transparentes devem ser quantiﬁcáveis e
  facilmente observáveis.
• As regras de responsabilização ou de prestação de contas são de responsa-
  bilidade dos funcionários que atuam no programa, e a sua implementa-
  ção é a base para medir o desempenho ou a recompensa desses
  funcionários.
   As regras operacionais de elegibilidade são transparentes e permitem a
responsabilização quando os programas utilizam critérios quantiﬁcáveis
que podem ser veriﬁcados por terceiros externos e quando esses critérios
são públicos. Equidade, transparência e responsabilização asseguram que os
critérios de elegibilidade são quantitativamente veriﬁcáveis e, de fato,
implementados conforme o planejado. Assim, esses princípios de boa gover-
nança ampliam a probabilidade de que o programa realmente beneﬁcie a
população-alvo e são também a chave para uma avaliação bem-sucedida. Se
as regras não forem quantiﬁcáveis e veriﬁcáveis, a equipe de avaliação terá
diﬁculdade para assegurar que a seleção aos grupos de tratamento e de com-
paração ocorra conforme o planejado ou, no mínimo, para documentar
como isso de fato aconteceu. Se os membros da equipe de avaliação não
puderem realmente veriﬁcar a seleção, não serão capazes de analisar corre-
tamente os dados para calcular os impactos. A compreensão das regras de
seleção do programa é fundamental para a escolha de um método de avalia-
ção de impacto adequado.
   Quando as regras operacionais violam qualquer um desses três princí-
pios de boa governança, enfrentamos desaﬁos tanto na criação de um pro-
grama bem elaborado quanto na condução de sua avaliação. É difícil
encontrar grupos de comparação válidos se as regras que determinam a ele-
gibilidade e a seleção dos beneﬁciários não forem equitativas, transparentes
e permitirem a responsabilização. Nesse caso, o projeto de uma avaliação de
impacto pode exigir esclarecimentos e ajustes em relação à maneira como o
programa opera. No entanto, se as regras forem bem deﬁnidas, o método de
avaliação de impacto pode ser escolhido com base nas regras existentes de
seleção de beneﬁciários do programa, conforme discutiremos mais adiante.


Principais regras operacionais

As regras operacionais normalmente regem quais são os benefícios do pro-
grama, como esses benefícios são ﬁnanciados e distribuídos e como o pro-
grama seleciona os beneﬁciários. As regras que regem os programas e
A escolha de um método de avaliação de impacto                                 209
      a seleção dos beneﬁciários são fundamentais para a obtenção de grupos de
      comparação válidos. As regras que regem a seleção dos beneﬁciários abran-
      gem a elegibilidade, as regras de alocação no caso de recursos limitados e a
      inclusão progressiva dos beneﬁciários ao longo do tempo. Mais especiﬁca-
      mente, as regras-chave que geram um roteiro para encontrar grupos de
      comparação respondem a três questões operacionais fundamentais relacio-
      nadas aos recursos disponíveis de um programa, aos critérios de elegibili-
      dade e ao tempo ou cronologia de implementação:

      1. Recursos disponíveis: o programa tem recursos suﬁcientes para atingir a
         escala e a cobertura total de todos os beneﬁciários elegíveis? Os governos
         e as organizações não-governamentais nem sempre dispõem de recursos
         suﬁcientes para fornecer os serviços dos programas a todos aqueles que
         são elegíveis e que solicitaram esses benefícios. Nesse caso, o governo
         deve decidir quais entre os candidatos elegíveis receberão os benefícios
         do programa e quais não serão incluídos na iniciativa. Muitas vezes, os
         programas se limitam a regiões geográﬁcas especíﬁcas ou a um número
         limitado de comunidades, mesmo que possa haver beneﬁciários elegíveis
         em outras regiões ou comunidades.

      2. Critérios de elegibilidade: quem é elegível para receber os benefícios do
         programa? A seleção do programa se baseia em um ponto de corte de
         elegibilidade ou a iniciativa está disponível para todos? As escolas públi-
         cas e a assistência médica básica são, geralmente, oferecidas para toda a
         população de um país. Muitos programas usam regras de elegibilidade
         operacionais que dependem de uma ordenação contínua com um ponto
         de corte. Por exemplo, os programas de aposentadoria estabelecem um
         limite de idade acima do qual os idosos se tornam elegíveis. Os programas
         de transferência de renda geralmente classiﬁcam as famílias com base
         em seu nível de pobreza estimado, e aquelas que ﬁcam abaixo de um
         ponto de corte predeterminado são consideradas elegíveis.
      3. Tempo de implementação: os beneﬁciários potenciais se inscrevem no
         programa de uma só vez ou poderão se inscrever em fases ao longo do
         tempo? Muitas vezes, as limitações administrativas e de recursos impe-
         dem os governos e as organizações não-governamentais de fornecer
         benefícios imediatos a toda a população elegível. Por isso, implemen-
         tam seus programas ao longo do tempo e, portanto, devem decidir
         quem receberá os benefícios primeiro e quem será incorporado poste-
         riormente. Uma abordagem comum é implementar um programa em
         fases diferentes de acordo com a localização geográﬁca e incorporar
         todos os beneﬁciários elegíveis de um povoado ou região antes de pas-
         sar para o próximo.
210                                                       Avaliação de Impacto na Prática
Obter grupos de comparação a partir das regras operacionais

Ao elaborar avaliações de impacto prospectivas, a resposta às três questões
operacionais mencionadas acima determina, em grande parte, o método de
avaliação de impacto mais adequado para um determinado programa.
O quadro 11.1 mapeia os possíveis grupos de comparação para as regras ope-
racionais especíﬁcas do programa e as três questões operacionais funda-
mentais relacionadas aos recursos disponíveis, às regras de elegibilidade e

Quadro 11.1 Relação entre as regras operacionais de um programa e os métodos de
avaliação de impacto


                                              Excesso de demanda do                     Sem excesso de demanda do
                                           programa (recursos limitados)               programa (recursos suﬁcientes)
                                                (1)                  (2)                 (3)                  (4)
                                         Ordenação de        Sem ordenação        Ordenação de     Sem ordenação de
                                         acordo com          de acordo com        acordo com       acordo com índice de
                                         índice de           índice de            índice de        elegibilidade contínuo e
                          Critérios de   elegibilidade       elegibilidade        elegibilidade    ponto de corte
                          elegibilida-   contínuo e ponto    contínuo e ponto     contínuo e
                          de             de corte            de corte             ponto de corte
                          (A)               Célula A1            Célula A2          Célula A3             Célula A4
                          Implementa-    Seleção aleatória   Seleção aleatória    Seleção          Seleção aleatória em
 Tempo de implementação




                          ção em         (capítulo 4)        (capítulo 4)         aleatória em     fases (capítulo 4)
                          fases ao       RDD (capítulo 6)    Variáveis instru-    fases            Variáveis instrumentais
                          longo do                           mentais (promo-      (capítulo 4)     (promoção aleatória para
                          tempo                              ção aleatória)       RDD              a participação inicial)
                                                             (capítulo 5)         (capítulo 6)     (capítulo 5)
                                                             DD (capítulo 7)                       DD (capítulo 7)
                                                             DD com parea-                         DD com pareamento
                                                             mento (capítulo 8)                    (capítulo 8)

                          (B)               Célula B1            Célula B2          Célula B3              Célula B4
                          Implementa-    Seleção aleatória   Seleção aleatória    RDD (capítulo    Se a participação não for
                          ção imediata   (capítulo 4)        (capítulo 4)         6)               completa
                                         RDD (capítulo 6)    Variáveis instru-                     Variáveis instrumentais
                                                             mentais (promo-                       (promoção aleatória)
                                                             ção aleatória)                        (capítulo 5)
                                                             (capítulo 5)                          DD (capítulo 7)
                                                             DD (capítulo 7)                       DD com pareamento
                                                             DD com parea-                         (capítulo 8)
                                                             mento (capítulo 8)

Observação: DD = diferença em diferenças; RDD = método de regressão descontínua.



A escolha de um método de avaliação de impacto                                                                               211
      ao tempo de implementação. As colunas estão divididas quanto à disponibi-
      lidade de recursos para cobrir todos os beneﬁciários potencialmente elegí-
      veis até o ﬁm do programa (recursos disponíveis), e subdivididas entre
      programas que têm um índice contínuo de elegibilidade e um ponto de
      corte e aqueles que não têm (critérios de elegibilidade). As linhas são dividi-
      das em programas com implementação em fases ou imediata (tempo de
      implementação). Cada célula lista as fontes potenciais de grupos de compa-
      ração válidos, juntamente com o capítulo relacionado no qual elas foram
      discutidas na parte 2. Cada célula é rotulada com um índice: a letra inicial
      indica a linha no quadro (A, B) e o número que segue indica a coluna (1-4).
      Por exemplo, a célula A1 refere-se à célula da primeira linha e da primeira
      coluna do quadro. Assim, a célula A1 identiﬁca os métodos de avaliação mais
      adequados para programas que têm recursos limitados, que têm critérios de
      elegibilidade e são implementados em fases ao longo do tempo.
         A maior parte dos programas precisa ser introduzida progressivamente
      ao longo do tempo devido a restrições de ﬁnanciamento ou a limitações
      logísticas e administrativas. Este grupo ou categoria abrange a primeira
      linha do quadro (células A1, A2, A3 e A4). Nesse caso, a regra operacional
      equitativa, transparente e responsável é dar a todas as unidades elegíveis a
      mesma chance de obter o programa em primeiro, segundo ou terceiro lugar,
      e assim por diante, o que implica em uma implementação aleatória do pro-
      grama ao longo do tempo.
         Nos casos em que os recursos são limitados — ou seja, em que nunca
      haverá recursos suﬁcientes para permitir que o programa seja ampliado a
      toda a população (células A1 e A2 e B1 e B2) —, o excesso de demanda pode
      ocorrer muito rapidamente. Por isso, um sorteio para decidir quem entrará
      no programa pode ser uma abordagem viável para alocar benefícios entre
      as unidades igualmente elegíveis. Nesse caso, cada unidade elegível terá a
      mesma chance de se beneﬁciar do programa. Um sorteio é um exemplo de
      regra operacional equitativa, transparente e responsável para alocar os
      benefícios do programa entre as unidades elegíveis.
         Outra classe de programas compreende aqueles que são implementados
      progressivamente ao longo do tempo e para os quais os gestores podem clas-
      siﬁcar os beneﬁciários potenciais por necessidade (células A1 e A3). Se os
      critérios utilizados para priorizar os beneﬁciários forem quantiﬁcáveis, esti-
      verem disponíveis e tiverem um limite ou ponto de corte de elegibilidade, o
      programa poderá usar um método de regressão descontínua.
         A outra categoria ampla consiste em programas que têm a capacidade
      administrativa para ser implementados de forma imediata, ou seja, as célu-
      las da linha inferior do quadro. Quando o programa tem recursos limitados
      e não é capaz de ordenar os beneﬁciários (célula B2), a alocação aleatória
      baseada no excesso de demanda poderá ser usada. Se o programa tiver
212                                                       Avaliação de Impacto na Prática
recursos suﬁcientes para ser implementado em larga escala e não possuir
critérios de elegibilidade (célula B4), a única solução será utilizar variáveis
instrumentais (promoção aleatória), supondo-se que a participação da
população elegível ao programa não será completa. Se o programa puder
ordenar os beneﬁciários de acordo com critérios de elegibilidade, poderá
usar o método de regressão descontínua.


Prioridade aos beneﬁciários

As três principais questões operacionais estão relacionadas ao problema
fundamental de como os beneﬁciários são selecionados, o que é crucial para
encontrar grupos de comparação válidos. Às vezes, os grupos de compara-
ção são encontrados entre as populações inelegíveis ou, mais frequente-
mente, entre as populações elegíveis, mas que são incorporadas ao programa
posteriormente. A forma como os beneﬁciários são priorizados depende, em
parte, dos objetivos do programa. Trata-se de um programa de aposentado-
ria para idosos, um programa de redução da pobreza direcionado aos pobres
ou um programa de imunização disponível para todos?
   Para priorizar os beneﬁciários com base na necessidade, o programa deve
encontrar um indicador que seja quantiﬁcável e veriﬁcável. Na prática, a via-
bilidade da priorização depende, em grande medida, da capacidade do
governo para medir e ordenar as necessidades. Se o governo for capaz de
classiﬁcar com precisão os beneﬁciários de acordo com suas necessidades
relativas, poderá se sentir eticamente obrigado a implementar o programa
utilizando o critério da necessidade. No entanto, a classiﬁcação baseada na
necessidade requer não apenas uma medida quantiﬁcável, mas também a
capacidade e os recursos para medir esse indicador para cada unidade que
pode vir a participar do programa.
   Alguns programas usam critérios de seleção que podem, em princípio,
ser empregados para classiﬁcar a necessidade relativa e determinar a elegi-
bilidade. Por exemplo, muitos programas procuram alcançar indivíduos
pobres. No entanto, indicadores precisos de pobreza que classiﬁquem as
famílias de modo conﬁável são, frequentemente, difíceis de mensurar e dis-
pendiosos para ser coletados. A coleta de dados sobre renda ou consumo de
todos os beneﬁciários potenciais, que permitiria classiﬁcá-los de acordo
com o nível de pobreza, é um processo complexo e dispendioso que também
seria difícil de veriﬁcar. Em vez disso, muitos programas usam algum tipo de
teste de elegibilidade multidimensional baseado em um índice de condições
de vida para estimar os níveis de pobreza. Esses índices são compostos por
medidas observáveis simples, tais como ativos e características sociodemo-
gráﬁcas (Grosh e outros 2008). Os testes de elegibilidade multidimensional
podem ajudar a determinar com precisão razoável se uma família está acima
A escolha de um método de avaliação de impacto                                    213
      ou abaixo de algum ponto de corte bruto, mas eles podem ser menos preci-
      sos para fornecer uma classiﬁcação detalhada sobre o status ou a necessi-
      dade socioeconômica.
         Em vez de enfrentar o custo e a complexidade de classiﬁcar os potenciais
      beneﬁciários individuais, muitos programas optam por classiﬁcá-los em um
      nível mais elevado de agregação, como as comunidades. Determinar a aloca-
      ção de programas em um nível agregado ou coletivo tem óbvios benefícios
      operacionais, mas, muitas vezes, é difícil encontrar indicadores para realizar
      uma classiﬁcação das necessidades nesse nível.
         Nos casos em que um programa não pode alocar benefícios de forma
      conﬁável com base na necessidade, ou porque um indicador de classiﬁ-
      cação quantiﬁcável e veriﬁcável não está disponível ou é muito caro e
      propenso a erro, outros critérios precisam ser usados para decidir como
      sequenciar a implantação do programa. Um critério coerente com as prá-
      ticas da boa governança é a equidade. Uma regra equitativa equivaleria a
      dar a todos os que são elegíveis uma chance igual de serem selecionados
      primeiro e, dessa maneira, alocar aleatoriamente uma vaga no programa
      aos beneﬁciários potenciais. Na prática, considerando-se os desaﬁos
      para classiﬁcar a necessidade dos beneﬁciários, a seleção aleatória dos
      benefícios de um programa é uma regra de seleção comumente usada,
      pois é justa e equitativa. Ela também produz um desenho de avaliação
      pelo método de seleção aleatória, o que pode proporcionar um bom nível
      de validade interna se bem implementado, e pode depender de pressu-
      postos mais fracos em comparação a outros métodos, conforme se dis-
      cute na próxima seção.


      Uma comparação dos métodos de avaliação
      de impacto

      Depois de avaliar qual o método de avaliação de impacto adequado para
      as regras operacionais especíﬁcas de determinado programa, a equipe de
      avaliação poderá escolher o método que tem o pressuposto mais fraco e
      os menores requisitos de dados. O quadro 11.2 fornece uma comparação
      entre os métodos de avaliação de impacto em termos dos requisitos de
      dados para implementá-los e os pressupostos subjacentes necessários
      para interpretar seus resultados como os impactos causais da interven-
      ção. Cada linha representa um método. As duas primeiras colunas des-
      crevem os métodos e as unidades que estão no grupo de comparação. As
      duas últimas colunas apresentam os pressupostos necessários para inter-
      pretar os resultados como causais e os dados necessários para implemen-
      tar os métodos.
214                                                       Avaliação de Impacto na Prática
      Quadro 11.2   Comparação de métodos de avaliação de impacto

                                                                Quem está no grupo de
      Metodologia               Descrição                       comparação?                  Hipótese-chave                 Dados necessários
      Seleção aleatória         As unidades elegíveis são       Unidades elegíveis que       A aleatorização produz         Dados do resultado de
                                selecionadas aleatoriamente     são selecionadas             efetivamente dois grupos       interesse pós-interven-
                                para um grupo de tratamento     aleatoriamente para o        que são estatisticamente       ção para os grupos de
                                ou de comparação. Cada          grupo de comparação.         idênticos em relação às        tratamento e de compa-
                                unidade elegível tem uma                                     características observáveis    ração; resultados da linha
                                chance igual de ser selecio-                                 e não observáveis (na linha    de base e outras
                                nada. Tende a gerar estimati-                                de base e até a linha ﬁnal).   características para os
                                vas de impacto internamente                                                                 grupos de tratamento e
                                válidas com as hipóteses                                                                    de comparação para
                                mais fracas.                                                                                veriﬁcar o balanceamento
                                                                                                                            das características
                                                                                                                            observáveis.
      Variáveis instrumentais   Um instrumento aleatorizado     Unidades “cumpridoras”       O instrumento afeta a          Dados do resultado de
      (especialmente, a         (como uma campanha de           cuja participação no         participação no programa,      interesse pós-interven-
      promoção aleatória)       promoção) induz mudanças        programa é afetada pelo      mas não afeta diretamente      ção para todas as
                                quanto à participação no        instrumento (participariam   os resultados (ou seja, o      unidades, dados sobre a
                                programa que está sendo         se fossem expostas ao        instrumento afeta os           participação efetiva no
                                avaliado. O método utiliza a    instrumento, mas não         resultados apenas ao           programa, dados sobre
                                mudança nos resultados          participariam se não         alterar a probabilidade de     os resultados da linha
                                induzida pela mudança nas       fossem expostas ao           participação no programa).     de base e outras
                                taxas de participação para      instrumento).                                               características.
                                estimar os impactos do
                                programa.
                                                                                                                                           (continua)
215
216




      Quadro 11.2   (continuação)

                                                                   Quem está no grupo de
      Metodologia                   Descrição                      comparação?               Hipótese-chave                Dados necessários
      Método de regressão           As unidades são ordenadas      Unidades próximas ao      Para identiﬁcar impactos      Dados do resultado de
      descontínua                   de acordo com critério         ponto de corte, mas que   não enviesados do             interesse pós-interven-
                                    especíﬁco, quantitativo e      são inelegíveis para      programa para a população     ção, índice de elegibilida-
                                    contínuo, como um índice de    receber o programa.       próxima ao ponto de corte,    de e ponto de corte,
                                    pobreza. Há um ponto de                                  as unidades que estão         dados sobre os resulta-
                                    corte que determina se uma                               imediatamente abaixo e        dos da linha de base e
                                    unidade é ou não elegível                                imediatamente acima do        outras características.
                                    para participar do programa.                             ponto de corte são
                                    Os resultados para os                                    estatisticamente idênticas.
                                    participantes de um lado do                              Para identiﬁcar impactos
                                    ponto de corte são compara-                              não enviesados do
                                    dos aos resultados para os                               programa para toda a
                                    não participantes do outro                               população, a população
                                    lado do ponto de corte.                                  próxima ao ponto de corte
                                                                                             precisa ser representativa
                                                                                             de toda a população.
                                                                                                                                           (continua)
      Quadro 11.2      (continuação)

                                                                               Quem está no grupo de
       Metodologia                     Descrição                               comparação?                  Hipótese-chave              Dados necessários
       Diferença em diferenças A mudança no resultado ao                       Unidades que não             Se o programa não           Dados de linha de base
                               longo do tempo em um                            participaram do programa     existisse, os resultados    (pré-intervenção) e
                               grupo de não participantes é                    (por qualquer motivo) e      para os grupos de           pós-intervenção sobre
                               usada para estimar qual teria                   para as quais foram          participantes e não         resultados e outras
                               sido a mudança nos                              coletados dados antes e      participantes teriam        características tanto para
                               resultados para um grupo de                     depois do programa.          avançado paralelamente      participantes quanto para
                               participantes na ausência de                                                 ao longo do tempo.          não participantes.
                               um programa.
       Pareamento                      Para cada participante do               Para cada participante, a    Não há nenhuma caracte-     Dados do resultado de
       (especialmente o                programa, o método busca a              unidade não participante     rística que afete a         interesse pós-interven-
       pareamento por escore           unidade “mais semelhante”               que se prevê ter a mesma     participação no programa    ção para participantes e
       de propensão)                   no grupo de não participan-             probabilidade de ter         além das características    não participantes, dados
                                       tes (o par mais próximo com             participado do programa      observáveis usadas para o   sobre a participação
                                       base nas características                com base nas característi-   pareamento.                 efetiva no programa,
                                       observáveis).                           cas observáveis.                                         características da linha
                                                                                                                                        de base para realizar o
                                                                                                                                        pareamento.

      Fonte: Adaptado do site Abdul Latif Jameel Poverty Action Lab (J-PAL).
217
Conceito-chave               Todos os métodos exigem hipóteses, ou seja, para sermos capazes de
O método de avaliação     interpretar os resultados como causais, precisamos acreditar que os fatos
de impacto preferido é    são verdadeiros, apesar de não sermos sempre capazes de veriﬁcá-los empi-
aquele que melhor se      ricamente. Em especial, para cada método, um pressuposto-chave é o de que
ajusta ao contexto
operacional, exige os
                          a média do grupo de comparação no qual se baseia o método é uma estima-
pressupostos mais         tiva válida do contrafactual. Em cada um dos capítulos sobre métodos da
fracos e requer o menor   parte 2, discutimos algumas considerações sobre como testar se um método
número de dados.          é válido em um contexto especíﬁco. Alguns métodos dependem de pressu-
                          postos mais fortes do que outros.
                             Se todos os requisitos forem iguais, o método que melhor se ajustar
                          ao contexto operacional e exigir os pressupostos mais fracos e a menor
                          quantidade de dados será o método preferido. Esses critérios explicam
                          por que os pesquisadores consideram a seleção aleatória como o padrão-
                          ouro e por que ela é frequentemente o método que preferem. A seleção
                          aleatória se enquadra em muitos contextos operacionais e tende a gerar
                          estimativas de impacto internamente válidas com hipóteses mais fracas.
                          Quando corretamente implementada, a seleção aleatória gera compara-
                          bilidade entre os grupos de tratamento e de comparação para caracterís-
                          ticas observáveis e não observáveis. Além disso, a seleção aleatória tende
                          a exigir amostras menores do que as amostras necessárias para imple-
                          mentar métodos quase-experimentais (ver a discussão sobre esse tema
                          no capítulo 15). Como a seleção aleatória é bastante intuitiva, o método
                          também facilita a comunicação dos resultados aos formuladores de polí-
                          ticas públicas.
                             Os métodos quase-experimentais podem ser mais adequados em
                          alguns contextos operacionais, mas requerem mais hipóteses para que o
                          grupo de comparação forneça uma estimativa válida do contrafactual.
                          Por exemplo, o método diferença em diferenças baseia-se na hipótese de
                          que as mudanças nos resultados do grupo de comparação fornecem uma
                          estimativa válida para as mudanças nos resultados do contrafactual do
                          grupo de tratamento. Nem sempre é possível testar a suposição de que os
                          resultados dos grupos de tratamento e de comparação avançam paralela-
                          mente ao longo do tempo sem que existam dados para vários pontos no
                          tempo antes da intervenção. A regressão descontínua baseia-se na com-
                          parabilidade das unidades logo abaixo e imediatamente acima do ponto
                          de corte de elegibilidade. Entre todos os métodos, o pareamento é aquele
                          que apresenta os pressupostos mais fortes, pois, essencialmente, ele parte
                          do princípio que não existe diferença em quaisquer características não
                          observáveis entre os participantes e os não participantes do programa.
                          Em geral, quanto mais fortes forem as hipóteses, maior o risco de que elas
                          não se conﬁrmem na prática.


218                                                                        Avaliação de Impacto na Prática
Um plano B para a avaliação

Às vezes as coisas não saem exatamente conforme o planejado, mesmo com
o melhor desenho de avaliação de impacto e as melhores intenções. Em um
programa de capacitação proﬁssional, por exemplo, a agência de implemen-
tação pretendia selecionar aleatoriamente os participantes a partir do grupo
de candidatos inscritos. Esse método seria usado devido à expectativa de
excesso de demanda. Como o desemprego entre a população-alvo era ele-
vado, previa-se que o conjunto de candidatos interessados no programa de
capacitação proﬁssional seria muito maior do que o número de vagas dispo-
níveis. Infelizmente, a propaganda do programa não foi tão eﬁcaz quanto o
esperado e, no ﬁnal das contas, o número de candidatos ﬁcou abaixo do
número de vagas de treinamento disponíveis. Sem a alta demanda de inscri-
ções, que permitiria a formação de um grupo de comparação, e sem ter um
plano B, a tentativa inicial de avaliar o programa teve de ser abandonada
completamente. Esse tipo de situação é comum, assim como mudanças
imprevistas no contexto operacional ou político de um programa. Portanto,
é útil ter um plano B para o caso de a primeira opção de metodologia não
funcionar.
   Planejar a utilização de vários métodos de avaliação de impacto também
é uma boa prática do ponto de vista metodológico. Se houver dúvidas sobre
se um dos métodos escolhidos pode ter algum tipo de viés, deve-se veriﬁcar
os resultados em relação a outro método. Quando um programa é imple-
mentado por meio de um processo aleatorizado, o grupo de comparação
será incorporado ao programa em algum momento. Isso limita o tempo
durante o qual o grupo de comparação ﬁcará disponível para a avaliação. Se,
no entanto, além do desenho de seleção aleatória, um desenho de promoção
aleatória também for implementado, um grupo de comparação ﬁcará dispo-
nível durante toda a duração do programa. Antes que o grupo da última fase
de implementação seja incorporado, existirão dois grupos de comparação
alternativos (o grupo da seleção aleatória e o grupo da promoção aleatória),
embora, no longo prazo, apenas o grupo de comparação da promoção alea-
tória venha a permanecer.



Encontrar a menor unidade viável de intervenção

Em geral, as regras operacionais também determinam o nível de alocação de
uma intervenção, que tem a ver com a maneira como o programa é imple-
mentado. Por exemplo, se um programa relacionado à área de saúde fosse
implementado no nível distrital, todos os povoados do distrito receberiam o


A escolha de um método de avaliação de impacto                                 219
      programa (como um único grupo) ou não o receberiam. Alguns programas
      podem ser implementados de forma eﬁciente no nível individual ou domici-
      liar, enquanto outros precisam ser implementados em uma comunidade ou
      em uma divisão administrativa maior. Mesmo que um programa possa ser
      alocado e implementado no nível individual, a equipe de pesquisa de avalia-
      ção pode preferir um nível mais elevado de agregação a ﬁm de mitigar os
      eventuais transbordamentos, ou seja, os efeitos indiretos das unidades par-
      ticipantes naquelas não participantes (ver discussão no capítulo 9).
          Implementar uma intervenção em um nível mais elevado pode ser pro-
      blemático para a avaliação por duas razões principais. Em primeiro lugar, a
      avaliação de intervenções alocadas e implementadas em níveis mais eleva-
      dos, como uma comunidade ou um distrito administrativo, exige amostras
      maiores e será mais dispendiosa, em comparação à avaliação de interven-
      ções de nível inferior, como no nível individual ou domiciliar. O nível de
      intervenção é importante porque deﬁne a unidade de alocação aos grupos
      de tratamento e de comparação, o que tem implicações para o tamanho da
      amostra de avaliação e seu custo. Para as intervenções implementadas em
      níveis mais elevados, uma amostra maior é necessária para possibilitar a
      detecção do verdadeiro impacto do programa. A lógica por trás disso será
      discutida no capítulo 15, que analisa como determinar o tamanho da amos-
      tra necessário para uma avaliação e discute como a implementação em
      níveis mais elevados cria conglomerados (grupos de unidades) que aumen-
      tam o tamanho da amostra exigida.
          Em segundo lugar, em níveis mais elevados de intervenção, é mais difícil
      encontrar um número suﬁciente de unidades para incluir na avaliação. No
      entanto, a seleção aleatória só gera grupos de comparação e de tratamento
      comparáveis se for realizada em um número suﬁciente de unidades. Por
      exemplo, se o nível de agregação corresponder a uma província e o país tiver
      apenas seis províncias, será pouco provável que a aleatorização alcance o
      balanceamento entre os grupos de tratamento e de comparação. Nesse caso,
      digamos que o desenho de avaliação pretenda alocar três estados para o
      grupo de tratamento e três para o grupo de comparação. É muito improvável
      que os estados do grupo de tratamento sejam semelhantes aos do grupo de
      comparação, mesmo que o número de famílias de cada estado seja grande.
      Isso ocorre porque a chave para atingir o balanceamento entre os grupos
      de tratamento e de comparação é o número de unidades alocadas aos grupos
      de tratamento e de comparação, e não o número de indivíduos ou famílias da
      amostra. Portanto, realizar a seleção aleatória em níveis elevados de imple-
      mentação cria riscos para a validade interna caso o número de unidades não
      seja suﬁciente.
          Para evitar os riscos associados à implementação de uma intervenção em
      um nível geográﬁco ou administrativo de larga escala, a equipe de avaliação
220                                                     Avaliação de Impacto na Prática
e os gestores do programa precisam trabalhar juntos para encontrar a menor
unidade de intervenção operacionalmente viável. Vários fatores determi-
nam a menor unidade viável de intervenção:

• Economias de escala e complexidade administrativa no momento da
  implementação do programa

• Capacidade administrativa de alocar benefícios no nível individual ou
  domiciliar

• Preocupações potenciais sobre possíveis tensões
• Preocupações potenciais sobre transbordamentos e contaminação do
  grupo de comparação.
A menor unidade viável de intervenção geralmente depende de economias
de escala e da complexidade administrativa da implementação do programa.
Por exemplo, um programa de seguro saúde pode exigir a abertura de um
escritório local para que os beneﬁciários apresentem seus pedidos e paguem
os fornecedores do serviço. Os custos ﬁxos do escritório devem ser divididos
entre um grande número de beneﬁciários. Por isso, pode ser ineﬁcaz imple-
mentar o programa no nível individual e mais eﬁciente fazê-lo no nível da
comunidade. No entanto, em situações com tipos de intervenção novos e
não testados, pode valer a pena absorver as ineﬁciências de curto prazo e
implementar o programa nos distritos administrativos de modo a garantir a
credibilidade da avaliação e reduzir os custos da coleta de dados.
   Alguns gestores de programas argumentam que programas administra-
dos localmente, como iniciativas de seguro de saúde, não têm os recursos
administrativos para implementar programas no nível individual. Segundo
eles, seria um fardo conﬁgurar sistemas para oferecer diferentes benefícios
aos diferentes beneﬁciários dentro das unidades administrativas locais, e
pode ser desaﬁador garantir que a seleção para os grupos de tratamento e de
comparação seja implementada conforme o planejado. Esta última questão
é uma séria ameaça às avaliações de impacto, uma vez que os gestores de
programas podem não ser capazes de implementar uma iniciativa de
maneira coerente com seu desenho de avaliação. Nesse caso, pode ser neces-
sária uma implementação em um nível mais elevado ou uma simpliﬁcação
do desenho da avaliação de impacto.
   Às vezes, os governos preferem implementar programas em níveis mais
agregados, como uma comunidade, pois se preocupam com potenciais ten-
sões quando os membros do grupo de comparação observam os vizinhos do
grupo de tratamento obtendo benefícios. Muitos programas têm sido imple-
mentados com êxito no nível individual ou domiciliar em comunidades sem
gerar tensões, em especial quando os benefícios foram alocados de forma
A escolha de um método de avaliação de impacto                                 221
                    equitativa, transparente e passível de responsabilização. Ainda assim, o
                    risco de surgirem tensões deve ser considerado no contexto de uma avalia-
                    ção de impacto especíﬁca.
                       Por ﬁm, quando um programa é alocado e implementado em um nível
                    muito baixo, como um domicílio ou um indivíduo, a contaminação do grupo
                    de comparação pode comprometer a validade interna da avaliação. Por
                    exemplo, digamos que se esteja avaliando o efeito de fornecer água enca-
                    nada sobre a saúde das famílias. Se forem instaladas torneiras em uma casa,
                    mas não na casa vizinha, a casa que recebe o tratamento poderá comparti-
                    lhar a água da torneira com um vizinho do grupo de comparação. Dessa
                    maneira, a família vizinha não seria uma comparação verdadeira, uma vez
                    que estaria se beneﬁciando de um efeito de transbordamento.
                       O boxe 11.1 ilustra as implicações da escolha do nível de intervenção no
                    contexto dos programas de transferência de renda. Portanto, na prática, os
                    gestores de programas precisam escolher a menor unidade de intervenção
                    possível que (1) permita um número suﬁcientemente grande de unidades
                    para a avaliação, (2) mitigue os riscos à validade interna e (3) se ajuste ao
                    contexto operacional.



      Boxe 11.1: Programas de transferência de renda e o nível mínimo
      de intervenção
      A maioria das transferências condicionais de         domicílios elegíveis das comunidades de
      renda utiliza as comunidades como unidade            comparação receberam a mesma oportuni-
      ou nível de intervenção por motivos admi-            dade 18 meses depois, durante o inverno de
      nistrativos e relacionados ao desenho do             1999. Entretanto, a equipe de avaliação
      programa, bem como devido à preocupação              encontrou uma correlação substancial entre
      com os transbordamentos e as potenciais              os resultados das famílias dentro das comuni-
      tensões na comunidade caso o tratamento              dades. Portanto, para gerar um poder estatís-
      seja implementado em um nível inferior.              tico suﬁciente para a avaliação, eles
          Por exemplo, a avaliação do programa de          precisavam ter mais famílias na amostra do
      transferência condicional de renda Progresa/         que seria necessário se tivessem sido capa-
      Oportunidades, do México, contou com a               zes de alocar famílias individualmente
      implantação da iniciativa em comunidades de          aos grupos de tratamento e de comparação.
      áreas rurais, que foram alocadas aleatoria-          A impossibilidade de implementar o programa
      mente aos grupos de tratamento e de compa-           no nível familiar gerou, portanto, maiores exi-
      ração. Todas as famílias elegíveis das               gências em relação ao tamanho da amostra
      comunidades de tratamento receberam a                e aumentou o custo da avaliação. Restrições
      oportunidade de se inscrever no programa             semelhantes se aplicam a muitos programas
      durante a primavera de 1998, e todos os              da área de desenvolvimento humano.

      Fontes: Behrman e Hoddinott 2001; Skouﬁas e McClafferty 2001.



222                                                                              Avaliação de Impacto na Prática
Recursos adicionais

• Para acessar os materiais complementares a este livro e hiperlinks com recursos
  adicionais, ver o site Avaliação de Impacto na Prática (http://www.worldbank.
  org/ieinpractice).



Referências

Behrman, Jere R. e John Hoddinott. 2001. “An Evaluation of the Impact of
   PROGRESA on Preschool Child Height.” Discussion Paper No. 104, Food
   Consumption and Nutrition Division, International Food Policy Research
   Institute, Washington, DC.
Grosh, M. E., C. Del Ninno, E. Tesliuc e A. Ouerghi. 2008. For Protection and
   Promotion: The Design and Implementation of Effective Safety Nets. Washington,
   DC: Banco Mundial.
Skouﬁas, Emmanuel e Bonnie McClafferty. 2001. “Is Progresa Working? Summary
   of the Results of an Evaluation by IFPRI.” International Food Policy Research
   Institute, Washington, DC.




A escolha de um método de avaliação de impacto                                      223
CAPÍTULO 12




Gerenciamento da avaliação
de impacto

Gerenciar a equipe, o tempo e o orçamento de
uma avaliação

A avaliação é uma parceria entre a equipe de formulação e gestão de políti-
cas públicas e a equipe de pesquisadores. Um grupo depende do outro para
o sucesso da avaliação. Juntos, eles compõem a equipe de avaliação. Essa par-
ceria baseia-se no entendimento dos respectivos papéis e responsabilidades
das duas equipes, no compromisso conjunto com a avaliação e no reconhe-
cimento do que motiva o trabalho das pessoas envolvidas na avaliação.
A parceria efetiva é fundamental para assegurar a credibilidade técnica e o
impacto da avaliação sobre as políticas públicas.
   Este capítulo descreve os elementos de uma parceria efetiva, incluindo as
funções e responsabilidades de cada equipe, além de explorar como essa
parceria funciona em diferentes etapas do processo de avaliação. Analisa
modelos alternativos de colaboração e também aborda questões práticas
relacionadas ao cronograma e ao orçamento.




                                                                                225
      Funções e responsabilidades das equipes de
      pesquisa e de formulação e gestão

      A equipe de pesquisa: função da pesquisa e função dos dados

      A equipe de pesquisa é responsável pela qualidade técnica e integridade
      cientíﬁca do trabalho de avaliação. Suas responsabilidades abrangem o pro-
      jeto de pesquisa, a qualidade dos dados e a análise. As equipes de pesquisa,
      geralmente, incluem as seguintes pessoas:
      • O pesquisador principal trabalha com os formuladores de políticas públi-
        cas e gestores de programas para: estabelecer os objetivos principais, as
        questões de política, os indicadores e as informações necessárias para a
        realização da avaliação (muitas vezes, usando a teoria da mudança com
        base em uma cadeia de resultados); determinar a metodologia de avalia-
        ção de impacto; desenvolver o plano de avaliação; identiﬁcar a equipe
        de  pesquisa; obter as aprovações institucionais e registrar a avaliação
        de impacto; preparar um plano de avaliação, incluindo um plano de pré-
        análise mais detalhado; liderar a análise dos resultados; e engajar-se com
        a equipe de formuladores e gestores para disseminar os resultados.
        O pesquisador principal precisa poder trabalhar de forma produtiva com
        toda a equipe de avaliação, incluindo a instituição encarregada da coleta
        de dados, outros membros da equipe de pesquisa e os formuladores e ges-
        tores dos programas que utilizam os dados e os resultados da avaliação.
        Vários pesquisadores podem trabalhar com o pesquisador principal, como
        pesquisadores associados, para liderar ou dar suporte ao trabalho analí-
        tico relacionado a elementos da avaliação, como amostragem, avaliações
        qualitativas ou análise de custo-efetividade.
      • O gerente de avaliação ou coordenador de campo trabalha diretamente
        com o pesquisador principal na operacionalização diária da avaliação,
        o que inclui trabalhar com a equipe de gestores e formuladores de políti-
        cas e programas e supervisionar o trabalho de campo quando os dados
        primários estão sendo coletados. Essa pessoa é especialmente impor-
        tante nos casos em que o pesquisador principal não está baseado no local
        do programa ou quando está sendo conduzida uma avaliação prospectiva
        que necessita ser coordenada proximamente à implementação do pro-
        grama, ou quando dados primários estão sendo coletados.
      • O amostrista orienta o trabalho de elaboração dos cálculos de poder esta-
        tístico e de amostragem. Para o tipo de avaliação de impacto quantitativa
        coberto neste livro, o amostrista deve ser capaz de realizar cálculos de
        poder para determinar o tamanho mais adequado das amostras para os

226                                                     Avaliação de Impacto na Prática
   indicadores estabelecidos, selecionar a amostra, analisar os resultados da
   amostra real versus os da amostra planejada, e fornecer aconselhamento
   sobre as implicações para a análise de acordo com o plano de pré-análise.
   O pesquisador principal geralmente desempenha essas funções direta-
   mente ou em conjunto com o amostrista.
• A equipe de coleta de dados é responsável pelo desenvolvimento de instru-
  mentos de coleta de dados e pelos manuais e dicionários das variáveis
  que os acompanham, pela coleta, digitalização e limpeza dos dados,
  e  pela entrega de uma base de dados limpa e documentada, quando a
  coleta de dados primários for necessária. O capítulo 16 discute fontes de
  dados e vários aspectos da coleta de dados.


A equipe de formulação e gestão: função de políticas públicas e
função de gerenciamento de programa

A equipe de gestão é composta por formuladores de políticas públicas e
gestores de programas:

• Os formuladores de políticas públicas deﬁnem a agenda de pesquisa,
  identiﬁcam a questão central do estudo a ser abordada, asseguram que
  os recursos adequados para o trabalho estejam disponíveis e aplicam os
  resultados à política. No início da avaliação, precisam articular clara-
  mente os objetivos do programa e da avaliação, bem como a teoria
  da mudança e os principais indicadores de interesse, incluindo o tama-
  nho mínimo esperado do efeito da política sobre os indicadores de resul-
  tado de interesse, conforme demonstrado no capítulo 2. A equipe de
  formulação e gestão tem o conhecimento dos diálogos com as principais
  partes interessadas na política para assegurar que a avaliação seja plane-
  jada para ser o mais relevante possível para a política pública em questão
  e para garantir que as partes interessadas e os tomadores de decisão se
  comprometam com os principais pontos do processo de avaliação.
                                                                                Conceito-chave
• Os gestores de programas trabalham lado a lado com a equipe de pesquisa
                                                                                Uma parceria efetiva
  para alinhar o desenho da avaliação com a implementação do programa.          entre a equipe de
  Essa tarefa inclui veriﬁcar se o projeto de avaliação é baseado em infor-     formuladores e
  mações corretas sobre o funcionamento do programa e comprometer-se            gestores e a equipe de
  a implementar o programa conforme o planejado, quando se trata de ava-        pesquisa é fundamen-
                                                                                tal para garantir a
  liações prospectivas. Em geral, os gestores de programas também geren-
                                                                                credibilidade técnica e
  ciam o orçamento da avaliação e, frequentemente, estão envolvidos em          o impacto da avaliação
  ajudar a equipe de pesquisa a supervisionar o trabalho de campo para a        sobre as políticas
  coleta de dados.                                                              públicas.


Gerenciamento da avaliação de impacto                                                              227
      Quem se importa com a avaliação e por quê?

      Do ponto de vista da equipe de formulação e gestão das políticas públicas,
      o principal interesse geralmente envolve a efetividade do programa ou da
      reforma e a que custo os resultados foram alcançados. As evidências trazi-
      das pela avaliação permitem que essa equipe tome decisões sobre os rumos
      dos programas e políticas que foram avaliados. Os gestores locais dos pro-
      gramas estão interessados em garantir que seus esforços sejam valorizados
      e que obtenham crédito e visibilidade pelo seu trabalho, que normalmente
      ultrapassa as responsabilidades cotidianas de gestão dos programas. Uma
      boa maneira de valorizar esse esforço é assegurar que as equipes locais este-
      jam ativamente envolvidas no amplo leque de atividades de avaliação. Isso
      pode ser feito por meio de publicações e oﬁcinas conjuntas e da garantia à
      formação e à capacitação dos gestores locais. Nesse contexto, os pesquisado-
      res locais estão bem posicionados para contribuir substancialmente e podem
      servir como um importante elo entre as equipes de pesquisa e de formula-
      ção e gestão das políticas públicas.
         As avaliações têm valor de um bem público quando trazem conhecimento
      sobre uma questão de interesse que vai além dos interesses imediatos da
      equipe de formulação e gestão. Com frequência, esse aspecto tem alta rele-
      vância para os pesquisadores que investigam questões relativas à teoria da
      mudança. Por exemplo, os resultados relativos à forma como as pessoas se
      comportam em determinadas circunstâncias ou como os canais de trans-
      missão funcionam para possibilitar que os impactos sejam alcançados
      podem permitir extrair lições mais gerais e aplicá-las em diferentes contex-
      tos. As avaliações de impacto vêm contribuindo rapidamente para a amplia-
      ção da base de evidências global sobre o desempenho de uma série de
      reformas de programas e políticas, e constituem repositórios de conheci-
      mento altamente relevantes para o planejamento de programas e políticas
      públicas. Os doadores e os institutos voltados para a política pública estão,
      muitas vezes, interessados nesse valor de bem público mais amplo e vêm
      fornecendo, cada vez mais, apoio ﬁnanceiro para realizar avaliações que
      contribuam para essa base de evidências.
         Os pesquisadores estarão também muito comprometidos com o uso de
      uma metodologia de avaliação justiﬁcável e robusta, e procurarão garantir
      seu engajamento com o desenho da avaliação de impacto, com a análise dos
      dados e com a geração de pesquisas originais que atendam os padrões cien-
      tíﬁcos para publicação em periódicos acadêmicos. As equipes de pesquisa
      interdisciplinares enfrentam o desaﬁo adicional de assegurar que haja um
      entendimento comum entre os membros da equipe. Disciplinas diferentes,
      como medicina e economia, por exemplo, podem adotar métodos diver-
      sos para realizar os experimentos, envolver as unidades de observação na

228                                                      Avaliação de Impacto na Prática
pesquisa e reportar ou disseminar seus resultados. Essa diferença de expec-
tativa deve ser esclarecida e compreendida desde o início de uma avaliação.
Independentemente das diferenças que possam existir nos protocolos, as
equipes de pesquisa devem seguir as normas cientíﬁcas e os princípios éti-
cos geralmente aceitos, que serão discutidos no capítulo 13.
   Os interesses diversos da equipe de formulação e gestão e da equipe
de  pesquisa podem criar tensões que precisam ser compreendidas e
gerenciadas. Os pesquisadores tendem a valorizar mais o rigor técnico do
projeto de avaliação do que a viabilidade operacional de funcionamento do
programa. As duas equipes também podem estar interessadas em questões
de avaliação ligeiramente diferentes. Por ﬁm, provavelmente nenhuma das
equipes se mostrará interessada em publicar resultados inconclusivos ou
negativos, pois isso pode reﬂetir de maneira negativa sobre o desempenho
do programa para a equipe de formulação e gestão e pode ser de menor inte-
resse acadêmico por parte da equipe de pesquisa. A equipe de formulação e
gestão também poderá se mostrar interessada em ser seletiva em relação aos
resultados que serão divulgados, enquanto a equipe de pesquisa valorizará
altamente a capacidade de publicar todos os resultados obtidos.
   Para a equipe de avaliação como um todo, fomentar uma cultura de trans-
parência e valorização de evidências é fundamental. Os formuladores de
políticas públicas e os gestores de programas devem ser recompensados por
seu comprometimento com a formulação de políticas baseadas em evidên-
cias. Mesmo quando os resultados não são favoráveis, esses atores devem
receber o crédito por ter defendido a transparência. Da mesma maneira,
a equipe de pesquisa deve ser estimulada a reportar e publicar os resultados,
independentemente dos resultados da avaliação.

A parceria entre a equipe de pesquisa e de formulação e gestão
durante a avaliação

A qualidade técnica e o impacto da avaliação sobre a política ou programa
dependem de uma parceria ativa entre a equipe de pesquisa e a equipe de
formulação e gestão em cada etapa da avaliação: desenho, implementação,
análise e disseminação. O boxe 12.1 resume alguns dos princípios orientado-
res dessa parceria.
   Etapa de desenho. Em primeiro lugar, os formuladores de políticas públi-
cas precisam estruturar e transmitir claramente as principais perguntas da
pesquisa, a teoria da mudança que as acompanham e os principais indicado-
res de interesse, além de garantir que a equipe de pesquisa compreenda e
respeite esses elementos. Para assegurar a relevância da política, a equipe
de  formuladores e gestores também precisa assumir a liderança da
estruturação de uma estratégia de engajamento que garanta que as partes

Gerenciamento da avaliação de impacto                                           229
      Boxe 12.1: Princípios orientadores para o engajamento entre as
      equipes de formulação e gestão e de pesquisa
      • Engajar-se desde o início para maximizar as opções de desenho da avaliação e garantir
        uma parceria efetiva entre as equipes de formulação e gestão e de pesquisa.
      • Apresentar um plano de avaliação de impacto claro desde o início.
      • Compreender as funções, responsabilidades e motivações das várias partes interessadas
        e permitir que elas participem da avaliação.
      • Permanecer engajado durante toda a avaliação para assegurar o alinhamento adequado
        entre a avaliação e a intervenção a ser avaliada.
      • Reconhecer e gerenciar os riscos e benefícios, e ser claro sobre o alcance que as
        avaliações de impacto podem ter ou não.
      • Valorizar a transparência, assegurar a objetividade e estar preparado para dar suporte à
        disseminação dos resultados, sejam eles bons ou ruins.




                  interessadas sejam consultadas e informadas sobre o desenho, a implemen-
                  tação e os resultados da avaliação. Por sua vez, os pesquisadores precisam
                  esclarecer a equipe de formulação e gestão quais as condições necessárias
                  para a realização de boas avaliações de impacto. No caso de avaliações pros-
                  pectivas, esses esclarecimentos envolvem, em primeiro lugar, veriﬁcar com
                  os formuladores e gestores que as operações do programa estejam bem esta-
                  belecidas de forma a garantir que a iniciativa avaliada não mude muito
                  durante a avaliação — e, portanto, não forneça resultados irrelevantes para
                  os propósitos da política. O momento certo para a realização de uma avalia-
                  ção de impacto é, muitas vezes, aquele em que o programa já foi suﬁciente-
                  mente testado em campo e está funcionando da maneira pretendida — o que
                  pode ser conﬁrmado por meio de uma boa avaliação de processo —, mas em
                  que ainda não foi expandido, deixando, assim, mais opções para construir
                  contrafactuais apropriados.
                      Em segundo lugar, a equipe de pesquisa precisa entender claramente as
                  regras operacionais do programa, ou seja, os recursos disponíveis, os crité-
                  rios de elegibilidade para a seleção dos beneﬁciários e a implementação do
                  programa ao longo do tempo. A equipe de formulação e gestão deve transmi-
                  tir claramente essas três regras operacionais para a equipe de pesquisa, pois
                  elas são fundamentais para orientar as opções metodológicas disponíveis
                  para a avaliação, conforme é detalhado no capítulo 11.
                      Em terceiro lugar, a equipe de pesquisa deve preparar um plano de ava-
                  liação de impacto que contenha aspectos operacionais e de pesquisa e com-
                  partilhá-lo com os formuladores de políticas públicas para garantir que
                  a avaliação se concentre nas questões de interesse, que os elementos para a
230                                                                      Avaliação de Impacto na Prática
colaboração com a equipe de gestão estejam bem deﬁnidos e que as questões
de pesquisa assim como a natureza e o cronograma dos resultados sejam
claros e diretos (ver o boxe 12.2). Também é útil considerar os riscos e planos
de contingência para mitigar eventuais problemas. Por ﬁm, a equipe de pes-
quisa deve obter a aprovação de um conselho de revisão de práticas éticas
de pesquisa e, se houver um órgão responsável, registrar a avaliação nessa
instituição (ver o capítulo 13).
   Esse diálogo durante a fase de desenho deve resultar em um compro-
misso claro e compartilhado com o plano de avaliação, com expectativas
realistas e responsabilidades mutuamente acordadas entre os membros
das equipes de formulação e gestão e de pesquisa. Esse diálogo




     Boxe 12.2: Roteiro geral de um plano de avaliação de impacto
      1. Introdução
      2. Descrição da intervenção
      3. Objetivos da avaliação
         3.1 Hipóteses, teoria da mudança, cadeia de resultados
         3.2 Questões de políticas públicas
         3.3 Principais indicadores de resultados
         3.4 Riscos
      4. Desenho da avaliação
      5. Amostragem e dados
         5.1 Estratégia de amostragem
         5.2 Cálculos de poder estatístico
      6. Visão geral do plano de pré-análise
      7. Plano de coleta de dados
         7.1 Pesquisa de linha de base
         7.2 Pesquisa(s) de acompanhamento
      8. Produtos a ser entregues
         8.1 Relatório da linha de base
         8.2 Relatório de avaliação de impacto
         8.3 Sumário executivo
         8.4 Base de dados, desenho e protocolos de análise totalmente documentados
      9. Plano de disseminação dos resultados
     10. Protocolos éticos sobre a proteção dos seres humanos
         10.1 Garantir o consentimento informado sobre a pesquisa
         10.2 Obter aprovação de um conselho de revisão de ética da pesquisa
     11. Cronograma
     12. Orçamento e ﬁnanciamento
     13. Composição e funções da equipe de avaliação


Gerenciamento da avaliação de impacto                                                 231
      proporciona uma oportunidade para que a equipe de pesquisa esclareça
      tanto o valor de uma avaliação de impacto — ou seja, o estabelecimento
      da causalidade e a  generalização dos resultados — quanto suas limita-
      ções, tais como a ausência de explicações sobre por que determina-
      dos resultados são alcançados, a  relação entre o tamanho da amostra e os
      cálculos de poder estatístico ou o tempo investido na geração de certos
      resultados. Esse diálogo também oferece a oportunidade para que a
      equipe de formulação e gestão especiﬁque as  questões prioritárias e
      assegure que a avaliação esteja bem alinhada com as questões de inte-
      resse para a política pública.
          Etapa de implementação. As equipes de formulação e gestão e de pesquisa
      precisam trabalhar em conjunto para garantir que a implementação avance
      sem sobressaltos e para resolver os problemas que possam surgir. Por exem-
      plo, em um experimento aleatório, as equipes precisam concordar sobre a
      melhor maneira de aplicar a aleatorização na prática. Além disso, durante
      essa etapa, a coordenação das atividades é especialmente importante
      para garantir a ﬁdelidade entre o desenho da avaliação e a implementação
      do programa.
          Etapa de análise. A análise realizada deve corresponder ao que foi
      deﬁnido no plano de avaliação e no plano de pré-análise mais detalhado.
      A equipe de pesquisa deve fornecer e discutir os resultados com a equipe
      de formulação e gestão em momentos-chave da avaliação. Desde a linha
      de base, deve-se incluir uma análise da qualidade dos dados coletados
      e de aderência ao plano de avaliação. Isso ajudará a garantir que o plano
      de avaliação previsto na fase de desenho siga sendo viável, além de per-
      mitir que sejam feitos os ajustes necessários. Essa é também uma exce-
      lente oportunidade para analisar quais os produtos que serão entregues
      em que fase da análise e para veriﬁcar se a geração dos resultados está no
      caminho certo com relação às necessidades de tomada de decisão da
      equipe de formulação e gestão. Após a equipe de avaliação concluir
      a  análise de impacto, os resultados iniciais devem ser apresentados e
      compartilhados com os formuladores e gestores para garantir que todas
      as perguntas tenham sido respondidas e para preparar a fase de dissemi-
      nação dos resultados.
          Etapa de disseminação. Nessa etapa, a equipe de formulação e gestão pre-
      cisa assegurar que os resultados da avaliação alcancem as pessoas certas no
      momento certo em um formato apropriado. Essa é também a etapa correta
      para garantir que todos os dados da avaliação estejam devidamente docu-
      mentados. Muitas vezes, as equipes utilizarão várias estratégias e veículos
      para disseminar os resultados, tendo em mente os diferentes públicos-alvo,
      conforme discutido no capítulo 14.


232                                                     Avaliação de Impacto na Prática
Estabelecer a colaboração

Como construir uma parceria

A avaliação representa o equilíbrio entre a competência técnica e indepen-
dência da equipe de pesquisa e a relevância da política, orientação estraté-
gica e coordenação operacional da equipe de formuladores e gestores da
política pública. Vários modelos podem ser utilizados para estabelecer essa
parceria entre as equipes de pesquisa e de formulação e gestão.
   A escolha da modalidade dependerá do contexto e dos objetivos da ava-
liação de impacto, bem como da consideração de uma série de riscos. Por um
lado, uma equipe de pesquisa totalmente independente e que colabore
pouco com a equipe gestora do programa pode fornecer uma avaliação de
impacto desconectada das questões de interesse para o programa em avalia-
ção ou que apresente uma metodologia limitada devido a interações insuﬁ-
cientes com os formuladores e gestores do programa. Por outro lado, uma
equipe de pesquisa totalmente integrada com a equipe de formulação e ges-
tão pode criar riscos de conﬂito de interesse ou levar à censura de alguns
resultados caso não sejam aplicados os princípios cientíﬁcos (ver o capítulo
13). Além disso, as avaliações podem, muitas vezes, ter múltiplos objetivos,
incluindo a criação de capacidade de avaliação dentro das agências governa-
mentais e a sensibilização dos operadores de programas para a realidade de
como seus programas são implementados em campo. Esses objetivos mais
amplos também podem determinar, em parte, o modelo a ser escolhido.
   Em geral, o que mais importa para a qualidade da avaliação de impacto é
se o modelo de parceria ajudará a gerar estimativas não enviesadas dos
impactos do programa. Desde que os princípios cientíﬁcos e da ética de pes-
quisa sejam respeitados, a ausência de viés e a objetividade tendem a ser
mais importantes para a qualidade da avaliação de impacto do que a inde-
pendência entre as equipes de pesquisa e de formulação e gestão. Na prática,
a estreita colaboração entre essas duas equipes é normalmente necessária
para garantir que se implemente uma estratégia de avaliação de impacto de
alta qualidade.

O modelo de terceirização
Para os gestores de programas tipicamente muito ocupados com o gerencia-
mento da complexa operação de um programa, contratar uma equipe
externa para desenhar e gerenciar a avaliação de impacto pode ser uma
solução atraente. Os modelos de terceirização podem assumir diferentes
formas. Às vezes, os gestores de programas terceirizam o desenho da avalia-
ção de impacto e a implementação das várias pesquisas de campo (em geral,


Gerenciamento da avaliação de impacto                                          233
      as pesquisas de linha de base e de acompanhamento) a uma única institui-
      ção por meio de um contrato abrangente. Em outros casos, os gestores pri-
      meiro terceirizam o desenho da avaliação e, posteriormente, contratam
      outras instituições para as fases de coleta e análise de dados.
          A terceirização cria um grau de separação entre o desenho e a implemen-
      tação da avaliação de impacto que pode tornar a avaliação de impacto mais
      independente. No entanto, terceirizá-la totalmente pode gerar riscos subs-
      tanciais. O estabelecimento desse tipo de relação contratual pode limitar a
      colaboração entre as equipes de implementação do programa e aquelas con-
      tratadas para realizar a avaliação de impacto.
          Em alguns casos, a equipe contratada recebe um conjunto de parâmetros
      previamente deﬁnidos, e tem pouca margem para discutir o desenho, a
      implementação ou o escopo da avaliação. Em outros casos, as regras do pro-
      grama e os modelos de implementação para elaborar uma boa avaliação de
      impacto podem não estar deﬁnidos. Nesses casos, a equipe contratada para
      realizar a avaliação de impacto terá capacidade limitada para garantir que
      esses elementos sejam deﬁnidos.
          Em outros casos ainda, o programa já pode ter sido concebido ou sua
      implementação já pode ter começado, o que poderá restringir consideravel-
      mente as opções metodológicas para a avaliação. Frequentemente, solicita-
      se à equipe contratada que se adapte às mudanças na implementação do
      programa ex-post, sem que tenha sido informada ou incluída no processo de
      implementação. Essas situações podem gerar desenhos de avaliação de qua-
      lidade inferior, já que a equipe contratada pode ter motivações diferentes
      daquelas dos pesquisadores e dos formuladores que lideraram o projeto de
      avaliação.
          Por ﬁm, a seleção e o monitoramento da equipe contratada podem ser um
      desaﬁo para os gestores do programa. As regras de licitação do contrato de
      prestação de serviços devem ser cuidadosamente consideradas para garan-
      tir que a terceirização seja eﬁciente e não apresente conﬂitos de interesse.
      Certas regras podem limitar a possibilidade de que a equipe contratada para
      desenhar a avaliação de impacto possa, posteriormente, apresentar propos-
      tas para a implementação da avaliação.
          Para mitigar esses riscos, geralmente é preferível que a equipe de gestão
      já tenha um desenho de avaliação de impacto implementado, incluindo uma
      estratégia de identiﬁcação, os principais indicadores de resultado, cálculos
      iniciais de poder estatístico e tamanhos aproximados da amostra. Isso aju-
      dará a orientar os processos de licitação e contratação, uma vez que esses
      elementos afetam fortemente os orçamentos de avaliação. A equipe de for-
      mulação e gestão também deve estabelecer mecanismos para assegurar uma
      supervisão técnica rígida do desenho e implementação da avaliação de
      impacto. Isso pode ser feito por meio de um comitê de supervisão ou por
234                                                      Avaliação de Impacto na Prática
meio de análises técnicas e cientíﬁcas periódicas dos relatórios gerados na
avaliação de impacto. Se considerados em conjunto, esses esforços de miti-
gação sugerem que o modelo mais eﬁcaz a ser adotado provavelmente não
deverá ser o totalmente terceirizado.

O modelo de parceria
A colaboração entre as equipes de pesquisa e de formulação e gestão não é,
necessariamente, construída unicamente por meio de relações contratuais.
Parcerias mutuamente benéﬁcas podem ser implementadas quando os pes-
quisadores estiverem interessados em pesquisar determinada questão de
política pública e quando os formuladores e gestores de programas quise-
rem que uma avaliação de impacto de boa qualidade seja realizada para seu
programa. Os pesquisadores têm incentivos para abordar novas questões de
pesquisa e para inovar na realização da avaliação de impacto e contribuir
para a sua maior visibilidade. A equipe de pesquisa pode ser capaz de ala-
vancar parte do ﬁnanciamento para a avaliação de impacto se os objetivos
dos ﬁnanciadores estiverem alinhados de perto com o foco da pesquisa da
avaliação.
   Um outro tipo de modelo integrado que está adquirindo maior relevân-
cia, especialmente nas instituições maiores, como o Banco Mundial e o
Banco Interamericano de Desenvolvimento, usa a capacidade interna de
pesquisa de avaliação de impacto dessas instituições para apoiar as equipes
de programa e de formulação e gestão.
   A abordagem da parceria apresenta alguns riscos. Às vezes, os pesquisa-
dores podem procurar incorporar novos elementos de pesquisa à avaliação
de impacto e esses elementos podem não estar alinhados aos objetivos da
política pública, embora possam agregar valor em termos globais. Por sua
vez, os formuladores e gestores dos programas nem sempre valorizam o
rigor cientíﬁco necessário para realizar avaliações de impacto rigorosas, e
podem ter uma tolerância maior do que a equipe de pesquisa com relação
aos riscos potenciais para a qualidade da avaliação de impacto.
   Para mitigar esses riscos, os objetivos da equipe de pesquisa e da equipe
de formulação e gestão precisam estar alinhados. Essas equipes podem, por
exemplo, trabalhar juntas em um plano de avaliação que descreva uma
estratégia detalhada e as respectivas funções e responsabilidades de cada
equipe (ver o boxe 12.2). O plano de avaliação também é o local certo para
destacar as principais regras e os potenciais riscos operacionais da imple-
mentação da avaliação de impacto.
   O compromisso mútuo com um plano claro de avaliação de impacto é
essencial para que a parceria funcione sem problemas, mesmo que não
exista uma relação contratual. É boa prática que esse compromisso mútuo
assuma a forma de um contrato por escrito — por exemplo, por meio de um
Gerenciamento da avaliação de impacto                                          235
                 termo de referência ou acordo de cooperação — para estabelecer as funções,
                 responsabilidades e produtos da avaliação de impacto. Tais aspectos tam-
                 bém podem ser incluídos no plano de avaliação de impacto.

                 O modelo totalmente integrado
                 Algumas avaliações de impacto são implementadas por meio de um modelo
                 totalmente integrado, no qual as equipes de implementação do programa e
                 de pesquisa são uniﬁcadas. Essa abordagem é, às vezes, adotada em testes de
                 eﬁcácia, nos quais novas intervenções estão sendo avaliadas por meio de
                 validações de conceito. Nesse caso, os pesquisadores geralmente preferem
                 manter o controle sobre a implementação para garantir que o programa seja
                 implementado da forma mais ﬁdedigna possível ao seu desenho original.
                 Embora os resultados dessas avaliações de impacto sejam mais úteis para
                 testar certas teorias e estabelecer se uma determinada intervenção pode
                 funcionar em circunstâncias ideais, o risco dessa abordagem é que os resul-
                 tados podem apresentar validade externa limitada.
                    O boxe 12.3 apresenta alguns exemplos de diferentes modelos que as
                 equipes de pesquisa e de formulação e gestão podem usar para colaborar
                 entre si.



      Boxe 12.3: Exemplos de modelos para equipes de pesquisa e de
      formulação e gestão

      Terceirização de avaliações na               responsável pelo programa e as equipes de
      Millennium Challenge Corporation             pesquisadores externos contratados para a
      A Millennium Challenge Corporation (MCC),    avaliação às vezes criava problemas. Por
      agência de ajuda humanitária dos Estados     exemplo, em Honduras, os pesquisadores
      Unidos, foi criada em 2004 com uma forte     realizaram um experimento aleatório para
      ênfase na prestação de contas e geração de   um programa de treinamento de agriculto-
      resultados. A MCC exige que cada um de       res. No entanto, como o contrato de imple-
      seus programas tenha um plano abrangente     mentação era baseado em critérios de
      de monitoramento e avaliação, com foco       desempenho, os implementadores da ava-
      em avaliações independentes e não envie-     liação tinham um forte incentivo para encon-
      sadas. Esse foco levou a MCC a desenvol-     trar agricultores de alto desempenho para
      ver um modelo no qual tanto o desenho        participar do programa. Os agricultores ele-
      quanto a implementação das avaliações são    gíveis não foram selecionados aleatoria-
      totalmente terceirizados para pesquisado-    mente para o programa, o que invalidou o
      res externos. Nos primeiros anos de opera-   desenho de avaliação. Após as cinco primei-
      ção da MCC, a separação entre o pessoal      ras avaliações do programa de treinamento

                                                                                       (continua)



236                                                                    Avaliação de Impacto na Prática
     Boxe 12.3: Exemplos de modelos para equipes de pesquisa e de formulação e gestão (continuação)

     de agricultores, a MCC reﬂetiu sobre essas         estreita e, em alguns casos, o pessoal da IPA
     experiências e concluiu que a colaboração          é também responsável pela implementação
     entre implementadores e avaliadores é fun-         da intervenção que está sendo avaliada.
     damental durante todo o desenho e imple-
                                                        Modelos de parceria do Banco Mundial
     mentação da intervenção. A organização
                                                        Na última década, o Banco Mundial am-
     adaptou seu modelo de aplicação de avalia-
                                                        pliou rapidamente o uso de avaliações de
     ções de impacto a ﬁm de encontrar um
                                                        impacto prospectivas para avaliar os impac-
     equilíbrio entre a independência e a colabo-
                                                        tos de alguns dos projetos de desenvolvi-
     ração das partes envolvidas.
                                                        mento que ﬁnancia. Vários grupos —
     Integração total na Innovations for                incluindo o DIME (Avaliação de Impacto
     Poverty Action                                     sobre o Desenvolvimento), o SIEF (Fundo
     Na Innovations for Poverty Action (IPA), uma       Estratégico de Avaliação de Impacto) e o
     organização sem ﬁns lucrativos sediada nos         GIL (Gender Innovation Lab) — fornecem
     Estados Unidos, as equipes de pesquisado-          ﬁnanciamento e apoio técnico para avalia-
     res e de políticas trabalham lado a lado desde     ções de impacto. Quando um programa
     o início do desenho da avaliação e, muitas         particularmente inovador ou de alto inte-
     vezes, desde o começo do programa. O mo-           resse tem início, são criadas atividades de
     delo da IPA baseia-se numa extensa rede de         avaliação de impacto que são incorporadas
     unidades locais, muitas das quais têm rela-        ao programa e gerenciadas pelos governos
     ções com agências governamentais e outros          responsáveis pela intervenção ou realiza-
     parceiros de implementação. A partir do mo-        das como atividades independentes geren-
     mento em que uma avaliação é concebida,            ciadas pelo Banco Mundial. Qualquer que
     pesquisadores aﬁliados à IPA em uma rede           seja a opção escolhida, cria-se um time de
     global de universidades passam a trabalhar         avaliação formado por uma equipe de pes-
     com diretores nacionais nas unidades locais        quisa, que inclui uma combinação de
     relevantes para criar um desenho de avalia-        técnicos e acadêmicos, e uma equipe do
     ção e um plano de implementação. Os direto-        programa, geralmente composta pelos for-
     res nacionais são responsáveis por coordenar       muladores, gestores e operadores locais
     o relacionamento com os principais parceiros       do programa.
     da intervenção e por parear os pesquisadores           Por exemplo, na Costa do Marﬁm, uma
     principais da equipe de pesquisa com a equi-       iniciativa conjunta entre o Banco Mundial, o
     pe de formulação e gestão para desenvol-           Abdul Latif Jameel Poverty Action Lab
     ver uma proposta de avaliação. Após uma            (J-PAL) e o governo local avaliou um Projeto
     proposta ser aprovada, eles contratam uma          de Promoção de Emprego e Capacitação
     equipe de gerenciamento de projetos para           para Jovens. Foi criado um time de avaliação
     coordenar a coleta de dados no campo, usan-        que incluía uma equipe de pesquisa, com-
     do as unidades locais da IPA. Geralmente,          posta por um líder de equipe do Banco
     a coordenação entre os pesquisadores e             Mundial, acadêmicos internacionais e espe-
     os implementadores do programa é bem               cialistas locais, e uma equipe de formulação

                                                                                               (continua)



Gerenciamento da avaliação de impacto                                                                       237
      Boxe 12.3: Exemplos de modelos para equipes de pesquisa e de formulação e gestão (continuação)

      e gestão, que incluía especialistas da uni-            por uma equipe especializada em coleta de
      dade de implementação do programa, fun-                dados. O Banco Mundial ﬁnanciou as ativi-
      cionários do ministério responsável pela               dades de supervisão técnica e pesquisa,
      intervenção e pessoal do Banco Mundial. A              além de liderar a equipe de avaliação. O
      equipe de avaliação identiﬁcou as áreas prio-          J-PAL contribuiu com seus pesquisadores
      ritárias para a avaliação de impacto. Foi reali-       aﬁliados. Esse modelo se mostrou eﬁcaz
      zado um experimento aleatório prospectivo.             para garantir o rigor cientíﬁco, a relevância
      O governo formulou questões-chave e ﬁnan-              global e o alinhamento com as prioridades
      ciou a coleta de dados, que foi terceirizada           dos formuladores de políticas públicas.
      em parte para a École Nationale Supérieure             Requer uma gestão cuidadosa das parcerias
      de Statistique et d’Économie Apliquée                  e uma coordenação eﬁcaz entre as várias
      (ENSEA) e em parte realizada internamente              partes interessadas da equipe de avaliação.
      Fontes: Bertrand e outros 2015; IPA 2014; Sturdy, Aquino e Molyneaux 2014.




                    A escolha de um parceiro para a equipe de pesquisa

                    Os formuladores e gestores de programas também precisam decidir com
                    quem se associar para realizar a avaliação. É preciso responder a duas ques-
                    tões principais: se a equipe de pesquisa — ou parte dela — pode ser constitu-
                    ída por uma equipe local e que tipo de assistência externa será necessária. A
                    capacidade de realização de pesquisas varia muito de país para país.
                    Frequentemente, quando existe a necessidade de competências especíﬁcas,
                    contratam-se empresas internacionais que podem também estabelecer
                    parcerias com ﬁrmas locais. A função de coleta de dados é, geralmente,
                    implementada por empresas locais devido ao seu maior conhecimento do
                    contexto e do ambiente da área. Há também uma tendência global para asse-
                    gurar a participação ampla de pesquisadores locais nas avaliações de impacto.
                        À medida que a capacidade de avaliação aumenta, torna-se cada vez mais
                    comum que governos, empresas privadas e instituições multilaterais imple-
                    mentem avaliações de impacto em parceria com equipes de pesquisa locais.
                    Sua participação pode trazer valor signiﬁcativo à avaliação de impacto,
                    considerando-se o seu conhecimento sobre o contexto local. Em alguns paí-
                    ses, a autorização para realizar a pesquisa é concedida apenas a equipes que
                    incluam pesquisadores locais. Em geral, cabe aos gestores da avaliação ana-
                    lisar a capacidade local e determinar quem será responsável pelos diferentes
                    aspectos do esforço de avaliação. Redes internacionais de avaliação de
                    impacto formadas por acadêmicos (como o J-PAL ou a IPA), empresas pri-
                    vadas de pesquisa ou grupos de avaliação de impacto de instituições inter-
                    nacionais (como a DIME e o SIEF, do Banco Mundial, ou o SPD e RES, do
238                                                                                Avaliação de Impacto na Prática
Banco Interamericano de Desenvolvimento) podem ajudar as equipes de
formuladores e gestores a se conectar com pesquisadores internacionais
que tenham os conhecimentos técnicos necessários para colaborar na ava-
liação de impacto.1
   Outra questão é deﬁnir se é melhor trabalhar com uma empresa privada
ou com uma agência pública. As empresas ou instituições de pesquisa priva-
das podem ser mais conﬁáveis em relação à entrega dos resultados no prazo
certo, mas, muitas vezes, estão compreensivelmente menos propensas a
incorporar elementos novos que elevem os custos da avaliação após a assi-
natura do contrato. A equipe de pesquisa também pode contar com o auxílio
de instituições de pesquisa e universidades. A reputação e experiência téc-
nica dessas organizações podem garantir que os resultados da avaliação
sejam amplamente aceitos pelas partes interessadas no programa. No
entanto, essas instituições nem sempre têm a experiência operacional ou a
capacidade de realizar alguns aspectos da avaliação, como a coleta de dados.
Essas tarefas talvez necessitem ser terceirizadas a outro parceiro. A capaci-
tação dos atores relevantes do setor público também pode ser uma meta a
ser incluída como parte dos termos de referência da avaliação de impacto.
Seja qual for a combinação de parceiros, uma boa análise das atividades de
avaliação passadas realizadas por colaboradores potenciais é essencial para
fazer uma escolha bem informada.
   Especialmente quando se trabalha com uma agência pública com múlti-
plas responsabilidades, a capacidade e a disponibilidade de uma equipe
interna de pesquisa para realizar as atividades de avaliação de impacto pre-
cisam ser avaliadas à luz de outras atividades pelas quais ela é responsável.
Ter noção da carga de trabalho é importante para avaliar não apenas como
ela afetará a qualidade da avaliação que está sendo realizada, mas também o
custo de oportunidade da avaliação com relação a outros esforços pelos
quais a agência pública é responsável.


Como programar uma avaliação ao
longo do tempo

A parte 1 discutiu as vantagens das avaliações prospectivas, elaboradas
durante a preparação do programa. O planejamento antecipado permite
uma escolha mais ampla de grupos de comparação, facilita a coleta de dados
da linha de base e ajuda as partes interessadas a chegar a um consenso sobre
os objetivos do programa e as questões de interesse.
   Apesar de ser importante planejar as avaliações desde a fase de desenho
do programa, é desejável que elas ocorram no momento em que o programa
estiver maduro o suﬁciente para ter se tornado estável, mas antes de ser
Gerenciamento da avaliação de impacto                                           239
      expandido. Projetos-piloto ou reformas do programa em estágio inicial mui-
      tas vezes estão sujeitos a revisões, tanto de seu conteúdo quanto de como,
      quando, onde e por quem serão implementados. Os responsáveis pelos pro-
      gramas podem precisar de tempo para aprender e implementar consistente-
      mente as novas regras operacionais. Como as avaliações exigem regras
      operacionais claras para gerar contrafactuais adequados, é importante reali-
      zar as avaliações dos programas depois de eles estarem bem estabelecidos.
         Outra questão-chave diz respeito a quanto tempo é necessário antes que
      os resultados possam ser medidos. O equilíbrio certo depende muito do con-
      texto especíﬁco: “Se se avalia cedo demais, existe o risco de encontrar ape-
      nas um impacto parcial ou nenhum impacto; se se avalia demasiado tarde,
      há o risco de que o programa venha a perder o apoio dos ﬁnanciadores e do
      público ou de que um programa mal concebido seja expandido” (King e
      Behrman 2009, 56).2 Os seguintes fatores precisam ser ponderados para
      determinar quando se deve fazer a coleta de dados pós-intervenção.
         O ciclo do programa, incluindo sua duração, o cronograma de implementa-
      ção e os atrasos potenciais. A avaliação de impacto deve ser adaptada ao ciclo
      de implementação do programa; ela não pode conduzir o programa que está
      sendo avaliado. Por sua própria natureza, as avaliações estão sujeitas ao cro-
      nograma do programa e devem estar alinhadas à duração esperada dessas
      iniciativas. Devem também se adaptar a possíveis atrasos de implementação
      quando os programas demoram a oferecer seus serviços ou se atrasam
      devido a fatores externos.3 Em geral, embora o cronograma de avaliação
      deva ser incorporado ao projeto desde o início, os avaliadores devem estar
      preparados para ser ﬂexíveis e fazer modiﬁcações à medida que o projeto
      for sendo implementado. Além disso, é necessário estar preparado para
      mudanças acompanhando as intervenções por meio de um bom sistema de
      monitoramento, de modo a que o esforço de avaliação seja orientado pelo
      ritmo real da intervenção.
         O tempo previsto necessário para que o programa gere resultados, bem
      como a natureza dos resultados de interesse. A programação da coleta de
      dados de acompanhamento deve levar em consideração quanto tempo é
      necessário, após a implementação do programa, para que os resultados se
      tornem aparentes. A cadeia de resultados do programa ajuda a identiﬁcar os
      indicadores de resultados e o momento apropriado para medi-los. Alguns
      programas (tais como os programas de transferência de renda) visam a gerar
      benefícios de curto prazo, enquanto outros (como programas de educação
      básica) visam a ganhos de longo prazo. Além disso, certos resultados, por
      sua natureza, levam mais tempo a aparecer (como mudanças na expectativa
      de vida ou no nível de fertilidade decorrentes de uma reforma do sistema de
      saúde) do que outros (como os rendimentos do trabalho após um programa
      de treinamento).
240                                                       Avaliação de Impacto na Prática
    Por exemplo, na avaliação do Fundo de Investimento Social da Bolívia,
cuja linha de base ocorreu em 1993, os dados de acompanhamento não
foram coletados até 1998 devido ao tempo necessário para a realização das
intervenções (projetos de água e saneamento, clínicas médicas e escolas) e
ao aparecimento dos efeitos sobre a saúde e a educação da população bene-
ﬁciada (Newman e outros 2002). Um período de tempo semelhante foi
necessário para a avaliação de um projeto de educação fundamental no
Paquistão, que usou um desenho experimental, com pesquisas de linha de
base e de acompanhamento, para avaliar o impacto de escolas comunitárias
sobre variáveis de resultado dos alunos, incluindo seu desempenho acadê-
mico (King, Orazem e Paterno 2008). No entanto, frequentemente os dados
de acompanhamento são colhidos antes do que seria recomendado devido a
pressões por resultados de modo oportuno ou por limitações do orçamento
e do ciclo do programa (McEwan 2014).
    Por esse motivo, o momento da coleta dos dados de acompanhamento
dependerá do programa em estudo, bem como dos indicadores dos resulta-
dos de interesse.
    Os dados de acompanhamento podem ser coletados mais de uma vez
para que os resultados de curto e médio prazos possam ser considerados
e comparados enquanto o grupo de tratamento ainda estiver partici-
pando do programa. Os dados de acompanhamento coletados durante a
implementação do programa podem não captar o impacto total do pro-
grama se os indicadores de resultado forem medidos demasiadamente
cedo. Ainda assim, é muito útil documentar os impactos de curto prazo,
que podem fornecer informações sobre os resultados esperados no longo
prazo, úteis para produzir resultados iniciais que podem dinamizar o
diálogo entre as equipes de pesquisa e de formulação e gestão e manter
contato com a amostra de avaliação de modo a reduzir a atrição da amos-
tra ao longo do tempo.
    As pesquisas de acompanhamento que medem os resultados de longo
prazo após a implementação do programa geralmente produzem as evidên-
cias mais convincentes sobre a efetividade do programa. Por exemplo, os
resultados positivos das avaliações de impacto de longo prazo dos progra-
mas de educação infantil nos Estados Unidos (Currie 2001; Currie e Thomas
1995, 2000) e na Jamaica (Grantham-McGregor e outros 1994; Gertler e
outros 2014) têm inﬂuenciado a defesa dos investimentos em intervenções
destinadas à primeira infância.
    Os impactos de longo prazo, por vezes, são objetivos explícitos do pro-
grama, mas mesmo um bom projeto de avaliação de impacto pode não resis-
tir ao teste do tempo. Por exemplo, as unidades do grupo de comparação
podem começar a se beneﬁciar dos efeitos de transbordamento dos beneﬁ-
ciários do programa.
Gerenciamento da avaliação de impacto                                         241
         As equipes podem coletar dados de acompanhamento mais de uma vez,
      para que os resultados de curto, médio e longo prazos possam ser considera-
      dos e comparados.
         Ciclos de elaboração das políticas públicas. A programação de uma avalia-
      ção também deve levar em consideração quando certas informações são
      necessárias para fundamentar as decisões sobre a condução da política
      pública, e deve sincronizar as atividades de avaliação e de coleta de dados
      com os principais momentos de decisão. A geração de resultados deve ser
      programada para orientar a elaboração de orçamentos, a expansão do pro-
      grama ou outras decisões sobre a política pública.


      Como orçar uma avaliação

      A formulação de um orçamento constitui uma das últimas etapas para ope-
      racionalizar o desenho da avaliação. Nesta seção, analisamos alguns dados
      referentes ao custo das avaliações de impacto, discutimos como fazer um
      orçamento de avaliação e sugerimos algumas opções de ﬁnanciamento.


      Análise dos dados de custos

      Os quadros 12.1 e 12.2 proporcionam referências úteis sobre os custos asso-
      ciados à realização de avaliações de impacto rigorosas. Contêm dados de
      custo de avaliações de impacto de vários programas apoiados pelo Fundo
      Estratégico de Avaliação de Impacto (SIEF) administrado pelo Banco
      Mundial. A amostra do quadro 12.1 resultou de uma análise exaustiva sobre
      os programas apoiados pelos grupos de pesquisa do Early Childhood
      Development and Education (Desenvolvimento e Educação na Primeira
      Infância) do SIEF. A amostra do quadro 12.2 foi selecionada com base na
      disponibilidade de estatísticas orçamentárias correntes do conjunto de ava-
      liações de impacto ﬁnanciado pelo SIEF.4
         Os custos diretos das atividades de avaliação analisadas nas amostras
      incluídas nos quadros 12.1 e 12.2 variam entre US$  130.000 e US$  2,78
      milhões, com um custo médio de cerca de US$ 1 milhão. Embora esses cus-
      tos variem muito e possam parecer elevados em termos absolutos, as avalia-
      ções de impacto geralmente constituem apenas uma pequena porcentagem
      do orçamento total dos programas. Além disso, o custo da realização de uma
      avaliação de impacto deve ser comparado ao custo de oportunidade de não
      realizar uma avaliação rigorosa e, consequentemente, correr o risco de
      implementar um programa não efetivo. As avaliações permitem que pesqui-
      sadores e formuladores de políticas públicas identiﬁquem quais os progra-
      mas ou características dos programas que funcionam e quais não, e quais as
242                                                     Avaliação de Impacto na Prática
Quadro 12.1 Custo das avaliações de impacto de uma seleção de programas apoiados pelo
Banco Mundial

                                                          Custo total da                             Custos da AI
                                                           avaliação de        Custo total do         como % do
                                                             impacto            programaa             custo total
 Avaliação de impacto (AI)              País                (em US$)             (em US$)            do programa
 Programa de segurança social           Burkina               750.000             38.800.000                1,9
                                        Fasso
 Emprego e desenvolvimento de           China                 220.000             50.000.000                0,4
 competências para migrantes
 Programa de seguridade social          Colômbia              130.000             86.400.000                0,2
 Programa integrado de nutrição         Djibuti               480.000              5.000.000                8,8
 e seguridade social no emprego
 (projeto-piloto)
 Programa de investimento nos           República             600.000             19.400.000                3,1
 setores sociais                        Dominicana
 Incentivos baseados no                 Guiné               2.055.000             39.670.000                4,9
 desempenho dos professores
 Proteção social                        Jamaica               800.000             40.000.000                2,0
 Combate à desnutrição crônica          Madagascar            651.000             10.000.000                6,1
 Centros comunitários de             Malaui                   955.000              1.500.000               38,9
 atenção à infância (projeto-piloto)
 Informação e transferência não         Nepal                 984.000             40.000.000                2,4
 condicional de renda
 Assistência técnica para a rede        Paquistão           2.000.000             60.000.000                3,3
 de segurança social
 Programa de proteção social            Panamá              1.000.000             24.000.000                4,2
 1º programa para o padrão de           Ruanda              1.000.000             11.000.000                9,1
 vida comunitária
 Intervenções de informação para        Tanzânia              712.000           416.000.000                 0,2
 a prestação de contas e
 incentivos aos professores
 Intervenções relacionadas ao           Uganda                639.000           100.000.000                 0,6
 tamanho das salas de aula e à
 qualidade dos professores
 Fundo social para o                    Iêmen               2.000.000             15.000.000               13,3
 desenvolvimento 3
 Média                                                        936.000             59.798.000                6,2

Fonte: Uma amostra das avaliações de impacto apoiadas pelos grupos de pesquisa da área de Desenvolvimento e Educação na
Primeira Infância do Fundo Estratégico de Avaliação de Impacto do Banco Mundial.
Observação: AI = avaliação de impacto.
a
  O custo total do programa não inclui os custos associados à avaliação de impacto.




Gerenciamento da avaliação de impacto                                                                             243
244




      Quadro 12.2    Custos desagregados de uma seleção de avaliações de impacto apoiadas pelo Banco Mundial

                                                                                   Coleta
                                                        Custo                        de      Equipe e               Disseminação
                                                        totala    Tamanho da       dados    consultores   Viagens     e oﬁcinas    Outros
      Avaliação de impacto              País          (em US$)    amostra           (%)b       (%)b         (%)b         (%)b       (%)b
      Incentivo às habilidades parentais Bangladesh   655.000     2.574 famílias    27          48          5            0          20
      para melhorar a nutrição e a
      saúde infantis
      Eliminar os hiatos iniciais de    Bulgária      702.000     6.000 famílias    74          21          4            1           0
      aprendizado para crianças
      ciganas
      O desenvolvimento na primeira     Burkina       750.000     4.725 famílias    55          20          3            1          21
      infância e o componente           Fasso
      nutricional do projeto de
      segurança social de Burkina
      Fasso
      Pagamento de professores          Chade         1.680.000   2.978 escolas     52          14          12          18           4
      comunitários
      Uma intervenção domiciliar para   Colômbia      573.000     1.429             54          36          2            2           7
      o desenvolvimento na primeira                               indivíduos
      infância
      Teste de um programa integrado    Djibuti       480.000     1.150             75           0          0            6          18
      de nutrição e seguridade social                             indivíduos
      para o emprego
                                                                                                                               (continua)
      Quadro 12.2   (continuação)

                                                                                     Coleta
                                                          Custo                        de      Equipe e               Disseminação
                                                          totala    Tamanho da       dados    consultores   Viagens     e oﬁcinas    Outros
      Avaliação de impacto                 País         (em US$)    amostra           (%)b       (%)b         (%)b         (%)b       (%)b
      Supervisão e incentivos para o       Gana         498.000     480 escolas       51          46          3            0           0
      aumento do aprendizado: o
      programa TCAI de alto
      desempenho
      Incentivos baseados no desem-        Guiné        2.055.000   420 escolas       82           9          3            1           4
      penho para professores
      Suporte à prestação de serviços      Haiti        436.000     200 escolas       40          31          17           3           9
      educacionais
      Motivação intrínseca e extrínseca Índia           448.000     360 escolas       83           5          11           1           0
      não ﬁnanceira para professores
      Estímulos para a primeira            Índia        696.000     2.250             49          43          5            3           0
      infância e responsabilidade social                            indivíduos
      da estratégia integrada de
      desenvolvimento infantil da Índia
      Grupos de ajuda mútua de             Índia        844.000     3.000 famílias    52          39          5            1           2
      mulheres para fomentar a saúde,
      a nutrição, o saneamento e a
      segurança alimentar
      Desenvolvimento da primeira          Índia        1.718.000   2.588 famílias    46          53          1            1           0
      infância para os pobres
      Nutrição na primeira infância,       Indonésia    2.490.000   6.743             94           0          2            4           0
      disponibilidade de prestadores                                indivíduos
      de serviços de saúde e situação
      de vida de jovens adultos
      Combate à desnutrição crônica        Madagascar    651.000    5.000              0           0         66            2          32
                                                                    indivíduos
                                                                                                                                 (continua)
245
246


      Quadro 12.2   (continuação)

                                                                                   Coleta
                                                        Custo                        de      Equipe e               Disseminação
                                                        totala    Tamanho da       dados    consultores   Viagens     e oﬁcinas    Outros
      Avaliação de impacto                 País       (em US$)    amostra           (%)b       (%)b         (%)b         (%)b       (%)b
      Integração parental, nutrição e      Mali       949.000     3.600             58          22          4            5          11
      prevenção da malária                                        indivíduos
      Aumento da prestação de contas       México     268.000     230 escolas       70          26          3            2           0
      na área de educação por meio de
      assistentes pedagógicos
      comunitários
      Acesso a um modelo completo          México     420.000     172 indivíduos    45          48           5           1           1
      de escolas privadas
      Avaliação de impacto aleatória de    Moçambi-   1.762.000   110 escolas       78           5          4            8           6
      várias intervenções de alfabetiza-   que
      ção e leitura nas classes iniciais
      Desenvolvimento e nutrição           Moçambi-   1.908.000   6.700 famílias    74           8          5            7           7
      integrados na primeira infância      que
      Um programa-piloto de seguro         Nepal      485.000     6.300 famílias    61          33          3            4           0
      saúde
      Informações e transferências não     Nepal      984.000     3.000             57          23          9            1          10
      condicionais de renda relacionadas                          indivíduos
      aos resultados nutricionais
      Transferências de renda,             Níger      984.000     4.332 famílias    67          18          7            1           7
      treinamento de pais e
      desenvolvimento holístico
      da primeira infância
      Compreensão da dinâmica das          Nigéria    1.052.000   120 escolas       59          25          8            3           6
      informações para a prestação
      de contas
                                                                                                                               (continua)
      Quadro 12.2   (continuação)

                                                                                Coleta
                                                     Custo                        de      Equipe e               Disseminação
                                                     totala    Tamanho da       dados    consultores   Viagens     e oﬁcinas    Outros
      Avaliação de impacto             País        (em US$)    amostra           (%)b       (%)b         (%)b         (%)b       (%)b
      Programa de reinvestimento de    Nigéria     2.775.000   5.000 famílias    76          13          6            4           2
      subsídios e empoderamento e
      iniciativa de saúde materno-
      infantil
      Engajamento comunitário para o   Paquistão   845.000     287 escolas       59          15          6            3          18
      comitê escolar
      Fortalecer as escolas privadas   Paquistão   2.124.000   2.000 escolas     26          25          5            2          42
      para cidadãos pobres de áreas
      rurais
      Seleção e impactos motivacionais Ruanda       797.000    300 escolas       79           7          3            1          11
      de contratos de desempenho
      para professores do ensino
      fundamental
      Campanha de informação em        África do    647.000    200 escolas       67          24          2            3           4
      escolas do ensino fundamental    Sul
      Teste de informações para        Tanzânia    712.000     420 escolas       86           6          7            2           0
      intervenções de prestação de
      contas e de incentivo para
      professores
                                                                                                                            (continua)
247
248




      Quadro 12.2      (continuação)

                                                                                                 Coleta
                                                                  Custo                            de         Equipe e                     Disseminação
                                                                  totala      Tamanho da         dados       consultores      Viagens        e oﬁcinas         Outros
       Avaliação de impacto                    País             (em US$)      amostra             (%)b          (%)b            (%)b            (%)b            (%)b
       Elaboração de programas                 Tanzânia          889.000      420 escolas           85             11             2                2              0
       efetivos de incentivo para
       professores
       Programa para mulheres com              Tanzânia         1.242.000     3.600                 90              7             2                1              0
       alto risco de infecção pelo HIV                                        indivíduos
       Intervenções relacionadas à             Uganda            639.000      200 escolas           82              9             7                2              0
       qualidade dos professores e ao
       tamanho das salas de aula
       Comparação da eﬁciência da              Uganda            737.000      280 escolas           77             18             3                3              0
       prestação de serviços
       educacionais nos setores
       público e privado
       Média                                                    1.026.000                           63             21             7                3              7

      Fonte: Uma amostra das avaliações de impacto ﬁnanciadas pelo Fundo Estratégico de Avaliação de Impacto do Banco Mundial.
      a
        Os custos estimados nem sempre representam os custos totais da avaliação, incluindo o tempo da equipe de formuladores e gestores.
      b
        Percentual do custo total da avaliação por categoria. Esse custo não inclui as despesas com as equipes locais do programa, que, em geral, se mostraram fortemente
      engajadas no desenho e na supervisão da avaliação, pois os dados exatos sobre esses gastos não são registrados com regularidade.
estratégias que podem ser mais efetivas e eﬁcientes para alcançar os objeti-
vos da iniciativa. Nesse sentido, os recursos necessários para implementar
uma avaliação de impacto constituem um investimento relativamente
pequeno, mas signiﬁcativo.
   O quadro 12.2 desagrega os custos das amostras de avaliações de             Conceito-chave
impacto apoiadas pelo SIEF. Os custos totais de uma avaliação incluem          As avaliações de
tempo da equipe do Banco Mundial, consultores nacionais e internacio-          impacto geralmente
nais, viagens, coleta de dados e atividades de disseminação.5 Como é o         constituem apenas uma
caso de quase todas as avaliações para as quais não é possível utilizar        pequena porcentagem
                                                                               do orçamento total dos
dados já existentes, o custo mais elevado da avaliação recai sobre a coleta
                                                                               programas. Além disso,
de novos dados, respondendo por 63% do custo total da avaliação, em            o custo da realização
média, conforme mostra o quadro.                                               de uma avaliação de
   Esses números reﬂetem diferentes tamanhos e tipos de avaliações.            impacto deve ser
O custo relativo para avaliar um programa-piloto é, geralmente, maior do       comparado ao custo de
que o custo relativo para avaliar um programa de aplicação nacional ou         oportunidade de não
                                                                               realizar uma avaliação
universal. Além disso, algumas avaliações exigem apenas uma pesquisa de
                                                                               rigorosa e, consequen-
acompanhamento ou podem utilizar fontes de dados existentes, enquanto          temente, correr o risco
outras necessitam várias rodadas de coleta de dados. O custo da coleta de      de implementar um
dados depende, em grande parte, dos salários da equipe local, do custo de      programa não efetivo.
acesso às populações da amostra de avaliação e do período de tempo gasto
em campo. Para saber mais sobre como estimar o custo de uma pesquisa em
um contexto especíﬁco, recomendamos, primeiramente, que a equipe de
avaliação entre em contato com o órgão responsável pelas estatísticas
nacionais e busque informações com equipes que já realizaram pesquisas
de campo no país.


Preparar um orçamento para a avaliação de impacto

Muitos recursos são necessários para implementar uma avaliação de
impacto rigorosa, especialmente quando dados primários estão sendo
coletados. Os itens orçamentários incluem a remuneração de pelo menos
um investigador ou pesquisador principal, um coordenador de campo,
um especialista em amostragem e uma equipe de coleta de dados.
Também é preciso incluir o tempo de trabalho dos gestores do programa
para fornecer orientação e apoio durante toda a avaliação. Esses recur-
sos humanos podem ser constituídos por pesquisadores e especialistas
técnicos de organizações internacionais, consultores internacionais ou
nacionais e equipes locais que atuam nos programas. Os custos com via-
gens e alimentação também devem ser orçados. Os recursos para a disse-
minação que, muitas vezes, são aplicados na realização de oﬁcinas,
relatórios e trabalhos acadêmicos, devem ser considerados no planeja-
mento da avaliação.
Gerenciamento da avaliação de impacto                                                            249
         Conforme já foi observado, os maiores custos da avaliação são, geral-
      mente, aqueles referentes à coleta de dados (incluindo a criação e a
      realização de um teste-piloto para a pesquisa), aos materiais e equipa-
      mentos relacionados à coleta de dados, ao treinamento e remuneração
      (a diária) dos entrevistadores, aos veículos e combustível usados na
      pesquisa de campo e às operações de digitação de dados. Para calcular
      os custos de todos esses insumos, é necessário fazer algumas suposi-
      ções sobre, por exemplo, quanto tempo será necessário para o preen-
      chimento dos questionários e o tempo de deslocamento entre os locais
      da pesquisa.
         Os custos da avaliação de impacto podem ser espalhados ao longo de
      vários anos. Um exemplo de orçamento mostrado no quadro 12.3 apresenta
      como as despesas em cada estágio de uma avaliação podem ser desagrega-
      das por ano para ﬁns contábeis e de reportagem. Mais uma vez, as demandas
      orçamentárias provavelmente serão maiores durante os anos em que os
      dados estiverem sendo coletados.


      Opções para o ﬁnanciamento de avaliações

      O financiamento de uma avaliação pode vir de muitas fontes, incluindo
      recursos destinados a projetos, orçamentos próprios dos programas,
      bolsas de pesquisa ou recursos de financiadores. Muitas vezes, as equi-
      pes de avaliação buscam uma combinação de fontes para gerar os fun-
      dos necessários. Embora, no passado, o financiamento para as
      avaliações fosse proveniente, principalmente, de orçamentos de pes-
      quisa, a ênfase crescente na formulação de políticas baseadas em evi-
      dências aumentou o financiamento originário de outras fontes. Nos
      casos em que uma avaliação possa vir a preencher uma substancial
      lacuna de conhecimento, que seja de interesse para a área de desenvol-
      vimento socioeconômico de maneira mais ampla, e em que possa ser
      aplicada uma avaliação rigorosa e robusta, os formuladores de políticas
      públicas devem ser estimulados a procurar financiamento externo,
      considerando-se todos os benefícios que os resultados da avaliação tra-
      rão para o público em geral. Entre as fontes de financiamento estão
      governos, bancos de desenvolvimento, organizações multilaterais,
      agências da Organização das Nações Unidas (ONU), fundações, filan-
      tropos e organizações de pesquisa e avaliação, como a Iniciativa
      Internacional para a Avaliação de Impacto.




250                                                   Avaliação de Impacto na Prática
      Quadro 12.3   Exemplo de orçamento para uma avaliação de impacto

                                                       Etapa do desenho                        Etapa de dados da linha de base
                                                      Custo por                Custo               Custo por
                                                       unidade     Nº de       total                unidade     Nº de     Custo total
                                            Unidade   (em US$)    unidades   (em US$)   Unidade    (em US$)    unidades    (em US$)
      A. Salários da equipe                 Semanas     7.500         2       15.000    Semanas      7.500          2       15.000
      B. Remuneração dos consultores                                          14.250                                        41.900
      Consultor internacional (1)           Dias         450         15        6.750    Dias           450          0               0
      Consultor internacional (2)           Dias         350         10        3.500    Dias           350         10        3.500
      Assistente de pesquisa/coordenador    Dias         280          0           0     Dias           280       130        36.400
      de campo
      Especialista em estatística           Dias         400         10       4.000     Dias          400           5        2.000
      C. Viagens e subsistência
      Equipe: passagens aéreas              Viagens    3.350          1        3.350    Viagens      3.350          1        3.350
      internacionais
      Equipe: hotel e diárias               Dias         150          5         750     Dias           150          5             750
      Equipe: transporte local terrestre    Dias          10          5          50     Dias            10          5              50
      Consultores internacionais:           Viagens    3.500          2        7.000    Viagens      3.500          2            7.000
      passagens aéreas internacionais

      Consultores internacionais: hotel e   Dias         150         20       3.000     Dias           150         20        3.000
      diárias
      Consultores internacionais:           Dias          10          5          50     Dias            10          5              50
      transporte local terrestre
      Coordenador de campo: passagens       Viagens                   0           0     Viagens      1.350          1            1.350
      aéreas internacionais
      Coordenador de campo: hotel           Dias                      0           0     Dias           150          3             150
      e diárias
                                                                                                                           (continua)
251
252




      Quadro 12.3   (continuação)

                                                      Etapa do desenho                          Etapa de dados da linha de base
                                                    Custo por                Custo                  Custo por
                                                     unidade     Nº de       total                   unidade     Nº de     Custo total
                                         Unidade    (em US$)    unidades   (em US$)   Unidade       (em US$)    unidades    (em US$)
      Coordenador de campo: transporte   Dias                      0          0       Dias               10           3           30
      local terrestre
      D. Coleta de dados                                                                                                    126.000
      Tipo de dado 1: consentimento                                                   Escola           120         100       12.000
      Tipo de dado 2: resultados                                                      Criança            14       3.000      42.000
      educacionais
      Tipo de dado 3: resultados                                                      Criança           24        3.000      72.000
      relacionados à saúde
      E. Análise de dados e
      disseminação
      Oﬁcina(s)
      Disseminação/divulgação de
      resultados
      Custo total por etapa              Etapa de desenho                   43.450    Etapa de linha de base                198.630
                                                                                                                            (continua)
      Quadro 12.3   (continuação)

                                            Dados de acompanhamento, etapa I              Dados de acompanhamento, etapa II
                                                       Custo por                 Custo              Custo por                   Custo
                                                        unidade     Nº de        total               unidade     Nº de          total
                                            Unidade    (em US$)    unidades    (em US$)   Unidade   (em US$)    unidades      (em US$)
      A. Salários da equipe                 Semanas      7.500         2        15.000    Semanas     7,500         2          15.000
      B. Remuneração dos consultores                                            43.750                                         38.000
      Consultor internacional (1)           Dias           450        15         6.750    Dias          450        10           4.500
      Consultor internacional (2)           Dias           350        20         7.000    Dias          350        10           3.500
      Assistente de pesquisa/               Dias           280       100        28.000    Dias          280       100          28.000
      coordenador de campo
      Especialista em estatística           Dias          400          5         2.000    Dias          400         5           2.000
      C. Viagens e subsistência
      Equipe: passagens aéreas              Viagens      3.350         1         3.350    Viagens     3.350         2           6.700
      internacionais
      Equipe: hotel e diárias               Dias           150        10         1.500    Dias          150        10           1.500
      Equipe: transporte local terrestre    Dias            10         5           50     Dias           10         5              50

      Consultores internacionais:           Viagens      3.500         2         7000     Viagens     3.500         2           7000
      passagens aéreas internacionais
      Consultores internacionais: hotel e   Dias           150        20         3.000    Dias          150        20           3.000
      diárias
      Consultores internacionais:           Dias            10         5           50     Dias           10         5              50
      transporte local terrestre
      Coordenador de campo: passagens       Viagens      1.350         1         1.350    Viagens     1.350         1           1.350
      aéreas internacionais
                                                                                                                              (continua)
253
254




      Quadro 12.3   (continuação)

                                            Dados de acompanhamento, etapa I              Dados de acompanhamento, etapa II
                                                       Custo por                 Custo               Custo por                  Custo
                                                        unidade     Nº de        total                unidade       Nº de       total
                                            Unidade    (em US$)    unidades    (em US$)   Unidade    (em US$)      unidades   (em US$)
      Coordenador de campo: hotel e         Dias          150           3          450    Dias              150         3         450
      diárias
      Coordenador de campo: transporte      Dias           10           3           30    Dias               10         3          30
      local terrestre
      D. Coleta de dados                                                       126.000                                        126.000
      Tipo de dado 1: consentimento         Escola        120         100       12.000    Escola            120       100      12.000
      Tipo de dado 2: resultados educa-     Criança        14       3.000       42.000    Criança            14     3.000      42.000
      cionais
      Tipo de dado 3: resultados relacio-   Criança        24       3.000       72.000    Criança            24     3.000      72.000
      nados à saúde
      E. Análise de dados e                                                                                                    55.000
      disseminação
      Oﬁcina(s)                                                                                        20.000           2      40.000
      Disseminação/divulgação de                                                                           5.000        3      15.000
      resultados
      Custo total por etapa                           Acompa-                   201.530   Acompanhamento,                     254.130
                                                      nhamento,                           etapa II
                                                      etapa I
                                                                                          Custo total da                       697.740
                                                                                          avaliação
Recursos adicionais

• Para acessar os materiais complementares a este capítulo e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www.
  worldbank.org/ieinpractice).
• Para acessar várias ferramentas destinadas a ajudar a planejar e implementar
  uma avaliação, ver o portal de Avaliação do Banco Interamericano de
  Desenvolvimento (http://www.iadb.org/evaluationhub), que inclui:
  –  Uma seção de desenho: gráﬁcos de Gantt para auxiliar na programação
     das atividades de avaliação de impacto, uma ferramenta com modelos de
     orçamento para estimar os custos da avaliação e uma lista de veriﬁcação
     com as principais atividades a realizar.
  –  Uma seção de implementação: amostra de termos de referência (TORs)
     para os pesquisadores principais, as empresas de coleta de dados e as
     equipes de suporte técnico e supervisão.
• Para obter diretrizes e ferramentas a ﬁm de ajudar a planejar e implementar
  uma avaliação, ver as Ferramentas de Avaliação de Impacto do Banco Mundial
  (Vermeersch, Rothenbühler e Sturdy 2012), que incluem:
  –  Módulo 2 – Montar a equipe: amostras de termos de referência (TORs)
     para os pesquisadores principais, coordenadores de avaliação, analistas
     de dados, pesquisadores locais, especialistas em cálculos de poder
     estatístico, especialistas em qualidade de dados, trabalhadores de
     campo e outros.
  –  Manuais de campo e programas de treinamento para entrevistas em
     domicílios e em unidades de saúde.
  –  Módulo 3 – Desenho: diretrizes sobre como alinhar o cronograma, a
     composição da equipe, o orçamento da avaliação de impacto e um modelo
     de orçamento.
  –  Módulo 4 – Preparação da coleta de dados: informações sobre o
     planejamento das atividades de coleta de dados e sobre os acordos com as
     partes interessadas referentes à propriedade dos dados, além de gráﬁco de
     Gantt e orçamento para a coleta de dados.



Notas

1. O J-PAL é o Laboratório Abdul Latif Jameel Poverty Action (ou Laboratório
   de Ação contra a Pobreza Abdul Latif Jameel). O SPD é o Escritório de
   Planejamento Estratégico e Eﬁcácia no Desenvolvimento do Banco
   Interamericano de Desenvolvimento (BID). O RES é o Departamento de
   Pesquisas do BID.
2. Para uma discussão detalhada sobre questões relacionadas à programação ao
   longo do tempo no que tange à avaliação de programas sociais, ver King e
   Behrman (2009).
3. “Há várias razões pelas quais a implementação não é nem imediata nem
   perfeita, a duração da exposição a um tratamento difere não só entre as áreas do

Gerenciamento da avaliação de impacto                                                 255
         programa, mas também entre os beneﬁciários ﬁnais, e a duração variável da
         exposição pode levar a estimativas diferentes do impacto do programa” (King e
         Behrman 2009, 56).
      4. Embora os quadros 12.1 e 12.2 forneçam referências úteis, elas não são represen-
         tativas de todas as avaliações realizadas pelo programa SIEF ou pelo Banco
         Mundial.
      5. Nesse caso, o custo é calculado como uma porcentagem da parcela do custo do
         programa ﬁnanciado pelo Banco Mundial.



      Referências

      Bertrand, Marianne, Bruno Crépon, Alicia Marguerie e Patrick Premand. 2015.
         “Cote d’Ivoire Youth Employment and Productivity Impact Evaluation.” AEA
         RCT Registry. October 9. http://www.socialscienceregistry.org/trials/763
         / history/5538.
      Currie, Janet. 2001. “Early Childhood Education Programs.” Journal of Economic
         Perspectives 15 (2): 213–38.
      Currie, Janet e Duncan Thomas. 1995. “Does Head Start Make a Difference?”
         American Economic Review 85 (3): 341–64.
      ———. 2000. “School Quality and the Longer-Term Effects of Head Start.” Journal of
         Economic Resources 35 (4): 755–74.
      Gertler, Paul, James Heckman, Rodrigo Pinto, Arianna Zanolini, Christel
         Vermeersch, Susan Walker, Susan M. Chang e Sally Grantham-McGregor. 2014.
         “Labor Market Returns to an Early Childhood Stimulation Intervention in
         Jamaica.” Science 344 (6187): 998–1001.
      Grantham-McGregor, Sally, Christine Powell, Susan Walker e John Himes. 1994.
         “The Long-Term Follow-up of Severely Malnourished Children Who
         Participated in an Intervention Program.” Child Development 65: 428–93.
      IPA (Innovations for Poverty Action). 2014. “Researcher Guidelines: Working with
         IPA.” 1° de setembro. http://www.poverty-action.org/sites/default/ﬁles/
         researcher_guidelines_version_2.0.pdf.
      King, Elizabeth M. e Jere R. Behrman. 2009. “Timing and Duration of Exposure in
         Evaluations of Social Programs.” World Bank Research Observer 24 (1): 55–82.
      King, Elizabeth M., Peter F. Orazem e Elizabeth M. Paterno. 2008. “Promotion with
         and without Learning: Effects on Student Enrollment and Dropout Behavior.”
         Policy Research Working Paper 4722, Banco Mundial, Washington, DC.
      McEwan, Patrick J. 2014. “Improving Learning in Primary Schools of Developing
         Countries: A Meta-Analysis of Randomized Experiments.” Review of
         Educational Research. doi:10.3102/0034654314553127.
      Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa e
         José Luis Evia. 2002. “An Impact Evaluation of Education, Health, and Water
         Supply Investments by the Bolivian Social Investment Fund.” World Bank
         Economic Review 16 (2): 241–74.



256                                                          Avaliação de Impacto na Prática
Sturdy, Jennifer, Sixto Aquino e Jack Molyneaux. 2014. “Learning from Evaluation
   at the Millennium Challenge Corporation.” Journal of Development Effectiveness
   6 (4): 436–50.
Vermeersch, Christel, Elisa Rothenbühler e Jennifer Sturdy. 2012. Impact
   Evaluation Toolkit: Measuring the Impact of Results-based Financing on Maternal
   and Child Health. Banco Mundial, Washington, DC. http://www.worldbank.org
   / health/impactevaluationtoolkit.




Gerenciamento da avaliação de impacto                                                257
CAPÍTULO 13




A ética e a ciência da avaliação
de impacto

A gestão de avaliações éticas e críveis

A ética da avaliação concentra-se na proteção dos indivíduos que partici-
pam da pesquisa de avaliação, enquanto a transparência dos métodos ajuda
a garantir que os resultados da avaliação sejam livres de viés, conﬁáveis e
críveis e contribuam para um conjunto mais amplo de conhecimentos.
   Os formuladores de políticas públicas e os pesquisadores têm interesse
e responsabilidade comuns em garantir que a avaliação seja ética e que
seus resultados sejam livres de viés, conﬁáveis e críveis. A não garantia
desses pressupostos pode invalidar a avaliação e provocar problemas que
vão além do escopo da avaliação. Imagine uma avaliação de impacto que
ponha em risco um grupo de pessoas devido à divulgação de dados pes-
soais, ou uma avaliação que use um mecanismo injusto de seleção ao pro-
grama ao excluir as famílias mais necessitadas. Imagine uma avaliação que
mostre que um programa é altamente bem-sucedido, mas não disponibi-
lize nenhum dado para respaldar essa aﬁrmação. Qualquer um desses
casos pode provocar protestos por parte do público ou reclamações aos
meios de comunicação, aos tribunais ou a qualquer outro canal, e cons-
tranger tanto os formuladores de políticas quanto os pesquisadores.



                                                                              259
      As críticas direcionadas à avaliação podem se disseminar e contaminar o
      próprio programa, minando sua implementação. A conﬁabilidade e a inte-
      gridade dos resultados da avaliação também são muito importantes:
      quando as avaliações produzem estimativas enviesadas ou parciais sobre o
      impacto dos programas, os formuladores de políticas têm capacidade limi-
      tada para tomar decisões bem informadas.
         Embora as avaliações de impacto estejam ligadas a programas e projetos
      públicos, elas também são uma atividade de pesquisa e, portanto, estão rela-
      cionadas ao campo das ciências sociais. Consequentemente, a equipe de
      avaliadores deve respeitar uma série de princípios e regras das ciências
      sociais para garantir que a avaliação seja ética e transparente em seus méto-
      dos e resultados.


      A ética das avaliações de impacto

      Quando uma avaliação de impacto seleciona indivíduos para os grupos
      de tratamento e de comparação e coleta e analisa dados sobre eles, a
      equipe de avaliação tem a responsabilidade de minimizar o quanto possível
      quaisquer riscos aos quais esses indivíduos possam ser submetidos, além de
      assegurar que essas pessoas só participem da avaliação após estarem plena-
      mente informadas e consentirem em participar.


      A ética da seleção para os grupos de tratamento e de comparação

      Assim como o juramento de Hipócrates na proﬁssão médica, o primeiro
      princípio da ética da avaliação deve ser não causar nenhum tipo de dano.
      A principal preocupação quanto às avaliações é a possibilidade de que a
      intervenção do programa a ser avaliada possa prejudicar os indivíduos,
      direta ou indiretamente. Por exemplo, um projeto de reforma de estradas
      pode provocar a desapropriação de casas ao longo de alguns trechos das
      rodovias. Ou um projeto de alfabetização que não leve em conta que o
      ensino do idioma oﬁcial pode prejudicar as comunidades indígenas.
      Muitos governos e doadores internacionais que ﬁnanciam programas da
      agenda de desenvolvimento socioeconômico usam um conjunto de salva-
      guardas para prevenir e mitigar esse tipo de riscos. Embora os gestores
      do programa sejam os principais responsáveis quanto à aplicação das
      medidas de salvaguarda do programa, a equipe de avaliação deve estar
      atenta para veriﬁcar se a intervenção está cumprindo o conjunto de sal-
      vaguardas exigido.
         Há uma outra preocupação sobre o dano que a avaliação pode cau-
      sar  devido à recusa de estender o programa a beneﬁciários potenciais.
260                                                      Avaliação de Impacto na Prática
Nesse  caso, um princípio fundamental é que determinados grupos não
devem ser excluídos de uma intervenção tida como benéﬁca apenas em
nome da realização de uma avaliação. As avaliações só devem ser feitas nos
casos em que a equipe de avaliação não tem certeza se uma intervenção é
benéﬁca no contexto particular em que está sendo avaliada. Além disso, se
uma avaliação demonstrar que um programa tem custo-benefício favorá-
vel, os ﬁnanciadores do programa — quer sejam eles governos, doadores ou
organizações não-governamentais — devem fazer esforços para expandir o
programa e incluir os grupos de comparação na iniciativa após a conclusão
da avaliação de impacto.
   Um princípio relacionado que defendemos neste livro é o de que as          Conceito-chave
avaliações não devem ditar como é feita a seleção para os programas. Em       Não se devem excluir
vez disso, as avaliações devem ser ajustadas às regras de seleção dos pro-    grupos de uma
gramas desde que estas sejam claras e justas. A avaliação também pode         intervenção tida como
                                                                              benéﬁca apenas em
ajudar a (re)deﬁnir regras quando elas não existem ou quando não são          nome da realização de
justas. Seguir esse procedimento ajudará a garantir que as preocupações       uma avaliação.
éticas não se originem da avaliação de impacto em si mas, sim, da ética das
regras usadas para escolher os beneﬁciários do programa. No entanto, a
seleção de pessoas elegíveis entre os grupos de tratamento e de compara-
ção pode gerar preocupações em relação à ética de se negar os serviços do
programa a pessoas elegíveis. Esse é especiﬁcamente o caso da seleção
aleatória dos serviços de um programa. Na parte 2 e no capítulo 11, enfati-
zamos que a seleção aleatória é um método que pode ser aplicado em con-
textos especíﬁcos. Em particular, o fato de a maioria dos programas operar
com recursos ﬁnanceiros e administrativos limitados torna muito difícil
oferecê-los a todas as pessoas elegíveis de uma só vez. Essa situação já
envolve questões éticas, uma vez que os próprios programas devem desen-
volver regras de seleção e impor alguma forma de racionamento de vagas,
mesmo sem a existência de uma avaliação de impacto. Do ponto de vista
ético, podemos fazer uma boa defesa da necessidade de que todos aqueles
que são igualmente elegíveis para participar de um programa tenham a
mesma chance de se beneﬁciar dele. A seleção aleatória cumpre esse
requisito. Em outros contextos em que um programa venha a ser imple-
mentado gradualmente ao longo do tempo, essa implementação pode se
basear na seleção aleatória da ordem em que os beneﬁciários ou grupos de
beneﬁciários igualmente merecedores receberão o programa. Mais uma
vez, isso dará a cada beneﬁciário elegível a mesma chance de ser o pri-
meiro a receber o programa. Nesses casos, as pessoas que entram mais
tarde no programa podem ser utilizadas como grupo de comparação para
as que entraram anteriormente, gerando um desenho consistente de ava-
liação, bem como um método transparente e justo de alocação dos recur-
sos escassos do programa.
A ética e a ciência da avaliação de impacto                                                     261
         Por ﬁm, pode haver também uma preocupação ética em não realizar uma
      avaliação quando os programas investem recursos substanciais em inter-
      venções cuja efetividade é desconhecida. Nesse contexto, a própria falta de
      avaliação pode ser vista como não ética, pois pode perpetuar programas
      dispendiosos que não beneﬁciam a população, enquanto os recursos aplica-
      dos neles poderiam ser mais bem investidos em intervenções mais efetivas.
      As informações sobre a efetividade do programa trazidas pelas avaliações
      de impacto podem levar a um investimento mais efetivo e ético dos recur-
      sos públicos.


      Como proteger as pessoas durante a coleta, o processamento
      e o armazenamento de dados

      Um segundo momento durante o qual os indivíduos podem sofrer danos é o
      da coleta, do processamento e do armazenamento de dados. Os professores,
      os médicos, as famílias, os administradores e outros indivíduos que respon-
      dam a questionários ou que forneçam dados por outros meios podem ser
      prejudicados se as informações que fornecerem se tornarem públicas sem
      as devidas salvaguardas para proteger seu anonimato. Esse tipo de dano
      pode afetar os próprios indivíduos ou a organização à qual eles pertençam.
      Aqui estão alguns exemplos:
      • Enquanto uma pesquisa está sendo realizada, uma mulher compartilha
        informações sobre suas práticas de planejamento familiar e seu marido
        (que não concorda com o planejamento familiar) ouve a conversa dela
        com o entrevistador.
      • A privacidade das famílias é violada (e sua segurança comprometida)
        quando um indivíduo consegue utilizar dados de pesquisa postados na
        internet para identiﬁcar a renda e os ativos de famílias especíﬁcas.
      • Um estudo usa entrevistadores inadequadamente qualiﬁcados para
        administrar testes biométricos, como exames de sangue.
      • Um entrevistado pede para sair de um estudo na metade da entrevista,
        mas é instruído pelo entrevistador a terminar de responder às perguntas
        da pesquisa.
      • Os dados da pesquisa são utilizados para identiﬁcar as organizações
        comunitárias que se opõem a certas políticas governamentais e retaliá-las.
         Considerando-se riscos como esses, é responsabilidade dos pesquisado-
      res principais e de outros membros da equipe de pesquisa garantir os direi-
      tos e o bem-estar dos indivíduos envolvidos na avaliação de impacto, de
      acordo com o código de ética ou a legislação nacional apropriados e com as
262                                                     Avaliação de Impacto na Prática
recomendações internacionais sobre o tema.1 A Organização Mundial da
Saúde (OMS) recomenda os seguintes critérios básicos para avaliar projetos
de pesquisa envolvendo seres humanos:

• Os direitos e o bem-estar dos indivíduos envolvidos na avaliação de
  impacto devem ser adequadamente protegidos.

• Os pesquisadores devem obter o consentimento devidamente informado
  e de livre e espontânea vontade dos participantes.

• O equilíbrio entre os riscos e os benefícios potenciais envolvidos deve ser
  avaliado e considerado aceitável por um painel de especialistas
  independente.
• Quaisquer requisitos nacionais especiais devem ser cumpridos.
   O Belmont Report on Ethical Principles and Guidelines for the Protection
of Human Subjects (Relatório Belmont sobre Princípios Éticos e Diretrizes
para a Proteção dos Seres Humanos) identiﬁca três princípios que consti-
tuem a base para a conduta ética de pesquisa envolvendo seres humanos:

• Respeito às pessoas. Como os pesquisadores obterão o consentimento
  informado dos indivíduos participantes da pesquisa?

• Beneﬁcência. Como os pesquisadores assegurarão que a pesquisa (1) não
  prejudique e (2) maximize os benefícios potenciais e minimize os danos
  potenciais?
• Justiça. Como os pesquisadores assegurarão que os benefícios e ônus da
  pesquisa se distribuam de forma justa e equitativa?
   Sendo a proteção dos seres humanos envolvidos nas avaliações um ele-
mento fundamental, o investigador principal deve submeter a pesquisa e os
protocolos de coleta de dados à revisão e aprovação de um conselho de revi-
são de práticas éticas de pesquisa (IRB, em inglês), também conhecido como
comitê de ética em pesquisa (CEP) ou conselho de revisão ética. O IRB é um
comitê designado para analisar, aprovar e monitorar pesquisas biomédicas e
comportamentais envolvendo seres humanos. Antes do início do estudo e
durante sua implementação, o IRB revisa os protocolos de pesquisa e os
materiais relacionados para avaliar a ética da pesquisa e de seus métodos.
No contexto das avaliações de impacto, a revisão do IRB é particularmente
importante quando o estudo exige a coleta de dados domiciliares e
individuais. Em especial, a análise do IRB veriﬁca se as pessoas são capazes
de optar por participar das atividades de coleta de dados e se a escolha delas
é voluntária e adequadamente informada. Por ﬁm, o IRB avalia se há alguma
razão para acreditar que a segurança dos participantes possa estar em risco.
A ética e a ciência da avaliação de impacto                                      263
                           O pesquisador principal é responsável por identiﬁcar todas as institui-
                        ções que devem analisar e recomendar correções ao estudo. Muitos países
                        têm um conselho nacional de revisão ética, e a maioria das universidades
                        possui um conselho de revisão de práticas éticas de pesquisa. Em geral, a
                        equipe precisa obter uma autorização do respectivo órgão nacional de revi-
                        são ética e do conselho de revisão de práticas éticas de pesquisa de qualquer
                        universidade à qual os pesquisadores estejam aﬁliados. Podem ocorrer casos
                        especiais em que as avaliações de impacto sejam realizadas em países que
                        não possuem um comitê nacional de revisão ética ou por pesquisadores
                        cujas instituições não têm um comitê de ética em pesquisa. Nesses casos, o
                        investigador principal deve contratar um conselho de revisão de práticas
                        éticas de pesquisa terceirizado (possivelmente, de natureza comercial).
                        O processo de revisão e aprovação pode levar de dois a três meses, embora o
                        tempo varie dependendo da frequência com que o comitê do IRB se reúne.
                        As equipes de pesquisa e de gestão dos programas devem coordenar as ativi-
                        dades de coleta de dados e de submissão à aprovação do IRB com o intuito
                        de conseguir todas as liberações necessárias antes de iniciar a coleta de
                        dados envolvendo seres humanos.
Conceito-chave             A avaliação realizada por um IRB é uma condição necessária, mas não
Um conselho de          suﬁciente, para assegurar a proteção dos seres humanos envolvidos.
revisão de práticas     A experiência e capacidade dos IRB com experimentos na área de ciências
éticas de pesquisa      sociais podem variar amplamente, assim como o foco de suas análises. Os
(IRB, em inglês) é um
                        IRB, especialmente se estiverem geograﬁcamente distantes do local onde a
comitê designado para
revisar, aprovar e      avaliação está ocorrendo, podem não ter conhecimento suﬁciente sobre as
monitorar pesquisas     circunstâncias locais para identiﬁcar riscos aos seres humanos. Podem tam-
envolvendo seres        bém colocar ênfase excessiva na redação de questionários e formulários de
humanos.                consentimento ou autorização. Ou podem ter experiência em uma área téc-
                        nica mais especíﬁca, como a de experimentos médicos, cujas normas são
                        bastante diferentes daquelas da área de ciências sociais em termos de riscos
                        para as pessoas. A preocupação com a proteção das pessoas não termina
                        quando a aprovação do IRB é obtida. Em vez disso, essa aprovação deve ser
                        vista como um ponto de partida para garantir que a avaliação seja ética.
                           Os comitês de ética em pesquisa normalmente exigem que as seguintes
                        informações sejam submetidas a análise:
                           Evidência de treinamento. Muitos IRB (assim como muitas diretrizes
                        nacionais relacionadas à ética em pesquisa) exigem que a equipe de pesquisa
                        seja treinada para garantir a proteção aos seres humanos, embora as modali-
                        dades de treinamento variem de país para país. Listamos várias opções de
                        treinamento na seção de recursos adicionais, no ﬁnal deste capítulo.
                           O protocolo de pesquisa. O protocolo de pesquisa inclui elementos cen-
                        trais normalmente deﬁnidos durante o plano de avaliação — especialmente,
                        o objetivo do estudo e os objetivos da avaliação, as principais perguntas
264                                                                        Avaliação de Impacto na Prática
relacionadas à avaliação da política pública e a metodologia de avaliação
proposta —, bem como a descrição de como a equipe de pesquisa garan-
tirá a proteção dos seres humanos. Por isso, é um registro importante na
documentação de uma avaliação. O protocolo de pesquisa normalmente
inclui os seguintes elementos relacionados ao tratamento de seres huma-
nos: os critérios de seleção dos participantes do estudo, a metodologia e
os protocolos aplicados para a proteção de indivíduos vulneráveis, os pro-
cedimentos utilizados para garantir que os participantes estejam cientes
dos riscos e benefícios de sua participação no estudo, e os procedimentos
utilizados para assegurar o anonimato. O protocolo de pesquisa deve ser
utilizado pela empresa responsável pelas entrevistas para orientar os pro-
cedimentos do trabalho de campo. Mais informações sobre o conteúdo do
protocolo de pesquisa podem ser encontradas no site da Organização
Mundial da Saúde (OMS) e no Kit de Ferramentas de Avaliação de
Impacto.2
   Procedimentos para solicitar e documentar o consentimento informado.       Conceito-chave
O consentimento informado de participação é um dos fundamentos da             O consentimento
proteção dos direitos dos seres humanos em qualquer estudo. Requer que        informado é um
os respondentes tenham um entendimento claro sobre a ﬁnalidade, os            fundamento da
                                                                              proteção de seres
procedimentos, os riscos e os benefícios da coleta de dados da qual eles
                                                                              humanos na área de
estão sendo solicitados a participar. De modo geral, o consentimento          pesquisa. Requer que
informado de um adulto que participe de uma avaliação requer um docu-         os respondentes
mento por escrito que inclua uma seção sobre os métodos usados para           tenham um entendi-
proteger a conﬁdencialidade do respondente, uma seção sobre o direito         mento claro sobre a
                                                                              ﬁnalidade, os
do entrevistado em recusar ou interromper sua participação a qualquer
                                                                              procedimentos, os
momento, uma explicação sobre os riscos e os benefícios potenciais,           riscos e os benefícios
informações de contato caso o entrevistado deseje entrar em contato com       da coleta de dados da
a equipe de coleta de dados e espaço para os entrevistados registrarem,       qual eles são
por meio de uma assinatura, seu consentimento formal por escrito para         solicitados a participar.
participar da coleta de dados. Às vezes, os entrevistados não são capazes
de fazer a escolha de participar ou não do estudo. Por exemplo, as crianças
geralmente são consideradas incapazes de fazer essa escolha. Portanto,
ao contrário dos adultos, os menores de idade não podem consentir em
participar de uma pesquisa, mas podem concordar em participar após a
autorização por escrito de seus pais ou responsáveis. Embora as etapas
descritas aqui sejam os procedimentos-padrão para o consentimento
informado, muitas avaliações de impacto solicitam a seu IRB dispensas
quanto à exigência de obter o consentimento formal por escrito dos
respondentes. Por exemplo, ao lidar com uma população analfabeta, o
consentimento formal por escrito dos potenciais entrevistados adultos
elegíveis não é, muitas vezes, exigido, podendo ser substituído por um
consentimento verbal documentado.3
A ética e a ciência da avaliação de impacto                                                       265
         Procedimentos para proteger a conﬁdencialidade dos respondentes.
      A proteção da conﬁdencialidade dos respondentes ou entrevistados é
      fundamental durante o armazenamento de dados e a disponibilização
      dos dados ao público. Todas as informações fornecidas durante o curso
      da coleta de dados devem ser tornadas anônimas para proteger a identi-
      dade dos entrevistados. Embora os resultados do estudo possam ser
      publicados, o relatório deve ser escrito de tal forma que não seja possível
      identiﬁcar um indivíduo ou uma família. No que diz respeito à garantia
      da conﬁdencialidade dos dados, cada indivíduo participante da pesquisa
      deveria receber um número de identiﬁcação codiﬁcado e único e todos os
      nomes e identiﬁcadores deveriam ser eliminados do banco de dados dis-
      ponibilizado publicamente. Os identiﬁcadores incluem qualquer variável
      que permita a identiﬁcação de pessoas ou famílias (como endereço) ou
      qualquer combinação de variáveis que permita fazer o mesmo (como
      uma combinação da data de nascimento, do local de nascimento, do sexo
      e do nível de escolaridade). Caso a equipe de pesquisa informe que preci-
      sará dos identiﬁcadores para acompanhar os entrevistados em uma pes-
      quisa subsequente, poderá manter um arquivo de dados separado e
      seguro que conecte os números de identiﬁcação codiﬁcados às informa-
      ções de identiﬁcação dos entrevistados.4 Além de codiﬁcar os números de
      identiﬁcação individuais, também pode ser necessário fazer o mesmo
      com locais e instituições. Por exemplo, se as famílias e os indivíduos rece-
      berem números de identiﬁcação codiﬁcados, mas os povoados forem
      identiﬁcados, poderá ser possível identiﬁcar as famílias por meio das
      características incluídas na pesquisa. Por exemplo, um povoado especí-
      ﬁco pode incluir uma única família que possui uma motocicleta, sete
      vacas e uma barbearia. Qualquer pessoa com acesso aos dados poderá
      localizar essa família, o que viola a sua conﬁdencialidade.


      Garantir avaliações conﬁáveis e críveis por
      meio da ciência aberta

      Um dos objetivos fundamentais da avaliação de impacto é estimar o
      impacto de um programa em relação a uma série de indicadores de resul-
      tado de interesse. A parte 2 deste livro discutiu vários métodos para
      garantir que os impactos estimados sejam robustos cientiﬁcamente. Uma
      avaliação de impacto bem elaborada e bem implementada deve assegurar
      que os resultados não tenham viés, sejam conﬁáveis e críveis e contribuam
      para ampliar os conhecimentos existentes. Quando as avaliações não têm
      viés, são conﬁáveis e críveis e fazem parte de uma área de conhecimento
      relevante, podem contribuir para boas decisões de políticas públicas e
266                                                     Avaliação de Impacto na Prática
para melhorar a vida das pessoas. Na realidade, no entanto, várias ques-
tões podem impedir a realização desse ideal. Nesta seção, discutiremos
como certas questões cientíﬁcas relacionadas à avaliação de impacto
podem se traduzir em temas difíceis para os formuladores de políticas;
discutiremos também possíveis medidas para prevenir ou mitigar essas
questões. Essas medidas são comumente agrupadas sob o termo ciência
aberta, pois visam tornar os métodos de pesquisa mais transparentes.5
A maioria dessas questões precisa ser tratada pela equipe de pesquisa,
mas a equipe de formuladores e gestores que estiver supervisionando a
avaliação de impacto também precisa estar ciente delas durante o geren-
ciamento da avaliação. Algumas dessas questões, suas implicações de
política e possíveis soluções estão resumidas no quadro 13.1.


Quadro 13.1 Garantir informações conﬁáveis e críveis para as políticas públicas por meio da
ciência aberta

                                                                                  Soluções de prevenção e
                                                                                  mitigação por meio da
 Questão em relação à pesquisa                Implicações de política             ciência aberta
 Viés de publicação. Apenas são               As decisões de política pública     Registro das avaliações.
 publicados resultados positivos. As          baseiam-se em um conjunto de
 avaliações que mostram impactos              resultados distorcidos. Os
 limitados ou inexistentes não são            formuladores das políticas
 amplamente divulgadas.                       públicas têm pouca informação
                                              sobre o que não funciona e
                                              continuam testando e/ou
                                              adotando políticas que não têm
                                              impacto.
 Mineração de dados (data mining).            As decisões para adotar interven-   Planos de pré-análise.
 Os dados são separados e desmem-             ções podem ser baseadas em
 brados até que um resultado de               estimativas positivas e impró-
 regressão positivo apareça ou que a          prias dos impactos.
 hipótese seja adaptada aos
 resultados.
 Testes de múltiplas hipóteses,               As decisões para adotar interven-   Planos de pré-análise e
 análise de subgrupos. Os pesquisa-           ções podem ser baseadas em          técnicas especializadas de
 dores separam e desmembram os                estimativas positivas e impró-      ajuste estatístico, como
 dados até encontrar um resultado             prias dos impactos.                 testes de índice (index
 positivo para algum grupo. Em                                                    tests), taxas de erro global
 especial: (1) os testes múltiplos                                                (probabilidade de obter uma
 levam à conclusão de que alguns                                                  ou mais falsas descobertas)
 impactos existem quando esse não                                                 e controle da taxa de falsas
 é o caso, ou (2) somente os                                                      descobertas.a
 impactos estatisticamente signiﬁca-
 tivos são reportados.
                                                                                                     (continua)
A ética e a ciência da avaliação de impacto                                                                  267
Quadro 13.1      (continuação)

                                                                                       Soluções de prevenção e
                                                                                       mitigação por meio da
    Questão em relação à pesquisa             Implicações de política                  ciência aberta
    Falta de replicação. Os resultados        A política pode ser baseada em           Documentação e registro
    não podem ser replicados porque o         resultados manipulados (positi-          dos dados, incluindo os
    protocolo de pesquisa, os dados e         vos ou negativos), e os resulta-         protocolos de pesquisa, os
    os métodos de análise não estão           dos podem ter se originado de            programas de organização
    suﬁcientemente documentados.              erros de estimação.                      dos dados, a publicação
    Erros e manipulações podem não            Os resultados de diferentes              dos programas utilizados e
    ser detectados.                           estudos não podem ser                    a disponibilização de dados.
    Os pesquisadores não estão                comparados.                              Mudanças nas políticas de
    interessados em replicar os estudos,      A validade dos resultados em             ﬁnanciamento e de
    e as revistas cientíﬁcas não estão        outro contexto não pode ser              publicação de revistas
    interessadas em resultados já             testada.                                 cientíﬁcas para exigir a
    encontrados na literatura.                                                         documentação dos dados e
                                              Os formuladores de políticas
                                                                                       incentivar a replicação.
    As intervenções não podem ser             públicas podem ser incapazes de
    replicadas porque o protocolo de          replicar a intervenção em um
    pesquisa não está suﬁcientemente          contexto diferente.
    documentado.
a
 Para uma introdução básica ao problema das comparações múltiplas e suas possíveis correções estatísticas, ver https://en
.wikipedia.org/wiki/Multiple_comparisons_problem.



                        Viés de publicação e registro das avaliações

                        Pesquisadores que trabalham em avaliações de impacto normalmente têm
                        interesse em que os resultados de suas avaliações sejam publicados em
                        revistas cientíﬁcas revisadas por seus pares da área, pois isso ajuda em suas
                        próprias carreiras. No entanto, a maioria dos resultados publicados em
                        revistas cientíﬁcas apresenta impactos positivos. Esse fato levanta o ques-
                        tionamento sobre o que acontece às avaliações que apresentam resultados
                        negativos ou que não mostram resultados signiﬁcativos. Os pesquisadores
                        não têm quase nenhum incentivo para redigir estudos contendo resultados
                        não signiﬁcativos nem para submetê-los a publicação em revistas cientíﬁ-
                        cas, pois percebem que há pouco interesse nesses resultados e que os perió-
                        dicos provavelmente rejeitarão seus manuscritos (Franco, Malhotra e
                        Simonovits 2014). Esse viés de publicação é comumente chamado de “pro-
                        blema de engavetamento de resultados”, pois os resultados permanecem na
                        gaveta e não são divulgados nem publicados. Questões semelhantes de viés
                        de publicação podem surgir em avaliações de impacto de programas
                        especíﬁcos. As equipes de formulação e gestão, os ﬁnanciadores e os gover-
                        nos são mais propensos a divulgar e fazer propaganda dos resultados positi-
                        vos gerados por uma avaliação de programa do que resultados negativos ou
                        a ausência de resultados. Devido a essa tendência, é difícil ter uma visão
268                                                                                     Avaliação de Impacto na Prática
clara das intervenções que não funcionam, uma vez que os resultados ten-
dem a não estar disponíveis e o conjunto de evidências disponível é bastante
distorcido. Os formuladores de políticas que tentam basear suas decisões
em evidências disponíveis podem não ter acesso aos resultados não
publicados. Dessa maneira, correm o risco de continuar testando políticas
públicas que foram malsucedidas em outros lugares.
   Uma solução parcial para o viés de publicação é o registro da avaliação.
As equipes de avaliação de impacto deveriam ser estimuladas a registrar
suas avaliações, e a equipe de formulação e gestão dos programas tem um
papel importante a desempenhar para assegurar que a equipe de pesquisa
registre a avaliação de impacto. O registro da avaliação é uma prática muito
comum (e, frequentemente, necessária) na área de ciências médicas, mas
que está apenas começando a ganhar terreno na área das ciências sociais,
inclusive para avaliações de impacto. O registro implica que os pesquisado-
res declaram publicamente sua intenção de realizar uma avaliação antes de
fazê-lo, inserindo as principais informações sobre a avaliação em um regis-
tro (ver o boxe 13.1). Como resultado, deveria ser possível obter uma lista
completa das avaliações de impacto que foram realizadas, quer seus resulta-
dos sejam positivos ou não.



     Boxe 13.1: Registros de avaliação na área de ciências sociais
     As avaliações de impacto de políticas públi-       ao desenvolvimento em países de baixa
     cas devem, normalmente, ser documenta-             e média renda. Até julho de 2015,
     das nos registros da área de ciências sociais,     essa iniciativa tinha aproximadamente
     e não nos registros da área médica, devido à       64 avaliações em seus registros.
     natureza dessas pesquisas. Aqui estão al-        • O Centro de Ciência Aberta administra
     guns exemplos:                                     o Open Science Framework (OSF), que
     • O registro da American Economic                  tem um foco ligeiramente diferente, mas
        Association para experimentos aleatórios        também pode servir como um registro
        pode ser acessado em http://www                 (https://osf.io/).
        .socialscienceregistry.org. Até julho de      • O OSF é um sistema de gerenciamento
        2015, esse registro listava 417 estudos         para projetos de pesquisa baseado
        realizados em 71 países.                        na nuvem que permite que resumos
     • A Iniciativa Internacional para Avaliação        da pesquisa sejam criados a qualquer
        de Impacto (3ie) administra o Registro de       momento, com um URL perene e uma
        Avaliações de Impacto sobre Desenvolvi-         marca temporal. Os pesquisadores
        mento Econômico Internacionais (Regis-          podem enviar seus protocolos, hipóteses
        try for International Development Impact        de pesquisa, dados e programas para o
        Evaluations–RIDIE), que se concentra            OSF e compartilhar o link criado na inter-
        em avaliações de impacto relacionadas           net como prova de registro.


A ética e a ciência da avaliação de impacto                                                          269
         Os registros constituem um grande avanço para assegurar que o con-
      junto de conhecimentos disponíveis se torne menos distorcido. No
      entanto, muitos desaﬁos ainda precisam ser enfrentados. Por exemplo,
      mesmo que ﬁque claro em um registro que uma avaliação foi realizada,
      pode não ser tão fácil obter informações sobre os resultados dessa
      avaliação. As avaliações de impacto podem ser interrompidas ou podem
      não ser bem realizadas. E mesmo que estejam disponíveis os resultados de
      uma avaliação que não encontrou impacto do programa, isso muitas vezes
      desencadeia um conjunto adicional de perguntas que diﬁculta a interpre-
      tação dos resultados: os pesquisadores não encontraram nenhum resul-
      tado porque a avaliação foi mal planejada e mal realizada, porque o
      programa não estava bem implementado ou porque o programa realmente
      não teve nenhum impacto? Conforme discutido no capítulo 16, a coleta
      de dados complementares por meio do monitoramento do programa ou a
      partir de fontes de dados alternativas pode ajudar a garantir que os resul-
      tados sejam bem interpretados.


      Mineração de dados, teste de múltiplas hipóteses e análise
      de subgrupos

      Outro problema potencial relacionado às avaliações de impacto é a minera-
      ção de dados (data mining), a prática de manipular os dados em busca de
      resultados positivos. A mineração de dados pode se manifestar de diferentes
      maneiras. Por exemplo, quando os dados são disponibilizados, pode haver a
      tentação de realizar regressões com os dados até que algo positivo surja e,
      em seguida, adaptar uma hipótese atraente para o resultado encontrado.
      Isso é um problema pelo seguinte motivo: quando realizamos testes estatís-
      ticos para medir a signiﬁcância dos impactos, precisamos usar um nível de
      signiﬁcância de, digamos, 5%. Estatisticamente, um em cada 20 testes do
      impacto será signiﬁcativo no nível de 5%, mesmo que a distribuição subja-
      cente não garanta a existência de impacto (ver o capítulo 15 para informa-
      ções sobre erros do tipo I). Com a mineração de dados, não se pode mais
      saber se o resultado de um impacto é um resultado genuíno ou se é prove-
      niente puramente das propriedades estatísticas do teste. Esse problema está
      relacionado à questão do teste de múltiplas hipóteses: quando um trabalho
      de pesquisa inclui muitas hipóteses diferentes, há uma alta probabilidade de
      que pelo menos uma delas seja conﬁrmada por um teste positivo puramente
      por acaso (devido às propriedades estatísticas do teste), e não por causa do
      impacto real. Uma situação semelhante ocorre com as análises de subgru-
      pos: quando a amostra é suﬁcientemente grande, os pesquisadores podem
      tentar subdividi-la até que encontrem um impacto signiﬁcativo para algum
      dos subgrupos. Mais uma vez, nesse caso também não é possível saber se o
270                                                     Avaliação de Impacto na Prática
resultado do impacto para esse subgrupo é um resultado genuíno ou se ele
provém puramente das propriedades estatísticas do teste.
   Outro exemplo de mineração de dados ocorre quando a decisão de conti-
nuar ou suspender a coleta de dados depende de um resultado intermediá-
rio: por exemplo, uma pesquisa domiciliar foi planejada para uma amostra
de 2.000 famílias e o trabalho de campo alcançou 1.000 famílias. Se essa
amostra reduzida produzir um resultado de avaliação de impacto positivo e
a decisão de suspender a coleta de dados vier a ser tomada para evitar o risco
de que dados adicionais possam alterar os resultados, isso constituiria mine-
ração de dados. Outros exemplos desse tipo de prática são a exclusão de cer-
tas unidades ou grupos de observação ou a ocultação seletiva de resultados
que não se encaixam no resultado desejado. Embora não haja nenhuma
razão para acreditar que essas práticas sejam difundidas, apenas alguns
casos notórios e escandalosos têm o potencial de minar a validação das ava-
liações de impacto como ciência. Além disso, mesmo casos menores de
mineração de dados têm o potencial de distorcer o conjunto de evidências
utilizado pelos formuladores de políticas para decidir quais as intervenções
que serão iniciadas, terão continuidade ou serão interrompidas.
   Uma recomendação comum para evitar a mineração de dados é usar um
plano de pré-análise. Esse plano deﬁne os métodos de análise antes da reali-
zação da análise da avaliação de impacto, esclarecendo, assim, o seu enfoque
e reduzindo o potencial de alteração dos métodos uma vez iniciada a análise.
O plano de pré-análise deve especiﬁcar os resultados a ser medidos, as vari-
áveis a ser criadas e utilizadas, os subgrupos para os quais a análise será con-
duzida e as abordagens analíticas básicas a ser utilizadas na estimativa do
impacto. Os planos de pré-análise também devem incluir as propostas dos
pesquisadores de correção de testes de múltiplas hipóteses e testes de sub-
grupos, caso seja necessário. Por exemplo, testar o impacto de uma interven-
ção educacional mediante as notas em seis disciplinas diferentes
(matemática, português, geograﬁa, história, ciências e inglês), com cinco
grupos de idade diferentes (da 1ª à 5ª séries) e dois gêneros (masculino e
feminino) corresponde a 60 hipóteses diferentes, e uma ou várias delas pro-
vavelmente apresentariam um teste signiﬁcativo por acaso. Em vez disso, o
pesquisador pode propor calcular um ou mais índices que agrupem os indi-
cadores de modo a reduzir o número de hipóteses e subgrupos.6
   Embora um plano de pré-análise possa ajudar a diminuir a preocupa-
ção com a mineração de dados, há também a preocupação de que esse
tipo de plano possa remover a ﬂexibilidade necessária para o tipo de aná-
lise realizada pelos pesquisadores. Por exemplo, o plano de pré-análise
pode especiﬁcar os canais de impacto previstos para uma intervenção ao
longo da cadeia de resultados. No entanto, após a intervenção ser real-
mente implementada, uma série de fatores adicionais imprevistos pode
A ética e a ciência da avaliação de impacto                                        271
      aparecer de repente. Por exemplo, se um governo estiver pensando em
      implementar uma nova maneira de pagar os prestadores de assistência
      médica, talvez seja possível pensar em alguns canais potenciais de
      impacto. No entanto, seria muito difícil antecipar todos os possíveis efei-
      tos que a medida poderia ter. Em alguns casos, seria necessário realizar
      entrevistas qualitativas com os prestadores de serviço para entender exa-
      tamente como eles se adaptaram às mudanças e como a medida está afe-
      tando o seu desempenho. Seria muito difícil incorporar, de antemão,
      todas essas possibilidades no plano de pré-análise. Nesse caso, os pesqui-
      sadores teriam que trabalhar fora do plano de pré-análise original — e
      não deveriam ser penalizados por isso. Em outras palavras, um plano de
      pré-análise pode dar credibilidade adicional às avaliações, transfor-
      mando-as em conﬁrmações de uma hipótese, em vez de apenas uma pes-
      quisa exploratória. Mas os pesquisadores devem ser capazes de continuar
      explorando novas opções que poderão ser transformadas em pesquisas
      conﬁrmatórias em avaliações subsequentes.


      Falta de replicação

      Existem dois tipos de replicação importantes para a avaliação de impacto.
      Em primeiro lugar, para um determinado estudo, pesquisadores que não
      fazem parte da equipe de pesquisa inicial devem ser capazes de produzir os
      mesmos resultados (ou, pelo menos, resultados muito semelhantes) que os
      pesquisadores iniciais ao usar os mesmos dados e análise. As replicações de
      um determinado resultado de avaliação de impacto são uma forma de veri-
      ﬁcar sua validade interna e a ausência de viés. Quando os estudos ou os
      resultados não podem ser replicados por falta de disponibilidade de infor-
      mações sobre os programas ou dados utilizados, existe o risco de que erros
      e manipulações na análise não sejam detectados e resultados inexatos con-
      tinuem a inﬂuenciar as políticas públicas. Felizmente, estão ocorrendo
      avanços substanciais em relação à disponibilização de dados, programas e
      protocolos utilizados. Um número crescente de periódicos da área de ciên-
      cias sociais está começando a exigir que os dados e programas utilizados
      sejam disponibilizados com a publicação dos resultados. Diretrizes como as
      da organização Transparency and Openness Promotion Guidelines
      (Diretrizes de Promoção da Transparência e Abertura), desenvolvidas pelo
      Centro de Ciência Aberta, estão mudando lentamente as práticas e os incen-
      tivos no setor. Para garantir que a replicação possa ocorrer, as equipes de
      avaliação de impacto precisam disponibilizar os dados publicamente e
      garantir que todos os protocolos (incluindo o protocolo de aleatorização),
      bases de dados e programas de análise da avaliação de impacto sejam docu-
      mentados, armazenados com segurança e suﬁcientemente detalhados.
272                                                     Avaliação de Impacto na Prática
   Em segundo lugar, depois que uma avaliação é concluída, deve ser possí-
vel para outros formuladores de políticas e pesquisadores acessarem os
protocolos de intervenção e avaliação originais e, em seguida, aplicá-los em
um contexto diferente ou em um momento diferente para veriﬁcar se os
resultados se mantêm em circunstâncias diferentes. A falta de replicação
dos resultados da avaliação é um problema sério para os formuladores de
políticas públicas. Digamos que uma avaliação mostre que a introdução de
computadores na escola tem resultados altamente benéﬁcos, mas que esse
seja o único estudo a produzir tais resultados e que outros pesquisadores
sejam incapazes de obter os mesmos resultados positivos em avaliações
subsequentes de programas semelhantes. O que um formulador de políti-
cas públicas deve fazer nesses casos? A falta de replicação dos resultados
pode ter muitas causas. Em primeiro lugar, pode ser difícil realizar avalia-
ções que apenas tentem replicar os resultados obtidos em um estudo ante-
rior: nem pesquisadores nem ﬁnanciadores podem estar interessados em
estudos desse tipo. Em segundo lugar, mesmo quando há vontade e recur-
sos para replicar estudos, a replicação nem sempre é possível porque os
protocolos (incluindo o protocolo de aleatorização), dados e programas de
análise do estudo original podem não estar disponíveis ou não ser suﬁcien-
temente detalhados. Há um esforço crescente entre as organizações que
apoiam as avaliações de impacto para estimular as replicações em vários
cenários, por exemplo, por meio do desenvolvimento de agrupamentos de
estudos sobre tópicos semelhantes ou da promoção de avaliações de
impacto em vários locais.


Lista de veriﬁcação: uma avaliação de impacto
ética e crível

Os formuladores de políticas públicas têm o importante papel de garantir a
realização de uma avaliação de impacto ética e crível. Em especial, os for-
muladores têm a responsabilidade primordial de garantir que as regras de
seleção dos beneﬁciários aos programas sejam justas e devem responsabili-
zar a equipe de pesquisa pela transparência dos métodos de investigação.
Sugerimos a seguinte lista de perguntas a fazer:
¸ A seleção para os grupos de tratamento e de comparação é justa?
  Existem grupos com elevadas necessidades especiais que deveriam
  receber o programa de qualquer maneira? Quem será excluído da ava-
  liação de impacto?
¸ A equipe de pesquisa identiﬁcou um conselho de revisão de práticas éti-
  cas de pesquisa ou o Comitê de Ética em Pesquisa?
A ética e a ciência da avaliação de impacto                                    273
      ¸ O cronograma da avaliação de impacto fornece tempo suﬁciente para o
        preparo e o envio do protocolo de pesquisa ao Comitê de Ética em
        Pesquisa e a obtenção de consentimento antes do início da coleta de
        dados com seres humanos?
      ¸ A equipe de pesquisa submeteu o protocolo de pesquisa e o plano de pré-
        -análise a um registro de avaliações na área de ciências sociais?
      ¸ Existe um procedimento para assegurar que os elementos-chave da
        intervenção sejam documentados à medida que ocorrem, e não apenas
        enquanto são planejados?
      ¸ Os formuladores de políticas públicas entendem que os resultados da
        avaliação podem mostrar que a intervenção não foi efetiva, e eles concor-
        dam com o fato de que tais resultados serão publicados e não serão
        retidos?
      ¸ A equipe de avaliação identiﬁcou a maneira como os dados e resulta-
        dos da avaliação serão disponibilizados, mesmo que a equipe de pes-
        quisa não consiga publicar os resultados em um periódico revisto por
        seus pares?
      Os princípios, as questões e a lista de veriﬁcação apresentados neste capí-
      tulo podem ajudar a garantir que sua avaliação de impacto seja crível e ética.


      Recursos adicionais

      • Para acessar os materiais complementares a este livro e hiperlinks com
        recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
        .worldbank.org/ieinpractice).
      • Treinamento sobre como lidar com seres humanos em pesquisa dos National
        Institutes of Health–NIH (Institutos Nacionais de Saúde) dos EUA.
        −  O NIH oferece um treinamento on-line que, embora seja focado na área de
           ciências médicas nos Estados Unidos, é muito informativo e leva apenas
           uma hora para ser concluído. Ver http://phrp.nihtraining.com/users/login.
           php e http://www.ohsr.od.nih.gov.
      • Treinamento sobre como lidar com seres humanos em pesquisa por meio
        da Collaborative Institutional Training Initiative–CITI (Iniciativa de
        Treinamento Institucional Colaborativo) da Universidade de Miami.
        −  A CITI oferece cursos internacionais em várias línguas para organizações
           e indivíduos, embora o programa cobre uma taxa (a partir de US$ 100 por
           pessoa). Ver http://www.citiprogram.com.
      • Compilação internacional de padrões de pesquisa com seres humanos
        −  Todos os anos, o Department of Health and Human Services
           (Departamento de Saúde e Serviços Humanos) dos EUA publica uma

274                                                       Avaliação de Impacto na Prática
       compilação de leis, regulamentos e diretrizes que regem as pesquisas
       envolvendo seres humanos. A edição de 2015 inclui 113 países, bem como
       as normas de várias organizações internacionais e regionais. O documento
       identiﬁca os conselhos institucionais nacionais e internacionais de revisão
       de ética em pesquisa (http://www.hhs.gov/ohrp/international)
•   Procedimentos para proteção de seres humanos em pesquisa apoiados pela
    USAID (Agência dos Estados Unidos para o Desenvolvimento Internacional)
    (http://www.usaid.gov/policy/ads/200/humansub.pdf ).
•   Manual de Melhores Práticas em Pesquisas Transparentes de Ciências Sociais,
    de Garret Christensen com a assistência de Courtney Soderberg (Center for
    Open Science – Centro de Ciência Aberta) (https://github.com/garretchristen-
    sen/BestPracticesManual).
    −  Esse é um guia de trabalho que apresenta as melhores práticas mais
       recentes para a pesquisa quantitativa e transparente na área de ciências
       sociais. O manual é atualizado regularmente.
•   As diretrizes da organização Transparency and Openness Promotion (TOP,
    ou Promoção da Transparência e da Abertura) (http://centerforopenscience
    .org/top/).
    −  As diretrizes podem ser encontradas no site do Centro de Ciência Aberta
       (Center for Open Science).
•   Para acessar os links de comitês independentes e reconhecidos de éti-
    ca em pesquisa, ver o Portal de Avaliação do Banco Interamericano de
    Desenvolvimento (https://www.iadb.org/evaluationhub).
•   Para obter mais informações sobre a coleta de dados, ver o Portal de Avaliação
    do Banco Interamericano de Desenvolvimento (https://www.iadb.org/evalua-
    tionhub).
    −  Consulte a seção de coleta de dados do tópico Proteção de Seres Humanos.
    −  Tome nota do link da Association for the Accreditation of Human
       Research Protection Programs–AAHRPP (Associação para a Acreditação
       de Programas de Proteção de Pesquisa com Seres Humanos). AAHRPP
       fornece treinamento e certiﬁcação para comitês de ética em pesquisa. Uma
       lista das organizações credenciadas pode ser encontrada em seu site.
•   Para obter diretrizes referentes à proteção de participantes humanos em
    pesquisas, ver o Kit de Ferramentas de Avaliação de Impacto do Banco Mundial,
    Módulo 4 (https://www.worldbank.org/health/impactevaluationtoolkit).



Notas

1. Na ausência de diretrizes nacionais relacionadas à ética em pesquisa, o pesqui-
   sador e sua equipe devem ser orientados pela Declaração de Helsinque adotada
   pela Vigésima-Nona Assembleia Médica Mundial de Tóquio (outubro de 1975)
   e pelo artigo 7º do Pacto Internacional pelos Direitos Civis e Políticos adotado
   pela Assembleia Geral da Organização das Nações Unidas (ONU) em 16 de
   dezembro de 1966. Orientações adicionais são fornecidas pela Organização
   Mundial da Saúde (OMS) e pelo Belmont Report on Ethical Principles and

A ética e a ciência da avaliação de impacto                                           275
           Guidelines for the Protection of Human Subjects (Relatório Belmont sobre
           Princípios Éticos e Diretrizes para a Proteção de Seres Humanos) (1974) (http://
           www.hhs.gov/ohrp/policy/belmont.html). Uma compilação internacional de
           padrões de pesquisa com seres humanos pode ser encontrada em http://www
           .hhs.gov/ohrp/international.
      2.   As diretrizes da Organização Mundial da Saúde sobre como escrever um
           protocolo de pesquisa envolvendo a participação de seres humanos podem
           ser encontradas em http://www.who.int/rpc/research_ethics/guide_rp/en
           /index.html.
      3.   Mais informações sobre procedimentos de consentimento durante a coleta de
           dados podem ser encontradas no Kit de Ferramentas de Avaliação de Impacto
           do Banco Mundial.
      4.   Mais informações sobre a atribuição de números de identiﬁcação podem ser
           encontradas no Kit de Ferramentas de Avaliação de Impacto do Banco Mundial.
      5.   Para obter mais informações sobre as recomendações da ciência aberta no
           contexto das avaliações de impacto, ver Miguel e outros (2014).
      6.   Outras técnicas estão disponíveis. Ver, por exemplo, Anderson (2008).



      Referências

      Anderson, Michael L. 2008. “Multiple Inference and Gender Differences in the
         Effects of Early Intervention: A Reevaluation of the Abecedarian, Perry
         Preschool, and Early Training Projects.” Journal of the American Statistical
         Association 103 (484): 1481–95.
      Christensen, Garret e Courtney Soderberg. 2015. The Research Transparency
         Manual. Berkeley Initiative for Transparency in the Social Sciences. https://
         github.com/garretchristensen/BestPracticesManual.
      Franco, Annie, Neil Malhotra e Gabor Simonovits. 2014. “Publication Bias in the
         Social Sciences: Unlocking the File Drawer.” Science 345 (6203): 1502–5.
      Miguel, Edward, C. Camerer, Katherine Casey, Joshua Cohen, Kevin M. Esterling
         e outros. 2014. “Promoting Transparency in Social Science Research.” Science
         343: 30–31.
      National Commission for the Protection of Human Subjects of Biomedical and
         Behavioral Research. 1978. The Belmont Report: Ethical Principles and Guidelines
         for the Protection of Human Subjects of Research. U. S. Department of Health,
         Education, and Welfare Publication No. (OS) 78-0012. Washington, DC:
         Government Printing Office.
      Vermeersch, Christel, Elisa Rothenbühler e Jennifer Sturdy. 2012. Impact
         Evaluation Toolkit: Measuring the Impact of Results-Based Financing on
         Maternal and Child Health. Banco Mundial, Washington, DC. http://www
         .worldbank.org/health/impactevaluationtoolkit.




276                                                            Avaliação de Impacto na Prática
CAPÍTULO 14




Disseminar resultados e
lograr impacto em políticas
públicas

Uma sólida base de evidências para as políticas
públicas

Finalmente terminou a árdua tarefa de avaliar o seu programa do começo ao
ﬁm, um esforço de vários anos que envolveu recursos ﬁnanceiros e humanos
signiﬁcativos. Os produtos de sua avaliação ﬁnal, incluindo um relatório de
200 páginas e vários anexos, foram entregues. Missão cumprida?
   Na realidade, é agora que uma nova fase começa para garantir que todo
esse esforço valha a pena sob a forma de impacto nas políticas públicas.
As avaliações de impacto visam, fundamentalmente, à prestação de contas
por investimentos passados e à orientação das decisões políticas futuras
para um desenvolvimento mais efetivo em termos de custos para que recur-
sos escassos possam produzir os mais elevados retornos sociais possíveis.
Essas decisões políticas serão inﬂuenciadas por uma série de fatores, que
vão desde a economia política até posições ideológicas. Mas as avaliações
de impacto podem e devem inﬂuenciar políticas públicas ao fornecer uma
base sólida de evidências que direcione os recursos para intervenções efeti-
vas e comprovadas. Desde as primeiras etapas de um novo programa,

                                                                               277
Conceito-chave           incluindo a fase de concepção, as evidências disponíveis de avaliações de
As avaliações de         impacto relevantes devem desempenhar um papel central na orientação do
impacto devem            desenho do programa e do próximo conjunto de perguntas de avaliação.
responder a questões
                            Em geral, no entanto, o processo de inﬂuenciar a política pública não
de políticas públicas
relevantes de maneira
                         ocorre espontaneamente apenas por meio da geração de evidências. As ava-
rigorosa, trazer         liações de impacto devem, em primeiro lugar, responder a questões de polí-
evidências concretas     tica pública relevantes de uma forma rigorosa, fornecendo provas concretas
para as principais       aos principais interessados no tempo adequado. Mas os formuladores de
partes interessadas em   políticas públicas e os gestores dos programas podem não ter tempo e ener-
tempo hábil e
                         gia para se aprofundar nos detalhes de um relatório de 200 páginas para
disseminar evidências
de forma que os          extrair suas principais conclusões e recomendações. As informações gera-
tomadores de decisão     das por meio de avaliações de impacto precisam ser organizadas e dissemi-
possam acessá-las e      nadas de maneira que os tomadores de decisão possam acessá-las e utilizá-las
utilizá-las com          com facilidade.
facilidade.
                            Neste capítulo, discutiremos como a sua avaliação de impacto pode
                         inﬂuenciar a política pública, os principais grupos de interesse que você
                         deseja alcançar e as estratégias para comunicar e disseminar informações
                         aos públicos-alvo para que a avaliação logre seu impacto de política.
                            O ponto de partida para inﬂuenciar as políticas públicas é a seleção de per-
                         guntas de avaliação relevantes que serão úteis para a tomada de decisões,
                         conforme discutido na parte 1 deste livro. Durante as primeiras etapas da ela-
                         boração de uma avaliação de impacto, os formuladores de políticas públicas e
                         os avaliadores provavelmente começarão com uma ampla lista de perguntas.
                         Essa lista deve ser analisada pelo grupo formado pelas principais partes inte-
                         ressadas e pelos tomadores de decisão que, em última instância, são aqueles
                         que usarão a avaliação de impacto para formular as decisões. A lista ampla
                         costuma ser corrigida e melhorada ao longo do tempo para incluir um número
                         mais limitado de questões bem formuladas que sejam ao mesmo tempo rele-
                         vantes para a política pública e passíveis de ser respondidas por meio de uma
                         avaliação de impacto utilizando os métodos discutidos na parte 2 deste livro.
                         Nesse sentido, a primeira etapa crítica para inﬂuenciar a política pública é
                         conseguir engajar, simultaneamente, os formuladores de políticas públicas
                         no processo de identiﬁcação das perguntas mais importantes e a equipe de
                         avaliação na análise da viabilidade técnica de responder essas perguntas.
                            Quando o programa já estiver em funcionamento, a avaliação de impacto
                         provavelmente produzirá importantes insumos analíticos que podem servir
                         para orientar as políticas públicas bem antes de o programa e a avaliação de
                         impacto terem se concretizado. Um exemplo comum desses insumos são as
                         conclusões obtidas por meio de uma pesquisa de linha de base ou de uma
                         análise de resultados de curto prazo. As pesquisas de linha de base produ-
                         zem, frequentemente, os primeiros dados abrangentes e especíﬁcos sobre a
                         população de um programa, fornecendo estatísticas descritivas que podem
278                                                                          Avaliação de Impacto na Prática
ser usadas no desenho do programa e nos diálogos sobre políticas públicas.
Embora um programa possa contar com uma descrição geral de sua popula-
ção-alvo por meio de pesquisas nacionais ou estudos de diagnóstico, a pes-
quisa de linha de base pode fornecer as primeiras informações detalhadas
sobre subpopulações especíﬁcas ou áreas geográﬁcas onde o programa
operará. Por exemplo, um programa concebido para melhorar a nutrição
infantil por meio de suplementos nutricionais pode dispor de estatísticas no
nível nacional sobre as taxas de baixa estatura e baixo peso obtidas em pes-
quisas existentes, mas a pesquisa de linha de base pode fornecer as primei-
ras medidas sobre o estado nutricional e os hábitos alimentares do grupo de
crianças que o programa realmente atenderá. Esse tipo de informação pode
ser valioso para adaptar o desenho da intervenção e deve ser disponibilizado
para a equipe de formuladores e gestores em tempo hábil (de preferência,
antes da implantação da intervenção) a ﬁm de inﬂuenciar o desenho do
programa. O boxe 14.1 apresenta um exemplo de Moçambique.



     Boxe 14.1: O impacto sobre a política pública de um modelo
     inovador de pré-escola em Moçambique
     (continuação do capítulo 1)

     No capítulo 1 (ver o boxe 1.2), uma avaliação        desde a linguagem e a comunicação até o
     do programa de pré-escolas comunitárias da           desenvolvimento cognitivo e socioemocional.
     Save the Children em Moçambique consti-                  A pesquisa de linha de base foi apresen-
     tuiu uma contribuição importante para a polí-        tada pela equipe de avaliação em seminários
     tica nacional de desenvolvimento da primeira         e oﬁcinas, nos quais os resultados foram
     infância no país africano. No entanto, mesmo         discutidos com formuladores de políticas
     antes do término do programa, a avaliação            públicas da alta hierarquia, doadores interna-
     gerou informações novas e reveladoras para           cionais e os principais interessados na
     o debate público do país nessa área. A pes-          comunidade dedicada ao desenvolvimento
     quisa de linha de base da avaliação gerou as         da primeira infância. Os dados gerados por
     primeiras medições populacionais de desen-           meio dessa avaliação de impacto reforçaram
     volvimento infantil utilizando testes especiali-     ainda mais a necessidade da realização de
     zados adaptados ao contexto moçambicano              investimentos nessa área e desempenha-
     e coletados por pesquisadores especializados.        ram um papel catalisador na mobilização do
     Embora os dados dissessem respeito a um              apoio à agenda da primeira infância em
     grupo seleto de comunidades de uma provín-           Moçambique. A avaliação completa acabou
     cia de Moçambique, as estatísticas de linha          sendo divulgada por meio de vários canais,
     de base forneceram um primeiro retrato dos           entre eles blogs, resumos de política pública
     resultados do desenvolvimento infantil no            e vídeos, alguns dos quais estão compilados
     país, mostrando que muitas crianças apre-            no site da Iniciativa Internacional para a
     sentavam atraso em várias dimensões,                 Avaliação de Impacto (3ie).


Disseminar resultados e lograr impacto em políticas públicas                                               279
         Algumas avaliações de impacto, especialmente aquelas que dependem de
      fontes de dados administrativos ou levantamentos de rotina, podem produ-
      zir resultados intermediários que retroalimentam o programa enquanto ele
      está sendo implementado. Esses resultados fornecem informações e reco-
      mendações valiosas sobre as mudanças dos indicadores ao longo do per-
      curso causal e do avanço da iniciativa, permitindo que tanto a implementação
      do programa quanto o cronograma das atividades de avaliação sejam ajusta-
      dos em conformidade. Por exemplo, se na metade de um programa ﬁcar
      claro que não há efeitos sobre os resultados de curto prazo, pode ser aconse-
      lhável a implementação de uma avaliação operacional para detectar garga-
      los e adotar ações corretivas. O cronograma de avaliação pode ser ajustado
      para evitar a realização de uma dispendiosa pesquisa ﬁnal. No exemplo do
      programa de nutrição infantil, se a análise de dados administrativos sobre a
      distribuição de suplementos nutricionais comprovar que os suplementos
      não estão chegando aos beneﬁciários pretendidos, a equipe de formuladores
      e gestores públicos poderá ser alertada sobre a necessidade de uma revisão
      em sua cadeia de abastecimento. A custosa pesquisa de acompanhamento
      para medir a altura e o peso das crianças pode ser adiada até alguns meses
      após o programa começar a funcionar efetivamente, uma vez que não há
      bons motivos para acreditar que o programa nutricional possa ter gerado
      qualquer impacto se não estava alcançando seus participantes.
         As avaliações de impacto tendem a produzir grande volume de informa-
      ções, desde os fundamentos técnicos do desenho da avaliação até as estatís-
      ticas descritivas e análises de impacto, complementadas por bases de dados,
      programação dos procedimentos estatísticos e relatórios. É fundamental
      que a equipe de avaliação se esforce para documentar todas as informações
      ao longo do ciclo de avaliação e, na medida do possível, disponibilize toda a
      documentação técnica (não conﬁdencial) relevante ao público, por exem-
      plo, por meio de um site especíﬁco da avaliação. Em última análise, a credi-
      bilidade dos resultados da avaliação dependerá da metodologia e do rigor
      com que ela foi implementada. A plena transparência reforça a conﬁabili-
      dade da avaliação e seu potencial para inﬂuenciar a política pública.
         Embora a completude e a transparência sejam fundamentais, a maioria
      dos usuários não se aprofundará nos detalhes. Caberá à equipe de avaliação
      destacar um conjunto de mensagens-chave de fácil compreensão que resu-
      mam os resultados e as recomendações mais relevantes de política pública, e
      divulgá-las de maneira consistente a todos os públicos. O sequenciamento das
      atividades de disseminação também é crítico para o impacto sobre as políticas
      públicas. Salvo acordo em contrário com a equipe de formuladores e gestores,
      a rodada inicial de apresentações e consultas relacionadas aos resultados de
      uma avaliação deve ser realizada internamente com a equipe do programa, os
      gestores e os formuladores de políticas públicas. Um resultado prematuro,
280                                                      Avaliação de Impacto na Prática
divulgado para o público em geral, pode prejudicar a reputação de um pro-
grama, com prejuízos duradouros para o impacto político da avaliação.


Adaptar a estratégia de comunicação para
diferentes públicos-alvo

Há, pelo menos, três públicos principais para os resultados das avaliações de
impacto: a equipe e os gestores envolvidos no programa especíﬁco a ser ava-
liado; os formuladores de políticas públicas da alta hierarquia, que utilizarão
a avaliação para orientar o ﬁnanciamento e as decisões referentes à elabora-
ção de políticas públicas; e a comunidade de usuários da avaliação, que
abrange de maneira ampla a comunidade acadêmica, os proﬁssionais da
área de desenvolvimento socioeconômico, a sociedade civil (incluindo a
mídia) e os participantes do programa. Cada um desses públicos terá inte-
resses diferentes nos resultados da avaliação e exigirá estratégias de comu-
nicação adaptadas de forma a atingir o objetivo de informar e inﬂuenciar as
políticas públicas (quadro 14.1).
   Técnicos e gestores. O primeiro público-alvo inclui as equipes técnica e
operacional e os gestores que desenharam e implementaram o programa,
bem como funcionários de instituições (como um ministério ou entidade de
ﬁnanciamento) estreitamente associados ao projeto. Em geral, esse grupo
de indivíduos será o primeiro a ver os resultados e fornecer comentários
sobre as interpretações e recomendações da avaliação.

Quadro 14.1 Engajar os públicos-alvo para lograr impacto nas políticas públicas: por
que, quando e como

                                                                                Acadêmicos da área de
                                                                                desenvolvimento
                 Equipe e gestores do             Formuladores de políticas     socioeconômico e
                 programa                         públicas da alta hierarquia   grupos da sociedade civil
 Por quê?        Eles podem se tornar             Eles precisam entender por    Eles precisam de evidên-
                 defensores das avaliações        que a questão é importante,   cias sobre o impacto dos
                 de impacto e do uso de           como a avaliação de impacto   programas de desenvolvi-
                 evidências.                      pode ajudá-los a tomar        mento socioeconômico
                                                  melhores decisões e,          para tomar decisões,
                                                  ﬁnalmente, o que as evidên-   elaborar novos programas,
                                                  cias lhes dizem sobre o       replicar programas
                                                  direcionamento de seus        bem-sucedidos em outros
                                                  esforços (e do ﬁnanciamento   países e realizar pesquisas
                                                  disponível).                  que possam ajudar a
                                                                                melhorar a qualidade de
                                                                                vida da população.
                                                                                                   (continua)


Disseminar resultados e lograr impacto em políticas públicas                                             281
Quadro 14.1 (continuação)

                                                                             Acadêmicos da área de
                                                                             desenvolvimento
              Equipe e gestores do        Formuladores de políticas          socioeconômico e
              programa                    públicas da alta hierarquia        grupos da sociedade civil
Quando?       No início, mesmo antes      No início, durante a deﬁnição      Dependendo do programa
              de o programa ser           das perguntas da avaliação e       que está sendo avaliado,
              lançado, e por meio de      antes da avaliação ter início e,   os grupos da sociedade
              interações contínuas e      novamente, quando os               civil e especialistas em
              frequentes. Os dados de     resultados forem ﬁnalizados.       desenvolvimento socioe-
              linha de base podem ser     É importante que os formula-       conômico podem ser
              usados para ajustar a       dores de políticas da alta         importantes defensores
              intervenção. Eles são os    hierarquia compreendam por         locais. As informações
              primeiros a comentar os     que a avaliação de impacto         devem ser divulgadas
              resultados da avaliação.    está sendo realizada e como        quando os resultados
                                          os resultados podem                forem ﬁnalizados e
                                          ajudá-los.                         tiverem sido examinados
                                                                             pela equipe do programa e
                                                                             pelos formuladores de
                                                                             políticas públicas.
Como?         Introduzindo o papel das    Por meio de apresentações          Eventos e fóruns
              evidências na formulação    em oﬁcinas nacionais e             públicos — incluindo
              de políticas públicas       reuniões com equipes de            seminários e conferências,
              através de uma oﬁcina       funcionários sêniores para         textos para discussão,
              para engajar os gestores    explicar o trabalho. Incentive     artigos em revistas e
              do programa no projeto de   os gestores dos programas, a       jornais, cobertura da mídia
              avaliação. O acompanha-     equipe técnica e os formula-       e materiais on-line — são
              mento deve ser feito com    dores de políticas públicas de     os caminhos para alcançar
              reuniões em momentos-       hierarquia média a manter os       esses públicos.
              -chave: logo a seguir à     ministérios informados sobre
              coleta dos dados de linha   a avaliação de impacto.
              de base, depois da          Quando as evidências
              obtenção dos resultados     estiverem ﬁnalizadas,
              intermediários e ao ﬁnal    apresente-as aos formulado-
              da avaliação.               res de políticas públicas da
                                          alta hierarquia. Quando
                                          possível, inclua análises de
                                          custo-benefício ou custo-
                                          -efetividade e sugestões para
                                          as próximas etapas.




                       Como geralmente essa é a primeira vez que os resultados são disponibili-
                    zados, determinar o momento da divulgação das informações a esse público-
                    alvo é fundamental. Por um lado, é importante compartilhar os resultados
                    no início, para que os tomadores de decisão do programa possam incorporar
                    mudanças e tomar decisões, como ampliar (ou reduzir) a escala da interven-
                    ção ou ajustar os componentes do programa para melhorar o uso dos
282                                                                          Avaliação de Impacto na Prática
recursos e alcançar um impacto maior. Por outro lado, alertamos contra o
compartilhamento de resultados muito preliminares, com base em análises
parciais ou incompletas, que possam estar sujeitos a alteração. Sua divulga-
ção poderia criar expectativas na equipe do programa e levar a decisões pre-
maturas, que podem ser custosas caso seja necessário revertê-las no futuro.
Assim, é necessário buscar um equilíbrio adequado entre a completude e a
prontidão para a disseminação inicial dos resultados com a equipe do
programa. Isso geralmente acontece após a equipe de avaliação ter realizado
uma análise completa e testes de robustez, mas antes que os resultados
ﬁnais, a interpretação e as recomendações sejam formulados.
   Em geral, a equipe e os gestores do programa estão interessados tanto
nos detalhes técnicos da metodologia e da análise da avaliação quanto nas
particularidades das conclusões e recomendações iniciais. As discussões
iniciais sobre os resultados com este grupo podem ser adequadas para reu-
niões do tipo oﬁcina, com apresentações feitas pela equipe de avaliação e
bastante tempo reservado para esclarecer as dúvidas e ouvir os comentá-
rios de todas as partes. Estas discussões iniciais normalmente enriquecem
a análise ﬁnal, orientam a interpretação dos resultados e ajudam a ajustar
as recomendações ﬁnais para que elas sejam mais adequadas e possam
orientar os objetivos do programa. As discussões iniciais com a equipe e os
gestores do programa são uma boa oportunidade para discutir resultados
inesperados ou potencialmente controversos e para propor respostas e
recomendações sobre políticas públicas antes da divulgação pública da
avaliação de impacto.
   Resultados negativos (incluindo quando nenhum impacto é detectado)
ou resultados inesperados podem ser decepcionantes para a equipe e os ges-
tores que investiram muito tempo e esforços no programa, mas eles também
desempenham o papel crítico de motivar a reformulação da política pública.
Por exemplo, se o programa não conseguir atingir seu objetivo primário por
causa de problemas de implementação, medidas podem ser tomadas para
abordar esses tópicos e um programa aperfeiçoado poderá ser reavaliado
posteriormente. Se o programa não produzir impactos no curto prazo ou se
apenas produzir impactos em um subconjunto da cadeia de resultados, e se
existirem razões para acreditar que é necessário mais tempo para alcançar
os resultados ﬁnais, a avaliação poderá apresentar e defender seus resulta-
dos iniciais e coletas de dados adicionais podem ser planejadas para uma
data futura. Por ﬁm, se ﬁcar claro que a intervenção não está produzindo os
benefícios pretendidos ou está causando danos inesperados, os gestores do
programa podem adotar medidas imediatas para suspender a intervenção
ou reformular seu projeto. Dessa maneira, quando os resultados da avalia-
ção forem tornados públicos, os formuladores de políticas públicas respon-
sáveis pelo programa poderão anunciar medidas corretivas e formular
Disseminar resultados e lograr impacto em políticas públicas                   283
      respostas antecipadamente para poder lidar com as perguntas difíceis que
      surjam em debates públicos ou na mídia.
         Formuladores de políticas públicas da alta hierarquia. O segundo público-
      alvo é formado pelos formuladores de políticas públicas da alta hierarquia,
      que tomarão decisões com base nos resultados da avaliação de impacto, que
      poderão determinar a expansão, a manutenção ou a diminuição do ﬁnancia-
      mento para uma intervenção. Esse grupo pode incluir o congresso nacional,
      presidentes e primeiros-ministros, ministros e secretários, conselhos de
      administração ou doadores. Em geral, esse grupo de partes interessadas
      recebe os resultados da avaliação depois que forem ﬁnalizados, analisados
      pela equipe e gestores do programa e examinados por especialistas técni-
      cos  externos. Nessa etapa, a equipe de avaliação tem que se concentrar
      na  comunicação dos principais resultados e recomendações de uma
      maneira acessível — os detalhes técnicos da avaliação podem ser de impor-
      tância secundária. Os formuladores de políticas públicas da alta hierarquia
      estarão interessados na tradução dos impactos em valores economicamente
      signiﬁcativos por meio de análises de custo-benefício ou da comparação
      com intervenções alternativas por meio da análise de custo-efetividade.
      Esses parâmetros ajudarão os tomadores de decisão a deﬁnir se vale a pena
      investir recursos limitados no programa para promover um importante
      objetivo de desenvolvimento socioeconômico. Os formuladores de políticas
      públicas da alta hierarquia também podem estar interessados em usar
      os  resultados para promover sua agenda política, como o lobby a favor
      (ou contra) determinada política pública que a avaliação respalde (ou não).
      A equipe de avaliação pode colaborar com especialistas em comunicação
      para assegurar que os resultados e as recomendações sejam corretamente
      interpretados e que as mensagens da estratégia de comunicação permane-
      çam alinhadas com os resultados da avaliação.
         A comunidade de usuários. O terceiro público-alvo compreende todos os
      usuários da avaliação que estejam fora do âmbito direto do programa ou do
      contexto do país. Esse grupo heterogêneo engloba a comunidade de pratican-
      tes e interessados em setores relevantes para a avaliação, incluindo proﬁssio-
      nais da área de desenvolvimento socioeconômico, acadêmicos, a sociedade
      civil e formuladores de políticas públicas de outros países. Os proﬁssionais da
      área de desenvolvimento socioeconômico que não estejam relacionados
      especiﬁcamente ao programa podem estar interessados em usar os resultados
      da avaliação para orientar a elaboração de programas novos ou existentes.
      Esses proﬁssionais estão interessados tanto nos detalhes da avaliação (méto-
      dos, resultados e recomendações) quanto nas lições e recomendações opera-
      cionais que possam ajudar a implementar seus próprios projetos de maneira
      mais efetiva. A comunidade acadêmica, por outro lado, pode estar mais inte-
      ressada na metodologia da avaliação, nos dados e resultados empíricos.
284                                                       Avaliação de Impacto na Prática
   Na sociedade civil em geral, destacam-se dois públicos-alvo: a mídia e os
participantes do programa. Informar o público sobre os resultados de uma
avaliação usando os meios de comunicação pode ter um papel fundamental
para que a iniciativa consiga prestar contas quanto aos investimentos gover-
namentais, obter o apoio do público em relação às recomendações da avalia-
ção e garantir a sustentabilidade de políticas públicas efetivas. Isso é
particularmente verdadeiro no caso de políticas novas e inovadoras, para as
quais os resultados eram inicialmente incertos ou objetos de controvérsia
no debate público. Se a avaliação trouxer esclarecimentos baseados em
dados empíricos sobre algum debate que, até o momento, tenha se dado
majoritariamente nos campos teórico ou ideológico, poderá ser um pode-
roso instrumento de mudança nas políticas públicas.
   Por ﬁm, os participantes do programa devem ser incluídos nos esforços
de disseminação. Eles investiram seu tempo e sua energia no programa, e
podem ter passado bastante tempo fornecendo informações para os propó-
sitos da avaliação. Assegurar que os participantes do programa tenham
acesso e permaneçam informados sobre os resultados da avaliação é um
gesto pequeno, porém signiﬁcativo, que pode contribuir para o contínuo
interesse pelo programa e a vontade de participar de avaliações futuras.


Disseminar os resultados

A seguir, discutiremos várias estratégias que podem ser consideradas para
informar esses públicos-alvo e para lograr os impactos de política pública.
De um ponto de vista ideal, as etapas iniciais do planejamento da avaliação
devem incluir uma estratégia de disseminação ou de impacto sobre as
políticas. Essa estratégia deve ser previamente acordada, explicitando clara-
mente o objetivo da avaliação para a política pública (por exemplo, a expan-
são de um modelo de intervenção com mais custo-efetividade), os
públicos-alvo que a avaliação pretende atingir, as estratégias de comunica-
ção utilizadas e um orçamento para realizar a disseminação. Embora o for-
mato e o conteúdo das atividades e produtos da disseminação variem caso a
caso, fornecemos algumas orientações e diretrizes gerais no restante deste
capítulo. O boxe 14.2 lista alguns instrumentos de extensão e disseminação.
   Geralmente, os relatórios são o primeiro canal de divulgação para o con-
junto completo de resultados da avaliação. Recomendamos a redação de
relatórios de tamanho moderado, com cerca de 30 a 50 páginas, incluindo
um resumo de uma página ou menos, e um sumário executivo com 2 a 4
páginas contendo os principais resultados e recomendações. Detalhes técni-
cos, a documentação relacionada e análises de apoio, tais como testes de
robustez e de falsiﬁcação, podem ser apresentados em anexos ou apêndices.
Disseminar resultados e lograr impacto em políticas públicas                    285
      Boxe 14.2: Ferramentas de extensão e disseminação
      A seguir, alguns exemplos de canais para a disseminação de avaliações de impacto:
      • Apresentação de slides (slide shows) sobre o programa e os resultados da avaliação
      • Vídeos que apresentam os beneﬁciários dando sua visão sobre o programa e como ele
        afeta suas vidas
      • Breves notas informativas explicando a avaliação e resumindo as recomendações
        de política
      • Blogs de pesquisadores e formuladores de políticas explicando a importância da avaliação
      • Relatórios completos, depois da obtenção dos resultados ﬁnais, com sumários executi-
        vos robustos para garantir que os leitores possam entender rapidamente os principais
        resultados
      • Convites aos meios de comunicação para que os jornalistas observem o programa em
        ação e relatem seus resultados.



                     A publicação da avaliação de impacto no formato de texto acadêmico
                  para discussão (working paper) e/ou artigo em periódico cientíﬁco revisado
                  por outros pesquisadores pode ser uma etapa ﬁnal trabalhosa, mas de muita
                  valia, para apresentar os resultados da avaliação. As análises rigorosas dos
                  pares exigidas para o processo de publicação fornecerão valiosos comentá-
                  rios para melhorar a análise e a interpretação dos resultados, e a publicação
                  pode enviar um forte sinal para os formuladores de políticas quanto à quali-
                  dade e credibilidade dos resultados de uma avaliação.
                     Com base na estratégia de disseminação acordada, os relatórios e
                  artigos (papers) podem ser publicados em vários canais, entre eles: no
                  site do programa; no site da instituição avaliadora; como parte de uma
                  série de textos para discussão; em revistas acadêmicas revisadas por
                  pares; e em livros.
                     Embora os relatórios de avaliação e os artigos acadêmicos sirvam de
                  base para a estratégia de disseminação, seu alcance para um público mais
                  amplo, fora da comunidade acadêmica e de usuários, pode ser limitado
                  devido a sua extensão e linguagem técnica. A equipe de avaliação, talvez
                  em colaboração com especialistas em comunicação, pode achar útil pro-
                  duzir artigos curtos, escritos em estilo narrativo ou jornalístico, com lin-
                  guagem clara e simples para disseminação a um público mais amplo.
                  Artigos curtos podem ser publicados sob a forma de notas de política
                  pública, boletins informativos (newsletters) e infográﬁcos. Para essas
                  publicações será particularmente útil eliminar o jargão técnico e traduzir
                  os resultados em representações visualmente atraentes, incluindo ima-
                  gens, esquemas e gráﬁcos (ver o boxe 14.3).
286                                                                      Avaliação de Impacto na Prática
     Boxe 14.3: Disseminação efetiva de avaliações de impacto
     Várias publicações apresentam os resultados das avaliações de impacto em um formato
     acessível e de fácil utilização. Entre elas estão duas com foco regional:
     • Os resultados da avaliação de impacto de programas de toda a América Latina e Caribe
       são apresentados no Panorama da Eﬁcácia no Desenvolvimento, publicado anualmente
       pelo Departamento de Planejamento Estratégico e Eﬁcácia no Desenvolvimento do
       Banco Interamericano de Desenvolvimento (BID). Os resultados são resumidos em arti-
       gos curtos e fáceis de ler, que incluem resumos de uma página em forma de infográﬁcos
       que condensam a questão-chave da avaliação de impacto, seus métodos, resultados e
       recomendações de políticas públicas usando imagens, gráﬁcos e ícones que permitem
       aos leitores compreender as principais mensagens de maneira muito rápida e intuitiva.
       O Panorama de 2014 inclui os resultados de avaliações de impacto de programas tão
       diversos como turismo na Argentina, capacitação proﬁssional na República Dominicana,
       produtividade agrícola na Bolívia e orquestras de jovens no Peru.
     • Africa Impact Evaluation Update, do Banco Mundial, reúne os mais recentes resultados
       para a região. O documento se concentrou no tema de gênero em 2013 e no tema de
       agricultura e terra em 2014.

     Fontes: http://deo.iadb.org e http://www.worldbank.org.




    As equipes de avaliação podem gerar um conjunto de apresentações para
acompanhar relatórios impressos e artigos curtos. Essas apresentações
devem ser adaptadas para o respectivo público especíﬁco. Um bom ponto de
partida é produzir uma apresentação técnica para a equipe do programa e o
público acadêmico e outra apresentação menos técnica e mais curta para os
formuladores de políticas públicas e a sociedade civil. Embora as principais
conclusões e recomendações de política sejam as mesmas, a estrutura e o
conteúdo desses dois tipos de apresentação terão importantes variações.
A apresentação técnica deve se concentrar em aumentar a credibilidade dos
resultados por meio da apresentação dos métodos de avaliação, dados e aná-
lises antes de mencionar os resultados e as recomendações de política.
Uma apresentação voltada para os formuladores de políticas públicas deve
enfatizar a questão de desenvolvimento socioeconômico que a intervenção
pretende abordar e as implicações práticas dos resultados, e apresentar os
detalhes técnicos sem se alongar.
    Para aproveitar a expansão do acesso à Internet nos países em desenvol-
vimento e as alternativas de baixo custo para produção de conteúdo em for-
matos multimídia, as equipes de avaliação também podem optar por utilizar
vários tipos de mídias para disseminar os resultados da avaliação — de sites
a arquivos de áudio e vídeo. Vídeos curtos podem ser uma forma poderosa
Disseminar resultados e lograr impacto em políticas públicas                                   287
      Boxe 14.4: Disseminar as avaliações de impacto online
      A seguir, alguns exemplos relevantes de disseminação online de resultados de avaliação
      de impacto:
      • A Iniciativa Internacional para a Avaliação de Impacto (3ie) organiza evidências de avaliações
        de impacto por setor, incluindo notas breves de políticas públicas, revisões sistemáticas
        e mapas de lacunas que identiﬁcam as áreas sobre as quais não temos evidências quanto
        à efetividade dos programas.
      • O laboratório Abdul Latif Jameel Poverty Action (J-PAL) dissemina evidências de avalia-
        ções de impacto conduzidas por pesquisadores aﬁliados, incluindo resumos sobre as
        políticas, análises de custo-efetividade e links a artigos acadêmicos.
      • A Avaliação de Impacto sobre o Desenvolvimento (DIME), do Banco Mundial, apresenta
        resumos, boletins informativos (newsletters) e relatórios que destacam os resultados
        das avaliações de impacto dos projetos do Banco Mundial.
      • O Fundo Estratégico de Avaliação de Impacto (SIEF), do Banco Mundial, inclui vídeos,
        notas breves e entrevistas.




                   de transmitir ideias complexas por meio de imagens e sons, permitindo que
                   a história da avaliação se desdobre de uma forma mais rápida e compreensí-
                   vel do que nos formatos impressos típicos (ver o boxe 14.4).
                       Por ﬁm, armada com uma variedade de produtos de divulgação, a equipe
                   de avaliação deve ser proativa em relação à disseminação desses produtos
                   aos participantes do programa, ao governo e à comunidade mais ampla de
                   usuários a ﬁm de alcançar os públicos pretendidos e assimilá-los ao pro-
                   cesso de tomada de decisão e ao debate sobre a política pública. O processo
                   de disseminação ocorre por meio de reuniões presenciais entre a equipe de
                   avaliação e o gestor do programa, de lobby junto aos formuladores de políti-
                   cas públicas da alta hierarquia, de apresentações em seminários e conferên-
                   cias nos quais acadêmicos e membros da comunidade de usuários se reúnem
                   para obter informações sobre os mais recentes avanços na área de pesquisa
                   e avaliação, de entrevistas e programas de notícias no rádio e na TV e, cada
                   vez mais, por meio da Internet. Os blogs e sites de mídias sociais, em espe-
                   cial, podem ser canais custo-efetivos para alcançar um grande número de
                   usuários potenciais e para capturar o tráfego de informações e orientar os
                   leitores em relação à variedade de produtos disponíveis em uma determi-
                   nada avaliação (ver o boxe 14.5). Embora as estratégias especíﬁcas variem
                   caso a caso, novamente recomendamos planejar e orçar os canais e as ativi-
                   dades de disseminação com antecedência, de modo que os resultados da
                   avaliação possam atingir seus públicos-alvo de forma rápida e eﬁcaz, maxi-
                   mizando, assim, o impacto da política.
288                                                                          Avaliação de Impacto na Prática
     Boxe 14.5: Blogs sobre avaliação de impacto
     Aqui estão alguns exemplos de blogs que apresentam regularmente resultados de avalia-
     ções de impacto:
     • Blog do Banco Mundial sobre o impacto no desenvolvimento (World Bank Development
       Impact Blog)
     • Blog do Banco Interamericano de Desenvolvimento sobre a eﬁcácia no desenvolvimento
       (Inter-American Development Bank Effectiveness Blog)
     • Blog de inovações no combate à pobreza (Innovations for Poverty Action Blog)




Recursos adicionais

• Para acessar os materiais complementares a este livro e hiperlinks com
  recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
  .worldbank.org/ieinpractice).
• A Iniciativa Internacional para a Avaliação de Impacto (3ie) e o Overseas
  Development Institute (ODI) desenvolveram um kit de ferramentas online
  sobre o impacto nas políticas públicas para ajudar na disseminação e no uso
  de evidências de avaliações de impacto para a tomada de decisões.




Disseminar resultados e lograr impacto em políticas públicas                                 289
Parte 4

COMO OBTER DADOS
PARA A AVALIAÇÃO DE
IMPACTO


A quarta parte deste livro fornece orientações sobre como obter dados para a
avaliação de impacto, incluindo a escolha da amostra e a localização de fontes
de dados adequadas.

O capítulo 15 discute como criar uma amostra a partir de uma população de
interesse e como realizar cálculos de poder estatístico para determinar o tama-
nho apropriado da amostra de avaliação de impacto. O foco do capítulo é a
descrição da lógica principal que está por trás dos cálculos de amostragem e
de poder estatístico. Nele se destacam também os elementos que os formu-
ladores de políticas públicas devem fornecer à equipe de pesquisa ou ao espe-
cialista técnico responsável por fazer a amostragem e os cálculos de poder
estatístico.
O capítulo 16 analisa as várias fontes de dados que as avaliações de impacto
podem utilizar. Nele se destaca quando podem ser usadas fontes de dados
existentes, incluindo dados administrativos. Como muitas avaliações exigem a
coleta de novos dados, o capítulo discute todas as etapas da coleta de novos
dados de pesquisa, como a deﬁnição de quem coletará esses dados, o desen-
volvimento e os testes de instrumentos de coleta de dados, a realização do
trabalho de campo e do controle de qualidade e o processamento e armazena-
mento dos dados.

O capítulo 17 fornece uma conclusão para o livro. Ele examina brevemente os
elementos centrais de uma avaliação de impacto bem elaborada, e oferece algu-
mas indicações para mitigar os riscos comuns à realização de uma avaliação
de impacto. O capítulo também fornece algumas perspectivas sobre o cresci-
mento recente do uso das avaliações de impacto e os esforços de instituciona-
lização relacionados a elas.
CAPÍTULO 15




A escolha da amostra

Cálculos de amostragem e poder estatístico

Depois de escolher um método para selecionar o grupo de comparação, uma
das etapas seguintes é determinar quais os dados de que se precisará e qual a
amostra necessária para estimar com precisão as diferenças entre os resulta-
dos do grupo de tratamento e do grupo de comparação. Neste capítulo, discu-
tiremos como se pode criar uma amostra a partir de uma população de
interesse (amostragem) e como determinar o tamanho necessário para que
essa amostra forneça estimativas precisas sobre o impacto do programa (cál-
culos de poder estatístico). Os cálculos de amostragem e de poder estatístico
exigem habilidades técnicas especíﬁcas e são frequentemente repassados a
um especialista. Neste capítulo, descrevemos os fundamentos para a realiza-
ção de cálculos de amostragem e de poder estatístico e destacamos os ele-
mentos que os formuladores de políticas precisam ser capazes de fornecer
aos especialistas técnicos.


A escolha da amostra

A amostragem é o processo de escolher unidades a partir de uma população
de interesse com o intuito de estimar as características dessa população.
É frequentemente necessária porque normalmente não é possível observar
e  medir diretamente os resultados para toda a população de interesse.
                                                                                293
                          Figura 15.1 Usar a amostra para inferir as características médias da
                          população de interesse




                                              População de interesse


                                                                                          Inferir as
                                                                                       características
                                                                                      da população de
                                                                                       interesse com
                                                                                      base na amostra



                                                    Amostra




                          Por exemplo, caso haja interesse em conhecer a altura média das crianças
                          de determinado país com idade inferior a dois anos, seria muito difícil,
                          caro e demorado visitar diretamente e medir todas as crianças dessa
                          população. Em vez disso, uma amostra de crianças extraída dessa popula-
                          ção pode ser usada para inferir as características médias da população em
                          geral (ﬁgura 15.1).
                             O processo pelo qual a amostra é extraída da população de interesse é
                          crucial. Os princípios da amostragem fornecem orientações para a obtenção
                          de amostras representativas. Na prática, há três etapas principais para
                          extrair uma amostra:
                          1. Determinar a população de interesse.
                          2. Identiﬁcar uma base de informação para a amostragem, ou listagem.
                          3. Extrair tantas unidades dessa listagem quantas forem necessárias de
Conceito-chave               acordo com os cálculos de poder estatístico.
A listagem é a relação
                             Em primeiro lugar, a população de interesse precisa ser claramente deﬁnida.
mais abrangente das
unidades da população     Isso exige especiﬁcar acuradamente a unidade para a qual os resultados serão
de interesse que pode     medidos dentro da população de interesse e deﬁnir claramente a cobertura
ser obtida. Um viés de    geográﬁca ou quaisquer outros atributos relevantes que caracterizem a popu-
cobertura ocorrerá se a   lação de interesse. Por exemplo, se se estiver gerenciando um programa de
listagem não coincidir
                          desenvolvimento na primeira infância, poderá haver interesse em medir o
perfeitamente com a
população de              impacto do programa sobre os resultados cognitivos apresentados pelas
interesse.                crianças entre 3 e 6 anos de todo o país ou somente pelas crianças que vivem
                          nas áreas rurais ou apenas pelas crianças matriculadas na pré-escola.
294                                                                           Avaliação de Impacto na Prática
   Em segundo lugar, uma vez deﬁnida a população de interesse, deve ser
criada uma listagem, que é a relação mais abrangente das unidades da popu-
lação de interesse que pode ser obtida. Idealmente, a listagem deve coincidir
exatamente com a população de interesse. Um censo completo e totalmente
atualizado da população de interesse constituiria uma listagem ideal. Na
prática, as listas existentes, como os censos populacionais, os levantamentos
realizados em estabelecimentos ou empresas ou as listas de matrículas, são
frequentemente usadas como listagens.
   É necessária uma listagem adequada para assegurar que as conclusões
obtidas a partir da análise de uma amostra possam ser generalizadas para
toda a população. Na verdade, uma listagem que não coincida exatamente
com a população de interesse cria um viés de cobertura, conforme é ilus-
trado pela ﬁgura 15.2. Se ocorrer um viés de cobertura, os resultados da
amostra não terão validade externa para toda a população de interesse, mas
apenas para a população incluída na listagem. O grau de generalização das
estatísticas calculadas a partir da amostra para a população de interesse
como um todo dependerá da magnitude do viés de cobertura, ou seja, da
falta de coincidência entre a listagem e a população de interesse.
   O viés de cobertura constitui um risco, e a elaboração de listagens requer
um esforço cuidadoso. Por exemplo, os dados do censo podem conter a lista
de todas as unidades de uma população. No entanto, se tiver passado muito
tempo entre a realização do recenseamento e o momento em que os dados
da amostra são coletados, a listagem poderá não estar totalmente atualizada.
Além disso, os dados do censo podem não conter informações suﬁcientes



Figura 15.2    Uma listagem válida cobre toda a população de interesse


Listagem válida




 Listagem inválida



                                                                  População
                                                                 de interesse

A escolha da amostra                                                            295
                          sobre atributos especíﬁcos para que se crie uma listagem adequada. Se a
                          população de interesse for constituída por crianças que frequentam a pré-
                          escola e o censo não contiver dados sobre as matrículas pré-escolares, serão
                          necessários dados complementares sobre matrículas ou levantamentos
                          de estabelecimentos de ensino.
                             Depois de ter identiﬁcado a população de interesse e uma listagem, é pre-
                          ciso escolher um método para extrair a amostra. Podem ser utilizados vários
                          procedimentos alternativos.
Conceito-chave               Os métodos de amostragem probabilística são os mais rigorosos, uma vez
A amostragem é o          que atribuem uma probabilidade bem deﬁnida para cada unidade a ser
processo pelo qual as     extraída. Os três principais métodos de amostragem probabilística são os
unidades são extraídas    seguintes:
de uma listagem.
A amostragem              • Amostragem aleatória. Cada unidade da população tem exatamente a
probabilística atribui      mesma probabilidade de ser escolhida.1
uma probabilidade bem
deﬁnida para cada         • Amostragem aleatória estratiﬁcada. A população é dividida em grupos
unidade a ser extraída.     (por exemplo, homens e mulheres) e a amostragem aleatória é realizada
                            dentro de cada grupo. Como resultado, cada unidade de cada grupo
                            (ou  estrato) tem a mesma probabilidade de ser escolhida. Desde que
                            cada grupo seja grande o bastante, a amostragem estratiﬁcada permite
                            fazer inferências sobre os resultados não apenas no nível da população,
                            mas também sobre cada grupo. A amostragem estratiﬁcada é útil quando
                            se deseja sobreamostrar subgrupos pequenos da população (como as
                            minorias) para estudá-los com mais cuidado. A estratiﬁcação é essencial
                            para as avaliações que visam comparar os impactos do programa entre
                            esses subgrupos.
                          • Amostragem por conglomerados. As unidades são agrupadas em conglo-
                            merados (grupos), e uma amostra aleatória de conglomerados é extraída.
                            Posteriormente, todas as unidades desses conglomerados constituirão a
                            amostra ou um número de unidades dentro do conglomerado será sorte-
                            ado aleatoriamente. Isso signiﬁca que cada conglomerado tem uma pro-
                            babilidade bem deﬁnida de ser selecionado, e as unidades dentro de um
                            conglomerado selecionado também têm uma probabilidade bem deﬁnida
                            de serem escolhidas.
                             No contexto da avaliação de impacto, o processo de elaboração de uma
                          amostra é frequentemente determinado pelas regras de elegibilidade do
                          programa que está sendo avaliado. Como será mencionado na discussão
                          sobre o tamanho da amostra, se a menor unidade viável de implementação
                          for maior do que a unidade de observação, a seleção aleatória dos benefícios
                          criará conglomerados. Por essa razão, a amostragem por conglomerados
                          surge frequentemente em estudos de avaliação de impacto.
296                                                                         Avaliação de Impacto na Prática
   A amostragem não probabilística pode criar sérios erros de amostragem.
Por exemplo, suponha que uma pesquisa nacional seja realizada por um
grupo de entrevistadores orientados a coletar dados sobre as famílias que
vivem mais perto das escolas de cada povoado. Se esse procedimento de
amostragem não probabilística for usado, é provável que a amostra não seja
representativa da população de interesse como um todo. Em especial, sur-
girá um viés de cobertura, uma vez que os domicílios localizados em áreas
mais remotas não serão pesquisados.
   É necessário prestar muita atenção à listagem e ao procedimento de
amostragem para determinar se os resultados obtidos para uma determi-
nada amostra podem ser generalizados para toda a população de interesse.
Mesmo que a listagem tenha uma cobertura perfeita e que seja utilizado
um procedimento probabilístico de amostragem, os erros não amostrais
também podem afetar a validade interna e externa da avaliação de
impacto. Os erros não amostrais são discutidos no capítulo 16. Por ﬁm, há,
por vezes, confusão entre a amostragem aleatória e a seleção aleatória.
O boxe 15.1 deixa claro que a amostragem aleatória é muito diferente da
seleção aleatória.
   No restante deste capítulo, discutiremos como o tamanho da amostra é
importante para a precisão das avaliações de impacto. Conforme ﬁcará
claro, são necessárias amostras relativamente maiores para obter estimati-
vas precisas sobre as características da população. Amostras maiores tam-
bém são necessárias para obter estimativas mais precisas sobre as diferenças
entre os grupos de tratamento e os grupos de comparação, ou seja, para esti-
mar o impacto de um programa.




     Boxe 15.1: A amostragem aleatória não é suﬁciente para a
     avaliação de impacto
     Às vezes, faz-se confusão entre amostragem        não estão participando desse programa.
     aleatória e seleção aleatória. E se alguém lhe    E se fôssemos extrair uma amostra aleatória
     disser com muito orgulho que está imple-          de cada um desses dois grupos? A primeira
     mentando uma avaliação de impacto por             ﬁgura ilustra a seguinte situação: obteve-se
     meio da realização de entrevistas com uma         uma amostra aleatória de participantes e uma
     amostra aleatória de participantes e não parti-   amostra aleatória de não participantes. Se
     cipantes? Suponhamos que se está obser-           participantes e não participantes tiverem
     vando um grupo de indivíduos que estão            características diferentes, a amostra de parti-
     participando de um programa de promoção           cipantes e não participantes também terá.
     do emprego e um grupo de indivíduos que           A amostragem aleatória não torna comparáveis

                                                                                             (continua)


A escolha da amostra                                                                                      297
      Boxe 15.1: A amostragem aleatória não é suﬁciente para a avaliação de impacto (continuação)




             Figura B15.1.1 Amostragem aleatória entre grupos não comparáveis de
             participantes e não participantes


                  Participantes de um programa                         Não participantes




      dois grupos não comparáveis e, portanto, não        procedimento de aleatorização para seleção
      fornece validade interna para a avaliação de        de unidades (normalmente constituídas por
      impacto. É por isso que a amostragem alea-          pessoas ou grupos de pessoas, tais como as
      tória não é suﬁciente para as avaliações de         crianças que estudam em uma escola) da
      impacto.                                            população elegível para o grupo de trata-
          Como deve ter ﬁcado claro a partir da dis-      mento que receberá uma intervenção e para
      cussão apresentada na parte 2, a seleção ale-       o grupo de comparação que não receberá
      atória dos beneﬁciários do programa é               essa intervenção. O processo de aleatoriza-
      diferente da amostragem aleatória. O pro-           ção de um programa, mostrado na segunda
      cesso de seleção aleatória começa com uma           ﬁgura, é diferente do processo de amostra-
      população elegível de interesse e utiliza um        gem aleatória descrito na primeira ﬁgura.

                                                                                                    (continua)




298                                                                              Avaliação de Impacto na Prática
    Boxe 15.1: A amostragem aleatória não é suﬁciente para a avaliação de impacto (continuação)



         Figura B15.1.2 Seleção aleatória dos beneﬁciários do programa para o grupo
         de tratamento e para o grupo de comparação

                                            População elegível




                                                           Comparação




                             mento
              Grupo de tratamento                                    G
                                                                     Grupo de comparação
          (participantes do programa)                           (não participantes do programa)

     Conforme foi discutido na parte 2, quando a        útil para garantir a validade externa, na
     seleção aleatória é bem implementada, ela          medida em que a amostra seja escolhida
     contribui para a validade interna da avaliação     aleatoriamente a partir da população de
     de impacto. A amostragem aleatória pode ser        interesse.




Decidir o tamanho de uma amostra para
a avaliação de impacto: cálculos de
poder estatístico

Conforme foi discutido, a amostragem descreve o processo de seleção de
uma amostra a partir de unidades de uma população de interesse para esti-
mar as características dessa população. Amostras maiores fornecem estima-
tivas mais precisas sobre as características da população. Que tamanho as
A escolha da amostra                                                                                299
                          amostras precisam ter para uma avaliação de impacto? Os cálculos para
                          determinar o tamanho da amostra são chamados de cálculos de poder
                          estatístico. Discutimos a intuição básica por trás dos cálculos de poder esta-
                          tístico focalizando o caso mais simples: uma avaliação que utilizou um
                          método de seleção aleatória, testou a efetividade de um programa em rela-
                          ção a um grupo de comparação que não recebeu a intervenção e levou em
                          consideração que o descumprimento não era um problema.2 Ao ﬁnal do
                          capítulo, discutiremos brevemente outras considerações que vão além desse
                          caso simples.


                          A lógica por trás dos cálculos de poder estatístico

                          Os cálculos de poder estatístico indicam o tamanho mínimo que uma amostra
                          precisa ter para se realizar uma avaliação de impacto e para responder de
                          forma convincente à questão de política pública de interesse. Em especial,
                          os cálculos de poder estatístico podem ser usados para:
                          • Avaliar se as bases de dados existentes são suﬁcientemente grandes para
                            realizar uma avaliação de impacto.
                          • Evitar coletar muito poucos dados. Se a amostra for muito pequena,
                            pode-se não ser capaz de detectar um impacto positivo — mesmo que
                            ele exista — e concluir que o programa não teve nenhum efeito. Isso
                            poderá levar a uma decisão para eliminar o programa, o que seria
                            prejudicial.
                          • Ajudar a tomar decisões sobre o tamanho adequado da amostra.
                            Tamanhos de amostra maiores fornecem estimativas mais precisas dos
                            impactos do programa, mas a coleta de informações pode ser muito
Conceito-chave              dispendiosa. Os cálculos de poder estatístico fornecem insumos impor-
Os cálculos de poder        tantes para avaliar o equilíbrio entre os custos necessários para coletar
estatístico fornecem        dados adicionais e os ganhos obtidos com o aumento da precisão da
uma indicação sobre a       avaliação de impacto.
menor amostra a partir
da qual é possível           Os cálculos de poder estatístico fornecem uma indicação sobre a menor
estimar com precisão o    amostra (e o orçamento mais baixo) a partir da qual é possível medir o
impacto de um             impacto de um programa, ou seja, a menor amostra que permitirá detectar
programa, ou seja, a      diferenças signiﬁcativas entre os resultados dos grupos de tratamento e de
menor amostra que nos
permitirá detectar
                          comparação. Por isso, os cálculos de poder estatístico são cruciais para
diferenças signiﬁcati-    determinar os programas que são bem-sucedidos e os que não são.
vas entre os resultados      Conforme foi discutido no capítulo 1, a pergunta de interesse básica da
dos grupos de             avaliação de impacto é: qual é o impacto ou efeito causal de um programa
tratamento e de           sobre o resultado de interesse? A hipótese simples embutida nessa pergunta
comparação.
                          pode ser reformulada da seguinte maneira: o impacto do programa é
300                                                                           Avaliação de Impacto na Prática
diferente de zero? No caso da seleção aleatória, responder a essa pergunta
requer duas etapas:
1. Estimar os resultados médios para os grupos de tratamento e de
   comparação.
2. Avaliar se existe diferença entre o resultado médio para o grupo de trata-
   mento e o resultado médio para o grupo de comparação.
  Discutiremos agora como estimar os resultados médios para cada grupo e,
em seguida, como testar a diferença entre os grupos.


Estimar resultados médios para os grupos de tratamento e
de comparação

Suponhamos que haja interesse em estimar o impacto de um programa de
nutrição sobre o peso de crianças de 2 anos e que 200.000 crianças sejam
elegíveis para o programa. Dentre todas as crianças elegíveis, 100.000 foram
selecionadas aleatoriamente para participar do programa. As 100.000 crian-
ças elegíveis que não foram aleatoriamente selecionadas para o programa
servirão como o grupo de comparação. Como uma primeira etapa, será pre-
ciso estimar o peso médio das crianças que participaram e o peso médio
daquelas que não participaram.
   Para determinar o peso médio das crianças participantes, pode-se pesar
cada uma das 100.000 crianças participantes e, em seguida, obter a média
dos pesos. É claro que fazer isso seria extremamente dispendioso.
Felizmente, não é necessário pesar cada criança. A média pode ser estimada
usando o peso médio de uma amostra extraída da população de crianças
participantes.3 Quanto mais crianças nessa amostra, mais próxima a média
da amostra será da média verdadeira. Quando uma amostra é pequena, o
peso médio constitui uma estimativa muito imprecisa da média do peso da
população. Por exemplo, uma amostra de duas crianças não dará uma esti-
mativa precisa. Em contraste, uma amostra de 10.000 crianças produzirá
uma estimativa mais precisa, muito mais próxima do verdadeiro peso médio
da população. Em geral, quanto mais observações na amostra, mais precisas
serão as estatísticas obtidas a partir dela (ver a ﬁgura 15.3).4
   Dessa maneira, compreendemos que com uma amostra maior podemos
fornecer uma imagem mais precisa da população de crianças participantes. O
mesmo será verdadeiro para as crianças não participantes: à medida que a
amostra de crianças não participantes crescer, nós saberemos com mais pre-
cisão como é essa população. Mas por que devemos nos importar? Se formos
capazes de estimar com maior precisão o resultado (peso) médio das crianças
participantes e não participantes, também poderemos dizer com mais
A escolha da amostra                                                            301
      Figura 15.3 Uma amostra maior tem maior probabilidade de se assemelhar
      à população de interesse




                                                                            Amostra
                                                                            pequena




                População de interesse
                                                 Amostra
                                                 grande



      precisão a diferença entre o peso dos dois grupos — e esse é o impacto do
      programa. Dito de outra forma: se se tiver apenas uma vaga ideia sobre o peso
      médio das crianças dos grupos participantes (de tratamento) e não partici-
      pantes (de comparação), como se pode ter uma ideia precisa sobre a dife-
      rença no peso dos dois grupos? É óbvio que isso não será possível. Na próxima
      seção, vamos explorar essa ideia de uma maneira um pouco mais formal.


      Comparar os resultados médios entre os grupos de tratamento
      e de comparação

      Após estimar o resultado (peso) médio para o grupo de tratamento (crianças
      participantes selecionadas aleatoriamente) e para o grupo de comparação
      (crianças não participantes selecionadas aleatoriamente), pode-se determi-
      nar se os dois resultados são diferentes. Esta parte é clara: subtraem-se as
      médias e veriﬁca-se qual é a diferença. Em termos estatísticos, a avaliação de
      impacto testa a hipótese nula em relação à hipótese alternativa.
         A hipótese nula é aquela segundo a qual o programa não apresenta
      impacto. Ela é expressa da seguinte maneira:
        H0: Impacto ou diferença entre o resultado do grupo de tratamento e de compa-
        ração = 0.
        Ha: Impacto ou diferença entre o resultado do grupo de tratamento e de compa-
        ração ≠ 0.

302                                                        Avaliação de Impacto na Prática
   Imaginemos que, no exemplo do programa de nutrição, começamos
com uma amostra de duas crianças tratadas e duas crianças de comparação.
Com uma amostra tão pequena, a estimativa sobre o peso médio das
crianças tratadas e de comparação e, portanto, a estimativa da diferença
entre os dois grupos não será muito conﬁável. Pode-se veriﬁcar isso ao
selecionar diferentes amostras de duas crianças tratadas e duas crianças
de comparação. Fazendo isso, veremos que o impacto estimado do pro-
grama varia muito.
   Em comparação, comecemos com uma amostra de 1.000 crianças trata-
das e 1.000 crianças de comparação. Conforme discutido, a estimativa do
peso médio de ambos os grupos será muito mais precisa. Portanto, a estima-
tiva da diferença entre os dois grupos também será mais precisa.
   Por exemplo, digamos que o peso médio na amostra de crianças do grupo
de tratamento (participantes) é de 12,2  kg e que a média na amostra de
crianças do grupo de comparação (não participantes) é de 12 kg. A diferença
entre os dois grupos é de 0,2 kg. Se esses números tiverem vindo de amostras
de duas observações cada, não se pode aﬁrmar com muita certeza se o
impacto do programa é verdadeiramente positivo, pois os 200 gramas pode-
riam se dever à falta de precisão de suas estimativas. No entanto, se esse
número vier de amostras de 1.000 observações cada, pode-se aﬁrmar com
mais certeza de que está muito perto do verdadeiro impacto do programa,
que neste caso seria positivo.
   Assim sendo, a questão-chave é a seguinte: exatamente quão grande deve
ser a amostra para permitir que se tenha certeza de que o impacto positivo
estimado se deve ao verdadeiro impacto do programa, e não à falta de preci-
são das estimativas?


Dois erros potenciais nas avaliações de impacto

Ao testar se um programa tem um impacto, dois tipos de erro podem ser
cometidos. O erro do tipo I é cometido quando uma avaliação conclui que um
programa teve impacto, mas, na realidade, não teve nenhum impacto.
No caso da hipotética intervenção nutricional, isso ocorreria se um membro
da equipe de avaliação concluísse que o peso médio das crianças da amostra
tratada é maior do que o das crianças da amostra de comparação, mesmo que
o peso médio das crianças das duas populações seja, na verdade, igual e as
diferenças observadas sejam puramente fortuitas. Neste caso, o impacto
positivo veriﬁcado se deveu exclusivamente à falta de precisão das estimativas.
   O erro do tipo II é o oposto. O erro do tipo II ocorre quando uma avaliação
conclui que o programa não teve impacto, mas, na verdade, teve. No caso da
intervenção nutricional, isso ocorreria caso se concluísse que o peso médio
das crianças nas duas amostras é o mesmo, mesmo que o peso médio das
A escolha da amostra                                                              303
Conceito-chave             crianças da população de tratamento seja de fato maior que o das crianças
O erro do tipo I ocorre    da população de comparação. Novamente, o impacto deveria ter sido posi-
quando uma avaliação       tivo, mas, por causa da falta de precisão das estimativas, concluiu-se que o
conclui que um
                           programa teve impacto zero.
programa teve um
impacto, mas, na
                              Ao testar a hipótese de que um programa teve impacto, os estatísticos
realidade, não teve        podem limitar o tamanho dos erros do tipo I. A probabilidade de um erro
nenhum impacto.            do tipo I pode ser deﬁnida por um parâmetro chamado nível de signiﬁcância.
O erro do tipo II ocorre   O nível de signiﬁcância é, frequentemente, ﬁxado em 5% — o que signiﬁca
quando uma avaliação       que é possível ter 95% de certeza ao concluir que o programa teve um
conclui que o programa
                           impacto. Se houver preocupação com a possibilidade de cometer um erro
não teve impacto, mas,
na verdade, teve.          do tipo I, pode-se ser mais conservador e deﬁnir um nível de signiﬁcância
                           menor — por exemplo, 1%, de modo que será possível ter 99% de certeza ao
                           concluir que o programa teve impacto.
                              No entanto, os erros do tipo II também são preocupantes para os formula-
                           dores de políticas. Muitos fatores aumentam a probabilidade de se cometer
                           um erro do tipo II, mas o tamanho da amostra é crucial. Se o peso médio de
                           50.000 crianças tratadas for o mesmo que o peso médio de 50.000 crianças
                           de comparação, pode-se concluir com certeza que o programa não teve
                           nenhum impacto. Por outro lado, se duas crianças de uma amostra de trata-
                           mento pesarem, em média, o mesmo que duas crianças de uma amostra de
                           comparação, será mais difícil chegar a uma conclusão conﬁável. O peso
                           médio é semelhante porque a intervenção não teve impacto ou porque os
                           dados não são suﬁcientes para testar a hipótese em uma amostra tão pequena?
                           Selecionar amostras grandes torna menos provável que se observem apenas
                           as crianças que têm o mesmo peso simplesmente devido à (má) sorte. Em
                           amostras grandes, a diferença das médias entre a amostra tratada e a amostra
                           de comparação fornece uma melhor estimativa da diferença verdadeira das
                           médias entre todas as unidades tratadas e todas as unidades de comparação.
                              O poder (ou poder estatístico) de uma avaliação de impacto é a probabili-
                           dade de detectar uma diferença entre os grupos de tratamento e de compara-
Conceito-chave
                           ção quando essa diferença de fato existir. Uma avaliação de impacto tem um
Poder estatístico é a
probabilidade de
                           alto poder estatístico se houver um baixo risco de não se detectar os impactos
detectar impacto           reais do programa, isto é, de cometer um erro do tipo II. Os exemplos anterio-
quando esse impacto        res mostram que o tamanho da amostra é um determinante crucial do poder
existe de fato. A          estatístico de uma avaliação de impacto. As seções a seguir ilustram esse ponto.
avaliação de impacto
tem alto poder
estatístico se houver      Por que os cálculos de poder estatístico são importantes para a
um baixo risco de não      política pública
detectar os impactos
reais do programa, ou      O propósito dos cálculos de poder estatístico é determinar que tama-
seja, de cometer um        nho de amostra é necessário para evitar concluir que um programa não
erro do tipo II.
                           teve nenhum impacto quando, na verdade, ele teve (erro do tipo II).
304                                                                             Avaliação de Impacto na Prática
O poder estatístico de um teste é igual a 1 menos a probabilidade de um
erro do tipo II.
   A avaliação de impacto tem alto poder estatístico se for improvável a ocor-
rência de um erro do tipo II, ou seja, ninguém ﬁcará decepcionado porque é
pequena a probabilidade de que os resultados mostrem que o programa ava-
liado não teve impacto quando, na realidade, teve.
   Do ponto de vista de política pública, as avaliações de impacto de baixo
poder estatístico, com uma alta probabilidade de erros do tipo II, não ape-
nas são inúteis, mas podem ser muito dispendiosas. A alta probabilidade de
ocorrência de um erro do tipo II compromete o potencial para que a avalia-
ção de impacto identiﬁque resultados estatisticamente signiﬁcativos.
Colocar recursos em avaliações de impacto de baixo poder estatístico é,
portanto, um investimento arriscado.
   Avaliações de impacto de baixo poder estatístico também podem ter
sérias consequências práticas. Por exemplo, na hipotética intervenção nutri-
cional mencionada anteriormente, se se concluir que o programa não foi
eﬁcaz, mesmo que tenha sido, os formuladores de políticas poderiam encer-
rar um programa que, na verdade, beneﬁcia as crianças. Portanto, é crucial
minimizar a probabilidade de erros do tipo II usando amostras suﬁciente-
mente grandes em avaliações de impacto. É por isso que a realização de cál-
culos de poder estatístico é tão crucial e relevante.


Cálculos de poder estatístico passo a passo

Passaremos agora aos princípios básicos dos cálculos de poder estatístico,
focalizando o caso simples de um programa com seleção aleatória dos bene-
ﬁciários. A realização de cálculos de poder estatístico exige o exame das
seguintes cinco questões principais:

1. O programa é implementado no nível de conglomerados?

2. Qual é ou quais são o(s) indicador(es) de resultado?

3. Qual é o nível mínimo de impacto que justiﬁcaria o investimento que foi
   feito na intervenção?

4. Qual é a média do resultado para a população de interesse? Qual é a vari-
   ância subjacente do indicador de resultado?

5. Quais são os níveis razoáveis de poder estatístico e signiﬁcância estatística
   para a avaliação que está sendo realizada?
   Cada uma dessas perguntas se aplica ao contexto da política pública
especíﬁca no qual se decidiu realizar uma avaliação de impacto.
A escolha da amostra                                                               305
      Quadro 15.1   Exemplos de conglomerados

                           Nível de alocação dos        Unidade a partir da qual
      Benefício            benefícios (conglomerado)    o resultado é medido
      Transferências de    Povoado                      Família
      renda
      Tratamento da        Escola                       Indivíduo
      malária
      Programa de          Bairro                       Indivíduo
      treinamento



         A primeira etapa dos cálculos de poder estatístico é determinar se o
      programa que se deseja avaliar criou conglomerados (grupos de unidades
      de observação) durante sua implementação. Um programa cujo nível de
      intervenção (que, muitas vezes, corresponde a um lugar) seja diferente do
      nível no qual você gostaria de medir os resultados (que, muitas vezes, cor-
      responde a pessoas) cria conglomerados em torno do local da intervenção.
      Por exemplo, pode ser necessário implementar um programa em hospitais,
      escolas ou povoados (ou seja, em conglomerados), mas seu impacto é
      medido em pacientes, estudantes ou moradores (ver o quadro 15.1).5 Quando
      uma avaliação de impacto envolve conglomerados, é o número deles que
      determina, em grande parte, o tamanho efetivo da amostra. Em contrapar-
      tida, o número de indivíduos dentro dos conglomerados importa menos.
      Discutiremos isso mais adiante.
         A natureza das amostras obtidas a partir de programas baseados em con-
      glomerados é um pouco diferente da natureza das amostras obtidas de pro-
      gramas que não são baseados em conglomerados. Como resultado, os
      cálculos de poder estatístico envolverão etapas ligeiramente diferentes,
      dependendo se um programa aloca aleatoriamente benefícios entre conglo-
      merados ou se simplesmente aloca benefícios de maneira aleatória entre
      todas as unidades de uma população. Vamos discutir cada uma dessas
      situações. Começaremos com os princípios do cálculo de poder estatístico
      quando não há conglomerados, isto é, quando o tratamento é alocado no
      nível em que os resultados são observados. Em seguida, discutiremos os cál-
      culos de poder estatístico quando os conglomerados estão presentes.


      Cálculos de poder estatístico sem conglomerados

      Suponhamos que se tenha resolvido a primeira questão listada acima ao
      estabelecer que os benefícios do programa não são alocados por
      conglomerados. Em outras palavras, o programa a ser avaliado aleatoria-
      mente aloca benefícios entre todas as unidades de uma população elegível.
306                                                    Avaliação de Impacto na Prática
   Na segunda etapa, deve-se identiﬁcar os indicadores de resultados
mais importantes que o programa foi desenhado para melhorar. Esses
indicadores advêm do objetivo do programa, da teoria da mudança e da
pergunta principal da pesquisa de avaliação, conforme foi discutido na
parte 1. Os cálculos de poder também fornecerão insights sobre o tipo de
indicadores para os quais as avaliações de impacto podem identiﬁcar
impactos. Na verdade, conforme discutiremos mais adiante, amostras de
diferentes tamanhos podem ser necessárias para medir o impacto em
diferentes indicadores.
   Em terceiro lugar, deve-se determinar o impacto mínimo que justiﬁcaria
o investimento realizado na intervenção. Trata-se, fundamentalmente, de
uma questão de política pública, e não técnica. Um programa de transferên-
cia de renda é um investimento que vale a pena caso ele reduza a pobreza em
5%, 10% ou 15%? Vale a pena implementar um programa voltado para o mer-
cado de trabalho se ele aumentar a renda dos participantes em 5%, 10% ou
15%? A resposta é muito especíﬁca para cada contexto, mas, em todos esses
contextos, é necessário determinar a mudança nos indicadores de resultado
que justiﬁcaria o investimento feito no programa. Dito de outra forma: qual
é o nível de impacto abaixo do qual uma intervenção deve ser considerada
sem êxito? A resposta a essa pergunta fornece o efeito mínimo detectável que
a avaliação de impacto precisa ser capaz de identiﬁcar. Responder a essa
questão dependerá não apenas do custo do programa e do tipo de benefícios
que ele oferece, mas também do custo de oportunidade de não investir fun-
dos em uma intervenção alternativa.
   Embora os efeitos mínimos detectáveis possam ser baseados nos obje-
tivos da política pública, outras abordagens podem ser utilizadas para
estabelecê-los. Pode ser útil comparar os efeitos mínimos detectáveis
com os resultados de estudos sobre programas semelhantes para lançar
luz sobre a magnitude dos impactos que podem ser esperados. Por exem-
plo, as intervenções educacionais frequentemente medem seus ganhos
em termos das notas obtidas em testes padronizados. Estudos existentes
mostram que um aumento de 0,1 no desvio padrão é um ganho relativa-
mente pequeno, enquanto um aumento de 0,5 no desvio padrão é relati-
vamente grande. Alternativamente, simulações ex-ante podem ser
realizadas para avaliar a gama de impactos esperados sob várias hipóteses.
Exemplos de simulações ex-ante foram fornecidos no capítulo 1 para pro-
gramas de transferência condicional de renda. Por ﬁm, a análise econô-
mica ex-ante pode esclarecer o tamanho do impacto que seria necessário
para que a taxa de retorno de um dado investimento fosse suﬁciente-
mente alta. Por exemplo, os ganhos de renda anualizados gerados por um
programa de capacitação proﬁssional precisariam estar acima da taxa de
juros de mercado em vigor.
A escolha da amostra                                                           307
                            Intuitivamente, é mais fácil identiﬁcar uma grande diferença entre dois
                         grupos do que identiﬁcar uma pequena diferença entre dois grupos. Para
                         que uma avaliação de impacto possa identiﬁcar uma pequena diferença
                         entre os grupos de tratamento e de comparação, será necessária uma esti-
                         mativa muito precisa da diferença entre os resultados médios dos dois
Conceito-chave           grupos. Isso requer uma amostra grande. Alternativamente, para as inter-
O efeito mínimo          venções consideradas merecedoras de investimento apenas se provocarem
detectável é o tamanho
do efeito que uma
                         grandes mudanças nos indicadores de resultado, as amostras necessárias
avaliação de impacto     para conduzir uma avaliação de impacto serão menores. No entanto, o efeito
é desenhada para         mínimo detectável deve ser estabelecido de forma conservadora, uma vez
estimar para um          que qualquer impacto menor do que o efeito mínimo desejado é menos
determinado nível de     provável de ser detectado.
signiﬁcância e poder
                            Em quarto lugar, para realizar cálculos de poder estatístico, deve-se
estatístico.
Considerando que         solicitar a um especialista que estime alguns parâmetros básicos, como a
todos os fatores se      média e variância dos indicadores de resultado na linha de base. Esses
mantenham iguais,        valores de referência devem, de preferência, ser obtidos a partir de dados
amostras maiores são     existentes coletados em uma situação semelhante àquela em que o pro-
necessárias para que a   grama em estudo será implementado ou a partir de uma pesquisa-piloto
avaliação de impacto
detecte diferenças
                         realizada com a população de interesse.6 É muito importante observar que,
menores entre os         quanto maior a variabilidade dos resultados de interesse, maior será a
grupos de tratamento e   amostra necessária para estimar um efeito de tratamento com precisão.
de comparação ou para    No exemplo da intervenção nutricional hipotética, o peso das crianças é o
que ela detecte          resultado de interesse. Se todos os indivíduos tiverem o mesmo peso na
diferenças em um
                         linha de base, será possível estimar o impacto da intervenção nutricional
resultado que
apresente maior          em uma amostra pequena. Em contrapartida, se o peso das crianças na
variabilidade.           linha de base variar muito, será necessária uma amostra maior para esti-
                         mar o impacto do programa.
                            Em quinto lugar, a equipe de avaliação precisa determinar níveis razoá-
                         veis de poder estatístico e de signiﬁcância para a avaliação de impacto
                         planejada. Como foi dito anteriormente, o poder estatístico de um teste é
                         igual a 1 menos a probabilidade de qualquer erro do tipo II. Portanto, o
                         poder estatístico varia de 0 a 1, com um valor alto indicando menor risco de
                         não identiﬁcar um impacto existente. Um poder estatístico de 0,8 é uma
                         referência amplamente utilizada para cálculos de poder estatístico. Isso sig-
                         niﬁca que se encontrará o impacto em 80% dos casos em que o impacto esti-
                         ver presente. Um nível mais elevado de poder estatístico de 0,9 (ou 90%)
                         muitas vezes fornece um ponto de referência útil, mas é mais conservador,
                         o que exige um aumento no tamanho da amostra necessária.
                            O nível de signiﬁcância é a probabilidade de cometer um erro do tipo I.
                         Normalmente, ele é ﬁxado em 5%, de modo que se pode ter 95% de con-
                         ﬁança ao concluir que o programa teve impacto caso se encontre impacto
                         signiﬁcativo. Outros níveis de signiﬁcância comuns são 1% e 10%. Quanto
308                                                                         Avaliação de Impacto na Prática
menor for o nível de signiﬁcância, mais certeza de que o impacto esti-
mado é real.
   Após responder essas cinco perguntas, o especialista em cálculos de
poder estatístico poderá calcular o tamanho que a amostra deve ter utili-
zando um software estatístico padrão.7 O cálculo do poder estatístico indi-
cará o tamanho necessário para a amostra, dependendo dos parâmetros
estabelecidos nos passos 1 a 5. Os cálculos em si são simples, uma vez que os
parâmetros relevantes para a política já tenham sido determinados (espe-
cialmente nos passos 2 e 3).8 Se estiver interessado na implementação de
cálculos de poder estatístico, o complemento técnico disponível no site
deste livro fornece exemplos desses cálculos usando os programas Stata e
Optimal Design.
   Ao buscar a orientação de especialistas em estatística, a equipe de avalia-
ção deve solicitar uma análise de sensibilidade do cálculo de poder estatís-
tico às mudanças nos pressupostos. Ou seja, é importante entender o quanto
o tamanho da amostra terá que aumentar sob pressupostos mais conserva-
dores (tais como a expectativa de um impacto menor, uma maior variabili-
dade no indicador de resultado ou um nível mais elevado de poder
estatístico). Também é uma boa prática realizar cálculos de poder estatístico
para vários indicadores de resultados, já que os tamanhos de amostra neces-
sários podem variar substancialmente se alguns indicadores de resultado
apresentarem maior variabilidade do que outros. Por ﬁm, os cálculos de
poder estatístico também podem indicar o tamanho de amostra necessário
para fazer a comparação entre os impactos do programa em subgrupos
especíﬁcos (por exemplo, homens ou mulheres, ou outros subgrupos da
população de interesse). Para cada subgrupo é preciso obter o tamanho de
amostra requerido.



        Avaliar o impacto do HISP: decidir o tamanho que a
        amostra deve ter para avaliar a expansão do HISP

 Voltando ao nosso exemplo da parte 2, digamos que o Ministério da
 Saúde tenha se mostrado satisfeito com a qualidade e os resultados da
 avaliação do Programa de Subsídio ao Seguro Saúde (HISP). No entanto,
 antes de ampliar o programa, o ministério decide testar uma versão
 expandida, batizada de HISP+. O HISP original paga uma parcela do
 custo do plano de assistência médica para famílias rurais pobres,
 cobrindo  os gastos com cuidados primários e medicamentos, mas não
 hospitalizações. O ministro da Saúde ﬁca se perguntando se esse HISP+
 expandido, que também cobriria hospitalizações, reduziria ainda mais os


A escolha da amostra                                                             309
      gastos com assistência médica das famílias pobres. O ministério pede que
      você elabore uma avaliação de impacto para analisar se o HISP+ reduzi-
      ria os gastos com saúde das famílias rurais pobres.
         Neste caso, escolher um desenho de avaliação de impacto não é um
      desaﬁo para você: o HISP+ tem recursos limitados e não pode ser imple-
      mentado de forma universal imediatamente. Desse modo, você conclui
      que a seleção aleatória seria o método de avaliação de impacto mais viá-
      vel e robusto. O ministro da Saúde compreende que o método de seleção
      aleatória pode funcionar bem e apoia a sua decisão.
         Para ﬁnalizar o projeto da avaliação de impacto, você contratou um
      estatístico que o ajudará a estabelecer o tamanho necessário para a
      amostra. Antes de começar a trabalhar, o estatístico pede algumas infor-
      mações fundamentais. Ele usa uma lista de cinco perguntas.
      1. O programa HISP+ gerará conglomerados? Quanto a essa questão,
         você não está totalmente certo e acredita que pode ser possível aleato-
         rizar o pacote de benefícios ampliado entre todas as famílias rurais
         pobres que já estão se beneﬁciando do HISP. No entanto, você está
         ciente de que o ministro da Saúde pode preferir alocar o programa
         expandido no nível dos povoados, e que isso criaria conglomerados. O
         estatístico sugere a realização de cálculos de poder estatístico para um
         caso de referência sem conglomerados e, em seguida, considerar a
         análise sobre como os resultados mudariam com a utilização de
         conglomerados.
      2. Qual é o indicador de resultado? Você explica que o governo está inte-
         ressado em um indicador bem deﬁnido: as despesas diretas com saúde
         das famílias pobres. O estatístico busca a fonte mais atualizada para
         obter valores de referência para esse indicador e sugere o uso da pes-
         quisa de acompanhamento da avaliação do HISP. Ele observa que,
         entre as famílias que receberam o HISP, as despesas anuais per capita
         com saúde alcançaram a média de US$ 7,84.
      3. Qual é o nível mínimo de impacto que justiﬁcaria o investimento feito
         na intervenção? Em outras palavras, que redução adicional nas despe-
         sas diretas com saúde abaixo da média de US$ 7,84 faria com que essa
         intervenção valesse a pena? O estatístico ressalta que essa não é ape-
         nas uma consideração técnica, mas sim uma questão da política
         pública: é por isso que um formulador de políticas públicas como você
         deve deﬁnir o efeito mínimo que a avaliação deve ser capaz de detectar.
         Você então se recorda que, com base na análise econômica ex-ante, o
         programa HISP+ seria considerado efetivo se reduzisse os gastos das


310                                                     Avaliação de Impacto na Prática
     famílias com saúde em US$ 2. Ainda assim, você sabe que, para efeito
     de avaliação, talvez seja melhor ser conservador ao determinar o
     impacto mínimo detectável, uma vez que é improvável que qualquer
     impacto menor seja detectado. Para compreender como o tamanho
     necessário para a amostra varia com base no efeito mínimo detectável,
     você sugere que o estatístico realize três cálculos diferentes para
     simular uma redução mínima de US$ 1, US$ 2 e US$ 3 das despesas
     diretas com saúde.
 4. Qual é a variância do indicador de resultados na população de inte-
    resse? O estatístico se volta para o conjunto de dados das famílias do
    grupo de tratamento do HISP e ressalta que o desvio padrão dos gas-
    tos diretos com saúde é de US$ 8.
 5. Qual seria o nível razoável de poder estatístico para a avaliação que
    está sendo realizada? O estatístico acrescenta que os cálculos de poder
    geralmente são realizados para reﬂetir um poder estatístico entre 0,8
    e 0,9. Ele recomenda 0,9, mas se oferece para realizar veriﬁcações de
    robustez adicionais para um nível menos conservador, de 0,8.
    Munido de todas essas informações, o técnico realiza os cálculos de
 poder estatístico. Conforme acordado, ele começa com o caso mais con-
 servador, que prevê um poder estatístico de 0,9. Ele produz os resultados
 mostrados no quadro 15.2.
    O estatístico conclui que, para detectar uma redução de US$ 2 nos gas-
 tos diretos com saúde com um poder estatístico de 0,9, a amostra precisa
 conter pelo menos 672 unidades (336 unidades tratadas e 336 unidades de
 comparação, sem conglomerados). Ele observa que, se você quisesse detec-
 tar uma diminuição de US$ 3 nas despesas diretas com saúde, uma amostra
 menor, de pelo menos 300 unidades (150 unidades em cada grupo),

 Quadro 15.2 Avaliar o HISP: tamanho de amostra necessário para
 identiﬁcar vários efeitos mínimos detectáveis

  Efeito mínimo              Grupo de               Grupo de               Amostra
  detectável                tratamento             comparação               total
  US$ 1                        1.344                    1.344                2.688
  US$ 2                          336                      336                  672
  US$ 3                          150                      150                  300

 Observação: o efeito mínimo detectável descreve a redução mínima nas despesas diretas com
 saúde das famílias que pode ser detectada pela avaliação de impacto.
 Poder estatístico = 0,9, sem conglomerados.




A escolha da amostra                                                                         311
      seria suﬁciente. Em comparação, uma amostra muito maior, de pelo menos
      2.688 unidades (1.344 em cada grupo), seria necessária para detectar uma
      diminuição de US$ 1 nas despesas diretas com saúde.
          Em seguida, o estatístico produz outro quadro para um nível de poder
      estatístico de 0,8. O quadro 15.3 mostra que os tamanhos de amostra
      necessários são menores para um poder estatístico de 0,8 do que para um
      poder estatístico de 0,9. Para detectar uma redução de US$ 2 nas despesas
      com saúde das famílias, uma amostra total de pelo menos 502 unidades
      seria suﬁciente. Para detectar uma redução de US$  3, pelo menos 224
      unidades são necessárias. No entanto, para detectar uma redução de
      US$ 1, pelo menos 2.008 unidades seriam necessárias na amostra. O esta-
      tístico salienta que os seguintes resultados são típicos dos cálculos de
      poder estatístico:
      • Quanto maior (mais conservador) o nível de poder estatístico, maior o
        tamanho da amostra necessário.
      • Quanto menor o impacto a ser detectado, maior o tamanho da amostra
        necessário.
         O estatístico pergunta se você gostaria de realizar cálculos de poder
      estatístico para outros resultados de interesse. Você sugere também consi-
      derar o tamanho da amostra necessário para detectar se o HISP+ afetará a
      taxa de hospitalização. Na amostra de povoados tratados do HISP, 5% das
      famílias terão um membro que utilizará o hospital em determinado ano.
      Esse percentual fornece uma taxa de referência. O estatístico produz uma
      nova tabela para demonstrar que amostras relativamente grandes seriam
      necessárias para detectar alterações na taxa de hospitalização (quadro 15.4)
      de 1, 2 ou 3 pontos percentuais a partir da taxa de base de 5%.


      Quadro 15.3 Avaliar o HISP: tamanho de amostra necessário para
      identiﬁcar vários efeitos mínimos detectáveis

       Efeito mínimo                Grupo de              Grupo de
       detectável                  tratamento            comparação          Amostra total
       US$ 1                          1.004                  1.004                2.008
       US$ 2                           251                     251                  502
       US$ 3                            112                    112                  224

      Observação: o efeito mínimo detectável descreve a redução mínima nas despesas diretas com
      saúde das famílias que pode ser detectada pela avaliação de impacto.
      Poder estatístico = 0,8, sem conglomerados




312                                                              Avaliação de Impacto na Prática
 Quadro 15.4 Avaliar o HISP: tamanho de amostra necessário para
 identiﬁcar vários efeitos mínimos detectáveis (aumento na taxa de
 hospitalização)

  Efeito mínimo
  detectável (ponto                 Grupo de               Grupo de               Amostra
  percentual)                      tratamento             comparação               total
  1                                    7.257                   7.257               14.514
  2                                    1.815                  1.815                 3.630
  3                                     807                     807                  1.614

 Observação: o efeito mínimo detectável descreve a alteração mínima na taxa de utilização hospita-
 lar (expressa em pontos percentuais) que pode ser detectada pela avaliação de impacto.
 Poder estatístico = 0,8, sem conglomerados.

    O quadro 15.4 mostra que os requisitos para o tamanho da amostra são
 maiores para este resultado (a taxa de hospitalização) do que para despe-
 sas diretas com saúde. O estatístico conclui que, se você estiver interes-
 sado em detectar os impactos de ambos os resultados, deverá utilizar as
 amostras maiores geradas pelos cálculos de poder estatístico realizados
 para as taxas de hospitalização. Se forem utilizadas as amostras obtidas a
 partir dos cálculos de poder estatístico realizados para as despesas dire-
 tas com saúde, o estatístico sugere informar o ministro da Saúde que a
 avaliação não terá poder estatístico suﬁciente para detectar efeitos rele-
 vantes em relação às taxas de hospitalização.


      Perguntas 8 sobre o HISP

 A. Que tamanho de amostra você recomendaria para estimar o impacto
    do HISP+ sobre as despesas diretas com saúde?
 B. Esse tamanho de amostra seria suﬁciente para detectar alterações na
    taxa de hospitalização?




Cálculos de poder estatístico com conglomerados

A discussão anterior introduziu os princípios relacionados à realização de
cálculos de poder estatístico para programas que não geram conglomerados.
No entanto, conforme discutido na parte 2, alguns programas alocam bene-
fícios no nível de conglomerados. Descreveremos brevemente nesta seção
como os princípios básicos dos cálculos de poder estatístico precisam ser
adaptados para amostras conglomeradas.
A escolha da amostra                                                                                 313
Conceito-chave                 Na presença de conglomerados, um importante princípio orientador é o
O número de                fato de que o número de conglomerados geralmente importa muito mais do
conglomerados importa      que o número de indivíduos dentro de cada conglomerado. Um número suﬁ-
muito mais para os
                           ciente de conglomerados é necessário para testar de maneira convincente se
cálculos de poder
estatístico do que o
                           um programa teve um impacto quando se comparam os resultados de amos-
número de indivíduos       tras de unidades de tratamento e comparação. É o número de conglomerados
dentro dos                 que determina, em grande parte, o tamanho de amostra efetivo. Quando se
conglomerados. São         seleciona aleatoriamente o tratamento entre um pequeno número de conglo-
necessários, pelo          merados, é improvável que os conglomerados de tratamento e de comparação
menos, 30 a 50
                           sejam idênticos. A seleção aleatória entre dois bairros, duas escolas ou dois
conglomerados em
cada um dos grupos de      hospitais não garante que os dois grupos sejam semelhantes. Em compara-
tratamento e de            ção, selecionar aleatoriamente uma intervenção entre 100 distritos, 100 esco-
comparação, embora         las ou 100 hospitais aumentará a probabilidade de garantir que os grupos de
os requisitos referentes   tratamento e de comparação sejam semelhantes. Em suma, é necessário um
ao tamanho da amostra
                           número suﬁciente de conglomerados para assegurar o balanceamento entre
variem caso a caso e
sejam necessários
                           o grupo de tratamento e comparação. Além disso, o número de conglomera-
cálculos de poder          dos também é importante para a precisão dos efeitos estimados do tratamento.
estatístico para           Um número suﬁciente de conglomerados é necessário para testar a hipótese
assegurar um tamanho       de que um programa tem impacto com poder estatístico suﬁciente. Portanto,
de amostra adequado.       ao implementar uma avaliação de impacto baseada na seleção aleatória é
                           muito importante assegurar que o número de conglomerados seja suﬁciente-
                           mente grande.
                               Pode-se estabelecer o número de conglomerados necessários para um
                           teste de hipótese preciso por meio da realização de cálculos de poder esta-
                           tístico, a qual, para amostras formadas por conglomerados, exige a utiliza-
                           ção das mesmas cinco perguntas listadas acima, além de uma questão
                           adicional: qual é a variabilidade do indicador de resultados dentro dos
                           conglomerados?
                               No extremo, todos os resultados dentro de um conglomerado são perfei-
                           tamente correlacionados. Por exemplo, pode ser que a renda das famílias
                           não varie consideravelmente dentro de cada povoado, mas que a desigual-
                           dade de renda seja signiﬁcativa entre povoados diferentes. Neste caso, se
                           você desejar adicionar um indivíduo à sua amostra de avaliação, incluir um
                           indivíduo de um novo povoado proporcionará muito mais poder estatístico
                           adicional do que incluir um indivíduo de um povoado que já está
                           representado. Como os resultados dentro de um conglomerado são total-
                           mente correlacionados, adicionar um novo indivíduo desse mesmo conglo-
                           merado não acrescentará nenhuma nova informação. Na verdade, neste
                           caso, esse segundo habitante adicionado provavelmente se parecerá muito
                           com o indivíduo original já adicionado. Em geral, uma maior correlação
                           intraconglomerado nos resultados (ou seja, a maior correlação entre os
                           resultados ou características das unidades que pertencem ao mesmo
314                                                                           Avaliação de Impacto na Prática
conglomerado) aumenta o número de conglomerados necessários para se
alcançar um determinado nível de poder estatístico.
   Em amostras com conglomerados, os cálculos de poder estatístico real-
çam as diferenças entre adicionar conglomerados e adicionar observações
dentro desses conglomerados. O aumento relativo do poder estatístico
decorrente da inclusão de uma unidade de um novo conglomerado é quase
sempre maior do que quando ocorre a inclusão de uma unidade de um con-
glomerado existente. Embora o aumento do poder estatístico decorrente da
inclusão de um novo conglomerado possa ser substancial, a adição de con-
glomerados também pode ter implicações operacionais e aumentar o custo
de implementação do programa ou da coleta de dados. Mais adiante neste
capítulo, mostraremos como realizar cálculos de poder estatístico com con-
glomerados no caso do HISP+ e discutiremos algumas das vantagens e des-
vantagens envolvidas.
   Em muitos casos, são necessários pelo menos 40 a 50 conglomerados
em cada grupo de tratamento e de comparação para obter poder estatís-
tico suﬁciente e garantir o balanceamento das características de linha de
base ao usar métodos de seleção aleatória. No entanto, esse número pode
variar dependendo dos diversos parâmetros já discutidos e da correlação
intraconglomerado. Além disso, como será discutido mais adiante, esse
número provavelmente aumentará quando forem utilizados métodos
diferentes da seleção aleatória (supondo que todos os outros fatores sejam
constantes).



        Avaliar o impacto do HISP: decidir o tamanho de amostra
        necessário para avaliar um HISP expandido com
        conglomerados

 Depois de sua primeira discussão com o estatístico sobre os cálculos de
 poder estatístico para o HISP+, você decidiu conversar brevemente com
 o ministro da Saúde sobre as implicações de alocar aleatoriamente os
 benefícios do HISP+ expandido a todos os indivíduos da população que
 já recebem o plano HISP básico. Essa consulta revelou que tal procedi-
 mento não seria politicamente viável: nesse contexto, seria difícil expli-
 car por que uma pessoa receberia os benefícios expandidos, enquanto
 seu vizinho, não.
    Em vez da aleatorização no nível individual, você sugere selecionar
 aleatoriamente um número de povoados que já participam do HISP para
 testar o HISP+. Todos os moradores do povoado selecionado se torna-
 riam elegíveis. Esse procedimento criaria conglomerados e, portanto,

A escolha da amostra                                                          315
      exigiria novos cálculos de poder estatístico. Agora, você deseja determi-
      nar o tamanho que uma amostra deve ter para avaliar o impacto de HISP+
      quando ele é alocado aleatoriamente a conglomerados.
         Você consulta seu estatístico novamente. E ele o tranquiliza: só é
      necessário um pouco mais de trabalho. Apenas uma pergunta está sem
      resposta na lista de veriﬁcação dele. O estatístico precisa saber qual é a
      variabilidade do indicador de resultado dentro dos conglomerados.
      Felizmente, esta também é uma pergunta que ele pode responder utili-
      zando os dados do HISP. Ele veriﬁca que a correlação intrapovoado das
      despesas diretas com saúde é igual a 0,04.
         Ele também pergunta se foi estabelecido um limite máximo para o
      número de povoados nos quais seria viável implementar o novo
      programa-piloto. Como atualmente o programa tem 100 povoados parti-
      cipantes do HISP, você explica que poderá ter, no máximo, 50 povoados
      de tratamento e 50 povoados de comparação para o HISP+. Com essa
      informação, o estatístico produz os cálculos de poder estatístico mostra-
      dos no quadro 15.5 para um poder estatístico de 0,8.
         O estatístico conclui que, para detectar uma redução de US$ 2 nas des-
      pesas diretas com saúde, a amostra deve incluir pelo menos 630 unida-
      des, ou seja, 7 unidades por conglomerado em 90 conglomerados
      (45 conglomerados no grupo de tratamento e 45 conglomerados no grupo
      de comparação). Ele observa que esse número é maior do que o da amos-
      tra submetida à seleção aleatória no nível das famílias, que exigiu apenas
      um total de 502 unidades (251 no grupo de tratamento e 251 no grupo de

      Quadro 15.5 Avaliar o HISP: tamanho de amostra necessário para
      identiﬁcar vários efeitos mínimos detectáveis (diminuição nas despesas
      com saúde das famílias)

       Efeito            Número             Unidades         Amostra total       Amostra total
       mínimo           de conglo-         por conglo-       com conglo-          sem conglo-
       detectável        merados             merado            merados              merados
       US$ 1                 100                102               10.200              2.008
       US$ 2                  90                   7                 630                 502
       US$ 3                  82                   3                 246                 224

      Observação: o efeito mínimo detectável descreve a redução mínima nas despesas diretas com
      saúde das famílias que pode ser detectada pela avaliação de impacto. O número de conglomerados
      corresponde ao total de conglomerados. Metade desse total corresponde ao número de conglo-
      merados do grupo de comparação e a outra metade, ao número de conglomerados do grupo de
      tratamento.
      Poder estatístico = 0,8, máximo de 100 conglomerados




316                                                                  Avaliação de Impacto na Prática
 Quadro 15.6 Avaliar o HISP: tamanho de amostra necessário para
 detectar um impacto mínimo de US$ 2 para vários totais
 de conglomerados

                                                                         Amostra total
  Efeito mínimo            Total de             Unidades por                 com
  detectável            conglomerados           conglomerado            conglomerados
  US$ 2                          30                     50                    1.500
  US$ 2                          58                     13                      754
  US$ 2                          81                       8                     648
  US$ 2                          90                       7                     630
  US$ 2                         120                       5                     600

 Observação: o número de conglomerados é o número total de conglomerados. Metade desse
 total corresponde ao número de conglomerados do grupo de comparação e a outra metade, ao
 número de conglomerados do grupo de tratamento. Se o projeto não tivesse nenhum conglome-
 rado, seriam necessárias 251 unidades em cada grupo para identiﬁcar um efeito mínimo detectá-
 vel de US$ 2 (ver o quadro 15.3).
 Poder estatístico = 0,8


 comparação; ver o quadro 15.3). Para detectar uma redução de US$ 3 nos
 gastos com saúde, a amostra precisaria incluir pelo menos 246 unidades,
 ou 3 unidades em cada um dos 82 conglomerados (41 conglomerados no
 grupo de tratamento e 41 conglomerados no grupo de comparação).
    Em seguida, o estatístico mostra como o número total de observações
 necessárias para a amostra varia com o número total de conglomerados.
 Ele decide repetir os cálculos para um efeito mínimo detectável de US$ 2
 e um poder estatístico de 0,8. O tamanho total da amostra necessária
 para estimar esse efeito aumenta bastante quando o número de conglo-
 merados diminui (quadro 15.6). Com 120 conglomerados, seria necessá-
 ria uma amostra de 600 observações. Se apenas 30 conglomerados
 estivessem disponíveis, a amostra total precisaria conter 1.500
 observações. Em comparação, se 90 conglomerados estivessem disponí-
 veis, apenas 630 observações seriam necessárias.


      Perguntas 9 sobre o HISP

 A. Que tamanho de amostra você recomendaria para estimar o impacto
     do HISP+ sobre as despesas diretas com saúde?
 B. Em quantos povoados você aconselharia o ministro da Saúde a imple-
     mentar o HISP+?




A escolha da amostra                                                                             317
      Ir além do caso de referência

      Neste capítulo, falamos sobre o caso de referência de uma avaliação de
      impacto implementada utilizando o método de seleção aleatória com
      cumprimento completo. Esse é o cenário mais simples e, portanto, o mais
      adequado para transmitir a lógica por trás dos cálculos de poder estatístico.
      Ainda assim, muitos aspectos práticos de nossos cálculos de poder esta-
      tístico não foram discutidos, e desvios dos casos básicos discutidos aqui
      precisam ser cuidadosamente analisados. Alguns desses desvios são dis-
      cutidos abaixo.
         O uso de métodos quase-experimentais. Em igualdade de condições, todos
      os outros métodos de avaliação de impacto quase-experimentais, como
      regressão descontínua, pareamento ou diferença em diferenças, costumam
      exigir amostras maiores do que as amostras necessárias para o método de
      seleção aleatória. Por exemplo, ao usar o método de regressão descontínua,
      apenas as observações em torno do ponto de corte de elegibilidade podem
      ser usadas, conforme vimos no capítulo 6. É necessária uma amostra suﬁ-
      cientemente grande em torno desse ponto de corte e é preciso utilizar os
      cálculos de poder estatístico para estimar a amostra necessária para fazer
      comparações signiﬁcativas em torno desse ponto.
         Por outro lado, a disponibilidade de várias séries de dados pode ajudar a
      aumentar o poder de uma avaliação de impacto para um determinado
      tamanho de amostra. Por exemplo, os dados de linha de base relacionados
      aos resultados e outras características podem ajudar a tornar a estimativa
      dos efeitos do tratamento mais precisa. A disponibilização de medidas para
      os resultados após o início do tratamento em vários pontos do tempo tam-
      bém pode ajudar.
         Exame de diferentes formas de implementação do programa ou inovações
      no desenho. Nos exemplos apresentados neste capítulo, o tamanho total da
      amostra foi dividido igualmente entre os grupos de tratamento e de
      comparação. Em alguns casos, a principal questão de política pública da ava-
      liação pode envolver a comparação dos impactos do programa entre as dife-
      rentes formas de implementação do programa e as inovações no desenho. Se
      esse for o caso, o impacto esperado pode ser relativamente menor do que se
      o grupo de tratamento que estivesse participando do programa fosse com-
      parado a um grupo de comparação que não estivesse recebendo nenhum
      benefício. Dessa maneira, o efeito mínimo detectável entre dois grupos de
      tratamento pode ser menor do que o efeito mínimo detectável entre um
      grupo de tratamento e um grupo de comparação. Isso sugere que a distribui-
      ção ideal da amostra conduzirá a grupos de tratamento relativamente maio-
      res do que os grupos de comparação.9 Nas avaliações de impacto com
      múltiplos tratamentos, pode ser que seja necessário implementar os

318                                                      Avaliação de Impacto na Prática
cálculos de poder estatístico para estimar separadamente o tamanho de
cada grupo de tratamento e de comparação, dependendo das principais
questões de interesse da política pública.
    Comparação de subgrupos. Em outros casos, algumas das perguntas da
avaliação de impacto podem se concentrar na análise de uma possível varia-
ção dos impactos do programa entre os diferentes subgrupos, como aqueles
divididos por sexo, idade ou faixa de renda. Se esse for o caso, os requisitos
referentes ao tamanho da amostra serão maiores e os cálculos de poder esta-
tístico precisarão ser ajustados adequadamente. Por exemplo, pode ser que
uma das principais questões da iniciativa envolva deﬁnir se um programa de
educação tem impacto maior sobre estudantes do sexo feminino do que
sobre estudantes do sexo masculino. Intuitivamente, será necessário um
número suﬁciente de alunos de cada sexo no grupo de tratamento e no
grupo de comparação para detectar um impacto para cada subgrupo. O obje-
tivo de comparar os impactos do programa entre dois subgrupos pode dupli-
car o tamanho da amostra necessária. Considerar a heterogeneidade entre
mais grupos (por exemplo, entre grupos divididos por idade) também pode
aumentar substancialmente o tamanho da amostra necessária. Se tais com-
parações entre os grupos forem feitas no contexto de uma avaliação de
impacto baseada na seleção aleatória, é preferível também levar esse fator
em consideração no momento da implementação da aleatorização e, em
especial, realizar a aleatorização dentro dos blocos ou estratos (ou seja, den-
tro de cada subgrupo a ser comparado). Na prática, mesmo que não seja feita
nenhuma comparação entre os subgrupos, a aleatorização estratiﬁcada (ou
em blocos) pode ajudar a maximizar ainda mais o poder estatístico para um
determinado tamanho de amostra.
    Análise de múltiplos resultados. É necessário cuidado especial nos cálcu-
los de poder estatístico de avaliações de impacto que visam testar se um pro-
grama leva a mudanças em vários indicadores de resultados. Se forem
considerados muitos resultados diferentes, haverá uma probabilidade rela-
tivamente maior de que a avaliação de impacto detecte impacto em um dos
resultados por acaso. Para tratar disso, a equipe de avaliação de impacto pre-
cisará considerar a realização de testes de signiﬁcância estatística conjunta
das mudanças em vários resultados. Alternativamente, podem ser construídos
alguns índices que agreguem conjuntos de indicadores de resultado. Essas
abordagens para lidar com múltiplos testes de hipótese têm implicações para
os cálculos de poder estatístico e para o tamanho das amostras e, dessa
maneira, precisam ser consideradas ao determinar a amostra necessá-
ria para a avaliação de impacto.10
    Lidar com cumprimento parcial ou atrição. Os cálculos de poder estatístico
geralmente fornecem o tamanho mínimo necessário para as amostras. Na prá-
tica, diﬁculdades de implementação muitas vezes implicam que o tamanho
A escolha da amostra                                                              319
      real da amostra é menor do que o tamanho planejado da amostra. Por exem-
      plo, o cumprimento parcial pode indicar que apenas uma parcela dos beneﬁ-
      ciários selecionados para participar do programa realmente participará da
      intervenção. Os requisitos relacionados ao tamanho da amostra aumentam
      quando o cumprimento parcial entra em cena. Além disso, mesmo que todos
      os indivíduos aceitem participar do programa, pode ocorrer alguma atrição na
      pesquisa de acompanhamento caso nem todos os indivíduos possam ser
      localizados. Mesmo que o cumprimento parcial ou a atrição sejam aleatórios
      e não afetem a consistência das estimativas de impacto, esses aspectos afeta-
      riam o poder estatístico da avaliação de impacto. Em geral, é aconselhável adi-
      cionar uma margem ao tamanho da amostra prevista pelos cálculos de poder
      estatístico para levar em conta esses fatores. Da mesma maneira, dados de
      menor qualidade terão mais erros de medida e os resultados de interesse
      apresentarão maior variabilidade, exigindo também amostras maiores.
          As considerações de natureza mais avançada mencionadas nesta seção
      estão além do escopo deste livro, mas os recursos adicionais listados ao ﬁnal
      deste capítulo podem ajudar. Na prática, as equipes de avaliação precisam
      incluir ou contratar um especialista que possa realizar cálculos de poder
      estatístico, e esse especialista deve ser capaz de fornecer aconselhamento
      sobre as questões mais complexas ou avançadas.


      Recursos adicionais

      • Para acessar os materiais complementares a este capítulo e hiperlinks com
        recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
        .worldbank.org/ieinpractice).
      • Para obter exemplos de como realizar cálculos de poder estatístico com os
        programas de software StataTM e Optimal Design, especiﬁcamente para o
        caso do HISP que ilustra este capítulo, ver o complemento técnico on-line
        disponível no site deste livro (http://www.worldbank.org/ieinpractice).
        O complemento técnico inclui material técnico adicional para leitores com
        experiência em estatística e econometria.
      • Para ler discussões detalhadas sobre amostragem (incluindo outros métodos,
        como amostragem sistemática ou amostragem em várias etapas) além dos
        conceitos básicos discutidos aqui, ver as seguintes fontes:
        –  Cochran, William G. 1977. Sampling Techniques, terceira edição. Nova York:
           John Wiley.
        –  Kish, Leslie. 1995. Survey Sampling. Nova York: John Wiley.
        –  Lohr, Sharon. 1999. Sampling: Design and Analysis. Paciﬁc Grove, CA:
           Brooks Cole.
        –  Thompson, Steven K. 2002. Sampling, segunda edição. Nova York: John Wiley.
        –  Ou, em nível mais básico, Kalton, Graham. 1983. Introduction to Survey
           Sampling. Beverly Hills, CA: Sage.
320                                                       Avaliação de Impacto na Prática
• Orientações práticas sobre amostragem podem ser encontradas em:
  –  Grosh, Margaret e Juan Muñoz. 1996. “A Manual for Planning and
      Implementing the Living Standards Measurement Study Survey”.
      LSMS Working Paper 126, Banco Mundial, Washington, DC.
  –  Organização das Nações Unidas (ONU). 2005. Household Sample
      Surveys in Developing and Transition Countries. Nova York: Nações
      Unidas.
  –  Iarossi, Giuseppe. 2006. The Power of Survey Design: A User’s Guide for
      Managing Surveys, Interpreting Results, and Inﬂuencing Respondents.
      Washington, DC: Banco Mundial.
  –  Fink, Arlene G. 2008. How to Conduct Surveys: A Step by Step Guide, quarta
      edição, Beverly Hills, CA: Sage.
• Para obter uma planilha com cálculos de poder estatístico que poderão ser
  utilizados para deﬁnir o poder de um determinado tamanho de amostra
  após a inclusão de determinadas características, ver o hub de Avaliação do
  Banco Interamericano de Desenvolvimento, na seção Desenho (Design), sob
  Ferramentas (Tools) (http://www.iadb.org/evaluationhub).
• Para obter mais informações sobre cálculos de poder estatístico e tamanhos
  de amostra, ver o Kit de Ferramentas de Avaliação de Impacto do Banco
  Mundial, Módulo 3 em Desenho (Vermeersch, Rothenbühler e Sturdy 2012).
  Esse módulo também inclui um guia sobre como fazer cálculos de poder
  estatístico ex-ante, um artigo sobre cálculos de poder estatístico com variáveis
  binárias e uma coleção de referências úteis para obter mais informações
  sobre cálculos de poder estatístico. (http://www.worldbank.org/health
  /impactevaluationtoolkit)
• Para acessar vários posts referentes a cálculos de poder estatístico, ver o blog
  do Banco Mundial sobre impactos em desenvolvimento socioeconômico
  (http://blogs.worldbank.org/impactevaluations/).
• Para acessar uma discussão sobre algumas considerações referentes a cálculos
  de poder estatístico em projetos mais complexos do que o caso de referência
  de seleção aleatória na presença de cumprimento perfeito, ver:
  –  Spybrook, Jessaca, Stephen Raudenbush, Xiaofeng Liu, Richard Congdon
      e Andrés Martinez. 2008. Optimal Design for Longitudinal and Multilevel
      Research: Documentation for the “Optimal Design” Software. Nova York:
      William T. Grant Foundation.
  –  Rosenbaum, Paul. 2009. “The Power of Sensitivity Analysis and Its Limit”.
      Capítulo 14 de Design of Observational Studies, por Paul Rosenbaum.
      Nova York: Springer Series in Statistics.
• Sobre o tema de múltiplos testes de hipótese, ver:
  –  Duﬂo, E., R. Glennerster, M. Kremer, T. P. Schultz e A. S. John. 2007. “Using
      Randomization in Development Economics Research: A Toolkit.” Capítulo
      61 do Handbook of Development Economics, Vol. 4, 3895–962. Amsterdã:
      Elsevier.
  –  Schochet, P. Z. 2008. Guidelines for Multiple Testing in Impact Evaluations
      of Educational Interventions. Preparado por Mathematica Policy Research
      Inc., para o Institute of Education Sciences, Departamento de Educação
      dos EUA, Washington, DC.

A escolha da amostra                                                                 321
      • Várias ferramentas estão disponíveis para os interessados em explorar com
        mais profundidade os desenhos de amostras. Por exemplo, a Fundação W. T.
        Grant desenvolveu e disponibilizou gratuitamente o software Optimal Design
        para pesquisas longitudinais e em vários níveis, que é útil para análises de
        poder estatístico na presença de conglomerados. O software e o manual do
        Optimal Design podem ser baixados em http://hlmsoft.net/od.



      Notas

      1. Estritamente falando, amostras são criadas a partir de listagens. Em nossa
         discussão, supomos que a listagem coincide ou se sobrepõe perfeitamente à
         população.
      2. Conforme discutido na parte 2, o cumprimento completo pressupõe
         que todas as unidades selecionadas para o grupo de tratamento são tratadas
         e todas as unidades selecionadas para o grupo de comparação não são
         tratadas.
      3. Nesse contexto, o termo população não se refere à população do país, mas sim a
         todo o grupo de crianças que nos interessa: a população de interesse.
      4. Esta lógica é formalizada por um teorema batizado de teorema central do limite.
         Formalmente, para um resultado y, o teorema central do limite mostra que a
         média da amostra y – constitui, em média, uma estimativa válida da média da
         população. Além disso, para uma amostra de tamanho n e para uma variância
         populacional s 2, a variância da média da amostra é inversamente proporcional
         ao tamanho da amostra:
                                                        2
                                                      σ
                                          var ( y ) =
                                                       n

      5. A alocação de benefícios por conglomerado é, muitas vezes, necessária devido a
         considerações sociais ou políticas que fazem com que a aleatorização dentro de
         conglomerados seja impossível. No contexto de uma avaliação de impacto, geral-
         mente o conglomerado torna-se necessário devido a prováveis transbordamen-
         tos ou ao contágio dos benefícios do programa entre os indivíduos dentro dos
         conglomerados. Ver a discussão no capítulo 11.
      6. Ao calcular o poder estatístico a partir de uma linha de base, a correlação entre
         os resultados ao longo do tempo também deve ser levada em conta nos cálculos
         de poder estatístico.
      7. Por exemplo, Spybrook e outros (2008) introduziram o Optimal Design, um
         software fácil de usar para realizar cálculos de poder estatístico.
      8. Ter grupos de tratamento e de comparação de tamanho igual é, geralmente,
         desejável. Na verdade, para um determinado número de observações em uma
         amostra, o poder estatístico é maximizado pela atribuição de metade das
         observações ao grupo de tratamento e metade ao grupo de comparação. No
         entanto, os grupos de tratamento e de comparação nem sempre precisam ter o
         mesmo tamanho. Ver a discussão ao ﬁnal do capítulo.


322                                                           Avaliação de Impacto na Prática
 9. Os custos do tratamento também podem ser levados em consideração e implicar
    em grupos de tratamento e de comparação que não têm o mesmo tamanho. Ver,
    por exemplo, Duﬂo e outros (2007).
10. Ver, por exemplo, Duﬂo e outros (2007) ou Schochet (2008).



Referências

Cochran, William G. 1977. Sampling Techniques, terceira edição. Nova York: John
   Wiley & Sons.
Duﬂo, E., R. Glennerster e M. Kremer. 2007. “Using Randomization in
   Development Economics Research: A Toolkit.” In Handbook of Development
   Economics, Vol. 4, editado por T. Paul Schultz e John Strauss, 3895–962.
   Amsterdã: Elsevier.
Fink, Arlene G. 2008. How to Conduct Surveys: A Step by Step Guide, quarta edição.
   Beverly Hills, CA: Sage.
Grosh, Margaret e Paul Glewwe, eds. 2000. Designing Household Survey
   Questionnaires for Developing Countries: Lessons from 15 Years of the Living
   Standards Measurement Study. Washington, DC: Banco Mundial.
Grosh, Margaret e Juan Muñoz. 1996. “A Manual for Planning and Implementing
   the Living Standards Measurement Study Survey.” LSMS Working Paper 126,
   Banco Mundial, Washington, DC.
Iarossi, Giuseppe. 2006. The Power of Survey Design: A User’s Guide for Managing
   Surveys, Interpreting Results, and Inﬂuencing Respondents. Washington, DC:
   Banco Mundial.
Kalton, Graham. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage.
Kish, Leslie. 1995. Survey Sampling. Nova York: John Wiley.
Lohr, Sharon. 1999. Sampling: Design and Analysis. Paciﬁc Grove, CA: Brooks Cole.
ONU (Organização das Nações Unidas). 2005. Household Sample Surveys in Developing
   and Transition Countries. Nova York: Organização das Nações Unidas (ONU).
Rosenbaum, Paul. 2009. Design of Observational Studies. Nova York: Springer Series
   in Statistics.
Schochet, P. Z. 2008. Guidelines for Multiple Testing in Impact Evaluations of
   Educational Interventions. NCEE 2008-4018. National Center for Educational
   Evaluation and Regional Assistance, Institute of Education Sciences.
   Washington, DC: Departamento de Educação dos EUA.
Spybrook, Jessaca, Stephen Raudenbush, Xiaofeng Liu, Richard Congdon e Andrés
   Martinez. 2008. Optimal Design for Longitudinal and Multilevel Research:
   Documentation for the “Optimal Design” Software. Nova York: William T. Grant
   Foundation.
Thompson, Steven K. 2002. Sampling, segunda edição. Nova York: John Wiley.
Vermeersch, Christel, Elisa Rothenbühler e Jennifer Sturdy. 2012. Impact
   Evaluation Toolkit: Measuring the Impact of Results-Based Financing on
   Maternal and Child Health. Banco Mundial, Washington, DC. http://www
   .worldbank.org/health/impactevaluationtoolkit.


A escolha da amostra                                                                 323
CAPÍTULO 16




A busca de fontes adequadas
de dados

Tipos de dados necessários

Neste capítulo, discutiremos as várias fontes de dados que as avaliações de
impacto podem utilizar. Em primeiro lugar, analisaremos as fontes de dados
existentes, especialmente de dados administrativos, e forneceremos alguns
exemplos de avaliação de impacto que utilizam esse tipo de fonte de
informação. Como muitas avaliações exigem a coleta de dados novos, discu-
tiremos as etapas da coleta de dados novos em pesquisas de campo. Uma
compreensão clara sobre essas etapas ajudará a garantir que a avaliação de
impacto se baseie em dados de qualidade que não comprometam o desenho
de avaliação. Primeiramente, é preciso encomendar a construção de um
questionário apropriado. Paralelamente, será necessário obter ajuda de um
órgão governamental ou de empresas especializadas em coleta de dados.
A instituição responsável pela coleta de dados recrutará e formará pessoal
para o trabalho de campo e testará o questionário. Depois de fazer os ajustes
necessários, a empresa ou órgão poderá prosseguir com o trabalho de
campo, coletar os dados, digitalizá-los e processá-los antes que sejam entre-
gues, armazenados e analisados pela equipe de avaliação.
   São necessários dados de boa qualidade para avaliar o impacto da inter-
venção sobre os resultados de interesse. A cadeia de resultados discutida no

                                                                                325
                          capítulo 2 fornece uma base para deﬁnir os indicadores que devem ser
                          medidos e quando. Os indicadores são necessários ao longo da cadeia de
                          resultados.
Conceito-chave               Dados sobre os indicadores de resultado. A primeira e mais importante
São necessários           necessidade são os dados sobre os indicadores de resultados diretamente
indicadores ao longo      afetados pelo programa. Os indicadores de resultados referem-se aos objeti-
de toda a cadeia de       vos que o programa pretende atingir. Conforme discutido no capítulo 2, os
resultados para medir
                          indicadores de resultados devem, preferencialmente, ser selecionados de
os resultados ﬁnais, os
resultados intermediá-    modo que sejam SMART: especíﬁcos, mensuráveis, atribuíveis, realistas e
rios, bem como os         direcionados. No entanto, a avaliação de impacto não deve medir apenas os
serviços do programa e    resultados que o programa pode afetar diretamente. Dados sobre os indica-
a qualidade da            dores de resultados que o programa afeta indiretamente, ou os indicadores
implementação.
                          que captam os efeitos não intencionais do programa, maximizarão o valor
                          das informações geradas pela avaliação de impacto, bem como o entendi-
                          mento sobre a efetividade geral do programa.
                             Dados sobre resultados intermediários. Além disso, os dados sobre resul-
                          tados intermediários são úteis para ajudar a entender os canais pelos quais o
                          programa avaliado impactou — ou não impactou — os resultados ﬁnais de
                          interesse. As avaliações de impacto são normalmente realizadas ao longo de
                          vários períodos de tempo, e deve-se determinar quando medir os indicado-
                          res de resultado. Seguindo a cadeia de resultados, pode-se estabelecer uma
                          sequência de indicadores de resultados, que vão desde indicadores de curto
                          prazo, que podem ser medidos enquanto os participantes ainda estão no
                          programa — como a frequência escolar medida por uma pesquisa de acom-
                          panhamento de curto prazo no contexto de um programa de educação —,
                          até indicadores de longo prazo, como o desempenho educacional dos alunos
                          ou os resultados do mercado de trabalho, que podem ser medidos em uma
                          pesquisa de acompanhamento de longo prazo depois que os participantes já
                          saíram do programa. Para medir o impacto de maneira convincente ao longo
                          do tempo, é necessário obter dados desde a linha de base, antes da imple-
                          mentação do programa que está sendo avaliado. A seção do capítulo 12 que
                          trata do cronograma das avaliações esclarece quando coletar esses dados.
                             Conforme discutimos no capítulo 15, no contexto dos cálculos de poder
                          estatístico, alguns indicadores podem não ser passíveis de avaliação de
                          impacto em pequenas amostras. A detecção de impacto para os indicadores
                          de resultados que são extremamente variáveis, que representam eventos
                          raros ou que apresentam tendência de serem apenas marginalmente afeta-
                          dos por uma intervenção pode exigir amostras proibitivamente grandes. Por
                          exemplo, identiﬁcar o impacto de uma intervenção sobre as taxas de morta-
                          lidade materna seria viável apenas em uma amostra que contivesse dezenas
                          de milhares de mulheres grávidas, uma vez que a mortalidade é (felizmente)
                          um evento raro. Nesse caso, pode ser necessário reorientar a avaliação de
326                                                                          Avaliação de Impacto na Prática
impacto para indicadores intermediários, que estejam relacionados aos
resultados ﬁnais e para os quais há poder estatístico suﬁciente para detectar
efeitos. No caso de uma intervenção destinada a reduzir a mortalidade
materna, um indicador intermediário pode estar relacionado à utilização de
serviços de saúde durante a gestação e ao tipo de instituição em que foi feito
o parto, que são fatores associados às taxas de mortalidade. Os cálculos de
poder estatístico discutidos no capítulo 15 podem ajudar a tornar mais cla-
ros os indicadores nos quais os impactos podem ser detectados e aqueles
nos quais os impactos podem ser mais difíceis de detectar sem amostras
muito grandes.
   Dados sobre atividades e produtos do programa. Os indicadores também
são necessários para a parte da cadeia de resultados que descreve as ativida-
des, serviços e produtos do programa. Em especial, os dados de monitora-
mento do programa podem fornecer informações essenciais sobre a entrega
dos serviços da intervenção, incluindo quem são os beneﬁciários e quais os
tipos de serviços do programa que podem ter recebido. No mínimo, os dados
de monitoramento são necessários para que se saiba quando um programa
começou, como também quem recebeu os serviços e para fornecer uma
medida da intensidade ou qualidade da intervenção. Isso é especialmente
importante nos casos em que o programa não pode ser implementado para
todos os beneﬁciários com o mesmo conteúdo, qualidade ou duração. Uma
boa compreensão sobre o nível de adequação da implementação ao seu
desenho inicial é fundamental para interpretar os resultados da avaliação de
impacto, o que inclui saber se eles mostram a efetividade do programa con-
forme previsto no momento de sua concepção ou se apresentam algumas
falhas de implementação.
   Dados adicionais. Outros dados exigidos pela avaliação de impacto podem
depender da metodologia utilizada. Para controlar as inﬂuências externas,
talvez sejam necessários dados sobre outros fatores que possam vir a afetar
os resultados de interesse. Esse aspecto é particularmente importante
quando se utilizam métodos de avaliação que dependem de mais suposições
do que os métodos de aleatorização. Às vezes, também é necessário ter
dados temporais sobre os resultados e outros fatores para calcular tendên-
cias, como é o caso do método de diferença em diferenças. Levar em consi-
deração outros fatores e tendências passadas também ajuda a aumentar o
poder estatístico. Mesmo com seleção aleatória, dados referentes a outras
características podem tornar possível estimar os efeitos do tratamento com
mais precisão. Eles podem ser usados para incluir controles adicionais ou
para analisar a heterogeneidade dos efeitos do programa em relação a carac-
terísticas relevantes.
   O desenho selecionado para a avaliação de impacto também afetará os
requisitos referentes aos dados. Por exemplo, se for escolhido o método de
A busca de fontes adequadas de dados                                             327
      pareamento ou de diferença em diferenças, será necessário coletar dados
      sobre uma ampla gama de características para os grupos de tratamento e de
      comparação, o que possibilitará a realização de vários testes de robustez,
      conforme descrito na parte 2 e no capítulo 11 (ver o quadro 11.2).
         Para cada avaliação, é útil construir uma matriz que liste as questões de
      interesse, os indicadores de resultados para cada questão, os outros tipos de
      indicadores necessários e a fonte dos dados, conforme descrito na ﬁgura 2.1
      do capítulo 2 sobre a cadeia de resultados. O momento da preparação de um
      plano de avaliação de impacto e de um plano de pré-análise é outra oportu-
      nidade importante para deﬁnir uma lista precisa dos indicadores-chave
      necessários para a avaliação de impacto.


      Uso dos dados quantitativos existentes

      Uma das primeiras questões a serem consideradas no momento da elabora-
      ção de uma avaliação de impacto é saber que fontes de dados devem ser
      utilizadas. É fundamental determinar se a avaliação de impacto se baseará
      em dados existentes ou se exigirá a coleta de novos dados.
         Alguns dados existentes são quase sempre necessários no início de uma
      avaliação de impacto para estimar os valores de referência dos indicadores
      ou para realizar cálculos de poder estatístico, conforme discutido no capí-
      tulo 15. Além das etapas de planejamento, a disponibilidade de dados já exis-
      tentes pode diminuir substancialmente o custo da realização de uma
      avaliação de impacto. Embora os dados existentes e, em especial, os dados
      administrativos, sejam provavelmente subutilizados nas avaliações de
      impacto em geral, é necessário avaliar cuidadosamente a viabilidade de uti-
      lizá-los nessas avaliações.
         Na realidade, conforme discutido no capítulo 12, a coleta de dados repre-
      senta frequentemente o maior custo de implementação das avaliações de
      impacto. Contudo, para determinar se os dados existentes podem ser utili-
      zados em determinada avaliação de impacto, deve-se considerar uma série
      de questões, tais como:
      • Amostragem. Os dados existentes estão disponíveis para os grupos de tra-
        tamento e de comparação? As amostras existentes foram extraídas de
        uma listagem de unidades de observação que representa a população de
        interesse da avaliação? As unidades foram extraídas da listagem segundo
        um procedimento probabilístico de amostragem?
      • Tamanho da amostra. As bases de dados existentes são suﬁcientemente
        grandes para detectar variações nos indicadores de resultado com poder
        estatístico adequado? A resposta a esta questão depende da escolha dos
328                                                      Avaliação de Impacto na Prática
   indicadores de resultados, bem como dos resultados dos cálculos de
   poder estatístico discutidos no capítulo 15.
• Disponibilidade de dados da linha de base. Os dados existentes estão dis-
  poníveis para os grupos de tratamento e de comparação antes da imple-
  mentação do programa a ser avaliado? A disponibilidade de dados da
  linha de base é importante para analisar o balanceamento das caracterís-
  ticas pré-programa entre os grupos de tratamento e de comparação
  quando métodos de aleatorização são utilizados e é fundamental para a
  implementação de métodos quase-experimentais.
• Frequência. Os dados existentes são coletados com frequência suﬁciente?
  Eles estão disponíveis para todas as unidades da amostra ao longo do
  tempo, incluindo os momentos em que os indicadores de resultado preci-
  sam ser medidos de acordo com a cadeia de resultados e a lógica da
  intervenção?
• Escopo. Os dados existentes contêm todos os indicadores necessários
  para responder às questões de políticas públicas de interesse, incluindo
  os principais indicadores de resultados e os resultados intermediários de
  interesse?
• Conexão com as informações de monitoramento do programa. Os dados
  existentes podem ser relacionados aos dados de monitoramento relativos
  à implementação do programa, inclusive para observar quais as unidades
  que estão nos grupos de tratamento e de comparação e para determinar
  se todas as unidades alocadas ao grupo de tratamento receberam os mes-
  mos serviços do programa?
• Identiﬁcadores únicos. Existem identiﬁcadores únicos das unidades de
  observação para vincular todas as fontes de dados entre si?
   Conforme as perguntas acima destacam, as exigências em relação aos
dados existentes são bastante signiﬁcativas, e não é comum que esse tipo de
dados seja suﬁciente para as avaliações de impacto. Ainda assim, com o
rápido crescimento do escopo e da cobertura dos sistemas de informação,
bem como a evolução para um mundo no qual os dados digitais de uma
ampla gama de fontes são rotineiramente armazenados, um número cres-
cente de avaliações de impacto poderá considerar o uso de dados existentes.
Uma variedade de fontes potenciais de dados existentes pode ser usada nas
avaliações de impacto, incluindo dados de censos, pesquisas nacionais ou
dados administrativos.
   Os dados dos censos populacionais podem fornecer informações abran-
gentes sobre toda a população. Podem ser usados em avaliações de impacto
se estiverem disponíveis em nível suﬁcientemente desagregado de
A busca de fontes adequadas de dados                                          329
      informação e se incluírem detalhes sobre as unidades que estão em certo
      grupo de tratamento ou de comparação, tais como identiﬁcadores geográﬁ-
      cos ou pessoais. Os dados desses recenseamentos são coletados com pouca
      frequência e, normalmente, incluem apenas um pequeno conjunto de indi-
      cadores para avaliações de impacto. No entanto, os dados desses levanta-
      mentos são, às vezes, coletados para alimentar sistemas de informação ou
      registros que servem para focalizar programas públicos de interesse, e
      incluem identiﬁcadores únicos que podem permitir a ligação com bases de
      dados existentes.
         Pesquisas nacionais representativas, tais como pesquisas domiciliares,
      referentes a padrões de vida, ao uso da mão de obra, a dados demográﬁcos e
      de saúde, além de pesquisas sobre empresas ou estabelecimentos, também
      podem ser consideradas. Elas podem conter um conjunto abrangente de
      variáveis de resultado, mas raramente contêm observações suﬁcientes sobre
      os grupos de tratamento e de comparação para possibilitar a realização de
      uma avaliação de impacto. Suponhamos, por exemplo, que estejamos inte-
      ressados em avaliar um grande programa nacional que atinge 10% das famí-
      lias de determinado país. Se uma pesquisa nacional representativa for
      realizada com 5.000 famílias todos os anos, ela poderá conter aproximada-
      mente 500 famílias participantes do programa em questão. Será que essa
      amostra é suﬁcientemente grande para possibilitar a realização de uma ava-
      liação de impacto? Cálculos de poder estatístico podem responder a essa
      pergunta, mas, em muitos casos, a resposta é não.
         Além de analisar se é possível usar pesquisas existentes, deve-se também
      descobrir se está sendo planejada alguma nova coleta de dados nacionais. Se
      alguma pesquisa que cubra a população de interesse estiver sendo plane-
      jada, pode ser possível introduzir uma pergunta ou uma série de perguntas
      nessa pesquisa. Se uma pesquisa para medir os indicadores desejados já
      tiver sido planejada, pode haver a possibilidade de sobreamostrar determi-
      nada população para assegurar uma cobertura adequada dos grupos de tra-
      tamento e de comparação e permitir a realização da avaliação de impacto.
      Por exemplo, a avaliação do Fundo Social da Nicarágua complementou a
      Pesquisa de Padrões de Vida com uma amostra extra de beneﬁciários
      (Pradhan e Rawlings 2002).
         Os dados administrativos normalmente são coletados por instituições
      públicas ou privadas como parte de suas atividades normais, geralmente
      com frequência regular e muitas vezes para monitorar os serviços prestados
      ou para registrar interações com usuários dos programas. Em alguns casos,
      os dados administrativos contêm os indicadores de resultados necessários
      para a avaliação de impacto. Por exemplo, os sistemas educacionais coletam
      registros escolares sobre as matrículas, a frequência às aulas ou as notas dos
      estudantes e também podem levantar informações sobre outros dados
330                                                      Avaliação de Impacto na Prática
escolares e dos professores. Da mesma maneira, os sistemas de saúde podem
coletar dados sobre as características e a localização dos centros de saúde, a
oferta de serviços de assistência médica e a alocação de recursos. Podem
também consolidar os dados coletados nos centros de saúde referentes a
registros médicos dos pacientes, dados antropométricos, históricos de vaci-
nação e, de maneira mais ampla, dados sobre a incidência de doenças e esta-
tísticas vitais. As empresas prestadoras de serviços públicos coletam dados
sobre uso de água ou eletricidade. Os departamentos tributários podem
coletar dados sobre renda e impostos. Os sistemas de transporte coletam
dados sobre os passageiros e a duração das viagens. As agências que regulam
o sistema ﬁnanceiro coletam dados sobre transações ou histórico de crédito
de clientes. Todas essas fontes de dados existentes podem ser potencial-
mente utilizadas em avaliações de impacto. Às vezes, elas incluem extensas
séries temporais que podem ajudar a seguir as unidades de observação ao
longo do tempo.
    A avaliação da disponibilidade e da qualidade dos dados é fundamental
quando se considera a possibilidade de usar dados administrativos. Em
alguns casos, dados de fontes administrativas podem ser mais conﬁáveis do
que dados obtidos por meio de pesquisas domiciliares. Por exemplo, um
estudo realizado no Malaui mostrou que os participantes de uma pesquisa
domiciliar exageraram matrículas e frequência à escola em suas respostas à
pesquisa em comparação aos registros administrativos obtidos nas próprias
escolas. Portanto, os resultados da avaliação de impacto teriam sido mais
conﬁáveis se tivessem se baseado nos dados administrativos (Baird e Özler
2012). Ao mesmo tempo, em muitos contextos, os dados administrativos são
coletados por um grande número de prestadores de serviços e podem apre-
sentar qualidade irregular. Assim, sua conﬁabilidade precisa ser cuidadosa-
mente avaliada antes que se opte por utilizar esse tipo de dado para a
realização de avaliações de impacto. Nesse sentido, é fundamental assegurar
que existam identiﬁcadores únicos para conectar os dados administrativos
com outras fontes de dados, incluindo dados de monitoramento do pro-
grama que documentam as unidades que receberam os serviços de determi-
nada iniciativa. Quando esses identiﬁcadores existem — como no caso dos
números de identiﬁcação nacionais —, pode-se evitar muito do trabalho
relacionado à preparação e à limpeza dos dados. Em todos os casos, a prote-
ção da conﬁdencialidade é uma parte importante do protocolo de prepara-
ção e gestão dos dados. Os princípios éticos destinados a proteger seres
humanos em pesquisas cientíﬁcas (ver discussão no capítulo 13) também se
aplicam ao uso de dados existentes.
    Algumas avaliações retrospectivas inﬂuentes basearam-se em registros
administrativos (Galiani, Gertler e Schargrodsky [2005], sobre políticas de
fornecimento de água na Argentina, Ferraz e Finan [2008], sobre auditorias
A busca de fontes adequadas de dados                                             331
                     e desempenho de políticos, e Chetty, Friedman e Saez [2013], sobre incenti-
                     vos ﬁscais nos Estados Unidos). O boxe 16.1 fornece um exemplo de avalia-
                     ção de impacto para a área de saúde na Argentina. O boxe 16.2 ilustra o uso
                     de dados administrativos na avaliação de impacto de um programa de trans-
                     ferência de renda em Honduras.
                        Em alguns casos, os dados necessários para a realização de uma ava-
                     liação de impacto podem ser coletados por meio da construção de novos
                     sistemas de dados administrativos ou de informação. Essa construção
                     pode ser coordenada com o desenho da avaliação, de modo que os




      Boxe 16.1: A construção de uma base de dados para a avaliação
      do Plan Nacer na Argentina
      Ao avaliar o Plan Nacer, um programa de ﬁ-      registros farmacêuticos, o censo populacio-
      nanciamento baseado em resultados para a        nal de 2001 e informações geográﬁcas refe-
      área de saúde na Argentina, Gertler,            rentes a estabelecimentos de saúde. A
      Giovagnoli e Martínez (2014) combinaram         obtenção dos registros médicos sobre os
      dados administrativos de várias fontes para     partos realizados em maternidades foi uma
      formar uma grande e abrangente base de          das tarefas mais desaﬁadoras. Todas as
      dados de análise. Após a adoção, sem su-        maternidades coletavam dados sobre os
      cesso, de várias estratégias de avaliação, os   atendimentos pré-natais e os nascimentos,
      pesquisadores aplicaram uma abordagem           mas apenas cerca de metade desses regis-
      com variáveis instrumentais, o que exigiu a     tros havia sido digitalizado. O restante dos
      obtenção de uma quantidade substancial de       dados estava registrado em papel, obrigando
      dados referentes a todos os registros de        a equipe de avaliação a transformar os regis-
      nascimento nas sete províncias estudadas.       tros em arquivos de computador.
         Os pesquisadores precisavam de dados             No ﬁnal, a equipe foi capaz de compilar
      sobre o acompanhamento pré-natal e os nas-      um banco de dados abrangente para 78%
      cimentos, que poderiam ser encontrados          dos nascimentos ocorridos durante o perí-
      nos registros de hospitais públicos. Em         odo de avaliação. Isso resultou em uma
      seguida, precisavam determinar se a mãe         grande base de dados que permitiu exami-
      era beneﬁciária do Plan Nacer e se a clínica    nar o impacto do Plan Nacer sobre eventos
      em que ela tinha se consultado durante a        relativamente raros, como a mortalidade
      gestação já participava do programa no          neonatal. Normalmente, isso não é possível
      momento das consultas. Para criar um banco      em avaliações com amostras menores cole-
      de dados com todas essas informações, a         tadas por meio de pesquisas de campo.
      equipe de avaliação combinou cinco fontes       A avaliação constatou que os beneﬁciários
      de dados diferentes, incluindo bases de         do Plan Nacer tinham uma chance 74%
      dados públicas de maternidades, dados de        menor de mortalidade neonatal intra-
      implementação do programa Plan Nacer,           hospitalar do que os não beneﬁciários.

      Fonte: Gertler, Giovagnoli e Martínez 2014.



332                                                                        Avaliação de Impacto na Prática
    Boxe 16.2: Uso de dados do censo para reavaliar o PRAF
    em Honduras
    O Programa de Asignación Familiar (PRAF), de       robustez dos resultados, além de efeitos de
    Honduras, pretendia melhorar os resultados         transbordamento. Ademais, como os pesqui-
    educacionais e de saúde das crianças peque-        sadores tinham dados do censo referentes a
    nas em situação de pobreza. A iniciativa forne-    todos os municípios, puderam aplicar dois
    ceu transferências de renda para as famílias       métodos de regressão descontínua diferen-
    elegíveis, condicionadas a frequência escolar      tes (RDDs) usando grupos de comparação
    regular e a visitas aos centros de saúde. O        alternativos. Para o primeiro RDD, os pesqui-
    programa teve início em 1990. Glewwe e             sadores usaram o ponto de corte de
    Olinto (2004) e Morris e outros (2004) reporta-    elegibilidade. Para o segundo, usaram as
    ram impactos positivos da iniciativa sobre indi-   fronteiras municipais.
    cadores de resultado em educação e saúde.              Como nas avaliações de impacto anterio-
        Vários anos depois, Galiani e McEwan           res, Galiani e McEwan detectaram impactos
    (2013) reavaliaram o impacto do programa,          positivos e estatisticamente signiﬁcativos
    usando uma fonte diferente de dados.               do programa. No entanto, as estimativas
    Enquanto a avaliação de impacto inicial cole-      deles mostraram que o PRAF teve um
    tou dados de pesquisa domiciliares em 70 de        impacto muito maior do que o detectado
    298 municípios, Galiani e McEwan usaram            pela avaliação inicial. Estimaram que o PRAF
    dados do censo de 2001 em Honduras.                tinha aumentado em 12% as matrículas
    Combinaram dados individuais e domiciliares        escolares das crianças elegíveis em relação
    do censo com dados municipais sobre as             às crianças do grupo de comparação. Os
    comunidades do grupo de tratamento. Isso           resultados obtidos pelos métodos de regres-
    proporcionou aos pesquisadores uma amos-           são descontínua conﬁrmaram a robustez
    tra maior, permitindo que eles testassem a         dos resultados.

    Fonte: Galiani e McEwan 2013.




indicadores de resultados sejam coletados múltiplas vezes para o grupo
de tratamento e o grupo de comparação. É provável que a construção de
um sistema de informação precise ser deﬁnida antes do lançamento do
programa para que os centros administrativos possam utilizar esse novo
sistema para obter dados do grupo de comparação antes do início da
intervenção a ser avaliada. Como a qualidade dos dados administrativos
pode variar, a auditoria e a veriﬁcação externa são necessárias para
garantir a conﬁabilidade da avaliação. Coletar dados para uma avaliação
de impacto por meio de fontes administrativas, e não mediante pesquisas
de campo, pode reduzir drasticamente o custo de uma avaliação, mas
nem sempre isso é viável.
   Mesmo que os dados existentes não sejam suﬁcientes para a realização
de uma avaliação de impacto completa, podem, às vezes, ser usados em
A busca de fontes adequadas de dados                                                                   333
      algumas partes da avaliação. Por exemplo, em alguns casos, os programas
      coletam dados de focalização detalhados sobre os beneﬁciários potenciais
      para estabelecer quem é elegível. Ou dados de censos podem ser disponibi-
      lizados pouco antes de um programa ser lançado. Nesses casos, os dados
      existentes podem, por vezes, ser usados para analisar o balanceamento das
      características pré-programa dos grupos de tratamento e de comparação
      na linha de base, mesmo que dados adicionais de acompanhamento ainda
      precisem ser coletados para medir um conjunto mais amplo de indicadores
      de resultado.


      A coleta de novos dados de pesquisa

      Apenas em casos relativamente raros os dados existentes são suﬁcientes
      para a realização de uma avaliação de impacto completa. Se os dados admi-
      nistrativos não forem suﬁcientes para realizar a sua avaliação, provavel-
      mente será necessário recorrer a dados de pesquisa de campo. Como
      resultado, provavelmente será preciso fazer um orçamento para a coleta de
      dados novos. Embora a coleta de dados seja, frequentemente, o principal
      custo de uma avaliação de impacto, ela também pode ser um investimento
      de alto retorno do qual a qualidade da avaliação muitas vezes depende.
      A coleta de novos dados proporciona ﬂexibilidade para garantir que todos
      os indicadores necessários serão medidos para que seja realizada uma ava-
      liação abrangente do desempenho do programa.
         A maioria das avaliações de impacto exige que os dados de pesquisa
      sejam coletados, o que inclui, pelo menos, uma pesquisa de linha de base
      antes da intervenção a ser avaliada e uma pesquisa de acompanhamento após
      sua implementação. Os dados de pesquisa de campo podem ser de vários
      tipos, dependendo do programa a ser avaliado e da unidade de análise. Por
      exemplo, pesquisas empresariais utilizam as ﬁrmas ou estabelecimentos
      como a principal unidade de observação, as pesquisas sobre infraestruturas
      públicas ou privadas utilizam centros de saúde ou escolas como principal
      unidade de observação e as pesquisas domiciliares utilizam as famílias como
      principal unidade de observação. A maioria das avaliações baseia-se em pes-
      quisas individuais ou domiciliares como fonte de dados primária. Nesta
      seção, analisaremos alguns princípios gerais da coleta de dados de pesquisa
      de campo. Embora se reﬁram, principalmente, às pesquisas realizadas com
      famílias, os mesmos princípios também se aplicam à maioria dos outros
      tipos de dados de pesquisas de campo.
         A primeira etapa para decidir se serão utilizados dados existentes ou se
      novos dados serão coletados deve envolver a deﬁnição do método de amos-
      tragem, bem como o tamanho necessário da amostra (conforme discutido
334                                                     Avaliação de Impacto na Prática
no capítulo 15). Se a decisão for a de coletar os dados de pesquisa de campo
para realizar a avaliação, será preciso primeiro:
• Determinar quem coletará os dados;
• Desenvolver e testar o instrumento de coleta de dados;
• Conduzir o trabalho de campo e realizar o controle de qualidade; e
• Processar e armazenar os dados.
  A implementação dessas várias etapas geralmente é terceirizada, mas a
compreensão de seu escopo e de seus principais componentes é essencial
para gerenciar efetivamente uma avaliação de impacto de qualidade.


Determinar quem coletará os dados

É preciso indicar a instituição responsável pela coleta de dados logo no iní-
cio do projeto. Alguns compromissos e compensações importantes devem
ser considerados quando se estiver decidindo quem coletará os dados da
avaliação de impacto. Entre os candidatos potenciais para o trabalho estão:
• A instituição responsável pela execução do programa;
• Outra instituição governamental com experiência em coleta de dados
  (como um órgão estatístico nacional); ou
• Uma empresa independente ou um instituto de estudos (think tank)
  especializado em coleta de dados.
   A instituição de coleta de dados sempre precisa estar estreitamente ali-
nhada com o órgão responsável pela implementação do programa. É neces-
sária uma estreita coordenação para assegurar que nenhuma operação do
programa seja implementada antes que os dados de linha de base tenham
sido coletados. Quando os dados de linha de base são necessários para a ope-
ração do programa (por exemplo, dados para um índice de elegibilidade no
contexto de uma avaliação baseada em um método de regressão descontí-
nua), a instituição responsável pela coleta de dados deve ser capaz de pro-
cessá-los rapidamente e transferi-los à instituição encarregada de operar o
programa. É necessária também uma estreita coordenação no momento da
coleta dos dados da pesquisa de acompanhamento. Por exemplo, se for esco-
lhido o método de seleção aleatória por fases, a pesquisa de acompanha-
mento deve ser implementada antes que o programa seja lançado para o
grupo de comparação de forma a evitar contaminação.
   Um fator extremamente importante para decidir quem deve coletar os
dados é que os mesmos procedimentos de coleta devem ser usados tanto
A busca de fontes adequadas de dados                                            335
                        para os grupos de comparação quanto para os grupos de tratamento. Muitas
                        vezes, a instituição executora do programa tem contato apenas com o grupo
Conceito-chave          de tratamento e, portanto, não está em uma boa posição para coletar dados
Os mesmos               dos grupos de comparação. Mas o uso de diferentes instituições de coleta de
procedimentos de        dados para os grupos de tratamento e de comparação é muito arriscado, pois
coleta de dados devem   pode criar diferenças nos resultados medidos nos dois grupos simplesmente
ser utilizados tanto    porque os procedimentos de coleta de dados diferem. Se o órgão responsá-
para os grupos de
                        vel pela implementação não puder coletar os dados de forma eﬁcaz tanto
comparação quanto
para os grupos de
                        para os grupos de tratamento quanto para os de comparação, a possibilidade
tratamento.             de contratar uma instituição ou agência externa para realizar essa tarefa
                        deve ser seriamente considerada.
                            Em alguns contextos, também pode ser aconselhável contratar uma ins-
                        tituição independente para coletar dados de forma a garantir a imparciali-
                        dade das informações. Mesmo que a preocupação com a possibilidade de o
                        órgão responsável pela implementação do programa não coletar dados
                        imparciais não se justiﬁque, uma instituição de coleta de dados indepen-
                        dente que não tenha nenhuma participação nos resultados da avaliação
                        pode adicionar credibilidade ao esforço da avaliação de impacto. Essa insti-
                        tuição também pode garantir que os entrevistados não percebam que a pes-
                        quisa faz parte de um programa e, portanto, minimizar o risco de que essas
                        pessoas deem respostas estratégicas na tentativa de aumentar suas chances
                        de participar do programa.
                            Como a coleta de dados envolve uma sequência complexa de operações,
                        recomenda-se que uma instituição especializada e experiente seja respon-
                        sável por ela. Poucos órgãos executores de programas têm experiência suﬁ-
                        ciente para coletar os dados de alta qualidade e em larga escala que são
                        necessários para uma avaliação de impacto. Na maioria dos casos, será pre-
                        ciso considerar a contratação de uma instituição local, como o órgão nacio-
                        nal de estatística, uma empresa especializada ou um instituto de estudos
                        especializado.
                            Contratar uma instituição local, como o órgão nacional de estatística,
                        pode dar a essa instituição a exposição a estudos de avaliação de impacto e
                        ajudá-la a desenvolver suas capacidades — e isso pode ser um benefício
                        colateral da avaliação de impacto. No entanto, as agências nacionais de esta-
                        tística nem sempre têm capacidade logística para assumir tarefas adicionais
                        além de suas atividades regulares. Pode ser também que não tenham a expe-
                        riência necessária na realização de pesquisas para avaliações de impacto,
                        que incluem o conhecimento de rastreamento de indivíduos ao longo do
                        tempo ou a implementação de instrumentos de pesquisa não tradicionais.
                        Se tais restrições aparecerem, a contratação de uma empresa independente
                        ou de um instituto de estudos especializado em coleta de dados pode ser
                        mais prática.
336                                                                        Avaliação de Impacto na Prática
   Não é necessário usar a mesma instituição para coletar informações da
linha de base e das pesquisas de acompanhamento, pois estas podem variar
em termos de escopo. Por exemplo, para a avaliação de impacto de um pro-
grama de treinamento cuja população de interesse inclui os indivíduos que
se inscreveram no curso, a instituição responsável pelo curso poderia cole-
tar os dados de linha de base quando os indivíduos se inscreverem. É impro-
vável, entretanto, que a mesma instituição seja também a melhor escolha
para coletar as informações de acompanhamento tanto para o grupo de tra-
tamento quanto para o grupo de comparação. Nesse contexto, a contratação
de rodadas de coleta de dados separadas tem suas vantagens, mas devem ser
feitos esforços para que, entre essas rodadas, não se perca nenhuma infor-
mação que será útil para rastrear domicílios ou indivíduos, bem como para
garantir que os dados de linha de base e de acompanhamento sejam medi-
dos de maneira consistente.
   Para determinar a melhor instituição para a coleta de dados da avalia-
ção de impacto, todos esses fatores — experiência com esse tipo de
coleta, capacidade para trabalhar em conjunto com o órgão executor do
programa, independência, oportunidades de capacitação e adaptabili-
dade ao contexto da avaliação de impacto — devem ser levados em conta,
assim como o custo esperado e a qualidade provável dos dados coletados
em cada caso. Uma maneira eﬁcaz de identiﬁcar a instituição mais bem
capacitada para coletar dados de qualidade é elaborar termos de refe-
rência claros e pedir que as instituições apresentem propostas técnicas e
ﬁnanceiras.
   Como a pronta entrega e a qualidade dos dados são, muitas vezes, cru-
ciais para a conﬁabilidade da avaliação de impacto, o contrato com a institui-
ção responsável pela coleta de dados deve ser cuidadosamente estruturado
e elaborado. O escopo do trabalho esperado e os resultados a serem entre-
gues devem ﬁcar extremamente claros. Além disso, geralmente é aconselhá-
vel introduzir incentivos nos contratos e vincular esses incentivos a
indicadores claros relacionados à qualidade dos dados. Por exemplo, a taxa
de não resposta é um indicador fundamental sobre a qualidade dos dados.
Para criar incentivos para que as instituições de coleta de dados minimizem
a taxa de não resposta, o contrato pode estipular um custo unitário para os
primeiros 80% da amostra, um custo unitário mais elevado para as unidades
entre 80% e 90% da amostra e um custo unitário ainda maior para as unida-
des entre 90% e 100%. Alternativamente, um contrato separado pode ser
redigido para que a empresa de pesquisa rastreie os não respondentes. Além
disso, o contrato ﬁrmado com a empresa de coleta de dados pode incluir
incentivos ou condições relacionadas à veriﬁcação da qualidade dos dados,
como revisões ou auditorias de qualidade em uma subamostra da pesquisa
de avaliação de impacto.
A busca de fontes adequadas de dados                                             337
      Desenvolver e testar o instrumento de coleta de dados

      Ao contratar a coleta de dados, a equipe de avaliação tem um papel impor-
      tante a desempenhar: fornecer orientação especíﬁca sobre o conteúdo dos
      instrumentos de coleta de dados ou questionários. Os instrumentos de
      coleta de dados devem levantar todas as informações necessárias para res-
      ponder à questão de política pública deﬁnida pela avaliação de impacto.
      Conforme já discutimos, os indicadores devem ser medidos ao longo de toda
      a cadeia de resultados, incluindo indicadores para os resultados ﬁnais e os
      resultados intermediários e medidas dos serviços do programa e da quali-
      dade da implementação.
         É importante ser seletivo em relação aos indicadores a medir. Ser seletivo
      ajuda a limitar os custos de coleta de dados, simpliﬁca a tarefa da instituição
      de coleta de dados e melhora a qualidade dos dados coletados, pois mini-
      miza as demandas sobre os entrevistadores e o tempo gasto com os
      entrevistados. A coleta de informações irrelevantes ou improváveis de serem
      usadas tem um custo muito alto e a obtenção de dados adicionais exige mais
      tempo de preparação, treinamento, coleta e processamento. Com tempo
      limitado e perda de concentração, os entrevistados podem acabar forne-
      cendo informações de qualidade decrescente caso a pesquisa se estenda
      demais, e os entrevistadores terão incentivos adicionais para saltar etapas a
      ﬁm de alcançar as metas de entrevistas. Por isso, as questões irrelevantes
      têm um preço. Ter objetivos claros para a avaliação de impacto, que estejam
      alinhados com os objetivos do programa, pode ajudar a priorizar as informa-
      ções realmente necessárias para a pesquisa. Um plano de pré-análise elabo-
      rado antecipadamente (ver essa discussão nos capítulos 12 e 13) ajudará a
      garantir que a pesquisa colete os dados relevantes para a avaliação de
      impacto e evite a inclusão de informações adicionais irrelevantes (e
      dispendiosas).
         É preferível coletar dados sobre os indicadores de resultados e as carac-
      terísticas das variáveis de controle de forma consistente no início (linha de
      base) e no período de acompanhamento. Ter dados da linha de base é alta-
      mente desejável. Mesmo que se esteja usando a seleção aleatória ou o
      método de regressão descontínua, nos quais simples diferenças pós-inter-
      venção podem, em princípio, ser usadas para estimar o impacto de um pro-
      grama, os dados de linha de base são essenciais para testar se o desenho da
      avaliação de impacto é adequado (ver a discussão sobre esse tema na parte 2).
      Ter dados de linha de base pode proporcionar uma espécie de apólice de
      seguro quando a aleatorização não funciona e, nesse caso, o método de dife-
      rença em diferenças poderá ser usado. Os dados de linha de base também
      são úteis durante a fase de análise de impacto, pois as variáveis de controle
      da linha de base podem ajudar a aumentar o poder estatístico e permitir que

338                                                       Avaliação de Impacto na Prática
se analisem os impactos em diferentes subpopulações. Por ﬁm, os dados da
linha de base podem ser usados para melhorar o desenho do programa. Por
exemplo, eles, às vezes, permitem analisar a qualidade da focalização ou for-
necer informações adicionais sobre os beneﬁciários ao órgão executor do
programa. Em alguns casos, a pesquisa de acompanhamento pode incluir
um conjunto mais amplo de indicadores do que a pesquisa de linha de base.
    Depois de deﬁnir os dados essenciais que precisam ser coletados, o pró-
                                                                                Conceito-chave
ximo passo é determinar exatamente como medir esses indicadores. A
                                                                                A medição de
medição em si é uma arte, e ela é mais bem realizada por especialistas, entre   indicadores é uma arte,
os quais a equipe de pesquisa da avaliação de impacto, a instituição contra-    e ela é mais bem
tada para coletar dados, os especialistas em pesquisa de campo e os especia-    realizada por
listas na medição de indicadores complexos. Os indicadores de resultados        especialistas, entre os
                                                                                quais a equipe de
devem ser os mais consistentes possíveis com as melhores práticas nacio-
                                                                                pesquisa da avaliação
nais e internacionais. É sempre útil considerar como os indicadores de inte-    de impacto, a
resse foram medidos em pesquisas semelhantes, tanto nacionais quanto            instituição contratada
internacionais. A utilização dos mesmos indicadores (incluindo as mesmas        para coletar dados, os
questões ou módulos do questionário) garante a comparabilidade entre os         especialistas em
dados preexistentes e os dados coletados para a avaliação de impacto.           pesquisa de campo e
                                                                                os especialistas na
Escolher um indicador que não seja totalmente comparável ou que não
                                                                                medição de indicadores
tenha sido bem medido pode limitar a utilidade dos resultados da avaliação.     complexos.
Em alguns casos, pode fazer sentido investir os recursos para coletar um
indicador de resultado inovador, bem como uma alternativa mais bem
estabelecida.
    Deverá ser dada atenção especial a que todos os indicadores possam ser
medidos exatamente da mesma maneira para todas as unidades, tanto no
grupo de tratamento quanto no grupo de comparação. O uso de diferentes
métodos de coleta de dados (por exemplo, uma pesquisa por telefone para
um grupo e uma pesquisa presencial para o outro) cria o risco de gerar viés.
O mesmo se aplica à coleta de dados em momentos diferentes para os dois
grupos (por exemplo, a coleta de dados para o grupo de tratamento durante
a estação chuvosa e para o grupo de comparação durante a estação seca).
É por isso que os procedimentos utilizados para medir qualquer indicador
de resultados devem ser formulados com muita precisão. O processo de
coleta de dados deve ser exatamente o mesmo para todas as unidades. Em
um questionário, cada módulo relacionado ao programa deve ser introdu-
zido sem afetar o ﬂuxo ou estrutura de resposta em outras partes do
questionário. Na realidade, quando possível, é melhor evitar fazer qualquer
distinção entre os grupos de tratamento e de comparação durante o pro-
cesso de coleta de dados. Na maioria dos casos, a instituição que realiza a
coleta de dados (ou ao menos os entrevistadores individuais) não deve ter
motivo para conhecer a situação (de tratamento ou comparação) dos indiví-
duos participantes da pesquisa.
A busca de fontes adequadas de dados                                                              339
                      Uma decisão importante a ser tomada é como medir os indicadores de
                   resultado, entre elas a questão de decidir se eles devem ser medidos por
                   meio de pesquisas baseadas em questionários tradicionais com respostas
                   espontâneas dos entrevistados ou por meio de outros métodos. Nos últimos
                   anos, foram feitos vários avanços na medição de resultados ou comporta-
                   mentos relevantes para a avaliação de impacto. Entre esses avanços estão o
                   reﬁnamento dos métodos de coleta de dados por meio de questionários com
                   respostas autorreportadas pelos entrevistados, bem como técnicas para
                   medir os resultados diretamente.
                      O desenho de questionário tem sido objeto de um volumoso conjunto de
                   pesquisas. Livros inteiros foram escritos para descrever a melhor maneira
                   de medir determinados indicadores em contextos especíﬁcos, incluindo a
                   maneira de formular as perguntas feitas em pesquisas domiciliares.1 Existe
                   também uma base de evidências crescente sobre a melhor forma de elaborar
                   questionários para coletar dados agrícolas, de consumo ou de emprego com
                   o intuito de maximizar sua precisão.2 Algumas evidências recentes provêm
                   de experimentos aleatorizados que testaram diferentes maneiras de estru-
                   turar questionários e comparar sua conﬁabilidade.3 Consequentemente, o
                   desenho do questionário requer atenção às melhores práticas internacio-
                   nais e às experiências locais para a medição de indicadores. Pequenas
                   mudanças na formulação ou sequenciamento das perguntas podem ter efei-
                   tos substanciais nos dados coletados, de modo que é essencial prestar muita
                   atenção aos detalhes durante a construção do questionário. Isso é especial-
                   mente importante quando se tenta garantir a comparabilidade entre pesqui-
                   sas, o que inclui, por exemplo, a medição dos resultados repetidas vezes ao
                   longo do tempo. O boxe 16.3 discute orientações para o desenho do questio-
                   nário e fornece referências adicionais.




      Boxe 16.3: Desenho e formatação de questionários
      Embora em avaliações de impacto o desenho         da Califórnia, em Berkeley (http://aie.cega
      do questionário seja parte integrante da quali-   .org), fornece um guia para desenhos de
      dade dos dados, ele é frequentemente              questionários dividido em três fases: conteú-
      negligenciado. Desenhar um questionário é         do, elaboração e testes. Ao longo dessas
      um processo complexo, longo e iterativo, que      fases, o curso destaca a importância de envol-
      envolve muitas decisões sobre o que pode          ver as partes interessadas relevantes, ofere-
      ser medido e como. O curso de métodos apli-       cendo tempo suﬁciente para diversas itera-
      cados de avaliação de impacto da Universidade     ções e realização de testes detalhados:

                                                                                              (continua)


340                                                                          Avaliação de Impacto na Prática
    Boxe 16.3: Desenho e formatação de questionários (continuação)


    1. Conteúdo. Primeiramente, determina-se                lendo cada uma delas, palavra por
       o conteúdo de uma pesquisa deﬁnindo os               palavra.
       resultados que precisam ser medidos, as
                                                        2. O questionário deve incluir deﬁnições
       unidades de observação e as correlações
                                                           precisas de todos os conceitos-chave
       com outros fatores. Em seguida, essas
                                                           utilizados na pesquisa para que o entre-
       deﬁnições conceituais precisarão ser trans-
                                                           vistador possa se referir a essas deﬁ-
       formadas em indicadores concretos.
                                                           nições durante a entrevista, caso seja
    2. Elaboração. Elaboram-se as perguntas                necessário.
       para medir os indicadores selecionados.
                                                        3. Cada pergunta deve ser o mais breve e
       Essa é uma etapa fundamental, pois
                                                           simples possível e deve utilizar termos
       a qualidade dos dados depende dela.
                                                           comuns e do dia a dia.
       O curso fornece recomendações mais
       aprofundadas sobre a formulação cor-             4. Os questionários devem ser elabo-
       reta das perguntas, a organização da                rados de modo a que as respostas
       pesquisa, a formatação e outras consi-              de quase todas as perguntas sejam
       derações essenciais.                                pré-codiﬁcadas.

    3. Testes. Testa-se o questionário em três          5. O esquema de codiﬁcação das respos-
       níveis: as perguntas, os módulos de per-            tas deve ser consistente para todas as
       guntas e o questionário como um todo.               perguntas.

    O formato do questionário também é impor-           6. A pesquisa deve incluir padrões de salto
    tante para garantir a qualidade dos dados.             de itens, indicando quais as perguntas
    Uma vez que diferentes maneiras de fazer               que não devem ser feitas com base nas
    as mesmas perguntas da pesquisa podem                  respostas dadas às perguntas anteriores.
    gerar diferentes respostas, tanto a estrutura
                                                        Depois que o questionário foi elaborado
    quanto o formato das perguntas devem ser
                                                        pelo proﬁssional encarregado de fazê-lo,
    os mesmos para todas as unidades a ﬁm de
                                                        deve-se apresentá-lo a uma equipe de es-
    evitar qualquer viés por parte dos entrevista-
                                                        pecialistas para discussão. Todos os envol-
    dos ou dos entrevistadores. A Organização
                                                        vidos na equipe de avaliação (formulado-
    das Nações Unidas (ONU) (2005) dispõe de
                                                        res de políticas, pesquisadores, analistas
    seis recomendações especíﬁcas sobre a for-
                                                        de dados e coletores de dados) devem ser
    matação de questionários para pesquisas
                                                        consultados para que se veriﬁque se o
    domiciliares. Essas recomendações se apli-
                                                        questionário coletará toda a informação
    cam igualmente à maioria dos outros instru-
                                                        desejada de maneira apropriada. A revisão
    mentos de coleta de dados. São elas:
                                                        por uma equipe de especialistas é neces-
    1. Cada pergunta deve ser escrita por               sária, mas não suﬁciente, pois os tes-
       extenso no questionário, de modo que o           tes de campo intensivos sempre são
       entrevistador possa conduzir a entrevista        primordiais.




A busca de fontes adequadas de dados                                                                  341
         Um conjunto crescente de técnicas foi desenvolvido para a realização da
      medição direta dos resultados. Por exemplo, no setor de saúde, às vezes des-
      crições sucintas são utilizadas para apresentar sintomas especíﬁcos aos pro-
      ﬁssionais de saúde e avaliar se eles recomendam o tratamento adequado
      com base nas diretrizes e nos protocolos estabelecidos. Essas descrições for-
      necem uma medida direta sobre os conhecimentos dos proﬁssionais de
      saúde. Avaliações recentes têm se baseado em pacientes padronizados (tam-
      bém conhecidos como incógnitos ou pacientes simulados) para realizar visi-
      tas aos centros de saúde e avaliar diretamente a qualidade dos serviços
      prestados.4 No setor de educação, muitas avaliações buscam analisar os
      impactos do programa sobre o aprendizado dos estudantes. Para isso, aplica-
      se uma série de avaliações de aprendizado ou medidas diretas das habilida-
      des dos alunos. Da mesma maneira, várias baterias de testes foram elaboradas
      para medir diretamente o desenvolvimento cognitivo, linguístico e motor de
      crianças pequenas no contexto das avaliações de impacto de intervenções
      voltadas ao desenvolvimento na primeira infância. Também foram feitos
      progressos na realização de mensurações diretas das habilidades dos adul-
      tos, que incluem habilidades socioemocionais ou traços de personalidade.
      Além da avaliação direta dessas habilidades, um número crescente de ava-
      liações de impacto tem buscado obter medidas da qualidade do ensino por
      meio de observações diretas do comportamento dos professores em sala
      de aula.
         A observação direta de resultados é especialmente importante nos casos
      em que, aparentemente, é difícil obter informações verdadeiras dos
      entrevistados. Por exemplo, para não ter que conﬁar apenas em informações
      autorreportadas para medir os resultados relacionados ao crime ou à violên-
      cia, algumas avaliações de impacto têm contratado pesquisadores treinados
      em comunidades amostradas para que eles observem diretamente o com-
      portamento dos indivíduos usando métodos etnográﬁcos. Essa observação
      direta, quando bem-feita, pode diminuir os problemas relacionados a com-
      portamentos autorreportados e fornecer informações mais precisas do
      fenômeno que se quer estudar. Os avanços tecnológicos recentes também
      permitem a realização de mensurações diretas de vários comportamentos
      humanos e, portanto, podem ajudar a limitar o uso de informações
      autorreportadas. Alguns exemplos incluem a observação direta do tempo e
      intensidade do uso de melhores fogões e mensurações diretas da qualidade
      da água, do uso de latrinas e da temperatura interna dos domicílios por meio
      de sensores eletrônicos.
         Geralmente, as avaliações de impacto dependem de uma combinação de
      pesquisas tradicionais baseadas em questionários e outros métodos destina-
      dos a observar diretamente os resultados de interesse. Por exemplo, no con-
      texto da avaliação de impacto de ﬁnanciamentos concedidos a organizações
342                                                      Avaliação de Impacto na Prática
do setor de saúde, uma série de indicadores são medidos por meio de fontes
complementares (Vermeersch, Rothenbühler e Sturdy 2012). As pesquisas
realizadas em centros e clínicas de saúde incluem um levantamento para
detalhar as principais características desses estabelecimentos, além de
entrevistas com os agentes de saúde para analisar as características desses
proﬁssionais, entrevistas com os pacientes no momento da alta para avaliar
os serviços prestados e indicadores de qualidade da assistência prestada
mensurados por meio de descrições sucintas e de observações diretas. As
pesquisas domiciliares incluem informações sobre o comportamento das
famílias e de seus membros, tais como a frequência de visitas aos estabeleci-
mentos de saúde, o tipo de assistência recebida e o total de despesas com
saúde, bem como módulos de questões sobre a saúde das mulheres e das
crianças. Além da medição antropométrica, são realizados testes biométri-
cos para analisar diretamente a prevalência de anemia, malária ou HIV. Por
ﬁm, os questionários aplicados nas comunidades captam as características
dessas localidades, além dos serviços disponíveis, infraestrutura, acesso a
mercados e preços.
   Além de desenvolver indicadores e encontrar a maneira mais apropriada
de medi-los, outra decisão fundamental em relação à coleta de novos dados
consiste em deﬁnir a tecnologia a ser utilizada nesse trabalho. Os métodos
tradicionais de coleta de dados captam informações em papel e, posterior-
mente, digitalizam esses dados, muitas vezes por meio de uma abordagem
de digitalização duplamente oculta, na qual dois agentes distintos digitali-
zam as mesmas informações para compará-las e veriﬁcar se há
incongruências. Após recentes avanços tecnológicos, os instrumentos infor-
matizados de coleta de dados tornaram-se prevalentes. A coleta de dados
realizada por meio de aplicativos instalados em smartphones ou tablets pode
acelerar o processamento dos dados, além de oferecer oportunidades para
validações e veriﬁcações de qualidade dos dados em tempo real. O boxe 16.4
discute alguns dos prós e contras da coleta eletrônica de dados.
   É muito importante que o instrumento de coleta de dados seja testado e
experimentado extensivamente em campo antes de ser utilizado ampla-
mente na pesquisa. Os testes extensivos desse instrumento avaliarão sua
adequação ao contexto local, o seu conteúdo, quaisquer alternativas de for-
matação e de redação das questões, bem como os protocolos de coleta de
dados, incluindo a tecnologia a ser empregada. Os testes de campo de todo
instrumento de coleta de dados em condições reais são fundamentais para
veriﬁcar o seu alcance e determinar se o seu formato é suﬁcientemente con-
sistente e abrangente para mensurar de forma precisa todas as informações
relevantes. Os testes de campo são parte integrante da preparação dos ins-
trumentos de coleta de dados.


A busca de fontes adequadas de dados                                            343
      Boxe 16.4: Alguns prós e contras da coleta eletrônica de dados
      As entrevistas pessoais assistidas por compu-      em uma pesquisa sobre microempresas
      tador (computer-assisted personal inter-           em Gana. Eles descobriram que, quando
      viewing, ou CAPI) são uma alternativa às en-       as veriﬁcações de consistência foram intro-
      trevistas tradicionais do tipo caneta e papel      duzidas, o desvio padrão dos dados refe-
      (pen-and-paper interviewing, ou PAPI). Nas         rentes aos lucros e às vendas foi menor.
      CAPI, a pesquisa é previamente carregada           No entanto, constataram também que, na
      em um dispositivo eletrônico, como um tablet       maioria das vezes, não era necessário fazer
      ou smartphone. O entrevistador lê as pergun-       nenhuma correção: em 85% a 97% das
      tas que aparecem na tela e insere as respos-       vezes, os entrevistados conﬁrmaram a res-
      tas imediatamente no dispositivo. Vários sof-      posta original.
      twares e aplicativos foram desenvolvidos para   • As entrevistas podem ser mais curtas e
      a coleta de dados por meio das CAPI. Os prós      fáceis de realizar. Quando as CAPI são
      e contras das CAPI devem ser cuidadosamen-        usadas, o ﬂuxo do questionário pode ser
      te considerados pela equipe de avaliação.         personalizado para orientar melhor os
      Alguns prós:                                      entrevistadores por meio da utilização de
      • A coleta eletrônica de informações pode         padrões que permitam saltar itens e
          melhorar a qualidade dos dados. Em um         assim minimizar os erros e omissões no
          experimento aleatorizado desenhado            questionário. Em uma pesquisa domiciliar
          para comparar as CAPI e as PAPI para          realizada na Tanzânia, as entrevistas CAPI
          uma pesquisa de consumo na Tanzânia,          foram, em média, 10% mais curtas do
          Caeyers, Chalmers e De Weerdt (2012)          que os questionários semelhantes coleta-
          concluíram que os dados das pesquisas         dos em papel, segundo detectaram
          feitas com papel e caneta continham           Caeyers, Chalmers e De Weerdt (2012).
          erros que foram evitados nas pesquisas
                                                      • A coleta eletrônica de dados elimina a
          eletrônicas. Os pesquisadores consta-
                                                        necessidade de entrada manual dos
          taram que os erros nos dados das PAPI
                                                        dados em computadores. Isso pode
          estavam relacionados a certas carac-
                                                        reduzir custos e acelerar o processa-
          terísticas das famílias, o que pode criar
                                                        mento dos dados.
          viés em algumas análises de dados.
                                                      • O uso da tecnologia pode trazer uma
      • Os programas de coleta eletrônica de            gama de benefícios indiretos. Por exem-
        dados podem incluir veriﬁcações automáti-       plo, ao usar tablets ou smartphones, é
        cas de consistência. Determinadas respos-       possível coletar facilmente coordenadas
        tas podem desencadear mensagens de              de GPS ou tirar fotograﬁas. Também
        alerta para que erros de entrada de dados       podem ser introduzidas variações no
        sejam minimizados e qualquer problema           conteúdo da pesquisa. Com a ajuda
        seja esclarecido com o entrevistado             de um software especíﬁco, partes da
        durante a entrevista. Por exemplo,              entrevista podem ser gravadas para
        Fafchamps e outros (2012) estudaram os          facilitar veriﬁcações de qualidade e
        benefícios das veriﬁcações de consistência      monitoramento.


                                                                                           (continua)


344                                                                        Avaliação de Impacto na Prática
     Boxe 16.4: Alguns prós e contras da coleta eletrônica de dados (continuação)


    Alguns contras:                                           tecnologia da informação, esse tipo de
    • Os custos ﬁxos tendem a ser mais                        conhecimento pode ser difícil de encontrar.
       elevados para as CAPI do que para as                   Também é mais difícil desenvolver softwa-
       PAPI, embora os custos variáveis pos-                  res para questionários que não estejam
       sam ser mais baixos. O custo inicial da                em inglês ou em uma língua neolatina.
       compra e programação de dispositivos               • Problemas tecnológicos podem inter-
       eletrônicos pode ser proibitivo para ava-            romper a coleta de dados ou diﬁcultar
       liações de impacto com orçamentos                    a consolidação dos dados em um local
       menores. Também é necessário dispo-                  seguro. Podem surgir problemas durante
       nibilizar tempo suﬁciente para assegurar             a coleta de dados se o dispositivo eletrô-
       a programação e a realização de testes               nico possuir uma tela pequena ou uma
       adequados para os questionários eletrô-              interface que não seja familiar para os
       nicos, que geralmente são elaborados                 entrevistadores. O risco de roubo tam-
       depois que questionários em papel já                 bém é maior para dispositivos eletrôni-
       foram construídos.                                   cos do que para pesquisas em papel. Por
    • É necessária especialização técnica para              ﬁm, a consolidação e a sincronização dos
      programar questionários eletrônicos e                 dados em um local seguro exige protoco-
      conﬁgurar os processos de gerencia-                   los claros para minimizar o risco de perda
      mento do ﬂuxo de dados coletados                      de dados. As transferências eletrônicas
      eletronicamente. Em países em desenvol-               de dados são convenientes, mas exigem
      vimento e com baixa capacidade de                     um nível mínimo de conectividade.

    Fontes: Caeyers, Chalmers e De Weerdt 2012; Fafchamps e outros 2012.




Conduzir o trabalho de campo e realizar o controle de qualidade

Mesmo quando se terceiriza a coleta de dados para uma empresa externa, é
fundamental ter uma compreensão clara de todas as etapas envolvidas nesse
processo para garantir que os mecanismos de controle de qualidade e os
incentivos corretos foram implementados. A instituição encarregada da
coleta de dados precisará coordenar o trabalho de um grande número de
atores diferentes, incluindo entrevistadores, supervisores, coordenadores
de campo e a equipe de suporte logístico, além de uma equipe responsável
pela entrada de dados composta por programadores, supervisores e
digitadores. Um plano de trabalho claro deve ser posto em prática para coor-
denar o trabalho de todas essas equipes — e esse plano de trabalho é um
produto fundamental.
   Antes que a coleta de dados se inicie, o plano de trabalho deve incluir o
treinamento adequado da equipe de coleta de dados. Um manual de referên-
cia completo precisa ser preparado para o treinamento e esse documento
A busca de fontes adequadas de dados                                                                        345
                       deve ser usado durante todo o trabalho de campo. O treinamento é funda-
                       mental para garantir que os dados sejam coletados consistentemente por
                       todos os envolvidos. O processo de treinamento também é uma boa oportu-
                       nidade para identiﬁcar os entrevistadores com melhor desempenho e con-
                       duzir um último teste dos instrumentos e procedimentos em condições
                       normais. Depois que a amostra é deﬁnida, os instrumentos são concebidos e
                       testados e as equipes são treinadas, a coleta de dados pode começar. Faz
                       parte das boas práticas garantir que o plano de trabalho de campo deter-
                       mine que cada equipe de entrevistadores deve coletar dados sobre o mesmo
                       número de unidades de tratamento e de comparação.
                          Conforme foi discutido no capítulo 15, a amostragem adequada é essen-
                       cial para garantir a qualidade da amostra. No entanto, muitos erros não
                       amostrais podem ocorrer durante a coleta de dados. No contexto de uma
                       avaliação de impacto, existe a preocupação especíﬁca de que esses erros
                       possam não ser os mesmos para os grupos de tratamento e de comparação.
Conceito-chave            A não resposta surge quando se torna impossível coletar dados completos
A não resposta surge   para algumas unidades amostradas. Como as amostras de fato utilizadas
quando há dados        para análise estão restritas às unidades para as quais os dados podem ser
ausentes ou            coletados, as unidades que optarem por não responder a uma pesquisa
incompletos para
                       podem tornar a amostra menos representativa e criar um viés nos resulta-
algumas unidades
amostradas. Ela pode   dos da avaliação. A atrição é uma forma comum de não resposta que ocorre
criar viés nos         quando algumas unidades saem da amostra entre as diferentes rodadas de
resultados da          coleta de dados: por exemplo, pode não ser possível rastrear o paradeiro de
avaliação.             migrantes.
                          A atrição amostral devido à não resposta é especialmente problemática
                       no contexto das avaliações de impacto, pois pode criar diferenças entre o
                       grupo de tratamento e o grupo de comparação. Por exemplo, a atrição pode
                       ser diferente nos dois grupos: se os dados estão sendo coletados após o início
                       do programa, a taxa de resposta das unidades de tratamento pode ser maior
                       do que a taxa de resposta das unidades de comparação. Isso pode ocorrer
                       porque as unidades de comparação estão insatisfeitas por não terem sido
                       selecionadas para o programa ou por apresentarem uma maior propensão a
                       migrar. A não resposta também pode ocorrer no próprio questionário, nor-
                       malmente porque alguns indicadores estão ausentes ou porque os dados
Conceito-chave         estão incompletos para uma unidade especíﬁca.
As avaliações de          O erro de medida é outro tipo de problema que pode gerar viés caso seja
impacto que utilizam   sistemático. O erro de medida é a diferença entre o valor de uma caracterís-
as melhores práticas
                       tica fornecida pelo respondente e o seu valor verdadeiro (mas desconhe-
visam manter o nível
de não resposta e      cido) (Kasprzyk 2005). Essa diferença pode ser atribuída à maneira como o
atrição tão baixo      questionário foi redigido ou ao método de coleta de dados escolhido. Ela
quanto possível.       também pode ocorrer por culpa dos entrevistadores que estão realizando a
                       pesquisa ou dos entrevistados que a estão respondendo.
346                                                                       Avaliação de Impacto na Prática
   A qualidade da avaliação de impacto depende diretamente da qualidade
dos dados coletados. Os padrões de qualidade precisam estar claros para
todos os envolvidos no processo de coleta de dados; os padrões devem ser
especialmente enfatizados durante o treinamento dos entrevistadores e nos
manuais de referência. Por exemplo, é essencial adotar procedimentos
detalhados para minimizar a não resposta ou (se aceitável) substituir as uni-
dades da amostra. A instituição responsável pela coleta de dados deve
entender claramente as taxas aceitáveis de não resposta e atrição. Para for-
necer um ponto de referência, muitas avaliações de impacto visam manter
a não resposta e a atrição abaixo de 5%. A meta dependerá do momento da
avaliação de impacto e da unidade de análise: espera-se que a atrição seja
menor nas pesquisas que ocorrem pouco depois da pesquisa de linha de
base e que ela seja relativamente maior para as avaliações de impacto de
longo prazo, que acompanham indivíduos muitos anos depois. Seriam tam-
bém esperadas taxas de atrição mais elevadas em populações muito móveis.
Às vezes, adota-se algum tipo de compensação para os entrevistados com a
intenção de minimizar a não resposta, embora a introdução desse tipo de
compensação deva ser cuidadosamente analisada. Por vezes, depois que
todas as unidades a ser rastreadas foram identiﬁcadas, uma subamostra
dessas unidades é selecionada aleatoriamente para a realização de um ras-
treamento bastante intensivo, o que pode incluir esforços adicionais ou
alguma forma de compensação. De qualquer maneira, o contrato da insti-
tuição responsável pela coleta de dados deve conter incentivos claros, tais
como uma compensação mais elevada se a taxa de não resposta permanecer
abaixo de um limite aceitável.
   Devem ser estabelecidos procedimentos de controle de qualidade bem
definidos para todas as fases do processo de coleta de dados, que
incluem a elaboração do procedimento de amostragem e do questioná-
rio, além das fases de preparação, coleta, entrada, limpeza e armazena-
mento dos dados.
   Os controles de qualidade durante o trabalho de campo devem ser priori-
tários para minimizar os erros em cada unidade. Devem existir procedimen-
tos claros para revisitar unidades que não forneceram nenhuma informação
ou que forneceram informações incompletas. Múltiplos ﬁltros devem ser
introduzidos no processo de controle de qualidade: por exemplo, fazendo
com que os entrevistadores, os supervisores e, se necessário, os coordenado-
res de campo revisitem as unidades com não resposta para veriﬁcar seu
status. Os questionários das entrevistas que apresentaram falta de resposta
também devem ser claramente codiﬁcados e registrados. Após os dados
terem sido completamente digitalizados, as taxas de não resposta podem ser
compiladas e todas as unidades da amostra podem ser integralmente
contabilizadas.
A busca de fontes adequadas de dados                                            347
         Controles de qualidade também deverão ser efetuados em quaisquer
      dados incompletos relacionados a uma determinada unidade pesquisada.
      Mais uma vez, o processo de controle de qualidade deve incluir múltiplos
      ﬁltros. O entrevistador é responsável por veriﬁcar os dados imediatamente
      após eles terem sido coletados. O supervisor e o coordenador de campo
      devem realizar veriﬁcações aleatórias numa fase posterior.
         Os controles de qualidade dos erros de medida são mais difíceis de colo-
      car em prática, mas eles são cruciais para veriﬁcar se as informações foram
      coletadas acuradamente. Controles de consistência podem ser incorpora-
      dos ao questionário. Além disso, os supervisores ou funcionários responsá-
      veis pelo controle de qualidade precisam realizar veriﬁcações pontuais por
      meio da participação em entrevistas para garantir que os entrevistadores
      coletem os dados de acordo com os padrões de qualidade estabelecidos.
      Podem ser realizadas revisões ou auditorias de qualidade em uma subamos-
      tra da pesquisa de avaliação de impacto para garantir que os dados coleta-
      dos sejam acurados. Às vezes, isso é feito por um funcionário responsável
      pelo controle de qualidade que coleta dados de um subconjunto do questio-
      nário junto a um participante da pesquisa e compara as respostas desse
      indivíduo com aquelas previamente obtidas por outro entrevistador com
      essa mesma pessoa.
         Os coordenadores de campo ou os membros da equipe de avaliação
      também devem contribuir para os controles de qualidade com o intuito
      de minimizar os possíveis conﬂitos de interesse dentro da instituição
      responsável pelo trabalho de campo. Pode-se também contratar uma
      agência externa para auditar a qualidade das atividades de coleta de
      dados. Isso poderá limitar signiﬁcativamente a gama de problemas
      que  venham a surgir como resultado da falta de supervisão da equipe
      de  coleta de dados ou de procedimentos de controle de qualidade
      insuﬁcientes.
         Em última análise, é fundamental que todas as etapas envolvidas na veri-
      ﬁcação da qualidade sejam descritas explicitamente nos termos de referên-
      cia no momento da contratação do serviço de coleta de dados.


      Processar e armazenar os dados

      O processamento e a validação de dados são parte integrante da coleta de
      novos dados de pesquisa. Incluem as etapas para digitalizar as informações
      das pesquisas feitas em papel, bem como as etapas para validar os dados
      tanto das pesquisas feitas em papel quanto das eletrônicas, que utilizam
      laptops, smartphones, tablets ou outros dispositivos. Ao trabalhar com pes-
      quisas feitas em papel, é preciso desenvolver um programa de entrada
      de dados e deve-se implementar um sistema para gerenciar o ﬂuxo de dados
348                                                     Avaliação de Impacto na Prática
a serem digitalizados. Também devem ser estabelecidas normas e procedi-
mentos, e os digitadores devem ser cuidadosamente treinados para garan-
tir que essa digitação seja consistente. Tanto quanto possível, a entrada de
dados deve ser integrada às operações de coleta de dados (inclusive durante
a fase de pré-teste) para que quaisquer problemas com os dados coletados
possam ser prontamente identiﬁcados e veriﬁcados em campo. Em geral, o
referencial de qualidade para o processo de entrada de dados consiste no
seguinte: os dados físicos brutos são replicados ipsis litteris na versão digi-
talizada, sem modiﬁcações feitas durante a digitação. Para minimizar os
erros da entrada dos dados, um procedimento de entrada de dados duplo
cego pode ser usado para identiﬁcar e corrigir quaisquer erros
remanescentes. Pode-se usar uma abordagem de entrada de dados em
campo assistida por computador (CAFE), que coleta dados em papel e, em
seguida, os digitaliza e valida imediatamente em campo para identiﬁcar
erros e inconsistências.
    Tanto para as pesquisas em papel quanto para aquelas baseadas na
coleta eletrônica de dados, podem ser desenvolvidos programas para
validar os dados e realizar veriﬁcações automáticas de erros não amos-
trais (não resposta e inconsistências), que poderão ocorrer em campo.
Se o processo de validação estiver integrado aos procedimentos de
campo, os dados incompletos ou inconsistentes podem ser encaminha-
dos de volta aos entrevistadores para veriﬁcação no local de coleta. Esse
tipo de integração não está imune a problemas de ﬂuxo organizacional
das operações de campo, mas pode produzir ganhos substanciais para a
qualidade, diminuindo os erros de medida e aumentando o poder estatís-
tico da avaliação de impacto. A possibilidade de utilizar essa abordagem
integrada deve ser considerada explicitamente quando a coleta de dados
estiver sendo planejada. A utilização de novas tecnologias pode facilitar
esse controle de qualidade.
    Conforme discutido, a coleta de dados compreende um conjunto de ope-
rações cuja complexidade não deve ser subestimada. O boxe 16.5 discute
como o processo de coleta de dados para a avaliação do programa-piloto
Atención a Crisis, da Nicarágua, produziu dados de alta qualidade e com
taxas muito baixas de atrição e não resposta, além de poucos erros de
medida e processamento. Esses dados de alta qualidade só podem ser obti-
dos quando os procedimentos de veriﬁcação da qualidade dos dados e os
incentivos adequados são postos em prática no momento da contratação da
coleta de dados.
    Ao ﬁm do processo de coleta de dados, a base de dados deve ser entre-
gue com uma documentação detalhada, incluindo a programação com-
pleta e o dicionário de dados, e armazenada em um local seguro (ver o
boxe 16.6). Se os dados estiverem sendo coletados para uma avaliação de
A busca de fontes adequadas de dados                                              349
      Boxe 16.5: Coleta de dados para a avaliação do programa-piloto
      Atención a Crisis, na Nicarágua
      Em 2005, o governo da Nicarágua lançou o          aulas quanto em condições de campo. Em
      programa-piloto Atención a Crisis. Foi realiza-   seguida, foi estabelecida uma supervisão
      do um estudo para avaliar o impacto da combi-     de campo, de modo que todos os questio-
      nação de um programa de transferência condi-      nários fossem revisados várias vezes por
      cional de renda (TCR) com transferências de       entrevistadores, supervisores, coordenado-
      estímulo à produção, como bolsas para inves-      res de campo e outros revisores. Em ter-
      timento em atividades não agrícolas ou capa-      ceiro lugar, foi utilizado um sistema de
      citação proﬁssional. O programa Atención a        entrada de dados duplo cego, juntamente
      Crisis foi implementado pelo Ministério da        com um programa abrangente de veriﬁca-
      Família, com o apoio do Banco Mundial.            ção de qualidade capaz de identiﬁcar ques-
          Utilizou-se uma seleção aleatória em          tionários incompletos ou inconsistentes.
      dois estágios para a avaliação. Em primeiro       Questionários com informações ausentes
      lugar, 106 comunidades-alvo foram aleato-         para certas perguntas ou com inconsistên-
      riamente selecionadas para o grupo de             cias eram sistematicamente enviados de
      comparação ou para o grupo de tratamento.         volta a campo para veriﬁcação. Esses proce-
      Posteriormente, dentro das comunidades            dimentos e requisitos foram explicitamente
      de tratamento, as famílias elegíveis foram        especiﬁcados nos termos de referência
      selecionadas aleatoriamente para um dos           apresentados à empresa contratada para
      três pacotes de benefícios: transferência         fazer a coleta de dados.
      condicional de renda; TCR acrescida de                Além disso, procedimentos de rastrea-
      uma bolsa que permitia a um dos membros           mento detalhados foram implementados
      da família escolher entre vários cursos de        para minimizar a atrição. No início do pro-
      formação proﬁssional; e TCR acrescida de          cesso, um censo completo das famílias
      um subsídio para investimento produtivo           residentes nas comunidades de trata-
      com o intuito de incentivar os beneﬁciários       mento e de controle foi realizado em 2008
      a iniciar uma atividade não agrícola de           em estreita colaboração com os líderes
      pequeno porte com o objetivo de criar ati-        comunitários. Como a migração dentro do
      vos e diversiﬁcar seus rendimentos                país era comum, a empresa responsável
      (Macours, Premand e Vakis, 2012).                 pela coleta de dados recebeu incentivos
          Uma pesquisa de linha de base foi reali-      para rastrear migrantes individuais em todo
      zada em 2005. A primeira pesquisa de              o país. Como resultado, apenas 2% dos
      acompanhamento ocorreu em 2006 e a                4.359 domicílios originais não puderam ser
      segunda, em 2008, dois anos após a inter-         entrevistados em 2009. A empresa respon-
      venção ter terminado. Foram realizados            sável pela coleta de dados também foi
      rigorosos controles de qualidade em todas         encarregada de rastrear todos os indiví-
      as fases do processo de coleta de dados.          duos das famílias pesquisadas em 2005.
      Primeiramente, os questionários foram             Mais uma vez, apenas 2% dos indivíduos
      amplamente testados em campo, e os                que receberam as transferências do pro-
      entrevistadores foram treinados tanto em          grama não puderam ser rastreados (outros

                                                                                             (continua)


350                                                                         Avaliação de Impacto na Prática
     Boxe 16.5: Coleta de dados para a avaliação do programa-piloto Atención a Crisis, na
     Nicarágua (continuação)

    2% tinham morrido). A atrição foi de 3%               Além disso, veriﬁcações de qualidade com-
    para todas as crianças dos domicílios pes-            pletas aumentaram os custos e o tempo da
    quisados em 2005 e de 5% para todos os                coleta de dados. Ainda assim, no contexto
    indivíduos das famílias pesquisadas em                do programa piloto Atención a Crisis, a
    2005.                                                 amostra se manteve representativa tanto no
       As taxas de atrição e de não resposta for-         nível das famílias quanto no nível individual
    necem um bom indicador da qualidade da                três a quatro anos após a linha de base.
    pesquisa. Atingir taxas de atrição tão baixas         Além disso, os erros de medida foram mini-
    exigiu esforços intensos por parte da                 mizados e a conﬁabilidade dos dados de
    empresa responsável pela coleta de dados,             avaliação foi assegurada. Como resultado,
    bem como incentivos explícitos. O custo               os impactos de longo prazo do programa
    por unidade de um domicílio ou um indiví-             piloto Atención a Crisis puderam ser analisa-
    duo rastreado também foi muito maior.                 dos de maneira convincente.

    Fonte: Macours, Premand e Vakis 2012.




    Boxe 16.6: Orientações para a documentação e o armazenamento
    de dados
    A principal diretriz relacionada à documenta-         • Os microdados são os dados relacionados
    ção de dados consiste em manter um regis-               às unidades de observação que são man-
    tro de todos os dados da avaliação de                   tidas anônimas e não incluem nenhuma
    impacto. Isso inclui protocolos de coleta de            informação que identiﬁque os indivíduos.
    dados, questionários, manuais de treina-                As variáveis de identiﬁcação relevantes
    mento e similares. O Banco Mundial, o                   foram tornadas anônimas por meio de IDs,
    Banco Interamericano de Desenvolvimento                 que se vinculam apenas às informações
    e a Millennium Challenge Corporation, entre             dos entrevistados em arquivos de controle
    outros, têm iniciativas de dados abertos                de ID.
    pelas quais eles são disponibilizados publi-          • Os arquivos de controle de ID contêm
    camente por meio de um catálogo.                        todas as informações coletadas antes de
        O armazenamento de dados pode ser                   serem tornadas anônimas. Eles devem
    dividido em três categorias: microdados,                ser salvos apenas em um servidor seguro
    macrodados e arquivos de controle de identi-            e nunca devem ser incluídos em um
    ﬁcação (ID).                                            catálogo de dados.

                                                                                               (continua)


A busca de fontes adequadas de dados                                                                        351
      Boxe 16.6: Orientações para a documentação e o armazenamento de dados (continuação)

      • Os macrodados incluem todos os docu-            armazenamento desse tipo de informação.
         mentos de apoio relevantes para a              Os catálogos de dados centrais são muito
         interpretação dos microdados, como o           menos vulneráveis a falhas ou hackers do
         dicionário de dados, a programação com-        que um disco rígido de computador ou um
         pleta, a descrição do desenho do estudo        dispositivo de armazenamento portátil.
         e os questionários.                            Dentro de certos catálogos de dados, os
      A catalogação dos micro e dos macrodados          dados podem ser protegidos por senha por
      ajuda a proteger a segurança dos dados e          um dado período de tempo antes de serem
      também segue os padrões internacionais de         disponibilizados publicamente.




                   impacto, esse conjunto também deve incluir informações complementares
                   sobre o status de tratamento e a participação no programa. A entrega de
                   uma documentação completa acelerará o processo de análise dos dados da
                   avaliação de impacto, ajudará a produzir resultados que poderão ser usa-
                   dos para a formulação de políticas em tempo hábil e facilitará o comparti-
                   lhamento de informações e sua potencial replicação.


                   Recursos adicionais

                   • Para acessar os materiais complementares a este capítulo e hiperlinks com
                     recursos adicionais, ver o site Avaliação de Impacto na Prática (http://www
                     .worldbank.org/ieinpractice).
                   • Para obter um guia para o desenho do questionário, ver o módulo sobre “Applied
                     Fieldwork Techniques” no curso de métodos aplicados de avaliação de impacto
                     da Universidade da Califórnia (http://aie.cega.org).
                   • Para acessar blogs sobre coleta de dados, ver a lista selecionada pelo blog de
                     impacto no desenvolvimento socioeconômico do Banco Mundial (http://blogs
                     .worldbank.org/impactevaluations).
                   • Para obter mais informações sobre a coleta de dados, ver:
                     – Fink, Arlene G., e Jacqueline Kosecoff. 2008. How to Conduct Surveys: A Step
                        by Step Guide, quarta edição. Londres: Sage.
                     – Iarossi, Giuseppe. 2006. The Power of Survey Design: A User’s Guide for
                        Managing Surveys, Interpreting Results, and Inﬂuencing Respondents.
                        Washington, DC: Banco Mundial.
                     – Leeuw, Edith, Joop Hox e Don Dillman. 2008. International Handbook of
                        Survey Methodology. Nova York: Taylor & Francis Group.


352                                                                           Avaliação de Impacto na Prática
• Para obter mais informações sobre as atividades de coleta de dados e sobre a
  supervisão da qualidade dos dados, ver o Kit de Ferramentas de Avaliação
  de  Impacto do Banco Mundial, Módulo 5 sobre Coleta de Dados (http://www
  .worldbank.org/health/impactevaluationtoolkit). O módulo inclui vários exem-
  plos de relatórios de andamento de pesquisa de campo, manuais sobre o trabalho
  de campo e programas de treinamento para domicílios e estabelecimentos do
  setor de saúde.
• Para acessar vários materiais que podem orientar a preparação de uma pesquisa
  de campo, ver o centro (hub) de Avaliação do Banco Interamericano de
  Desenvolvimento (http://www.iadb.org/evaluationhub). Na seção Coleta de
  Dados, você pode baixar:
  – Um manual de desenho para questionários
  – Um manual sobre entrada de dados
  – Formulários de consentimento, exemplos de questionários, programas de
      entrada de dados e manuais de trabalho de campo para vários tipos diferentes
      de pesquisas, incluindo pesquisas de domicílios, comunidades, estabelecimen-
      tos do setor de saúde, escolas e agricultores
  – Links para outros exemplos de perguntas e questionários de pesquisa
  – Links para diretrizes sobre coletas de dados de qualidade
  – Links para ferramentas disponíveis no site da International Household
      Survey Network (IHSN) (Rede Internacional de Pesquisas Domiciliares)
      relacionadas ao armazenamento e gerenciamento de dados.
• Para saber mais por que a documentação de dados é importante, como ela pode ser
  feita e quem, na equipe de avaliação, é o responsável por ela, ver o Kit de Ferramentas
  de Avaliação de Impacto do Banco Mundial, Módulo 6 sobre o Armazenamento de
  Dados (http://www.worldbank.org/health/impactevaluationtoolkit).


Notas

1. Ver referências em Grosh e Glewwe (2000) e ONU (2005). Ver também Muñoz
   (2005), Iarossi (2006), Fink e Kosecoff (2008) e Leeuw, Hox e Dillman (2008),
   que fornecem diversas orientações práticas para a coleta de dados.
2. Ver McKenzie e Rosenzweig (2012) para ter uma visão geral sobre os avanços
   mais recentes.
3. Para obter exemplos desse tipo de experimento, ver McKenzie e Rosenzweig
   (2012) sobre perguntas genéricas; Beegle, Carletto e Himelein (2012) sobre
   dados agrícolas; Beegle e outros (2012) sobre medições do consumo das famílias;
   e Bardasi e outros (2011) sobre dados relacionados ao mercado de trabalho.
4. Para obter exemplos de inovações para os métodos de medição de resultados,
   ver Holla (2013), Das e Hammer (2007) e Planas e outros (2015).


Referências

Baird, S., and B. Özler. 2012. “Examining the Reliability of Self-reported Data on
   School Participation.” Journal of Development Economics 98 (1): 89–93.


A busca de fontes adequadas de dados                                                        353
      Bardasi, E., K. Beegle, A. Dillon, A. e P. Serneels. 2011. “Do Labor Statistics Depend
         on How and to Whom the Questions Are Asked? Results from a Survey
         Experiment in Tanzania.” The World Bank Economic Review 25 (3): 418–47.
      Beegle, K., C. Carletto e K. Himelein. 2012. “Reliability of Recall in Agricultural
         Data.” Journal of Development Economics 98 (1): 34–41.
      Beegle, K., J. De Weerdt, J. Friedman e J. Gibson. 2012. “Methods of Household
         Consumption Measurement through Surveys: Experimental Results from
         Tanzania.” Journal of Development Economics 98 (1): 3–18.
      Caeyers, Bet, Neil Chalmers e Joachim De Weerdt. 2012. “Improving Consumption
         Measurement and Other Survey Data through CAPI: Evidence from a
         Randomized Experiment.” Journal of Development Economics 98 (1): 19–33.
      Chetty, R., J. N. Friedman e E. Saez. 2013. “Using Differences in Knowledge across
         Neighborhoods to Uncover the Impacts of the EITC on Earnings.” American
         Economic Review 103 (7): 2683–721.
      Das, J. e J. Hammer. 2007. “Money for Nothing: The Dire Straits of Medical Practice
         in Delhi, India.” Journal of Development Economics 83 (1): 1–36.
      Fafchamps, Marcel, David McKenzie, Simon Quinn e Christopher Woodruff. 2012.
         “Using PDA Consistency Checks to Increase the Precision of Proﬁts and Sales
         Measurement in Panels.” Journal of Development Economics 98 (1): 51–57.
      Ferraz, C. e F. Finan. 2008. “Exposing Corrupt Politicians: The Effects of Brazil’s
         Publicly Released Audits on Electoral Outcomes.” The Quarterly Journal of
         Economics 123 (2): 703–45.
      Fink, A. G. e J. Kosecoff. 2008. How to Conduct Surveys: A Step by Step Guide, quarta
         edição, Londres: Sage.
      Galiani, S., P. Gertler e E. Schargrodsky. 2005. “Water for Life: The Impact of the
         Privatization of Water Services on Child Mortality.” Journal of Political Economy
         113 (1): 83–120.
      Galiani, Sebastian e Patrick McEwan. 2013. “The Heterogeneous Impact of
         Conditional Cash Transfers.” Journal of Public Economics 103: 85–96.
      Gertler, Paul, Paula Giovagnoli e Sebastián Martínez. 2014. “Rewarding Provider
         Performance to Enable a Healthy Start to Life: Evidence from Argentina’s
         Plan Nacer.” Policy Research Working Paper 6884, Banco Mundial,
         Washington, DC.
      Glewwe, Paul. 2005. “An Overview of Questionnaire Design for Household Surveys
         in Developing Countries.” Em Household Sample Surveys in Developing and
         Transition Countries. Nova York: Organização das Nações Unidas.
      Glewwe, Paul e Pedro Olinto. 2004. “Evaluating the Impact of Conditional Cash
         Transfers on Schooling: An Experimental Analysis of Honduras’ PRAF
         Program.” Relatório ﬁnal. University of Minnesota and IFPRI-FCND.
      Grosh, Margaret e Paul Glewwe, eds. 2000. Designing Household Survey
         Questionnaires for Developing Countries: Lessons from 15 Years of the Living
         Standards Measurement Study. Washington, DC: Banco Mundial.
      Holla, Alaka. 2013. “Measuring the Quality of Health Care in Clinics.” Banco
         Mundial, Washington, DC. http://www.globalhealthlearning.org/sites/default
         /ﬁles/page-ﬁles/Measuring%20Quality%20of%20Health%20Care_020313.pdf.



354                                                            Avaliação de Impacto na Prática
Iarossi, G. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys,
   Interpreting Results, and Inﬂuencing Respondents. Washington, DC: Banco
   Mundial.
Kasprzyk, Daniel. 2005. “Measurement Error in Household Surveys: Sources and
   Measurement.” Em Household Sample Surveys in Developing and Transition
   Countries. Nova York: Organização das Nações Unidas.
Leeuw, E., J. Hox e D. Dillman. 2008. International Handbook of Survey
   Methodology. Nova York: Taylor & Francis Group.
Macours, Karen, Patrick Premand e Renos Vakis. 2012. “Transfers, Diversiﬁcation
   and Household Risk Strategies: Experimental Evidence with Implications for
   Climate Change Adaptation.” Policy Research Working Paper 6053, Banco
   Mundial, Washington, DC.
McKenzie, David e Mark Rosenzweig. 2012. “Symposium on Measurement and
   Survey Design.” Journal of Development Economics 98 (1º de maio): 1–148.
Morris, Saul S., Rafael Flores, Pedro Olinto e Juan Manuel Medina. 2004.
   “Monetary Incentives in Primary Health Care and Effects on Use and Coverage
   of Preventive Health Care Interventions in Rural Honduras: Cluster
   Randomized Trial.” Lancet 364: 2030–37.
Muñoz, Juan. 2005. “A Guide for Data Management of Household Surveys.” Em
   Household Sample Surveys in Developing and Transition Countries, capítulo 15.
   Nova York: Organização das Nações Unidas.
Organização das Nações Unidas (ONU). 2005. Household Sample Surveys in
   Developing and Transition Countries. Nova York: Organização das Nações
   Unidas.
Planas, M-E, P. J. García, M. Bustelo, C. P. Carcamo, S. Martinez, H. Nopo, J.
   Rodriquez, M-F Merino e A. Morrison. 2015. “Effects of Ethnic Attributes on the
   Quality of Family Planning Services in Lima, Peru: A Randomized Crossover
   Trial.” PLoS ONE 10 (2): e0115274.
Pradhan, M. e L. B. Rawlings. 2002. “The Impact and Targeting of Social
   Infrastructure Investments: Lessons from the Nicaraguan Social Fund.”
   World Bank Economic Review 16 (2): 275–95.
Vermeersch, Christel, Elisa Rothenbühler e Jennifer Sturdy. 2012. Impact
   Evaluation Toolkit: Measuring the Impact of Results-Based Financing on
   Maternal and Child Health. Banco Mundial, Washington, DC. http://www
   .worldbank.org/health/impactevaluationtoolkit.




A busca de fontes adequadas de dados                                                 355
CAPÍTULO 17




Conclusão

Avaliações de impacto: iniciativas complexas,
mas que valem a pena

As avaliações de impacto consistem na produção de evidências sobre quais
os programas que funcionam, quais os que não funcionam e como aperfei-
çoá-los para alcançar melhores resultados em termos de desenvolvimento
socioeconômico. Isso pode ser feito em uma estrutura clássica de avaliação
de impacto, ou seja, por meio da comparação dos resultados dos grupos de
tratamento e de comparação. As avaliações de impacto também podem ser
realizadas para examinar diferentes formas de implementação dentro de
um programa, para testar inovações ou para analisar diferentes programas a
ﬁm de comparar seus desempenhos.
   Nosso argumento é que as avaliações de impacto são um investimento
que vale a pena para muitos programas. Conjugadas ao monitoramento e
outras formas de avaliação, elas melhoram a compreensão sobre a efetivi-
dade de políticas especíﬁcas; contribuem para aperfeiçoar a prestação de
contas junto aos gestores de programas, aos governos, aos ﬁnanciadores e ao
público; orientam as decisões sobre como alocar os recursos escassos desti-
nados ao fomento do desenvolvimento socioeconômico de forma mais eﬁ-
ciente; e ampliam o estoque global de conhecimento sobre o que funciona e
o que não funciona na área do desenvolvimento.



                                                                              357
      Lista de veriﬁcação: elementos centrais de uma
      avaliação de impacto bem elaborada

      As avaliações de impacto são iniciativas complexas compostas por muitas
      peças que estão em constante movimento. A lista de veriﬁcação a seguir des-
      taca os elementos centrais de uma avaliação de impacto bem elaborada:
      ¸ Uma pergunta de política pública concreta e relevante — fundamentada
        em uma teoria da mudança — que possa ser respondida por uma avalia-
        ção de impacto.
      ¸ Uma metodologia robusta, derivada das regras operacionais do pro-
        grama, para estimar um contrafactual que mostre a relação causal entre o
        programa e os resultados de interesse.
      ¸ Uma equipe de avaliação bem formada e que funcione como uma parce-
        ria entre a equipe de formulação e gestão de políticas públicas e a equipe
        de pesquisa.
      ¸ O respeito pelos padrões éticos e a consideração pelos seres humanos no dese-
        nho e implementação da avaliação e na coleta de dados relacionados a ela, bem
        como a atenção aos princípios da ciência aberta para garantir a transparência.
      ¸ Uma amostra com poder estatístico suﬁciente para permitir a detecção
        de impactos relevantes para as políticas públicas.
      ¸ Uma metodologia e amostras que forneçam resultados generalizáveis
        para a população de interesse.
      ¸ Dados de alta qualidade que forneçam as informações adequadas e neces-
        sárias para a avaliação de impacto, incluindo dados para os grupos de tra-
        tamento e de comparação, dados de linha de base e de acompanhamento
        e informações sobre a implementação do programa e seus custos.
      ¸ Uma estratégia de engajamento para orientar o diálogo sobre políticas
        públicas por meio da implementação da avaliação de impacto, bem como
        um relatório de avaliação de impacto e resumos de política pública divul-
        gados aos principais públicos-alvo em tempo hábil.



      Lista de veriﬁcação: sugestões para mitigar
      riscos comuns na realização de uma avaliação
      de impacto

      Destacamos também algumas sugestões que podem ajudar a mitigar os riscos
      comuns inerentes ao processo de realização de uma avaliação de impacto:


358                                                        Avaliação de Impacto na Prática
¸ As avaliações de impacto são mais bem desenhadas no início do ciclo do
  projeto e, idealmente, devem fazer parte do desenho do programa, ou,
  pelo menos, ser elaboradas antes que o programa a ser avaliado seja
  implementado. O planejamento antecipado permite um desenho de ava-
  liação prospectivo baseado na melhor metodologia disponível e propor-
  ciona o tempo necessário para planejar e implementar a coleta de dados
  de linha de base nas áreas de avaliação antes do início do programa.

¸ Os resultados da avaliação de impacto devem ser orientados por uma ava-
  liação de processo complementar e por dados de monitoramento que for-
  neçam uma imagem clara sobre a implementação do programa. Quando
  os programas têm êxito, é importante entender o porquê. Quando os pro-
  gramas fracassam, é importante distinguir entre um programa mal imple-
  mentado e um desenho de programa falho.

¸ Os dados de linha de base devem ser coletados e uma metodologia alter-
  nativa deve ser incorporada em seu desenho de avaliação de impacto. Se
  o projeto de avaliação original for invalidado — por exemplo, porque o
  grupo de comparação original recebeu os benefícios do programa —, ter
  um plano B pode ajudar a evitar descartar a avaliação por completo.

¸ A mesma unidade de observação deve ter o mesmo identiﬁcador em dife-
  rentes fontes de dados, de forma que as informações possam ser facil-
  mente combinadas durante a análise. Por exemplo, uma família especíﬁca
  deve ter o mesmo identiﬁcador nos sistemas de monitoramento e nas
  pesquisas de avaliação de impacto de linha de base e de acompanhamento.

¸ As avaliações de impacto são úteis para desvendar como os programas
  funcionam e para testar alternativas de programas — até mesmo para
  grandes programas que já estejam em andamento. Avaliações de impacto
  bem elaboradas podem ajudar a testar inovações ou fornecer informações
  sobre a efetividade relativa dos vários bens e serviços ofertados por pro-
  gramas existentes. Incorporar uma inovação adicional ao programa, como
  um pequeno piloto no contexto de uma avaliação maior, pode potenciali-
  zar a avaliação ao produzir informações valiosas para futuras decisões.

¸ As avaliações de impacto devem ser consideradas como mais um compo-
  nente da operação de um programa e devem contar com uma equipe e
  orçamento adequados de acordo com os recursos técnicos e ﬁnanceiros
  necessários. É importante ser realista quanto aos custos e à complexi-
  dade da realização de uma avaliação de impacto. O processo de desenhar
  uma avaliação e de coletar dados de linha de base a partir do zero normal-
  mente pode demorar um ano ou mais. Uma vez iniciado o programa,


Conclusão                                                                      359
        o grupo de tratamento necessitará de um período de exposição à inter-
        venção suﬁciente para que os participantes e, consequentemente, os indi-
        cadores de impacto possam ser afetados pela iniciativa. Dependendo do
        programa, isso pode levar de um ano a cinco anos — ou até mais, para
        resultados de longo prazo. A realização da análise, de uma ou mais pes-
        quisas de acompanhamento e da disseminação dos resultados também
        envolverão esforços consideráveis ao longo de vários meses ou anos. No
        total, um ciclo completo de avaliação de impacto normalmente demora
        pelo menos de três a quatro anos de engajamento e trabalho intensivo.
        Recursos ﬁnanceiros e técnicos adequados são necessários durante cada
        etapa do processo.

         Em última análise, as avaliações de impacto individualmente forne-
      cem respostas concretas para questões de políticas públicas especíﬁcas.
      Embora essas respostas forneçam informações personalizadas para a
      entidade ou organização especíﬁca que encomendou e pagou pela ava-
      liação, elas também fornecem dados valiosos para outras pessoas ao
      redor do mundo, que podem aprender com eles e tomar decisões basea-
      das nas evidências obtidas. Por exemplo, programas de transferência de
      renda da África, da Ásia e da Europa aprenderam lições valiosas com
      avaliações originalmente realizadas na Colômbia (Familias en Acción),
      no México (Progresa) e com outros programas latino-americanos de
      transferência condicional de renda. Dessa maneira, as avaliações de
      impacto são, em parte, um bem público global. As evidências geradas por
      uma avaliação de impacto contribuem para o conhecimento mundial
      sobre o tema analisado. Essa base de conhecimentos pode orientar as
      decisões sobre políticas públicas de outros países e em outros contextos,
      desde que com a devida atenção à validade externa. A comunidade inter-
      nacional está se movimentando rapidamente para ampliar o apoio a ava-
      liações rigorosas.
         No nível nacional, governos mais soﬁsticados e exigentes procuram
      demonstrar resultados e prestar contas aos seus principais públicos. Cada
      vez mais, as avaliações têm sido conduzidas por ministérios nacionais,
      secretarias regionais e órgãos governamentais criados para liderar uma
      agenda de avaliação nacional, como o Conselho Nacional de Avaliação de
      Políticas de Desenvolvimento Social, do México, e o Departamento de
      Monitoramento e Avaliação de Desempenho, da África do Sul. As evidências
      das avaliações de impacto também têm sido usadas para orientar as aloca-
      ções orçamentárias apresentadas por órgãos legislativos e parlamentos em
      nível nacional. Nos sistemas em que os programas são avaliados com base
      em provas concretas e resultados ﬁnais, os programas que apresentam uma
      forte base de evidências para defender resultados positivos prosperarão,
360                                                    Avaliação de Impacto na Prática
enquanto os programas que não tiverem esse respaldo terão mais diﬁcul-
dade em manter seu ﬁnanciamento.
   As instituições multilaterais, como o Banco Mundial e o Banco
Interamericano de Desenvolvimento, bem como agências nacionais de
desenvolvimento, governos doadores e instituições ﬁlantrópicas, também
estão exigindo mais e melhores evidências sobre o uso efetivo dos recursos
de programas de fomento ao desenvolvimento. As evidências são necessá-
rias para a prestação de contas àqueles que emprestam ou doam o dinheiro,
bem como para a tomada de decisões sobre onde é melhor alocar os recursos
escassos destinados a programas de desenvolvimento socioeconômico.
   Um número crescente de instituições dedicadas principalmente à produ-
ção de avaliações de impacto de alta qualidade está surgindo, incluindo na
área acadêmica, como o Poverty Action Lab, o Innovations for Poverty
Action e o Center for Effective Global Action, além de agências independen-
tes que apoiam as avaliações de impacto, como a Iniciativa Internacional
para a Avaliação de Impacto (3ie). Várias associações reúnem grupos de pro-
ﬁssionais de avaliação e pesquisadores, além de formuladores de políticas
públicas interessados no tema, incluindo a Network of Networks on Impact
Evaluation e associações regionais, como a Associação Africana de Avaliação
e a Rede de Avaliação de Impacto da Associação de Economia da América
Latina e Caribe. Todos esses esforços reﬂetem a crescente importância da
avaliação de impacto para as políticas internacionais de desenvolvimento.
   Considerando esse crescimento da área de avaliação de impacto, estar
familiarizado com a linguagem das avaliações é uma habilidade cada vez
mais indispensável para qualquer proﬁssional da área de desenvolvimento —
quer seja o responsável pela execução e implementação das avaliações, o
contratante desse tipo de serviço ou o usuário dos resultados das avaliações
de impacto para a tomada de decisão. Evidências rigorosas como aquelas
geradas pelas avaliações de impacto podem ser um dos motores do diálogo
sobre políticas de desenvolvimento socioeconômico, fornecendo a base para
apoiar ou evitar investimentos em programas e políticas de desenvolvimento.
As evidências das avaliações de impacto permitem que os formuladores de
políticas públicas e os gestores de programas tomem decisões bem funda-
mentadas sobre como obter resultados de forma mais rentável ou
custo-efetiva. Munida com as evidências de uma avaliação de impacto, a
equipe de formulação e gestão de política pública tem a tarefa de fechar o
ciclo, alimentando o processo de tomada de decisão com esses resultados.
Esse tipo de evidência pode orientar debates, opiniões e, em última instân-
cia, as decisões sobre a alocação de recursos humanos e monetários de
governos, instituições multilaterais e doadores.
   A elaboração de políticas públicas baseada em evidências consiste, fun-
damentalmente, em orientar a elaboração de programas e alocar melhor os
Conclusão                                                                      361
      orçamentos para expandir as iniciativas custo-efetivas, reduzir aquelas que
      são ineﬁcazes e introduzir melhorias nos desenhos de programas com base
      nas evidências de maior qualidade disponíveis. As avaliações de impacto
      não são puramente acadêmicas. Elas são motivadas pela necessidade de res-
      postas a perguntas de políticas públicas que afetam a vida cotidiana das
      pessoas. As decisões sobre a melhor maneira de investir recursos escassos
      em programas de combate à pobreza e de melhoria dos sistemas de trans-
      porte, energia, saúde e educação e em iniciativas de seguridade social,
      microcrédito, agricultura e inúmeras outras ações voltadas para o desenvol-
      vimento socioeconômico têm potencial para melhorar o bem-estar das pes-
      soas de todo o mundo. É vital que essas decisões sejam tomadas com a
      utilização das evidências mais rigorosas possíveis.




362                                                     Avaliação de Impacto na Prática
GLOSSÁRIO




Os termos em itálico que aparecem nas deﬁnições abaixo são também deﬁnidos em
outros pontos do glossário.
Amostra. Em estatística, uma amostra é um subconjunto de uma população de
interesse. Em geral, as populações são muito grandes, o que torna a realização de um
censo ou de uma enumeração completa de todos os valores da população impra-
ticável ou impossível. Em vez disso, os pesquisadores podem selecionar um subcon-
junto representativo da população (usando uma listagem) e coletar estatísticas
sobre essa amostra; essas estatísticas podem ser utilizadas para fazer inferências ou
extrapolar para toda a população. Esse processo é chamado de amostragem. Compare
com censo.
Amostra aleatória. Amostra obtida com base em amostragem probabilística por
meio da qual cada unidade da listagem tem uma probabilidade conhecida de ser
escolhida. Selecionar uma amostra aleatória é a melhor maneira de evitar uma
amostra não representativa. A amostragem aleatória não deve ser confundida com a
seleção aleatória.
Amostra estratiﬁcada. Obtida por meio da divisão da população de interesse
(listagem) em grupos (por exemplo, homens e mulheres), para, em seguida, extrair
uma amostra aleatória dentro de cada grupo. Uma amostra estratiﬁcada é uma
amostra probabilística: cada unidade de cada grupo (ou estrato) tem uma probabili-
dade conhecida de ser escolhida. Desde que cada grupo seja suﬁcientemente grande,
a amostragem estratiﬁcada permite fazer inferências sobre as variáveis de interesse
não apenas no nível da população, mas também dentro de cada grupo.
Amostragem. Processo por meio do qual extraem-se unidades de uma listagem
construída a partir da população de interesse. Podem ser utilizados vários procedi-
mentos alternativos de amostragem. Métodos de amostragem probabilística são os
mais rigorosos, pois atribuem uma probabilidade bem deﬁnida para cada unidade a


                                                                                        363
      ser selecionada. A amostragem aleatória, a amostragem aleatória estratiﬁcada e a
      amostragem por conglomerados são métodos de amostragem probabilística.
      A amostragem não probabilística (como a amostragem intencional ou de conveniên-
      cia) pode criar erros de amostragem.
      Amostragem por conglomerados. É uma amostra formada por conglomerados.
      Amostragem probabilística. Processo de amostragem que atribui uma probabili-
      dade bem deﬁnida para cada unidade extraída de uma listagem. Esse tipo de
      amostragem inclui amostragem aleatória, amostragem aleatória estratiﬁcada e
      amostragem por conglomerados.
      Análise de custo-benefício. Estima o total de benefícios esperados de um pro-
      grama em comparação a seu custo total estimado. Essa análise busca quantiﬁcar
      todos os custos e benefícios de um programa em termos monetários e avalia se os
      benefícios superam os custos.
      Análise de custo-efetividade. Compara o custo relativo de dois ou mais programas
      ou de alternativas de um programa em termos da obtenção de um resultado comum,
      como a produção agrícola ou as notas dos alunos em avaliações educacionais.
      Análise de regressão. Método estatístico usado para analisar as relações entre uma
      variável dependente (a variável a ser explicada) e variáveis explicativas. Geralmente,
      a análise de regressão não é suﬁciente para captar os efeitos causais. Na avaliação
      de impacto, a análise de regressão é uma forma de representar a relação entre o valor
      de um indicador de resultado Y (variável dependente) e uma variável independente
      que capta a seleção ao grupo de tratamento ou de comparação, mantendo constantes
      outras características. Tanto a seleção ao grupo de tratamento e de comparação
      quanto as outras características são variáveis explicativas. A análise de regressão
      pode ser univariada (se houver apenas uma variável explicativa; no caso da avaliação
      de impacto, a única variável explicativa é a seleção ao grupo de tratamento ou de
      comparação) ou multivariada (se existirem várias variáveis explicativas).
      Análise de sensibilidade. Investiga quão sensível é a análise às mudanças nos
      pressupostos. No contexto dos cálculos de poder, ela ajuda os estatísticos a entender
      o quanto terão que aumentar o tamanho da amostra sob pressupostos mais conser-
      vadores (como impacto esperado menor, maior variação no indicador de resultado
      ou nível mais elevado de poder estatístico).
      Atividade. Ação adotada ou trabalho realizado por meio do qual insumos, como
      recursos ﬁnanceiros, assistência técnica e outros tipos de recursos, são mobilizados
      para gerar produtos especíﬁcos, como dinheiro despendido, distribuição de livros
      didáticos ou número de participantes em um programa de emprego.
      Atrição. A atrição ocorre quando algumas unidades saem da amostra entre uma
      rodada e outra da coleta de dados, como quando as pessoas se mudam e não podem
      mais ser rastreadas. A atrição é um caso de não resposta da unidade de observação e
      pode criar viés na estimativa do impacto do programa.
      Avaliação. A avaliação é uma análise objetiva e periódica de um projeto, política ou
      programa planejado, em andamento ou concluído. As avaliações são utilizadas para

364                                                            Avaliação de Impacto na Prática
responder a questões especíﬁcas, frequentemente relacionadas ao desenho, à imple-
mentação ou aos resultados.
Avaliação de impacto. Avaliação que faz uma ligação causal entre um programa ou
intervenção e um conjunto de resultados. A avaliação de impacto responde à seguinte
pergunta: qual é o impacto (ou efeito causal) de um programa sobre um resultado de
interesse.
Avaliação de processo. Avaliação que enfoca como um programa é implementado
e opera, avaliando se ele está de acordo com seu desenho original e documentando
seu desenvolvimento e operação. Compare com avaliação de impacto.
Avaliação prospectiva. Avaliação realizada antes da implementação de um
programa. A avaliação prospectiva é parte integral dos planos de implementação dos
programas. Compare com avaliação retrospectiva.
Avaliação retrospectiva. Avaliação realizada após a implementação de um pro-
grama (ex-post). Compare com avaliação prospectiva.
Cadeia de resultados. Deﬁne a lógica do programa ao explicar como o objetivo do
programa deve ser alcançado. Ela articula a sequência de insumos, atividades e
produtos destinados a melhorar os resultados.
Cálculos de poder. Método para determinar a dimensão que a amostra deve ter
para que uma avaliação de impacto estime com precisão o impacto de um programa,
ou seja, a menor amostra que permitirá detectar o efeito mínimo detectável. Os cálcu-
los de poder dependem de parâmetros como poder (ou a probabilidade da ocorrência
de erro do tipo II), nível de signiﬁcância, média, variância e correlação intraconglo-
merado do resultado de interesse.
Censo. Uma enumeração completa de uma população. Os dados do censo abrangem
todas as unidades da população. Compare com amostra.
Ciência aberta. Movimento que visa tornar os métodos de pesquisa mais transpa-
rentes, inclusive por meio do registro de testes, da utilização de planos de pré-análise,
da documentação dos dados e de seu registro.
Comparação antes e depois. Também conhecida como comparação pré-pós ou
comparação reﬂexiva. Essa estratégia acompanha as mudanças nos resultados para
os beneﬁciários do programa ao longo do tempo, usando medidas antes e depois que
a política ou o programa foi implementado, mas sem utilizar um grupo de
comparação.
Comparações inscrito e não inscrito. Também conhecidas como comparações
com autosseleção. Essa estratégia compara os resultados das unidades que optam
por se inscrever em um programa com os resultados das unidades que preferem não
se inscrever.
Conglomerado (cluster). Um conglomerado é um grupo de unidades que pode
compartilhar características semelhantes. Por exemplo, crianças que frequentam a
mesma escola podem pertencer a um conglomerado porque compartilham as mes-
mas instalações escolares e os mesmos professores e vivem no mesmo bairro.

Glossário                                                                                   365
      Conselho de Revisão de Práticas Éticas de Pesquisa (Institutional Review
      Board–IRB). Comitê designado para rever, aprovar e monitorar pesquisas envol-
      vendo seres humanos. Também conhecido como Comitê de Ética em Pesquisa (IEC)
      ou Conselho de Revisão Ética (ERB).
      Consentimento informado. Um dos pilares da proteção dos direitos das pessoas
      que são objeto de estudo. No caso de avaliações de impacto, esse procedimento
      requer que os participantes tenham uma compreensão clara sobre a ﬁnalidade, os
      procedimentos, os riscos e os benefícios da coleta de dados para a qual foram convi-
      dados a participar.
      Contrafactual. O contrafactual é o resultado (Y) que os participantes do pro-
      grama teriam alcançado na ausência do programa (P). Por deﬁnição, o contrafac-
      tual não pode ser observado. Por isso, ele deve ser estimado usando um grupo de
      comparação.
      Correlação. Medida estatística que indica o grau de associação entre duas ou mais
      variáveis.
      Correlação intraconglomerado. Também conhecida como correlação intraclasse. É o
      grau de similaridade dos resultados ou características entre unidades dentro de um
      mesmo grupo ou conglomerado preexistente relativamente a unidades de outros
      conglomerados. Por exemplo, as crianças que frequentam uma mesma escola são, em
      geral, mais semelhantes ou correlacionadas entre si em termos de área de residência ou
      nível socioeconômico comparativamente a crianças que não frequentam essa escola.
      Cumprimento. O cumprimento ocorre quando as unidades respeitam a sua aloca-
      ção para o grupo de tratamento ou para o grupo de comparação.
      Cumprimento parcial. A discrepância entre o status originalmente selecionado e o
      status real de tratamento. O cumprimento parcial ocorre quando algumas unidades
      selecionadas para o grupo de comparação participam do programa ou quando algu-
      mas unidades selecionadas para o grupo de tratamento não participam dele.
      Dados administrativos. Dados coletados rotineiramente por instituições públicas
      ou privadas como parte da administração dos programas, normalmente com regu-
      laridade e, em geral, no local da prestação de serviços; inclui os serviços prestados, os
      custos e informações sobre os participantes do programa. Os dados de monitora-
      mento são um tipo de dado administrativo.
      Dados de monitoramento. Dados provenientes do monitoramento de programas
      que fornecem informações essenciais sobre a realização de uma intervenção, inclu-
      indo quem são os beneﬁciários e quais os benefícios ou produtos do programa que
      eles podem ter recebido. Os dados de monitoramento são um tipo de dado
      administrativo.
      Dados de pesquisa. Dados que cobrem uma amostra da população de interesse.
      Compare com os dados do censo.
      Desenho cruzado. Também chamado de desenho transversal. Nesse tipo de
      desenho, ocorre seleção aleatória de duas ou mais intervenções, permitindo que se
      estime o impacto das intervenções individuais e combinadas.

366                                                              Avaliação de Impacto na Prática
Diferença em diferenças. Também conhecida como dupla diferença ou DD. A dife-
rença em diferenças compara as variações nos resultados ao longo do tempo entre o
grupo de tratamento e o grupo de comparação. Isso elimina quaisquer diferenças
constantes entre esses grupos.
Efeito Hawthorne. Ocorre quando as unidades se comportam de maneira diferente
devido ao simples fato de serem observadas.
Efeito John Henry. O efeito John Henry acontece quando as unidades de compara-
ção se esforçam mais para compensar o fato de não terem recebido a oferta de
tratamento. Quando comparamos as unidades tratadas com as unidades de compa-
ração mais esforçadas, a estimativa do impacto do programa terá um viés: ou seja,
estimaremos um impacto menor para o programa do que o impacto verdadeiro que
encontraríamos caso as unidades de comparação não ﬁzessem o esforço adicional.
Efeito médio do tratamento (ATE). O impacto do programa sob a hipótese de que
houve cumprimento pleno da seleção para o programa. Isto é, todas as unidades que
foram selecionadas a um programa realmente se inscreveram nele, e nenhuma das
unidades de comparação recebeu o programa.
Efeito médio local do tratamento (LATE). O impacto do programa estimado para
um subconjunto especíﬁco da população, como as unidades que cumprem sua
seleção para o grupo de tratamento ou para o grupo de comparação na presença de
cumprimento parcial, ou em torno do ponto de corte de elegibilidade no método de
regressão descontínua. Dessa maneira, o LATE fornece apenas uma estimativa local
do impacto do programa que não deve ser generalizada para toda a população.
Efeito mínimo detectável. O efeito mínimo detectável é um insumo para o cálculo
de poder estatístico. Isto é, fornece a magnitude do efeito que uma avaliação de
impacto deve ser capaz de estimar para um determinado nível de signiﬁcância e
poder. As amostras de avaliação devem ser grandes o suﬁciente para estimar pelo
menos o efeito mínimo detectável com poder estatístico suﬁciente. O efeito mínimo
detectável é estabelecido considerando a mudança nos resultados que justiﬁcaria o
investimento em uma intervenção.
Efeitos do equilíbrio de contexto. Transbordamentos que ocorrem quando uma
intervenção afeta as normas comportamentais ou sociais em um determinado con-
texto, como uma localidade tratada.
Efeitos do equilíbrio geral. Transbordamentos que ocorrem quando as interven-
ções afetam a oferta e a demanda de bens ou serviços e, assim, alteram o preço de
mercado desses bens e serviços.
Equipe de avaliação. A equipe que realiza a avaliação. Trata-se, essencialmente, de
uma parceria entre dois grupos: uma equipe formada pelos formuladores de políti-
cas públicas e gestores de programas (a equipe de formulação e gestão) e uma equipe
composta de pesquisadores (a equipe de pesquisa).
Erro do tipo I. Também conhecido como erro falso positivo. É o erro cometido ao
rejeitarmos uma hipótese nula apesar de ela ser verdadeira. No contexto das avalia-
ções de impacto, um erro do tipo I é cometido quando uma avaliação conclui que um

Glossário                                                                             367
      programa teve impacto (ou seja, a hipótese nula de ausência de impacto é rejeitada)
      mesmo que, na realidade, o programa não tenha tido nenhum impacto (isto é, a hipó-
      tese nula é verdadeira). O nível de signiﬁcância é a probabilidade de cometer um erro
      do tipo I.
      Erro do tipo II. Também conhecido como erro falso negativo. É o erro cometido ao
      aceitarmos (ou não rejeitarmos) a hipótese nula, mesmo que ela não seja verdadeira.
      No contexto das avaliações de impacto, um erro do tipo II é cometido quando se
      conclui que um programa não teve impacto (isto é, a hipótese nula de ausência de
      impacto não é rejeitada), apesar de o programa ter tido impacto (ou seja, a hipótese
      nula não é verdadeira). A probabilidade de cometer um erro do tipo II é de 1 menos
      o nível de poder.
      Escore de propensão. No contexto das avaliações de impacto que utilizam o
      método de pareamento, o escore de propensão é a probabilidade de uma unidade se
      inscrever no programa com base nas características observadas. Esse escore é um
      número real entre 0 e 1 que resume a inﬂuência de todas as características obser-
      vadas na probabilidade de se inscrever no programa.
      Estimador. Em estatística, um estimador é uma função usada para estimar uma
      característica desconhecida da população (tecnicamente conhecida como parâme-
      tro) a partir dos dados; uma estimativa é o resultado da aplicação do estimador a uma
      amostra especíﬁca de dados.
      Estudo de efetividade. Avalia se um programa funciona em condições normais de
      escala. Quando concebido e implementado adequadamente, os resultados desses
      estudos podem ser mais generalizáveis do que os estudos de eﬁcácia.
      Estudo de eﬁcácia. Avalia se um programa pode funcionar em condições ideais.
      Esses estudos são realizados em circunstâncias muito especíﬁcas, por exemplo, com
      grande envolvimento técnico dos pesquisadores durante a implementação do
      programa. Geralmente, eles são realizados para testar a viabilidade de um novo
      programa. Seus resultados podem não ser generalizáveis para além do escopo da
      avaliação.
      Experimento de mecanismo. É a avaliação de impacto que testa o efeito de deter-
      minado mecanismo causal seguindo a teoria da mudança de um programa, em vez de
      testar o efeito causal (impacto) do programa como um todo.
      Falta de suporte comum. Quando se utiliza o método de pareamento, a falta de
      suporte comum representa a ausência de sobreposição entre os escores de propensão
      do grupo de tratamento ou inscrito e os escores de propensão do grupo não inscrito.
      Fator (efeito) ﬁxo. Fator que não varia com o passar do tempo, ou seja, é constante.
      Fator variável. Fator que varia com o passar do tempo.
      Generalização. A extensão com que os resultados de uma avaliação realizada local-
      mente serão válidos em outros contextos e entre outros grupos populacionais.
      Grupo de comparação. Também conhecido como grupo de controle. Um grupo de
      comparação válido terá as mesmas características, em média, que o grupo de bene-
      ﬁciários do programa ( grupo de tratamento), exceto pelo fato de que as unidades no

368                                                            Avaliação de Impacto na Prática
grupo de comparação não se beneﬁciam do programa. Grupos de comparação são
usados para estimar o contrafactual.
Grupo de controle. Também conhecido como grupo de comparação (consulte
deﬁnição).
Grupo de tratamento. Também conhecido como grupo tratado ou grupo de
intervenção. O grupo de tratamento é o grupo de unidades que recebe uma interven-
ção, em contraposição ao grupo de comparação, que não recebe.
Hipótese. Uma hipótese é uma explicação proposta para um fenômeno observável.
Consulte também hipótese nula e hipótese alternativa.
Hipótese alternativa. A hipótese de que a hipótese nula é falsa. Em avaliação de
impacto, a hipótese alternativa é geralmente a hipótese de que a intervenção tem um
impacto sobre os resultados.
Hipótese nula. Hipótese que pode ser falseada com base em dados observados.
A hipótese nula geralmente propõe uma posição geral ou padrão. Na avaliação de
impacto, a hipótese nula geralmente signiﬁca que o programa não tem impacto. Isto
é, que a diferença entre os resultados obtidos pelo grupo de tratamento e pelo grupo
de comparação é zero.
Impacto. Também conhecido como efeito causal. No contexto das avaliações de
impacto, um impacto é uma mudança diretamente atribuível a um programa, a uma
forma de implementação do programa ou a uma inovação no desenho do programa.
Indicador. Um indicador é uma variável que mede um fenômeno de interesse para a
equipe de avaliação. O fenômeno pode ser um insumo, um produto, um resultado,
uma característica ou um atributo. Ver também SMART.
Índice de elegibilidade. Também conhecido como variável deﬁnidora da descon-
tinuidade (“forcing variable”). Esse índice é uma variável contínua que permite clas-
siﬁcar a população de interesse e que tem um limiar ou um ponto de corte para
determinar quem é elegível ou não.
Insumos. Os recursos ﬁnanceiros, humanos e materiais utilizados na intervenção.
Intenção de tratar (ITT). As estimativas de ITT medem a diferença de resultados
entre as unidades selecionadas para o grupo de tratamento e as unidades seleciona-
das para o grupo de comparação, independentemente de as unidades selecionadas
para qualquer um dos grupos realmente receberem o tratamento.
Intervenção. No contexto da avaliação de impacto, a intervenção é o projeto, pro-
grama, inovação no desenho do programa ou política que devem ser avaliados.
Também conhecida como o tratamento.
Item com não resposta. Ocorre quando os dados estão incompletos para algumas
unidades da amostra.
Linha de base. A situação anterior à intervenção e em relação à qual pode ser avali-
ado o progresso ou podem ser feitas comparações. Dados de linha de base são cole-
tados antes que um programa ou política seja implementado para avaliar a situação
de antes. A disponibilidade de dados de linha de base é importante para documentar

Glossário                                                                               369
      o balanceamento das características entre os grupos de tratamento e de comparação
      antes do programa. Os dados da linha de base são necessários para alguns desenhos
      de avaliação quase-experimentais.
      Listagem. Lista completa de todas as unidades da população de interesse. É necessária
      uma listagem adequada para assegurar que as conclusões obtidas a partir da análise de
      uma amostra possam ser generalizadas para toda a população. As diferenças entre a
      listagem e a população de interesse criam um viés de cobertura. Na presença de viés de
      cobertura, os resultados da amostra não têm validade externa para toda a população
      de interesse.
      Método de controle sintético. Esse é um método de pareamento especíﬁco que
      permite aos estatísticos estimar o impacto em situações nas quais uma única unidade
      (como um país, uma empresa ou um hospital) recebe uma intervenção ou é exposta
      a um evento. Em vez de comparar essa unidade tratada com um grupo de unidades
      não tratadas, o método utiliza informações sobre as características da unidade
      tratada e das unidades não tratadas para construir uma unidade de comparação sin-
      tética ou artiﬁcial, ponderando cada unidade não tratada de tal modo que a unidade
      de comparação sintética ﬁque mais parecida com a unidade tratada. Isso requer uma
      longa série de observações das características tanto da unidade tratada quanto das
      unidades não tratadas ao longo do tempo. Essa combinação de unidades de compa-
      ração em uma unidade sintética proporciona uma comparação melhor para a uni-
      dade tratada do que qualquer unidade não tratada individualmente.
      Método de regressão descontínua (RDD). Método quase-experimental de avalia-
      ção de impacto que pode ser usado para programas que se baseiam em um índice
      contínuo para classiﬁcar os participantes potenciais e que têm um ponto de corte ao
      longo do índice que determina se os participantes potenciais são elegíveis para rece-
      ber o programa ou não. O ponto de corte para a elegibilidade no programa fornece
      uma linha divisória entre o grupo de tratamento e o grupo de comparação. Os resulta-
      dos dos participantes situados de um lado do ponto de corte são comparados com os
      resultados dos não participantes situados do outro lado do ponto de corte. Quando
      todas as unidades cumprem com a alocação que lhes corresponde com base em seu
      índice de elegibilidade, o RDD é considerado sharp. Se houver descumprimento em
      qualquer um dos lados do ponto de corte, o RDD é considerado fuzzy.
      Método quase-experimental. Método de avaliação de impacto que não tem como
      base a seleção aleatória dos beneﬁciários para o tratamento. Diferença em diferenças,
      regressão descontínua e pareamento são exemplos de métodos quase-experimentais.
      Métodos mistos. Abordagem analítica que combina dados quantitativos e
      qualitativos.
      Mineração de dados. É a prática de manipular dados em busca de resultados
      especíﬁcos.
      Monitoramento. O monitoramento é o processo contínuo de coleta e análise de
      informações para avaliar o desempenho de determinado projeto, programa ou
      política. O monitoramento geralmente rastreia insumos, atividades e produtos,
      embora ocasionalmente inclua também resultados. O monitoramento é usado para

370                                                            Avaliação de Impacto na Prática
fornecer informações diárias aos gestores e orientar a tomada de decisões. Ele tam-
bém pode ser usado para acompanhar o desempenho em relação aos resultados
esperados, fazer comparações entre programas e analisar tendências ao longo do
tempo.
Não resposta. Ocorre quando há dados ausentes ou incompletos para algumas uni-
dades da amostra. Unidade com não resposta surge quando não há informação dis-
ponível para algumas unidades da amostra, isto é, quando a amostra real é diferente
da amostra planejada. A atrição é uma forma de não resposta da unidade. Item com
não resposta ocorre quando os dados estão incompletos para algumas unidades da
amostra em determinado período de tempo. A não resposta pode causar viés nos
resultados da avaliação se estiver associada ao status do tratamento.
Pareamento. Método de avaliação de impacto não experimental que utiliza grandes
conjuntos de dados e técnicas estatísticas para criar o melhor grupo de comparação
possível para um determinado grupo de tratamento com base nas características
observadas.
Pareamento por escore de propensão. Método de pareamento que se baseia no
escore de propensão para encontrar o melhor grupo de comparação possível para
determinado grupo de tratamento.
Pesquisa de acompanhamento. Também conhecida como pesquisa de
pós-intervenção. É uma pesquisa realizada após o início do programa, quando os par-
ticipantes já se beneﬁciaram dele por algum tempo. Uma avaliação de impacto pode
incluir várias pesquisas de acompanhamento, que, às vezes, são chamadas de pesqui-
sas intermediárias ou pesquisas ﬁnais.
Poder (ou poder estatístico). A probabilidade de uma avaliação de impacto detec-
tar um impacto (isto é, uma diferença entre o grupo de tratamento e o grupo de
comparação) quando ele existir de fato. O poder estatístico é igual a 1 menos a probabi-
lidade de um erro do tipo II, e varia de 0 a 1. Os níveis comuns de poder são 0,8 e 0,9.
Níveis mais elevados de poder são mais conservadores, o que signiﬁca que há uma
baixa probabilidade de não detectar os reais impactos do programa.
Poder estatístico. O poder de um teste estatístico é a probabilidade de que o teste
rejeite a hipótese nula quando a hipótese alternativa for verdadeira (isto é, que não
resultará em um erro do tipo II). À medida que o poder aumenta, as chances da ocor-
rência de um erro do tipo II diminuem. A probabilidade de um erro do tipo II é
chamada de taxa de falsos negativos (β). Portanto, o poder é igual a 1 − β.
População de interesse. Um grupo abrangente composto por todas as unidades
(tais como indivíduos, famílias, empresas, estabelecimentos) elegíveis para receber
uma intervenção ou tratamento e para o qual uma avaliação de impacto pretende
estimar os impactos do programa.
Pressuposto de estabilidade de valor da unidade de tratamento (SUTVA). O
requisito básico para que o resultado de uma unidade não seja afetado pelo status de
tratamento especíﬁco de outras unidades. Isso é necessário para garantir que a
seleção aleatória produza estimativas de impacto não enviesadas.

Glossário                                                                                  371
      Produto. Os produtos, bens e serviços tangíveis que são produzidos (fornecidos)
      diretamente pelas atividades de um programa. A entrega dos produtos é controlada
      diretamente pela organização responsável pela implementação do programa. O uso
      dos produtos pelos beneﬁciários contribui para mudanças nos resultados.
      Promoção aleatória. Método que utiliza variáveis instrumentais para estimar os
      impactos do programa. O método aloca aleatoriamente uma promoção, ou um
      encorajamento para participar do programa, a um subgrupo de unidades. A promo-
      ção aleatória visa aumentar a adesão a um programa voluntário em uma subamostra
      da população selecionada aleatoriamente. A promoção pode assumir a forma de
      encorajamento, estímulo ou informações adicionais que motivem as unidades a se
      inscrever no programa sem afetar diretamente o resultado de interesse. Desta forma,
      o programa pode ﬁcar aberto a todas as unidades elegíveis.
      Resultado. Resultado de interesse medido no nível dos beneﬁciários do programa.
      Os resultados são os efeitos a ser alcançados quando a população beneﬁciária usa os
      produtos do projeto. Os resultados não são diretamente controlados por nenhum
      órgão de implementação do programa; eles são afetados tanto pela implementação
      de um programa (as atividades e os produtos que ele fornece) quanto pelas respostas
      comportamentais dos beneﬁciários expostos a esse programa (o uso que os bene-
      ﬁciários fazem dos benefícios aos quais são expostos). Um resultado pode ser inter-
      mediário ou ﬁnal (longo prazo). Os resultados ﬁnais são resultados mais distantes.
      A distância pode ser interpretada em termos de tempo (quando o período de tempo
      para alcançar o resultado é mais longo) ou em termos de causalidade (muitas liga-
      ções causais são necessárias para alcançar o resultado e múltiplos fatores o
      inﬂuenciam).
      Seleção. Ocorre quando a participação no programa é baseada nas preferências,
      decisões ou características não observadas dos participantes ou administradores do
      programa.
      Seleção aleatória ou experimentos aleatórios. Método de avaliação de impacto
      por meio do qual cada unidade elegível (por exemplo, um indivíduo, uma família,
      uma empresa, uma escola, um hospital ou uma comunidade) tem a mesma probabili-
      dade de ser selecionada para participar de um programa. Com um número suﬁci-
      entemente grande de unidades, o processo de seleção aleatória garante equivalência
      tanto nas características observadas quanto nas não observadas entre o grupo de
      tratamento e o grupo de comparação, eliminando, desse modo, o viés de seleção.
      A seleção aleatória é considerada o método mais robusto para estimar contrafactuais
      e é muitas vezes tida como o padrão-ouro da avaliação de impacto.
      Signiﬁcância. A signiﬁcância estatística indica a probabilidade de se cometer um
      erro do tipo I, ou seja, a probabilidade de detectar um impacto que não existe de fato.
      O nível de signiﬁcância é geralmente indicado pela letra grega α (alfa). Níveis popu-
      lares de signiﬁcância são 10%, 5% e 1%. Quanto menor o nível de signiﬁcância, maior
      a conﬁança de que o impacto estimado é real. Por exemplo, se o nível de signiﬁcân-
      cia for deﬁnido em 5%, há 95% de certeza de que o programa teve impacto caso se
      encontre um impacto signiﬁcativo.


372                                                             Avaliação de Impacto na Prática
Simulações ex-ante. São avaliações que usam os dados disponíveis para simular os
efeitos esperados de um programa ou reforma de política pública sobre os resultados
de interesse.
SMART: Sigla em inglês para especíﬁco, mensurável, atribuível, realista e
direcionado. Bons indicadores têm essas características.
Tamanho do efeito. A magnitude da variação em um resultado causada por uma
intervenção.
Teoria da mudança. Explica os canais pelos quais os programas podem inﬂuen-
ciar os resultados ﬁnais. Descreve a lógica causal de como e por que um determi-
nado programa, modalidade de programa ou inovação no desenho do programa
alcançará os resultados pretendidos. A teoria da mudança é um alicerce-chave para
qualquer avaliação de impacto, considerando-se o foco de causa e efeito desse tipo
de pesquisa.
Teste de signiﬁcância. Teste para deﬁnir se a hipótese alternativa atinge o nível de
signiﬁcância predeterminado para ser aceita em vez da hipótese nula. Se um teste de
signiﬁcância resultar em um p-valor inferior ao nível de signiﬁcância estatística (α),
a hipótese nula é rejeitada.
Teste placebo. Teste de falseamento utilizado para avaliar se as hipóteses por trás
de um método são válidas. Por exemplo, ao aplicar o método de diferença em diferen-
ças, pode-se implementar um teste placebo usando um grupo de tratamento falso ou
um resultado falso, ou seja, um grupo ou resultado que sabemos que não foi afetado
pelo programa. Os testes placebo não podem conﬁrmar se as hipóteses são válidas,
mas podem destacar os casos em que elas não procedem.
Transbordamentos. Ocorrem quando o grupo de tratamento afeta direta ou indire-
tamente os resultados do grupo de comparação (ou vice-versa).
Tratamento. Ver intervenção.
Tratamento no tratado (TOT). As estimativas de TOT medem a diferença entre os
resultados das unidades que realmente recebem o tratamento e os do grupo de
comparação. Compare com intenção de tratar.
Unidade. Uma pessoa, uma família, uma comunidade, uma empresa, uma escola,
um hospital ou outra unidade de observação que possa receber ou ser afetada por um
programa.
Unidade com não resposta. Surge quando nenhuma informação é disponibili-
zada para determinado subconjunto de unidades, ou seja, quando a amostra real é
diferente da amostra planejada.
Validade externa. Uma avaliação é externamente válida se a amostra de avaliação
representar adequadamente a população das unidades elegíveis. Dessa maneira, os
resultados da avaliação podem ser generalizados para a população das unidades
elegíveis. Estatisticamente, para que uma avaliação de impacto seja externamente
válida, a amostra de avaliação deve ser representativa da população de interesse.
Ver também validade interna.


Glossário                                                                                373
      Validade interna. Uma avaliação é internamente válida se fornecer uma estimativa
      acurada do contrafactual por meio de um grupo de comparação válido.
      Variável. Na terminologia estatística, é um símbolo matemático que representa um
      valor que pode variar.
      Variável dependente. Geralmente, é a variável de resultado. É a variável a ser expli-
      cada, em oposição às variáveis explicativas.
      Variável explicativa. Também conhecida como variável independente. Variável
      que é usada do lado direito de uma regressão para ajudar a explicar a variável depen-
      dente, localizada do lado esquerdo da regressão.
      Variável instrumental. Também conhecida como instrumento. O método de
      variáveis instrumentais baseia-se em alguma fonte externa de variação — ou
      instrumento — para determinar o status do tratamento. O instrumento inﬂuencia
      a probabilidade de participar de um programa, mas está fora do controle dos par-
      ticipantes e não está relacionado às características dos participantes.
      Variáveis não observadas. Características que não são observadas. Elas podem
      incluir características como motivação, preferências ou outros traços de personali-
      dade que são difíceis de mensurar.
      Viés. Na avaliação de impacto, o viés é a diferença entre o impacto estimado e o
      impacto real do programa.
      Viés de cobertura. Ocorre quando a listagem não coincide exatamente com a popu-
      lação de interesse.
      Viés de seleção. O impacto estimado sofre de viés de seleção quando difere do ver-
      dadeiro impacto devido à presença de seleção. O viés de seleção geralmente ocorre
      quando há razões não observadas que inﬂuenciam a participação no programa e que
      estão correlacionadas com os resultados. Esse viés geralmente ocorre quando o
      grupo de comparação é inelegível ou opta por sair do tratamento.
      Viés de substituição. Efeito não intencional gerado pelo comportamento do grupo
      de comparação. As unidades que não foram selecionadas para receber o programa
      podem ser capazes de encontrar bons substitutos para o tratamento por iniciativa
      própria.




374                                                           Avaliação de Impacto na Prática