예산, 시간, 데이터상의제약 하에서 양질의 영향평가 수행 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 2018.12 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 2018.12. This work was originally published by The World Bank in English as Conducting Quality Impact Evaluations under Budget, Time and Data constraints in 2006. This Korean translation was arranged by Korea International Cooperation Agency. Korea International Cooperation Agency is responsible for the quality of the translation. In case of any discrepancies, the original language will govern. 원저작물은 2006년 영문으로 출판된 'Conducting Quality Impact Evaluations under Budget, Time and Data constraints'이며 원저작자는 세계은행입니다. 본 출판물의 번역은 KOICA에서 실시하였으며, 번역품질에 대한 책임도 KOICA에 있습니다. 번역상 오류가 있을 경우에는 원저작물이 우선합니다. 본 출판물의 연구결과, 해석 및 결론은 세계은행, 이사회 및 해당 각국 정부의 의견과 일치하지 않을 수 있습니다. 세계은행은 본 출판물의 자료의 정확성을 보장하지 않습니다. 본 출판물 지도에 표기된 국경, 국기, 교파 및 기타 정보는 해당 지역의 법적 지위, 국경 구분 여부와 관련하여 세계은행의 입장을 표명한 것이 아닙니다. 예산, 시간, 데이터상의 제약 하에서 양질의 영향평가 수행 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 발행 2018년 12월 발행인 이미경 발행처 한국국제협력단 편집인 평가실 주소 경기도 성남시 수정구 대왕판교로 825 전화 1588-0434 팩스 031-740-0914 홈페이지 http://www.koica.go.kr 인쇄 (사)한국장애인상생복지회 Conducting Quality Impact Evaluations under Budget, Time and Data constraints Copyright © 2006 by International Bank for Reconstruction and Development / The World Bank 예산, 시간, 데이터상의 제약 하에서 양질의 영향평가 수행 저작권 © 2018 국제부흥개발은행 / 세계은행 무단 복제를 금함 목 차 1. 개관 1 2. 평가설계의 간소화 6 사례연구1: 프로젝트 완료 후 횡단면 설계를 통한 평가비용 절감 – 에콰도르 화훼산업의 성별 및 시간사용의 영향 10 3. 비교그룹 설계 작업 13 사례연구 2: 일치하는 비교 집단 선정에 성향점수를 이용하는 법 – 베트남 농촌 도로 프로젝트 16 4. 2차 데이터의 확보 17 사례 연구3: 다양한 2차 데이터 출처 이용 – 방글라데시 통합 영양 프로젝트 20 5. 기초선 데이터의 재구성 21 사례연구4: 기초선 데이터의 재구성: 니카라과 사회 기금 24 6. 데이터 수집 비용 절감 25 사례연구5: 데이터 수집 비용 절감을 위한 PRA기술 사용 – 플로레스, 인도네시아 마을 수자원 공급 및 위생 프로젝트 28 7. 예산, 시간, 데이터 제약에 따른 평가설계 강화 29 표1. 데이터 수집비용 절감을 위한 설계 방법 11 표2. 예산, 시간, 데이터 제약이 영향 평가의 품질에 미치는 영향 30 주석 35 참고자료 38 모니터링 및 평가에 관한 추가 자료 40 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 1 1. 개관 본 책자의 내용 및 목적 개발 평가의 효용에 대한 인식이 높아지고 있다. 평가를 통해 무엇이 효과가 있는지 또는 효과가 없는지, 그 이유는 무엇인지를 파악할 수 있기 때문이다. 또한 평가는 중요한 책임성의 도구이기도 하다. 이러한 이유로, 세계은행은 진행하는 모든 프로젝트에 대해 의무적으로 평가를 수행하고 있다. 평가의 장점을 인식하는 개발도상국 또한 증가하고 있으며, 상당수는 건전한 거버넌스의 일환으로 모니터링 및 평가시스템을 제도화하기 위해 노력을 기울이고 있다1. 이러한 맥락에서 영향평가를 과학적으로 수행하는 사례가 늘어나고 있으며, 평가방법, 결론 및 제언이 가능한 신뢰가능해야 한다는 점이 중요하다. 하지만, 동시에 이러한 평가는 수행에 많은 비용이 소요될 수 있다. 프로젝트 및 프로그램 담당자에게 예산과 시간 그리고 데이터의 제약은 평가의 수행을 저해하는 요소가 된다. 본 책자의 목적은 영향평가를 준비 중인 이들이 당면한 제약 조건 하에서 가장 과학적인 방법을 선택할 수 있도록 지원하기 위함이다. 본 책자의 또 다른 목적은 평가에 있어 이용 가능한 예산, 시간 및 데이터의 본질을 명확히 하기 위함이다2. 본 책자를 통해 비용 또는 시간이 너무 많이 소요되어 높은 수준으로 평가를 진행할 수 없다고 생각했던 사업 관리자들이 영향평가를 수행할 수 있기를 바라며, 영향평가가 양적ㆍ질적 측면에서 향상될 수 있길 희망한다. 개발프로젝트 및 프로그램 영향평가의 적절한 방법론에 관해 다양한 참고문헌을 이용할 수 있다. 본 책자는 프로젝트 관리자와 연구자들이 직면하는 현실적 제약을 해결하기 위한 방법론을 적용한다. 본 책자는 다음과 같은 세계은행이 발간한 최근의 출판물을 보완한다. Baker(2000), 운영평가부(2004), Ravallion(2001, 2005), White(2006), 그리고 세계은행의 빈곤영향 분석, 모니터링 및 평가에 관한 방법론 가이드라인 및 영향평가 사례연구 웹사이트3를 보완한다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 2 The World Bank 평가의 현실적 제약 요인 평가방법의 선택 시 두 가지의 제약 요인을 고려해야 한다. 첫 번째는 예산, 시간, 데이터의 제약이다. 예산의 제약은 수행할 인터뷰의 횟수, 양적ㆍ질적 데이터의 수집과 분석할 수 있는 능력, 연구팀의 규모와 전문적 경험에 영향을 미친다. 시간 제약은 평가의 시작과 종료 시점, 연구원이 현장에 머무를 수 있는 기간, 그리고 이해관계자로부터 피드백을 받을 수 있는 기간에 영향을 미친다. 신규 조사를 진행할 때, 데이터 제약은 적절한 비교집단으로부터의 정보 수집 가능성, 기초선 자료 획득의 가능성, 쉽게 만날 수 없는 그룹과의 인터뷰 등 민감한 정보의 수집 가능성에 영향을 미친다. 평가가 2차 데이터에 기반하거나 다른 기관이 수행한 연구에서 데이터를 확보한 경우, 데이터 제약은 표본의 범위 및 시점의 호환성에 영향을 주거나, 해당 데이터의 필요 변수 포함 여부 및 변수 정의 방식에 영향을 미칠 수 있다. 반대로, 프로그램 설계 및 전달은 프로젝트의 참가자 선택 방법(행정 기준에 따라 무작위 또는 자체 선정) 및 프로젝트 집행의 품질과 일관성을 결정한다. 평가설계에 따라 적용 가능한 평가 방법 관련 이슈들이 발생한다. 본 출판물에서는 이러한 이슈를 다루지 않으며, 평가방법에 있어 이러한 질문에 접근하는 방법에 대한 가이드라인에 관심이 있는 독자는 Ravallion(2001, 2005)을 참조하는 것이 좋다. 현실에 기반한 평가 시나리오 두 가지 공통적인 시나리오를 논의하고자 한다. 첫 번째 시나리오에서, 평가자는 프로젝트의 시작 단계에 참여하지만, 예산, 시간 및 데이터상의 제약으로, 또는 프로그램의 설계와 전달 체계로 인해 평가 설계의 범위가 제한된다. 예를 들어, 대조집단을 포함시킬 수 없거나 프로젝트 집단에 관한 종합적인 기초선 조사를 수행할 수 없거나, 또는 수행할 수 있는 인터뷰의 수가 제한적일 수 있다. 두 번째 시나리오는 프로젝트 종료단계나 종료 후 평가가 실시되는 경우이다. 이 경우, 데이터를 4가지 방법 중 한 가지(White, 2006 참조)를 통해 수집할 수 있다: (1) 개별 프로젝트 별 설문조사; (2) 진행중인 조사에 특별한 모듈을 추가; (3) 동시통합화된 설문조사(synchronized survey)를 진행하여 프로젝트 집단에 대한 데이터는 인터뷰를 통해 확보하고, 대조집단에 대한 데이터는 기타 조사(전국가구 설문조사 등)를 통해 수집; (4) 또는 프로젝트집단 및 잠재적 대조집단에 대한 정보를 포함하는 2차 데이터를 기반으로 평가를 진행하는 경우이다. 프로젝트 종료 후 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 3 진행하는 평가설계가 직면하는 주요 제약 사항은 기초선의 부재에 기인한다고 할 수 있으며, 이 문제를 해결하기 위한 방법은 제 5절에서 논의된다. 현실적 제약 하에서 양질의 영향 평가를 위한 요건 평가자와 고객에게 어려운 점은 현실적 제약 조건 하에서 양질의 영향평가를 수행할 수 있는지 여부를 결정하고, 특정 예산, 시간 및 데이터의 제약 하에서 가장 견고한 설계를 어떻게 실시할 것인지 결정하는 것이다. 예를 들어,“적절한 통계분석을 위한 표본의 최소범위가 어디까지인가? 기초선을 확보하기 위한 2차 데이터의 적절성을 어떤 기준에 따라 평가할 것인가? 기초선 자료가 없는 상태에서 유효한 반사실적 상황(counterfactual)(비교 가능한 대조집단을 의미)을 언제 구성할 수 있는가?” 등을 질문해 봐야 할 것이다. 양질의 영향평가는 다음의 기준을 충족해야 한다. ① 프로젝트의 투입물, 도입 프로세스, 산출물, 의도된 성과 및 영향을 유의미하고 신뢰할 수 있게 정의하고 측정할 수 있는 일련의 지표 개발 ② 논리적으로 유효한 반사실적 상황(counterfactual)(대조집단) 개발을 통해 프로젝트 이후의 변화가 해당 프로젝트에 따른 것이지, 다른 요인(지역 경제 향상, 타 기관 프로그램)에 의한 것이 아니라는 것을 제시 ③ 허용된 통계 절차에 따라, 프로젝트가 의도한 영향에 기여하였으며, 대상 인구 상당 수에게 혜택을 가져다주었는지를 판단 또한, 평가는 다음의 사항을 필수적으로 확인해야 한다. ① 목표 집단 내 여러 분야에 걸쳐 혜택이 어떻게 분포되었는지 평가 ② 영향의 크기와 분포에 영향을 미치는 요인 확인 ③ 시간의 흐름에 따른 영향의 지속가능성 평가 자원에 제약이 없다면 보통 다음과 같은 사전/사후 비교, 대조군(control group) 비교를 활용해 볼 수 있다 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 4 The World Bank <그림1> 사전-사후 대조군 설계 T2 T1 T3 시간 프로젝트(수주에서 프로젝트 시작 (기초선) 프로젝트 종료 수년이 걸림) 프로젝트 그룹 P1 X P2 무작위 또는 非무작위 C1 C2 대조집단 ※프로젝트 사전/사후 비교는 반사실적 상황으로 프로젝트를 실행하지 않았다고 가정할 때, 목표집단에게 발생했을 수 있는 결과이다 대상자를 프로젝트 그룹(실험군) 및 대조집단으로 무작위 배정하는 평가 설계에는 방법론적 이점이 많다. 프로젝트 이전에 두 집단 간에 존재하는 차이를 제거할 수 있기 때문이다. 하지만 많은 경우 무작위 배정은 가능하지 않기 때문에, 두 집단은 관찰하여 측정할 수 있는 수치 또는 성향점수(propensity score)(3절 참조)와 같은 절차를 통해 최대한 유사하게 매칭 및 선정하여, 두 집단을 대상으로 프로젝트의 시작(T1)과 종료(T3) 단계에 조사한다. 두 집단의 매칭이 잘 되었다면, T3에서 나타나는 두 집단 간의 통계적으로 유의미한 차이는 프로젝트로 인한 변화로 해석될 수 있다. 하지만 주의해야 할 사실은 프로젝트 기간 동안 두 집단이 서로 다른 경험을 했기 때문에, 집단 간 차이가 발생했을 수 있다는 것이다(예: 대조집단만을 대상으로 하는 관련성 없는 프로젝트). 프로젝트의 영향을 평가하기 위한 두 가지 중요한 설계요소는 신중하게 선택한 대조(또는 비교)집단과 두 집단 간의 사전/사후비교이다. 첫 번째 요소는 논리적으로 문제가 없는 반사실적 상황(대조집단)을 선정하는 것이다. 두 번째 요소는 프로젝트의 시작과 종료 단계에서의 조사가 일반적으로 바람직하나, 실험군의 종료 후 데이터와 대조집단의 횡단면(cross-sectional) 데이터만 활용할 수도 있다. 만약 횡단자료에서 프로그램 수혜자를 선정하는 데 활용된 관찰 가능한 특성이 발견되고, 관찰 불가능한 특성이 프로그램 참여 여부에 영향을 끼치지 않았다는 확신이 있다면, 성향점수매칭법(propensity score matching)이 비용을 절감할 수 있는 방법이다. 성향점수는 기존에 두 집단 사이에 존재하는 모든 차이점을 통제할 수 없다는 한계가 있지만, 기초선 데이터를 이용할 수 없는 상황에서 일반적으로 최상의 선택이다. 그리고 소요되는 비용도 훨씬 낮다. 프로젝트의 맥락과 참여자 선정 절차에 대한 이해가 높을수록, 성향점수매칭법의 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 5 유효성에 보다 확신을 가질 수 있다. 이후 논의되는 실제 시나리오는 4개의 관측시점(P1, P2, C1, 및 C2) 중 하나 또는 그 이상이 생략된 상황이다. 이는 시간과 비용을 줄이기 위한 신중한 전략이거나, 모든 시점에서 데이터 수집을 위한 환경이 조성되지 않았기 때문이다(예를 들어, 프로젝트 후반부 이후에 평가가 시작되었거나, 가용예산으로는 대조집단에 대한 기초선 데이터 수집이 힘든 경우). 핵심질문은 다음과 같다: 비용과 시간의 제약 하에서 시행된 평가방식이 평가설계와 분석 결과의 타당성에 어떤 영향을 미치는가? 결론의 유효성을 입증할 수 있는 타협점은 무엇인가? 양질의 영향평가로 인정받기 위해 갖춰야 하는 최소한의 방법론적 필요조건은 무엇인가? 제 2절에서는 평가설계를 단순화하기 위한 다양한 방법을 고려하고 평가의 엄격성과 비용 측면에서 시사점을 검토해 보고자 한다. 제 3절에서는 비교집단 선정을 위한 방법을 제시하며, 제 4절에서는 3차 데이터의 이용을 살펴본다. 평가의 엄격성을 향상시키기 위한 기초선 데이터 재구성 전략을 제 5절에서 살펴보고, 제 6절에서는 데이터 수집비용을 절감하는 방법을 다룬다. 마지막으로, 예산, 시간 및 데이터 제약이 평가의 엄격성을 낮추는 방식을 검토한다. 또한, 7절에서는 이러한 각각의 제약을 해결하기 위한 다양한 방법을 제시한다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 6 The World Bank 2. 평가 설계의 간소화 실제 프로젝트 준비에 있어 무작위 설계 무작위 평가 설계에서 프로젝트 대상자(개인, 지역사회, 학교, 진료소 등)는 프로젝트집단과 대조집단으로 무작위로 배정해, 두 집단에 프로젝트 시작 시점에 관찰되는 특성 및 관찰되지 않는 특성을 동일하게 배분한다. 이를 통해, 프로젝트 이후 두 집단 간의 차이가 두 집단의 특성에 따른 초기 차이(선택편향)로 인한 것이 아닐 수 있도록 한다. 잠재적 이점에도 불구하고, 다음의 이유로 무작위 배분은 소수의 개발 평가에만 사용된다: (1) 목표가 되는 지역사회, 조직, 개인이 특정 행정적ㆍ정치적 기준(가장 가난하거나 가장 도움이 필요한, 또는 프로젝트가 성공할 가능성이 가장 높은 지역)에 따라 선정, (2) 대상자가 자발적으로 프로젝트에 참여(개인 또는 집단이 참여 결정을 내림), 또는 (3) 정치적 고려로 인해 무작위 배정을 할 수 없음. 무작위 배분과 非무작위 배분 두 가지 시나리오 모두, 프로젝트 집단과 非프로젝트 집단의 변화에 영향을 미치는 구조적 차이가 존재할 가능성이 높다. 예를 들어, 중소기업대출을 위해 마을은행에 지원하는 사람들은 이미 자신감이 있거나 사업을 성공적으로 착수해본 경험이 있을 수 있다. 한편, 무작위 배분이 가능한 동시에 최선의 방법인 사례가 상당히 많다. 예를 들어, 시범 프로젝트, 수요에 비해 자원이 제한된 프로젝트, 또는 프로젝트 시행의 효과가 알려지지 않은 경우가 있다. 하지만 상기에서 논의한 모든 이유에도 불구하고, 개발 프로젝트에서는 무작위 배분은 잘 사용하지 않는 방법이다. 따라서 다음 논의사항의 대부분은 프로그램이 무작위로 진행되지 않은 사례이다. 차이점수(Gain scores)는 다음과 같이 정의 됨: 영향 지표에 관하여 사전프로젝트와 사후프로젝트의 점수 차이(단일 차분, single difference). 대조집단을 선정하였다면, 차이점수는 프로젝트 집단과 비교 집단에 대한 사전 프로젝트와 사후프로젝트간의 차이임(이중 차분, double difference). 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 7 무작위와 非무작위 평가설계에서 프로젝트집단과 대조집단 간 차이 설명 非프로젝트 집단에 별도의 표본추출 절차를 사용해야 하는 평가설계를 非동등성 대조집단 또는 비교집단 설계라 한다. 기술적으로 대조집단이라는 용어는 무작위 선정을 하는 경우에만 사용해야 한다. 진실험 설계(true experimental design), 실제 현장에서의 무작위 설계, 非동등성 대조집단에서, 프로젝트 종료 후, 프로젝트 집단과 非프로젝트 집단 간의 차이에 영향을 미칠 수 있는 요인은 다음과 같이 요약될 수 있다. ① 진실험 설계에서, 프로젝트 시행 중 두 집단의 조건은 주의깊게 통제해야 하며, 프로젝트 이후의 변화는 (다른 요인이 아닌) 프로젝트 효과에 기인해야 한다. ② 실제 현장에서의 무작위 설계의 경우, 프로젝트 환경을 통제하는 것은 거의 불가능하다. 결과적으로, 프로젝트 종료 후 두 집단 간의 차이는 differential time varying effects와 관련이 있다. 예컨대, 대조집단에 영향을 미치는 오염/과잉, (실험집단 또는 대조집단 으로의)선정 또는 非선정이 대상자 및 이해관계자의 행위에 미치는 영향 등이 있다4. 예를 들어, 케냐 학교에서의 플립차트(flip-chart)가 학업성적에 미치는 영향평가에서 플립차트를 받은 학교에서 부모-교사 협회가 보다 적극적으로 활동했다는 점이 확인 되었다. 해당 학교의 부모가 자녀들에게 공부를 독려하였을 가능성이 높기 때문에, 학업성적의 변화가 플립차트의 교육적 가치와 직접적으로 연관이 없을 수도 있다. 다른 사례에서 정부기관이 공여기관의 지원으로 실시하는 프로젝트의 성공을 기원해 (프로젝트의 설계에 포함되지 않은) 추가적인 지원을 제공할 수도 있는 반면, 선택 받지 못한 지역사회 또는 조직은 의욕이 저해되거나, 정부의 지원을 받을 가능성이 낮아질 수도 있다. ③ 非동등 대조집단의 설계에 있어, 프로젝트 종료 후의 두 집단 간의 차이는 조사에서 포착된 특성, 즉 실제로 관찰하여 측정할 수 있는 특성과 조사에서 포착되지 않기 때문에 분석에서 통제될 수 없는 특성(누락변수 또는 非관측 요인)의 편향에 영향을 받을 수 있다. 일부 누락변수는 향후 설문조사를 통해 쉽게 포함될 수 있지만, 동기 또는 지능과 같은 기타 변수를 포함시키는 것은 극히 어렵다. 평가설계 간소화를 통한 비용 및 시간 절감 데이터 수집에 종종 평가 비용의 절반 이상이 소요되기 때문에(Baker, 2000), 본 절에서는 평가설계 간소화를 통해 데이터 수집비용을 절감하는 방법을 논의한다. 표 1에서는 설문조사 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 8 The World Bank 또는 다른 형태의 1차 데이터 수집이 필요한 평가(기존의 설문조사 및 다른 2차 데이터 소스를 분석하는 대신)에서, 간소화된 평가설계를 통해 데이터 수집비용을 50%이상 절감할 수 있다고 추정한다. 하지만 비용절감전략, 평가의 품질 그리고 결론의 타당성 간에 절충되는 부분이 발생한다. 실제로 가장 경제적인 평가설계(아래에서 논의한 설계 5와 6) 대다수는 유용한 결과를 제공할 수 있다 하더라도, 양질의 영향평가로는 볼 수 없다. 현실에서 이용 가능한 견고한 설계, 그보다 덜 견고한 설계 그림 1에 묘사되어 있는 일반적인 목적의 영향평가 설계-설계 1을 의미-를 참고 기준으로 사용한다. 본 절에서 설명하는 모든 간소화된 평가설계는 다음의 관측(조사) 지점 중 하나 또는 그 이상을 제거한다. 단, 프로젝트 효과를 측정하기 위해 항상 필요하기 때문에 비교집단의 기초선(사전), 프로젝트(실험) 집단의 기초선(사전)과 비교집단의 종료선(사후), 프로젝트 집단의 종료선(사후)는 제거할 수 없다. 5개의 간소화된 설계방법(표 1 참조)은 다음과 같다. ▶ 설계 2 지연된 사전-사후 비교집단 설계(Delayed pre-test/post-test comparison group design). 설계1과 비슷하지만, 대개 프로젝트의 중간 점검의 일환으로, 프로젝트가 진행될 때까지 일정 기간 동안 평가를 시작하지 않는다는 점이 다르다. 프로젝트가 지연되는 경우라면 설계2는 설계1에 비해 그렇게 취약하지 않을 수 있지만, 프로젝트가 지연 없이 시작된다면 취약 강도가 심화된다. 컨설턴트 계약기간이 짧을수록 적절한 비용 절감효과를 얻을 수 있다. ▶ 설계 3 사전-사후 프로젝트집단 및 사후 비교집단(Pre- and post-intervention project group and post-intervention comparison group). 설계 3에서는, 프로젝트 이전의 비교집단의 조사결과(기초선)가 없다. 설계 1보다는 방법론적으로 취약하지만, 설계 3은 합리적인 수준의 분석적 엄격성을 담보할 수 있다. 비교집단에 대한 기초선 데이터 확보를 제외함으로써 잠재적으로 데이터 수집 비용을 25% 절감할 수 있다. ▶ 설계 4 기초선 데이터가 없는 사후 프로젝트집단 및 비교집단(Post-intervention and comparison 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 9 groups with no baseline data). 널리 이용되는 설계 4는 프로젝트 이후 비교 대상을 정의하고, (관찰 가능한 가구특성을 통제한 후) 프로젝트집단과 비교집단 간의 차이점을 프로젝트 이전의 특성에 따른 것이 아니라 프로젝트의 영향 때문이라 가정한다(사례연구 1 참조). 기초선 조사를 실시하지 않기 때문에 데이터수집 비용을 최대 50%까지 절감할 수 있다. 건전한 영향평가 설계로 적합하지 않은 공통적인 평가설계 다음의 두 가지 설계는 건전한 영향평가 설계로 적합하지 않음에도 불구하고(제 1절 참조), 인지도가 높고, 적절한 주의를 기울여 사용하면 잠재적으로 프로젝트 효과를 파악하는 데에 도움이 될 수 있어 포함하였다. ▶ 설계 5 사전/사후 프로젝트집단 비교(Pre- and post-intervention project group comparison). 이 설계에서는 비교집단이 없기 때문에, 논리적으로 적절한 반사실적 상황(counterfactual)을 제공하지 않는다. 설계 5에서는 시간에 따른 변화가 없다는(일반적으로 불가능한) 가정 하에서 프로젝트의 영향을 식별한다. 이 설계가 널리 사용되는 이유는 비교집단의 부재로 인해 데이터 수집 비용을 최대 50% 절감할 수 있고, 프로젝트집단의 데이터(일반적으로 프로젝트 설문조사 및 관리 기록)는 확보하기 쉬운 반면에 비교집단의 데이터는 확보하기 어려운 상황이 많기 때문이다. ▶ 설계 6 기초선 데이터 또는 비교집단이 없는 사후 프로젝트집단 분석(Post-intervention project group without baseline data or a comparison group). 본 설계의 경우 과학적 타당성이 가장 취약하다. 프로젝트 효과의 측정에5 널리 이용되기는 하지만, 프로젝트의 영향을 엄격히 정량적으로 평가하는 데 이용되지 않는다. 설계 5는 평가자가 예산이 극도로 제한적인 상황 (때때로 최소 $10,000)에서 평가를 실시하고 현장에서 몇 주 정도의 시간밖에 투입할 수 없는 경우에 이용한다. 변화(영향)에 대한 측정은 회상(Recall) 정보, 핵심 정보제공자(key informants), 포커스그룹 토의(focus group discussion), 참여적 신속평가(participatory rapid appraisal, PRA) 등을 통한 정성적 데이터와 프로젝트 기록, 공공서비스 기관(예, 보건부 또는 교육부)의 2차 데이터, 인구조사 데이터 및 기타 정부 데이터 등의 정량적 데이터를 조합해 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 10 The World Bank 이용한다. 2차 데이터는 유사한 지역에서의 프로젝트 지역과 국제적 비교를 위해 사용하며, 가구 수준의 분석에서는 사용하지 않는다. 설계의 특성에 따라 최대 75% 이상의 비용을 절감할 수 있다. 사례연구1 사후 횡단면 설계를 통한 평가비용 절감 – 에콰도르 화훼산업의 성별 및 시간사용 영향 해당 평가는 프로젝트가 이미 진행된 후 한 시점에서만 데이터를 수집하는 횡단면 설계(설계 4)를 통해 어떻게 데이터수집 비용이 크게 절감되었는지를 보여준다. 설계 4는 기존에 집단들 간에 존재한 (관측 불가능한) 차이가 프로젝트의 결과에 어느 정도까지 영향을 미치는지 알려주지 못한다는 약점이 있다. 본 연구의 목적은 여성고용이 가정 내 유급노동과 무급노동의 배분에 미치는 영향에 대한 분석이다. 연구는 많은 임금을 여성에게 지불할 수 있는 화훼산업 지역과 취업기회가 없는 비슷한 지역에서의 가사노동 할당을 비교하였다. 사후 횡단면 설계를 사용하였으며, 1999년 5월부터 6월까지 562가구를 대상으로 인터뷰를 진행하였고, 동 기간 동안 10세 이상의 2,567명의 가족을 관찰하였다. 표본에는 화훼산업이 활발한 계곡에 거주하는 실험(treatment)가구와 화훼산업 취업기회가 없고 약 200km 떨어진 비슷한 계곡에 거주하는 통제(control)가구가 있다. 24시간 및 전 주의 시간사용에 대한 상세한 정보를 확보했다. 종속변수(남성과 여성이 가사에 종사하는 시간)에 영향을 끼칠 수 있는 가정의 특성을 통제하기 위해, 화훼산업의 취업 여부를 더미변수로 넣고 다중회귀분석을 실시하였다. 분석 결과, 아내가 일할 때, 남편이 가사노동에 더 많은 시간을 썼으며, 남편 수입 대비 아내의 수입이 가장 큰 화훼산업에 부인이 종사한 경우 남편의 가사노동시간이 가장 많았다. 회귀분석을 통해 프로젝트 사후의 프로젝트집단과 대조집단을 비교했지만, 이 설계는 관찰된 시간사용의 차이가 화훼공장의 운영 이전에 이미 존재하였는지 여부를 밝힐 수 없다는 약점이 있다. 이것은 평가설계로서 매우 심각한 약점이다. 화훼산업의 위치를 결정하는 요인 중 하나가 이 지역 여성들이 이미 높은 노동참여율을 가지고 있었다는 점이 알려져 있었기 때문일 수도 있다. 이 문제는 기초선 데이터의 재구성을 위하여 본 책자에서 논의하는 기술을 일부 이용해서 해결할 수 있다(제5절 참조) ※출처: Newman, 2001. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 11 <표1> 데이터 수집 비용 절감을 위한 설계 옵션 설계1과 실험 프로젝트 비교 시 평가 설계 기초선 중간 (프로젝트) 사후 비용절감 % 참조 설계: 견고한 범용 영향 평가 설계 설계 1: 무작위 또는 非무작위 통한 사전- 프로젝트와 평가가 동시에 시작하는 대부분 P1, C1 X P2 C2 0 사후 프로젝트 그룹 및 통제그룹 설계 의 실제 사례에서 가장 강력한 설계 보다 덜 견고한 설계 평가를 중기에 시작하는 유용한 설계. 프로젝 트 집행이 지연된다면 설계1보다 많이 취약 설계 2: 지연된 사전-사후 비교집단 설계 X P1, C1 P2, C2 0 하지 않을 수 있음. 평가계약기간이 짧기 때문 에 일정부분 비용절감 가능 앞선 설계보다 취약하긴 하지만 사전-사후 설계 3: 사전-사후 프로젝트집단 및 사후 P1 X P2 C2 25 비교 및 프로젝트 후의 횡단분석이 가능하기 비교집단 때문에 상대적 강점이 존재 프로젝트 사이클의 후반부 또는 프로젝트 종 료 후 평가를 시작하는 일반적인 설계. 기초선 설계 4: 기초선 데이터가 없는 사후 프로젝 데이터의 부재로 두 집단 간 초기 차이를 통제 P1 C1 50 트집단 및 비교집단 하는 것이 힘들지만, 성향 점수를 통해 부분 적인 해결 가능. 하지만 성향점수를 이용하기 위해서는 큰 규모의 표본이 필요 비교집단의 부재로 인해 양질의 영향설계로 받아들여지지 않음에도 불구하고 자주 이용되는 설계 두 가지 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 12 The World Bank 설계1과 실험 프로젝트 비교 시 평가 설계 기초선 중간 (프로젝트) 사후 비용절감 % 데이터를 프로젝트 집단에서만 수집하는 설 계. 방법론적으로는 취약함. P1을 반사실적 설계 5: 사전/사후 프로젝트집단 비교 P1 P2 50 상황으로 이용하는 것은 시간에 따른 영향과 개별적으로 관찰할 수 없는 변수에 대한 대담 한 가정이 필요하기 때문 가장 약한 설계이지만, 시간과 예산이 매우 설계 6: 기초선 데이터 또는 비교집단이 제한적인 상황에서 프로젝트 후반에 평가를 P1 75-90 없는 사후 프로젝트집단 진행해야 하는 경우 일반적으로 사용되는 설 계 P= 무작위 또는 非무작위로 선택된 프로젝트 집단. C= 통제/비교집단에서 무작위 또는 비무작위(비동등)로 선택. P1, P2, C1, C2는 각각 프로젝트 및 비교집단에 대한 조사의 첫 번째 및 두 번째 집행을 나타냄 비용절감은 조사 또는 기타 일차 데이터 수집이 필요하다는 가정에 근거. 다자인1과 비교한 데이터수집비용의 절감 추정치는 제거되는 4가지 데이터 수집 포인트(프로젝트 이전/이후 집단 및 비교 집단의 수에 근거). 피드백 또는 동기화된 설문조사가 사용되거나 2차 데이터에 근거한 평가가 이루어지는 경우보다 큰 폭의 비용절감이 가능 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 13 3. 비교그룹 설계 프로젝트 참여자는 다음의 세 가지 방법 중 하나로 선택한다. ① 목표집단(자격요건에 부합하는 개인, 지역사회, 학교 등)의 모든 대상 중에서 무작위 선택 ② 행정적 또는 정치적 기준을 이용한 선택(가장 빈곤한 가정, 기존 인프라에 대한 접근을 가능하게 하는 기술적 타당성, 성공가능성이 높다고 판단되는 그룹 등) ③ 스스로 참여를 희망하는 경우(자기 선택) 무작위 선정의 경우, 프로젝트집단과 통제집단의 관측된 특성과 관측되지 않은 특성 모두가 비슷하다는 가정에 기반한다는 장점이 있다. 이에 따라, 프로젝트 이후의 차이는 두 집단 간 최초의 차이에 따른 것이 아니라, 프로젝트의 영향으로 결론을 지을 수 있다. 하지만, 제2절에서 이유에 따라, 무작위 배정은 일부 개발프로젝트에서만 시행된다. 따라서, 대부분의 영향평가에서 프로젝트집단과 비교집단의 선정에 각기 다른 표본추출(sampling) 절차를 활용하는 준실험 설계(a quasi- experimental design)를 이용해야 한다. 이는 프로젝트 영향의 분석에 있어 중요한 함의를 지닌다. 프로젝트 집행 이후의 변화는 프로젝트의 효과가 아닌 표본선정의 편향(두 집단간 특성의 차이) 때문일 수 있기 때문이다. 본 절에서는 프로젝트에서 준실험 설계의 사용과 관련된 쟁점 및 접근방법을 논의한다. 예산, 시간 및 데이터 제약 하에서의 비교 집단 선정 방법 ▶ 관측 매칭(Matching areas on observables) 평가 의뢰기관 및 기타 이해도가 높은 관계자와의 상의를 통해 연구자는 프로젝트 지역과 비교지역이 매칭될 수 있는 특성(예: 서비스 접근성, 주택건설의 형태와 질, 경제 수준, 중심위치 또는 고립성, 농산물의 유형)을 파악한다. 이후, 연구자는 매칭이 가장 적합한 비교 영역을 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 14 The World Bank 선택하기 위해 지도(때로는 지리정보시스템(GIS) 데이터 및 항공사진), 관찰, 2차 데이터(인구조사, 가구조사, 학교기록 등), 핵심 정보 제공자로부터 확보한 정보를 결합한다. 여러 실질적 제약 하에서 진행할 때는, 종종 주거와 인프라 유형과 같이 쉽게 관찰 및 파악이 가능한 특성에 의존할 필요가 있다. 이는 문제를 촉진시킬 수도 있겠지만, 관찰 불가능한 차이에 대해서는 질적연구를 통해 문제를 해결하고 결과에 대한 적절한 유의사항을 추가하는 것이 중요하다. ▶ 개인 또는 가구의 관측을 통한 매칭(matching individuals or households on observables) 개인 및 가구를 매칭시키기 위해 비슷한 절차를 이용한다. 표본추출은 종종 이전 또는 진행중인 가구조사를 통해 도출될 수 있지만, 많은 경우 연구자는 표본추출 방법을 개발해야 한다. 관찰 가능한 물리적 특성(주거형태, 물과 기타 서비스까지의 거리, 작물 또는 경작지의 유형)에 기반하기도 하며, 경제적 지위, 노동시장활동 또는 학교 출석과 같은 인터뷰를 통해 알아야 하는 특성에 기반하기도 한다. 후자의 경우, 면접관은 지역적으로 다른 특성을 지닌 대상자를 일정 비율로 추출해, 인터뷰를 진행한다(quota sampling, 할당표본추출). ▶ 파이프라인 표본추출(Pipeline sampling) 비교집단은 프로젝트 대상이지만 아직 참여하지 않은 개인, 가정 또는 지역사회를 말한다(Ravallion, 2005 및 White, 2006 참조). 종종 주택 또는 지역사회 인프라 프로젝트와 같은 대규모 프로젝트는 수년에 걸쳐 단계적으로 도입되며 일부 수혜자들은 1단계가 시작되고 수년이 지난 후에야 서비스를 받을 수 있다. 개별 단계에서 가족 또는 지역사회의 특성에 주요한 차이점이 없다면, 후기단계의 지역이 초기단계의 대상 지역에 대한 비교집단의 좋은 예가 될 수 있다. 이는 또한 경제적인 방법이기도 하다. 하지만, 프로젝트 설계 및 선정기준은 단계별로 구조적인 차이가 있을 수 있어 신중한 검토를 필요로 한다. 예를 들어, 1단계 시작점을 중심지 또는 가장 빈곤한 가정에서 시작할 수 있는데, 두 경우 모두 후기 단계 대상 지역사회 특성과 다를 수 있기 때문이다6. ▶ 회귀 불연속 설계(Regression discontinuity design) 하나 이상의 기준으로 구성된 최소 필요요건(threshold)을 기반으로 프로그램 대상을 선정하는 경우, 이 방법론을 이용할 수 있다. 기본 아이디어는 최소 기준점 바로 위에 위치한(프로젝트 미대상) 개인, 지역사회, 또는 단위(비교 집단)를 기준점 바로 아래(프로젝트 대상)에 위치한 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 15 개인, 지역사회 또는 단위와 비교하는 것이다. 이러한 절차를 진행하기 위해서는 프로젝트가 실제로 공정하게 집행되어야 하며, 잠재적 수혜자에 대한 선택기준의 조작 여지가 없어야 한다. ▶ 성향점수 매칭(Propensity score matching) 프로젝트 집단과 유사한 특성을 가진 대상, 지역사회 또는 현장(학교, 병원 등)을 선정할 때 2차 데이터를 이용할 수 있는 경우 통계적 매칭을 사용할 수 있다. 가장 일반적인 매칭 방법은 성향점수 매칭으로, 연관있는 특성을 기준으로 프로젝트의 개별 참여자들과 비참여자 집단(가장 가까운 이웃)을 통계적으로 매칭하는 경우이다. 가장 가까운 이웃의 성과(outcome score) 평균값을 계산하고, 이 값을 프로젝트 참여자의 성과점수(outcome score)와 비교해 차이점수 (gain score)를 계산한다(성향점수 매칭 요약에 대해서는 Ravallion, 2006 및 Baker, 2000 참조).7 예산 제약 하에서 평가를 수행할 때 발생하는 문제점은 성향점수에 필요한 가장 매칭되는 변수를 파악하기 위해 대규모의 표본이 필요하다는 점이다. ▶ 복수의 비교집단 설계(Multiple comparison group design) 프로젝트를 다른 방식으로 집행하거나, 참가자가 서로 다른 조합의 서비스를 받는다면, 각 프로젝트그룹에 따라 서로 다른 비교집단을 이용할 수 있다. 비교집단 이용 시 발생할 수 있는 편향과 문제점 비교집단은 여러 잠재적 편향 또는 문제점에 취약하다. 현실적 제약 요인 하에서 평가를 진행할 때 이 점이 문제될 수 있다. 공통적으로 발생하는 문제점은 다음과 같다. ㆍ프로젝트는 특정한 특성(가장 빈곤한 가정, 최대 규모 빈민가, 가장 성공 가능성이 높은 지역사회 또는 개인)을 지닌 지역사회 또는 대상을 목표로 삼기 때문에 가장 일치하는 비교집단을 찾기 힘들다. 프로젝트 선정에 대한 명확한 기준이 있는 경우, 프로젝트 지역과 다른 지역을 비교하기 위해 회귀 불연속 설계를 사용할 수 있다. 하지만 거의 모든 도시의 빈민가구가 대규모 슬럼가 몇 군데에 모여살고 있으며 빈곤선 상위에 있으나, 가난한 가구들이 매우 다른 유형의 지역사회에 살고 있어서 일치점이 많지 않은 경우에는 종종 문제가 발생할 수 있다. ㆍ개인 또는 지역사회가 스스로 프로그램 참여를 선택하는 경우, 참여를 결정하게 된 요인을 파악하기 어렵고, 결과적으로 좋은 비교집단을 파악하기 힘들다. 이 점은 분석에 있어 심각한 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 16 The World Bank 문제를 야기하는데, 참여를 원하는 이들이 가장 성공할 가능성이 높고(예를 들어, 중소기업개발 프로그램에 지원하는 여성은 이미 사업경험이 있을 수 있음), 결과적으로 긍정적인 결과가 프로젝트의 시행보다는 참여자의 특성에 기인하기 때문이다. 프로젝트 집단과 비교집단이 설문조사에서 다루지 않는 요인(생략된 변수 또는 관찰 불가) 측면에서 서로 다를 수 있다. 때로 이러한 요인은 향후 연구에서 다루어질 수도 있다. 그러나, 평가자가 일부 중요한 요인을 간과할 수 있고, 이러한 요인의 측정이 힘들 수도 있다(예를 들어, 프로젝트 참여를 선택한 이유). 제 7절에서는 非동등 대조집단 설계(non-equivalent control group design)에 영향을 미치는 문제와 그 해결전략 및 전략의 강화방안을 소개한다. 표본 선택편향, 표본크기 문제, 선정 이후의 편향, 프로젝트 실시의 非일관성, 결과 측정의 신뢰성 부족, 프로젝트 실시 및 결과에 대한 맥락적 영향, 신속평가연구 및 삼각측량법 등이 그 예시이다. 사례연구2 성향점수를 이용해 비교집단 선정하는 방법 – 베트남 농촌 도로 프로젝트 동일 지역의 100개의 프로젝트 대상 지역과 프로젝트에 포함되지 않은 100개 지역사회를 조사 표본으로 선정하였다. 동일 지역에서 실시하였기 때문에 행정절차를 간소화하고 비용을 절감하였지만, “오염”(프로젝트에 영향을 받는 대조집단) 발생을 방지할 수 있도록, 많은 지역사회가 충분한 거리를 두고 위치해 있었다. 프로젝트 참여 가능성에 대한 logit model을 이용하여 프로젝트 대상 지역과 프로젝트 미참여 지역사회의 성향점수를 계산하였다. 이후, 프로젝트 대상 지역과 비슷한 성향점수를 가진 비교집단 지역을 선정했다. 또한, 인프라, 고용, 교육, 보건의료, 농업 및 지역사회 조직 등 행정적 목적으로 수집된 지역사회 데이터를 활용하여 평가를 진행할 수 있었다. 이러한 데이터는 환경 분석 및 지역 단위의 복지지표 선정, 시간 경과에 따른 프로그램의 영향을 분석하는 데 사용된다. 또한, 이 데이터는 프로젝트 선정 프로세스를 모델링하고 선정함에 있어 편향이 존재하는지를 평가하는 데에도 사용된다. ※출처: Van De Walle and Cratty, 2005 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 17 4. 2차 데이터의 확보 제 1절에 제시한 것과 같이 데이터 수집에는 4가지 방법이 있다(White, 2006 참조). ① 해당 프로젝트 맞춤형 설문조사 ② 진행중인 설문조사에 특별한 모듈을 추가하여 데이터 확보 ③ 프로젝트 수혜자(실험집단)를 대상으로는 인터뷰를 실시하고, 대조집단에 대한 데이터는 기타 설문조사(전국 가구조사 등)를 통해 수집하는 동시 통합화된 조사(synchronized survey)를 통해 데이터 확보 ④ 별도 목적을 위해 수집하였지만 프로젝트 대상자 및 잠재적인 대조집단에 대한 정보를 포함하고 있는 2차 데이터를 통해 데이터 확보 거의 모든 평가는 별도의 설문조사를 실시하더라도 2차 데이터를 활용할 가능성이 높다. 많은 경우 2차 데이터는 주요 정보 출처이자 유일한 정보 출처가 될 것이다. 결과적으로, 대부분의 평가에서 고려해야 할 점은 2차 데이터를 사용할지 여부가 아니라, 2차 데이터의 적절성과 품질을 어떻게 보장할 것인가이다. 2차 데이터의 장점 2차 데이터는 비용 및 시간 절감에 유용한 방법이다. 사후 프로젝트/비교 집단 설계를 이용할 때, 종종 2차 데이터는 프로젝트 시작 이전의 프로젝트집단과 비교집단의 기초선을 재구성 할 수 있는 유일한 방법이다. 상기의 설계뿐 아니라 대부분의 다른 설계에서도, 2차 데이터는 프로젝트가 일어나지 않았다면 프로젝트 그룹의 상황이 어떠했을지에 대한 반사실적 (counterfactual) 상황을 예측하는 데에 이용할 수 있다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 18 The World Bank 2차 데이터의 가장 일반적인 유형은 다음과 같다. ① 국가 인구조사 데이터 ② 생활수준측정조사(living Standards Measurement Surveys, LSMS)를 비롯한 일반 가구조사 ③ 인구보건조사(Demographic and Health Surveys, DHS)를 비롯한 전문조사 ④ 분야별 부처 및 기타 공공기관이 수집한 행정 데이터(학교 등록, 보건시설의 이용, 농산물 시장가격) ⑤ 공여기관, 비정부단체 및 대학이 수행한 연구 ⑥ 프로젝트 시행기관 또는 부처의 행정 데이터 ⑦ 대중매체(신문, TV, 다큐멘터리 등) → 이러한 정보는 다른 무엇보다, 개별 프로젝트 대상 지역의 경제, 정치의 맥락 이해에 유용함 또한, 2차 데이터의 메타분석으로 해당 국가 또는 다른 국가에서 수행된 유사한 프로젝트를 통해 기대되는 효과를 파악할 수 있어 유용하다. 메타분석은 특히 프로젝트 집단 및 비교집단에 요구되는 표본의 크기를 측정하는 데에 도움이 된다. 왜냐하면(다른 조건이 동일한 경우) 예상되는 영향의 크기가 작을수록, 검정력(power of the test)이 낮을 것이고, 프로젝트의 영향을 확인하는 데 요구되는 표본 규모가 더 커지기 때문이다8. 2차 데이터가 평가에 매우 중요하긴 하지만, 해당 정보가 다른 목적을 위해 수집되었을 가능성이 있기 때문에 데이터를 이용하기 전에 주의깊게 검토해야 한다. 2차 데이터 이용 전 고려해야 할 잠재적인 이슈는 다음과 같다(Bamberger, Rugh 및 Mabry, 2006, 5장 참조). ① 프로젝트의 시작(기초선 데이터가 필요한 경우) 시점과 2차 데이터가 수집 또는 보고된 시점 간의 차이 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 19 ② 표본이 프로젝트 대상 집단에 얼마나 근접하는가? (예: 공립학교뿐 아니라 사립학교도 조사 대상으로 포함하는가? 공공부문뿐 아니라 비공식부문의 고용까지 포함하는가? 노인그룹뿐 아니라 남녀까지 포함하는가?) ③ 모든 핵심 프로젝트 관련 변수 및 성과지표에 대해 정보를 수집하고 있으며, 그러한 정보가 평가목적에 적합한가? 종종, 하나 또는 두 개의 간단한 대리지표(proxy indicator)를 이용해 복잡한 결과지표를 측정해야 한다. (예: 건강개선에 영향을 미치는 보건서비스 지표로 대체하는 경우 또는 차량의 수 및 형태 그리고 신규 비즈니스의 수를 지방도로 건설로 인한 영향 지표로 이용하는 경우) 정보의 품질과 완전성을 평가하는 것 역시 중요하다. 행정적 목적으로 정보를 수집하는 경우, 품질관리가 없기 때문에 정보가 불완전하며, 정확하지 않고 편향될 수 있다(학교에서 등록률 및 시험점수를 부풀릴 인센티브가 있거나, 경찰이 범죄 발생을 축소 보고하는 경우). 서비스를 집행하는 기관에서 해당 데이터가 평가에 이용된다는 사실을 알 때 보고를 누락할 동기가 있기 때문에, 정보의 품질과 완전성에 대한 점검이 영향평가에서는 특히 중요하다. 2차 데이터를 이용하여 예산, 시간 및 데이터 상의 제약 해결 다음은 2차 데이터를 이용해 시간과 비용을 절감하거나 기초선 또는 비교집단을 재구성하는 일반적인 방법이다. ㆍ프로젝트의 행정 데이터를 기초선 대체로 이용한다. 예를 들어, 저비용 주택 지원자는 종종 자신의 현재 주거형태에 대한 정보를 제공하고, 미소금융에 대한 지원자는 현재의 경제활동 및 수입에 대한 정보를 제공해야 한다. 그리고 인프라 계획 연구에서는 현재의 인프라에 대한 접근성과 품질에 관한 정보를 수집한다. ㆍ가구 설문조사 데이터는 프로젝트 집단과 유사한 특성을 가진 非프로젝트 집단 또는 비교 집단으로 이용될 가구 간 매칭을 위해 이용된다. ㆍ인구 및 가구 설문조사 데이터는 비교집단의 구성을 위해 이용될 수 있다. ㆍ프로젝트에 영향을 받지 않는 비교지역의 학교 또는 지역보건소 기록은 보건과 교육 분야 프로젝트의 반사실적 상황을 평가하는 데 이용된다. 이러한 기록은 프로젝트 지역에서 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 20 The World Bank 프로젝트의 지원을 받는 신규 시설과 전통적인 학교, 진료소 이용 등의 비교에도 이용된다. 이는 더 좋은 시설로 이동하는 이용자들 정보를 통제하는 데 중요할 수 있지만, 프로그램 대상이 아닌 시설의 평균적인 이용자들과 비교할 수는 없다. ㆍ일관성 확보 또는 다른 형태의 분석을 위해, 2~3개 정도의 2차 데이터 출처를 활용해 별도의 비교그룹을 구성할 수 있다. 사례연구3 다양한 2차 데이터 출처 이용 – 방글라데시 통합 영양 프로젝트 시행평가부서(Operations Evaluation Department, OED)가 실시한 방글라데시 통합 영양 프로젝트 (Community-based Nutrition Component of the Bangladesh Integrated Nutrition Project, BNIP)의 아동 및 임산부의 심각한 영양실조 감소 효과에 대한 영향평가가 있다. 평가에서는 3가지의 2차 조사 데이터 출처를 이용하였다. 동 프로젝트의 기초선, 중간선 및 종료선 데이터, 세이브더칠드런(Save the Children)에서 프로젝트 종료 후 실시한 조사, 헬렌켈러 인터내셔널(Helen Keller International)에서 실시한 영양감시 프로젝트(Nutritional Surveillance Project, NSP) 등이다. 이들 조사는 영양뿐 아니라 다양한 범위의 과정지표를 다루었으며, 이를 통해 이론기반 접근방식(theory-based approach)을 적용할 수 있었다. 그런데, 평가결과는 모순적이었고, 비교집단의 적합성에 대한 의문이 제기되었다. 게다가, OECD는 전통적인 출산 보조원의 고용 및 훈련을 통해 인구 1,000명 출생 당 사망률이 얼마나 감소할 수 있는지 평가하기 위하여 비슷한 국가들에서 메타분석 연구를 실시하였다. 영양감시 프로젝트 데이터를 활용해 성향점수를 매칭하여 비교집단을 구성하고 재분석한 결과, 프로젝트 지역에서 몸무게 대비 키 그리고 연령대비 몸무게 지표가 모두 향상되었음을 밝혀내었다. 이렇게 서로 다른 2차 데이터 출처의 조합으로 프로젝트의 인과관계사슬을 도출할 수 있으며, 여기에서 빠진 연결고리를 통해 통계적으로 유의미하게 나타난 프로젝트의 영향이 실제 운영기간에는 낮았던(5% 정도) 이유에 대해 파악할 수 있다. 영양 프로젝트 평가를 위한 2차 데이터의 사용에서 몇 가지 교훈을 얻을 수 있다. 때로 풍부한 2차 데이터의 다양한 출처를 이용할 수 있으며, 이를 조합해 비교집단을 강화함으로써 프로젝트 영향평가의 품질을 향상시킬 수 있다. 이러한 데이터 출처는 또한 프로젝트 영향이 실현될 수 있는 인과관계를 설명하는 데 도움이 될 수 있다. 하지만, 해당 연구는 프로젝트 행정절차와 실제 시행 사이에 차이가 존재하고 수요 측면의 요인에 대해서는 이용 가능한 데이터가 훨씬 적다는 점 또한 보여주었다. ※출처: White, 2006 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 21 5. 기초선 데이터의 재구성 사후조사만 포함하는 평가설계의 경우, 기초선 데이터 부재로 취약 프로젝트의 완료시점까지 평가가 시행되지 못한 경우, 기초선 데이터를 수집할 수 있는 방법이 없다. 성향점수(제3절 참조)와 같은 통계적 기법을 통해 프로젝트집단과 비교집단 간 매칭을 향상시킬 수는 있지만 사후적인 평가는 보통 사후에 비교그룹을 정의함으로써 시행해야 한다. 이러한 설계의 경우, 프로젝트 시작 시점의 두 집단 간 관찰되지 않은 차이를 통제할 수 없다(사례연구 1 참조). 특히 참가자가 프로젝트에 자발적으로 참여하는 것이 문제가 되는데, 프로젝트 참여를 선택한 개인 또는 지역사회가 성공할 가능성이 가장 높기 때문이다(예: 이미 기업 운영 경험과 자신감이 있으며 가구의 경제적 자원에 대한 통제력을 가진 소액금융 수혜여성). 결과적으로, 기초선 데이터 부족으로 인해 기존에 존재하는 차이점을 프로젝트로 인한 영향과 분리시키기 힘들다. 때로는, 프로젝트 이전 시점에 시행된 조사 또는 인구조사 데이터를 통해 프로젝트 이전의 상황(제 3절 참조)에 대한 측정치를 확인할 수 있다. 또한, 프로젝트 기록, 지역 학교 또는 보건시설 기록 또는 기타 정부기관의 기록과 같은 다른 종류의 2차 데이터가 기초선(제 4절 참조)에 대한 측정치를 제공할 수 있다. 하지만, 2차 데이터를 쉽게 이용할 수 없는 경우, 연구자는 다음에 설명하는 정성적 기법을 검토해 볼 수 있다. 기초선 데이터 재구성을 위한 전략 프로젝트 시작 시점에 전국적으로 실시된 가구조사, 인구조사 및 유사한 연구를 통해 수집된 2차 데이터를 통해 프로젝트집단 또는 잠재적 비교집단을 파악할 수 있다. 때로, 비교그룹에 관한 양질의 데이터가 포함되기도 하지만, 프로젝트 참여자의 수가 너무 적어서 세부 분석이 힘든 경우도 있다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 22 The World Bank → 해당 데이터가 얼마나 평가에서 필요로 하는 데이터와 부합하는지 검토하는 것이 중요하다. 예를 들어, 해당 데이터가 적시에 수집되지 않았을 수 있고, 프로젝트집단 또는 비교집단 전체를 포함하지 않을 수도 있으며, 평가를 위해 필요한 중요한 정보를 모두 포함하지 않을 수도 있으며, 데이터의 신뢰성에 대한 의문도 있을 수 있다. 하지만, 세계은행의 평가 경험에 의하면, 종종 대부분의 기준에 부합하는 양질의 2차 데이터를 찾기도 한다. 프로젝트를 통해 수집된 행정기록(예: 주택, 학교시설, 사업대출 또는 기초 서비스를 신청하는 가구 또는 지역사회의 특성)은 종종 프로젝트 참여자에 관한 기초선 데이터를 제공하지만, 비교집단에 대한 데이터는 포함하지 않는 경우가 있다. → 데이터의 품질, 완결성 및 보고의 일관성 등을 점검해야 한다. 해당 기록이 프로젝트 성과를 평가하는 데 이용된다는 점이 알려지면 관련 기관에서 편향된 보고를 할 수 있다. 또한, 조사 대상별 식별번호 부여가 완전하지 않거나 신뢰할 수 없는 경우가 있어, 행정 기록과 프로젝트 이후의 데이터를 연결시키는 데 문제가 발생할 수 있다. 대상자에 관한 매칭 없이는, 평가에서 관찰 불가능한 개인 또는 지역사회의 특성 변수(시간의 영향을 받지 않는) 통제에 도움이 되는 패널분석을 이용하기 어렵다. 학교, 보건소, 저축 및 대출협동조합, 지역 농산물시장의 판매 등의 기록에서 때로 비교집단의 기초선 데이터를 확보할 수 있다. → 이에 대해 기록의 완전성이나 체계적 편향(systematic bias, 예: 교사가 학교에 다니는 학생 수를 실제보다 높게 보고하거나 경찰이 범죄 건수를 축소해서 보고할 인센티브가 존재할 수 있음)에 대한 의문이 제기될 수 있다. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 23 회상: 응답자에게 학교 출석, 보건소 이용, 여행시간과 비용에 대한 프로젝트 이전의 상황을 회상하도록 요청할 수 있다9. → 회상 데이터는 기억의 정확성 문제, 과소 또는 과잉 보고, 사회적으로 바람직한 또는 바람직하지 않은 행위에 대한 왜곡된 보고로 인해 잠재적으로 편향될 가능성이 있다. 결과 또한 기간이 얼마나 지났는지, 질문을 어떤 식으로 구성하였는지에 따라 크게 좌우된다. 비용지출 및 출산행태와 같은 회상에 대한 연구가 수행된 일부 분야를 제외하고는, 편향의 정도 또는 방향을 평가하는 실증적인 연구는 거의 없다(Bamberger, Rugh 및 Mabry, 2006, 페이지. 97-99 참조). 이로 인해 다수의 영향 변수를 측정해 비교하는 것이 필요할 수 있다. 참여적 신속평가(Participatory Rapid Assessment, PRA)는 시간 경과에 따라 (개인보다 지역사회 차원에서)지역사회의 환경, 문제, 변화를 보고하는 다양한 참여적 기법에 대한 일반적 용어로 사용된다(Kumar, 2002). 예를 들어, 지역사회는 수자원의 양과 질, 곡물의 생산과 판매, 여행 시간 및 비용, 소요시간에 대한 정보를 제공할 수 있다. 다양한 출처에서 정보를 확보해 삼강측량을 실시해야 한다(사례연구 5 참조) – 삼강측량법을 통해 두 개 또는 그 이상의 독립적인 출처에서 획득한 데이터를 체계적으로 비교할 수 있다. → 회상 편향 문제뿐 아니라, 신속참여평가는 대표성 문제(누가 그룹 토의에 참가하였는지?) 및 그룹내 역학(특정 그룹이 논의를 주도하는지?) 문제에 직면한다. 그룹 데이터를 수집함에 따라, 영향을 측정하는 단위가 변경되고, 표본크기가 감소하고, 지역사회 수준의 결과와 개인 및 가구 단위의 조사 데이터 통합에 어려움이 발생할 수 있다10. 핵심 정보제공자(key informants)와 프로젝트 시행 이전의 상황에 대해 인터뷰할 수 있다. 다양한 정보 제공자의 관점과 정보에 대해 삼각측량을 실시해야 한다. 정보제공자의 관점에도 (의도적 또는 비의도적인) 편향이 있을 수 있기 때문이다. 핵심 정보제공자는 단지 지역사회 또는 인구그룹 수준에서의 정보를 제공하지만, 설문조사 데이터를 확보할 수 없는 경우 매우 유용하다. 또한, 이러한 접근방식은 프로젝트 참여자나 지역사회의 독특한 특성과 같이 중요하지만 관찰 불가능한 요소를 파악하는 데 이용될 수 있다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 24 The World Bank 프로젝트로 수집된 행정 데이터(administrative data)는 이후 영향평가에 유용하도록 조정해 채택할 수 있다.11 재구성된 기초선 데이터의 품질강화 및 강화 ㆍ제4절의 체크리스트를 활용해 2차 데이터 출처의 잠재적 약점을 검토할 수 있으며, 제 7절에서는 본 절에서 설명하는 다양한 접근방식의 타당성 위협요인에 대응방안을 제시한다. ㆍ2차 자료 출처를 확인하려면 삼강측량을 실시해야 한다. 삼강측량은 조사에 포함된 두 개 이상의 질문에 대한 응답/정보를 비교하는 데 이용되거나, 경제적 지위, 노동시장 참여, 학교등록 데이터와 같은 정성적 정보를 비교하는 데 이용된다. 삼강측량을 시행할 수 있는 방법으로는 직접 관찰(direct observation), 기타 2차 자료, 핵심 정보 제공자; 이해관계자 조사, 참여적 신속평가, 사진 및 신문기사 등이 있다. 이를 통해 잠재적으로 관찰 불가능한 요소 또는 편향 등을 이해할 수 있다. 사례연구4 기초선 데이터의 재구성: 니카라과 사회 기금 본 사례는 4개의 2차 데이터 출처를 이용하여, 기초선 데이터를 재구성하고, 니카라과 긴급 사회투자기금(Emergency Social Investment Fund, FIS)의 접근성과 영향에 대한 평가를 실시한 경우이다. 이 사례는 프로젝트 대상 지역사회와 수혜자가 무작위로 선정되지 않았을 때, 독립적인 영향 평가가 필요함을 보여준다. FIS는 참여를 신청한 지역 중 선정된 저소득 지역에 화장실, 학교, 보건, 용수 등을 공급한다. 빈곤한 지역을 우선적으로 선정했지만, 프로젝트 시행 역량도 고려해 대상 지역을 선정했다. 대상 지역은 무작위로 선정되지 않았고, 단순히 최빈곤 지역으로 분류할 수도 없다. 독립적인 비교집단 구성을 위해 몇 가지 2차 데이터 출처를 이용했다. → 1998년 전국 생활수준측정조사(LSMS)에서는 FIS 대상 지역을 선정하고, 각 프로젝트 구성요소(물공급 및 위생, 보건, 교육, 등)별로 프로젝트 대상 지역과 아닌 지역을 파악하기 위해 빈곤지도를 작성했다. 이후, 각 기금 요소의 영향을 받는 지역에 거주할 가능성을 추정하는 성향점수를 계산하기 위하여 표본을 프로젝트 선정 기준에 대한 행정 데이터와 결합하였다. 프로젝트집단과 매칭된 비교집단 간의 각 영향변수별 평균차이로 해당 프로젝트의 gain score(학교 등록, 학년, 유급 등)를 계산했다. → FIS 표본은 통계 비교를 위한 가구 수가 충분하지 않기 때문에, 직접 수혜자와 잠재적 수혜자의 선택 기반 표본(choice based sample)을 선정하기 위해 생활수준측정조사 데이터를 FIS 행정 데이터와 결합하였다. FIS가 일부 지역사회에서 최장 5년 가량 시행되고 있을 때, 생활수준측정조사와 FIS 가구조사가 시행되었다. 기초선 조사를 수행하지 않았기 때문에, 평가는 성향점수를 이용해, 대상 지역과 대상이 아닌 지역의 프로그램 사후의 상황을 비교했다. 기초선 데이터의 재구성을 통한 분석을 강화하기 위하여 상기에 언급된 출처를 사용하였다. 또한, 프로젝트 결과변수의 사전 프로젝트 측정에 관한 정보 획득을 위하여 회상기법을 이용하였다. ※출처: Pradhan 및 Rawlings, 2000 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 25 6. 데이터 수집 비용 절감 조사 기간 단축 및 간소화 고객과 필수적인 정보와 단지 흥미로운 정보를 구분하여 논의할 수 있다면, 조사기간 또는 복잡성을 상당히 줄일 수 있고, 결과적으로 데이터 수집에 필요한 비용과 시간을 크게 단축시킬 수 있다. 수행 인터뷰의 수를 줄임 데이터 수집에 평가예산의 절반 이상이 소요되기 때문에(Baker, 2000), 표본크기를 줄이면 상당한 비용을 절감할 수 있다. 그러나, 표본의 크기가 작을수록 평가의 통계적 정확성이 떨어지며 분석의 분리 수준(level of disaggregation of the analysis)이 감소하기 때문에 장단점이 있다. 평가를 위해 요구되는 표본 크기를 결정하는 핵심 요소로는 추정된 평균 실험(프로젝트)의 효과 크기, 검정력, 기저변수의 평균 및 분산, 통계적 정확도, 비교집단의 이용여부, 분리 분석 유형(types of disaggregated analysis), 단측 또는 양측 통계검정(one or two tailed statistical test)이 요구되는지 여부 등이 있다.12 이러한 고려사항을 기반으로 요구되는 인터뷰 수를 줄일 수 있는 몇 가지 방법을 소개한다. ① 낮은 수준의 통계적 정확성(예: 95% 대신 90% 신뢰구간) 또는 낮은 검정력을 수용(예: 13 실제 프로젝트 효과를 거부할 위험을 10%가 아닌 20%를 수용). 물론, 이렇게 되면 프로젝트가 실제로 영향을 미쳤는지 여부에 대해 잘못된 판단을 내릴 가능성이 높아진다. ② 통계적 분리 수준을 낮춘다(예: 각 집단에 미치는 영향을 분리해서 보거나, 프로젝트 각 구성 요소의 효과를 구분해서 보는 것이 아니라 전체적인 프로젝트 집단의 결과만 획득). ③ 예상되는 효과의 크기가 클수록, 통계적으로 유의미한 영향을 가지는 데에 필요한 표본의 크기가 감소한다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 26 The World Bank 개인 인터뷰를 지역 수준의 데이터 수집으로 대체 개인에 대한 인터뷰가 가장 상세하고 통계적으로 정확한 정보를 제공하긴 하지만, 비교 지역 또는 집단의 정보를 수집할 수 있는 보다 경제적인 방법이 있다. 물론 이는 정량적으로 정확하지 않을 수도 있다. 예를 들어, 지역 수준에서 여행 및 교통 패턴, 물과 연료 수집에 소모되는 시간, 서비스의 품질 및 활용도를 측정하기 위해 관찰 체크리스트를 이용할 수 있다. 관찰은 지역사회의 다른 지역에서 수집된다(도로, 보도, 수원으로 가는 경로 또는 지역 진료소). 관찰 체크리스트는 이용하기 쉽고 경제적으로 관리할 수 있는 반면, 다수의 개인에서 소수의 지역으로 관찰 정보 수를 줄인다. 그렇다면, 통계적으로 유의미한 결과를 얻기 위하여 지역 수를 늘려야 하는지, 만약 그렇다면, 전체적인 비용절감이 이루어지는지에 관한 문제를 해결해야 한다. 이상적으로, 분석강화를 위해 가정 또는 지역 수준에서 관련 속성(covariates, 공변량)에 관한 정보를 추가적으로 수집해야 하며, 그렇게 되면 비용절감 효과가 다소 감소할 수 있다. → 지역 수준의 서비스 활용률 및 품질, 농업 생산, 시간 사용 또는 노동의 성별 분담 추정치를 얻기 위하여 포커스그룹 인터뷰, 참여적 신속평가, 또는 지역사회 인터뷰를 활용할 수 있다. 상기에서 논의한 바와 같이 데이터 수가 줄어들 때 발생하는 결과의 문제가 여기에서 제기될 수 있다. 인터뷰 비용 절감 ㆍ보건 또는 교육 프로그램의 평가를 위해서는, 현장을 알고 사회 적응력이 있는 간호사 또는 교사를 고용하여 인터뷰를 수행하고, 가능한 경우 데이터 코딩에도 도움을 받을 수 있다. 보다 일반적인 사회-경제적 조사를 위하여, 대학생 또는 고교 졸업생을 모집할 수도 있다. 인터뷰당 지급해야 하는 수당이 전문조사 기관을 고용하는 것 보다는 낮지만, 인력훈련 및 보다 높은 수준의 관리감독을 위한 추가적인 예산과 시간을 투입해야 한다. ㆍ조사팀이 수집한 정보가 아닌 자기 기입식 설문조사(self-administered questionnaire) 방법을 이용할 수 있다. 물론 이 방법은 2차 교육 프로그램의 평가와 같은 글을 읽을 줄 아는 인구를 대상으로 조사할 때만 이용할 수 있다. 또한 이 접근방식에는 프로젝트 시행집단과 비교집단 간의 체계적 차이를 포함해, 응답률에 편향이 발생할 수 있다. 조사가 종료된 때에는 조사원이 부재하기 때문에, 편향에 대한 통제가 보다 힘들다. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 27 가계부를 활용한 위한 수입/지출 데이터 수집 비용 절감 주거에 대한 투자가 빈곤 가구의 기초 지출 마련에 미치는 영향 평가에서, 100개 가구가 1년간 소득 및 지출 가계부를 매일 작성하기로 하였다. 그리고 이를 대가로 각 가구에는 매달 소정의 상품이 제공되었다. 이는 조사관이 매주마다 가계를 방문하는 것보다 훨씬 더 경제적인 것으로 판명이 났다. 그러나, 이와 같은 방법의 성패는 주거 프로젝트에 참여하고 있는 모든 가정이 높은 수준으로 협조하는 것에 달려있다고 할 수 있다. ※출처: Valadez and Bamberger, 1994 전자 데이터 수집 많은 개발도상국에서는 평가를 수행할 때 전자기술을 이용하기 힘들지만, 이러한 기술이 급속도로 확산되고 있어 데이터 수집 비용과 시간을 유의미하게 절감할 수 있다. ㆍ대면 설문조사를 전화 인터뷰로 대체할 수 있다. 모든 응답자가 개인전화를 소유하고 있지 않을지라도, 응답자 상당 수가 지역센터나 친구의 집에서 전화를 받을 수 있다. 핸드폰 비용이 저렴해지면서, 응답자에게 핸드폰을 제공하거나 대여하는 방안도 있다. ㆍ이메일 설문조사는 기관 차원에서 널리 사용되고 있다. 심지어 매우 빈곤한 응답자들도 이제 지역 텔레센터 또는 인터넷카페에 접근할 수 있기 때문에, 이메일이 일부 조사유형에서는 널리 사용될 수 있다. ㆍ자동 카운터를 이용하여 빌딩에 출입하는 사람 수, 보행자 또는 차량통행을 기록할 수 있다. ㆍ지리정보(GIS) 시스템과 항공사진은 때때로 집의 수와 크기, 기타 건축 형태, 교통 패턴, 경작지와 같은 물리적 정보를 획득하는 경제적인 방법이 될 수 있다. 전화인터뷰를 통한 비용과 시간 절감 콜롬비아의 학교 바우처 프로그램 평가에서, 대부분의 인터뷰는 전화로 진행되었다. 전화에 대한 접근성이 참여 기준이었기 때문에, 전화인터뷰는 유의미한 표본편향을 유발하지 않았고, 비용과 시간을 확실히 절감할 수 있었다. ※출처: Angrist 등, 2002 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 28 The World Bank 비용 분담 때때로 다른 기관과 데이터 수집 및 분석 비용을 분담하거나 또는 다른 조사에 얹어서(특히 연구기간이 짧은 경우) 데이터를 확보할 수 있다. 때로는, 진행 중인 전국가구표본조사에서 다루는 일부 표본을 대상으로 조사를 시행할 수도 있다. 사례연구5 데이터 수집 비용 절감을 위한 참여적 신속평가기법 사용 – 플로레스, 인도네시아 마을 수자원 공급 및 위생 프로젝트 본 사례연구는 참여적 신속평가기법을 이용하여 기초선을 재구성하고 서비스의 접근성 및 품질의 변화사례 보여준다. 지역 표본은 통계적 분석이 가능할 정도로 충분히 크다. 평가는 지역사회 관리 방식이 물공급 및 위생 서비스에 대한 접근성, 효과적인 사용, 해당 서비스의 지속가능성에 미치는 영향을 측정하였다. 참여적 신속평가의 한 형태인 참여적 평가방법(methodology for Participatory Assessment, MPA)을 이용하여, 지방 및 중앙정부뿐 아니라 다른 지역 그룹의 관점을 파악했다. 세계은행의 프로젝트 외에도, 다양한 공공 및 비정부기구가 마을 물공급 및 위생 프로젝트를 수행하는 260개 지역에서 63개 지역을 층화확률표본(stratified random sample)으로 추출하였다. 그리고 다음과 같은 참여적 기법을 이용하였다: (a) 공개 지역회의에서 가구를 부유, 중간, 빈곤가구로 복지수준에 따라 분류; (b) 3개 표본계층의 남녀 대표의 서비스 접근성, 품질 및 지속가능성에 대한 사회적 지도 작성 및 횡단 관찰(transect walks); (c) 위원회 인터뷰를 실시해, 카드 분류법(card sorting technique)으로 서비스 관리 및 품질의 서열평가(ordinal assessment) 수행. 이후, 연구 결과를 공개적인 지역회의에서 발표하고 논의하였다. 프로그램의 다른 측면에 대한 서열 등급과 프로그램 기획과 관리에 있어 지역사회의 참여율, 여성의 참여율을 비교했다. 다른 기관이 수행한 수자원 프로젝트와의 비교가 가능했지만, 프로젝트가 진행되지 않은 마을의 비교집단은 포함되지 않았다. 따라서, 서비스 전달 시스템 간의 효과를 비교할 수 있을 뿐이었고, 프로젝트를 시행한 지역과 시행하지 않은 지역간의 비교는 포함되지 않았다. 프로젝트에 선정된 지역의 특성으로 인한 선택편향 관련 논의 역시 없었다. 평가에는 $150,000(국제 컨설팅비용 $45,000 포함)이 소요되었으며 평가기간은 12개월이었다. ※출처: Hopkins and Mukherjee, 2005. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 29 7. 예산, 시간 및 데이터 제약 하에서의 평가설계의 강화 예산, 시간 및 데이터 제약이 영향평가의 품질에 미치는 영향 예산, 시간 또는 데이터 제약 하에서 영향평가를 실시하는 경우, 설계의 품질 및 결론의 타당성에 대한 4가지 위협이 있다14. 평가 결론의 타당성에 대한 4가지 위협은 모든 평가에 영향을 미칠 수 있지만, 현실적 제약 요인 하에서 평가를 수행할 때에는 관리하기가 더욱 힘들다. 표2는 이 4가지 범주에서 공통적으로 발생하는 문제를 설명하고, 각 제약 요인에 따라 발생하기 쉬운 문제를 살펴본다. ① 평가설계 및 집행의 전반적인 품질 위협: 자원 제약이 평가설계, 도구 개발 및 검정, 평가 의뢰기관과의 논의에 대한 관심을 제한할 수 있다. 또한 행정 및 인건비가 낮은 조사자(인터뷰 시행인력)를 고용하거나 인터뷰 시행인력에 대한 교육훈련과 관리감독을 줄임으로써 데이터 수집 비용을 절감해야 한다는 압력이 있을 수 있다. 또한, 품질관리를 위한 혼합 방법론 접근방식과 삼강측량법의 이용이 힘들고, 2차 데이터 출처의 적합성을 점검하는 것도 어려워질 수 있다. ② 통계분석 위협: 제약으로 인해서 표본 프레임을 강화하거나 표본 선택편향 문제를 해결하기 어려워진다. 또한, 데이터 수집 횟수를 줄여야 한다는(예: 기초선 데이터 또는 비교집단의 제거) 압박도 받는다. 더불어, 표본크기를 줄여야 한다는 압박으로 통계적 검정력을 낮추고 분리 분석의 가능성을 제한하게 된다. ③ 이론적 일관성과 반사실적 상황(counterfactual)의 적합성: 제약으로 인해서 프로그램 이론(프로그램 목적 달성방법과 환경변수, 프로젝트 집행절차가 사업효과에 미치는 영향의 정도를 설명)을 개발하는 데 필요한 연구, 평가 의뢰기관과의 논의, 워크숍 개최 등이 힘들어진다. 또한, 데이터 수집 횟수를 줄이거나 비교집단을 강화시킬 수 있는 2차 데이터 접근성을 약화시킴으로써 반사실적 상황(counterfactual) 역시 약화된다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 30 The World Bank ④ 결론의 일반화 가능성: 평가가 표본편향을 관리할 수 없거나 특정 지역에서 결과에 영향을 미치는 환경적 요인을 분석할 수 없을 때, 해당 프로젝트를 다른 지역에서 다시 기획해 집행하는 것이 가능한지에 대해 잘못된 결론에 도달할 위험을 증대시킨다. 예산, 시간 및 데이터 제약이 평가결론의 타당성에 미치는 위협에 대한 대응방안 예산, 시간 및 데이터 제약으로 어떻게 평가설계의 타당성에 위협이 발생할 수 있는지 살펴봤다. 자원에 제약이 있으면 자원을 어떤 식으로 사용할 것인가에 대하여 절충 방안을 찾아야 한다. 예를 들어 행정 및 인건비가 낮은 인터뷰 담당자를 고용하거나 사례연구의 수와 깊이를 줄이는 방식을 통한 비용절감이 있다. 또 다른 절충안으로는 표본 크기를 늘리기 위해, 표본 프레임의 범위와 품질을 향상시키기 위해, 또는 가정에 대한 재방문 횟수를 더 늘림으로써 무응답을 줄이기 위해 희소한 자원을 투입할지 여부를 결정하는 방법이 있다. 표 2는 절충안을 선택해야 할 때, 참고할 수 있는 체크리스트이다(더 많은 정보를 위해서는 Bamberger, Rugh 및 Mabry, 2006 참조). 이 절충안이 어떤 차원에서 평가결과를 손상시키는가의 관점으로 접근하면 도움이 될 수 있다. 그럼에도 불구하고, 그러한 제한을 완화할 수 있는 방법이 있으며, 결코 손상시키지 말아야 할 사항도 있을 수 있다. 다음 절에서는 이에 대한 가이드라인을 제시한다. <표2> 예산, 시간 및 데이터 제약이 어떻게 영향 평가의 품질에 영향을 미치는가 개별문제에 대한 제약 다른 제약 요인으로 인한 문제들(타당도 위협) 예산 시간 데이터 A. 평가설계의 전체 품질에 영향을 미치는 문제(내적 타당도(internal validity) 위협) 계획수립, 평가 의뢰기관과의 논의, 지역 컨설턴트와의 협의에 대한 주의 불충분 도구 개발 및 테스트에 대한 주의 불충분 평가 결론에 대한 후속조치 시간 부족 접근하기 어려운 집단 및 획득하기 힘든 정보 배제 혼합방법 접근방식 적용을 줄임으로써, 삼강측량법의 일관성 체크가 안되는 경우 비용이 낮은 인터뷰 진행자 고용 및 훈련, 감독 비용의 절감 압박 신속한 정성적 방법에 보다 의존 2차 데이터의 적합성 검정이 힘든 경우 표본 설계 및 통계 분석에 영향을 미치는 문제(통계 타당도의 위협) 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 31 개별문제에 대한 제약 다른 제약 요인으로 인한 문제들(타당도 위협) 예산 시간 데이터 혼합적 조사분석 방법을 적용할 기회가 감소 표본 프레임(표본틀)의 품질을 향상시키는 자원의 감소 표본 편향을 해결하고 매칭을 개선시키기 어려움 표본 추출(sample implementation)의 품질 저하 표본 크기의 감소 프로젝트 또는 대조집단의 기초선 데이터 수집 또는 프로젝트 이후 비교 집단에 대한 데이터 수집 제외 압력 분리 분석(disaggregated analysis) 약화 C. 이론의 일관성 및 반사실적 상황(counterfactual)의 타당도에 영향을 미치는 문제(구성 타당도(construct validity) 위협) 프로그램 이론 모델에 시간과 자원을 충분히 투자하지 못해, 핵심 개념과 지표의 정의가 잘 되지 않거나, 핵심가정이 파악되지 않거나 잘못 파악될 수 있는 문제 다중 방법 접근방식과 삼강측량법의 사용 축소 대조/비교 집단이 약함(샘플규모가 작거나 프로젝트집단과 매칭이 잘 되지 않는 경우) 기초선 데이터가 약하거나 없음 D. 결론의 일반화 가능성 및 다른 지역/상황에서의 프로젝트 모델의 재현 가능성(replicability) 관련 제언에 영향을 미치는 문제(외적 타당도(external validity) 위협 표본 편향(sample bias)에 대한 관심 부족 특정 지역에서의 성공 또는 실패에 영향을 미치는 환경 요인에 대한 분석이 약한 경우 평가 설계의 전반적 품질 향상 ㆍ예산 및 시간 제약 하에서 평가를 시행하더라도, 평가 의뢰기관 및 주요 이해관계자와의 협의에 충분한 시간을 투자해서, 이들이 필요로 하는 정보, 평가의 기한과 제약 요인을 이해하는 것은 항상 중요하다. 예산과 시간을 절약할 수 있는 방법을 이용하여 평가를 설계할 경우, 평가 의뢰기관이 절충안에 대해 충분히 이해하고 받아들일 수 있도록 협의를 통해 결정을 내려야 한다. ㆍ시간이 주요 제약 요인인 경우, 컨설턴트가 현지조사를 시행하기 이전에 현지 기관 및 연구자에게 준비조사를 위임하고, 화상회의를 활용해 신속히 시작하는 방법이 있다. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 32 The World Bank ㆍ선택 편향과 도구적 변수가 비용 측면에서 초래하는 시사점을 고려해야 한다. 프로젝트를 설계하는 동안 선택 편향 문제를 해결하기 위해 프로젝트 담당자와 함께 작업하는 것이, 프로젝트 후 조사를 진행하는 것보다 더 경제적이다. 프로젝트 관리자는 일부 편향을 피하기 위해 보다 명시적인 참여자 선택기준의 도입을 추진할 수 있으며, 실질적인 선정기준이 보다 잘 문서화될 수 있도록 참여자 선택 시 행정 데이터 수집을 강화할 수 있다. 명확한 선정 및 거절 기준을 적용하고 문서화한다면 분석을 강화할 수 있을 것이다. ㆍ프로그램 이론(즉, 논리)모델을 개발하고 어떻게 의도한 성과와 영향을 달성할 수 있을지 효과 사슬(effects chain)을 구성함으로써 평가 시 집중해야 할 중요한 가정과 이슈를 파악할 수 있다. ㆍ동료검토(peer review)는 평가 시 표준 절차이자 요인의 하나로 포함시키는 것이 이상적인데, 문제 해결 방안의 타당성을 평가할 때 다양한 관점을 고려해볼 수 있다는 점에서 매우 유용하다. ㆍ예산 상의 제약으로 표본 설문조사를 이용할 수 없는 경우, 물의 소비 또는 신규 위생시설의 이용과 같은 지역사회 수준의 평가를 참여적 신속평가 및 다른 정성적 기법을 통해 수행할 수 있다(사례연구 5 참조). 하지만, 만약 이러한 방법을 영향평가에 사용하려면, 통계적 분석이 가능할 수 있도록 충분히 큰 규모의 표본이 필요하며, 그런 경우에도 여전히 비용절감효과가 있는지 검토할 필요가 있다. ㆍ이상적인 표본크기 보다 작은 규모의 표본으로 조사를 시행할 때, 비용 효과적인 혼합 방법 접근방식을 활용해, 핵심 산출물, 성과 또는 영향 데이터를 수집함으로써 타당성을 강화할 수 있다. 예를 들어, 물 공급에 대한 양과 신뢰도의 변화에 대한 핵심 정보제공자의 정보가 가구 설문조사 결과와 일치한다면, 해당 데이터의 신뢰성을 높일 수 있다. 하지만, 혼합 연구방법을 이용하면 데이터 수집비용이 상승하기 때문에, 이러한 전략이 전체적인 비용 절감에 도움이 되는지 판단하는 것이 중요하다. 또한, 표본이 너무 작으면 혼합연구방법이 인과관계의 타당성을 높인다 할지라도 가설 검증을 위한 통계적 검증 적용이 불가능하다는 것을 기억해야 한다. 표본 설계 및 통계 분석 강화 표본 크기 문제: 표본의 크기를 줄이는 것은 비용절감에 효과적이지만, 표본의 크기가 작을수록 부정 오류(false negative)(프로젝트가 영향이 없었다는 잘못된 추정)의 위험이 커진다. 통계적 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 33 검증력 분석(제4절 참조)은 제안된 표본이 분석목적을 위해 충분히 커질 수 있도록 하는 유용한 방법이다. 이론적 모형(theoretical framework)과 반사실적 상황(counterfactual)의 타당성 강화 ㆍ신속 평가연구(rapid assessment studies)는 앞서 논의했던 프로그램의 이론적 모델을 개발하는 데 비용 효과적인 방법이다. ㆍ작은 표본으로 작업할 경우 혼합적 방법이 핵심 개념을 이해하고 데이터 측정을 향상시킬 수 있는 비용 효율적인 방법이다. ㆍ기초선을 재구성(기초선 데이터 없이 사후 비교에 의존하는 성향점수 매칭 설계를 이용한다 할지라도)하거나, 필요 시 제5절에서 논의한 기법을 사용하여 비교집단을 강화함으로써 반사실적 상황(counterfactual)을 강화할 수 있다. ㆍ프로그램 이론 개발에 시간과 자원을 투입해야 한다. 간단한 모델은 상대적으로 짧은 기간에 개발할 수 있다. 프로그램 담당자가 프로그램의 목표와 목표 달성 방법에 대한 자신만의 아이디어를 가지고 있지만, 공식적인 프로그램 논리모델이 부재한 상황이 있다. 평가자는 인터뷰, 워크숍 및 프로그램 문서 검토를 통해 이를 이끌어내야 한다. 하지만, 이를 비용 효과적이고 신속한 방식으로 수행할 수 있다. 결과의 일반화 강화 ㆍ프로젝트집단과 비교집단의 유사점과 차이점을 파악하고 이러한 차이점이 결론의 일반화 가능성에 어떻게 영향을 미치는지 이해하기 위해 신속평가방법(핵심 정보원, 포커스 집단, 관찰 등)을 이용해야 한다. 또한 결과를 분석할 때 혼합적 방법을 이용하는 것이 좋다. 양질의 정성적 연구는 측정된 성과가 도출된 과정을 이해하는 데 유용하다. ㆍ지역적 요인이 성과에 어떻게 영향을 미치고 이러한 요인들의 작동이 특정 맥락에 얼마나 독특하며 얼마나 일반화 될 수 있는지(다른 지역/상황에도 적용할 수 있는지) 이해하기 위해 환경분석(context analysis)(프로젝트 지역에서의 지역 경제, 정치, 제도 및 사회문화적 맥락에 대한 정성적 또는 정량적 설명 및 분석)을 이용해야 한다.15 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 34 The World Bank ㆍ가능한 경우, 다변량분석(multivariate analysis)을 이용하여 프로젝트 집단과 비교집단의 매칭을 강화하고, 다른 지역/상황에도 해당 프로젝트를 재현할 수 있는지 예측의 타당성을 강화해야 한다. 영향평가를 언제 수행할 수 있는지 평가하기 평가 수행 전, 평가성 검토(evaluability assessment)를 수행하여, 현재의 자원, 시간, 데이터 하에서 양질의 영향평가(제 1절 참조)를 수행할 수 있을지 여부를 결정해야 한다. 앞서 논의한 기법을 이용하여 평가설계를 강화하기 위해 모든 가능한 방법을 모색하고, 최상의 설계를 제안한 후 평가성 검토를 수행해야 한다. 수용 가능한 품질의 영향평가를 이러한 제약 요인 하에서 수행할 수 없다면, 자원과 기한을 재협상하고, 평가의 범위와 목적을 재검토해야 하며, 그렇지 않다면 평가를 취소해야 한다. 과학적 영향평가가 상황상 불가능한 경우라도 프로젝트의 효과를 파악할 수 있을 정도의 평가 수행은 가능할 수 있다는 점을 기억해야 한다. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 35 주석 1 독립평가 그룹(Independent Evaluation Group)의 지원을 통해 세계은행은 더 많은 정부가 모니터링 및 평가(M&E) 시스템을 개발하고 강화할 수 있도록 지원하고 있다. 2 특정 방법의 활용방안을 설명하기 위해 많은 사례연구를 제시했지만, 우리가 해당 용어를 본 원고에서 사용한다고 해서 그 연구가 반드시 영향평가라는 점을 의미하지는 않는다. 3 http://econ.worldbank.org/WBSITE/EXTERNAL/EXTDEC/0,,contentMDK:20381417~menu PK:773951~page PK:64165401~piPK:64165026~theSitePK:469372,00.html 4 이러한 문맥적 요인이 프로젝트 집단 및 비교 집단에 대해 지속적으로 다른 효과를 가진다면, 인위적으로 프로젝트의 평균적 효과를 증가시키거나 감소시킬 수 있다. 5 CARE International은 최근 전세계적으로 시행된 전체 프로젝트 평가의 50%가 예산, 시간, 데이터 및 물류상의 제약으로 인하여 해당 설계의 일부 변형을 사용해야 한다고 추산한다 (Bamberger, Rugh 및 Mabry, 2006, 10장 참조). 6 세계은행의 운영평가부서는 인도의 안드라 프라데시에서의 관계 프로젝트 평가를 위하여 파이프라인 비교 집단을 이용하려고 하였으나, 후기단계에서 다루었던 농부들이 초기단기의 농부들에 비해 일반적으로 보다 외진 곳에 있었고 다른 면에서도 달랐다 . (White, 2006, 14페이지 참조). 7 성향점수에 대한 간략한 설명은 Baker, 2000, 박스 3.1 참조, 보다 상세한 논의는 Ravallion, 2005 참조 8 예를 들어, 방글라데시 통합 영양 프로젝트는 전통적인 출산 보조원을 고용하였을 때 합리적인 예측을 통해 구할 수 있는 1000명 출생 당 사망자 수를 측정하기 위하여 국제적인 메타분석을 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 36 The World Bank 수행하였다. 그 결과는 1000명의 출생자 당 5-7명의 사망을 막을 수 있는 것으로 나타났다. 그 결과는 프로젝트의 목표치인 1000명 출생 당 7명의 사망을 방지하자는 목표가 현실적 이었음을 확증하는 데 이용되었다(White, 2006, 사례 연구 3 참조). 영향평가를 위해 요구되는 표본의 크기를 평가할 때 예상되는 효과 크기를 특정하기 위하여 동일한 분석을 사용할 수도 있었다. 9 예를 들어, 에리트레아 지역사회 개발기금의 평가에서는 사후 테스트 평가 설계를 이용하였다. 지역사회 학교 건설 전 기초선을 재구성하기 위하여, 가족들은 학교 건설 전 기간 동안의 회상기법을 이용한 질문을 받았으며, 자녀 중 누가 학교를 다녔는지(특히 등교자녀의 성별 차이), 마을 밖에 위치한 학교까지 얼마나 걸렸는지, 통학비용은 얼마였는지를 묻는 질문이었다. 마을 보건센터에 관해서도 비슷한 질문을 받았다. 가족들의 응답은 핵심 정보전달자(마을 장로, 교사, 지방정부 공무원 등)가 제공한 정보와 교차 점검되었다. 평가자는 외진 마을에서 학교건설 또는 병원건설이 모든 사람들이 쉽게 기억할 수 있는 사건이었으며 응답자들이 정보를 왜곡할만한 분명한 이유도 없었기 때문에 이번 경우에는 회상기법이 상대적으로 신뢰할 수 있다고 믿었다. 가족들이 여러 학교나 보건시절에 종종 접근할 수 있으며 동 기간 동안 다른 프로그램이 도입되어서 응답자들이 특정 프로젝트의 이해에 집중할 수 없는 도시지역의 경우는 유사한 회상기법을 적용하기 어렵다. 10 LSMS 조사패키지에는 지역사회 및 서비스 수준 분석에 관한 모듈이 있으며(Frankenberg, 2000, 제 1권, 315-338 페이지) 이러한 다양한 수준의 분석적 문제를 처리한 경험이 있다. 11 예를 들어, 저비용 주택프로그램 신청자는 대개 현재 거주지가 어디이며 현재의 소득이 어떠한지에 대한 질문을 받는다. 이들의 현재 생활조건(주거시설의 크기와 질, 서비스 접근성, 대중교통 시설), 경제적 상황 및 노동시장 활동에 관한 보다 상세한 정보를 요구하는 것이 상대적으로 쉽고 경제적이다. 하지만, 접수직원의 노동강도와 지원사의 수에 따라서, 해당 정보수집을 위해 직원을 추가 고용할 필요가 있으며, 이런 경우에는 추가비용이 필요하다. 12 표본크기에 이러한 요인들 각자가 미치는 영향에 대한 논의는 Bamberger, Rugh 및 Mabry, 2006, 14장 참조. 13 검증의 통계적 능력은 프로젝트와 종속변수(영향지표)사이의 통계적으로 유의미한 연관성을 잘못되게 부인할 확률이다. 유의미한 영향을 잘못 부인할 위험성은 검증력을 강화함으로써 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 37 감소할 수 있다(예를 들어 기종의 0.8 수준인 영향을 잘못 부인할 위험성 20%를 수용하는 것에서 10%로 낮출 수 있는 검증력 0.9 수준으로). 검증력을 강화하기 위해서는 표본크기를 늘려야 하며, 낮은 검증력을 받아들인다면 표본크기를 크게 줄일 수 있다(Bamberger, Rugh 및 Mabry, 2006, 제 14장 참조). 14 이러한 카테고리는 준-실험 설계 문헌에서 논의된 평가 결론의 타당도에 대한 4가지 유형의 위협에 기반한다. 위협에는 다음의 종류가 있다: 내부결론 타당도(전체적인 평가설계의 품질); 통계결론 타당도; 타당도 구축(이론의 일관성 및 반사실적 상황의 적절성); 외부적 타당도(발견사실의 일반화 가능성). 현장에서 개념을 적용할 수 있는 체크리스트와 작업표 그리고 타당도 관련 위협에 대한 보다 자세한 논의는 Bamberger, Rugh 및 Mabry, 2006, 제 7장 및 부록 1, 2 그리고 3 참조. 15 맥락적 분석의 논의에 대해서는 Bamberger, Rugh 및 Mabry, 2006, 제 9장 참조 Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 38 The World Bank 참고 문헌 Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King and Michael Kremer. 2002. 'Vouchers for private schooling in Colombia: evidence from a randomized natural experiment'. American Economic Review 92 (5): 1535-1558. Baker, Judy. 2000. Evaluating the Impacts of Development Projects on Poverty: A Handbook for Practitioners. Washington, D.C.: The World Bank. Bamberger, Michael, Jim Rugh and Linda Mabry. 2006. Real World Evaluation: Working under Budget, Time, Data and Political Constraints. Thousand Oaks, CA: Sage. Frankenberg, Elizabeth. 2000. 'Community and price data', in Margaret Grosh and Paul Glewwe (eds.) Designing Household Survey Questionnaires for Developing Countries. Lessons from 15 Years of the Living Standards Measurement Study, Chapter 9. Washington, D.C.: The World Bank. Hopkins, Richard and Nilanjana Mukherjee. 2005. 'Assessing the effectiveness of water and sanitation interventions in villages in Flores, Indonesia', in Operations Evaluation Department, 2005, Influential Evaluations, 22-30. Washington, D.C.: The World Bank. Kumar, Somesh. 2002. Methods for Community Participation. London: ITDG Publications. Newman, Constance. 2001. Gender, Time Use, and Change: Impacts of Agricultural Export Employment in Ecuador. Policy Research Report on Gender and Development. Working Paper Series No. 18. Washington, D.C.: The World Bank. 예산ㆍ시간ㆍ데이터상의 제약 하에서 양질의 영향평가 수행 39 Operations Evaluation Department (OED). 2004. Monitoring and Evaluations: Some Tools, Methods and Approaches. Washington, D.C.: The World Bank. 2004. Influential Evaluations: Evaluations that Improved Performance and Impacts of Development Programs. Washington, D.C.: The World Bank. 2005. Influential Evaluations: Detailed Case Studies. Washington, D.C.: The World Bank. Howard White. 2006. Impact Evaluation: The Experience of the Independent Evaluation Group of the World Bank. Washington, D.C.: The World Bank (forthcoming). Pradhan, Menno and Laura Rawlings. 2000. 'The impact and targeting of social infrastructure investments: lessons from the Nicaraguan Social Fund'. World Bank Economic Review 16 (2): 275-295. Ravallion, Martin. 2001. 'The Mystery of the Vanishing Benefits: An introduction to Impact Evaluation,' World Bank Economic Review 15 (1): 115-140. 2005. Evaluating Anti-Poverty Programs. Policy Research Working Paper No. 3625. Washington, D.C.: The World Bank. 2006. Evaluating anti-poverty programs. Handbook for Agricultural Economics (edited by Robert Evenson and Paul Schulz), Volume 4. North-Holland. Valadez, Joseph and Michael Bamberger. 1994. Monitoring and Evaluating Social Programs in Developing Countries. Washington, D.C.: The World Bank. Van De Walle, Dominique and Dorothyjean Cratty. 2005. Do Donors Get What They Paid For? Micro Evidence on the Fungibility of Development Project Aid. World Bank Policy Research Working Paper No. 3542. Washington, D.C.: The World Bank. Conducting Quality Impact Evaluations Under Budget, Time and Data Constraints 40 The World Bank 모니터링 및 평가 관련 추가 자료 World Wide Web Sites ㆍWorld Bank Independent Evaluation Group: http://www.worldbank.org/ieg/ ㆍWorld Bank Independent Evaluation Group — impact evaluation: http://www.worldbank.org/ieg/ie/ ㆍWorld Bank — impact evaluation: http://www.worldbank.org/impactevaluation/ ㆍBuilding government monitoring and evaluation systems: http://www.worldbank.org/ieg/ecd/ Monitoring and Evaluation News: http://www.mande.co.uk/ 교육자료 ISBN : 978-89-6469-505-0 93330 2018-05-267 13449 경기도 성남시 수정구 대왕판교로 825 Tel. 1588-0434, Fax. 031)7400-247 http://www.koica.go.kr