Reporte No: AUS0000822 Proyecto para adquisición, manejo, distribución y seguimiento de medicamentos para la hepatitis C (ACMED) desde el Ministerio de Salud y Protección Social usando inteligencia artificial Bogotá D.C. junio de 2019 1 © 2017 Grupo del Banco Mundial 1818 H Street NW, Washington DC 20433 Telephone: 202-473-1000; Internet: www.worldbank.org Algunos derechos reservados Este trabajo es un producto del personal del Banco Mundial. Los hallazgos, interpretaciones y conclusiones expresados en este trabajo no necesariamente reflejan los puntos de vista de los Directores Ejecutivos del Banco Mundial o de los gobiernos que representan. El Banco Mundial no garantiza la exactitud de los datos incluidos en este trabajo. Los límites, colores, denominaciones y otra información mostrada en cualquier mapa en este trabajo no implican ningún juicio por parte del Banco Mundial con respecto al estado legal de cualquier territorio o el respaldo o la aceptación de dichos límites. Derechos y Permisos El material en este trabajo está sujeto a derechos de autor. Debido a que el Banco Mundial alienta la difusión de sus conocimientos, este trabajo puede reproducirse, en todo o en parte, con fines no comerciales, siempre que se otorgue la atribución completa a este trabajo. Atribución: cite el trabajo de la siguiente manera: “Banco Mundial. {AÑO DE PUBLICACION}. {TÃ?TULO}. © Banco Mundialâ€? Todas las consultas sobre derechos y licencias, incluidos los derechos subsidiarios, deben dirigirse a Publicaciones del Banco Mundial. Grupo del Banco Mundial, 1818 H Street NW, Washington, DC 20433, USA; fax: 202-522-2625; e-mail: pubrights@worldbank.org 2 Contenido 1. Contexto .......................................................................................................................... 7 1.1. Justificación del proyecto .......................................................................................... 10 1.2. Problema .................................................................................................................... 11 1.3. Revisión de la literatura ............................................................................................. 12 1.3.1. Metodología ........................................................................................................... 12 1.3.2. Métodos de Búsqueda ............................................................................................ 12 1.3.3. Tipos de estudios incluidos .................................................................................... 14 1.3.4. Identificación de los estudios ................................................................................. 14 1.3.5. Nivel de evidencia ................................................................................................. 14 1.3.6. Evaluación de calidad de los estudios.................................................................... 14 1.3.7. Extracción y síntesis de datos ................................................................................ 15 1.4. Metodología para el modelo predictivo ..................................................................... 16 1.5. Fuentes de datos e institucionalidad (Sispro, Direcciones del MSPS) ...................... 16 1.5.1. Registro Individual de Prestación de Servicios de Salud – RIPS .......................... 16 1.5.2. Base de datos del Estudio de Suficiencia Unidad de Pago por Capitación (UPC) 17 1.5.3. Base de datos de MIPRES ..................................................................................... 17 1.5.4. Base de datos de la Cuenta de Alto Costo ............................................................. 17 1.5.5. Base de datos de SIVIGILA .................................................................................. 18 1.5.6. Fuentes de información caracterizadas para este proyecto .................................... 18 1.6. Estrategias de modelamiento ..................................................................................... 19 1.6.1. Clasificación Binomial .......................................................................................... 19 1.6.2. Predictivo Temporal - Regresivo ........................................................................... 20 1.7. Algoritmos utilizados ................................................................................................ 20 1.7.1. Estrategia de modelamiento y logaritmos de aprendizaje para la predicción ........ 21 1.7.1.1. Ã?rbol de decisión ............................................................................................... 21 1.7.1.2. Random forest .................................................................................................... 21 1.7.1.3. Gradient tree boosting ........................................................................................ 21 1.7.1.4. Training Decision Jungles .................................................................................. 22 1.7.1.5. Redes neuronales ................................................................................................ 22 1.7.1.6. Regresión logística ............................................................................................. 22 1.7.1.7. Support Vector Machine .................................................................................... 22 1.7.2. Estrategia de clasificación ..................................................................................... 22 1.8. Balanceo de las matrices de datos ............................................................................. 23 3 1.9. Normalización de datos ............................................................................................. 23 1.10. Pruebas de validez y precisión de los modelos obtenidos ..................................... 23 1.10.1. Sensibilidad ........................................................................................................ 24 1.10.2. Especificidad ...................................................................................................... 24 1.10.3. Valor predictivo positivo.................................................................................... 24 1.10.4. Valor predictivo negativo ................................................................................... 24 1.11. Estrategias de Estructuración de los datos ............................................................. 24 1.12. Organización y limpieza de los datos disponibles. ................................................ 34 1.12.1. Lectura archivos maestros .................................................................................. 34 1.12.2. Lectura y verificación de derivados ................................................................... 35 1.12.3. Verificación de encadenamientos entre archivos ............................................... 36 1.12.4. Medicamentos con prescripciones en Mipres .................................................... 37 1.12.5. Registros en RIPS de pacientes que están en MIPRES con VHC ..................... 38 1.12.6. BDUA con relación a los archivos maestros ...................................................... 38 1.12.7. NDRUAF con los archivos maestros ................................................................. 39 1.12.8. EEVV con los archivos maestros ....................................................................... 40 1.13. Metodología de extracción de datos ...................................................................... 40 1.14. Formación y capacidad instalada: capacitaciones.................................................. 41 1.15. Consideraciones éticas ........................................................................................... 42 2. Desarrollo del proyecto ................................................................................................. 42 2.1. Resultados de la revisión ........................................................................................... 42 2.1.1. Virus de la hepatitis C ............................................................................................ 42 2.1.2. Genotipos del virus de hepatitis C ......................................................................... 43 2.1.3. Epidemiología del virus de la hepatitis C .............................................................. 44 2.1.4. Transmisión del virus de hepatitis C...................................................................... 45 2.1.5. Carcinoma hepático por virus de la hepatitis C ..................................................... 45 2.1.6. Carcinoma hepático en niños ................................................................................. 46 2.1.7. Diagnóstico de la infección por hepatitis C ........................................................... 48 2.1.8. Tratamiento para la hepatitis C .............................................................................. 49 2.1.9. Algoritmos y modelos matemáticos encontrados en la revisión para hepatitis C.. 51 3. Resultados ..................................................................................................................... 55 3.1. Modelamiento ............................................................................................................ 59 3.2. Resultados del Modelo predictivo ............................................................................. 60 3.3. Clasificación binaria de los pacientes B182 .............................................................. 65 4 3.4. Impacto estimado de ahorros y resultados en salud .................................................. 72 3.5. Resumen y resultados finales de la predicción .......................................................... 73 3.5.1. Planteamiento del Caso de Negocio ...................................................................... 73 3.5.2. Caso de Negocio para el Aprendizaje de Máquina (ML) ...................................... 73 3.5.3. Exploración de los datos e ingeniería de factores (parámetros) ............................ 75 3.5.4. Estrategia de modelamiento ................................................................................... 77 3.5.5. Datos para el modelamiento .................................................................................. 77 3.5.6. Selección de las técnicas de modelamiento ........................................................... 78 3.6. Estrategia final de modelamiento .............................................................................. 81 4. Recomendaciones .......................................................................................................... 88 4.1. Para adopción de modelo predictivo ......................................................................... 89 4.2. Estrategia de Big data en el MSPS y sector .............................................................. 89 4.3. Plan de despliegue ..................................................................................................... 90 5. Referencias Bibliográficas ............................................................................................ 92 Ã?ndice de tablas Tabla 1. Términos de búsqueda en Medline ......................................................................... 12 Tabla 2. Términos de búsqueda en Embase ......................................................................... 13 Tabla 3. Términos de búsqueda en Biblioteca Cochrane ..................................................... 13 Tabla 4. Términos de búsqueda en Lilacs ............................................................................ 13 Tabla 5. Caracterización de las fuentes de información utilizadas....................................... 18 Tabla 6. Conjunto balanceado en tres escenarios ................................................................. 23 Tabla 7. Variables de la base de datos MIPRES .................................................................. 26 Tabla 8. Variables de la base de datos RIPS ........................................................................ 28 Tabla 9. Variables de la base de datos de suficiencia de la UPC ......................................... 29 Tabla 10. Variables de la base de datos de BDUA ............................................................... 30 Tabla 11. Variables de la base de datos estadísticas vitales ................................................. 30 Tabla 12 Variables de la base de datos RUAF ..................................................................... 31 Tabla 13. Variables de la base de datos SIVIGILA ............................................................. 32 Tabla 14. Extracción de archivos maestros .......................................................................... 34 Tabla 15. Extracción de archivos maestros .......................................................................... 34 Tabla 16. Extracción de archivos maestros .......................................................................... 35 Tabla 17. Extracción de archivos maestros .......................................................................... 35 Tabla 18. Lectura y verificación de derivados ..................................................................... 36 Tabla 19. Lectura y verificación de derivados ..................................................................... 36 Tabla 20. Medicamentos aprobados por la EMA y FDA para el tratamiento de niños con hepatitis C ............................................................................................................................. 47 Tabla 21. Ahorros en dinero con base en la predicción realizada ....... Error! Bookmark not defined. Tabla 22. Relación entre el método, las técnicas, los paquetes y los algoritmos seleccionados de Rstudio para realizar las iteraciones de modelamiento ............................ 80 5 Tabla 23. Muestra de datos por tipo de base tomadas .......................................................... 82 Ã?ndice de figuras Figura 1 Algoritmo de verificación de datos MIPRES ........................................................ 38 Figura 2 Algoritmo de concatenación de datos .................................................................... 38 Figura 3 Algoritmo de verificación de datos BDUA............................................................ 39 Figura 4 Algoritmo de verificación de datos RUAF ............................................................ 39 Figura 5 Algoritmo de verificación de datos de estadísticas vitales..................................... 40 Figura 6 Matriz de confusión ............................................................................................... 61 Figura 7 Matriz de confusión para diagnóstico I110x .......................................................... 62 Figura 8 Matriz de confusión para diagnóstico B182 .......................................................... 64 Figura 9 Ã?rbol de decisión para la base RIPS ...................................................................... 65 Figura 10 Ã?rbol de decisión para la base RIPS, segundo modelo ........................................ 68 Figura 12 Modelamiento para la predicción de medicamentos ............................................ 81 Figura 13 Estructura de los modelos corridos en Azure ....................................................... 83 Figura 14 Primeros resultados encontrado con la base de datos RIPS en cuanto al clasificador de B182. ............................................................................................................ 83 Figura 15 Pruebas de ajuste de los parámetros de modelamiento ....................................... 84 Figura 16 Modelamiento sobre la base de datos de Suficiencia ........................................... 84 Figura 17 Modelamiento sobre la base de datos de Suficiencia con Boosted Decision Tree .............................................................................................................................................. 85 Figura 18 Características de las personas identificadas como potenciales B182 ................. 86 Figura 19 Histograma de las edades de los 86 pacientes clasificados de manera predictiva 87 Figura 20 Modelo con baja predicción para matriz de 3500 columnas………………...….88 6 1. Contexto La historia del virus de la hepatitis C (VHC) comienza con un editorial de The Lancet en 1975 que sugirió el término hepatitis no A, no B para describir la hepatitis ni diagnosticada como A ni B, subrayando que el diagnóstico fue de exclusión (Editorial, Non-A, non-B? , 1975). Quince años después, en 1989, Choo et al (Choo QL, 1989), aislaron con éxito un único clon de ADNc derivado de un nuevo virus similar a flaviviridae, utilizando numerosos métodos de biología molecular: el virus responsable de la mayoría de las hepatitis post- transfusionales, también llamada hepatitis tipo C finalmente se identificó la hepatitis no A no B no transmitida por vía parenteral (PT-NANB), la hepatitis asociada a transfusión no B, la hepatitis no A no B posterior a transfusión post-HC, HC, se identificó finalmente (Houghton., 2009) (Alter MJ K.-M. D., 1999). Todos estos determinantes inmunológicos explican parcialmente la capacidad del VHC para persistir en el organismo infectado y establecer una infección crónica, la mayoría de las veces sin la producción de síntomas llamativos, hasta la aparición de complicaciones a largo plazo, como la fibrosis hepática, la cirrosis y el CHC. Aproximadamente, el 75%-85% de las personas infectadas con el VHC desarrollarán hepatitis crónica, el 60% -70% desarrollará esteatosis hepática o fibrosis, el 5% -20% desarrollará cirrosis y en el 1% -5% la enfermedad progresará a una amenaza para la vida Complicaciones y CHC, dentro de los 20 años posteriores a la infección aguda (World Health Organization, 1999) (Wise M, 2008). Se ha calculado que 130-170 millones de personas están infectadas con el VHC, con una prevalencia global de infección estimada en 2% -3% (Lavanchy., The global burden of hepatitis C. , 2009) (Global Burden Of Hepatitis C Working Group. , 2004). La prevalencia del VHC se caracteriza por una alta variabilidad entre las regiones del mundo, los países individuales y entre los grupos de edad y riesgo dentro de los países: esto se puede explicar en parte por las características de la población analizada y el modo de transmisión primario. La prevalencia del VHC es más alta en Ã?frica y Oriente Medio, donde Egipto, Camerún, Arabia Saudita, Irak y Siria representan la mayoría de los casos y la prevalencia varía entre el 2% y el 15%. América del Norte, Australia, Japón y el norte y el oeste de Europa reportan una menor prevalencia de infección por el VHC, y ningún país muestra una tasa> 2%. China, India, Egipto, Pakistán e Indonesia representan aproximadamente la mitad de los sujetos infectados por el VHC en todo el mundo (Lavanchy., Evolving epidemiology of hepatitis C virus. , 2011) (Nerrienet E, 2005). En general, los países en desarrollo presentan la mayor carga relacionada con el VHC, pero también las principales limitaciones en la vigilancia: faltan datos de la mayoría de los países africanos, asiáticos y sudamericanos. En Egipto, el país con la prevalencia más alta de VHC, existe evidencia de una distribución de la infección relacionada con la edad: la seroprevalencia del VHC varía de 19% en sujetos <18 años a> 50% en el grupo de edad de 30 años. En este país, el VHC es endémico y los niveles continuos de transmisión del VHC son altos, principalmente debido a procedimientos médicos inseguros y contactos domésticos. El uso de procedimientos de esterilización inadecuados durante la campaña de erradicación de la esquistosomiasis llevada a cabo en Egipto desde la década de 1950 a la década de 1980 ha llevado a una transmisión extensa de VHC entre personas vivas durante esa campaña, pero la transfusión de sangre y la reutilización de agujas siguen siendo los 7 principales factores de riesgo. Aunque las proporciones de prevalencia son más bajas, otros países en desarrollo tienen un patrón epidemiológico similar, con una distribución de casos relacionada con la edad y una transmisión de virus vinculada a procedimientos médicos inseguros y transfusiones de sangre; sin embargo, datos recientes muestran el creciente papel que desempeña el uso de drogas inyectables en la propagación de la infección, especialmente en China e Irán (Miller FD, 2010) (Paez Jimenez A, 2010) (Paez Jimenez A M. M.-H.-D., 2009). La prevalencia del VHC en la mayoría de los países desarrollados se clasifica como baja, pero existen diferencias notables en el cuadro epidemiológico entre los países, principalmente relacionados con los factores temporales y de transmisión, y dieron lugar a una distribución diversa específica por edad de los casos del VHC (Alter., 2007). La encuesta más reciente sobre el número de personas infectadas con el VHC en los Estados Unidos estimó un total de 5 a 7 millones de personas seropositivas, una tercera parte de las cuales pertenece a poblaciones de alto riesgo, como personas encarceladas y sin hogar, y una prevalencia general del VHC del 1,6% -1.8%, con el 75% de los casos en sujetos nacidos entre 1945 y 1965. El consumo expandido de drogas inyectables ilícitas, el uso de procedimientos médicos inseguros y las transfusiones de sangre contaminadas son las causas más probables de la creación de la cohorte adulta de casos de VHC, evidencia confirmada por la disminución de las nuevas infecciones registradas desde mediados de la década de 1980, debido a las mejoras en las prácticas de atención de la salud y la introducción más reciente del cribado de donantes de sangre y órganos (Alter MJ K.-M. D., 1999) (Armstrong GL A. M., 2000) (Williams., 1999) (Williams IT, 2011). En América Latina, una estimación de la prevalencia de la infección por hepatitis C en la población general proviene del análisis de las muestras de los bancos de sangre, de los que surge que la seroprevalencia del virus entre los donantes es de: 0,65 por ciento en la Argentina; 0,56 por ciento en Bolivia; 0,8 por ciento en Brasil; 0,9 por ciento en Chile; 0,66 por ciento en México; 0,57 por ciento en Perú; y 0,69 por ciento en Paraguay (Dehesa- Violante M, 2007). En Colombia se notifica de manera obligatoria el evento hepatitis C al sistema de vigilancia epidemiológica nacional denominado SIVIGILA. De esta fuente de información se encontró que, en el año 2017, se notificaron 571 casos. Los departamentos y distritos de los cuales procedió la mayor densidad de casos correspondieron a Bogotá (31,0%), Antioquia (13,5%) y Valle del Cauca (9,5%), los cuales representan el 54,0% de la notificación de casos de este evento para este período. Del total de casos, el 56.7% son hombres. Según la variable población de riesgo reportada por las diferentes entidades territoriales, el 18,9 % de los casos de hepatitis C se presentaron en personas que tienen antecedentes de trasfusión, seguido por la población de hombres que tienen sexo con hombres con un 12,8% y personas que manifiestan tener múltiples parejas sexuales con el 12,6% de las notificaciones. La incidencia de hepatitis C en el año 2017 fue de 1.16 casos por 100.000 habitantes. Del total de departamentos en 25 de ellos se reportaron casos de este evento, siendo la incidencia más alta, comparada con la del país, la del departamento de Quindío y los distritos de Barranquilla y Bogotá. La incidencia de hepatitis C hasta el IX período de 2018 se encontró en 2.7 x 100.000 hab., este aumento podría deberse a la mejoría en la notificación de los casos con el fin de acceder a medicamentos de compra centralizada. El principal mecanismo de transmisión sigue siendo horizontal con 56%, seguido de materno infantil con 44%, sexual 8 con 13% y percutáneo con 1%. La incidencia más alta se encuentra en Amazonas, Guainía, Guaviare, Norte de Santander y Vichada. Además, de tener diferencias marcadas en la epidemiología de la enfermedad también la diversidad genética del virus contribuye a complicar el cuadro epidémico del VHC y constituye un grave desafío para una terapia eficaz. El VHC se caracteriza por una alta variabilidad genómica y se clasifica en 7 genotipos (1-7), que difieren en más de un 30% de diversidad de secuencias, y al menos en 67 subtipos, caracterizados por aproximadamente un 20% de divergencias de secuencias, según la última actualización. a la anterior clasificación de consenso del VHC (Simmonds P, Consensus proposals for a unified system of nomenclature of hepatitis C virus genotypes. , 2005) (Gottwein JM, 2008) (Smith DB, 2014). Además, cuando el VHC infecta a un individuo, múltiples virus estrechamente relacionados pero distintos, se puede identificar una población de "especies de cuasiespecíficas", con variaciones de secuencia de hasta el 10%: como ya se observó, la VHC polimerasa se caracteriza por la ausencia de capacidad de corrección de pruebas, y esto conduce a una alta tasa de mutación de 10-5-10-4 nucleótidos por ciclo de replicación (Duffy S, 2008). La identificación de genotipos y subtipos del VHC es un paso crucial para la definición de patrones epidemiológicos y un tratamiento eficaz. Los métodos actuales disponibles comercialmente permiten la detección de la disparidad de secuencias de nucleótidos utilizando enfoques directos o indirectos, y las nuevas tecnologías de secuenciación pueden detectar poblaciones virales menores en mezclas complejas de cuasi-especies; sin embargo, se requieren mejoras en la especificidad, la lectura de las longitudes de secuencia y la importancia clínica general de las secuencias generadas (Chao DT, Systematic review: epidemiology of hepatitis C genotype 6 and its management. , 2011) (Poordad F, 2012). La distribución global de los genotipos del VHC se caracteriza por marcadas diferencias geográficas, que reflejan el patrón evolutivo de los modos de transmisión y otros factores que influyen, como la inmigración y la difusión de la detección. El Genotipo 1 se distribuye en todo el mundo y es responsable de la mayoría de los casos en América, Europa, Australia y Japón; El subtipo 1b es el más común en Europa y Asia, mientras que el subtipo 1a se distribuye ampliamente en el norte de Europa y Estados Unidos. El genotipo 2 es más prevalente en los países industrializados, así como en América del Sur y Asia, particularmente en Japón y China, donde el subtipo 2a está comúnmente aislado; el genotipo 2b está muy extendido en el norte de Europa y Estados Unidos; El genotipo 2c es el subtipo más común en Europa occidental y meridional, Pakistán y la India. El genotipo 3, y en particular el subtipo 3a, prevalece en Europa, Estados Unidos, Australia y el sur de Asia; los datos recientes indican una tendencia creciente en el aislamiento del genotipo 3a y una disminución general del genotipo 1b y 2 con el tiempo, probablemente relacionada con la reducción de la transmisión iatrogénica de la infección y la difusión de drogas parenterales ilícitas, especialmente en Europa oriental y meridional (Chlabicz S, 2008) (Tallo T, 2007) (Katsoulidou A, 2006). Los genotipos 4-7 están limitados a distintas áreas y / o países. Los genotipos 4 y 5 se identifican principalmente en Ã?frica y Oriente Medio: el genotipo 4a prevalece en Egipto, mientras que el genotipo 4c prevalece en gran medida en Ã?frica Central; El genotipo 5 está mayormente aislado en Sudáfrica. El genotipo 6 y sus numerosos subtipos se encuentran principalmente en el sudeste asiático, y en algunos países como Tailandia, Vietnam y Myanmar, el genotipo 6 es el responsable de la mayoría de los nuevos casos de VHC. Se creía que los genotipos 4, 5 y 6 estaban confinados en Ã?frica del Norte, Ã?frica 9 Central y Asia Sudoriental, respectivamente, pero el aumento de las olas migratorias y los procesos de globalización están causando una propagación de estos genotipos fuera de las áreas citadas, en áreas cercanas de Asia y en lugares tan lejanos. Como países occidentales como Estados Unidos, Canadá y Europa del Norte. El genotipo 7 tiene una importancia clínica menor y se encontró recientemente en pacientes de Ã?frica Central y Tailandia (World Health Organization, 1999) (Sievert W, 2011) (Chao DT, Systematic review: epidemiology of hepatitis C genotype 6 and its management, 2011) (Nguyen MH, 2005) (Mauss S, 2012) (Bostan N, 2010) (Bunchorntavakul C, 2013). Ante este panorama. la disponibilidad de los nuevos antivirales de acción directa (AAD) para el tratamiento de la hepatitis C crónica ha provocado un cambio significativo en la epidemiología de la enfermedad (San Miguel R, 2015) (Razavi H, 2014). Hasta el año 2012, el tratamiento se basaba en el uso de peg-interferón y ribavirina, que aportaban una eficacia del 40-80% en función del genotipo y grado de fibrosis hepática, con importantes efectos secundarios (Fried., 2002) (McHutchison JG W. J., 2001). En 2012, se introdujeron los AAD de primera generación (boceprevir y telaprevir), mejorando la eficacia, pero empeorando el perfil de seguridad (Blázquez-Pérez A, 2013) (Hézode C, 2014). La segunda generación de AAD disponible en 2014, cambió de forma radical el abordaje terapéutico de la hepatitis C crónica (Lawitz E, 2013). La posibilidad de asociar estas moléculas en tratamientos libres de interferón, más breves, bien tolerados y con eficacias superiores al 95%, aumentó la demanda de tratamiento por los pacientes. Ante este panorama, en 2017, el Ministerio de Salud y Protección Social estableció los criterios para la compra centralizada de medicamentos para el tratamiento de la hepatitis C en Colombia, los cuales no son cubiertos actualmente por el Plan de Beneficios en Salud con cargo a la UPC – Unidad de pago por capitación; orientando el proceso de adquisición, distribución, suministro y seguimiento del tratamiento de los pacientes con infección crónica por el virus de la hepatitis C. Como parte de este esfuerzo, surgió la necesidad de elaborar una vía clínica, que, a partir de las recomendaciones de la Guía de Práctica Clínica (GPC), permita precisar las intervenciones que deben proporcionarse a los pacientes con esta enfermedad, en cada etapa del curso de su atención dentro del sistema de salud, desde el diagnóstico hasta el cierre del caso; con el propósito de favorecer la administración oportuna del tratamiento y el adecuado seguimiento de su toxicidad y efectividad. Sin embargo, al desconocerse la incidencia de la enfermedad se hace necesario encontrar metodologías que permitan estimar de manera adecuada el número de medicamentos a comprar por parte del Ministerio de Salud y Protección Social para esta patología. 1.1. Justificación del proyecto Como estrategia del Ministerio de Salud y Protección Social para adquirir los medicamentos antivirales de acción directa, se expidió la Resolución 1692 en mayo de 2017(4), que define los criterios para realizar la compra centralizada a través del Fondo Rotatorio de la Organización Panamericana de la Salud (OPS). Estos medicamentos no se encuentran cubiertos por el Plan de Beneficios en Salud con cargo a la UPC por lo que generar una compra directamente desde el Ministerio, facilitará el acceso al medicamento y disminuirá los costos para el sistema de salud. 10 En este marco, el presente proyecto pretende desarrollar un sistema basado en la minería de datos y la inteligencia artificial que permita hacer una predicción específica de la probabilidad de ser o haber sido contagiado con el VHC (Virus de la Hepatitis C) y por lo tanto tener prescripción de medicamentos que permita estimar la compra centralizada en el Ministerio de Salud y Protección Social. Se pretende diseñar y entrenar un modelo de predicción del riesgo de haber sido infectado, con base en los datos de personas que han sido atendidas en el sistema de salud y que tienen un diagnóstico positivo para VHC. Esto con el fin de: • Aplicar el modelo predictivo a la base de datos de personas que han sido atendidas por cualquier enfermedad en el sistema de salud, para establecer el subconjunto de aquellas que pueden haber sido infectadas por el VHC, que no han sido detectadas y que necesitarían medicamentos. • Profundizar la exploración de datos de las personas identificadas como infectadas y las potenciales infectadas, con las empresas aseguradoras, y ajustar el modelo predictivo. • Mejorar la comprensión de la dinámica social y de comportamientos de vida asociados al contagio del VHC, a su evolución clínica, y a la disposición de adherencia a la prevención y el tratamiento • Realizar planeación predictiva de la activación del ecosistema de salud para el incremento de la eficiencia y efectividad de manejo integral de la enfermedad. • Ampliar el conocimiento de la dinámica epidemiológica de multi y comorbilidades asociadas al VHC • Verificar la promesa de valor de los tratamientos del VHC e identificación de combinaciones y dosificaciones efectivas • Complementar las rutas de prevención, tratamiento y control del VHC 1.2. Problema En el año 2017, se notificaron al SIVIGILA 571 casos. Los departamentos y distritos de los cuales procedió la mayor densidad de casos correspondieron a Bogotá (31,0%), Antioquia (13,5%) y Valle del Cauca (9,5%), los cuales representan el 54,0% de la notificación de casos de este evento para este período. Del total de casos, el 56.7% son hombres. Según la variable población de riesgo reportada por las diferentes entidades territoriales, el 18,9 % de los casos de hepatitis C se presentaron en personas que tienen antecedentes de trasfusión, seguido por la población de hombres que tienen sexo con hombres con un 12,8% y personas que manifiestan tener múltiples parejas sexuales con el 12,6% de las notificaciones. La incidencia de hepatitis C en el año 2017 fue de 1.16 casos por 100.000 habitantes. Solo 25 del total de las entidades territoriales reportaron casos de este evento, siendo la incidencia más alta comparada con la del país la del departamento de Quindío y los distritos de Barranquilla y Bogotá. La incidencia de hepatitis C hasta el IX período de 2018 se encuentra en 2.7 x 100.000 hab. El principal mecanismo de transmisión sigue siendo horizontal con 56%, seguido de materno infantil con 44%, sexual con 13% y percutáneo con 1%. La incidencia más alta se encuentra en Amazonas, Guainía, Guaviare, Norte de Santander y Vichada. 11 Para hepatitis C se encuentra 1.22 x 100.000 hab. y los departamentos con mayor incidencia son Quindío, Risaralda, Bogotá, Valle del Cauca y Barranquilla. Según la cuenta de alto costo, hasta junio de 2018 se habían reportado 850 pacientes con diagnóstico confirmado de hepatitis C. De estos pacientes 565 de ellos ingresaron al proceso de compra centralizada de medicamentos. 1.3. Revisión de la literatura 1.3.1. Metodología Se realizó un estudio tipo revisión sistemática de la literatura con análisis cualitativo y cuantitativo para afinar las definiciones y conceptos relacionados con hepatitis C y la historia natural, así como, las transiciones entre las etapas de la enfermedad. 1.3.2. Métodos de Búsqueda Se realizó una búsqueda a través de las bases de datos Medline, Embase, The Cochrane Library y Lilacs. También se realizó una búsqueda manual a través de las referencias de los estudios seleccionados siguiendo la estrategia de bola de nieve. Se combinaron términos de búsqueda relacionados con la multimorbilidad, tales como ("hepatitis c"[MeSH Terms] OR "hepatitis c"[All Fields] OR "hepacivirus"[MeSH Terms] OR "hepacivirus"[All Fields]) AND (Review[ptyp] AND "loattrfree full text"[sb]). La estrategia de búsqueda se desarrolló iterativamente para identificar una combinación de términos con un nivel aceptable de sensibilidad y especificidad. Se restringió la búsqueda a artículos con un resumen disponible, publicado en español, inglés y portugués y aquellos publicados entre enero de 2000 y septiembre de 2018. El enfoque de la búsqueda de clústeres de multimorbilidad se realizó dentro del marco de toma de decisiones descrito por Milligan (1996). Las combinaciones de términos con operadores booleanos empleadas en cada una de las bases de datos son las siguientes: Tabla 1. Términos de búsqueda en Medline Id Término de búsqueda Resultados ("hepatitis c"[MeSH Terms] OR "hepatitis c"[All Fields] OR 1 "hepacivirus"[MeSH Terms] OR "hepacivirus"[All Fields]) AND 3.463 (Review[ptyp] AND "loattrfree full text"[sb]) ("hepatitis c"[MeSH Terms] OR "hepatitis c"[All Fields] OR 2 "hepacivirus"[MeSH Terms] OR "hepacivirus"[All Fields]) AND 782 ("carcinoma"[MeSH Terms] OR "carcinoma"[All Fields]) AND 12 Id Término de búsqueda Resultados hepatocellular[All Fields]) AND (Review[ptyp] AND "loattrfree full text"[sb]) ("hepatitis c"[MeSH Terms] OR "hepatitis c"[All Fields] OR "hepacivirus"[MeSH Terms] OR "hepacivirus"[All Fields]) AND 3 ("therapy"[Subheading] OR "therapy"[All Fields] OR "treatment"[All 2.423 Fields] OR "therapeutics"[MeSH Terms] OR "therapeutics"[All Fields])) AND (Review[ptyp] AND "loattrfree full text"[sb]) Tabla 2. Términos de búsqueda en Embase I Término Resultado d s 1 "hepatitis c" 346 2 "hepatitis c and hepatocellular carcinoma" 4 3 "hepatitis c and treatment" 187 Tabla 3. Términos de búsqueda en Biblioteca Cochrane Id Término de búsqueda Resultados 1 "hepatitis c" 55 2 "hepatitis c and hepatocellular carcinoma" 1 3 "hepatitis c and treatment" 1 Tabla 4. Términos de búsqueda en Lilacs Id Término de búsqueda Resultado 1 "hepatitis c" 2.703 2 "hepatitis c and hepatocellular carcinoma" 88 3 "hepatitis c and treatment" 547 13 1.3.3. Tipos de estudios incluidos Se incluyeron para la revisión estudios analíticos de corte transversal, descriptivos, de casos y controles, de cohorte y revisiones sistemáticas de la literatura con y sin metaanálisis. La selección de estudios se realizó siguiendo los pasos que se describen a continuación: 1. Se especificaron diferentes criterios de inclusión y exclusión para la selección de estudios por título, resumen y texto completo. 2. Dos investigadores seleccionaron una muestra aleatoria de quince títulos para controlar los criterios de inclusión y exclusión; no hubo desacuerdo o vaguedad. 3. Posteriormente, un autor evaluó todos los títulos por relevancia, con base en los criterios de inclusión y exclusión definidos. 4. Tres investigadores evaluaron de forma independiente una muestra de veinte resúmenes. No hubo desacuerdo entre los investigadores, después de lo cual todos los resúmenes restantes fueron seleccionados por un autor y, cuando fue necesario, por un segundo autor. 5. Los artículos de texto completo fueron evaluados de forma independiente por tres investigadores. Para evaluar los artículos de texto completo sobre los criterios de inclusión y exclusión, los dos autores designados para examinar el artículo de texto completo completaron una lista de verificación autoconstruida. 6. Las discrepancias y ambigüedades se resolvieron mediante discusión entre los tres investigadores y se procedió a la síntesis de la revisión que se muestra en los resultados de la revisión. 1.3.4. Identificación de los estudios De las búsquedas realizadas primero se revisaron los títulos y los resúmenes de los resultados, con el fin de identificar los estudios que reunían los criterios de inclusión propuestos; posteriormente se obtuvieron los documentos completos y se revisaron para determinar si se incluían en la revisión. Se explicó el motivo de exclusión de los estudios luego de leer el documento completo (Anexo I). Esta actividad fue realizada por dos investigadores de manera independiente, los casos de discrepancias se resolvieron por medio de consenso. Con la información obtenida se diligenció la base de datos para posteriormente extraer la información necesaria para un análisis cuantitativo de la información. 1.3.5. Nivel de evidencia Se empleó la clasificación de nivel de evidencia del Center of Evidence Based Medicine (OCEBM) Levels of Evidence Working Group (The oxford levels of evidence 2, 2009). La clasificación se presenta en el Anexo II. 1.3.6. Evaluación de calidad de los estudios La evaluación de la calidad de los artículos se fundamentó en los aspectos propuestos en la lista de verificación Fortalecimiento de la presentación de informes de estudios 14 observacionales en epidemiología (STROBE) (STROBE; STATEMENT., 2018), que se incluyó en la lista de verificación. Los ítems que se debían describir en los artículos fueron: (1) el diseño del estudio; (2) el ajuste; (3) el tamaño del estudio; (4) criterios de elegibilidad de los participantes; (5) el tipo de enfermedades incluidas para medir comorbilidad o multimorbilidad; (6) el método de recolección de datos; y (7) datos de resultado relacionados con la prevalencia de combinaciones de enfermedades. Estos aspectos también se consideraron como criterios de inclusión y exclusión. Para ser retenido en esta revisión, solo se seleccionaron los artículos que cumplieron el estándar de calidad especificado conforme a los criterios de inclusión y exclusión. La calidad de los estudios fue evaluada utilizando el instrumento de chequeo metodológico para estudios de revisión sistemática y posible metaanálisis, y el instrumento de chequeo metodológico para estudios de cohorte del grupo SIGN (Scottish Intercollegiate Guidelines Network)(24), el cual se presenta en el Anexo III. 1.3.7. Extracción y síntesis de datos De cada estudio incluido se extrajeron los siguientes datos: 1. Características del estudio: primer autor, año de publicación, país, tamaño del estudio, contexto, edad de la población; 2. Información relacionada con el número y tipos de enfermedades examinadas; 3. Información relacionada con (la prevalencia de) los grupos de enfermedades presentados. 4. Tabla de evidencia que contiene revista donde se publicó, país, año de publicación, nombre del artículo, resumen del artículo, prevalencia de multimorbilidad, fuentes de información, qué clúster se definen, cuál es la metodología para llegar a los clúster, propone proceso de priorización, si la respuesta a la anterior pregunta es afirmativa, cual es la metodología propuesta?, se propone un modelo de manejo clínico o de atención?, Qué estrategias de implementación propone, Qué estrategias de monitorización y seguimiento propone y comentarios adicionales. En el anexo 1 de este documento se encontrará la tabla de evidencia. • La lista de verificación se empleó para recopilar datos sobre las características del estudio. Estos datos se tabularon y ordenaron de acuerdo con la configuración de la población y la presencia o ausencia de una enfermedad índice específica. • Se calculó una edad promedio, pero cuando fue imposible, se analizó el rango de edad. Posteriormente, se recopilaron, contaron y tabularon todas las enfermedades posibles y las combinaciones de enfermedades descritas en los estudios incluidos. • Además, se recopilaron y presentaron las prevalencias correspondientes para cada combinación. • Todas las prevalencias dadas se refieren a la muestra total del estudio y, de no ser así, las prevalencias se convirtieron para relacionarse con la muestra total. 15 1.4. Metodología para el modelo predictivo El sistema predictivo para Hepatitis C crónica (VHC) {B182} tiene la finalidad de realizar una predicción cuantitativa del número de dosis de los tres principales medicamentos que se prescriben en Colombia para la atención de dicha enfermedad. Se escogió este código debido a que tiene mayor precisión diagnóstica relacionado con hepatitis C. La predicción cuantitativa del número de dosis requiere que se prediga el número de pacientes que pueden ser diagnosticados con VHC en el futuro cercano, y que, además, requieran medicamentos. Esto implica que no solo se debe predecir la probabilidad de ser infectado sino también la probabilidad de haber sido infectado y no estar diagnosticado, para después predecir la necesidad de medicamentos. 1.5. Fuentes de datos e institucionalidad (Sispro, Direcciones del MSPS) 1.5.1. Registro Individual de Prestación de Servicios de Salud – RIPS Es el conjunto de datos mínimos y básicos que el Sistema General de Seguridad Social en Salud requiere para los procesos de dirección, regulación y control, y como soporte de la venta de servicio, cuya denominación, estructura y características se ha unificado y estandarizado para todas las entidades y profesionales prestadores de servicios de salud. Los datos de este registro se refieren a la identificación del prestador del servicio de salud, del usuario que lo recibe, de la prestación del servicio propiamente dicho y del motivo que originó su prestación: diagnóstico y causa externa. El Registro Individual de Prestación de Servicios de Salud -RIPS- está conformado por tres clases de datos: • De identificación • Del servicio de salud propiamente dicho • Del motivo que originó su prestación Los datos de identificación son los de la entidad administradora del plan de beneficios, los del prestador del servicio y los de la transacción, reportados en una factura de venta de servicios. Los datos del Registro Individual de Prestación de Servicios de Salud – RIPS, son los relacionados con las consultas, los procedimientos, el servicio de urgencia, hospitalización y medicamentos, las características de dichos datos y los valores para cada uno de ellos. Los datos de consulta son aplicables a todo tipo de consulta, programada o de urgencia, médica general y especializada, odontológica general y especializada y las realizadas por otros profesionales de la salud. Los datos de procedimientos son aplicables a todos ellos, trátese de procedimientos diagnósticos o terapéuticos, de detección temprana o de protección específica. 16 Los datos de hospitalización son los generados cuando haya lugar a ella, cualquiera sea el motivo que la origine, e incluye las consultas intrahospitalarias, procedimientos y estancias. Los datos correspondientes a la prestación individual de servicios de salud de urgencia incluyen las consultas, procedimientos y estancia en observación. Los datos de recién nacidos corresponden individualmente a los de las condiciones y características al nacer de uno o más niños o niñas. Los datos de medicamentos están relacionados con la denominación y forma farmacológica de éstos. (MSPS, 2018) 1.5.2. Base de datos del Estudio de Suficiencia Unidad de Pago por Capitación (UPC ) Corresponde a la información proveniente de las Entidades Promotoras de Salud (EPS) a la que el Ministerio de Salud y Protección Social ha aplicado diversos procesos de calidad. La base reporta el gasto realizado por cada una de las EPS y las tecnologías en salud discriminadas por actividades, intervenciones, procedimientos, medicamentos, dispositivos e insumos vinculados a la atención en salud. Desde el punto de vista metodológico, esta base sirve como fundamento para los estudios de suficiencia y los mecanismos de ajuste para el cálculo de la unidad de pago por capitación. (MSPS, 2015) 1.5.3. Base de datos de MIPRES MIPRES es una herramienta tecnológica que permite a los profesionales de salud reportar la prescripción de tecnologías en salud no financiadas con recursos de la UPC o servicios complementarios. Se define como reporte de Prescripción de Servicios o Tecnologías en Salud No Cubiertas en el Plan de Beneficios en Salud con cargo a la UPC al diligenciamiento de la prescripción que realiza el profesional de la salud, o en casos excepcionales, las Entidades Promotoras de Salud (EPS) o las Entidades Obligadas a Compensar (EOC) de acuerdo con sus competencias, o en caso de servicios analizados por Juntas de Profesionales de la Salud, el profesional de la salud designado por las Instituciones Prestadoras de Servicios, mediante el aplicativo dispuesto por este Ministerio, que corresponde a un mecanismo automatizado en el que se reportan los servicios o tecnologías en salud prescritos que no se encuentren cubiertos por el Plan de Beneficios en Salud con cargo a la UPC. 1.5.4. Base de datos de la Cuenta de Alto Costo La Cuenta de Alto Costo (CAC), es un organismo técnico no gubernamental del Sistema General de Seguridad Social en Salud de Colombia creado mediante el Decreto 2699 de 2007 que obliga a las EPS de ambos regímenes a asociarse para abordar el Alto Costo. De acuerdo al Artículo 6 del Decreto 3511 de 2009, sobre la administración y financiación de la Cuenta de Alto Costo, las Entidades Promotoras de Salud del Régimen Contributivo -EPS y del Régimen Subsidiado -EPS-S y las Entidades Obligadas a Compensar -EOC, a través del organismo de administración conjunta que ellas conformen, fijarán anualmente el monto total de los recursos para el funcionamiento de la Cuenta de Alto Costo, con los cuales se 17 financiará la operación, administración y auditoria que conjuntamente definan las mencionadas entidades. 1.5.5. Base de datos de SIVIGILA El Sistema Nacional de Vigilancia en Salud Pública -SIVIGILA, que se ha creado para realizar la provisión en forma sistemática y oportuna, de información sobre la dinámica de los eventos que afecten o puedan afectar la salud de la población colombiana, con el fin de: • Orientar las políticas y la planificación en salud pública. • Tomar las decisiones para la prevención y control de enfermedades y factores de riesgo en salud. • Optimizar el seguimiento y evaluación de las intervenciones. • Racionalizar y optimizar los recursos disponibles y lograr la efectividad de las acciones en esta materia, propendiendo por la protección de la salud individual y colectiva. 1.5.6. Fuentes de información caracterizadas para este proyecto El MSPS administra tres bases de datos similares en cuanto a las variables que registran, pero diferentes en cuanto a la finalidad de uso, calidad y temporalidad. La siguiente tabla sintetiza la disponibilidad de información de estas tres fuentes: Tabla 5. Caracterización de las fuentes de información utilizadas Número de Razón Número Período Fuentes de Número de pacientes de de de Concepto Muestra información registros con código pacientes pacientes tiempo B182 B182 Prescripciones Todos los pacientes con 2017- Mipres 91.511 22.479 1.391 7.1 de diagnóstico de hepatitis B 2018 medicamentos (B182) 2009- Atenciones en Muestreo aleatorio del 1% Rips 26.389.149 4.692.309 4.357 0.01 2018 salud del total Costo de 2009- Muestreo aleatorio del 1% Suficiencia 3.294.664 23.957 2.818 11.8 atenciones en 2018 del total salud La estructuración de la información está centrada en los pacientes. Cada registro corresponde a un servicio de salud que se le ha prestado a un paciente. Esto significa que cada paciente puede tener uno o varios registros. Con excepción del ID y de la fecha de nacimiento, todas las variables del conjunto de datos son susceptibles de variar en el tiempo. En resumen, se tiene una configuración matricial de orientación vertical centrada en los pacientes. Para complementar las tres bases de datos principales, se cuenta con las siguientes bases de datos complementarias: - Datos generales de aseguramiento en salud de los pacientes - Datos de caracterización de los casos de VHC, que incluye calificación de los factores de riesgo en cada caso. - Datos de la defunción de los pacientes de VHC, con causas de muerte. En conclusión, los conjuntos de información disponibles para la estructuración de los “Data Setsâ€? de trabajo, son: 18 - Para todos los pacientes con y sin B182 (VHC) o Datos de identificación y caracterización del paciente o Datos de la relación institucional del paciente con el sistema de salud (aseguramiento en salud) o Historial de todas las atenciones (servicios, procedimientos, medicamentos) que ha recibido un paciente - Solo para los pacientes con VHC {B182} o Datos de caracterización de los casos de VHC, que incluye calificación de los factores de riesgo en cada caso. o Datos de la defunción de los pacientes de VHC, con causas de muerte. 1.6. Estrategias de modelamiento 1.6.1. Clasificación Binomial Para la estrategia de modelamiento A (Modelo de clasificación binomial, nominal de pacientes) se estructura un Data Set Matricial orientado a pacientes, en el que hay un único registro por cada paciente. Esto implicó transponer la estructura matricial vertical hacia una horizontal. Se reduce el número “nâ€? de filas de cada paciente en una sola fila. Se ha optado por hacer una transposición total de las siguientes variables: - Diagnósticos principales - Fecha de registro por primera vez de cada patología - Frecuencia de atenciones de salud de cada patología - Aseguradores de salud - Prestadores de servicios de salud - Régimen de salud del paciente - Tipo de paciente (cuantificación de niveles presentados) - Procedimientos recibidos - Tipo de servicios recibidos (cuantificación de niveles presentados) - Sexo La transposición se realiza mediante el mecanismo de extensión de columnas en la amplitud máxima del número de variaciones de cada una de las variables. Este método genera un gran número de estados “NAâ€? que se resuelve en el modelamiento mediante su omisión. Como ejemplo de ello está el caso de diagnóstico principal. “Diagnóstico principalâ€? es una variable tipo categórica, que en RStudio® se toma como un “Factorâ€? de un número de niveles similar a la totalidad de patologías registradas en el código CIE10. Como cada paciente tiene un número variable de patologías registradas, se calcula cual es el máximo valor de patologías que hay registradas para un paciente, y se crea ese mismo número de columnas, sobre las que se transponen los datos de cada paciente. El resultado es una matriz en la que cada fila corresponde a un paciente. Cada una de las variables creadas mantiene el carácter categórico (esta es una dificultad para ciertas técnicas que son muy exigentes a nivel computacional, como RandomForest). En las pruebas realizadas hasta el momento se ha encontrado que la cifra máxima de patologías, y por tanto de columnas o variables en las que se ha ampliado el “DataSetâ€? es de 19 1161. Sobre esta estructura de orientación horizontal se van añadiendo las columnas de todos los demás conjuntos de datos, para crear la estructura final. Una vez se tuvo toda la estructura se crea la columna o variable objetivo, que para el caso es B182, que tendrá un 1 si es diagnóstico positivo y 0 si es ausencia de diagnóstico. Esta variable objetivo corresponde a la variable Y, o variable dependiente. De esta manera se estructura el esquema de modelamiento: {𝑥(𝑖)} → {𝑦(𝑖)} ∀ 𝑖 𝜖 {1,2,3, … … . , 𝑛} 𝑦(𝑖) 𝜖 {𝐵182, ~𝐵182} 1.6.2. Predictivo Temporal - Regresivo Esta es una alternativa de modelamiento que busca superar la carencia de datos nominales sobre los factores de riesgo del VHC para todos los pacientes, es decir, datos de uso de drogas intravenosas, transfusiones, hombres que tienen sexo con hombres tatuajes entre otros; puesto que solo se tienen para los pacientes con diagnóstico efectivo de VHC. Este esquema estructura las series de tiempo de las frecuencias de eventos asociados a las patologías, y crea un Data Frame con el número de eventos de cada patología en la unidad de tiempo que se seleccione. Los datos están disponibles para trabajar con Día, Mes y Año, como unidades de tiempo. Esta estructura es complementada con series de tiempo no nominales (que no se pueden asociar a un paciente) pero que hacen parte del contexto social en el que ocurren los eventos de salud. Las series de tiempo complementarias, que se están estructurando, son: - Número de centros de tatuaje registrados - Número de procedimientos hematológicos realizados - Consumo de inyectables - Uso de medidas de protección sexual - Centros de estética registrados - Profesionales y auxiliares de la salud - Personas que son liberadas de las cárceles En resumen, se estructura un conjunto de datos de las frecuencias de las patologías y de un conjunto de factores de riesgo. El propósito técnico es emplear técnicas de correlación cruzada entre estas series de tiempo, para luego aplicar técnicas de pronóstico. 1.7. Algoritmos utilizados Se realizaron diversas visualizaciones para analizar las características de la representatividad de las muestras, a través de los siguientes observadores: - Cuidado de atención en salud 1 Trabajar con todas las patologías que ha registrado cada paciente es una decisión tomada sobre la pertinencia epidemiológica y médica de hacerlo, basado en el enfoque de multimorbilidad y comorbilidad. En igual sentido se incluye la fecha del primer registro de cada patología, y la frecuencia de eventos de salud asociados a cada patología. 20 - Asegurador del paciente - Sexo - Edad - Tipos de atención Con estos observadores se buscó identificar posibles sesgos de selección que no fueron encontrados. 1.7.1. Estrategia de modelamiento y logaritmos de aprendizaje para la predicción Para el modelo predictivo se utilizaron varios algoritmos los cuales se describen a continuación. 1.7.1.1. Ã?rbol de decisión Los árboles de decisión son un tipo de aprendizaje automático supervisado (es decir, se explica cuál es la entrada y cuál es la salida correspondiente en los datos de entrenamiento) donde los datos se dividen continuamente de acuerdo con un determinado parámetro. El árbol puede explicarse por dos entidades, a saber, nodos de decisión y hojas. Las hojas son las decisiones o los resultados finales. Y los nodos de decisión son donde se dividen los datos. Hay dos tipos principales de árboles de decisión: • Ã?rboles de clasificación (Sí / No tipos) que fue usado en este estudio dado que la variable de decisión es categórica. • Ã?rboles de regresión (tipos de datos continuos). Aquí la decisión o la variable de resultado es Continua. 1.7.1.2. Random forest Son modelos de aprendizaje en conjunto supervisados que se utilizan para la clasificación y la regresión. Los modelos de aprendizaje en conjunto agregan múltiples modelos de aprendizaje automático, lo que permite un mejor rendimiento general. La lógica detrás de esto es que cada uno de los modelos utilizados es débil cuando se emplea solo, pero fuerte cuando se junta en un conjunto. En el caso de los random forest, se utiliza una gran cantidad de árboles de decisión, que actúan como factores "débiles" y sus resultados se agregan, con el resultado representando el conjunto "fuerte". 1.7.1.3. Gradient tree boosting El aumento de gradiente del árbol es un algoritmo de predicción que produce secuencialmente un modelo en forma de combinaciones lineales de árboles de decisión, resolviendo un problema de optimización infinito-dimensional. Se combinaron el aumento de gradiente y el descenso acelerado de Nesterov para diseñar un nuevo algoritmo, que se denominó AGB (para el aumento acelerado del gradiente). Es demostrado empíricamente que AGB es menos sensible al parámetro de contracción y produce predictores que son considerablemente más escasos en el número de árboles, sin perder el rendimiento excepcional del aumento de gradiente. 21 1.7.1.4. Training Decision Jungles Las junglas de decisión son conjuntos de múltiples entrenamientos aleatorios. Hay dos formas populares para entrenar conjuntos aleatorios de clasificadores: • Entrenar múltiples clasificadores aleatorios en todo el conjunto de entrenamiento • Entrenar a cada clasificador aleatorio con base en el azar 1.7.1.5. Redes neuronales Las redes neuronales son una clase de modelos dentro de la literatura general de aprendizaje automático. Son en sí mismas aproximaciones de funciones generales, por lo que pueden aplicarse a casi cualquier problema de aprendizaje automático sobre el aprendizaje de un mapeo complejo desde la entrada al espacio de salida. 1.7.1.6. Regresión logística La regresión logística es el algoritmo de aprendizaje automático más famoso después de la regresión lineal. Los algoritmos de regresión lineal se usan para predecir / pronosticar valores, pero la regresión logística se usa para tareas de clasificación. El algoritmo de regresión logística también utiliza una ecuación lineal con predictores independientes para predecir un valor. El valor predicho puede estar en cualquier lugar entre el infinito negativo y el infinito positivo. Por este motivo es que la salida del algoritmo sea una variable de clase, es decir, 0-no, 1-sí. Por lo tanto, se están compactando la salida de la ecuación lineal en un rango de [0,1]. Para compactar el valor predicho entre 0 y 1, se usó la función sigmoide. Se toma la salida (z) de la ecuación lineal y se agrega a la función g (x) que devuelve un valor nominal h, el valor h estará en el rango de 0 a 1. 1.7.1.7. Support Vector Machine Una Máquina de vectores de soporte (SVM) es un clasificador discriminativo definido formalmente por un hiperplano separador. En otras palabras, dados los datos de entrenamiento etiquetados (aprendizaje supervisado), el algoritmo genera un hiperplano óptimo que categoriza nuevos ejemplos. En dos espacios dimensionales, este hiperplano es una línea que divide un plano en dos partes, donde en cada clase hay uno de los lados. 1.7.2. Estrategia de clasificación Se emplearon dos estrategias de modelamiento con diferentes técnicas de Inteligencia Artificial y aprendizaje estadístico. Las Estrategias son: 22 - A. Modelo de clasificación binomial, nominal de pacientes. El binomio objetivo es {B182, ~B182}2 - B. Modelo predictivo temporal, colectivo (datos agregados), basado en las series de tiempo de eventos de salud (hospitalizaciones, urgencias, consulta externa, prescripción de medicamentos, etc.). La estimación cuantitativa de la estrategia A, se calculó por conteo directo del número de pacientes cuya probabilidad de ser o haber sido infectado con VHC se considere, por parte del Ministerio de Salud y Protección Social (MSPS), como viable. La estimación cuantitativa de la estrategia B se obtuvo a través de técnicas de pronóstico (Forecasting) aplicadas a las series de tiempo y a las funciones de correlación resultantes. 1.8. Balanceo de las matrices de datos Se usaron tres (3) diferentes proporciones para balancear la matriz de datos antes de modelar debido a que pacientes con diagnóstico de B182 son muy pocos comparados con aquellos que no tienen este diagnóstico. Se usaron 80/20, 70/30 y 60/40. El conjunto de datos balanceados en los tres escenarios se observa en la tabla 6, e incluyen los años del período de estudio (2012-2017 y en el caso de MIPRES solo 2017 y 2018). Tabla 6. Conjunto balanceado en tres escenarios Proporcion Proporcion Proporcion 80/20 70/30 60/40 PACIENTES PACIENTES PACIENTES PACIENTES B182 ~B182 ~B182 ~B182 RIPS 4.357 17.428 10.166 6.536 SUFICIENCIA 2.818 11.272 6.575 4.227 MIPRES 1.391 5.564 3.246 2.087 1.9. Normalización de datos Se normalizaron los datos dado que se tenían datos extremos (outliers) sobre todo en las variables de edad. 1.10. Pruebas de validez y precisión de los modelos obtenidos Los requisitos exigidos para interpretar una predicción válida son: Validez: Es el grado en que un modelo mide lo que se supone que debe medir. La sensibilidad y la especificidad de un modelo son medidas de su validez. Reproductividad: es la capacidad del modelo para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho 2 ~B182 significa que el paciente no ha sido diagnosticado ni positiva ni negativamente con B182. 23 observado, la introducida por el propio observador y la derivada del modelo, determinan su reproductividad. Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. Exactitud (Accuracy): se refiere a la concordancia entre los resultados del modelo con la realidad. Cualquier valor por encima de 0.7 es adecuado. 1.10.1. Sensibilidad Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del modelo para detectar la enfermedad es decir los verdaderos positivos. Cualquier valor por encima de 0.7 es adecuado. 1.10.2. Especificidad Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo es decir los verdaderos negativos. Cualquier valor por encima de 0.7 es adecuado. 1.10.3. Valor predictivo positivo Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el modelo. Cualquier valor por encima de 0.7 es adecuado. 1.10.4. Valor predictivo negativo Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Cualquier valor por encima de 0.7 es adecuado. 1.11. Estrategias de Estructuración de los datos El sistema predictivo ACMED está pensado, inicialmente, como un ejercicio de aprendizaje supervisado en el que se tiene un conjunto de variables “xâ€? que determinan, desde el punto de vista técnico, el valor que toma una variable objetivo “yâ€?. Que se expresa de la siguiente manera: {𝑥(𝑖)} → {𝑦(𝑖)} ∀ 𝑖 𝜖 {1,2,3, … … . , 𝑛} 𝑦(𝑖) 𝜖 {í µí±œí µí±?1, í µí±œí µí±?2, … … í µí±œí µí±?𝑛} Esto quiere decir que la variable “yâ€? puede tomar mínimo dos valores, y por esta razón es considerado un ejercicio de clasificación, dentro de la terminología de la inteligencia artificial y la estadística. El conjunto {op1, op2, ……opn} constituye, en términos de probabilidad, el espacio muestral 𝛿 de un experimento de combinación de los factores “xâ€?. Para este caso específico el espacio muestral o conjunto de opciones es: 𝛿 = {í µí±‰â„Ží µí±?, í µí±?í µí±œí µí±‰â„Ží µí±?} 24 que significan el diagnóstico positivo de VHC y la no existencia de diagnóstico de VHC. Aunque hay una diferencia sustancial entre el diagnóstico negativo y la no existencia de diagnóstico. Es decir, que es diferente que, a un paciente, con determinado conjunto de factores “xâ€?, se le diagnostique que no tiene VHC y otra cosa es que se le diagnostique otra enfermedad. En la norma de Colombia para que se pueda diagnosticar el VHC se deben cumplir unos requisitos de procedimiento, de manera tal que se pueden cuatro situaciones: - Se practica el examen y se confirma el diagnóstico de VHC - Se practica el examen y no se confirma el diagnóstico de VHC - No se practica el examen y la persona tiene VHC, pero no es diagnosticado - No se practica el examen y a persona no tiene VHC No existe la información suficiente para saber si a una persona se le ha practicado o no el examen. De manera tal que se supone que a todos los que tienen el diagnóstico confirmado es porque se les ha practicado el examen, y del resto no se sabe. La tarea consiste en estructurar un conjunto de datos que cumpla esta característica x → y Para este fin se acoge el concepto de Máximo Común Informacional (MCI) que se define como todo el conjunto de variables que son comunes para todos los pacientes en el espacio muestral. Es decir, para los pacientes que tienen diagnóstico confirmado de VHC y los que no. Esto constituye una dificultad especial en tanto ciertos sistemas de información del MSPS están enfocados en la recolección de datos de pacientes que tienen un conjunto de patologías específicas, por ejemplo, las que se consideran de alto costo, y que constituyen una pieza clave para ciertos estudios, pero no pueden ser empleados en la fase 1 del modelo de predicción porque no son comunes para todos los pacientes. MIPRES, SIVIGILA Y ALTO COSTO recogen información extensa y de profundidad de los pacientes que tienen VHC, pero esta información no es compartida por los pacientes que no tienen VHC, de manera que en un modelo de aprendizaje supervisado no puede ser usado porque no hace parte del MCI. Es por esta razón que para este caso particular se tiene previsto un esquema predictivo de tres niveles, que son: - Predicción de la probabilidad de tener o de adquirir HVC - Predicción de la probabilidad de requerir medicamento - Pronóstico de la cantidad de medicamento requerido El VHC es una enfermedad con un mecanismo preciso y único de infección o contagio. Esto obliga a que el MCI contenga datos de los factores de riegos de transmisión. En su ausencia la capacidad predictiva toma una característica diferente. 25 Si se tienen los factores de riesgo de contagio la predicción se orienta a descubrir personas que puede haber sido infectadas y no han sido diagnósticas o personas que pueden ser infectadas. Si no se tienen los factores de riesgo de contagio la predicción se orienta a otro tipo de predictores asociados al comportamiento multi y comórbido del VHC, además de factores institucionales que conforman un contexto en el que “hay condiciones de transmisiónâ€?. El MSPS maneja tres bases de datos que se consideran como maestras o centrales para la estructuración del MCI y un conjunto de información complementaria asociada a cada una de estas tablas maestras. De esta manera el esquema general de conformación del MCI es el siguiente: {𝑅𝐼𝑃𝑆 + 𝑀𝐼𝑃𝑅𝐸𝑆 + í µí±†í µí±ˆí µí°¹í µí°¼í µí°¶í µí°¼í µí°¸í µí±?𝐶𝐼𝐴 + 𝐴𝐿𝑇𝑂 𝐶𝑂𝑆𝑇𝑂 + 𝑆𝐼𝑉𝐼𝐺𝐼𝐿𝐴 + 𝐵𝐷𝑈𝐴 + í µí±?𝐷𝑅𝑈𝐴𝐹 + 𝐸𝐸𝑉𝑉} → {í µí±‰â„Ží µí±?, ∼ í µí±‰â„Ží µí±?} El MCI está enfocado en el paciente o usuario. Esto quiere decir que cada fila del MCI es el conjunto único de información de un paciente, y que no existe un segundo registro del mismo paciente dentro del MCI. Esta es una exigencia especial del modelado en aprendizaje supervisado que impone un reto informático dadas las características propias de los registros de salud de los pacientes. La información de las que se dispone, en esencia es la siguiente: - Registro de todas las atenciones en salud que ha recibido una persona en el periodo de 2009-2018 (RIPS) - Registro de todas las prescripciones de medicamentos asociados a enfermedades de alto costo (en las que se incluye el VHC) que ha recibido una persona en el periodo 2017- 2018 (MIPRES) - Registro de atenciones y prescripciones de medicamentos recibidos por las personas (SUFICIENCIA) - Registro de todos los eventos de vigilancia epidemiológica asociados con el VHC en el periodo 2009-2016 (SIVIGILA) - Registros de aseguramiento social (que incluye salud) de las personas que han recibido atenciones en salud y se encuentran en RIPS o MIPRES (BDUA) - Registros de defunciones por causas básicas y directas asociadas al VHC (EEVV, NDRUAF) En la tabla 7, se observa la lista de variables de cada una de las bases de datos que se contemplan para la conformación del MCI. Tabla 7. Variables de la base de datos MIPRES Variable Is Is Variable name type KEY FACTOR PersonaBasicaID Int Yes NumeroPrescripcion num Yes FechaPrescripcion date CodigoIPS chr yes IPS chr yes 26 CodigoMunicipioPrestador chr yes MunicipioPrestador chr yes CodigoDepartamentoPrestador chr yes DepartamentoPrestador chr yes AmbitoAtencion chr yes EnfermedadHuerfana chr yes CodigoDiagnosticoPrincipal chr yes DiagnosticoPrincipal chr yes CodigoDiagnosticoRelacionado1 chr yes DiagnosticoRelacionado1 chr yes CodigoDiagnosticoRelacionado2 chr yes DiagnosticoRelacionado2 chr yes RequiereSoporteNutricional chr yes CodigoEPS chr yes EPS chr yes FechaRegistro date Sexo chr yes FechaNacimiento date Edad int NivelSISBEN chr yes EstaEnVictimas chr yes EstaEnDiscapacidad chr yes EstaEnCensoEnfermedadesHuerfanas chr yes Medicamento chr yes Con estas variables se pueden crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝐷𝑎𝑡𝑜𝑠 í µí±?í µí±Ÿí µí±’í µí± í µí±?í µí±Ÿí µí±–í µí±?í µí±?𝑖𝑜𝑛, • 𝐸𝑛𝑡𝑖𝑑𝑎 𝑞𝑢𝑒 í µí±?í µí±Ÿí µí±’í µí± í µí±?í µí±Ÿí µí±–í µí±?𝑒, • 𝑅𝑒𝑔𝑖𝑜𝑛 𝑑𝑒 í µí±ƒí µí±Ÿí µí±’í µí± í µí±?í µí±Ÿí µí±–í µí±?í µí±?𝑖ó𝑛, • í µí°´í µí±ší µí±?𝑖𝑡𝑜 í µí±ƒí µí±Ÿí µí±’í µí± í µí±?í µí±Ÿí µí±–í µí±?í µí±?𝑖ó𝑛, • 𝐴𝑠𝑒𝑔𝑢𝑟𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝑆𝑒𝑥𝑜, • 𝐸𝑑𝑎𝑑 , • í µí°·í µí±–í µí±Ží µí±”í µí±›Ã³í µí± í µí±¡í µí±–í µí±?𝑜𝑠 í µí±Ží µí± í µí±œí µí±?𝑖𝑎𝑑𝑜𝑠 𝑎 𝑙𝑎 í µí±?í µí±Ÿí µí±’í µí± í µí±?í µí±Ÿí µí±–í µí±?í µí±?𝑖ó𝑛, • í µí°¶í µí±œí µí±›í µí±‘í µí±–í µí±?𝑖𝑜𝑛𝑒𝑠 í µí±’í µí± í µí±?í µí±’í µí±?𝑖𝑎𝑙𝑒𝑠 𝑑𝑒𝑙 í µí±?í µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • í µí±?í µí±œí µí±›í µí±‘í µí±–í µí±?𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑 í µí±?í µí±Ÿí µí±–í µí±›í µí±?í µí±–í µí±?𝑎𝑙} En la tabla 8, se observa la columna IS FACTOR indica que estas son variables que toman sus valores de entre un conjunto fijo de posibilidades. Técnicamente se les conoce como variables categóricas. La columna IS KEY indica si la variable es una llave de enlace con otras tablas. 27 En este caso se tienen dos llaves: PersonaBasicaID, que es la llave central de todas las tablas, y la variable NumeroPrescripcion que hace un enlace con la tabla de descripción de los medicamentos prescritos. Tabla 8. Variables de la base de datos RIPS Variable name Variable Is Is type KEY FACTOR PersonaBasicaID Int Yes TipoEvento chr Yes Fecha date Administradora chr Yes Regimen chr Yes DiagnosticoPrincipal chr Yes DiagnosticoEgreso chr Yes FinalidadProcedimiento chr Yes FinalidadConsulta chr Yes TipoUsuario chr Yes CausaExterna chr Yes Prestador chr Yes ClasePrestador chr Yes EstadoSalida chr Yes Procedimiento chr Yes CodigoMunicipio chr Yes Municipio chr Yes TipoDiagnosticoPrincipal chr Yes CostoConsulta num CostoProcedimiento num NetoPagarConsulta num NumeroDiasEstancia int Edad int Sexo chr Con estas variables se pueden crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝐷𝑎𝑡𝑜𝑠 í µí±?í µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛 𝑑𝑒𝑙 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜, • 𝐸𝑛𝑡𝑖𝑑𝑎 í µí±?𝑟𝑒𝑠𝑡𝑎𝑑𝑜𝑟𝑎, • 𝐴𝑠𝑒𝑔𝑢𝑟𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí±?í µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝑅𝑒𝑔𝑖𝑜𝑛 𝑑𝑒 í µí±ƒí µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛, • 𝐹𝑖𝑛𝑎𝑙𝑖𝑑𝑎𝑑 í µí±?í µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛, • 𝐴𝑠𝑒𝑔𝑢𝑟𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝑆𝑒𝑥𝑜, • 𝐸𝑑𝑎𝑑 , • í µí°·í µí±–í µí±Ží µí±”í µí±›Ã³í µí± í µí±¡í µí±–í µí±?𝑜𝑠 í µí±Ží µí± í µí±œí µí±?𝑖𝑎𝑑𝑜𝑠 𝑎 𝑙𝑎 í µí±?í µí±Ÿí µí±’í µí±¡í µí±Ží µí±?𝑖ó𝑛, • í µí±¡í µí±–í µí±?𝑜 𝑑𝑒 í µí±?í µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛, • 𝐶𝑜𝑠𝑡𝑜𝑠 í µí±ƒí µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛, • 𝑑í𝑎𝑠 í µí±’í µí± í µí±¡í µí±Ží µí±›í µí±?𝑖𝑎} En la tabla 9, se observan las variables de la base de suficiencia de la UPC. 28 Tabla 9. Variables de la base de datos de suficiencia de la UPC Variable Type Key Factor CodigoAdministradora chr Yes PersonaBasicaID int Yes FechaNacimiento date Sexo chr Yes MunicipioCD chr Yes DiagnosticoCD chr Yes DiagnosticoDesc chr Yes FechaServicio date ProcedimientoCD chr Yes ActividadCD chr Yes ambitosprocedimientocd chr Yes formareconocimientocd chr Yes diasestancia int tipocodigoprocedimentocd chr Yes tiposerviciocd chr Yes ValorPagado num CodigoHabilitacion chr Yes nombrerazonsocial chr Yes MedicamentoDesc chr Yes Con estas variables se crean los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝑆𝑒𝑥𝑜, • 𝐸𝑑𝑎𝑑, • 𝑅𝑒𝑔𝑖ó𝑛 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜, • 𝐷𝑎𝑡𝑜𝑠 𝑑𝑒𝑙 í µí±?í µí±Ÿí µí±œí µí±?𝑒𝑑𝑖𝑚𝑖𝑒𝑛𝑡𝑜, • í µí±¡í µí±–í µí±?𝑜 𝑑𝑒 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜, • 𝑃𝑟𝑒𝑠𝑡𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜, • 𝑎𝑠𝑒𝑔𝑢𝑟𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí±?í µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝐶𝑜𝑠𝑡𝑜 𝑑𝑒𝑙 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜, • í µí±ší µí±’í µí±‘í µí±–í µí±?𝑎𝑚𝑒𝑛𝑡𝑜𝑠} En estas tres primeras tablas, denominadas maestras, se hace evidente que los conjuntos de información principales y comunes son: • {𝐷𝑎𝑡𝑜𝑠 𝑑𝑒𝑙 í µí±?í µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • 𝐷𝑎𝑡𝑜𝑠 𝑑𝑒𝑙 𝑎𝑠𝑒𝑔𝑢𝑟𝑎𝑑𝑜𝑟 𝑑𝑒𝑙 í µí±?í µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒 • Datos del servicio de salud recibido • í µí°·í µí±–í µí±Ží µí±”í µí±›Ã³í µí± í µí±¡í µí±–í µí±?𝑜𝑠 í µí±Ží µí± í µí±œí µí±?𝑖𝑎𝑑𝑜𝑠 𝑎 𝑙𝑎 í µí±?í µí±Ÿí µí±’í µí± í µí±¡í µí±Ží µí±?𝑖ó𝑛 𝑑𝑒 í µí± í µí±’í µí±Ÿí µí±£í µí±–í µí±?𝑖𝑜𝑠} 29 Esto quiere decir que de las tablas maestras solo se pueden obtener los siguientes registros centrales: - Datos de identificación y caracterización del paciente - Datos de la relación institucional del paciente con el sistema de salud - Historial de todas las atenciones (servicios, procedimientos, medicamentos) que ha recibido un paciente - Historial de los diagnósticos por lo que ha sido atendido el paciente Ahora veamos las estructuras de variables de las fuentes de información complementarias. En la tabla 10, se observan las variables de la base BDUA. Tabla 10. Variables de la base de datos de BDUA VARIABLE TYPE IS KEY IS FACTOR PersonaBasicaID int Yes CodigoAdministradora chr yes Administradora chr yes EstadoAfiliacion chr yes TipoRegimen chr yes TipoCotizante chr yes TipoAfiliado chr yes DepartamentoAfiliacion chr yes MunicipioAfiliacion chr yes Con estas variables se pueden crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • Asegurador del paciente, • Características de la afiliación, • Región de afiliación En la tabla 11, se observan las variables de la base de estadísticas vitales. Tabla 11. Variables de la base de datos estadísticas vitales VARIABLE TYPE IS KEY IS FACTOR PersonaBasicaID int yes Sexo chr yes Edad int PertenenciaEtnica chr yes FechaDefuncion date 30 DepartamentoOcurrencia chr yes MunicipioOcurrencia chr yes CausaBasicaMuerte chr yes CausaDirectaMuerte chr yes CausaAntecedente1 chr yes CausaAntecedente2 chr yes CausaAntecedente3 chr yes OtrosEstadosPatologicos chr yes Con estas variables se pueden crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • Sexo, • Edad, • Fecha de defunción, • Región de defunción, • Causas de la defunción} En la tabla 12, se observan las variables de la base de RUAF. Tabla 12. Variables de la base de datos RUAF VARIABLE TYPE IS KEY IS FACTOR PersonaBasicaID int YES Sexo chr Edad int PertenenciaEtnica chr yes FechaDefuncion date DepartamentoOcurrencia chr yes MunicipioOcurrencia chr yes CausaDirectaMuerte chr yes CausaAntecedente1 chr yes CausaAntecedente2 chr yes CausaAntecedente3 chr yes Con estas variables se pueden crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, 31 • Sexo, • Edad, • Fecha de defunción, • Región de defunción, • Causas de la defunción} En la tabla 13, se observan las variables de la base de SIVIGILA. Tabla 13. Variables de la base de datos SIVIGILA CAMPO DESCRIPCION PersonaBasicaID ID cod_eve evento fec_not notificacion semana semana epi año año cod_pre Prestador cod_sub Prestador cod_pais_o pais cod_dpto_o depto cod_mun_o municipio clas_final Clasificación final del caso hij_mad Población riesgo madre-hijo hemodializ Hemodiálisis tra_sal Trabajador salud acc_labora accidente laboral trans_orga trasplante órganos dro_par Drogas inyectables con_por Convive portador con_sex Contacto sexual portador procedimie Procedimiento acupuntura acupuntura met_tra Método transmisión más probable don_san Donante de sangre momdiag_ge Diagnostico vac_ant vacunación VHB num_dos numero de dosis fec_ter_do fecha ultima dosis fuente_b Fuente pres_sys presentó síntomas y signos 32 cuales_com complicaciones coinf_vih VIH vac_rec_na Vacunación VHB recién nacido gam_rec_na Gammaglobulina anti VHB complicaci Complicaciones semana_de_gestación_al_diagnos gestación diagnostico tico ndep_proce región procedimiento nmun_proce región procedimiento ndep_resi región residencia nmun_resi región residencia ndep_notif región notificación nmun_notif región notificación De la base de SIVIGILA, trae información de las personas que tienen un diagnóstico confirmado de VHC. Con estas variables se puedieron crear los siguientes agrupamientos: • {í µí°¼í µí°·í µí±ƒí µí±Ží µí±?𝑖𝑒𝑛𝑡𝑒, • Asegurador del paciente, • Región residencia • Región procedimiento • Región notificación, • Factores de riesgo de contagio, • Diagnósticos, • Síntomas, • Complicaciones, • Clasificación del caso} Está claro que SIVIGILA no es procedente con fuente de información para el primer nivel de predicción, en tanto que, su información es exclusiva de los pacientes que tienen VHC, y no es imputable de ninguna manera a los pacientes que no tienen VHC. En el caso de los pacientes de EEVV y NDRUAF, se pueden incorporar las variables con una columna de enlace denominada MUERTE, y posterior se incluyen los datos de las causas básicas y directas. De esta manera se establece, de manera preliminar, que el MCI que se puede establecer es el siguiente: - Datos de identificación y caracterización del paciente - Datos de la relación institucional del paciente con el sistema de salud (aseguramiento en salud) - Historial de todas las atenciones (servicios, procedimientos, medicamentos) que ha recibido un paciente - Historial de los diagnósticos por lo que ha sido atendido el paciente - Registro de las causas de defunción 33 1.12. Organización y limpieza de los datos disponibles. 1.12.1. Lectura archivos maestros Se recibieron doce extracciones de Bases de Datos (BD), cada una corresponde a una muestra aleatoria del 1% del total de registros (Maestra) y otros son archivos relacionados (Derivada). De manera tal que se tienen dos tipos de extracciones: maestras y derivadas. Los archivos recibidos se observan en la tabla 14. Tabla 14. Extracción de archivos maestros Archivo FILE# FILE NAME BD TIPO relacionado 1 Extraccion1Prescripciones.txt MIPRES Maestra 2 Extraccion1Medicamentos.txt MIPRES Derivada #1 3 Extraccion2Rips.txt RIPS Derivada #1 4 Extraccion3Prescripciones.txt MIPRES Maestra 5 Extraccion3Medicamentos.txt MIPRES Derivada #4 6 Extraccion4Rips.txt RIPS Maestra 7 Extraccion5Rips.txt RIPS Maestra 8 Extraccion6Sivigila.txt SIVIGILA Derivada 9 Extraccion7BDUA.txt BDUA Derivada #1 10 Extraccion7EEVV.txt EEVV Derivada #1 11 Extraccion7NDRUAF.txt NDRUAF Derivada #1 12 Extraccion7Suficiencia.txt SUFICIENCIA Maestra Los archivos maestros son el eje central del conjunto de datos, tipos CSV, que se recibieron son los siguientes (Tabla 15). Tabla 15. Extracción de archivos maestros No. No. # Nombre Contenido Registros DUPLICADOS 1 Extraccion1Prescripciones.txt Mipres VHC 3.337 6 2 Extraccion3Prescripciones.txt Mipres No VHC 88.211 31 3 Extraccion4Rips.txt Rips No VHC 24.565.569 5.597.966 4 Extraccion5Rips.txt Rips VHC 85.395 15.482 5 Extraccion7Suficiencia.txt Suficiencia 3.294.664 454.874 Los duplicados son registros completos, de todas las variables, que aparecen dos o más veces en los archivos. Se consideran un error de la BD o de la extracción. Estos duplicados se 34 eliminan y con los nuevos archivos se hace el conteo de pacientes, empleando el método de contar los registros únicos de la variable de identificación de personas (PersonaBasicaID) en todos los archivos. Con estas modificaciones los archivos maestros quedan de la siguiente manera (Tabla 16). Tabla 16. Extracción de archivos maestros No. No. # Nombre Contenido Registros PACIENTES 1 Extraccion1Prescripciones.txt Mipres VHC 3.331 1.828 2 Extraccion3Prescripciones.txt Mipres No VHC 88.180 20.660 3 Extraccion4Rips.txt Rips No VHC 18.967.603 725.427 4 Extraccion5Rips.txt Rips VHC 69.913 30.009 5 Extraccion7Suficiencia.txt Suficiencia 3.294.664 23.957 El número de pacientes es la cuenta de registros únicos de la variable “PersonaBasicaIDâ€?, que es la llave de identificación de los ciudadanos y que es común a todos los archivos. Los archivos se unen para formar tres archivos maestros (Tabla 17). Tabla 17. Extracción de archivos maestros No. No. # Nombre Contenido Registros PACIENTES 1 Mipres Mipres 91.511 22.488 2 Rips Rips 19.037.516 755.436 3 Suficiencia Suficiencia 3.294.664 23.957 1.12.2. Lectura y verificación de derivados Los archivos derivados son archivos que están encadenados a los archivos maestros a través de la llave de identificación de las personas (PersonaBasicaID). Se recibieron siete archivos derivados sobre los que se practicaron las pruebas de lectura y verificación de encadenamientos, con los siguientes resultados. De la lectura e identificación de registros duplicados se obtuvo el siguiente resultado (Tabla 18). 35 Tabla 18. Lectura y verificación de derivados No. No. # Nombre Contenido Registros DUPLICADOS 1 Extraccion1Medicamentos.txt Mipres Medicamentos VHC 3.028 100 2 Extraccion2Rips.txt Rips de Mipres VHC 481.081 105.468 Mipres Medicamentos no 3 Extraccion3Medicamentos.txt 97.047 184 VHC 4 Extraccion6Sivigila.txt Sivigila 1.303 0 5 Extraccion7BDUA.txt Bdua 23.012 0 6 Extraccion7NDRUAF.txt Ndruaf 604 0 7 Extraccion7EEVV.txt EEVV 725 0 Los duplicados son registros completos (todas las variables) que deben eliminarse porque son errores de las BD o del proceso de extracción. Estos duplicados se eliminan y con los nuevos archivos se hace el conteo de pacientes, empleando el método de contar los registros únicos de la variable de Identificación de personas (PersonaBasicaID) en todos los archivos. Con estas modificaciones los archivos maestros quedan de la siguiente manera (Tabla 19). Tabla 19. Lectura y verificación de derivados No. No. # Nombre Contenido Registros PACIENTES 1 Extraccion1Medicamentos.txt Mipres Medicamentos VHC 2.928 1.493 2 Extraccion2Rips.txt Rips de Mipres VHC 375.613 1.818 Mipres Medicamentos no 3 Extraccion3Medicamentos.txt 96.863 20.561 VHC 4 Extraccion6Sivigila.txt Sivigila 1.303 1.286 5 Extraccion7BDUA.txt Bdua 23.012 23.012 6 Extraccion7NDRUAF.txt Ndruaf 604 604 7 Extraccion7EEVV.txt EEVV 725 725 1.12.3. Verificación de encadenamientos entre archivos Los cuatro archivos maestros tienen encadenamientos con los archivos complementarios para poder estructurar un Data Frame (DF) de modelamiento. El encadenamiento debe darse a nivel de cada uno de los pacientes. Esto quiere decir que para cada paciente se debe poder 36 estructurar un data frame compuesto por datos provenientes de las tablas maestras y de las complementarias. Para lograr esto se diseñó la extracción de datos en dos grupos (más adelanta se explica la base teórica de este tipo de extracción aleatoria): el primer grupo es de pacientes que tienen el diagnóstico B182, que corresponde a Hepatitis c tipo Crónica, que es el diagnóstico para el que formulan o prescriben los medicamentos de alto costo sobre los que el MSPS tiene interés de predecir. En ese sentido la lógica de la extracción es la siguiente: - Definir los medicamentos de alto costo de interés - Identificar las patologías de mayor frecuencia de prescripción de estos medicamentos - Identificar los pacientes que tienen estas patologías y a los que se les prescriben estos medicamentos - Obtener toda la información posible disponible sobre estos pacientes Por tratarse de un ejercicio de aprendizaje supervisado de clasificación binomial es necesario hacer una extracción de pacientes que no tienen las patologías de interés. Esto implica que para los dos conjuntos de datos debe existir concatenación a nivel de pacientes con todas las bases de datos disponibles. El objetivo es poder estructurar una única Data Frame con la misma información, los mismos datos, para las dos poblaciones: la que tiene el diagnóstico B182 y la que no lo tiene. De eso se trata el proceso de ingeniería de factores o de características: identificar cuáles son los datos disponibles para estructura este Data Frame. Entonces se procede a realizar las verificaciones de las concatenaciones entre las tres tablas maestras: Mipres, Rips y Suficiencia, y todos los archivos en cadenados o complementarios. 1.12.4. Medicamentos con prescripciones en Mipres En los dos archivos de medicamentos, que se encadenan con los archivos de prescripciones de MIPRES, no hay relación directa con el número de pacientes sino con el número de la prescripción. Esto se resuelve haciendo una consulta cruzada entre las dos variables de “NumeroPrescripcionâ€? y “PersonabasicaIDâ€?. Para facilidad de la lectura es mejor evitar la notación científica del campo “NumeroPrescripcionâ€?, ya que es un número de 20 dígitos y la notación científica dificulta la verificación. Con las cifras de pacientes encontradas queda verificada la derivación o concatenación de las siguientes tablas: - Extraccion1Medicamentos.txt con Extraccion1Procedimientos.txt - Extraccion3Medicamentos.txt con Extraccion3Prescripciones.txt 37 1.12.5. Registros en RIPS de pacientes que están en MIPRES con VHC Extraccion2Rips.txt en Extraccion1Prescripciones.txt Esta concatenación corresponde a los registros en RIPS de pacientes que están en MIPRES con VHC. El resultado del algoritmo de verificación es el siguiente (Figura 1). Figura 1 Algoritmo de verificación de datos MIPRES Esto significa que esta concatenación o derivación está confirmada. Se puede resaltar que en la BD de MIPRES con VHC hay 1828 pacientes, de los cuales 1818 tienen además registros RIPS. Concatenación de los registros de pacientes con VHC que están en Sivigila y que están en RIPS y MIPRES (Figura 2). Figura 2 Algoritmo de concatenación de datos Esto confirma que existen las siguientes derivaciones: - Extraccion7Sivigila y Extraccion1Prescripcion.txt - Extraccion7Sivigila y Extraccion5Rips.txt Es necesario aclarar que, si bien existe la relación entre los registros en Sivigila y MIPRES y RIPS, en lo que a pacientes con VHC se refiere, las cifras de relación son bajas por número de pacientes. Es necesario hacer una precisión de los criterios de extracción en las BD de VHC para ajustar estas cifras. En la extracción original se incluyeron varios diagnósticos de Hepatitis C (crónica y aguda) y otras Hepatitis no especificadas. Finalmente, la Dirección de Medicamentos y Tecnologías en Salud del Ministerio de Salud y Protección Social determinó que solo se debe trabajar con el B182, que corresponde a Hepatitis tipo C crónica. 1.12.6. BDUA con relación a los archivos maestros Ahora se procede a verificar la relación entre la BD BDUA y los archivos maestros. Esto quiere decir que se verifica si los pacientes que figuran en RIPS y MIPRES con y sin VHC tienen registros en BDUA. La verificación se hace para cada archivo por separado para poder identificar las posibles falencias de extracción y/o registro. Las derivaciones que se verifican son (Figura 3): - Extraccion7BDUA.txt y Extraccion1Prescripcion.txt - Extraccion7BDUA.txt y Extraccion3Prescripcion.txt - Extraccion7BDUA.txt y Extraccion4Rips.txt - Extraccion7BDUA.txt y Extraccion5Rips.txt 38 Figura 3 Algoritmo de verificación de datos BDUA Estos resultados verifican la concatenación de BDUA con los archivos maestros, sin embargo, la cantidad de registros es baja. Esto puede deberse al criterio de extracción que será necesario revisar para ampliar estas concatenaciones. 1.12.7. NDRUAF con los archivos maestros Ahora se procede a verificar la relación entre la BD NDRUAF y los archivos maestros. Esto quiere decir que se verifica si los pacientes que figuran en RIPS y MIPRES con y sin VHC tienen registros en NDRUAF. La verificación se hace para cada archivo por separado para poder identificar las posibles falencias de extracción y/o registro. Las derivaciones que se verifican son: - Extraccion7NDRUAF.txt y Extraccion1Prescripcion.txt - Extraccion7NDRUAF.txt y Extraccion3Prescripcion.txt - Extraccion7NDRUAF.txt y Extraccion4Rips.txt - Extraccion7NDRUAF.txt y Extraccion5Rips.txt Figura 4 Algoritmo de verificación de datos RUAF Esto resultados verifican la concatenación de NDRUAF con los archivos maestros, sin embargo, la cantidad de registros es baja. Esto puede deberse al criterio de extracción que será necesario revisar para ampliar estas concatenaciones. 39 1.12.8. EEVV con los archivos maestros Ahora se procede a verificar la relación entre la BD EEVV y los archivos maestros. Esto quiere decir que se verifica si los pacientes que figuran en RIPS y MIPRES con y sin VHC tienen registros en EEVV. La verificación se hace para cada archivo por separado para poder identificar las posibles falencias de extracción y/o registro. Las derivaciones que se verifican son: - Extraccion7EEVV.txt y Extraccion1Prescripcion.txt - Extraccion7EEVV.txt y Extraccion3Prescripcion.txt - Extraccion7EEVV.txt y Extraccion4Rips.txt - Extraccion7EEVV.txt y Extraccion5Rips.txt Figura 5 Algoritmo de verificación de datos de estadísticas vitales Esto resultados verifican la concatenación de EEVV con los archivos maestros, sin embargo, la cantidad de registros es baja. Esto puede deberse al criterio de extracción que será necesario revisar para ampliar estas concatenaciones. De esta manera se verifican todas las derivaciones estructurales entre los 12 archivos de las extracciones. La pertinencia conceptual o técnica de estas derivaciones se analizará en la parte relacionada con la estructuración de los conjuntos de datos para el modelamiento. 1.13. Metodología de extracción de datos La metodología de extracción de datos de las fuentes de información fue como sigue: • Extraer todos los registros MIPRES, tabla por tabla, conservando las llaves, de personas con DX=Hepatitis C crónica • Extraer una muestra de todos los registros MIPRES, tabla por tabla, conservando las llaves, de personas con cualquier DX diferente a Hepatitis C crónica • Extraer todos los registros RIPS, tabla por tabla, conservando las llaves de las personas que salieron en las muestras 1 y 2 • Extraer todos los registros RIPS, tabla por tabla, conservando las llaves, de personas con DX=Hepatitis C crónica y que no están en las muestras 1 y 2 • Extraer una muestra de todos los registros RIPS, tabla por tabla, conservando las llaves, de personas con DX diferentes a Hepatitis C crónica y que no están en las muestras 1 y 2 40 •Extraer los registros de SIVIGILA de todas las personas con reporte de evento de Hepatitis C crónica • Excluir del conjunto 6 aquellas personas que están en las muestras 1 y 4, y a los restantes extraer todos los registros RIPS, tabla por tabla, conservando las claves • Extraer los registros BDUA y RUAF de todas las personas en las muestras 1,2 4 y 5 NOTAS: el DX puede ser el principal o cualquiera de los relacionados. Con estas tablas primarias se pueden realizar las tareas de preparación de los datos y adelantar pruebas de modelamiento. Para la selección de técnicas de inteligencia artificial es importante tener en cuenta los siguientes aspectos: • La unidad de análisis es el ciudadano, del que se tiene un conjunto de datos históricos. Es posible tomar como unidad de análisis el registro. Para estos casos el concepto de unidad de análisis se refiere a la unidad de activación cognitiva a partir de la cual se construye o descubre el conocimiento. • Para la aplicación de técnicas de aprendizaje supervisado se puede pensar en crear una estratificación por la variable “diagnóstico principalâ€?, y emplear este criterio para hacer los muestreos para entrenamiento y evaluación. Después se veráÌ? qué tipo de muestreo se hace sobre los estratos. • En el caso de aprendizaje supervisado se pueden realizar pruebas con etiquetado binario (positivo, desconocido) y con multi clasificación empleando etiquetas proxys (todas las hepatitis, enfermedades de alto costo, enfermedades transmisibles, etc.) • Se debe explorar la posibilidad de emplear técnicas de aprendizaje no supervisado, por ejemplo “conceptual clusteringâ€?, usando la multi-morbilidad y la co-morbilidad para la construcción de jerarquías conceptuales en hepatitis C. • La secuencia de predicción y prueba (de campo o con más datos) puede ser enfocado como un ejercicio integral de aprendizaje reforzado. 1.14. Formación y capacidad instalada: capacitaciones Se realizaron capacitaciones dirigidas al equipo técnico de Oficina de Tecnología de la Información y la Comunicación OTIC del MSPS, Dirección de Medicamentos y Tecnologías en Salud y la Dirección de Regulación de Beneficios, Costos y Tarifas del Aseguramiento en Salud del Ministerio de Salud y Protección Social. Los aspectos transversales del entrenamiento para los grupos fueron: • Metodologías para el desarrollo de ciencia de datos (CRISP, SCRUM) • El contexto del conocimiento en salud. Qué sabemos y como sabemos lo que sabemos • El uso de conocimientos en el MSPS. El papel de los conocimientos explícitos e implícitos en el desarrollo de las tareas y la toma de decisiones • La ciencia de datos como método de conocimiento Los propósitos de formación preliminares para cada uno de los grupos pueden ser: • Dar apoyo técnico al MSPS para el desarrollo de proyectos de ciencias de datos. El alcance de las capacidades técnicas depende del perfil de gestión que el MSPS defina para su unidad de ciencias de datos. Se debe partir de la capacidad instalada, que se refiere a la administración de la bodega de datos, los servicios de información para el ecosistema de 41 salud y los servicios de sistemas para el MSPS, para proyectar el rol técnico en ciencias de datos. • Gestionar un proyecto de ciencias de datos. Instalar un modelo de gestión basada en evidencias que lleve a que la mayoría de los funcionarios pueda concebir, estructurar y gestionar procesos de conocimiento aplicado con base en la ciencia de datos. • Analizar y apoyar el concepto de ciencia de datos conduce hacia una nueva y más profunda comprensión de la salud, y por lo tanto de las acciones que debe adelantar el MSPS para cumplir sus propósitos. En ese sentido es importante recalcar que la ciencia de datos no es solo una herramienta que permite construir el conocimiento necesario para realizar las funciones actuales, sino que puede implicar un replanteamiento general para buscar la acción integral que debe corresponder a la comprensión integral que implica la ciencia de datos. • Integrar de manera analítica, información de las condiciones sociales, familiares, comportamentales y de salud de las personas, con información de la atención en salud que ha recibido y el aseguramiento que ha tenido, en una perspectiva de gestión del riesgo nominal sobre una enfermedad de alto costo para la planificación de la compra de medicamentos. 1.15. Consideraciones éticas De acuerdo a la resolución 8430 de 1993 del Ministerio de Salud, ahora Ministerio de Salud y de la Protección Social, el presente es considerado como un estudio sin riesgo, ya que se trata de una revisión sistemática, y utiliza fuentes de información secundaria. Por lo anterior no requiere autorización por parte de Comité de Ética. 2. Desarrollo del proyecto 2.1. Resultados de la revisión 2.1.1. Virus de la hepatitis C El VHC pertenece a la familia Flaviviridae y al género hepacivirus y es un virus ARN de sentido positivo monocatenario. La transmisión del VHC es a través del contacto sanguíneo. Antes de que se establecieran esfuerzos generalizados de detección de sangre en 1992, la transmisión del VHC a pacientes pediátricos se producía principalmente a través de transfusiones de sangre y trasplantes de órganos. Después de 1992, la transmisión vertical se ha convertido en el medio más común de transmisión del VHC en niños (Serranti D, 2011). Aproximadamente 7,500 nuevos casos de CHC ocurren anualmente en los EE. UU. Por transmisión vertical (Omland LH, 2010). Existe una creciente preocupación por la transmisión horizontal a través del uso de drogas inyectables, especialmente entre adolescentes. Las tasas de infección por el VHC aumentan entre adolescentes y adultos jóvenes en los EE. UU., Especialmente en las regiones rurales orientales del país. Esto está asociado con la epidemia de opiáceos y un mayor uso de opiáceos inyectados (Balistreri WF, 2017). A medida que estas personas ingresan a la edad fértil, el riesgo de transmisión vertical también aumentará (Koneru A, 2016). La eliminación espontánea de la infección ocurre en el 25% - 40% de los lactantes infectados, pero ocurre lejos con menor frecuencia en niños mayores 42 (6% -12%). Por lo tanto, la mayoría de los niños (54% -86%) expuestos al VHC progresarán para desarrollar CHC (El-Shabrawi MH, 2013). 2.1.2. Genotipos del virus de hepatitis C El VHC se caracteriza por una alta variabilidad genómica y se clasifica en 7 genotipos (Choo QL, 1989) (Houghton., 2009) (Alter MJ, 1992), que difieren en más de 30% de diversidad de secuencias del genoma (ADN), y al menos 67 subtipos, caracterizados por una divergencia de secuencia de aproximadamente 20%, según la última actualización a la clasificación consenso previa de VHC (Simmonds P, 2005) (Gottwein JM, 2008). Además, cuando el VHC infecta a un individuo, múltiples virus estrechamente relacionados pero distintos, se puede identificar una población de "cuasiespecies", con variaciones de secuencia de hasta 10%. La polimerasa del VHC se caracteriza por la ausencia de capacidad de corrección, y esto conduce a una alta tasa de mutaciones de 10-5-10-4 nucleótidos por ciclo de replicación (Duffy S, 2008). El genotipo 1 es el más prevalente a nivel mundial y representa la mayoría de las infecciones por VHC en América del Norte (genotipo 1a) y Europa (genotipo 1b). El genotipo 2 se encuentra en regiones de Ã?frica. El genotipo 3 se encuentra comúnmente en Asia, Europa y Australia. El genotipo 4 se encuentra principalmente en el norte de Ã?frica y el Medio Oriente. El genotipo 5 se encuentra en el sur del Ã?frica subsahariana. Por último, el genotipo 6 se encuentra principalmente en Asia. Históricamente, el genotipo 3 ha sido considerado el más difícil de tratar (Jhaveri R, 2006). En América Latina, específicamente en México predominan el genotipo 1a y el 1b y en una menor proporción el 2a y el 3b (Dehesa-Violante M, 2007). En América Latina, los datos muestran mayor homogeneidad, con una prevalencia general entre 1 y 2%: México 1%, Argentina 1,9%, Brasil 1,4%, Colombia 0,97%, Venezuela 0,94%, Uruguay 1%, Paraguay 1,2%, Chile 0,85%, Ecuador 1,4%, Perú 1%, Panamá 0,75%, Costa Rica 0,75%, Guyana 0,75%, Honduras 0,5%, El Salvador 2,5%, Nicaragua 0,35%, Guatemala 0,8%, Belice 0,75%, República Dominicana 0,75%, Cuba 1,8%, Puerto Rico 2,3%, Haití 4,4%, Bolivia 4,7% y Grenada 5% (Lavanchi., 2011) (Kershenobich D, 2011). La identificación de genotipos y subtipos de VHC es un paso crucial para la definición de patrones epidemiológicos y tratamiento efectivo. Los métodos actuales comercialmente disponibles permiten la detección de la disparidad de la secuencia de nucleótidos usando enfoques directos o indirectos y las nuevas tecnologías de secuenciación pueden detectar poblaciones virales menores en mezclas complejas de cuasiespecies; sin embargo, se requieren mejoras en la especificidad, lectura de las longitudes de las secuencias y la importancia clínica general de las secuencias generadas (Chao DT, Systematic review: epidemiology of hepatitis C genotype 6 and its management, 2011). La asociación entre el genotipo del VHC y la progresión de la fibrosis no parece concluyente, aunque el aumento de los datos clínicos y experimentales muestra que la infección con genotipo 3 se asocia con un mayor riesgo de esteatosis hepática grave, progresión acelerada de la fibrosis y aumento de la oncogénesis (Bostan N, 2010) (van der Meer AJ, 2012). Por el contrario, cada genotipo tiene diferentes tasas de respuesta a las terapias antivirales. Mientras que el 80% de los pacientes infectados por el genotipo 2 y 3 del VHC alcanzan una respuesta virológica inmediata (RVI) bajo tratamiento con interferón pegilado con ribavirina 43 (pegIFN / RBV), este régimen conduce a una respuesta virológica sostenida (RVS) solo para aproximadamente el 50% del genotipo 1 y 4-infecciones (van der Meer AJ, 2012). 2.1.3. Epidemiología del virus de la hepatitis C El virus de la hepatitis C (VHC) es un virus ARN que afecta a más de 180 millones de personas en todo el mundo (Mack CL, 2012). La proporción de seroprevalencia del VHC es de 1% -1.5% en América del Norte, con 0.17% en niños de 6-11 años y 0.39% en 12 -19 años. El VHC es la principal causa de hepatitis crónica de etiología infecciosa en niños de países industrializados (El-Shabrawi MH, 2013) y se estima que afecta al 0.1% -2% de los niños en los Estados Unidos (Armstrong GL, 2006). La prevalencia del VHC se caracteriza por una alta variabilidad entre las regiones del mundo, los países y entre los grupos de edad y de riesgo dentro de los países: esto se puede explicar en parte por la característica de la población analizada y el modo primario de transmisión. La prevalencia del VHC es más alta en Ã?frica y Medio Oriente, donde Egipto, Camerún, Arabia Saudita, Irak y Siria representan la mayoría de los casos y la prevalencia oscila entre el 2% y el 15%. América del Norte, Australia, Japón y el norte y oeste de Europa informan una menor prevalencia de infección por el VHC, sin que ningún país muestre una tasa > 2%. China, India, Egipto, Pakistán e Indonesia representan aproximadamente la mitad de los sujetos infectados por el VHC a nivel mundial (World Health Organization, 1999) (Lavanchy., Evolving epidemiology of hepatitis C virus. , 2011) (Global Burden Of Hepatitis C Working Group. , 2004). La prevalencia de VHC en la mayoría de los países desarrollados se clasifica como baja, pero existen diferencias marcadas en el cuadro epidemiológico entre los países, principalmente relacionadas con factores temporales y de transmisión, y dieron lugar a una distribución diversa por edad de los casos de VHC (Alter., 2007). La encuesta más reciente sobre el número de personas infectadas por el VHC en Estados Unidos estima un total de 5-7 millones de personas seropositivas, un tercio de las cuales pertenecen a poblaciones de alto riesgo, como personas privadas de la libertad y sin hogar, y una prevalencia general de VHC de 1.6% - 1.8%, con 75% de casos en sujetos nacidos entre 1945 y 1965. El consumo expandido de drogas inyectables ilícitas, el uso de procedimientos médicos inseguros y transfusiones de sangre contaminadas son las causas más probables de la creación de la cohorte de adultos de casos de VHC, evidencia confirmada por la disminución de nuevas infecciones registradas a mediados de la década de 1980, debido a las mejoras en las prácticas de atención médica y la introducción más reciente de la detección de sangre y donantes de órganos (Alter MJ K.- M. D., 1999) (Armstrong GL A. M., 2000). La infección crónica por VHC (CHC) se define por la presencia de ARN del VHC en suero para al menos 6 meses después del inicio de la infección e incluye las complicaciones resultantes de una lesión hepática que se puede desarrollar (El-Khayat HR, 2018). En EE. UU., se estima que 23,000-46,000 niños tienen CHC (Jhaveri R, 2006), y que están en riesgo de cirrosis, carcinoma hepatocelular y muerte (Pham YH, 2016). 44 2.1.4. Transmisión del virus de hepatitis C La mejora en la seguridad del suministro de sangre a partir de la década de 1990 limitó la difusión del VHC entre las cohortes más jóvenes, pero compartir el equipo de inyección entre los usuarios de drogas intravenosas se ha convertido en la ruta predominante para la transmisión del VHC. La expansión del uso de drogas intravenosas se registra tanto en los países occidentales como en los de Europa del Este. Las infecciones nosocomiales todavía ocurren en los países europeos, aunque los avances en los procedimientos médicos: 50% - 70% de los nuevos casos de VHC se pueden atribuir a la exposición nosocomial, de acuerdo con estimaciones recientes en Italia y España. Otro factor importante que contribuyó sustancialmente a la epidemia de VHC en Europa es la inmigración desde áreas endémicas, especialmente durante los últimos 10-15 años en el norte y el oeste de Europa (Dalgard O, 2003) (Harris RJ, 2012). Es importante destacar que una proporción considerable de sujetos positivos al VHC desconoce su estado y muchas nuevas infecciones no son diagnosticadas o notificadas: la falta de reconocimiento de la infección afecta las estimaciones epidemiológicas y las oportunidades de tratamiento, especialmente en grupos de alto riesgo, dificultando la efectividad control de la infección, incluso con tratamientos de alta eficacia (Denniston MM, 2012). 2.1.5. Carcinoma hepático por virus de la hepatitis C El carcinoma hepatocelular (HCC), el tipo más común de cáncer primitivo del hígado es el quinto tumor más frecuente en el mundo, representa aproximadamente el 5,4% de todos los tumores malignos y la tercera causa de muerte (Anthony., 2001). Se estima que cada año se diagnostican unos 564.000 casos nuevos en el mundo y que una cantidad similar fallecen por esa causa (Parkin DM, 2001). Sin embargo, su distribución en el mundo es muy irregular, pues si en los países del Norte de Europa y de América su frecuencia es relativamente baja (1-4/100.000 habitantes/año), en el Ã?frica subsahariano y en el sureste asiático se eleva a 100-150/100.000 habitantes/año (Bosch J, 1999). Estudios epidemiológicos han mostrado que la cirrosis hepática, las infecciones por los virus de la hepatitis B (VHB) y de la hepatitis C (VHC), la exposición a la aflatoxina B1 y el alcohol son los principales factores etiológicos implicados en el desarrollo de este tipo de tumor (Okuda., 2000). El 70-85% de todos los HCC están relacionados etiológicamente con la infección crónica por el VHB y VHC (Anthony., 2001). En el 96% de los casos hallados por Rodríguez-Vidrigal et al. (4), el tumor se desarrolló en pacientes con cirrosis hepática, lo cual es prácticamente coincidente con lo que refieren Gracía-Torres et al (García-Torres ML, 2003). en su estudio (98%). Los mecanismos por los que los virus de la hepatitis inducen la carcinogénesis hepática no son bien conocidos. La casi constante presencia de una cirrosis hepática ha hecho pensar que la secuencia lesión-necrosis-inflamación-regeneración pudiera estar implicada en la hepatocarcinogénesis. Se sabe que en el curso de las mitosis se producen defectos en el ADN genómico. Estos defectos suelen ser intrascendentes, ya que las células normales disponen de medios para repararlos. La proteína p53 juega un papel esencial en esa reparación, puesto que se une al ADN y detecta la presencia de tales defectos. Cuando esto ocurre, p53 detiene la mitosis en la fase G1 hasta que el defecto es reparado. Si el daño es grave e irreparable, p53 activa otras vías que llevan a la célula a su muerte por apoptosis. Si este mecanismo de 45 control es defectuoso o la división celular es muy rápida, los defectos en el ADN no son reparados, las células anormales no mueren y se dividen a pesar de sus defectos. De esta forma, las alteraciones en el ADN se trasmiten de unas generaciones celulares a otras y a ellas se van añadiendo defectos nuevos que finalmente determinarán la aparición del tumor (Solís-Herruzo, 2003). La infección crónica por el VHC es otra causa importante y creciente de HCC en Europa, Estados Unidos y Japón (56,57). En Los Ã?ngeles, la frecuencia de anti-VHC en los pacientes con HCC ha aumentado del 29% en 1984-89 a 51%, en 1997-2001. En el estudio de Rodríguez-Vidigal et al (Rodríguez-Vidigal FF, 2005). la infección viral C estaba presente en el 42,8% de los casos. La infección por VHC como factor de riesgo de HCC aumenta cuando coincide con la infección por el VHB. Ambas infecciones actúan sinérgicamente, pues si el riesgo de HCC en los infectados por el VHC y VHB es de 24 y 20, respectivamente, en los infectados por los dos virus aumenta a 135 (Solís-Herruzo, 2003). Los mecanismos por los que la infección crónica por el VHC conduce al HCC son difíciles de estudiar debido a la carencia de un modelo de pequeños animales donde realizar las investigaciones o de una línea celular susceptible de ser infectada. La inflamación crónica, las necrosis hepatocelulares y la regeneración celular que tienen lugar en la cirrosis por el VHC pueden ser los responsables de la carcinogénesis hepática (Bisceglie., 2000. ). En cualquier caso, los mecanismos de carcinogénesis en el HCC por VHC parecen ser diferentes de los que intervienen en la infección por VHB. El VHC posee un genoma ARN, carece de actividad transcriptasa reversa y no se integra en el genoma celular. El estudio de la expresión genética en los tumores relacionados con el VHC mostró que en ellos estaba muy aumentada la expresión de los genes relacionados con las enzimas de la fase I de la biotransformación de xenobióticos. Este patrón es diferente al que estos mismos autores encontraron en los HCC relacionados con el VHB (Okabe H, Cancer Res ). Estas enzimas están capacitadas para transformar procarcinógenos en carcinógenos. Por ello, la infección por el VHC puede sensibilizar al hígado al efecto de procarcinógenos y carcinógenos, por ejemplo, al etanol o a las aflatoxinas. También la frecuencia de las mutaciones en el gen de la ß-catenina es mayor en los HCC por el VHC que los relacionados con el VHB (Hsu HC, Am J Pathol ). Además, las mutaciones que se encuentran en uno y otro caso son diferentes (Wong CM, 2001). En la infección por el VHC se localizan en los codones 32 y 37, que son esenciales para la fosforilación ubiquitinación y degradación de la ß-catenina (Kitagawa M, 1999). Por ello, parece que el VHC juega un papel muy importante en la activación de la vía Wnt a través de las mutaciones de la ß-catenina. 2.1.6. Carcinoma hepático en niños Para el CHC adquirido en la infancia, el curso clínico es indolente y generalmente asintomático. Sin embargo, los adolescentes que adquieren CHC tienen un curso clínico similar al de los adultos (Baker RD, 2015), con un riesgo 26 veces mayor de mortalidad asociada al hígado, carcinoma hepatocelular y necesidad de trasplante hepático, en comparación con los controles de la misma edad (El-Khayat HR, 2018) (Omland LH, Mortality in patients with chronic and cleared hepatitis C viral infection: a nationwide cohort study. , 2010). El costo a 10 años asociado con la infección pediátrica por VHC se estima en $ 199-336 millones de dólares (Jhaveri R, 2006), ya que los pacientes pediátricos con CHC tienen una disminución de la calidad de vida debido a trastornos del aprendizaje, retraso del 46 desarrollo y déficits cognitivos que reflejan una disminución de la función ejecutiva (Rodrigue JR, 2009). Por lo tanto, es fundamental tratar la infección por VHC en pacientes pediátricos, a fin de prevenir la progresión de la enfermedad hepática, el desarrollo de carcinoma hepatocelular, la transmisión a las generaciones posteriores y mejorar el desarrollo infantil (Ghany MG, 2009). Antes de 2017, la única terapia aprobada por la Administración de Drogas y Alimentos de los EE. UU. (FDA) para CHC en pacientes pediátricos de tres años en adelante era interferón alfa pegilado (PEG-IFN) administrado en combinación con ribavirina (Ghany MG S. D., 2009) (Ghany MG S. D., 2009). Sin embargo, en 2017, tanto La Agencia Europea de Medicamentos (EMA) y la FDA aprobaron el uso de dosis fija de ledipasvir / sofosbuvir (LDV / SOF) 90 mg / 400 mg una vez al día para tratar a adolescentes (edades 12-17 o peso> 35 kg) con CHC con genotipos 1 y 4. La duración del tratamiento es de 12 semanas, a menos que los pacientes tuvieran cirrosis y anteriormente fallaran el tratamiento con PEG- IFN/ribavirina, en cuyo caso la duración del tratamiento es de 24 semanas. Sofosbuvir con ribavirina también está aprobado para tratar adolescentes con CHC con genotipos 2 y 3. Para pacientes con genotipo 2, el tratamiento es SOF 400 mg una vez al día con ribavirina a base de peso (15 mg / kg en dos dosis divididas) durante 12 semanas. Para los pacientes con genotipo 3, las dosis son las mismas, pero la duración es de 24 semanas (Tabla 20) (Indolfi G, 2018). Tabla 20. Medicamentos aprobados por la EMA y FDA para el tratamiento de niños con hepatitis C Genotipo del virus Medicamento Edad en años Dosis de Hepatitis C Ledipasvir/sofosbuvir 12-17 1,4,5,6 90/400 mg por día Sofosbuvir 12-17 2,3 400 mg por día 15 mg/Kg por día dividido Ribavirin 1-18 1-6 en dos dosis al día 6 x 106 UI/m2 tres veces a Interferón alfa 2b 3-18 1-6 la semana Interferón pegilado 1.5 mg/Kg una vez a la 3-18 1-6 alfa 2b semana Interferón pegilado 100 mg/Kg una vez a la 5-18 1-6 alfa 2a semana Hay ensayos de tratamiento en curso con estos agentes para niños más pequeños. La recomendación actual del Comité de Hepatología de la Sociedad Europea de Gastroenterología, Hepatología y Nutrición Pediátrica (ESP-GHAN) es considerar esperar hasta que los niños más pequeños tengan edad suficiente para recibir la terapia aprobada, o usar estos medicamentos fuera de etiqueta en niños pequeños con enfermedad grave (Indolfi G, 2018). 47 2.1.7. Diagnóstico de la infección por hepatitis C El diagnóstico de infección por hepatitis C generalmente se obtiene mediante la detección de anticuerpos anti-HCV. La reactividad anti-VHC mediante pruebas de detección puede indicar una hepatitis pasada, aguda o crónica y, a pesar de la alta especificidad de los ensayos (> 99%), los resultados falsos positivos no son raros, especialmente en algunas situaciones clínicas, como en mujeres embarazadas, en pacientes con enfermedades inmunológicas o hematológicas y cuando las pruebas se realizan en una población con bajo riesgo de infección. En todas estas circunstancias, la reactividad anti-VHC debe confirmarse con una prueba confirmatoria. Dos directrices principales [Asociación Europea para el Estudio del Hígado (EASL) y Centros para el Control y Prevención de Enfermedades (CDC)], recomiendan actualmente la detección de anticuerpos anti-VHC junto con la determinación molecular de ARN-VHC para el diagnóstico de infección por VHC (European Association for the Study of the Liver. , 2011) (Centers for Disease Control and Prevention (CDC). , 2013). Además, en el curso de la infección cada vez más a menudo también es aconsejable evaluar el genotipo del virus, así como su carga plasmática cuantitativa, también realizada mediante pruebas moleculares. Particularmente, estos son útiles, si no obligatorios, en las fases de decisión terapéutica, elección del tratamiento y control de la eficacia. Por lo tanto, varios marcadores virales, ya sean serológicos o moleculares, pueden usarse en el curso de la infección por VHC tanto para fines de diagnóstico como de control. Actualmente, los CDC recomiendan el uso de una prueba de detección aprobada, ya sea una EIA o una prueba rápida, y el uso de otra prueba para confirmar un resultado positivo como uno verdaderamente positivo (Centers for Disease Control and Prevention (CDC). , 2013). El ensayo de inmunotransferencia recombinante y otros ensayos de inmunotransferencia se usan comúnmente para confirmar un resultado reactivo en una prueba de cribado anti-VHC. En estos ensayos se usan los mismos antígenos que en los EIA, pero los antígenos se recubren por separado en una membrana y el resultado depende del número de bandas presentes en la membrana. Los ensayos de inmunotransferencia, más específicos que los EIA, pueden confirmar un verdadero resultado anti-VHC positivo, pero no pueden confirmar una infección activa por VHC, que solo una prueba molecular puede revelar (Kamili S, 2012). Además de las pruebas descritas anteriormente que permiten la detección simultánea de antígenos y anticuerpos, también se desarrollaron ensayos para la detección del antígeno central del VHC solo. Ahora está disponible un inmunoensayo de quimioluminiscencia cuantitativo automatizado que ha demostrado tener sensibilidad y especificidad que van del 80% al 99% y del 96% al 99%, respectivamente (Kamili S, 2012) (Hosseini-Moghaddam SM, 2012). Varios estudios demostraron que la prueba puede detectar y cuantificar de manera similar todos los genotipos y que la cuantificación del antígeno central del VHC muestra una buena correlación con los niveles de ARN del VHC (Bouvier-Alias M, 2002) (Park Y, 2010). El ARN del VHC es detectable en el plasma y en el suero 1 a 3 semanas después de la infección, aproximadamente 1 mes antes de la aparición del anticuerpo anti-VHC, y es un sello distintivo de la replicación viral en curso (Chevaliez, 2011) (Moscato GA, 2011). La 48 prueba de ácido nucleico (NAT) utilizada para detectar y cuantificar el ARN del VHC es el estándar de oro para el diagnóstico del VHC y puede realizarse mediante la reacción en cadena de la polimerasa (PCR), la amplificación de señal de ADN ramificada (bDNA) y la amplificación mediada por la transcripción. Actualmente, todos los NAT para detectar y cuantificar los niveles de ARN del VHC se estandarizan mediante el uso del Estándar Internacional de la OMS y los resultados del ARN del VHC se expresan en la Unidad Internacional (IU / ml) (Pawlotsky., 2003). El genotipo del VHC junto con el nivel basal de ARN del VHC se considera el principal predictor de la respuesta virológica sostenida a las terapias antivirales. En la práctica clínica, el genotipo del VHC puede evaluarse mediante técnicas comercialmente disponibles basadas en PCR en tiempo real con sondas/cebadores genotípicos específicos, secuenciación semiautomatizada e hibridación inversa automatizada que analiza la región 5 'NC del genoma del VHC, que representa el más conservador. Sin embargo, el análisis de la región 5 'NC puede conducir a errores en la atribución del subtipo, porque no es el más apropiado para la discriminación entre subtipos. Por esta razón, una nueva versión de la hibridación inversa automatizada, el método más comúnmente utilizado, analiza las regiones 5 'NC y core. El estándar de oro de la genotipificación es la secuenciación de la región NS5B, capaz de asignar con precisión el genotipo, con la ventaja de que la secuencia obtenida puede usarse para el análisis filogenético con fines epidemiológicos (Bouchardeau F, 2007) (Chevaliez S, 2007). 2.1.8. Tratamiento para la hepatitis C Hasta la fecha y durante muchos años, la combinación peg-IFN / RBV, capaz de erradicar el virus en aproximadamente el 50% de los pacientes tratados (Zeuzem S, 2009), ha caracterizado el estándar de atención para la infección crónica por VHC. El reciente desarrollo y la disponibilidad de nuevas moléculas denominadas DAAs están implementando las opciones terapéuticas del VHC (Asselah T, 2009) (Thompson AJ, 2009). Estos nuevos DAAs incluyen: inhibidores de la proteasa NS3/NS4, divididos en inhibidores lineales y macrocíclicos de la fosfoproteína NS5a, nucleósidos de la polimerasa NS5B e inhibidores no nucleósidos y antivirales dirigidos a los huéspedes (Susser S, 2009). Actualmente, solo inhibidores de proteasa de primera generación NS3-NS4A - telaprevir - TVR y boceprevir - BOC, los primeros dos inhibidores de la proteasa NS3, están disponibles y aprobados para su uso en Europa, en pacientes con infección crónica por el VHC, genotipo 1 (Victrelis TM (boceprevir), s.f.). Ambas son moléculas de cetoamidas lineales que se dirigen al sitio catalítico de la proteasa NS3/4A, bloqueando la liberación de las proteínas NS del VHC requeridas para ensamblar el complejo de replicación viral. Además, también funcionan al detener la liberación de proteínas del huésped que modulan el sistema inmune, promoviendo así la respuesta inmune innata a la infección por el VHC (Thompson AJ L. S., 2011). Dado que el VHC es un virus con alta heterogeneidad genética, alta tasa de recambio y ausencia de actividad de corrección, cuando se utiliza en DAAs monoterapéuticos causa la aparición rápida de variantes resistentes, por lo que están aprobados para su uso en combinación con IFN-RNB pegilado (Thompson AJ L. S., 2011). 49 La eficacia de TVR y BOC se ha evaluado en ensayos clínicos de fase III. En resumen, se han realizado dos ensayos para cada uno: en pacientes con VHC crónica no evidente y en pacientes con experiencia en fracaso a terapias anteriores (Bacon BR, 2011) (Zeuzem S A. P., 2011). Todos estos estudios demostraron una mejora significativa en los brazos DAAs en comparación con terapia anterior. Varios estudios de post-comercialización se están realizando actualmente confirmando estos datos preliminares favorables. Sin embargo, si bien representan nuevas oportunidades terapéuticas para médicos y pacientes, los DAAs también implican nuevos desafíos y esfuerzos para los trabajadores de laboratorio. Como ya se dijo, debido a las características del virus HCV (alta tasa de recambio, sin actividad de lectura de pruebas con producción de aproximadamente 10-3-10-5 mutaciones por nucleótido por replicación genómica), el VHC existe como un conjunto de variantes virales, llamadas "Cuasi-especie". En otras palabras, la población viral consiste en una población prevalente, típicamente llamada virus de "tipo salvaje" (el virus con la mejor forma física) y de las variantes minoritarias seleccionadas durante la replicación del VHC y favorable para el virus (Bartenschlager R, 2000) (Bukh J, 1995). También hay diferencias en las secuencias de nucleótidos dentro del genotipo (mayor) y subtipos (más pequeño) (Simmonds P, Consensus proposals for a unified system of nomenclature of hepatitis C virus genotypes. , 2005). Es contra esta población viral bastante heterogénea que las drogas viejas y nuevas deben funcionar. Las variantes virales resistentes se seleccionan rápidamente si los nuevos DAAs, que se ha demostrado que tienen una baja barrera genética, se administran en monoterapia (Sarrazin C, 2010). La combinación de los nuevos DAAs con peg-IFN/RBV protege parcialmente contra la aparición de mutaciones asociadas a la resistencia (RAM). La función de peg-IFN/RBV es suprimir variantes resistentes preexistentes, por lo que el fracaso del tratamiento se produce más fácilmente en pacientes pobres que responden IFN, desafortunadamente aquellos con mayor necesidad de DAAs y para quienes están indicados los DAAs. Las diferencias entre los subtipos se han descrito tanto en términos de respuesta al tratamiento como en términos de selección de variantes resistentes. De hecho, con ambos inhibidores de la proteasa, las tasas de respuesta viral son más altas en el subtipo 1b que en 1a. De hecho, no solo las mutaciones son de subtipo específico, sino que también dependen de la barrera genética del subtipo. Típicamente, cuando ocurre el fracaso del tratamiento, las mutaciones R155K/T y V36M se seleccionan en el genotipo 1a, mientras que A156S/T, V36A y T54A en el genotipo 1b. La mutación R155K se selecciona más rápidamente en el subtipo 1a que en el subtipo 1b, porque el cambio de un único nucleótido es suficiente para causar una sustitución de aminoácido en el primero, mientras que se requieren dos cambios en el último (McHutchison JG, 2009). A diferencia del VIH, que integra el genoma viral en las células del huésped y el VHB cuyo genoma viral está presente en el núcleo de los hepatocitos como ADNcc, el VHC no tiene un reservorio latente. Si bien justifica la posibilidad de la erradicación viral, esto implica que el virus no se almacena y las cepas del virus seleccionadas por tratamiento, tienden a ser reemplazadas por virus de tipo salvaje después del final de la presión del fármaco. Aunque los datos de la literatura indican una variabilidad extremadamente alta de un paciente a otro 50 en el tiempo requerido para la desaparición de las variantes resistentes al VHC, probablemente dependiendo de la aptitud viral de la variante respectiva, este aspecto debe tenerse en cuenta al secuenciar el VHC en la búsqueda para otras cepas (McHutchison JG, 2009). El objetivo principal de la terapia contra el VHC es erradicar la infección y su objetivo es lograr la respuesta adecuada al virus, definida como la presencia de ARN sérico del VHC indetectable 24 semanas después del cese del tratamiento. Las principales herramientas antivirales no tienen éxito en aproximadamente el 50% de los casos (Massard J, 2006) (Yee., 2004), en particular en coinfectados por el VHC / VIH. Dada la variabilidad de la respuesta y con el fin de reducir varios efectos secundarios y evitar el alto costo médico, los parámetros basales virales y del huésped para predecir una respuesta individual antes del tratamiento serían bastante útiles (Ahlenstiel G, 2010). Varios estudios han demostrado la función de factores virales (como genotipo del VHC, diversidad de cuasiespecies, viremia basal) y factores del huésped (es decir, edad, sexo, origen étnico, grado de fibrosis hepática, índice de masa corporal, comorbilidades) en la predicción del curso natural de la hepatitis C y respuesta a la terapia. Sin embargo, las observaciones de que la tasa de respuesta al tratamiento en afroamericanos es menos de la mitad de la observada en caucásicos (Doyle JS, 2012), sugirieron que factores adicionales asociados con los antecedentes genéticos del paciente están relacionados con la probabilidad de una RVS y pueden influir en la duración del tratamiento personalizado. El papel de la genómica del hospedador en los resultados de la infección del VHC en la nueva era de DAAs puede evolucionar gracias a nuevos objetivos terapéuticos, especialmente cuando habrá DAAs más potentes y numerosos disponibles y se volverán realidad las posibilidades de modular y personalizar el tratamiento y el manejo del paciente. 2.1.9. Algoritmos y modelos matemáticos encontrados en la revisión para hepatitis C Los algoritmos y modelos matemáticos encontrados pueden ser usados como punto de partida en el estudio, además porque las fuentes de información del Ministerio de Salud y Protección Social incluyen las variables necesarias para su replicación. Sobre esta base, recientemente, Ottiger et al (Ottiger C, 2013), propusieron un nuevo algoritmo para confirmar un resultado reactivo anti-VHC y también una fórmula matemática para extrapolar los niveles de ARN del VHC midiendo el antígeno del VHC. Debe señalarse, sin embargo, que se han reportado pequeñas diferencias entre los genotipos y de un paciente a otro. Realizaron para ello la comparación entre el VHC-Ag y el ARN del VHC de 126 muestras de 101 pacientes con hepatitis C crónica proporcionó regresión lineal R(2)=0,89, pendiente 0,885 e intercepción -2,258, que eran independientes de los genotipos. El límite de detección de HCV-Ag estaba entre 2.4 y 4.5 Log (10) UI / mL. Este estudio propone un algoritmo renovado para la confirmación de los resultados reactivos anti-VHC: las infecciones activas o resueltas de hepatitis C o la falsa reactividad se pueden diferenciar mediante pruebas reflejas secuenciadas debidas al VHC-Ag, el inmunoblot anti-VHC y el ARN del VHC. 51 Piscaglia et al (Piscaglia F, 2006 ), desarrollaron una red neuronal para predecir la progresión a fibrosis en pacientes con hepatitis C. La red neuronal fue construida para 414 biopsias de pacientes a los que se les iba a trasplantar el hígado y luego probado en las 96 biopsias restantes, como conjunto de validación del modelo de rendimiento de la red neuronal y el modelo logit. Los modelos fueron evaluados y comparados por medio de áreas bajo curvas características de funcionamiento del receptor. Tomando como valor de corte de > 0.4 para predecir fibrosis, la red neuronal proporcionó sensibilidad, especificidad, valores predictivos positivos y negativos, respectivamente, de 100, 79.5, 60.5 y 100%, en el conjunto de validación. El rendimiento de la red neuronal fue significativamente mejor que la del modelo logit (en el área del conjunto de validación bajo la curva = 0.93 vs. 0.84; P = 0.045). Kayvan Joo et al (KayvanJoo AH, 2014 ), realizaron un estudio usando la combinación de varios algoritmos, los autores realizaron un análisis de bioinformática integral e identificaron varios atributos de nucleótidos dentro de las secuencias de nucleótidos de longitud completa de subtipos de VHC genotipos 1a y 1b que se correlacionó con el resultado del tratamiento. Los algoritmos de selección de características identificaron varios nucleótidos (por ejemplo, conteo de hidrógeno y CG). La combinación de algoritmos utilizó los atributos de nucleótidos seleccionados y lograron predecir los subtipos de VHC 1a y 1b respondedores de terapia de pacientes que no responden con una precisión del 75.0% y 85.0%, respectivamente. Además, los respondedores a la terapia y los pacientes con recaída se categorizaron con una precisión del 82.5% y 84.17%, respectivamente. Con base en los atributos identificados, se indujeron árboles de decisión para diferenciar diferentes grupos de respuesta terapéutica. El estudio realizado por Takayama et al (Takayama T, 2011), tuvo como objetivo predecir el efecto del tratamiento con PEG IFN más RBV en un individuo utilizando un sistema de red neuronal artificial (ANN). 156 pacientes con VHC grupo 1b de múltiples centros fueron tratados con PEGIFN (1.5 mg / kg) más RBV (400-1000 mg) durante 48 semanas. Datos sobre la demografía de los pacientes, pruebas de laboratorio, dosis de PEGIFN y RBV, respuestas virales tempranas (EVR) y respuestas virales sostenidas se incluyeron en la red neuronal. Los datos clínicos fueron divididos aleatoriamente en conjunto de datos de capacitación y conjunto de datos de validación y analizados mediante análisis de regresión logística múltiple (MLR) y ANN para predecir resultados individuales. Las sensibilidades de la expresión predictiva fueron 0.45 para los modelos de MLR y 0.82 para las RNA y las especificidades fueron 0.55 para MLR y 0.88 para ANN. El análisis de relación no lineal mostró que la EVR, la creatinina sérica, la dosis inicial de Ribavirina, el sexo y la edad fueron factores predictivos importantes, lo que sugiere que no son lineales. En un estudio realizado por Cazzaniga et al (Cazzaniga M, 2009 ), se obtuvo biopsia de hígado de pacientes con hepatitis C crónica de dos cohortes diferentes (una cohorte interna que incluyó 244 pacientes y una cohorte externa que incluyó 220 pacientes). Ciento cuarenta y cuatro pacientes de la interna cohorte sirvieron como un conjunto de entrenamiento para construir ANN y un modelo de regresión logística (LOGIT). Estos dos modelos y el índice de la relación aspartato aminotransferasa a plaquetas (APRI) se probaron en los 100 pacientes restantes en la cohorte interna (conjunto de validación) y en la cohorte externa (conjunto de validación). Se evaluaron los rendimientos de diagnóstico por índices de precisión estándar. 52 En el conjunto de validación interna, ANNs, LOGIT y APRI mostraron poderes de discriminación similares (0,88, 0,87 y 0.87 respectivamente). Sin embargo, las RNA mostraron mejor valor predictivo positivo (0.86 vs. 0.67 y 0.56) y razón de verosimilitud positiva (40.2 vs. 13.4 y 8.4). En el conjunto de validación externa, el poder de discriminación de las RNA (0.76) fue significativamente más alto que los de LOGIT (0.67) y APRI (0.67). Ambos modelos también se compararon con el modelo HALT-C previamente publicado. La discriminación se evaluó utilizando el análisis de la curva característica operativa del receptor y se evaluó la precisión diagnóstica con la mejora neta de reclasificación y las estadísticas de mejora integrada de la discriminación. En una cohorte de pacientes con una mediana de seguimiento de 3.5 años, Singal et al (Singal AG, 2013 ), observaron 41 pacientes que desarrollaron hepatitis C crónica. El modelo de regresión UM tenía una estadística c de 0,61 (IC del 95%: 0,56 a 0,67), mientras que el algoritmo de aprendizaje automático tenía una estadística c de 0,64 (IC del 95%: 0,60 a 0,69) en la cohorte de validación. El algoritmo de aprendizaje automático tuvo una precisión diagnóstica significativamente mejor evaluada mediante la mejora neta de la reclasificación (p <0,001) y la mejora de la discriminación integrada (p = 0,04). El modelo HALT-C tenía una estadística c de 0,60 (95% CI 0.50-0.70) en la cohorte de validación y fue superado por el algoritmo de aprendizaje automático (p = 0.047). Un estudio de Konerman et al (Konerman MA, 2015 ), tenía como objetivo mejorar los modelos existentes mediante la aplicación de nuevos métodos estadísticos que incorporan datos longitudinales. Se analizaron los pacientes del ensayo Antiviral de tratamiento a largo plazo contra la cirrosis (HALT-C) contra la hepatitis C. Los resultados de interés fueron: 1) progresión de la fibrosis (aumento de ≥ 2 etapas de Ishak) y 2) resultados clínicos relacionados con el hígado (muerte relacionada con el hígado, descompensación hepática, carcinoma hepatocelular, trasplante de hígado o aumento en la puntuación de Child-Turcotte- Pugh a ≥7). Los predictores incluyeron datos longitudinales clínicos, de laboratorio e histológicos. Los modelos se construyeron usando la regresión logística (LR) y dos métodos de aprendizaje automático [bosque aleatorio (RF) y refuerzo] para predecir un resultado en los próximos 12 meses. El brazo de control se usó como el conjunto de datos de entrenamiento (n = 349 clínicos, n = 184 fibrosis) y el brazo de interferón para la validación interna. El área bajo la curva característica operativa del receptor (AUROC) para los modelos longitudinales de progresión de la fibrosis fue: 0,78 (IC del 95%: 0,74 a 0,83) con RL, 0,79 (IC del 95%: 0,77 a 0,81) con radiofrecuencia y 0,79 (IC del 95%: 0,77 -0.82) usando refuerzo. El AUROC para los modelos longitudinales de progresión clínica fue: 0,79 (IC del 95%: 0,77 a 0,82) con RL, 0,86 (IC del 95%: 0,85 a 0,87) con radiofrecuencia y 0,84 (IC del 95%: 0,82 a 0,86) con refuerzo. Los modelos longitudinales superaron los modelos de referencia para ambos resultados (p <0,0001). Los modelos longitudinales de ML tuvieron valores predictivos negativos del 94% para ambos resultados. El polimorfismo de un solo nucleótido IL28B (rs12979860) es un predictor independiente de la etiología de la fibrosis hepática relacionada con el virus de la hepatitis C (VHC). La minería de datos es un método de análisis predictivo que puede explorar enormes volúmenes de información de registros de salud para descubrir patrones ocultos y sus relaciones. Shousha et al (Shousha HI, 2018 ), realizaron un estudio con el objetivo evaluar y comparar la precisión de la predicción de un sistema de puntuación como índice de relación aspartato aminotransferasa a plaquetas (APRI) y fibrosis-4 (FIB-4) versus minería de datos para la 53 predicción de la fibrosis avanzada relacionada con el VHC. Este estudio retrospectivo incluyó 427 pacientes con hepatitis C crónica. Se construyó un árbol de decisión por reducción técnica de error (REP), seguida de la herramienta Auto-WEKA para seleccionar el mejor clasificador de 39 algoritmos para predecir fibrosis avanzada APRI y FIB-4 tenían parámetros de especificidad de sensibilidad de 0.523-0.831 y 0.415-0.917, respectivamente. El algoritmo REPTree fue capaz de predecir fibrosis avanzada con sensibilidad de 0.749, especificidad de 0.729 y área de característica operativa del receptor (ROC) de 0.796. Fuera de los 16 atributos, el genotipo IL28B fue seleccionado por el REPTree como el mejor predictor de fibrosis avanzada. Usando Auto-WEKA, se seleccionó el modelo neural de perceptrón multicapa (MLP) como el mejor predictivo algoritmo con sensibilidad de 0.825, especificidad de 0.811 y área ROC de 0.880. Por lo tanto, MLP es mejor que APRI, FIB-4 y REPTree para predecir fibrosis avanzada para pacientes con hepatitis C crónica. En un estudio realizado por Resino et al (Resino S, 2011), se escogieron pacientes que fueron divididos aleatoriamente en un grupo de estimación (217 casos) utilizado para generar la ANN y un grupo de prueba (145 casos) utilizados para confirmar su poder para predecir F >2. La fibrosis hepática se estimó de acuerdo con el puntaje METAVIR. Los valores del área bajo la curva característica operativa del receptor (AUC-ROC) del ANN-SF fue 0.868 en el conjunto de estimación y 0.846 en el conjunto de prueba. En el conjunto de estimación, con un punto de corte valor de <0,35 para predecir la ausencia de F 2, la sensibilidad (Se), la especificidad (Sp) y el valor positivo (VPP) y los valores predictivos negativos (VPN) fueron 94.1%, 41.8%, 66.3% y 85.4% respectivamente. Además, con un valor de corte de> 0.75 para predecir la presencia de F 2, el ANN-SF proporcionó Se, Sp, PPV y VPN de 53.8%, 94.9%, 92.8% y 62.8% respectivamente. En el conjunto de prueba, con un valor de corte de <0.35 para predecir la ausencia de F 2, él Se, Sp, PPV y el VAN fueron 91.8%, 51.7%, 72.9% y 81.6% respectivamente. Además, con un valor de corte de> 0.75 para predecir la presencia de F 2, el ANN-SF proporcionó Se, Sp, PPV y VPN de 43.5%, 96.7%, 94.9% y 54.7% respectivamente. Se concluyó que el ANN-SF predijo con precisión la fibrosis significativa y superó a otros simples índices no invasivos para pacientes coinfectados con VIH / VHC. Lara et al (James Lara, 2014), utilizaron un método de selección de características basadas en la correlación (CFS) para detectar e identificar virus virales relevantes para marcadores virales. Se utilizaron técnicas de aprendizaje automático, proyección lineal (LP) y Redes Bayesianas (BN) para evaluar e identificar las asociaciones entre las secuencias de HCV y RFP. Se encontró un agrupamiento de secuencias de VHC en gráficos LP utilizando propiedades fisicoquímicas de nucleótidos y BN. El análisis mediante sitios polimórficos mostró similitudes entre las variantes del VHC muestreadas de pacientes con un RFP similar, mientras que las propiedades genéticas distintivas del VHC se encontraron asociadas con una RFP rápida o lenta. Varios sitios de AVC relevantes para la RFP fueron identificados. Los modelos computacionales parametrizados usando los sitios identificados asociaron cepas de VHC con precisión con RFP en validación cruzada dividida 70/30 (90-95% de precisión) y en pruebas de validación (85-90% de precisión). Los marcadores identificados en las regiones genómicas HCV Core, NS3 y NS5b pueden ser útiles para la predicción de RFP independientemente del estado de trasplante de los pacientes. 54 3. Resultados Las distribuciones de frecuencia de los observadores en las tablas maestras mostraron un comportamiento similar. Desde el punto de vista predictivo estas distribuciones de frecuencia son de alta utilidad porque empiezan a mostrar el peso predictivo de algunas variables. Mostramos ahora las distribuciones de frecuencia de edad y sexo en las tres tablas maestras de pacientes con B182 (Gráfica 1). Gráfica 1 Distribución de edad y sexo de los datos usados Como puede observarse las tres distribuciones tienen un comportamiento equivalente en relación con la curva normal de distribución. Un primer análisis de la epidemiología indica la presencia de dos grupos de edad con una marcada tendencia probabilística. Bien puede tratarse de un tema de transmisión familiar (gráfica 2). Gráfica 2 Distribución de edad de los datos usados Suficiencia RIPS MIPRES En el caso de la distribución de frecuencia por Sexo se evidencia que se mantiene la distribución en las tres tablas, pero que, desde el punto de vista epidemiológico, hay un marcado acento en el contagio femenino. Esto puede indicar la participación de factores diferentes a los de transmisión por entorno familiar o sexual, sino asociados a otro tipo de comportamientos o situaciones de vulnerabilidad de la mujer. Para la lectura de estas distribuciones de frecuencia de los observadores Sexo y Edad es importante recordar que SUFICIENCIA y RIPS obedecen a registros del periodo 2009-2018, mientras que MIPRES solo es 2017-2018. Esto significa que las posibles variaciones en las frecuencias pueden deberse a la diferencia de tiempo, y sobre todo, que el año del diagnóstico y la edad son factores claves en la predicción. Otro aspecto importante en la consideración del modelamiento es el tratamiento que se le debe dar a los siguientes conjuntos de datos del MCI: 55 • Historial de todas las atenciones (servicios, procedimientos, medicamentos) que ha recibido un paciente • Historial de los diagnósticos por lo que ha sido atendido el paciente El desafío que presentan estos conjuntos de datos es que están en relaciones 1: n dentro de las tablas de extracción. Esto quiere decir que de cada paciente se tienen múltiples registros. Uno por cada atención. Esta situación de estructura se debe resolver para la conformación del Data Frame final, porque de lo contrario los algoritmos pueden pensar que cada línea es una observación diferente, y que en consecuencia la identificación de la persona es un factor clave. Para arreglar esto se realizó transposición de filas por columnas. De la siguiente manera: - Establecer el máximo de patologías (MP) asociadas con los pacientes - Crear MP columnas o variables dentro del DF con la anotación Pat1, Pat2., Pat(MP) - Transponer las filas en las columnas. Se transpone el contenido completo de la celda. - Crear la columna de B182 que tendrá un 1 en caso de que en algunas de las MP columnas de patologías aparezca el B182, o pondrá un 0 en caso de que no aparezca. De esta forma se resuelve la redundancia informática en las tablas. De la misma manera se procede con los procedimientos y medicamentos que ha recibido la persona. A continuación, se observa en la gráfica el poder predictivo que pueden tener las agrupaciones de patologías y procedimientos. Gráfica 3 Poder predictivo de las patologías agrupadas Esta primera gráfica ilustra la distribución de frecuencias de los diagnósticos asociados atenciones solicitadas que están registradas en la BD de SUFICIENCIA. La codificación empleada es la del CIE10. Como puede observarse el capítulo XXI que se refiere a factores que influyen en el estado de salud es el de mayor frecuencia, con una diferencia notable con los demás capítulos. La explicación para este comportamiento es el registro como diagnósticos de exámenes, controles, problemas sociales y consultas médicas. Por ejemplo, el código Z719, que corresponde a “Consulta no especificadaâ€?, es tan frecuente como la 56 Hipertensión Arterial, que es la patología más frecuente en el país. La recomendación de manejo de esta situación es la de eliminar por completo de las BD todos los diagnósticos que pertenezcan al capítulo XXI. Esto pude hacerse dentro de las iteraciones de modelamiento, de manera tal que se puedan hacer modelos con el capítulo y sin él. En la gráfica 4, se ilustra la manera como se efectúa informáticamente el agrupamiento de las patologías, y su distribución de frecuencia en los diferentes años de registro. Vale la pena anotar como aparecen los diferentes códigos Z que no permite una observación de las patologías verdaderas. Más allá de esta situación, este tipo de Grafica permite observar el concepto de secuencia patológica, que se puede construir nominalmente con la información disponible. Con la gráfica se puede aproximar desde la multi morbilidad y la comorbilidad, para el caso, asociada al VHC B182. Gráfica 4 Multimorbilidad encontrada en los pacientes clasificados como B182 El modelamiento de inteligencia artificial- IA, busca ver la fuerza predictiva que puede tener esta secuencia patológica en combinación con otros factores. La gráfica anterior, muestra las patologías más frecuentes de los pacientes que presentan el B182 (hemos dejado los nombres de las patologías). Este tipo de gráfico ya empieza a mostrar una coincidencia informacional, cuyo valor técnico deberá demostrarse, entre un conjunto de patologías y el B182. 57 Gráfica 5 Frecuencia de las enfermedades en los pacientes con diagnóstico B182 En la gráfica 6, se muestra la secuencia desde 2009-2016 para todos los pacientes en la BD de SUFICIENCIA que tienen diagnóstico B182. Por último, en ese segmento de gráficas de orientación mostramos una distribución general de frecuencias por patología y edad de toda la población en RIPS. En el eje de las X son las patologías, en el Y la edad, y se ilustra la nube de eventos. Gráfica 6 Pacientes con diagnóstico B182 en a base de suficiencia 58 La lectura es que hay determinadas patologías que tienen transversalidad etaria y son las que precisamente tienen más frecuencia de ocurrencia. Estas patologías son las que en consecuencia puede mostrar mayor capacidad predictora. En cuanto a las técnicas de modelamiento en Inteligencia artificial se emplean para diseñar el modelo predictivo, en el siguiente cuadro se ilustran las técnicas y los métodos de evaluación que se van a emplear. Técnicas de IA: - Regresión logística - Perceptron multicapa (Redes neurales) - Análisis linear discriminante - Máquinas de soporte vectorial - K- vecindad - XGBoost - Naive Bayes - Arboles de decisión (rpart, c50) - Random Forest - Pruebas de aprendizaje profundo Como se sabe cada una de las técnicas de AI requiere una preparación diferente de los Data Frames, por esta razón no se presenta ninguno, sino solamente se ha mostrado la estructura del Máximo Común Informacional. Para cada caso se realiza un alistamiento especial dependiendo de los requerimientos de las técnicas. Algunas de las acciones de este alistamiento caso por caso, son: - Normalización de valores numéricos - Creación de variables Dummy para variables tipo categórica - Aplicación de computación distribuida para técnicas de alta exigencia de computo (Random Forest) - Ajuste por validación cruzada 3.1. Modelamiento En cuanto a las técnicas de modelamiento en Inteligencia artificial se emplean para diseñar el modelo predictivo. Técnicas de inteligencia artificial para clasificación binaria: - Regresión logística - Perceptron multicapa (Redes neurales) - Análisis linear discriminante - Máquinas de soporte vectorial - K- vecindad (Clustering después de predicción) - XGBoost - Naive Bayes - Ã?rboles de decisión (rpart, c50) - Random Forest - Pruebas de aprendizaje profundo Técnicas de Estadística para Predicción temporal: 59 - Correlación cruzada - Regresión Todos estos modelos se someterán a las siguientes pruebas: - Accuracy - Recall - Precision - Cross Entropy - ROC - Cohen Kappa - Mean Rank Como se sabe cada una de las técnicas de inteligencia artificial requiere una preparación diferente de los Data Frames, por esta razón no se presenta ninguno, sino solamente se ha mostrado la estructura del Máximo Común Informacional. Para cada caso se realiza un alistamiento especial dependiendo de los requerimientos de las técnicas. Algunas de las acciones de este alistamiento caso por caso, son: - Normalización de valores numéricos - Creación de variables Dummy para variables tipo categórica - Aplicación de computación distribuida para técnicas de alta exigencia de computo (Random Forest) - Ajuste por validación cruzada Como se observó en la matriz que describe las bases de datos, para el modelamiento de clasificación binaria, se presenta una gran desproporción de pacientes con VHC y los que no la tienen. Esto genera un modelo desbalanceado, que para el caso puede resolverse con mecanismos de muestreo y de composición de los conjuntos de datos que se usan para el entrenamiento y la evaluación. Los parámetros de evaluación del modelamiento pueden cambiar de acuerdo con el manejo del desbalance. Se piensa emplear las técnicas de manejo del desbalance del paquete ROSE (Random Over Sampling Examples). 3.2. Resultados del Modelo predictivo Prueba de modelamiento RIPS sobre 5 millones de registros submuestrados de manera aleatoria con numero de observaciones fijas. Prueba de capacidad predictiva de variables socio demográficas, de aseguramiento, prestador y tipos de atención sobre los diagnósticos sin empaquetar, empleando un árbol de decisión. 60 Gráfica 7 Prueba de modelamiento de RIPS Los resultados de la matriz de confusión de este modelo de prueba, es la siguiente: Figura 6 Matriz de confusión Se observa que el árbol ha realizado 7 cortes hasta reducir el error de 1 a 0.7. Para este tipo de corte los principales indicadores de desempeño son: 61 El contraste entre Sensibilidad y Especificidad muestra que la capacidad de predicción para el SI de B182 es muy baja. Por esta razón la “accuracyâ€? balanceada solo llega al 60% y la prevalencia (que se entiende como la probabilidad de hallar un NO es cercana al 1). Para hacer una comparación sobre el mismo data set, se tomó la patología de mayor frecuencia que es la I10x que corresponden a Hipertensión arterial básica, y los resultados son mejores, pero conservan la tendencia en la dificultad para hacer la clasificación binaria de manera precisa. Figura 7 Matriz de confusión para diagnóstico I110x 62 Nótese que, aunque se trata de una patología de mayor frecuencia la diferencia entre sensibilidad y especificidad es muy alta, y el accuracy balanceado decrece en comparación con el B182. En los dos casos los grupos de datos que resultan con cierto nivel predictivo son: {Asegurador del paciente, Edad, Sexo, Procedimiento} La prueba para B182 reduciendo el número de registros de 5 millones a 200 mil, resultó similar en resultados. 63 Figura 8 Matriz de confusión para diagnóstico B182 Como se ve el balance de Sensibilidad y Especificidad es muy pobre. No obstante, en este caso el árbol realizó siete cortes y logró disminuir el error. Además, amplió el espectro de variables que incluye en el modelamiento, a lo siguiente: • {Asegurador del paciente, • Edad, • Sexo, • Procedimiento 64 • Municipio Prestador} 3.3. Clasificación binaria de los pacientes B182 Para el primer modelo, la muestra RIPS fue de 9.839 pacientes con B182: 3.496 (35%), sin B182: 6.343 (65%). Tipo de Data Frame: Matriz dispersa: 12.212 filas x 3.202 Columnas X-> {Edad, Sexo, Municipio, EPS, IPS, (Todas las patologías), (Todos los procedimientos)} Tipo de imputación para cada patología y procedimiento: Frecuencias de eventos de salud asociados a las patologías y frecuencias de procedimientos por pacientes. Partición de la muestra: Aleatoria a (70/30); (80/20) • Técnicas favorables a la matriz dispersa: • Decisión Tree (rpart) • Decisión Tree (C50) • Support Vector Machine (SVM) • Extrema Gradient Boosting (XGBtree) con Cross Validation y malla de afinación En la figura 9, se observa el árbol de decisión de frecuencias nominales a partir de la base RIPS. Figura 9 Ã?rbol de decisión para la base RIPS 65 66 Para el segundo modelo se usó una muestra RIPS: 14.347 pacientes // con B182: 5.347 (37% sin B182: 9000 (63%). Tipo de Data Frame: Matriz dispersa: 14.347 filas x 3925 Columnas X-> {Edad, Sexo, Municipio, EPS, IPS, (Todas las patologías), (Todos los procedimientos)} Tipo de imputación para cada patología y procedimiento: Binaria (1,0) 1-> ha presentado alguna vez 0-> No ha presentado alguna vez. Partición de la muestra: Aleatoria a (70/30); (80/20) Técnicas favorables a la matriz dispersa: Decision Tree (rpart) Decision Tree (C50) Support Vector Machine (SVM) Extrema Gradient Boosting (XGBtree) con Cross Validation y malla de afinación En la figura 10, se observa el árbol de decisión de frecuencias nominales a partir de la base RIPS. 67 Figura 10 Ã?rbol de decisión para la base RIPS, segundo modelo 68 69 70 71 3.4. Impacto estimado de resultados en salud El depliegue del modelo formulado de predicción significa su uso directo para la definicion de políticas públicas relacionadas con la Hepatitis C. El uso más directo consiste en realizar una extrapolación estadística del modelo de probabilidades a la totalidad de la población de personas que tienen registros RIPS. Para poder hacer esta asignación de probabilidades es necesario poner en marcha un plan, que se ha denominado Plan de Despliegue (ver anexos), que en esencia hace la conversión de la base de datos RIPS y SUFICIENCIA a la estructura de Matriz Dispersa y luego se pasa al modelamiento o asignación de la etiqueta (Si/No) para B182 y su correspondiente probabilidad. El plan incluye definir la periodicidad con la que se realizará este proceso técnico. El modelo ha asignado una etiqueta y una probabilidad de tener B182 a toda la población de la muestra seleccionada. Esta asignación tiene unos indicadores de desempeño que muestran el porcentaje en donde puede equivocarse el modelo en realizar esta predicción. Este error de predicción se debe conjugar con los posibles errores introducidos por el método de muestreo para hacer una generalización (restitución) de los resultados a toda la población RIPS. La calidad de esta inferencia estadística, para este caso, tiene una estrecha relación con el muestreo. Se debe saber que tan representativa de la población son las diferentes muestras con las que se ha trabajado en cada caso, en RIPS y en SUFICIENCIA. Estos muestreos fueron muy particulares porque se tomó el censo (100%) de la población con B182 y una muestra aleatoria simple de los pacientes sin B182. Los tamaños de estos muestreos aleatorios fueron calculados en función de lograr un balance del modelamiento de aprendizaje automático y por lo tanto no tienen el grado de representatividad que se obtendría en un muestreo aleatorio por estratos (B182 y no B182). La diferencia de representatividad numérica de pacientes sin B182 es significativa para la inferencia únicamente en relación con el espectro de patologías consideradas y con la configuración de los patrones informacionales asociados a cada una de las etiquetas. El espectro patológico, que está asociado al número de pacientes, se resuelve haciendo la consideración en el modelo de todo el código CIE10, es decir, no se restringe el espectro al tamaño de la muestra. Esto amplia el radio de dispersión de la matriz resultante pero no afecta la capacidad predictiva. El segundo aspecto importante para la inferencia es la variabilidad de los patrones informacionales, que para el caso se asocian con la condición de no tener B182. Esto queda resuelto con la técnica selección de la técnica de clasificación (arboles, bosques y redes neurales) que priorizan el patrón positivo (B182) y calculan la probabilidad de la etiqueta en función a la desviación (“nâ€? dimensional) de este patrón. En lugar de construir un modelamiento de patrones de la condición “No B182â€?, que es la manera como trabajan otras técnicas. Con estas dos precisiones de inferencia se procede a realizar la estimación por proporciones directas sobre el estimado de pacientes en RIPS y SUFICIENCIA. La predicción con base en RIPS de pacientes con B182 se encontró en 89 pacientes con probabilidad mayor de 80% en una muestra de 9.914 pacientes. De esta muestra los pacientes con B182 equivalen al 0.86%. 72 La predicción con base en los datos de suficiencia fue de 67 pacientes de una muestra de 7.000 pacientes equivalentes a un 0.96%. En estos dos escenarios entonces se calcula que en la población total de Colombia se obtendrían entre 404.200 y 451.200 pacientes que pueden estar infectados con hepatitis C. En Colombia la prevalencia entre los casos de hepatitis C de genotipo 1 es de 88.6% (Óscar Santos, 2017) y de genotipo 2 es del 5.4% (Óscar Santos, 2017). En ese orden de ideas se estima que en los dos escenarios de 404.200 y 451.200 pacientes que pueden estar infectados con hepatitis C en Colombia, entre 358.121 y 399.763 pacientes estarán infectados con genotipo 1 y entre 21.827 y 24.365 pacientes estarán infectados con genotipo 2. 3.5. Resumen y resultados finales de la predicción 3.5.1. Planteamiento del Caso de Negocio El MSPS está interesado en optimizar el manejo de los recursos que se destinan para la atención de las enfermedades de “alto costoâ€?, específicamente aquellos enfocados en la compra de medicamentos para la Hepatitis C (VHC), y disminuir, en términos generales, el impacto que esta enfermedad tiene sobre la sociedad. En la actualidad el MSPS destina anualmente $116.000 millones de pesos para atender 1.225 casos en promedio anualmente. Ya se ha implementado la compra centralizada o al por mayor de estos medicamentos, resultado de lo cual se logró una reducción a $24,000 millones el costo de los medicamentos, lo que implica 92.000 millones de ahorro total por año. El MSPS considera que las técnicas emergentes de soporte a la toma de decisiones, basadas en la inteligencia artificial (AI), pueden contribuir a diseñar medidas para optimizar, aun más, la reducción de costos a la vez que disminuir el impacto general de la Hepatitis C en el país. 3.5.2. Caso de Negocio para el Aprendizaje de Máquina (ML) La inteligencia artificial a través de las técnicas de aprendizaje de maquina puede contribuir a lograr este objetivo de negocio realizando una clasificación predictiva poblacional en dos categorías complementarias: a) haber sido infectado y no diagnosticado de VHC, y b) necesitar medicamentos para su atención. Con la primera clasificación el MSPS puede diseñar planes de tamizaje y de mejora diagnóstica del VHC, y con la segunda clasificación se puede hacer la estimación de la cantidad de unidades de medicamentos que serán necesarias para atender la demanda. Estos dos clasificadores secuenciales se desarrollan con técnicas de aprendizaje supervisado en los siguientes dos modelos: 73 - M1. Modelo de clasificación predictiva de haber sido infectado y no haber sido diagnosticado el VHC para toda la población que ha sido atendida por el sistema de salud. - M2. Modelo de clasificación predictiva de la necesidad de tratamiento del VHC con un grupo específico de medicamentos para las personas que tendrían un diagnóstico positivo de VHC. Para cada uno de estos modelos se definen las siguientes etiquetas: - M1. Modelo binomial de clasificación de dos etiquetas (1,0). En donde (1) significa tener un diagnóstico confirmado de VHC; y (2) significa no tener un diagnóstico confirmado de VHC. Para la identificación de la enfermedad se emplea el código internacional CIE10 que para VHC es {B182}. - M2. Modelo binomial de clasificación de dos etiquetas (1,0), en donde (1) es tener la necesidad de recibir cualquier combinación de los tres medicamentos de interés, y (0) significa no tener la necesidad de recibir los medicamentos de interés. Los tres medicamentos de interés del MSPS, son: o Ledispavir & Sofosbuvir o Dataclasvir o Sofosbuvir Para los dos modelos la clasificación debe ser nominal o personal, para cada ciudadano, y por tanto los datos disponibles deben ser igualmente nominales. 74 3.5.3. Exploración de los datos e ingeniería de factores (parámetros) El MSPS ha establecido que este ejercicio de ML debe realizarse únicamente con la información disponible en su bodega de datos. No se puede recurrir a ninguna fuente externa de información. Esto implica que la ingeniería de factores debe limitarse a la información que el MSPS, como parte de sus funciones misionales, recolecta, organiza y dispone en su bodega de datos. Esta restricción de información constituye un reto para la estructuración de los modelos de clasificación predictiva para una enfermedad con un tipo de contagio específico como lo es el VHC. La medicina y la epidemiología han identificado un conjunto de factores de riesgo asociados con la transmisión o propagación del VHC. Desafortunadamente, estos datos de factores de riesgo solo están disponibles para pacientes que tienen un diagnóstico confirmado de VHC, y por lo tanto rompen la lógica de estructuración de datos para los modelos de aprendizaje supervisado. Un modelo de aprendizaje supervisado exige que se tenga un conjunto de información común para todos los pacientes, para que el ML pueda identificar las combinaciones de variables que establecen un modelo predictivo de asociación con las etiquetas seleccionadas. Lo cierto es que la información de factores de riesgo de VHC, que solo está disponible para pacientes con diagnóstico confirmado de VHC, no puede ser imputada a los pacientes que no tienen VHC, y por tanto no puede ser usada en el primer modelo predictivo. Esta restricción es la que genera la necesidad de establecer una estrategia secuencial de dos modelos de clasificación, que se explicarán más adelante. El MSPS ha dispuesto que para los clasificadores solo se deben emplear las bases de datos propias de la entidad. Se encontró que solo tres de estas bases de datos cumplen los requisitos técnicos para el modelamiento. Los datos disponibles son los siguientes: - Para todos los pacientes con y sin B182 (Base de Datos RIPS y SUFICIENCIA) o Datos de identificación, edad y sexo del paciente o Datos del aseguramiento en salud del paciente y de las instituciones y municipios en las que ha recibido servicios de salud o Historial de todas las atenciones (servicios, procedimientos, medicamentos) que ha recibido un paciente, y los diagnósticos asociados a cada una de estas atenciones. - Solo para los pacientes con B182 (Base de datos MIPRES) o Datos de las prescripciones de medicamentos de los pacientes con diagnóstico confirmado de B182. Para realizar el modelamiento preliminar se tomaron las siguientes muestras de las bases de datos: 75 - Todos los registros de todos los pacientes en las tres bases de datos (RIPS, SUFICIENCIA Y MIPRES) que tienen un diagnóstico confirmado de B182. - Todos los registros de una muestra aleatoria del 1% de pacientes en las tres bases de datos (RIPS, SUFICIENCIA Y MIPRES) que NO tienen un diagnóstico confirmado de B182. En la siguiente tabla se muestran los datos que se emplearon en el modelamiento: Número Porcentaje Número Número Período BASES DE de de Tipo de de de de DATOS pacientes pacientes Información registros pacientes tiempo con B182 con B182 Prescripciones 2017- MIPRES 91.511 22.479 1.391 6.1 de 2018 medicamentos 2009- Atenciones en RIPS 26.389.149 4.692.309 4.357 0.01 2018 salud Costo de 2009- SUFICIENCIA 3.294.664 23.957 2.818 11.8 atenciones en 2016 salud Los eventos de atención de salud son discretos y su ocurrencia está asociada a factores de salud, de disponibilidad de atención del sistema y de la cultura de adherencia y auto cuidado de las personas, entre otros factores. Esto implica que la fecha en que suceden los eventos de salud solo tendría relevancia para análisis de secuencias patológicas (Comorbilidad) pero no para el presente estudio que se enfoca, en buena parte por las restricciones de información, en la manifestación patológica en sí misma, independientemente del momento en que suceda. Esto quiere decir que no hay restricción temporal en la consideración de los registros de información de las atenciones de los pacientes. El requisito es que el espectro de registro de información sea el mismo para los pacientes seleccionados en cada uno de los dos modelos. 76 3.5.4. Estrategia de modelamiento RIPS/SUFICIENCIA MIPRES B18 B182 B182 B182 2 MUESTRAS CENSO ALEATORIA CENSO FIN Etiqueta 1 PROPORCIONES MUESTRA DE (80/20, 70/30) CLASIFICACION MEDICAMENTOS Etiqueta 0 Etiqueta 1 Etiqueta 0 PREPAR PREPAR ACION ACION DATOS DATOS PREPAR ACION DATOS CLASIFICADOR B182 RIPS/SUFICIENCIA CLASIFICADOR RIPS/SUFICIENCIA CLASIFICADOS MEDICAMENTOS CLASIFICADOS B182 MEDICAMENTOS 3.5.5. Datos para el modelamiento La información disponible para el Modelo 1 de clasificación predictiva con las etiquetas “Tiene VHC y No tiene diagnóstico de VHCâ€? es: - Identificación del paciente - Edad - Sexo (variable categórica de dos niveles) - Entidad de aseguramiento en salud (variable categórica de más de 1.000 niveles) - Entidad de prestación de servicios de salud (variable categórica de más de 1.000 niveles) - Ciudad de atención (variable categórica de más de 1.000 niveles) - Diagnósticos registrados (variable categórica de más de 10.000 niveles) - Procedimientos de salud registrados (variable categórica de más de 10.000 niveles) Esta información está estructurada de manera vertical: cada registro representa un evento de salud de un paciente. De manera tal que un solo paciente puede tener varios registros o líneas. En consideración a estas características de los datos disponibles se han creado dos data sets para las pruebas de modelamiento: - Data Set 1. (ID, Edad, Sexo, Ciudad, Asegurador, Prestador, (Indicador binario de haber manifestado un diagnóstico), (Indicador binario de haber recibido un procedimiento) 77 - Data Set 2. (ID, Edad, Sexo, Ciudad, Asegurador, Prestador, (Frecuencia de eventos de salud por cada diagnóstico), (Frecuencia de eventos de salud de cada procedimiento) Cualquiera de los dos Data Set conduce a una “matriz dispersaâ€? en la que hay una alta presencia de “ceros (0)â€?, indicando que no se ha tenido una enfermedad o no se ha recibido un procedimiento. Las técnicas de modelamiento que se van a emplear tienen en cuenta esta característica de la dispersión de los Data Sets. Algunas técnicas manejan mejor este tipo de datos que otras. Para lograr un modelamiento apropiado son tenidos en cuenta tres criterios de proporcionalidad: - Proporcionalidad para balance del modelo. Establece la proporcionalidad del número de registros para cada una de las etiquetas. El VHC no es una enfermedad de alta prevalencia, de manera tal que se toman “Todosâ€? los casos de etiqueta “VHCâ€?, y se hace un muestreo aleatorio simple de un número fijo de pacientes con etiqueta (NOVHC), con proporciones de porcentajes de NOVHC y SIVHC. - Proporcionalidad de la matriz dispersa. En consideración del alto número de variables categóricas en los Data Sets, que se deben expandir (directa o indirectamente) en columnas dentro de la matriz. Se debe tener un RATIO de 3 filas por cada columna (3X1) para que el ncol>nrow. (En las pruebas de modelamiento se está trabajando con una matriz dispersa de (12212 x 3202). - Proporcionalidad de etiquetas en la partición de los data sets para el entrenamiento y la validación o prueba. Se realiza una participación aleatoria con base en la variable dependiente de manera tal que en las particiones queda la misma proporción de etiquetas que en el data set. El tamaño de las particiones es de (70/30) y (80/20). La exploración de datos mostró que en la práctica se presenta una concentración de casos de VHC en unas ciudades, unos aseguradores y unos prestadores de servicios. Esta situación obedece a prácticas administrativas y de ordenamiento del mapa de atención en salud. Esta consideración puede conducir a eliminar las variables (Ciudad, Asegurador, Prestador). Esto también ayudaría a reducir a la magnitud de las columnas de las matrices y la dispersión. La preparación de los Data Sets se termina con el escalamiento y la estandarización opcional para evitar el cero o incurrir en valores negativos. 3.5.6. Selección de las técnicas de modelamiento La selección de las técnicas que se emplearan en el modelamiento es una decisión que depende del objetivo o pregunta que se quiere responder, de la cantidad y características de los datos de que se dispone, y en algunas ocasiones de la capacidad computacional que se tiene. En este caso particular de hacer una clasificación binaria (VHC y NoVHC) y que solo se dispone de la información del conjunto de patologías y procedimientos que ha tenido una 78 persona, lo más recomendado es emplear técnicas de aprendizaje inductivo que se enfoca en el descubrimiento de patrones de información en los ejemplos u observaciones de entrenamiento. El descubrimiento de estas reglas de asociación entre las variables, para realizar la clasificación, debe combinar el enfoque lógico con el probabilístico, permitiendo el manejo de variables simbólicas y numéricas. Además, por tratarse de aprendizaje inductivo se debe maximizar la ganancia de información o contribución a la reducción de incertidumbre que cada variable y cada observación aporta al proceso. Otra consideración importante es la eventual propiedad de clasificación lineal, en la que la combinación lineal de las características o variables conduce a la decisión final de etiquetar o clasificar una observación. Se supone que la combinación de patologías y procedimientos conduce a establecer la clase a la que pertenece el paciente. Estas consideraciones aplican por igual para los dos modelos. El modelo 1, basado en la base de datos RIPS, que clasifica entre {VHC, NoVHC}, y el modelo 2, basado en la base de datos MIPRES, que clasifica entre {Necesita medicamentos específicos, No necesita medicamentos específicos. A estas condiciones de los modelos se debe agregar la característica de los datos de tener la configuración de una matriz dispersa no estructurada, y por tanto se deben seleccionar técnicas que permitan el manejo de este tipo de configuraciones, y que tengan incorporados componentes de descomposición de valor singular (SVD) y de reordenamiento de las matrices. Con estas condiciones se plantea emplear una combinación de técnicas de aprendizaje inductivo, de aprendizaje discriminante y de métodos ensamblados o conjuntos. En conclusión, se deben emplear: - Técnicas basadas en arboles de decisión (arboles simples, RandomForest, Gradiante creciente) - Técnicas discriminantes (Máquinas de soporte vectorial, redes neurales y regresión logística) 79 Tabla 21. Relación entre el método, las técnicas, los paquetes y los algoritmos seleccionados de Rstudio para realizar las iteraciones de modelamiento Método Técnicas Paquetes Algoritmos Arboles de decisión RPART Rpart, prune Conjuntos de C50 C5.0 arboles Redes Neurales RandomForest RandomForest Máquinas de soporte XGBoost, Caret XGBtree Aprendizaje vectorial supervisado Regresión logística Neuralnet neuralnet Nnet nnet E1071 svm STATS svm.lineal glm Cada uno de estos algoritmos tiene un conjunto amplio de parámetros que permiten ir ajustando el entrenamiento de acuerdo con los resultados. Por defecto los paquetes de Rstudio tienen establecidas estrategias de selección automática de los mejores parámetros según la complejidad de la fórmula de entrenamiento y de las características de los conjuntos de datos. El ajuste de parámetros de los algoritmos y de los conjuntos de datos (particiones) se realiza con base en el análisis de desempeño de los modelos. Por tratarse de clasificaciones, lo mejor es emplear una combinación de los indicadores asociados a las cuatro categorías de predicción, y a las probabilidades generales. Las categorías de predicción son: - Positivos Verdaderos - Negativos Verdaderos - Positivos Falsos - Negativos Falsos Esto se consigue con las siguientes técnicas simples de análisis de desempeño: - Matriz de confusión. Parámetros: o Accuracy. o Balanced Accuracy. o Sensitivity o Specificity o Probabilistic (Kappa, Prevalence) - Curva ROC (Receiver Operating Characteristic) o X= False Positive Rate o Y= True Positive Rate - Distribución lineal de probabilidad. Concentración en extremos de las probabilidades (1,0) (ver gráfica) Para realizar una mejor evaluación de los resultados del modelamiento y realizar los ajustes a los parámetros se recomienda el empleo de la técnica de validación cruzada de múltiples capas. Esta técnica busca corregir las posibles imprecisiones que pueden ser introducidas por 80 la partición de los datos en un subconjunto de entrenamiento y otro de prueba o validación. La selección de las particiones puede ser de manera secuencial o aleatoria, y cada una produce un error, que es la media aritmética de los errores encontrados en cada iteración. De las técnicas seleccionadas, el XGBoost tiene incorporado como parámetro la realización de una validación cruzada de varias capas (por lo general lo recomendado son 10 capas), de manera tal que los resultados de dicho modelamiento incluyen el ajuste de los parámetros para obtener la mejor solución. El parámetro “trcontrolâ€? de XGBoost permite definir el número de capas y el método de selección. 3.6. Estrategia final de modelamiento Dadas las características de la información disponible y la finalidad del proyecto de hacer una predicción de la demanda de medicamentos, se decidió realizar el siguiente modelamiento (figura 12). Figura 11 Modelamiento para la predicción de medicamentos No es posible hacer una integración entre las bases de datos de SUFICIENCIA y RIPS, por lo que se realizan dos clasificadores, uno para cada uno de ellos. En igual sentido se mantienen las dos opciones de configuración del Data Set en Binarios y Frecuencias. Esto con el propósito de buscar la estructuración que mejor favorezca la predicción. A partir de MIPRES, en combinación con RIPS o SUFICIENCIA, se elabora el clasificador de necesidad de medicamentos. El ejercicio completo consiste en tomar el censo de población de RIPS y someterlo a los dos clasificadores. Teniendo en cuenta las proporciones desbalanceadas entre pacientes con B182 y los que no, se optó por la selección del censo de pacientes de B183 y un muestreo aleatorio de número fijo para los pacientes sin B182 (Tabla 23). 81 Tabla 22. Muestra de datos por tipo de base tomadas Proporcion Proporcion Proporcion 80/20 70/30 60/40 PACIENTES PACIENTES PACIENTES PACIENTES B182 ~B182 ~B182 ~B182 RIPS 4.357 17.428 10.166 6.536 SUFICIENCIA 2.818 11.272 6.575 4.227 MIPRES 1.391 5.564 3.246 2.087 Con estas proporciones se controlan los posibles sesgos de clasificación que se presentan cuando la desproporción de etiquetas en los modelos es muy grande. Estas proporciones usadas permiten considerar el “Acurracyâ€? como una métrica válida para la evaluación del desempeño de los modelos. Es preciso aclarar que los diferentes muestreos tienen una finalidad práctica para la construcción de los clasificadores. El tamaño de las muestras seleccionadas solo busca lograr un modelo balanceados de las etiquetas del modelo de aprendizaje supervisado. Como se está tomando el censo de la población con B182, se tiene garantizada la cobertura de toda la variabilidad de los factores asociados a la presencia de la enfermedad. Esta variabilidad no tiene el mismo efecto en el caso de las muestras, en tanto entre dos muestras de pacientes que no tienen B182 la variabilidad de los factores puede ser amplia. Esto hace que se empleen técnicas de Machine Learning que tomen como eje la clasificación positiva (tener B182) y consideren la clasificación negativa como un distanciamiento n- dimensional de la clasificación positiva. A nivel de las métricas de evaluación de desempeño esto implica tener preferencia por mejorar la sensibilidad por sobre la especificidad. Después de realizar pruebas con técnicas favorables al manejo de matrices dispersas se tomó la decisión de aplicar las siguientes técnicas de clasificación binaria para los dos clasificadores, el de B182 y el de medicamentos: - Neural Networks - Decision Tree - Random Forest - Decision Jungle - Boosted Decision Tree - Support Vector Machine - Logistic Regression Estas técnicas se han probado en dos entornos de aprendizaje de máquinas: - Rstudio - Microsoft Azure Machine Learning Studio 82 Figura 12 Estructura de los modelos corridos en Azure Para cada uno de los modelamientos se definió un patrón de validación cruzada consistente en un despliegue de 10 capas de validación con un sistema en malla de selección de las observaciones. Este mecanismo contribuye a disminuir el posible sesgo introducido por la partición de los datos para hacer el entrenamiento y las pruebas. Como se mencionó, para la evaluación del desempeño de los clasificadores se emplea las métricas de las matrices de confusión y las curvas ROC (Figura 14). Figura 13 Primeros resultados encontrado con la base de datos RIPS en cuanto al clasificador de B182. Decision Forest Boosted Decision Tree Support Vector Machine Decision Jungle Neural Network Logistic Regression Como puede observarse el desempeño de las diferentes técnicas es muy aceptable. Como se mencionó se tiene en cuenta también el parámetro “Exactitudâ€?, que mide la tasa de clasificación acertada de los positivos, es decir de tener B182, que combinado con el “Accuracyâ€? refleja una gran capacidad de predicción con un error cercano al 12%. De todas las técnicas la que mejor comportamiento tuvo fue la de “Boosted Decision Treeâ€?, que es una técnica de aprendizaje progresivo a través de iteraciones, en las que se aprende de los errores de predicción que van sucediendo. 83 Figura 14 Pruebas de ajuste de los parámetros de modelamiento Decision Forest Boosted Decision Tree Con estos parámetros se logra hacer un balance entre Sensibilidad y Especificidad y se disminuye el error conjunto de clasificación. Es evidente con estos resultados que se ha controlado el sesgo de clasificación mediante el balance de las etiquetas. Figura 15 Modelamiento sobre la base de datos de Suficiencia El comportamiento es similar al de RIPS, aunque los tamaños de las muestras son diferentes. La base de datos RIPS es mucho más grande en número de registros que la de Suficiencia y el número de pacientes con B182 de Suficiencia es menor que el de RIPS. No obstante, estas diferencias de tamaño de las muestras y de las poblaciones de interés con la misma técnica de “Boosted Decision Tree) se obtienen resultados similares, pero se incrementa el tamaño del error de clasificación positiva al 15% y el de negativa al 10%. Realizando ajuste de parámetros sobre el mismo modelo se logra un desempeño final muy significativo porque logra reducir el error positivo al 14% y el negativo al 4% (Figura 17). 84 Figura 16 Modelamiento sobre la base de datos de Suficiencia con Boosted Decision Tree Decision Forest Boosted Decision Tree Cualquiera de los dos clasificadores tiene un buen desempeño y podría ser usado para hacer las predicciones, pero el modelo de doble clasificación impone la condición de que haya correspondencia de registros entre las bases de datos RIPS y SUFICIENCIA con MIPRES. Esta condición obliga a descartar el uso del clasificador de SUFICIENCIA porque los registros MIPRES que son 2017-2018 no tienen correspondencia con los registros de SUFICIENCIA que son 2009-2016. Aunque es posible encontrar algunos pacientes de MIPRES que tienen registros en SUFICIENCIA no son todos los pacientes. Una vez hecho el clasificador de B182 se procedió a tomar una muestra aleatoria simple de RIPS de diez mil (10.000) pacientes que no tienen B182, es decir, que tendían etiqueta 0. Esta nueva muestra (datos frescos) se emplea para hacer la clasificación, y entonces se le pide al clasificador que haga una predicción de clasificación y que calcule la probabilidad de dicha predicción. El resultado que se obtuvo es que en los 10 mil pacientes se encontraron 86 que tendrían B182 con una probabilidad superior al 80%. Estos 86 equivalen al 0.86% de la población clasificada. Si se aplica este porcentaje de clasificación predictiva positiva a la base de datos de pacientes RIPS y SUFICIENCIA del MSPS, a través del plan de despliegue (Ver numeral 4.6) , que son cerca de 23 millones de pacientes, se tendría que 200 mil personas que son atendidas por el sistema de salud tendrían una probabilidad de más del 80% de tener B182 y no haber sido diagnosticado. Esta cifra tiene sentido en relación con las estimaciones de los estudios epidemiológicos del país que plantean que la cifra puede estar cercana a las 250 mil personas. 85 Esto quiere decir que ha sido posible construir un modelo de clasificación predictiva para B182 basado únicamente en los datos disponibles en la base de datos RIPS, que, como se ha visto, se concentra en el historial de diagnósticos y procedimientos recibidos por las personas a lo largo del periodo 2009-2018. No se puede aventurar una conjetura epidemiológica a esta posibilidad predictiva, en el sentido de considerar que este modelo de clasificación refleja una aproximación de multi morbilidad. Los mecanismos específicos de transmisión del VHC impiden considerar la existencia de enfermedades predictoras, que, como sí es el caso para otras patologías, su manifestación en un paciente es un indicio de que hay una probabilidad de desarrollar otra enfermedad. Por ahora lo mejor es considerar que las técnicas de aprendizaje de máquina han logrado identificar un patrón informacional asociado al B182 y que la estimación de “cercaníaâ€? informacional con este patrón asigna una probabilidad acertada en más del 84%. Para enriquecer la comprensión de la predicción se realizó una visualización de las características principales de estas 86 personas identificadas como potenciales B182 (Figura 18). En el eje x están las probabilidades de tener B182 y en él y la cantidad de pacientes que tienen dicha probabilidad. Esto demuestra que el espectro de probabilidades está bien distribuido y que no se ha presentado una imputación metodológica por parte de la técnica de aprendizaje de máquina. Figura 17 Características de las personas identificadas como potenciales B182 La figura 18, muestra el histograma de las edades de los 86 pacientes clasificados de manera predictiva. La siguiente grafica muestra el mismo histograma paras las tres bases de datos con pacientes que tienen B182 confirmado. 86 Figura 18 Histograma de las edades de los 86 pacientes clasificados de manera predictiva Se puede afirmar que el corrimiento a la izquierda que tienen la distribución de la predicción es lo único anómalo respecto a lo encontrado como confirmado B182. La alta cantidad de niños menores de 5 años que estarían infectados, cosa que es posible mediante la infección vertical de padres a hijos, mostraría una dificultad diagnóstica a temprana edad. La interpretación posible que se deriva de esta clasificación predictiva es que hay dificultades diagnósticas. En RIPS hay pacientes que han presentado otros diagnósticos y han recibido determinados procedimientos, que son altamente similares a los de los pacientes con B182, y que, en consecuencia, hay una alta probabilidad de que la tenga y no se haya manifestado o que las manifestaciones no hayan sido interpretadas como indicativas de B182. Sobre esta dificultad diagnóstica se tenía la hipótesis de que había factores institucionales de salud que intervenían en la calidad de la atención en salud y por lo tanto en el diagnóstico. Sin embargo, la práctica institucional de concentrar los pacientes en determinados aseguradores y prestadores de servicios de salud impidió construir un modelamiento de dichas variables. 87 El clasificador de medicamentos no logró el mismo desempeño que el clasificador B182. Desafortunadamente MIPRES solo tienen registros 2017-2018 y el número de pacientes con B182 a los que se les han prescrito las moléculas de interés y que a la vez tengan registros de atención por causas diferentes en RIPS es muy bajo (cerca de 800 pacientes). Esta cifra rompe la proporcionalidad de filas y columnas de una matriz dispersa que dice que se deben tener al menos 3 filas por cada columna. Para este caso se tendría una matriz de 800 filas por 3500 columnas, con lo cual la posibilidad de predicción es muy baja. De todas maneras, se construyó el modelo y estos fueron sus resultados de predicción (Figura 20). Figura 20 Modelo con baja predicción para matriz de 3500 columnas Como puede observarse la capacidad predictiva es casi nula, y como se ve en la tabla de probabilidades el algoritmo entra en una inercia a partir de la cuarta observación y asigna las mismas probabilidades para todas las observaciones, incurriendo en un error. Con este grado de clasificación no es recomendable emplear este modelo a menos que se logren ajustes. 4. Recomendaciones - Realizar una clasificación de toda la base de datos RIPS y SUFICIENCIA, pero previamente hacer un reentrenamiento del modelo con una muestra más grande de pacientes que no tienen B182, en una aproximación a un modelo desbalanceado. Esto contribuye a identificar parámetros de afinamiento a la especificidad del modelo. - Generar un clasificador de medicamentos con la información de la cuenta de alto costo. - Aplicar alguna de las dos opciones previstas para el manejo de la predicción nominal: 88 o Realizar un tamizaje con estos pacientes o Profundizar la información de estos pacientes, en convenio con una EPS, para hacer una clasificación de confirmación entre los que tienen B182 confirmado y los que no tienen, pero tienen probabilidad de tenerlo. - Una vez se tenga alguna confirmación de la predicción se debe definir la periodicidad del reentrenamiento del modelo con los datos nuevos. Esto depende de la tasa de crecimiento del diagnóstico B182. Si, por ejemplo, la tasa no es más del doble a la actual, lo recomendable es hacer este proceso cada año. - Realizar un ejercicio de identificación de oportunidades en todas las áreas del MSPS. - Realizar un entrenamiento a profundidad con funcionarios del MSPS con base en el ejercicio realizado de estos clasificadores, con énfasis en tres aspectos: o Formulación del caso de negocios o Identificación de la oportunidad de la Inteligencia artificial o Preparación de las bases de datos RIPS, MIPRES y SUFICIENCIA o Ingeniería de factores o Selección de las técnicas de modelamiento - Mantener las plataformas Rstudio y Microsoft Azure Machine Learning Studio como herramientas de trabajo, pero incorporar los APIS de Google de Inteligencia artificial basados en TensorFlow, para poder hacer modelamiento de aprendizaje profundo. 4.1. Para adopción de modelo predictivo El MSPS debe adoptar una estrategia de dos pasos para la incorporación del sistema predictivo de B182. Estos son: - Coordinar un equipo mixto de las direcciones de Medicamentos y Tecnologías en Salud y de Promoción y Prevención para usar el modelo predictivo en la clasificación de la población por perfiles de riesgo de tener B182. Cada año se puede actualizar el entrenamiento del modelo y la clasificación predictiva de la población. Esto serviría para el diseño de políticas públicas en salud. - Incorporar el sistema predictivo al MIPRES de manera tal que se emita una alerta temprana al médico prescriptor sobre el riesgo potencial del paciente que atiende de tener B182. 4.2. Estrategia de Big data en el MSPS y sector Este sistema predictivo debe servir como apalancamiento para generalizar el uso de la ciencia de datos como soporte a la toma de decisiones en el MSPS. A parte de continuar con la generación de capacidades al interior del Ministerio es necesario iniciar un diálogo con los demás actores del sistema de salud para formular un plan de trabajo conjunto. Este plan de trabajo debe hacer énfasis en tres aspectos fundamentales: - Identificar oportunidades de aplicación de la Ciencia de Datos al sector salud - Crear un servicio de analítica como parte del SISPRO - Identificar nuevas necesidades de intercambio de información para mejorar las capacidades analíticas. 89 4.3. Plan de despliegue El despliegue de sistema predictivo de Hepatitis C, desarrollado por el Banco Mundial para el Ministerio de Salud y Protección Social tiene tres objetivos específicos: - Objetivo 1. Ajuste técnico de los tres algoritmos claves del sistema ACMED al ambiente de desarrollo y producción de OTIC - Objetivo 2. Creación del servicio OTIC de uso misional del sistema ACMED - Objetivo 3. Asegurar la apropiación institucional y técnica del sistema ACMED por parte de las dependencias indicadas del MSPS Para el logro de estos tres objetivos, que son la actividad de cierre del proyecto del Banco Mundial, se debe seguir el siguiente plan de trabajo: Objetivo 1. - Definir el ambiente computacional de desarrollo (ajustes y ejecución de los algoritmos) y producción (uso misional) del sistema ACMED. Para ambiente de producción se puede usar el mismo del SISPRO. Las tres opciones que se están evaluando para ambiente de desarrollo son: o Ambiente local de los servidores actuales del MSPS. o Ambiental especial temporal. Máquina virtual contratada de manera específica y temporal para la ejecución de los algoritmos. o Ambiente del estudio de Aprendizaje de Maquina (ML) de la plataforma virtual Azure de Microsoft. - Definir los criterios finales de selección de pacientes y registros RIPS y SUFICIENCIA para depurar las Base de Datos y aplicación controlada del algoritmo de depuración. - Realizar ajustes informáticos en el diseño del algoritmo de creación de la estructura de datos para el modelamiento a partir de las Base de Datos. Objetivo 2. - Ejecutar los algoritmos de depuración, preparación y modelamiento cuyo resultado son las bases de datos “RIPS CLASIFICADO VHCâ€? y “SUFICIENCIA CLASIFICADO VHCâ€?. - Adelantar un ejercicio de mejoramiento del desempeño predictivo del algoritmo de “Clasificación de medicamentosâ€? revisando las extracciones MIPRES y SUFICIENCIA y producir la base de datos “MIPRES PREDICTIVO VHCâ€?. - Definición del marco de gobernanza técnica (OTIC) y misional (Medicamentos, Regulación) de uso del sistema ACMED. - Habilitación del servicio informático de uso del sistema ACMED. 90 Objetivo 3. - Realización de un entrenamiento, por el método de réplica de desarrollo, a los funcionarios OTIC, que siga todos los pasos de ciencia de datos que condujeron al sistema predictivo ACMED - Realizar un entrenamiento de uso del sistema ACMED con los funcionarios de Regulación y Medicamentos - Realizar un taller de identificación de oportunidades de construcción de conocimiento a partir de las estructuras de datos creadas por el sistema ACMED (matrices transpuestas nominales RIPS y SUFICIENCIA, series de tiempo de patologías y procedimientos, visualizaciones descriptivas nominales, etc.) Se estima que para el desarrollo de este plan de trabajo es necesario un tiempo de cinco semanas de tiempo parcial por parte de funcionarios OTICS, Regulación y Medicamentos del MSPS, más la participación de los consultores del Banco Mundial. 91 5. Referencias Bibliográficas Ahlenstiel G, B. D. (2010). IL28B in hepatitis C virus infection: translating pharmacogenomics into clinical practice. . J Gastroenterol. , 45:903-910. Alter MJ, K.-M. D. (1999). The prevalence of hepatitis C virus infection in the United States, 1988 through 1994. . N Engl J Med. , 341:556-562. . Alter MJ, M. H. (1992). The natural history of community-acquired hepatitis C in the United States. The Sentinel Counties Chronic non-A, non-B Hepatitis Study Team. . N Engl J Med. , 327:1899-1905. . Alter. (2007). Epidemiology of hepatitis C virus infection. . World J Gastroenterol. , 13:2436-2441. Anthony. (2001). Hepatocellular carcinoma: an overview. . Histopathology , 39: 109-118. Armstrong GL, A. M. (2000). The past incidence of hepatitis C virus infection: implications for the future burden of chronic liver disease in the United States. . Hepatology. , 31:777-782. Armstrong GL, W. A. (2006). The prevalence of hepatitis C virus infection in the United States, 1999 through 2002. . Annu Int Med. , 144:705–714. Asselah T, B. Y. (2009). Protease and polymerase inhibitors for the treatment of hepatitis C. . Liver Int. , 29 Suppl 1:57-67. . Bacon BR, G. S. (2011). Boceprevir for previously treated chronic HCV genotype 1 infection. . N Engl J Med. , 364:1207-1217. . Baker RD, B. S. (2015). Hepatitis C in children in times of change. . Current Opinion Pediatrics. , 271–5. Balistreri WF, M. K. (2017). The safety and effectiveness of ledipasvir-sofosbuvir in adolescents 12–17 years old with hepatitis C virus genotype 1 infection. . Hepatology. , 66(2):371–378. Bartenschlager R, L. V. (2000). Replication of hepatitis C virus. . J Gen Virol. , 81:1631- 1648. Bisceglie., D. (2000. ). Hepatitis C and hepatocellular carcinoma. En: TJ Liang, JH Hoofnagle (eds.) Hepatitis C. . San Diego : Academic Press. . Blázquez-Pérez A, S. M. (2013). Cost-effectiveness analysis of triple therapy with protease inhibitors in treatment-naive hepatitis C patients. PharmacoEconomics , 31:919-31. Bosch J, R. J. (1999). Epidemiology of Primary Liver cancer. . Semin Liver Dis , 19: 271- 285. Bostan N, M. T. (2010). An overview about hepatitis C: a devastating virus. . Crit Rev Microbiol. , 36:91-133. Bouchardeau F, C. J. (2007). Improvement of hepatitis C virus (HCV) genotype determination with the new version of the INNO-LiPA HCV assay. . J Clin Microbiol. , 45:1140-1. Bouvier-Alias M, P. K. (2002). Clinical utility of total HCV core antigen quantification: a new indirect marker of HCV replication. . Hepatology. , 36:211-218. Bukh J, M. R. (1995). Genetic heterogeneity of hepatitis C virus: quasispecies and genotypes. . Semin Liver Dis. , 15:41-63. Bunchorntavakul C, C. D. (2013). Hepatitis C genotype 6: A concise review and response- guided therapy proposal. . World J Hepatol. , 5:496–504. 92 Cazzaniga M, S. F. (2009 ). Prediction of asymptomatic cirrhosis in chronic hepatitis C patients: accuracy of artificial neural networks compared with logistic regression models. Eur J Gastroenterol Hepatol. , Jun;21(6):681-7. Centers for Disease Control and Prevention (CDC). . (2013). Testing for HCV infection: an update of guidance for clinicians and laboratorians. . MMWR Morb Mortal Wkly Rep. , 62:362-365. Chao DT, A. K. (2011). Systematic review: epidemiology of hepatitis C genotype 6 and its management. Aliment Pharmacol Ther., 34:286-296. Chao DT, A. K. (2011). Systematic review: epidemiology of hepatitis C genotype 6 and its management. . Aliment Pharmacol Ther. , 34:286-296. . Chevaliez. (2011). Virological tools to diagnose and monitor hepatitis C virus infection. Clin Microbiol Infect., 17:116-121. Chevaliez S, B.-A. M. (2007). HCV genotype determination in clinical practice: weaknesses of assays based on the 5’noncoding region and improvement with the core-coding region. . Hepatology. , 46 Suppl 1:839A. Chlabicz S, F. R.-K. (2008). Changing HCV genotypes distribution in Poland--relation to source and time of infection. . J Clin Virol. , 42:156-159. Choo QL, K. G. (1989). Isolation of a cDNA clone derived from a blood-borne non-A, non- B viral hepatitis genome. . Science. , 244:359-362. Dalgard O, J. S. (2003). Hepatitis C in the general adult population of Oslo: prevalence and clinical spectrum. . Scand J Gastroenterol. , 38:864-870. . Dehesa-Violante M, B.-P. F.-S. (2007). Mexican Study Group of Pegasy. Prevalence of hepatitis C virus genotypes in Mexican patients. Rev Gastroenterol Mex , 72:344- 348. . Denniston MM, K. R. (2012). Awareness of infection, knowledge of hepatitis C, and medical follow-up among individuals testing positive for hepatitis C: National Health and Nutrition Examination Survey 2001-2008. . Hepatology. , 55:1652- 1661. Doyle JS, H. M. (2012). The role of viral and host genetics in natural history and treatment of chronic HCV infection. . Best Pract Res Clin Gastroenterol. , 26:413-427. Duffy S, S. L. (2008). Rates of evolutionary change in viruses: patterns and determinants. . Nat Rev Genet. , 9:267-276. . Editorial, Non-A, non-B? . (1975). Lancet . , 2:64–65 . El-Khayat HR, K. E.-S. (2018). The effectiveness and safety of ledipasvir plus sofosbuvir in adolescents with chronic hepatitis C virus genotype 4 infection: a real-world experience. . Aliment Pharmacol Ther. , 47(6):838–844. El-Shabrawi MH, K. N. (2013). Burden of pediatric hepatitis C. . World J Gastroenterol. , 19(44):7880–7888. . European Association for the Study of the Liver. . (2011). EASL Clinical Practice Guidelines: management of hepatitis C virus infection. . J Hepatol. , 55:245-264. . Fortin M, B. G. (2005). Prevalence of multimorbidity among adults seen in family practice. . Ann Fam Med. , 3:223–228. doi: 10.1370/afm.272. Fried. (2002). Side effects of therapy of hepatitis C and their management. . Hepatology , 36(5 Suppl. 1):S237-44. García-Torres ML, Z. A. (2003). Incidencia y factores epidemiológicos del carcinoma hepatocelular en Valencia durante el año 2000. . Rev Esp Enferm Digest , 95: 381- 384. 93 Ghany MG, S. D. (2009). American Association for the Study of Liver Diseases, Aaftsol D. Diagnosis, management, and treatment of hepatitis C: an update. . Hepatology. , 49(4):1335–1374. Ghany MG, S. D. (2009). Diagnosis, management, and treatment of hepatitis C: an update. Hepatology., 49(4):1335–1374. Global Burden Of Hepatitis C Working Group. . (2004). Global burden of disease (GBD) for hepatitis C. . J Clin Pharmacol. , 44:20-29. Goossens N, N. F. (2014). Is genotype 3 of the hepatitis C virus the new villain? . Hepatology. , 59:2403-2412. . Gottwein JM, B. J. (2008). Cutting the gordian knot-development and biological relevance of hepatitis C virus cell culture systems. . Adv Virus Res. , 71:51-133. Harris RJ, R. M. (2012). Hepatitis C prevalence in England remains low and varies by ethnicity: an updated evidence synthesis. . Eur J Public Health. , 22:187-192. . Hézode C, F. H. (2014). Effectiveness of telaprevir or boceprevir in treatment-experienced patients with HCV genotype 1 infection. . Gastroenterology , 147:132-142.e4. Hosseini-Moghaddam SM, I.-P. E. (2012). Hepatitis C core Ag and its clinical applicability: potential advantages and disadvantages for diagnosis and follow-up? . Rev Med Virol. , 22:156-165. . Houghton. (2009). Discovery of the hepatitis C virus. . Liver Int. , 29 Suppl 1:82-88. . Hsu HC, J. Y. (Am J Pathol ). Beta-catenin mutations are associated with a subset of low- stage hepatocellular carcinoma negative for hepatitis B virus and with favorable prognosis. . 2000: 157: 763-770. Indolfi G, H. L. (2018). Treatment of chronic hepatitis C virus infection in children: a position paper by the Hepatology Committee of European Society of Paediatric Gastroenterology, Hepatology and Nutrition. . J Pediatr Gastroenterol Nutr. , 505- 515. James Lara, F. X.-L.-C. (2014). Computational models of liver fibrosis progression for hepatitis C virus chronic infection. BMC Bioinformatics, 15(Suppl 8): S5. Jhaveri R, G. W. (2006). The burden of hepatitis C virus infection in children: estimated direct medical costs over a 10-year period. . J Pediatr. , 148(3):353–358. Kamili S, D. J. (2012). Laboratory diagnostics for hepatitis C virus infection. . Clin Infect Dis. , 55 Suppl 1:S43-S48. . Katsoulidou A, S. V. (2006). Molecular epidemiology of hepatitis C virus (HCV) in Greece: temporal trends in HCV genotype-specific incidence and molecular characterization of genotype 4 isolates. J Viral Hepat. , 13:19–27. KayvanJoo AH, E. M. (2014 ). Prediction of hepatitis C virus interferon/ribavirin therapy outcome based on viral nucleotide attributes using machine learning algorithms. BMC Res Notes. , Aug 23;7:565. doi: 10.1186/1756-0500-7-565. Kershenobich D, R. H.-A. (2011). Trends and Projections of Hepatitis C Virus Epidemiology in Latin America. . Liver International , (Supplement S2): 18-29. Kitagawa M, H. S. (1999). An F-box protein, FWD1, mediates ubiquitin-dependent proteolysis of b-catenin. . EMBO J , 18: 2401-2410. Konerman MA, Z. Y. (2015 ). Improvement of predictive models of risk of disease progression in chronic hepatitis C by incorporating longitudinal data. Hepatology. , Jun;61(6):1832-41. 94 Koneru A, N. N. (2016). Increased hepatitis C virus (HCV) detection in women of childbearing age and potential risk for vertical transmission – United States and Kentucky, 2011–2014. . MMWR Morb Mortal Wkly Rep. , 65(28):705–710. Lavanchi. (2011). Evolving Epidemiology of Hepatitis C Virus. Clin Microbiol Infect , 17: 107-115. Lavanchy. (2009). The global burden of hepatitis C. . Liver Int. , 29 Suppl 1:74-81. Lavanchy. (2011). Evolving epidemiology of hepatitis C virus. . Clin Microbiol Infect. , 17:107-115. Lawitz E, M. A. (2013). Sofosbuvir for Previously Untreated Chronic Hepatitis C Infection. . N Engl J Med , 368:1878-87. Mack CL, G.-P. R. (2012). NASPGHAN practice guidelines: diagnosis and management of hepatitis C infection in infants, children, and adolescents. . J Pediatr Gastroenterol Nutr. , 54(6):838–855. Manns MP, W. H. (2006). Treating viral hepatitis C: efficacy, side effects, and complications. Gut. , 55:1350-1359. Massard J, R. V. (2006). Natural history and predictors of disease severity in chronic hepatitis C. . J Hepatol. , 44:S19-S24. . Mauss S, B. F.-V. (2012). Treatment results of chronic hepatitis C genotype 5 and 6 infections in Germany. . Z Gastroenterol. , 50:441–444. . McHutchison JG, E. G. (2009). Telaprevir with peginterferon and ribavirin for chronic HCV genotype 1 infection. . N Engl J Med. , 360:1827-1838. McHutchison JG, W. J. (2001). Hepatitis Interventional Therapy Group. The effects of interferon alpha-2b in combination with ribavirin on health related quality of life and work productivity. J Hepatol , 34(1):140-7. Miller FD, A.-R. L. (2010). Evidence of intense ongoing endemic transmission of hepatitis C virus in Egypt. . Proc Natl Acad Sci USA. , 107:14757–14762. . Moscato GA, G. G. (2011). Quantitative determination of hepatitis C core antigen in therapy monitoring for chronic hepatitis C. . Intervirology. , 54:61-65. Nerrienet E, P. R. (2005). Hepatitis C virus infection in cameroon: A cohort-effect. . J Med Virol. , 76:208–214. Nguyen MH, K. E. (2005). Prevalence and treatment of hepatitis C virus genotypes 4, 5, and 6. . Clin Gastroenterol Hepatol. , 3:S97-S101. . Okabe H, S. S. (Cancer Res ). Genome-wide analysis of gene expression in human hepatocellular carcinomas using cDNA microarray. . 2001: 61: 2129-2137. Okuda. (2000). Hepatocellular carcinoma. . J Hepatol , 32: 225-237. Omland LH, K. H. (2010). Mortality in patients with chronic and cleared hepatitis C viral infection: a nationwide cohort study. . J Hepatology. , 53(1):36–42. Omland LH, K. H. (2010). Mortality in patients with chronic and cleared hepatitis C viral infection: a nationwide cohort study. . J Hepatol. , 53(1):36–42. Óscar Santos, A. G. (2017). Genotipos circulantes del virus de la hepatitis C en Colombia. Biomédica, 3171-3173. Ottiger C, G. N. (2013). Detection limit of architect hepatitis C core antigen assay in correlation with HCV RNA, and renewed confirmation algorithm for reactive anti- HCV samples. . J Clin Virol. , 58:535-540. Paez Jimenez A, M. M.-H.-D. (2009). Injection drug use is a risk factor for HCV infection in urban Egypt. . PLoS One. , 4:e7193. 95 Paez Jimenez A, S. E.-D.-H.-H.-A.-H. (2010). HCV iatrogenic and intrafamilial transmission in Greater Cairo, Egypt. . Gut. , 59:1554–1560. Park Y, L. J. (2010). New automated hepatitis C virus (HCV) core antigen assay as an alternative to real-time PCR for HCV RNA quantification. . J Clin Microbiol., 48:2253-2256. Parkin DM, B. F. (2001). Cancer burden in the year 2000.The global picture. . Eur J Cancer , 37: S4-S66. Pawlotsky. (2003). Use and interpretation of hepatitis C virus diagnostic assays. . Clin Liver Dis. , 7:127-137. . Pham YH, R. P. (2016). Chronic hepatitis C infection in children. . Adv Pediatr. , 63(1):173–194. Piscaglia F, C. A. (2006 ). Prediction of significant fibrosis in hepatitis C virus infected liver transplant recipients by artificial neural network analysis of clinical factors. Eur J Gastroenterol Hepatol. , Dec;18(12):1255-61. Poordad F, D. D. (2012). Treating hepatitis C: current standard of care and emerging direct- acting antiviral agents. . J Viral Hepat. , 19:449–464. Razavi H, W. I. (2014). The present and future disease burden of hepatitis C virus (HCV) infection with today’s treatment paradigm. . J Viral Hepat, 21(Suppl. 1):34-59. . Resino S, S. J.-S. (2011). An artificial neural network improves the non-invasive diagnosis of significant fibrosis in HIV/HCV coinfected patients. J Infect., Jan;62(1):77-86. Rodrigue JR, B. W. (2009). Impact of hepatitis C virus infection on children and their caregivers: quality of life, cognitive, and emotional outcomes. . J Pediatr Gastroenterol Nutr. , 48(3):341–347. . Rodríguez-Vidigal FF, B. M. (2005). Epidemiología del carcinoma hepatocelular en un área rural. Papel de los virus hepatotropos en la supervivencia. . An Med Interna (Madrid) , 22: 162-166. San Miguel R, G.-B. V. (2015). Cost-effectiveness analysis of sofosbuvir-based regimens for chronic hepatitis C. Gut, 64:1277-88. . Sarrazin C, Z. S. (2010). Resistance to direct antiviral agents in patients with hepatitis C virus infection. . Gastroenterology. , 138:447-462. Serranti D, B. D. (2011). Pediatric hepatitis C infection: to treat or not to treat … what’s the best for the child? . Eur Rev Med Pharmacol Sci. , 15(9):1057–1067. Shousha HI, A. A. (2018 ). Data Mining and Machine Learning Algorithms Using IL28B Genotype and Biochemical Markers Best Predicted Advanced Liver Fibrosis in Chronic Hepatitis C. Jpn J Infect Dis. , Jan 23;71(1):51-57. Sievert W, A. I. (2011). A systematic review of hepatitis C virus epidemiology in Asia, Australia and Egypt. Liver Int. , 31 Suppl 2:61-80. Simmonds P, B. J. (2005). Consensus proposals for a unified system of nomenclature of hepatitis C virus genotypes. . Hepatology. , 42:962-973. Simmonds P, B. J. (2005). Consensus proposals for a unified system of nomenclature of hepatitis C virus genotypes. . Hepatology. , 42:962-973. Singal AG, M. A. (2013 ). Machine learning algorithms outperform conventional regression models in predicting development of hepatocellular carcinoma. Am J Gastroenterol. , Nov;108(11):1723-30. doi: 10.1038/ajg.2013.332. Epub 2013 Oct 29. 96 Smith DB, B. J. (2014). Expanded classification of hepatitis C virus into 7 genotypes and 67 subtypes: updated criteria and genotype assignment web resource. . Hepatology. , 59:318–327. Solís-Herruzo. (2003). Hepatocellular carcinoma. Epidemiological and etiological factors. Rev Esp Enferm Digest, 95: 377-380. STROBE; STATEMENT. (2018). Strengthening the reporting of observational studies (2007) Checklist for cohort, case-control, and cross-sectional studies. . Obtenido de http://www.strobe.statement.org. Susser S, W. C. (2009). Characterization of resistance to the protease inhibitor boceprevir in hepatitis C virus-infected patients. . Hepatology. , 50:1709-1718. Takayama T, E. H. (2011). Prediction of Effect of Pegylated Interferon Alpha-2b plus Ribavirin Combination Therapy in Patients with Chronic Hepatitis C Infection. PLOS ONE , 6(12): e27223. Tallo T, N. H. (2007). Genetic characterization of hepatitis C virus strains in Estonia: fluctuations in the predominating subtype with time. . J Med Virol. , 79:374–382. The oxford levels of evidence 2. (2009). Obtenido de http://www.cebm.net/index.aspx?o=5653 Thompson AJ, L. S. (2011). Resistance to anti-HCV protease inhibitors. . Curr Opin Virol., 1:599-606. . Thompson AJ, M. J. (2009). Antiviral resistance and specifically targeted therapy for HCV (STAT-C). . J Viral Hepat. , 16:377-387. Van den Akker, F. B. (1996). Comorbidity or multimorbidity: what's in a name? A review of literature. European Journal of General Practice, , vol. 2, no. 2, pp. 65–70. van der Meer AJ, V. B.-R. (2012). Association between sustained virological response and all-cause mortality among patients with chronic hepatitis C and advanced hepatic fibrosis. JAMA, 30-60. Victrelis TM (boceprevir). (s.f.). Obtenido de http://www.ema.europa.eu/docs/en_GB/document_library/EPAR_- _Product_Information/human/ 002332/WC500109786.pdf.: http://www.ema.europa.eu/docs/en_GB/document_library/EPAR_- _Product_Information/human/ 002332/WC500109786.pdf. Williams IT, B. B. (2011). Incidence and transmission patterns of acute hepatitis C in the United States, 1982-2006. . Arch Intern Med. , 171:242–248. Williams. (1999). Epidemiology of hepatitis C in the United States. . Am J Med. , 107:2S– 9S. Wise M, B. S. (2008). Changing trends in hepatitis C-related mortality in the United States, 1995-2004. . Hepatology. , 47:1128–1135. Wong CM, F. S. (2001). b-Catenin mutation and overexpression in hepatocellular carcinoma. Cancer, 92: 136-145. World Health Organization. (1999). Hepatitis C--global prevalence (update). . Wkly Epidemiol Rec. , 74:425-427. Yee. (2004). Host genetic determinants in hepatitis C virus infection. . Genes Immun. , 5:237-245. Zeuzem S, A. P. (2011). Telaprevir for retreatment of HCV infection. . N Engl J Med. , 364:2417-2428. Zeuzem S, B. T. (2009). Expert opinion on the treatment of patients with chronic hepatitis C. . J Viral Hepat. , 16:75-90. 97 98