ImpactU Versión 3.11.2 Última actualización: Interfaz de Usuario: 16/10/2025 Base de Datos: 29/08/2025 Hecho en Colombia
Detección temprana de cáncer en población sintomática: desarrollo de un modelo multivariante y un modelo de aprendizaje de máquinas basados en bases de datos administrativas del sistema de salud colombiano y aplicados al cáncer gástrico
En Colombia, el cáncer gástrico es la primera causa de muerte por cáncer. En el momento no existen estrategias de tamización con eficacia demostrada para esta enfermedad y mejorar la oportunidad diagnóstica en sintomáticos representaría menor esfuerzo para sistemas de salud y pacientes. Diversos modelos utilizan síntomas y factores de riesgo restringidos a variables con muy alto valor predictivo positivo. La inteligencia artificial posibilita la búsqueda de nuevas alternativas, pero los estudios en este campo se orientan a mejorar la interpretación de imágenes endoscópicas o a mejorar modelos epidemiológicos preexistentes. Adicionalmente, no se conocen trabajos desarrollados en Latinoamérica. Utilizando bases de datos del sistema de salud, este trabajo abordó la problemática descrita mediante el análisis de la asociación del diagnóstico de cáncer gástrico con diagnósticos y procedimientos registrados en todas las atenciones previas al diagnóstico de cáncer, sobre la idea de que el registro sistemático de todas las atenciones permite identificar el rastro que deja el paciente durante el desarrollo de la patología oncológica. Se realizó un estudio con dos componentes: modelo multivariado de predicción clínica (prospectivo) y modelos de predicción basados en aprendizaje de máquinas (retrospectivo). Se utilizó la base de datos para cálculo de la Unidad de Pago por Capitación en el régimen contributivo del sistema de salud y la información de defunciones del sistema de estadísticas vitales. Se seleccionaron periodos de análisis con base en la disponibilidad, suficiencia, comparabilidad y consistencia de los datos. Modelo multivariante: Se incluyeron pacientes de 40 a 90 años que usaron servicios en 2011. Se excluyeron pacientes con diagnóstico de cáncer o fallecidos ese año. Se utilizó regresión logística LASSO para seleccionar variables predictoras. Las anemias carenciales se definieron como variable de exposición, y el índice de comorbilidad de Charlson modificado como covariable. En total conformaron la cohorte 14.399 individuos con anemia (expuestos) y 44.961 sin anemia (no expuestos). Se analizó el riesgo de diagnóstico de cáncer gástrico mediante una función de incidencia acumulada. Posteriormente se utilizó un modelo de riesgos competitivos. Se observaron diferencias en edad, sexo y lugar de residencia entre expuestos y no expuestos. El riesgo relativo para el diagnóstico de cáncer gástrico fue 1,53 (IC95% 1,51-1,54), con fracción atribuible 47,1 y fracción atribuible poblacional 17,8. La mediana de tiempo al diagnóstico fue 28,2 y 36,7 meses para expuestos y no expuestos. La incidencia de cáncer gástrico a 60 meses con anemia fue 7,6 por 1.000 (IC95% 6,1-9,1) y sin anemia 2,4 por 1.000 (IC95% 1,9-2,8). En el modelo de riesgos competitivos la anemia mostró la mayor fuerza de asociación. Modelo de aprendizaje de máquinas: Se seleccionaron pacientes de 30 a 90 años con y sin diagnóstico de cáncer gástrico entre septiembre y diciembre de 2017. Se utilizaron dos periodos de análisis: próximo al desenlace (enero-agosto 2017) y dos años previos al desenlace (septiembre 2015-agosto 2017). En el último caso se dejó un periodo de lavado de seis meses para reducir el efecto de diagnósticos y procedimientos cercanos al desenlace. Se filtraron variables predictoras (CIE10 diagnósticos y CUPS procedimientos). Se incluyeron 1.426 y 1.462 variables para los análisis a uno y dos años, respectivamente. Se utilizaron tres modelos: regresión logística LASSO, bosques aleatorios y potenciación del gradiente. Se evaluó el desempeño mediante el área bajo la curva (AUROC), exactitud (accuracy), sensibilidad, especificidad, valor predictivo positivo (VPP) y valor predictivo negativo (VPN). Se calculó el número necesario a seguir (NNT) en función de la probabilidad de diagnóstico de cáncer. Se incluyeron 4.965.931 y 5.175.620 individuos para el seguimiento a uno y dos años, dentro de los cuales hubo 1.426 y 1.462 casos de cáncer gástrico, respectivamente. La mayoría fueron mujeres, la edad promedio 58 y 53 años en pacientes con y sin cáncer gástrico, el número de atenciones fue mayor en pacientes con cáncer gástrico. Los coeficientes para las variables predictivas fueron mayores en el análisis de un año. A su vez, los diagnósticos mostraron mayor capacidad predictiva en ambos periodos de análisis. El AUROC no mostró diferencias entre modelos en el análisis a dos años; sin embargo, al utilizar el mejor punto de corte de cada modelo, la sensibilidad para LASSO fue mayor que para bosques aleatorios y potenciación de gradiente (65,4%; 27,8% y 57,9%). La especificidad fue mayor en los bosques aleatorios. La mayor capacidad predictiva la tuvo la regresión logística LASSO en el año previo al diagnóstico. En todos los modelos, el desempeño se mejoró con el incremento del punto de corte (mayor probabilidad de predicción del desenlace), esencialmente por un incremento de la especificidad. Los VPP en todos los modelos fueron menores de 1% en razón a la baja prevalencia de la enfermedad. El AUROC no mostró diferencias entre el ejercicio de validación interno (entrenamiento) y la validación externa. Consistentemente, municipios ubicados en la zona de montaña estuvieron dentro de las variables con coeficientes más altos mientras que municipios de la Costa Atlántica estuvieron dentro de las variables con coeficientes más bajos. En el análisis a dos años, la proporción de individuos que requieren seguimiento para detectar al menos el 70% de los casos de cáncer gástrico es 16,1%; 16,5%; y 20,4% según LASSO, bosques aleatorios y potenciación del gradiente, respectivamente; esto equivale a un NNT de 1.170, 1.230, y 1.498. La regresión logística LASSO a un año muestra que se debe seguir el 10,6% de la población para detectar al menos el 70% de los casos de cáncer gástrico (NNT 790). Conclusiones: El presente estudio representa un abordaje innovador del aprendizaje de máquinas al utilizar información no sesgada de toda expresión sintomática de la enfermedad en su fase previa al diagnóstico. La regresión logística LASSO mostró mejor desempeño que los modelos restantes incluido el modelo multivariante. El desempeño observado puede mejorarse en población de mayor riesgo como los residentes en los municipios de alta montaña. Los resultados tienen potencial de uso en la práctica clínica dada su capacidad discriminativa y el NNT, pero su uso en la rutina de los servicios debe estar precedido de su correcta validación clínica (Texto tomado de la fuente).