ImpactU Versión 3.11.2 Última actualización: Interfaz de Usuario: 16/10/2025 Base de Datos: 29/08/2025 Hecho en Colombia
Análisis de la Calidad de Microdatos Extraídos de Twitter : una aproximación desde investigación reproducible sobre datos de los perfiles de los Candidatos Gustavo Bolívar y Juan Daniel Oviedo en las Elecciones para la Alcaldía de Bogotá 2023
Este estudio se centra en examinar la calidad de los datos extraídos de las redes sociales, particular‐ mente de Twitter (ahora denominada “X” y que a lo largo de esta tesis se denominará Twitter/X), en el contexto de las campañas políticas de las elecciones regionales del año 2023 en Bogotá. La infor‐ mación política que Gustavo Bolívar y Juan Daniel Oviedo publicaron en Twitter/X a lo largo de su campaña será analizada mediante minería de textos. El objetivo de este estudio es investigar herra‐ mientas o métodos de scraping para recopilar datos de la red social Twitter/X, por lo que este proyecto utiliza herramientas de análisis de datos para comprender cuánta información podemos extraer de los microdatos del discurso político en contextos digitales, particularmente en Twitter/X. Esto lo hace novedoso y pertinente para los campos de las ciencias de la información, las bibliotecas y los archi‐ vos, particularmente desde el enfoque de las ciencias archivísticas computacionales. Extraer datos de calidad es un primer paso que, a futuro y en investigaciones posteriores fuera del alcance de esta, pue‐ den ayudar a comprender los datos del discurso emitido por candidatos como manera de fomentar la participación política novedosa en contextos discursivos mediados digitalmente, que constituyen buena parte de la manera en que ciudadanos y candidatos se comunican contemporáneamente. El proyecto de investigación comenzó con una pregunta fundamental: ¿cómo afectan las redes so‐ ciales, especialmente Twitter, la percepción pública sobre los candidatos políticos en las elecciones municipales de 2023 en Bogotá? Esta pregunta inicial tuvo como objetivo comprender las dinámicas del uso de la información y comunicación en las redes sociales y su influencia en la política contempo‐ ránea. Inicialmente paso, se planeó utilizar la API de Twitter para recopilar datos completos sobre las interacciones de los candidatos a lo largo de sus campañas para la Alcaldía de Bogotá, sin embargo, entre el semestre de formulación de la tesis y el de su ejecución, la plataforma fue comprada por Elon Musk y ésta se vio sometida a grandes cambios, entre ellos las relacionadas con las políticas de acceso a la API, las cuales negaron a los centros académicos el acceso a los datos que con anterioridad podían hacer uso. Poco tiempo después del cierre del API oficial para investigadores, ocurriría también el lla‐ mado cierre del API no oficial, usada por proyectos de código abierto como Nitter y Squawker y que en ese momento llevó a anuncios respectivos de sus desarrolladores sobre la muerte de cada uno de los proyectos1 (si bien, gracias a la resiliencia del código abierto, han continuado vigentes después). Por lo expuesto previamente, quienes queríamos investigar sobre discurso político y público en redes sociales, nos enfrentamos a una panorámica de restricciones progresivas y tajantes frente a informa‐ ción relevante por lo que algunos lugares como la Pontificia Universidad Javeriana en Colombia o el ITESO en México, detuvieron los estudios e investigaciones que requirieran nuevos datos de dicha pla‐ taforma, como se confirmó en conversaciones con investigadores cercanos a centros de investigación en dichas instituciones, que trabajaban con datos tomados de Twitter. Si bien los archivos con trinos del pasado, recopilados antes de la era Musk de Twitter, son conservados por distintos institutos y centros de investigación, para esta tesis no se quería una investigación que se refierra sólo al pasado, sino que también pudiera indagar por datos relevantes en el presente y en el futuro. Por lo anterior, en lugar de terminar la investigación con esta fuente de datos, siguiendo el enfoque de muchos centros alrededor del mundo, o cambiarla por completo, se persistió creativamente al re‐ pensar no sólo la estrategia de recopilación de datos sino la pregunta de investigación. En lugar de centrarnos en la cantidad y el tipo de interacciones, reducimos nuestro alcance para incluir la calidad de los microdatos extraídos de Twitter/X, a través de técnicas de scraping (raspado o extracción) de datos. Esta nueva perspectiva enfocada en la calidad de los datos extraídos de las redes sociales es un primer elemento a tener en cuenta para futuros estudios que se hagan con dichos datos, frente al escenario de restricciones anteriormente señalado. Este ajuste metodológico fue fundamental para garantizar la viabilidad y profundidad del estudio, dadas las limitaciones impuestas por la API de Twit‐ter. Además se mantuvo la mirada sobre los perfiles particulares para los datos que se querían extraer, pues si bien la calidad del microdato extraído no cambia cuando se cambia de perfil, es decir, la mis‐ ma fuente de datos extraerá datos de igual calidad para un candidato político que para cualquier otro perfil, el estudio de los datos de los políticos, que constituyen su discurso público, es de particular relevancia si se quieren comprender a futuro fenómenos como los de manipulación mediática, que inspiraron la pregunta inicial de esta tesis. Esta tesis también se enmarca en el llamado giro computacional del archivo o lo que se reconoce como ciencias archivísticas computacionales, de las que se hablará en el marco teórico. Este viraje computacional se preocupa por la materialidad digital del archivo y por el hecho de que éste ahora no es sólo algo que leemos sino que “nos lee” y perfila de vuelta intentando crear patrones sobre los cibernavegantes que consultan y usan un archivo digital, ya sea este una red social o una aplicación ofimática y de groupware en la “nube”. Por ello, no sólo se preocupa por hacer explícitas las interfa‐ ces, algoritmos y el código con el que se extraén y estudian los datos de Twitter, sino las plataformas mismas con las que esta tesis se escribe. Para lograrlo, usa el enfoque de investigación reproduci‐ ble, en el que los investigadores comparten más allá que sus hallazgos y resultados y se esfuerzan por incrementar la trazabilidad histórica de los distintos artefactos que la investigación produce (da‐ tos, código, prosa, etc.) De acuerdo con lo anteriormente señalado, los capítulos que se centran en revelar esa materialidad digital no son anexos técnicos, sino lugares centrales de este estudio que si bien “enrarecen” la escritura, hacen parte de esas nuevas formas escriturales consecuentes con el giro computacional antes mencionado, entre las que se encuentran las libretas interactivas, las visua‐ lizaciones y narrativas de datos y a las que está incursionando también la ciencia de la información, la bibliotecología y la archivística, como se puede apreciar en discusiones recientes del Archivo Nacional del Reino Unido o las ediciones académicas especiales de la ACM (Association for Computing Machinery) sobre Computational Archival Science (Ciencias Archivísticas Computacionales). Lo anterior implica desafíos tanto para el autor como para el lector de la tesis. Si bien las tesis no son textos de divulgación para público general, sino que suponen públicos especializados, acá nos enfrentamos, además, al desafío de incursionar en esas otras formas de escrituras mixtas (de prosa, código, interfaces y plataformas) y presentarlas al lector de manera comprensible, por lo que, se ha dispuesto un glosario de términos para mejor entendimiento. Sin embargo, se reconoce que se pre‐ sentan los desafíos antes mencionados, y las limitaciones escriturales y de redacción (como se puede notar, distintos apartados tienen distintos niveles de redacción y maduración). Aún así, se considera un esfuerzo valioso y novedoso, particularmente en este nivel formativo de pregrado y en medio de las dificultades de reformular el proyecto mientras se estaba ejecutando, de realizarlo en los tiempos cortos para las complejidades emergentes que un proyecto de esta naturaleza implica, y persistir en la preocupación por los datos que circulan en redes sociales incluso frente a circunstancias adversas a los investigadores, como las antes descritas.