Este documento presenta una revisión literaria sobre herramientas de calificación automatizada de códigos de programación, con un enfoque particular en su aplicabilidad dentro del contexto educativo universitario. La creciente complejidad de los lenguajes de programación y la diversidad de enfoques lógicos utilizados por los estudiantes plantea un desafío significativo para los docentes a la hora de evaluar trabajos prácticos. La calificación manual se enfrenta a dificultades en términos de tiempo, objetividad y consistencia, lo cual puede comprometer la calidad de la retroalimentación y, en última instancia, la experiencia de aprendizaje de los estudiantes. El propósito de esta investigación fue identificar las principales limitaciones y ventajas de las herramientas automatizadas de evaluación de códigos, teniendo en cuenta tanto la perspectiva técnica como pedagógica, se busca explorar las experiencias de uso documentadas en instituciones académicas de diversos contextos para comprender el impacto que estas herramientas pueden tener en la enseñanza de la programación. Mediante la búsqueda y análisis de artículos publicados en bases de datos como IEEE Xplore, Sciencedirect, ACM, entre otras bases de datos universitarias y de investigación, contando con un total de 300 artículos seleccionados de los cuales se filtraron por medio de código Python en Google Colab, contando con un total de 65 artículos restantes, los cuales fueron analizados, indagando en los resultados de interés como la retroalimentación generada, las limitaciones presentes, los resultados obtenidos y las conclusiones de los diferentes artículos, donde se logró identificar las características previamente nombradas para la investigación.