En el presente estudio se propone un método de detección de locutores basado en segmentos vocálicos y transfer learning, empleando las redes VGGish y YAMNet. También se exploró la implementación de un sistema basado en X-Vector, el cual no dio buenos resultados con las muestras en las que se entrenó.También se implementó un sistema compacto para aislar segmentos vocálicos de grabaciones de audio. El corpus DIMEx100 sirvió como base de datos consistente para entrenamiento y Parselmouth demostró su eficacia para el análisis de audio y recolección de características acústicas. El transfer learning aplicado en las redes VGGish y YAMNet resultó efectivo, adaptándose a la tarea específica y logrando niveles significativos de precisión en la clasificación de vocales. Se observaron variaciones en la precisión según las vocales, con algunas superando el 98% y otras rondando el 94-95%. El sistema de clasificación usando Parselmouth y una red neuronal mostró efectividad con una precisión promedio de 89.81%. Los resultados confirman la aplicabilidad del transfer learningen la clasificación de locutores y segmentos vocálicos, abriendo nuevas líneas de investigación en el ámbito de la identificación de locutores en el idioma español.