El complejo Mycobacterium tuberculosis es un grupo de agentes patogenicos caracterizados principalmente por causar tuberculosis en distintos animales. En la actualidad metodos mas eficientes y efectivos para identificar el patogeno a nivel de especie son requeridos tomando provecho de los datos obtenidos por tecnicas de secuenciamiento de genoma completo. A lo largo de este trabajo se expone una manera distinta para abarcar el problema de identificacion de genomas como uno de clasificacion en el area de aprendizaje de maquina, agregando pasos adicionales en comparacion con los pipelines de preprocesamiento actuales e incluyendo regiones intergenicas para de esta manera abarcar el total de la informacion genomica en cada muestra. Adicionalmente, un conjunto de genomas del genero Mycobacterium fue seleccionado para entrenar el modelo y de esta manera identificar las diferencias mas relevantes a traves de una busqueda de homologia y construir una representacion del genoma a partir de agrupamientos iterativos y con indices de variablidad fijos que permitieran visualizar grupos de secuencias candidatas para la diferenciacion. Entre los resultados del presente trabajo se entreno un modelo que establece un conjunto de secuencias representativas por su caracter discriminatorio y que sugieren una firma a partir de la comparacion entre dos grupos de especies, ademas de permitir asignar nuevas muestras a una de las dos categorias taxonomicas de interes basada en sus agrupaciones de secuencias de ADN mas relevantes. Tambien se construyo una nueva herramienta de evaluacion para los metodos in silico actuales basados en tecnicas de tipificacion, obteniendo mejores metricas para la clasificacion al utilizar la implementacion resultante del presente trabajo.