Esta investigación implementa técnicas de aprendizaje en refuerzo profundo aplicadas a acciones del mercado colombiano. Las compañías fueron elegidas usando el COLCAP, un índice que agrupa a 20 de las acciones más liquidas en la bolsa de valores de Colombia de las cuales se seleccionaron 3 en diferentes sectores, Ecopetrol del sector energético, Bancolombia del sector financiero y Argos del sector de la construcción. La información con frecuencia diaria del comportamiento de las acciones se extrae usando la API de Yahoo Finance, posteriormente se realiza una revisión del estado del arte para conocer que modelos de aprendizaje se están aplicando actualmente en la literatura en los cuales resaltan los tipos Actor- Critic. Finalmente se evalúan los modelos resultantes en un periodo de tiempo de 5 meses de longitud justo antes de la pandemia del COVID-19. A pesar de que los retornos son positivos los algoritmos tienden invertir todo su dinero de forma inmediata, lo que deja dudas sobre su posible funcionamiento en un mercado “Bearish” abriendo espacio a futuras investigaciones donde se pueden agregar mejoras tales como la inclusión de variados indicadores financieros que enriquezcan el entorno del agente de trading, variación del periodo de tiempo, la frecuencia de los precios de entrada y la especialización de diferentes agentes que puedan realizar las transacciones dependiendo de características específicas del mercado.