Este documento recoge todas las experiencias obtenidas con la base de datos tanto de meteorologia, como de contaminantes en la ciudad de Valledupar, en el desarrollo de las tres primeras fases entendimiento del negocio, entendimiento de los datos y preparacion de los datos, de la de la metodologia CRISP-DM. Dicha metodologia es propia para proyectos investigativos concerniente a tecnicas de mineria de datos,en la preparacion de datos y modelaje. En esta investigacion se aborda las experiencias alcanzadas con los registros de meteorologia y monitoreos de contaminantes entre los anos 2009 a 2012 en la Ciudad de Valledupar, donde se realiza deteccion de datos atipicos, formateo de tablas, limpieza total de atributos, normalizacion, integracion de tablas y la construccion definitiva del conjunto de datos. Durante este proceso se extraen hipotesis preliminares, como que el contaminante PM10 casi exclusivamente presenta valores altos, cuando no existen precipitaciones. Otra hipotesis extraida en el analisis de los datos, son los valores bajos que toman los contaminantes de PM10 y CO cuando los vientos vienen del Norte, noreste y del este, indicando que los contaminantes al parecer son provenientes del resto direcciones. La base de datos de CORPOCESAR, presenta gran cantidad errores e inconsistencias, que se solucionan a cabalidad,usando programas especializados como Rapid Miner, Libre Office, SQL Yog, entre otros; dichos programas poseen diferentes tecnicas de filtrado, reemplazo y metodos de deteccion de atributos atipicos, para asi obtener un grupo de datos limpios prestos a su posterior utilizacion, para cualquier etapa posterior de modelaje. Este trabajo es avalado y patrocinado por el Ministerio TIC por medio del fondo de desarrollo de Talento Digital.