Aplicación de técnicas de análisis de datos y administración de Big Data ambientales Emilcy Juliana Hernández Leal Universidad Nacional de Colombia Facultad de Minas, Departamento de Ingeniería de la Organización Medellín, Colombia 2016 Aplicación de técnicas de análisis de datos y administración de Big Data ambientales Emilcy Juliana Hernández Leal Tesis de investigación presentada como requisito parcial para optar al título de: Magister en Ingeniería Administrativa Director: Ph.D. Néstor Darío Duque Méndez Codirector: Ph.D. Julián Moreno Cadavid Línea de Investigación: Procesamiento y análisis de datos, Inteligencia Artificial Grupo de Investigación: Grupo de Ambientes Inteligentes Adaptativos – GAIA Universidad Nacional de Colombia Facultad de Minas, Departamento de Ingeniería de la Organización Medellín, Colombia 2016 "Después de escalar una montaña muy alta, descubrimos que hay muchas otras montañas por escalar" Nelson Mandela Agradecimientos Agradezco a Dios, a mis padres y hermanito, ellos han sido mi apoyo toda la vida. A quien me ha dado un punto de vista objetivo cuando lo he necesitado y me ha acompañado en todo momento, Mao. A mis amigos del grupo GAIA, con quienes he compartido experiencias en la labor investigativa. Durante este proceso han sido un pilar fundamental mi director Néstor Darío Duque Méndez y mi co-director Julián Moreno Cadavid, ellos guiaron mi proceso de investigación y más que docentes han sido unos excelentes orientadores y consejeros, han sabido llevarme al cumplimiento de los objetivos, tanto de la tesis como algunos personales; por ello les quiero expresar mi agradecimiento total. A los ingenieros del Instituto de Estudios Ambientales – IDEA, de la Universidad Nacional de Colombia en Manizales, sus aportes han sido muy valiosos para mí. A los docentes e investigadores de la Universidad Politécnica de Valencia, con quienes realicé una pasantía investigativa de seis meses, agradezco por haberme acompañado en una de las experiencias más enriquecedoras de mi maestría, por haberme compartido parte de su tiempo y haber dado sus opiniones y valiosos aportes a mi trabajo, de ellos aprendí mucho. VII Aplicación de técnicas de análisis de datos y administración de Big Data ambientales I VIII Resumen y Abstract IX Resumen El crecimiento en el volumen de datos generados por diferentes sistemas y mediciones de actividades cotidianas en la sociedad es un factor que influencia directamente en la necesidad de modificar, optimizar y concebir métodos y modelos de almacenamiento y tratamiento de datos que suplan las falencias que presentan las bases de datos y los procesos de KDD tradicionales. Big Data es un enfoque que incluye diferentes tecnologías asociadas al almacenamiento, análisis y visualización de grandes volúmenes de datos provenientes de diferentes fuentes y que se presenta como una solución ante los problemas de tratamiento de datos que no son cubiertos por las soluciones tradicionales; cabe anotar que cuando se hace referencia a grandes volúmenes de datos, no hay un consenso entre los autores respecto a una cantidad a considerar como grande, en parte puede depender del dominio de los datos. Por otra parte, el monitoreo de condiciones ambientales como las climáticas, meteorológicas e hidrometeorológicas constituyen una fuente de datos que puede aumentar de manera exponencial, en la medida en que se hagan mediciones de estos fenómenos en diferentes periodos de tiempo, ubicaciones espaciales y estrategias de captura. Teniendo en cuenta los planteamientos anteriores, se pretende por medio de esta tesis, la concepción de un modelo para la administración y análisis de datos ambientales con el uso de algunas tecnologías Big Data, que permita facilitar el tratamiento de estos datos, su almacenamiento, aplicar diferentes tipos de análisis y extraer información relevante de apoyo a la toma de decisiones y en general a la comprensión de los datos propios del dominio. Palabras clave: Análisis de datos, Big Data, Datos Ambientales, Minería de Datos, Redes de Monitoreo Ambiental. X Aplicación de técnicas de análisis de datos y administración de Big Data ambientales Abstract The growth in the volume of data generated by different systems, as the measurement of daily activities, makes necessary to modify, optimize and develop data storage and processing methods and models able to supply the shortcomings presented the databases and KDD traditional processes. In this regard, Big Data analysis is an approach that includes several technologies associated with the storage, analysis, and visualization of big volumes of data obtained from several sources. Thus, Big Data analysis is a solution to the processing data issues that are not covered by the traditional solutions. Moreover, the monitoring of ambient conditions, namely, climatic, meteorological and hydrometeorological constitute a data source growing exponentially because their measurements must be done in several spatial locations, with several capture strategies, and in many time instants. Keywords: Analytical Data, Big Data, Data Mining, Environmental Data, Environmental Monitoring Networks. X
Description: