ebook img

Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado PDF

191 Pages·2017·7.8 MB·Spanish
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado

Entregable E3.1 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado PLASMATIC 20/12/2017 PROYECTO COFINANCIADO POR: Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 1 tecnológico e institucional Información del documento Título: Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado Title: Unsupervised Machine Learning Big Data technologies and techniques Cod. documento: Entregable E3.1 Proyecto: PLASMATIC Fecha publicación: 20/12/2017 Palabras clave: Unsupervised Machine Learning, Big Data, Predictive Maintenance, Diagnostics, Prognostics ITI - Instituto Tecnológico de Informática Camino de Vera, s/n. Edif. 8G. Acc. B – 4ª planta 46022 Valencia - España / Spain www.iti.es AIMPLAS - Instituto Tecnológico del Plástico Calle Gustave Eiffel, 4 Parque Tecnológico – 46980 Paterna – Valencia / España www.aimplas.es Agradecimientos: Las actividades descritas en este documento se encuadran en el proyecto PLASMATIC, que está cofinanciado por el Instituto Valenciano de Competitividad Empresarial (IVACE) y por la Unión Europea a través del Fondo Europeo de Desarrollo Regional (FEDER), dentro del programa de Ayudas para Proyectos de I+D en cooperación con empresas, con nº expediente IMDEEA/2017/114 Nota legal Este documento está bajo una Licencia Creative Commons Atribución-NoComercial- SinDerivar 4.0 Internacional. Se permite libremente copiar, distribuir y comunicar públicamente esta obra siempre y cuando se reconozca la autoría y no se use para fines comerciales. No se puede alterar, transformar o generar una obra derivada a partir de esta obra. Los derechos de autor de todas las marcas, nombres comerciales, marcas registradas, logos e imágenes pertenecen a sus respectivos propietarios. Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 2 tecnológico e institucional Resumen Abstract PLASMATIC (Mantenimiento Predictivo PLASMATIC (Advanced Predictive Avanzado para el sector industrial valenciano Maintenance for the Valencian plastic del plástico) es un proyecto financiado por el industrial sector) is a project funded by the Instituto Valenciano de Competitividad Valencian Institute for Business Empresarial (IVACE) y la Unión Europea a Competitiveness (IVACE) and the European través del Fondo Europeo de Desarrollo Union through the European Regional Regional (FEDER). Development Fund (FEDER). El objetivo general del proyecto es facilitar a The general objective of this project is to help las empresas valencianas del sector industrial the Valencian plastic sector companies to del plástico la incorporación de soluciones de incorporate solutions from the so-called la denominada Industria 4.0 mediante Factory 4.0, via knowledge and technologies in conocimientos y tecnologías en el dominio de the fields of Big Data, Machine Learning and Big Data, Machine Learning y Business Business Intelligence. The main result will be Intelligence, necesarias para la construcción an advanced predictive maintenance system de un Sistema de Mantenimiento Predictivo to deal with: (i) anomalies detection; (ii) wear Avanzado (SMPa) que responda a los retos de prediction; and (iii) maintenance planning competitividad, enriquecimiento y optimization. sostenibilidad del tejido industrial This deliverable is part of the PT3 work manufacturero: (i) detección de anomalías; (ii) package "Characterization and Exploratory predicción del desgaste; y (iii) optimización de Analysis", which aims to identify those la planificación de mantenimiento. variables and factors involved in the advanced Este entregable se enmarca dentro del predictive maintenance applied to plastic paquete de trabajo PT3 “Caracterización y industries. Análisis Exploratorio”, que tiene como objetivo This document reviews the usual steps in a la conceptualización e identificación de predictive maintenance application, variables y factores que intervienen soluciones describing the most important state-of-the-art en el área del Mantenimiento Predictivo techniques and technologies. In particular, we Avanzado aplicada a la problemática del highlight statistical analysis and machine sector industrial del plástico. learning techniques within a Big Data Este documento revisa las fases que se suelen infrastructure, all of them crucial elements of abordar en una aplicación de mantenimiento the so-called Maintenance 4.0. In general, we predictivo, repasando las técnicas y emphasize those possible strategies when tecnologías que aparecen en el estado del arte. working in a non-supervised application. En concreto, se destacan las técnicas de análisis estadístico, machine learning y las tecnologías Big Data, componentes fundamentales de lo que se ha venido a denominar “Mantenimiento 4.0”. Asimismo, se resaltan especialmente las estrategias a seguir cuando se trabaja de manera no supervisada. Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 3 tecnológico e institucional Contenido Resumen .......................................................................................................................... 2 Abstract ........................................................................................................................... 2 1 Introducción y contexto ............................................................................................ 10 2 Mantenimiento predictivo ........................................................................................ 15 2.1 Adquisición de datos .................................................................................................. 15 2.2 Procesado de datos ................................................................................................... 18 2.2.1 Procesado de la señal ................................................................................. 18 2.2.2 Limpieza de los datos ................................................................................. 19 2.2.3 Fusión de datos ........................................................................................... 20 2.2.4 Etiquetado de las muestras ........................................................................ 20 2.2.5 Ingeniería de características....................................................................... 21 2.2.6 Comprensión de los datos .......................................................................... 23 2.3 Soporte a la toma de decisiones de mantenimiento ................................................. 29 2.4 Arquitectura ............................................................................................................... 29 3 Taxonomía de técnicas para el mantenimiento ......................................................... 30 3.1 Basadas en modelos .................................................................................................. 30 3.1.1 Modelos físicos ........................................................................................... 30 3.1.2 Modelos basados en conocimiento ............................................................ 30 3.2 Basadas en datos ....................................................................................................... 30 3.2.1 Regresión .................................................................................................... 32 3.2.2 Basados en instancias................................................................................. 33 3.2.3 Regularización ............................................................................................ 33 3.2.4 Árboles de decisión ..................................................................................... 33 3.2.5 Modelos bayesianos ................................................................................... 34 3.2.6 Clustering .................................................................................................... 34 3.2.7 Reducción de dimensiones.......................................................................... 34 3.2.8 Reglas asociativas ...................................................................................... 35 3.2.9 Modelos estocásticos ................................................................................. 35 3.2.10 Redes neuronales artificiales ...................................................................... 35 3.2.11 Deep learning ............................................................................................. 36 3.2.12 Kernel methods ........................................................................................... 37 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 4 tecnológico e institucional 3.2.13 Ensembles ................................................................................................... 37 3.2.14 Aplicación ................................................................................................... 38 3.3 Evaluación .................................................................................................................. 38 4 Técnicas de diagnóstico ............................................................................................ 40 4.1 Aproximaciones basadas en modelos físicos ............................................................. 43 4.2 Aproximaciones estadísticas ...................................................................................... 43 4.3 Aproximaciones basadas en conocimiento ............................................................... 44 4.3.1 Sistemas expertos ....................................................................................... 44 4.4 Aproximaciones basadas en datos ............................................................................ 44 4.4.1 Aprendizaje supervisado............................................................................. 44 4.4.2 Aprendizaje no supervisado ........................................................................ 47 4.5 Aproximaciones híbridas ........................................................................................... 50 5 Técnicas de pronóstico ............................................................................................. 51 5.1 Tiempo de vida útil restante (RUL) ............................................................................ 52 5.1.1 Etiquetado de las muestras ........................................................................ 52 5.1.2 Aproximaciones estadísticas ...................................................................... 54 5.1.3 Aproximaciones basadas en modelos físicos y en reglas ........................... 55 5.1.4 Métodos basados en datos......................................................................... 55 5.2 Incorporación de políticas de mantenimiento .......................................................... 56 6 Tecnologías para el Mantenimiento 4.0 ..................................................................... 57 6.1 Paquetes estadísticos ................................................................................................ 57 6.1.1 R .................................................................................................................. 57 6.1.2 Java ............................................................................................................. 58 6.1.3 Python ......................................................................................................... 58 6.1.4 SAS .............................................................................................................. 58 6.1.5 MATLAB ...................................................................................................... 58 6.2 Herramientas para análisis de datos ......................................................................... 62 6.2.1 RapidMiner ................................................................................................. 62 6.2.2 KNIME ......................................................................................................... 63 6.2.3 WEKA .......................................................................................................... 63 6.2.4 ORANGE ...................................................................................................... 63 6.2.5 Tanagra ...................................................................................................... 63 6.3 Big Data ...................................................................................................................... 64 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 5 tecnológico e institucional 6.3.1 Proceso de análisis Big Data ....................................................................... 65 6.3.2 Herramientas Big Data basadas en procesamiento batch ......................... 65 6.3.3 Herramientas Big Data basadas en procesamiento de streams ................ 66 6.3.4 Arquitectura “Fast Data”, pila de tecnologías “SMACK” ............................ 68 6.3.5 Machine learning en Big Data .................................................................... 72 6.3.6 Deep Learning ............................................................................................. 74 6.4 Soluciones comerciales de Mantenimiento 4.0 en la nube ....................................... 75 6.4.1 Microsoft Azure .......................................................................................... 75 6.4.2 IBM ............................................................................................................. 77 6.4.3 Amazon Web Services................................................................................. 78 7 Soluciones analíticas avanzadas ................................................................................ 81 8 Principales plataformas ............................................................................................ 83 8.1 Informe Gartner 2017 ................................................................................................ 83 8.2 Comparativa ............................................................................................................... 85 8.2.1 Introducción ................................................................................................ 85 8.2.2 Interfaz ....................................................................................................... 89 8.2.3 Funcionalidades .......................................................................................... 92 8.2.4 Importación/exportación............................................................................ 94 8.2.5 Aprendizaje Automático ............................................................................. 98 8.2.6 Integración con lenguajes científicos ....................................................... 100 8.2.7 Gráficos ..................................................................................................... 101 8.2.8 Desarrollo ................................................................................................. 105 8.2.9 Informes .................................................................................................... 105 8.2.10 Ejemplos y casos prácticos ....................................................................... 108 8.2.11 Ejecución en modo batch .......................................................................... 114 8.2.12 Integración con Big Data .......................................................................... 115 8.2.13 Rendimiento y tiempos de ejecución ........................................................ 115 8.2.14 Productividad ............................................................................................ 118 9 Big Data ................................................................................................................. 120 9.1 API REST ................................................................................................................... 120 9.2 Orange ..................................................................................................................... 120 9.3 KNIME ...................................................................................................................... 121 9.3.1 Conexión a Cassandra .............................................................................. 121 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 6 tecnológico e institucional 9.3.2 Arquitecturas distribuidas ........................................................................ 122 9.3.3 KNIME Big Data extensions ...................................................................... 123 9.3.4 Eclipse IDE para Scala ............................................................................... 126 9.4 RapidMiner Radoop ................................................................................................. 126 10 Caso práctico .......................................................................................................... 130 10.1 Solución basada en código ...................................................................................... 130 10.1.1 Análisis exploratorio ................................................................................. 130 10.1.2 Preparación de los datos .......................................................................... 133 10.1.3 Obtención del modelo analítico ................................................................ 133 10.1.4 Evaluación ................................................................................................ 134 10.1.5 Despliegue ................................................................................................ 134 10.2 Solución basada en plataforma visual ..................................................................... 134 11 Conclusiones .......................................................................................................... 137 11.1 ¿Solución basada en código o plataforma visual? ................................................... 137 11.2 Plataformas visuales ................................................................................................ 138 12 Tablas comparativas ............................................................................................... 140 12.1 Tabla comparativa resumen .................................................................................... 141 12.2 Tabla comparativa “Minería de datos” .................................................................... 141 12.3 Tabla comparativa “Gráficos” .................................................................................. 144 12.4 Tabla comparativa “Big Data” .................................................................................. 144 13 Introducción ........................................................................................................... 149 13.1 ¿Qué es Akka? .......................................................................................................... 149 14 El manifiesto de sistemas reactivos ......................................................................... 150 15 Arquitectura ........................................................................................................... 152 15.1 Akka actors............................................................................................................... 152 15.1.1 Dispatchers ............................................................................................... 153 15.1.2 Mailboxes ................................................................................................. 153 15.1.3 Routing ..................................................................................................... 154 15.1.4 Akka persistence ....................................................................................... 154 15.2 Akka networking ...................................................................................................... 155 15.2.1 Akka Clúster Singleton .............................................................................. 155 15.2.2 Publicador/Subscriptor distribuido ........................................................... 156 15.2.3 Clúster client ............................................................................................. 156 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 7 tecnológico e institucional 15.2.4 Clúster Sharding ....................................................................................... 156 15.2.5 Distributed Data ....................................................................................... 156 15.3 Akka Streams ........................................................................................................... 157 15.4 Futures ..................................................................................................................... 158 16 Caso de uso ............................................................................................................ 159 17 Bibliografía y fuentes de interés .............................................................................. 160 18 Anexo: Caso de uso Plasmatic ................................................................................. 180 18.1 Dependencias .......................................................................................................... 182 18.2 Main.scala ................................................................................................................ 182 18.3 ServerActor.scala ..................................................................................................... 183 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 8 tecnológico e institucional Índice de figuras Figura 1. Ejemplo de red neuronal con dos capas ocultas. A la derecha, esquema de cada neurona. Fuente:[ 94] ..................................................................................................................................................... 36 Figura 2. Características de los principales métodos de diagnóstico. Fuente: [158] ....................................... 41 Figura 3. Técnicas aplicadas a diagnóstico en I+D. Fuente: [7] ....................................................................... 43 Figura 4. CCPR en la literatura entre 1990 y 2010. Fuente: [76] ..................................................................... 46 Figura 5. Ejemplo de máquina de estados para detección de tipo de fallos. Fuente: [94] .............................. 53 Figura 6. Máquina de estados con tiempos de vida equitativos para mantenimiento predictivo. Fuente: [94] ......................................................................................................................................................................... 53 Figura 7. Paquetes estadísticos en I+D en 2016. Fuente: [140] ....................................................................... 59 Figura 8. Paquetes estadísticos en I+D en 2016 (2). Fuente: [140] .................................................................. 60 Figura 9. Comparación uso paquetes estadísticos en I+D 2015-2016. Fuente: [140] ..................................... 61 Figura 10. Paquetes estadísticos en la empresa, encuesta 2015 O'Reilly. Fuente: [140] ................................ 62 Figura 11. Comparación de precisión de herramientas de análisis de datos. Fuente: [142]. .......................... 63 Figura 12. Arquitectura "Fast Data". Fuente: [195]. ....................................................................................... 69 Figura 13. Pila de tecnologías SMACK. Fuente: [55] ........................................................................................ 70 Figura 14. . Comparación de herramientas ML en Big Data [114]. ................................................................. 74 Figura 15. Comparativa frameworks open source para deep learning: Fuente: [61]. ..................................... 75 Figura 16. Esquema de la arquitectura lógica de la solución preconfigurada de mantenimiento predictivo de Azure. ............................................................................................................................................................... 76 Figura 17. Ejemplo de resultados de la solución de IBM para mantenimiento prescriptive [93]. ................... 77 Figura 18.- Fases de la metodología Cross Industry Standard Process for Data Mining (CRISP-DM) .............. 82 Figura 19.- Comparación entre los cuadrantes mágicos de Gartner de 2016 y 2017 para plataformas de Ciencia de Datos .............................................................................................................................................. 83 Índice de tablas Tabla 1. Componentes más habituales y sus valores mecánicos medibles [84]. ............................................. 17 Tabla 2. Principales métodos para la selección de características. Fuente: [143] ........................................... 22 Tabla 3. Comparación de técnicas de primera generación, CB-SEM y PLS. Fuente [126]. ............................... 27 Tabla 4. Porcentaje de aplicación de técnicas de ML en tareas de mantenimiento. Fuente: [94] .................. 38 Tabla 5. Porcentaje de aplicación de técnicas de etiquetado en tareas de mantenimiento. Fuente: [94] ...... 54 Tabla 6. Herramientas para procesamiento batch Big Data. Fuente: [34] ..................................................... 65 Tabla 7. Herramientas para procesamiento stream Big Data. Fuente: [34] ................................................... 66 Tabla 8. Comparación Apache Spark y MapReduce. Fuente: [55] ................................................................... 68 Tabla 9. Principales toolkits ML en Big Data. Fuente: [114]. ........................................................................... 73 Tabla 10.- Versiones de las herramientas estudiadas. .................................................................................... 88 Tabla 11.- Resumen de los casos de ejemplo de Orange. .............................................................................. 109 Tabla 12.- Casos de estudio disponibles en el servidor de KNIME. ................................................................ 110 Tabla 13.- Plantillas de RapidMiner............................................................................................................... 113 Tabla 14.- Tiempos de ejecución. .................................................................................................................. 115 Tabla 6.- Resumen de las características analizadas para cada una de las plataformas. ............................. 141 Tabla 7.- Características evaluadas en el apartado “Minería de datos” ....................................................... 141 Tabla 8.- Características evaluadas en el apartado “Gráficos” ..................................................................... 144 Tabla 9.- Características evaluadas en el apartado “Big Data” .................................................................... 144 Técnicas y tecnologías Big Data para el Aprendizaje Automático no supervisado 9 tecnológico e institucional

Description:
Factory 4.0, via knowledge and technologies in acceder a Hadoop/HDFS a través de Hive o Impala: conexión HDFS, conexión webHDFS, conexión Martin Florent, Nicolas Meger, Sylvie Galichet, and Nicolas Becourt. Disponible en: https://www.knime.com/blog/setting-up-the-knime-python-.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.