ebook img

Estudio comparativo de bases de datos analíticas PDF

398 Pages·2009·13.51 MB·Spanish
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Estudio comparativo de bases de datos analíticas

Estudio comparativo de bases de datos analíticas Proyecto Final de Máster Autor: Pol Rojas Bartomeus Director: José Roldán Rosón Ponente: Alberto Abelló Gamazo Everis – Facultat d’Informàtica de Barcelona – UPC Septiembre de 2009 Máster en Tecnologías de la Información Especialidad en Ingeniería del Software y Sistemas de Información E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS Agradecimientos A todos aquellos que de alguna forma han hecho realidad este proyecto, A mi familia, por apoyarme en los estudios durante todos estos años, y darme la oportunidad de estudiar la carrera y el Máster, A mi gran amigo Dídac, por soportarme y animarme en todo momento, A Jose y a Gustavo, por ayudarme en la realización de este proyecto, y que desinteresadamente me han dedicado una enorme cantidad de horas de su valioso tiempo, A Agus, Albert, Oriol, Rober y Víctor, por compartir alegremente un montón de horas de trabajo, A Everis, por permitirme desarrollar este proyecto, A Alberto Abelló, por querer tutorizarme el proyecto, ser un gran profesor y un excelente conocedor de las base de datos, y finalmente, a todos aquellos que han colaborado en el proyecto, y que sin querer me he dejado, les doy las gracias a todos. E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS Índice Índice 1 Introducción ............................................................................................................................... 5 2 Contextualización ....................................................................................................................... 5 3 Motivación personal ................................................................................................................... 8 4 Objetivos .................................................................................................................................... 9 5 Planificación del proyecto .......................................................................................................... 9 5.1 Planificación inicial del proyecto ......................................................................................... 9 5.2 Planificación final una vez terminado el proyecto ............................................................ 13 6 Estudio económico del proyecto .............................................................................................. 16 7 Conceptos previos .................................................................................................................... 18 7.1 Datos, información y conocimiento .................................................................................. 18 7.2 Business Intelligence ......................................................................................................... 19 7.3 Bases de datos ................................................................................................................... 22 7.3.1 El modelo relacional ................................................................................................... 22 7.3.2 Aplicación del modelo relacional en las bases de datos ............................................ 23 7.4 Data warehouse ................................................................................................................ 24 7.4.1 Características de un data warehouse ....................................................................... 27 7.4.2 Componentes de un data warehouse ........................................................................ 28 7.4.3 Sistemas OLAP y OLTP ................................................................................................ 30 7.4.4 El modelo multidimensional ...................................................................................... 34 7.4.5 Operaciones con los cubos multidimensionales ........................................................ 38 7.4.6 Data mart ................................................................................................................... 41 8 Comparativa funcional teórica de las arquitecturas OLAP....................................................... 42 8.1 ROLAP ................................................................................................................................ 43 8.2 MOLAP ............................................................................................................................... 48 8.3 Arquitectura OLAP basada en columnas ........................................................................... 53 8.4 Arquitectura OLAP basada en el modelo asociativo ......................................................... 61 8.5 Tabla resumen de ventajas e inconvenientes ................................................................... 69 8.6 Software escogido como representante de cada arquitectura OLAP ............................... 75 8.6.1 Oracle Database ......................................................................................................... 78 8.6.2 Microsoft SQL Server .................................................................................................. 80 8.6.3 Alterian Engine ........................................................................................................... 83 8.6.4 QlikView ..................................................................................................................... 84 9 Estudio práctico de los sistemas .............................................................................................. 87 i E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS Índice 9.1 Introducción a la parte práctica ........................................................................................ 87 9.2 Descripción e instalación de los entornos de prueba ....................................................... 87 9.3 Descripción del modelo de origen de datos ...................................................................... 90 9.3.1 Estructura y jerarquía de las perspectivas de negocio ............................................... 92 9.3.2 Esquema físico de datos ............................................................................................. 94 9.4 Conjunto de pruebas a realizar en los sistemas .............................................................. 100 9.4.1 Pruebas de rendimiento de carga ............................................................................ 100 9.4.2 Pruebas de desarrollo de carga ................................................................................ 101 9.4.3 Pruebas de rendimiento en las consultas ................................................................ 101 10 Resultados de las pruebas en Oracle Database 11g ............................................................ 104 10.1 Resultados de las pruebas de rendimiento de carga .................................................... 104 10.2 Resultados de las pruebas de desarrollo....................................................................... 107 10.3 Resultados de las pruebas de rendimiento en las consultas ........................................ 109 11 Resultados de las pruebas en Microsoft SQL Server 2008 ................................................... 110 11.1 Resultados de las pruebas de rendimiento de carga .................................................... 110 11.2 Resultados de las pruebas de desarrollo....................................................................... 113 11.3 Resultados de las pruebas de rendimiento en las consultas ........................................ 115 12 Resultados de las pruebas en Alterian Engine ..................................................................... 116 12.1 Resultados de las pruebas de rendimiento de carga .................................................... 116 12.2 Resultados de las pruebas de desarrollo....................................................................... 119 12.3 Resultados de las pruebas de rendimiento en las consultas ........................................ 121 13 Resultados de las pruebas en QlikView................................................................................ 122 13.1 Resultados de las pruebas de rendimiento de carga .................................................... 122 13.2 Resultados de las pruebas de desarrollo....................................................................... 125 13.3 Resultados de las pruebas de rendimiento en las consultas ........................................ 127 14 Tablas resumen de los resultados de las pruebas de todos los sistemas ............................ 128 14.1 Tabla resumen de los resultados de carga de todos los sistemas ................................ 128 14.2 Tabla resumen de los resultados en las consultas de todos los sistemas ..................... 131 14.3 Clasificación de los sistemas por parámetros de carga................................................. 132 14.4 Clasificación de los resultados en las consultas ............................................................ 133 14.4.1 Clasificación de los sistemas por parámetro .......................................................... 133 14.4.2 Clasificación de los sistemas por parámetro y consulta ........................................ 134 14.4.3 Clasificación de las consultas por parámetro ......................................................... 136 15 Análisis de resultados ........................................................................................................... 137 ii E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS Índice 15.1 Gráficos comparativos de las pruebas de carga ............................................................ 137 15.2 Análisis de los resultados de las pruebas de carga ....................................................... 143 15.3 Gráficos comparativos de las pruebas de las consultas ................................................ 145 15.4 Análisis de los resultados de las pruebas de las consultas ............................................ 150 15.4.1 Oracle Database 11g .............................................................................................. 150 15.4.2 Microsoft SQL Server 2008 ..................................................................................... 153 15.4.3 Alterian Engine ....................................................................................................... 155 15.4.4 QlikView ................................................................................................................. 159 15.5 Valoración de las herramientas de análisis de datos utilizadas .................................... 162 15.6 Conclusiones del análisis ............................................................................................... 164 15.7 Validación de la comparativa funcional teórica ............................................................ 166 15.7.1 ROLAP ..................................................................................................................... 166 15.7.2 MOLAP .................................................................................................................... 167 15.7.3 Arquitectura OLAP basada en columnas ................................................................ 167 15.7.4 Arquitectura OLAP basada en el modelo asociativo .............................................. 168 16 Comparativa de uso ............................................................................................................. 170 17 Conclusiones del proyecto ................................................................................................... 173 17.1 Objetivos cubiertos ....................................................................................................... 173 17.2 Conocimientos aplicados y adquiridos .......................................................................... 174 17.3 Valoración personal ...................................................................................................... 175 17.4 Conclusiones.................................................................................................................. 176 18 Bibliografía ........................................................................................................................... 177 19 Glosario ................................................................................................................................ 188 20 Anexo: Entornos de prueba ................................................................................................. 204 20.1 Instalación de los entornos de prueba .......................................................................... 204 20.2 Instalación del sistema de virtualización VMware ........................................................ 205 20.3 Creación de las máquinas virtuales ............................................................................... 210 20.4 Instalación de Microsoft Windows Server 2003 Enterprise Edition ............................. 215 20.5 Instalación de Oracle Database 11g .............................................................................. 240 20.6 Instalación de Microsoft SQL Server 2008 Enterprise Edition ...................................... 244 20.7 Instalación de Alterian Engine ....................................................................................... 264 20.8 Instalación de QlikView ................................................................................................. 297 20.9 Carga del modelo de datos en Microsoft SQL Server.................................................... 303 20.9.1 Proceso seguido para realizar la carga del modelo de datos ................................. 303 iii E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS Índice 20.9.2 Descripción de las tablas ........................................................................................ 314 20.9.3 Construcción del cubo MOLAP ............................................................................... 319 20.10 Carga del modelo de datos en Oracle Database 11g .................................................. 322 20.10.1 Proceso seguido para realizar la carga del modelo de datos ............................... 322 20.10.2 Construcción del modelo de datos ROLAP en Cognos ......................................... 354 20.10.3 Descripción de las tablas ...................................................................................... 355 20.11 Carga del modelo de datos en Alterian Engine ........................................................... 359 20.11.1 Proceso seguido para realizar la carga del modelo de datos ............................... 359 20.11.2 Script de carga Control ......................................................................................... 371 20.11.3 Descripción y script de carga de la tabla OPPA_DIM_CAT_PATOLOGIES ............ 374 20.11.4 Descripción y script de carga de la tabla OPPA_DIM_CODIS_ATC ....................... 374 20.11.5 Descripción y script de carga de la tabla OPPA_DIM_CRONIC ............................ 375 20.11.6 Descripción y script de carga de la tabla OPPA_DIM_EDAT ................................ 375 20.11.7 Descripción y script de carga de la tabla OPPA_DIM_ESTR_ORG_METGE .......... 376 20.11.8 Descripción y script de carga de la tabla OPPA_DIM_ESTR_ORGANITZATIVA .... 377 20.11.9 Descripción y script de carga de la tabla OPPA_DIM_MEDICAMENT .................. 378 20.11.10 Descripción y script de carga de la tabla OPPA_DIM_PRINCIPI_ACTIU ............. 379 20.11.11 Descripción y script de carga de la tabla OPPA_DIM_SEXE ............................... 379 20.11.12 Descripción y script de carga de la tabla OPPA_FACT_PRESCRIPCIO_ACTIVA ... 380 20.11.13 Descripción y script de carga de la tabla OPPA_FACT_PS .................................. 382 20.12 Carga del modelo de datos en QlikView ..................................................................... 383 20.12.1 Proceso seguido para realizar la carga del modelo de datos ............................... 383 20.12.2 Script de carga utilizado para la primera carga de los datos ............................... 390 20.12.3 Script de carga de los archivos QVD optimizados ................................................ 393 iv E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS PFM 1 Introducción Este estudio corresponde al proyecto final de Máster en Tecnologías de la Información, en la especialidad de Ingeniería del Software y Sistemas de Información, de Pol Rojas Bartomeus, estudiante de la Facultat d’Informàtica de Barcelona de la Universitat Politècnica de Catalunya. El desarrollo de este proyecto se ha llevado a cabo durante el transcurso de seis meses en la empresa Everis, quien realizó la propuesta de dicho estudio como convenio de prácticas, y que escogí como primera elección, ya que se trata de un estudio muy interesante, que involucra tecnologías de bases de datos innovadoras para las empresas. Además, personalmente la explotación de la información siempre me ha fascinado y es una grata experiencia poder aprender tecnologías punteras del ámbito de las bases de datos. El gran volumen de datos que existe actualmente en las aplicaciones transaccionales de las organizaciones, requiere cada vez más, almacenes de datos con tiempos de respuesta bajos y orientados al manejo de grandes volúmenes de información, con la finalidad de dar soporte a las herramientas de Business Intelligence, pensadas para la toma de decisiones. Como se ha comentado, en los últimos años han aparecido nuevas tecnologías, con nuevos modos de almacenamiento, orientadas a dar cobertura a estas necesidades. Este estudio pretende realizar una comparación entre las tecnologías que existían hasta ahora, que comúnmente han utilizado las empresas, y las nuevas tecnologías emergentes de bases de datos, que permiten realizar análisis de grandes volúmenes de datos con un alto rendimiento. Básicamente, se pretende conocer en qué casos es útil una tecnología u otra, qué ventajas e inconvenientes tienen, qué tipo de datos soportan, entre otros aspectos. En los primeros puntos introductorios del proyecto, se contextualiza el proyecto dentro de la empresa en el cual se ha desarrollado, se fijan los objetivos del proyecto, se detallan los motivos por los cuales se ha elegido este proyecto, se realiza el estudio económico, se describe la planificación seguida durante estos meses, y finalmente, se definen una serie de conceptos previos, que ayudan a comprender el resto del estudio al lector no especializado en el tema. 2 Contextualización Everis es una empresa multinacional especializada en consultoría de negocios e IT que se creó en 1996 bajo el nombre de DMR Consulting, abriendo sus primeras oficinas en España, concretamente en Madrid y Barcelona [1]. 5 E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS PFM En enero de 2004, llegó a un acuerdo con Fujitsu para adquirir la compañía, empresa que hasta la fecha era propietaria de DMR Consulting. Los profesionales de Everis pasaron a ser propietarios de la empresa junto con prestigiosos socios financieros. Así, se marcó la diferencia respecto a otras compañías, apostando por un modelo de gestión propio. [1] Everis cuenta con casi 7.000 profesionales repartidos por sus oficinas de todo el mundo, lo que la hace una empresa internacional. 7.000 Crecimiento 5.400 4.700 del número 4.000 3.300 de profesionales 2.700 en los últimos años 2003 2004 2005 2006 2007 2008 Figura 2-1 Gráfico del crecimiento del número de profesionales dentro de la empresa. Fuente: Everis, [1] Madrid: 1996 Barcelona: 1997 Sevilla: 2001 Valencia: 2005 A Coruña: 2006 La oficina internacional Murcia: 2007 desarrolla proyectos en Bilbao: 2008 países en los que no Alicante: 2009 existen oficinas ofreciendo Sta. Cruz de Tenerife: 2009 Varsovia: 2009 los servicios más diferenciales y que necesitan un conocimiento Milán: 2000 que difícilmente está Roma: 2001 México D.F.: 2001 disponible de forma local. Lisboa: 1999 Everis ha desarrollado proyectos en Perú, Ecuador, Venezuela, Abu Bogotá: 2007 Dhabi, Polonia, El Salvador, Honduras, República Dominicana, São Paulo: 2001 Suecia, Reino Unido, Francia, Suiza, Filipinas, Santiago de Chile: 1998 República Checa, Serbia y Australia Buenos Aires: 2000 Figura 2-2 Localización mundial de las oficinas de Everis. Fuente: Everis, [1] La empresa se compone de las siguientes unidades de negocio [1]:  everis business consulting: realiza proyectos de ingeniería de procesos, de negocio y de estrategia corporativa.  everis solutions: se dedica a definir, diseñar e implementar soluciones tecnológicas, así como a la gestión y ejecución de servicios de outsourcing.  everis centers: se basa en el uso de centros de alto rendimiento. Esta línea de negocio está operativa desde hace más de dos años, y tiene una estructura y una capacidad de llevar a cabo actividades industriales con un alto nivel de productividad y eficiencia. 6 E STUDIO COMPARATIVO DE BASES DE DATOS ANALÍTICAS PFM  everis BPO: se centra en ofrecer servicios de outsourcing ligados a acuerdos de nivel de servicio, lo que permite a sus clientes incrementar su capacidad interna, y concentrarse en áreas que les aporten mayor valor a su negocio.  everis initiatives: está al día respecto a las nuevas tecnologías del mercado, lo que permite iniciar nuevos proyectos de negocio con sus clientes si lo desean. Sus servicios van dirigidos principalmente a los sectores de telecom, banca, sector público, industria, seguros, utilities, media y sanidad, y cuenta con una gran cantidad de referencias en el mercado [1]. Figura 2-3 Principales clientes de Everis segmentados por sectores. Fuente: Everis, [1] Dentro de everis solutions se encuentra la Unidad de Servicio de Tecnología que principalmente proporciona servicios de [2]: Enterprise Business Content and Servicios de Arquitectura Gobierno IT Intelligence Service infraestructura Management Figura 2-4 Principales categorías de servicios de la Unidad de Servicio de Tecnología de Everis. Fuente: Everis, [2] 7

Description:
Su idea fundamental es el concepto de relaciones. Una relación se define .. El mantenimiento del sistema es fundamental para la productividad y eficacia del data warehouse a lo largo de puede ejecutar en la mayoría de sistemas Linux, Unix o Windows – e incluye una herramienta. ETL gratuita
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.