ebook img

elastic etl+q for any data-warehouse using time bounds PDF

245 Pages·2016·5.23 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview elastic etl+q for any data-warehouse using time bounds

Pedro Miguel de Oliveira Martins ELASTIC ETL+Q FOR ANY DATA-WAREHOUSE USING TIME BOUNDS Tese de Doutoramento em Programa de Doutoramento em Ciências e Tecnologia da Informação da Faculdade de Ciências e Tecnologia, orientada por Pedro Nuno San-Bento Furtado e apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra Julho, 2015 Pedro Miguel de Oliveira Martins ELASTIC ETL+Q FOR ANY DATA-WAREHOUSE USING TIME BOUNDS Tese de Doutoramento em Programa de Doutoramento em Ciências e Tecnologia da Informação da Faculdade de Ciências e Tecnologia, orientada por Pedro Nuno San-Bento Furtado e apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra Julho, 2015 Resumo O problema abordado nesta tese ´e: Como fornecer escalabilidade hor- izontal totalmente automatizada para qualquer parte do processamento do ETL e da data-warehouse, de modo a que o projectista da data-warehouse apenas tenha de se preocupar com a parte l´ogica do sistema e fornecer/con- figurarlimitesdetempoparatodasaspartesenvolvidasnaexecu¸c˜aodoETL e de pesquisas (ETL+Q). Em simultˆaneo, prop˜oe-se uma forma de obter re- sultados actualizados em qualquer momento. A abordagem deve garantir os limites de tempo desejados e adaptar o sistema a qualquer momento para assegurar esses limites, escalando para cima ou para baixo cada parte do ETL e de pesquisas que tenham necessidade de mais eficiˆencia. Embora algumas aplica¸c˜oes tenham um grande volume de dados, req- uisitos apertados de tempo de processamento, elevados ritmos de dados e necessidade de respostas r´apidas, a maioria das implementa¸c˜oes de data- warehouse atuais n˜ao est˜ao preparadas para escalar automaticamente. A solu¸c˜ao passa pela utiliza¸c˜ao de arquitecturas e mecanismos paralelos para acelerar a integra¸c˜ao de dados e para processar os dados mais recentes de formaeficiente. Estasabordagensparalelasdevemescalarautomaticamente. Desejavelmente, o projectista das data-warehouses deve concentrar-se uni- camente no modelo l´ogico (por exemplo, requisitos de neg´ocio, esquemas l´ogicos de armazenamento de dados), enquanto que os detalhes f´ısicos, in- cluindo mecanismos de escalabilidade, actualizac¸˜ao de dados e integra¸c˜ao de dados a elevado ritmo de chegada, podem ser deixados para ferramentas automaticas. Nestateseinvestigamoscomofornecerescalabilidadeautomaticaparaopro- iii cesso de ETL e para processamento de pesquisas (ETL+Q), bem como a forma de disponibilizar resultados que necessitam de dados mais recentes do que os j´a integrados na data-warehouse. A proposta desta tese lida com a paraleliza¸c˜ao e escalabilidade da data-warehouse quando necess´ario. N˜ao se limita a escalar para cima (scale-out), para aumentar a capacidade de processamento, mas tamb´em se adapta quando os recursos deixam de ser necess´arios (scale-in). Em geral, a actualiza¸c˜ao instantˆanea dos dados para serefletiremnosresultadosdepesquisastamb´emn˜ao´egarantidanestescon- textos, uma vez que o carregamento de dados, transformac¸˜ao e integra¸c˜ao s˜ao tarefas computacionalmente pesadas que s˜ao feitas apenas periodica- mente, durante periodos em que o sistema n˜ao tem movimento (o✏ine). Mas a nossa proposta ´e desenhada para garantir que os dados extra´ıdos mais recentemente possam ser integrados nas pesquisas, mesmo sem que estes estejam na data-warehouse. A proposta ´e uma solu¸c˜ao universal de escalabilidade de data-warehouses que apelidamos Auto-Scale. Isto significa que a escalabilidade e a actual- iza¸c˜ao de dados ´e autom´atica para qualquer data-warehouse e processo de ETL, desde que o projectista inclua um conjunto de interfaces que permita ligar os seus diversos m´odulos `a solu¸c˜ao Auto-Scale (AScale) proposta. No Cap´ıtulo 1 introduzimos os problemas que a tese prop˜oe resolver no ˆambito de escalabilidade autom´atica de processos de ETL e processamento de pesquisas. S˜ao ainda introduzidos os objectivos da tese, mecanismos pro- postos e contribui¸c˜oes. Cada etapa do ETL´e separada de modo a que possa ser escalado/replicado de modo horizontal, conforme as necessidades. O Capitulo 2 aborda o estado-da-arte em optimiza¸c˜ao do processa- mentodeETL,escalabilidadeeactualiza¸c˜aodasdata-warehousesparafornecer resultados actualizados, e processamento cont´ınuo. O Cap´ıtulo 3 resume cada um dos mecanismos propostos no resto da tese. O Cap´ıtulo 4 explica como ´e que um projectista de data-warehouses consegue integrar os m´odulos que desenvolve para o seu projecto, tendo em conta o desenho conceptual da data-warehouse. O AutoScale fornece inter- faces no formato de API para esse efeito. Os Cap´ıtulos 5, 6 e Cap´ıtulo 7, descrevem em mais detalhe como e gerida automaticamente a escalabilidade do ETL e das pesquisas, como sa˜o assegurados os dados mais recentes nos resultados das pesquisas, e como ´e feita a integrac¸˜ao no processamento de dados que chegam continuamente. O Cap´ıtulo 8 ´e experimental. Nesse cap´ıtulo s˜ao feitos testes `as pro- postas com a finalidade de provar que os mecanismos propostos permitem escalarquandonecess´ario,demodoaasseguraroslimitesdetempodefinidos para processar cada etapa do pipeline ETL+Q. Nos resultados experimen- tais compara-se o impacto, sem e com a solu¸c˜ao proposta. Cri´amos cen´arios experimentais nos quais sem o AScale, o processo de ETL e as pesquisas n˜ao cumprem tempos definidos. Usando o AScale mostramos que a data- warehouse escala automaticamente e resolve os problemas de escalabilidade inerentes. O Cap´ıtulo 9 apresenta um resumo das principais contribuic¸˜oes desta tese, e aponta algumas quest˜oes interessantes, em aberto, que requerem investiga¸c˜ao adicional. Declaration I, Pedro Miguel de Oliveira Martins, declare that this thesis titled, ’Elastic ETL+Q for any data-warehouse using time bounds’ and the work presented in it are my own. I confirm that: This work was done wholly or mainly while in candidature for a re- • search degree at this University. Where any part of this thesis has previously been submitted for a • degree or any other qualification at this University or any other insti- tution, this has been clearly stated. Where I have consulted the published work of others, this is always • clearly attributed. Where I have quoted from the work of others, the source is always • given. With the exception of such quotations, this thesis is entirely my own work. I have acknowledged all main sources of help. • Where the thesis is based on work done by myself jointly with others, • I have made clear exactly what was done by others and what I have contributed myself. Signed: Date: vii Acknowledgments These lines I want to dedicate for giving my thanks to all people without who this thesis would have not been possible. I want to thank my thesis adviser, professor Pedro Furtado, first for be- lieving in me and for giving me the opportunity to work with him on this novel approach, and then for being a great help during my work, with his constant patience, useful advises and suggestions. I am especially grateful to him for encouraging me to think wider about the problems and to delve deeper to find the right and quality solutions. I would like to thank the Department of Informatics at University of Coimbra, especially those members of my doctoral committee for their in- put, valuable discussions and accessibility. Thanks for the financial support by the Portuguese Foundation for Sci- ence and Technology through the PhD grant SFRH/BD/86274/2012. Special thanks to my friend Jos´e Cecilio, Jo˜ao Pedro Costa and my dear wife Maryam Abbasi, for helping me reviewing my thesis and all feedback. My thanks also go to my friends who, during the rough moments, cheered me up and gave me the strength to go on. I owe hugely to my dear parents. Their permanent love and confidence inmehaveencouragedmetogoaheadinmystudyandcareer, whogaveme the chance to even be at this place and who supported me the most through ix all my life and education. I hope I will give them the reason to be proud of me. Specifically I want to appreciate them for taking care of my daughter for the last year when I was studying. Finally, and most importantly, I express my gratitude to my dear wife Maryam who I met at the start point of my research, married and very recently had a beautiful baby girl. Her support, encouragement, quiet pa- tience and unwavering love were undeniably the bedrock upon which the past 4 years of my life have been built. Her tolerance of my occasional vul- gar moods is a testament in itself of her unyielding devotion and love. I dedicate all my e↵orts to her and my little daughter, Nina.

Description:
Hadoop Distributed File System. HS. Hash. I/O. Input/Output. IP. Internet Protocol. JDBC. Java Database Connectivity. JVM. Java Virtual Machine . only programs transformations, data-warehouse schema and queries (using .. instance is using Oracle Data Integrator [42] and Oracle GoldenGate [43].
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.