ebook img

Data lakes PDF

249 Pages·2020·11.95 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Data lakes

Data Lakes To Christine Collet Databases and Big Data Set coordinated by Dominique Laurent and Anne Laurent Volume 2 Data Lakes Edited by Anne Laurent Dominique Laurent Cédrine Madera First published 2020 in Great Britain and the United States by ISTE Ltd and John Wiley & Sons, Inc. Apart from any fair dealing for the purposes of research or private study, or criticism or review, as permitted under the Copyright, Designs and Patents Act 1988, this publication may only be reproduced, stored or transmitted, in any form or by any means, with the prior permission in writing of the publishers, or in the case of reprographic reproduction in accordance with the terms and licenses issued by the CLA. Enquiries concerning reproduction outside these terms should be sent to the publishers at the undermentioned address: ISTE Ltd John Wiley & Sons, Inc. 27-37 St George’s Road 111 River Street London SW19 4EU Hoboken, NJ 07030 UK USA www.iste.co.uk www.wiley.com © ISTE Ltd 2020 The rights of Anne Laurent, Dominique Laurent and Cédrine Madera to be identified as the authors of this work have been asserted by them in accordance with the Copyright, Designs and Patents Act 1988. Library of Congress Control Number: 2019954836 British Library Cataloguing-in-Publication Data A CIP record for this book is available from the British Library ISBN 978-1-78630-585-5 Contents Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi Chapter 1. Introduction to Data Lakes: Definitions and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Anne LAURENT,Dominique LAURENTandCédrine MADERA 1.1.Introductiontodatalakes . . . . . . . . . . . . . . . . . . . . . . 1 1.2.Literaturereviewanddiscussion . . . . . . . . . . . . . . . . . . 3 1.3.Thedatalakechallenges . . . . . . . . . . . . . . . . . . . . . . 7 1.4.Datalakesversusdecision-makingsystems . . . . . . . . . . . . 10 1.5.Urbanizationfordatalakes . . . . . . . . . . . . . . . . . . . . . 13 1.6.Datalakefunctionalities. . . . . . . . . . . . . . . . . . . . . . . 17 1.7.Summaryandconcludingremarks . . . . . . . . . . . . . . . . . 20 Chapter 2. Architecture of Data Lakes . . . . . . . . . . . . . . . . 21 HoussemCHIHOUB,Cédrine MADERA,Christoph QUIXandRihan HAI 2.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.Stateoftheartandpractice . . . . . . . . . . . . . . . . . . . . . 25 2.2.1.Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2.Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.3.Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.4.Dataquality . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.5.Schema-on-read . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.Systemarchitecture . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.1.Ingestionlayer . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.2.Storagelayer . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 vi DataLakes 2.3.3.Transformationlayer . . . . . . . . . . . . . . . . . . . . . . 32 2.3.4.Interactionlayer . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.Usecase: theConstancesystem . . . . . . . . . . . . . . . . . . 33 2.4.1.Systemoverview . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.2.Ingestionlayer . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.3.Maintenancelayer . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.4.Querylayer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.5.Dataqualitycontrol . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.6.Extensibilityandflexibility . . . . . . . . . . . . . . . . . . . 38 2.5.Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . 39 Chapter 3. Exploiting Software Product Lines and Formal Concept Analysis for the Design of Data Lake Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Marianne HUCHARD, Anne LAURENT, Thérèse LIBOUREL, Cédrine MADERAandAndré MIRALLES 3.1.Ourexpectations . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.Modelingdatalakefunctionalities . . . . . . . . . . . . . . . . . 43 3.3.Buildingtheknowledgebaseofindustrialdatalakes . . . . . . 46 3.4.Ourformalizationapproach. . . . . . . . . . . . . . . . . . . . . 49 3.5.Applyingourapproach . . . . . . . . . . . . . . . . . . . . . . . 51 3.6.Analysisofourfirstresults . . . . . . . . . . . . . . . . . . . . . 53 3.7.Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . 55 Chapter 4. Metadata in Data Lake Ecosystems . . . . . . . . . . 57 AsmaZGOLLI,Christine COLLET†andCédrine MADERA 4.1.Definitionsandconcepts . . . . . . . . . . . . . . . . . . . . . . 57 4.2.ClassificationofmetadatabyNISO . . . . . . . . . . . . . . . . 58 4.2.1.Metadataschema . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2.2.Knowledgebaseandcatalog . . . . . . . . . . . . . . . . . . 60 4.3.Othercategoriesofmetadata . . . . . . . . . . . . . . . . . . . . 61 4.3.1.Businessmetadata . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.2.Navigationalintegration . . . . . . . . . . . . . . . . . . . . 63 4.3.3.Operationalmetadata . . . . . . . . . . . . . . . . . . . . . . 63 4.4.Sourcesofmetadata . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.5.Metadataclassification . . . . . . . . . . . . . . . . . . . . . . . 65 4.6.Whymetadataareneeded . . . . . . . . . . . . . . . . . . . . . . 70 4.6.1.Selectionofinformation(re)sources . . . . . . . . . . . . . . 70 Contents vii 4.6.2.Organizationofinformationresources . . . . . . . . . . . . 70 4.6.3.Interoperabilityandintegration. . . . . . . . . . . . . . . . . 70 4.6.4.Uniquedigitalidentification . . . . . . . . . . . . . . . . . . 71 4.6.5.Dataarchivingandpreservation . . . . . . . . . . . . . . . . 71 4.7.Businessvalueofmetadata . . . . . . . . . . . . . . . . . . . . . 72 4.8.Metadataarchitecture . . . . . . . . . . . . . . . . . . . . . . . . 75 4.8.1.Architecturescenario1: point-to-pointmetadata architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.8.2.Architecturescenario2: hubandspokemetadata architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.8.3.Architecturescenario3: toolofrecordmetadata architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.8.4.Architecturescenario4: hybridmetadata architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.8.5.Architecturescenario5: federatedmetadata architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.9.Metadatamanagement . . . . . . . . . . . . . . . . . . . . . . . 82 4.10.Metadataanddatalakes . . . . . . . . . . . . . . . . . . . . . . 86 4.10.1.Applicationandworkloadlayer. . . . . . . . . . . . . . . . 86 4.10.2.Datalayer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.10.3.Systemlayer . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.10.4.Metadatatypes . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.11.Metadatamanagementindatalakes . . . . . . . . . . . . . . . 92 4.11.1.Metadatadirectory . . . . . . . . . . . . . . . . . . . . . . . 93 4.11.2.Metadatastorage . . . . . . . . . . . . . . . . . . . . . . . . 93 4.11.3.Metadatadiscovery . . . . . . . . . . . . . . . . . . . . . . 94 4.11.4.Metadatalineage . . . . . . . . . . . . . . . . . . . . . . . . 94 4.11.5.Metadataquerying . . . . . . . . . . . . . . . . . . . . . . . 95 4.11.6.Datasourceselection . . . . . . . . . . . . . . . . . . . . . 95 4.12.Metadataandmasterdatamanagement . . . . . . . . . . . . . 96 4.13.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Chapter 5. A Use Case of Data Lake Metadata Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Imen MEGDICHE,Franck RAVATandYanZHAO 5.1.Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1.1.Datalakedefinition . . . . . . . . . . . . . . . . . . . . . . . 98 5.1.2.Datalakefunctionalarchitecture . . . . . . . . . . . . . . . . 100 viii DataLakes 5.2.Relatedwork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2.1.Metadataclassification . . . . . . . . . . . . . . . . . . . . . 104 5.2.2.Metadatamanagement . . . . . . . . . . . . . . . . . . . . . 105 5.3.Metadatamodel . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.3.1.Metadataclassification . . . . . . . . . . . . . . . . . . . . . 106 5.3.2.Schemaofmetadataconceptualmodel . . . . . . . . . . . . 110 5.4.Metadataimplementation . . . . . . . . . . . . . . . . . . . . . . 111 5.4.1.Relationaldatabase . . . . . . . . . . . . . . . . . . . . . . . 112 5.4.2.Graphdatabase. . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.4.3.Comparisonofthesolutions . . . . . . . . . . . . . . . . . . 119 5.5.Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . 121 Chapter 6. Master Data and Reference Data in Data Lake Ecosystems . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Cédrine MADERA 6.1.Introductiontomasterdatamanagement . . . . . . . . . . . . . 125 6.1.1.Whatismasterdata? . . . . . . . . . . . . . . . . . . . . . . 125 6.1.2.Basicdefinitions . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.2.Decidingwhattomanage . . . . . . . . . . . . . . . . . . . . . . 126 6.2.1.Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.2.2.Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.2.3.Cardinality . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.2.4.Lifetime. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2.5.Complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2.6.Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2.7.Volatility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.2.8.Reuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.3.WhyshouldImanagemasterdata? . . . . . . . . . . . . . . . . 130 6.4.Whatismasterdatamanagement? . . . . . . . . . . . . . . . . . 131 6.4.1.HowdoIcreateamasterlist? . . . . . . . . . . . . . . . . . 136 6.4.2.HowdoImaintainamasterlist? . . . . . . . . . . . . . . . . 138 6.4.3.Versioningandauditing . . . . . . . . . . . . . . . . . . . . . 139 6.4.4.Hierarchymanagement . . . . . . . . . . . . . . . . . . . . . 140 6.5.Masterdataandthedatalake . . . . . . . . . . . . . . . . . . . 141 6.6.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.