ebook img

The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science PDF

218 Pages·2019·10.52 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science

y The Enterprise Big Data Lake Delivering the Promise of Big Data and Data Science ng Paths Alex Gorelik & Deals ghts gs rt Sign Out y The Enterprise Big Data Lake History by Alex Gorelik Topics Copyright © 2019 Alex Gorelik. All rights reserved. Learning Paths Printed in the United States of America. Offers & Deals Published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472. HigOhli’gRhtesilly books may be purchased for educational, business, or sales promotional use. Online editions are also available for most titles (http://oreilly.com). For more information, contact our Settciongrpsorate/institutional sales department: 800­998­9938 or [email protected]. Support Editor: Andy Oram Sign Out Production Editor: Kristen Brown Copyeditor: Rachel Head Proofreader: Rachel Monaghan Indexer: Ellen Troutman Interior Designer: David Futato Cover Designer: Karen Montgomery Illustrator: Rebecca Demarest March 2019: First Edition Revision History for the First Edition 2019­01­18: Final Early Release See http://oreilly.com/catalog/errata.csp?isbn=9781491931554 for release details. The O’Reilly logo is a registered trademark of O’Reilly Media, Inc. The Enterprise Big Data Lake, the cover image, and related trade dress are trademarks of O’Reilly Media, Inc. The views expressed in this work are those of the author, and do not represent the publisher’s views. While the publisher and the author have used good faith efforts to ensure that the information and instructions contained in this work are accurate, the publisher and the author disclaim all responsibility for errors or omissions, including without limitation responsibility for damages resulting from the use of or reliance on this work. Use of the information and instructions contained in this work is at your own risk. If any code samples or other technology this work contains or describes is subject to open source licenses or the intellectual property rights of others, it is your responsibility to ensure that your use thereof complies with such licenses and/or rights. 978­1­491­93155­4 [LSI] HistPoryreface Topics In recent years many enterprises have begun experimenting with using big data and cloud technologies to build data lakes and support data­driven culture and decision making—but the Learning Paths projects often stall or fail because the approaches that worked at internet companies have to be adapted for the enterprise, and there is no comprehensive practical guide on how to successfully Offers & Deals do that. I wrote this book with the hope of providing such a guide. Highlights In my roles as executive at IBM and Informatica (major data technology vendors), Entrepreneur in Residence at Menlo Ventures (a leading VC firm), and founder and CTO of Waterline (a big Settings data startup), I’ve been fortunate to have had the opportunity to speak with hundreds of experts, visionaries, industry analysts, and hands­on practitioners about the challenges of building Support successful data lakes and creating a data­driven culture. This book is a synthesis of the themes and best practices that I’ve encountered across industries (from social media to banking and Sign Out government agencies) and roles (from chief data officers and other IT executives to data architects, data scientists, and business analysts). Big data, data science, and analytics supporting data­driven decision making promise to bring unprecedented levels of insight and efficiency to everything from how we work with data to how we work with customers to the search for a cure for cancer—but data science and analytics depend on having access to historical data. In recognition of this, companies are deploying big data lakes to bring all their data together in one place and start saving history, so data scientists and analysts have access to the information they need to enable data­driven decision making. Enterprise big data lakes bridge the gap between the freewheeling culture of modern internet companies, where data is core to all practices, everyone is an analyst, and most people can code and roll their own data sets, and enterprise data warehouses, where data is a precious commodity, carefully tended to by professional IT personnel and provisioned in the form of carefully prepared reports and analytic data sets. To be successful, enterprise data lakes must provide three new capabilities: Cost­effective, scalable storage and computing, so large amounts of data can be stored and analyzed without incurring prohibitive computational costs Cost­effective data access and governance, so everyone can find and use the right data without incurring expensive human costs associated with programming and manual ad hoc data acquisition Tiered, governed access, so different levels of data can be available to different users based on their needs and skill levels and applicable data governance policies Hadoop, Spark, NoSQL databases, and elastic cloud–based systems are exciting new technologies that deliver on the first promise of cost­effective, scalable storage and computing. While they are still maturing and face some of the challenges inherent to any new technology, they are rapidly stabilizing and becoming mainstream. However, these powerful enabling technologies do not deliver on the other two promises of cost­effective and tiered data access. So, as enterprises create large clusters and ingest vast amounts of data, they find that instead of a data lake, they end up with a data swamp—a large repository of unusable data sets that are impossible to navigate or make sense of, and too dangerous to rely on for any decisions. This book guides readers through the considerations and best practices of delivering on all the promises of the big data lake. It discusses various approaches to starting and growing a data lake, including data puddles (analytical sandboxes) and data ponds (big data warehouses), as well as building data lakes from scratch. It explores the pros and cons of different data lake architectures—on premises, cloud­based, and virtual—and covers setting up different zones to house everything from raw, untreated data to carefully managed and summarized data, and governing access to those zones. It explains how to enable self­service so that users can find, understand, and provision data themselves; how to provide different interfaces to users with different skill levels; and how to do all of that in compliance with enterprise data governance policies. Who Should Read This Book? This book is intended for the following audiences at large traditional enterprises: Data services and governance teams: chief data officers and data stewards IT executives and architects: chief technology officers and big data architects Analytics teams: data scientists, data engineers, data analysts, and heads of analytics Compliance teams: chief information security officers, data protection officers, information security analysts, and regulatory compliance heads The book leverages my 30­year career developing leading­edge data technology and working with some of the world’s largest enterprises on their thorniest data problems. It draws on best practices from the world’s leading big data companies and enterprises, with essays and success stories from hands­on practitioners and industry experts to provide a comprehensive guide to architecting and deploying a successful big data lake. If you’re interested in taking advantage of what these exciting new big data technologies and approaches offer to the enterprise, this book is an excellent place to start. Management may want to read it once and refer to it periodically as big data issues come up in the workplace, while for hands­on practitioners it can serve as a useful reference as they are planning and executing big data lake projects. Conventions Used in This Book The following typographical conventions are used in this book: Italic Indicates new terms, URLs, email addresses, filenames, and file extensions. Constant width Used for program listings, as well as within paragraphs to refer to program elements such as variable or function names, databases, data types, environment variables, statements, and keywords. Constant width italic Shows text that should be replaced with user­supplied values or by values determined by context. O’Reilly Safari Safari (formerly Safari Books Online) is a membership­based training and reference platform for enterprise, government, educators, and individuals. Members have access to thousands of books, training videos, Learning Paths, interactive tutorials, and curated playlists from over 250 publishers, including O’Reilly Media, Harvard Business Review, Prentice Hall Professional, Addison­Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press, Adobe, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw­Hill, Jones & Bartlett, and Course Technology, among others. For more information, please visit http://oreilly.com. How to Contact Us Please address comments and questions concerning this book to the publisher: O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 800­998­9938 (in the United States or Canada) 707­829­0515 (international or local) 707­829­0104 (fax) We have a web page for this book, where we list errata, examples, and any additional information. You can access this page at http://bit.ly/Enterprise­Big­Data­Lake. To comment or ask technical questions about this book, send email to [email protected]. For more information about our books, courses, conferences, and news, see our website at http://www.oreilly.com. Find us on Facebook: http://facebook.com/oreilly Follow us on Twitter: http://twitter.com/oreillymedia Watch us on YouTube: http://www.youtube.com/oreillymedia Acknowledgments First and foremost, I want to express my deep gratitude to all the experts and practitioners who shared their stories, expertise, and best practices with me—this book is for and about you! A great thank you also to all the people who helped me work on this project. This is my first book, and I truly would not have been able to do it without their help. Thanks to: The O’Reilly team: Andy Oram, my O’Reilly editor, who breathed new life into this book as I was running out of steam and helped bring it from a stream of consciousness to some level of coherency; Tim McGovern, the original editor who helped get this book off the ground; and Rachel Head, the copyeditor who shocked me with how many more improvements could still be made to the book after over two years of writing, editing, rewriting, reviewing, more rewriting, more editing, more rewriting… The industry contributors who shared their thoughts and best practices in essays and whose names and bios you will find next to their essays inside the book The reviewers who made huge improvements with their fresh perspective, critical eye, and industry expertise: Sanjeev Mohan, Opinder Bawa, and Nicole Schwartz Finally, this book would not have happened without the support and love of my wonderful family—my wife Irina, my kids, Hannah, Jane, Lisa, and John, and my mom Regina—my friends, and my wonderful Waterline family too. HistCoryhapter 1. Introduction to Data Lakes Topics Data­driven decision making is changing how we work and live. From data science, machine learning, and advanced analytics to real­time dashboards, decision makers are demanding data Learning Paths to help make decisions. Companies like Google, Amazon, and Facebook are data­driven juggernauts that are taking over traditional businesses by leveraging data. Financial services Offers & Deals organizations and insurance companies have always been data driven, with quants and automated trading leading the way. The Internet of Things (IoT) is changing manufacturing, Highlights transportation, agriculture, and healthcare. From governments and corporations in every vertical to non­profits and educational institutions, data is being seen as a game changer. Artificial Settings intelligence and machine learning are permeating all aspects of our lives. The world is bingeing on data because of the potential it represents. We even have a term for this binge: big data, Support defined by Doug Laney of Gartner in terms of the three Vs (volume, variety, and velocity), to Signw Ohuitch he later added a fourth and, in my opinion, the most important V—veracity. With so much variety, volume, and velocity, the old systems and processes are no longer able to support the data needs of the enterprise. Veracity is an even bigger problem for advanced analytics and artificial intelligence, where the “GIGO” principle (garbage in = garbage out) is even more critical because it is virtually impossible to tell whether the data was bad and caused bad decisions in statistical and machine learning models or the model was bad. To support these endeavors and address these challenges, a revolution is occurring in data management around how data is stored, processed, managed, and provided to the decision makers. Big data technology is enabling scalability and cost efficiency orders of magnitude greater than what’s possible with traditional data management infrastructure. Self­service is taking over from the carefully crafted and labor­intensive approaches of the past, where armies of IT professionals created well­governed data warehouses and data marts, but took months to make any changes. The data lake is a daring new approach that harnesses the power of big data technology and marries it with agility of self­service. Most large enterprises today either have deployed or are in the process of deploying data lakes.

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.