Predictive Barga Fontama Tok Analytics with Microsoft Azure Machine Learning, Second Edition Build and Deploy Actionable AP Solutions in Minutes zr ue rd ei Predictive Analytics with Microsoft Azure Machine Learning, Second Edition is a c practical tutorial introduction to the field of data science and machine learning, Mt with a focus on building and deploying predictive models. The book provides ai a thorough overview of the Microsoft Azure Machine Learning service released cv he for general availability in early 2015 with practical guidance for building i recommenders, propensity models, and churn and predictive maintenance nA models. en The authors use task oriented descriptions and concrete end-to-end examples a to ensure that the reader can immediately begin using this new service. The book Ll ey describes all aspects of the service from data ingress to applying machine at learning, evaluating the models, and deploying them as web services. ri Learn how you can quickly build and deploy sophisticated predictive models nc with the new Azure Machine Learning from Microsoft. is n What’s new in the second edition? Six exciting, new chapters have been added gw with practical detailed coverage of: ,i t • Cortana Analytics Suite Sh • Python integration e • Data preparation and feature selection cM oi • Data visualization with Power BI nc • Recommendation engines dr • Selling your models on Azure Marketplace o Es In this book, you’ll learn: do if • A structured introduction to Data Science and its best practices tt • An introduction to the new Microsoft Azure Machine Learning service, explaining i how to effectively build and deploy predictive models o • Practical skills such as how to solve typical predictive analytics problems like n propensity modeling, churn analysis, product recommendation, and visualization with Power BI • A practical way to sell your own predictive models on the Azure Marketplace ISBN 978-1-4842-1201-1 US $ 49.99 54999 Shelve in: Data Science User level: Intermediate–Advanced 9781484212011 SOURCE CODE ONLINE www.apress.com www.it-ebooks.info Predictive Analytics with Microsoft Azure Machine Learning Second Edition Roger Barga Valentine Fontama Wee Hyong Tok www.it-ebooks.info Predictive Analytics with Microsoft Azure Machine Learning Copyright © 2015 by Roger Barga, Valentine Fontama, and Wee Hyong Tok This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. Exempted from this legal reservation are brief excerpts in connection with reviews or scholarly analysis or material supplied specifically for the purpose of being entered and executed on a computer system, for exclusive use by the purchaser of the work. Duplication of this publication or parts thereof is permitted only under the provisions of the Copyright Law of the Publisher's location, in its current version, and permission for use must always be obtained from Springer. Permissions for use may be obtained through RightsLink at the Copyright Clearance Center. Violations are liable to prosecution under the respective Copyright Law. ISBN-13 (pbk): 978-1-4842-1201-1 ISBN-13 (electronic): 978-1-4842-1200-4 Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the trademark. The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to proprietary rights. While the advice and information in this book are believed to be true and accurate at the date of publication, neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes no warranty, express or implied, with respect to the material contained herein. Managing Director: Welmoed Spahr Lead Editor: James DeWolf Development Editor: Douglas Pundick Technical Reviewers: Luis Cabrera-Cordon, Jacob Spoelstra, Hang Zhang, and Yan Zhang Editorial Board: Steve Anglin, Gary Cornell, Louise Corrigan, James T. DeWolf, Jonathan Gennick, Robert Hutchinson, Michelle Lowman, James Markham, Susan McDermott, Matthew Moodie, Jeffrey Pepper, Douglas Pundick, Dominic Shakeshaft, Gwenan Spearing, Matt Wade, Steve Weiss Coordinating Editor: Melissa Maldonado Copy Editor: Mary Behr Compositor: SPi Global Indexer: SPi Global Artist: SPi Global Distributed to the book trade worldwide by Springer Science+Business Media New York, 233 Spring Street, 6th Floor, New York, NY 10013. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail [email protected], or visit www.springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation. For information on translations, please e-mail [email protected], or visit www.apress.com. Apress and friends of ED books may be purchased in bulk for academic, corporate, or promotional use. eBook versions and licenses are also available for most titles. For more information, reference our Special Bulk Sales–eBook Licensing web page at www.apress.com/bulk-sales. Any source code or other supplementary material referenced by the author in this text is available to readers at www.apress.com. For detailed information about how to locate your book’s source code, go to www.apress.com/source-code/. www.it-ebooks.info Contents at a Glance About the Authors ���������������������������������������������������������������������������xiii About the Technical Reviewers �������������������������������������������������������xv Acknowledgments �������������������������������������������������������������������������xvii Foreword ����������������������������������������������������������������������������������������xix Introduction ����������������������������������������������������������������������������������xxiii ■ Part I: Introducing Data Science and Microsoft Azure Machine Learning ����������������������������������������������������������� 1 ■ Chapter 1: Introduction to Data Science �����������������������������������������3 ■ Chapter 2: Introducing Microsoft Azure Machine Learning ����������21 ■ Chapter 3: Data Preparation ���������������������������������������������������������45 ■ Chapter 4: Integration with R �������������������������������������������������������81 ■ Chapter 5: Integration with Python ��������������������������������������������103 ■ Part II: Statistical and Machine Learning Algorithms ������������������������������������������������������������������ 131 ■ Chapter 6: Introduction to Statistical and Machine Learning Algorithms ����������������������������������������������������������������������������������133 ■ Part III: Practical Applications������������������������������������ 149 ■ Chapter 7: Building Customer Propensity Models ����������������������151 ■ Chapter 8: Visualizing Your Models with Power BI ��������������������173 iii www.it-ebooks.info ■ Contents at a GlanCe ■ Chapter 9: Building Churn Models ����������������������������������������������189 ■ Chapter 10: Customer Segmentation Models �����������������������������207 ■ Chapter 11: Building Predictive Maintenance Models ����������������221 ■ Chapter 12: Recommendation Systems��������������������������������������243 ■ Chapter 13: Consuming and Publishing Models on Azure Marketplace ���������������������������������������������������������������������263 ■ Chapter 14: Cortana Analytics ����������������������������������������������������279 Index ����������������������������������������������������������������������������������������������285 iv www.it-ebooks.info Contents About the Authors ���������������������������������������������������������������������������xiii About the Technical Reviewers �������������������������������������������������������xv Acknowledgments �������������������������������������������������������������������������xvii Foreword ����������������������������������������������������������������������������������������xix Introduction ����������������������������������������������������������������������������������xxiii ■ Part I: Introducing Data Science and Microsoft Azure Machine Learning ����������������������������������������������������������� 1 ■ Chapter 1: Introduction to Data Science �����������������������������������������3 What is Data Science? ����������������������������������������������������������������������������3 Analytics Spectrum ���������������������������������������������������������������������������������4 Descriptive Analysis��������������������������������������������������������������������������������������������������5 Diagnostic Analysis ���������������������������������������������������������������������������������������������������5 Predictive Analysis ����������������������������������������������������������������������������������������������������5 Prescriptive Analysis ������������������������������������������������������������������������������������������������6 Why Does It Matter and Why Now? ���������������������������������������������������������7 Data as a Competitive Asset �������������������������������������������������������������������������������������7 Increased Customer Demand ����������������������������������������������������������������������������������8 Increased Awareness of Data Mining Technologies �������������������������������������������������8 Access to More Data �������������������������������������������������������������������������������������������������8 Faster and Cheaper Processing Power ��������������������������������������������������������������������9 The Data Science Process ��������������������������������������������������������������������������������������11 v www.it-ebooks.info ■ Contents Common Data Science Techniques �������������������������������������������������������14 Classification Algorithms ����������������������������������������������������������������������������������������14 Clustering Algorithms ���������������������������������������������������������������������������������������������15 Regression Algorithms ��������������������������������������������������������������������������������������������16 Simulation ��������������������������������������������������������������������������������������������������������������17 Content Analysis ����������������������������������������������������������������������������������������������������17 Recommendation Engines �������������������������������������������������������������������������������������18 Cutting Edge of Data Science ����������������������������������������������������������������18 The Rise of Ensemble Models ��������������������������������������������������������������������������������18 Summary �����������������������������������������������������������������������������������������������20 Bibliography ������������������������������������������������������������������������������������������20 ■ Chapter 2: Introducing Microsoft Azure Machine Learning ����������21 Hello, Machine Learning Studio! �����������������������������������������������������������21 Components of an Experiment ��������������������������������������������������������������22 Introducing the Gallery ��������������������������������������������������������������������������25 Five Easy Steps to Creating a Training Experiment �������������������������������26 Step 1: Getting the Data ������������������������������������������������������������������������������������������26 Step 2: Preprocessing the Data ������������������������������������������������������������������������������28 Step 3: Defining the Features ���������������������������������������������������������������������������������31 Step 4: Choosing and Applying Machine Learning Algorithms �������������������������������33 Step 5: Predicting Over New Data ��������������������������������������������������������������������������35 Deploying Your Model in Production ������������������������������������������������������38 Creating a Predictive Experiment ���������������������������������������������������������������������������38 Publishing Your Experiment as a Web Service��������������������������������������������������������40 Accessing the Azure Machine Learning Web Service ���������������������������������������������41 Summary �����������������������������������������������������������������������������������������������43 vi www.it-ebooks.info ■ Contents ■ Chapter 3: Data Preparation ���������������������������������������������������������45 Data Cleaning and Processing ��������������������������������������������������������������46 Getting to Know Your Data ��������������������������������������������������������������������������������������46 Missing and Null Values ������������������������������������������������������������������������������������������53 Handling Duplicate Records �����������������������������������������������������������������������������������56 Identifying and Removing Outliers ��������������������������������������������������������������������������56 Feature Normalization ��������������������������������������������������������������������������������������������59 Dealing with Class Imbalance ��������������������������������������������������������������������������������60 Feature Selection ����������������������������������������������������������������������������������62 Feature Engineering ������������������������������������������������������������������������������67 Binning Data �����������������������������������������������������������������������������������������������������������72 The Curse of Dimensionality �����������������������������������������������������������������������������������75 Summary �����������������������������������������������������������������������������������������������79 ■ Chapter 4: Integration with R �������������������������������������������������������81 R in a Nutshell ���������������������������������������������������������������������������������������81 Building and Deploying Your First R Script ��������������������������������������������84 Using R for Data Preprocessing�������������������������������������������������������������88 Using a Script Bundle (ZIP) ��������������������������������������������������������������������92 Building and Deploying a Decision Tree Using R �����������������������������������96 Summary ���������������������������������������������������������������������������������������������101 ■ Chapter 5: Integration with Python ��������������������������������������������103 Overview ���������������������������������������������������������������������������������������������103 Python Jumpstart ��������������������������������������������������������������������������������104 Using Python in Azure ML Experiments �����������������������������������������������108 Using Python for Data Preprocessing ��������������������������������������������������115 Combining Data using Python ������������������������������������������������������������������������������116 Handling Missing Data Using Python ��������������������������������������������������������������������119 vii www.it-ebooks.info ■ Contents Feature Selection Using Python ����������������������������������������������������������������������������121 Running Python Code in an Azure ML Experiment ������������������������������������������������125 Summary ���������������������������������������������������������������������������������������������130 ■ Part II: Statistical and Machine Learning Algorithms 131 ■ Chapter 6: Introduction to Statistical and Machine Learning Algorithms �������������������������������������������������������������������133 Regression Algorithms ������������������������������������������������������������������������133 Linear Regression �������������������������������������������������������������������������������������������������134 Neural Networks ���������������������������������������������������������������������������������������������������136 Decision Trees ������������������������������������������������������������������������������������������������������138 Boosted Decision Trees�����������������������������������������������������������������������������������������139 Classification Algorithms ���������������������������������������������������������������������140 Support Vector Machines ��������������������������������������������������������������������������������������141 Bayes Point Machines ������������������������������������������������������������������������������������������144 Clustering Algorithms ��������������������������������������������������������������������������145 Summary ���������������������������������������������������������������������������������������������148 ■ Part III: Practical Applications������������������������������������ 149 ■ Chapter 7: Building Customer Propensity Models ����������������������151 The Business Problem �������������������������������������������������������������������������151 Data Acquisition and Preparation ��������������������������������������������������������152 Data Analysis ��������������������������������������������������������������������������������������������������������153 Training the Model �������������������������������������������������������������������������������161 Model Testing and Validation ���������������������������������������������������������������164 Model Performance �����������������������������������������������������������������������������165 Prioritizing Evaluation Metrics �������������������������������������������������������������169 Summary ���������������������������������������������������������������������������������������������171 viii www.it-ebooks.info ■ Contents ■ Chapter 8: Visualizing Your Models with Power BI ��������������������173 Overview ���������������������������������������������������������������������������������������������173 Introducing Power BI ���������������������������������������������������������������������������174 Three Approaches for Visualizing with Power BI ���������������������������������176 Scoring Your Data in Azure Machine Learning and Visualizing in Excel ������������������������������������������������������������������������������177 Scoring and Visualizing Your Data in Excel ������������������������������������������182 Scoring Your Data in Azure Machine Learning and Visualizing in powerbi�com ���������������������������������������������������������������������������������������184 Loading Data ���������������������������������������������������������������������������������������������������������184 Building Your Dashboard ��������������������������������������������������������������������������������������185 Summary ���������������������������������������������������������������������������������������������188 ■ Chapter 9: Building Churn Models ����������������������������������������������189 Churn Models in a Nutshell �����������������������������������������������������������������189 Building and Deploying a Customer Churn Model �������������������������������191 Preparing and Understanding Data ����������������������������������������������������������������������191 Data Preprocessing and Feature Selection ����������������������������������������������������������195 Classification Model for Predicting Churn ������������������������������������������������������������201 Evaluating the Performance of the Customer Churn Models ��������������������������������204 Summary ���������������������������������������������������������������������������������������������206 ■ Chapter 10: Customer Segmentation Models �����������������������������207 Customer Segmentation Models in a Nutshell ������������������������������������207 Building and Deploying Your First K-Means Clustering Model ������������208 Feature Hashing ���������������������������������������������������������������������������������������������������211 Identifying the Right Features ������������������������������������������������������������������������������212 Properties of K-Means Clustering �������������������������������������������������������������������������213 ix www.it-ebooks.info
Description: