Python for SAS Users A SAS-Oriented Introduction to Python — Randy Betancourt Sarah Chen Python for SAS Users A SAS-Oriented Introduction to Python Randy Betancourt Sarah Chen Python for SAS Users: A SAS-Oriented Introduction to Python Randy Betancourt Sarah Chen Chadds Ford, PA, USA Livingston, NJ, USA ISBN-13 (pbk): 978-1-4842-5000-6 ISBN-13 (electronic): 978-1-4842-5001-3 https://doi.org/10.1007/978-1-4842-5001-3 Copyright © 2019 by Randy Betancourt, Sarah Chen This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the trademark. The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to proprietary rights. While the advice and information in this book are believed to be true and accurate at the date of publication, neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes no warranty, express or implied, with respect to the material contained herein. Managing Director, Apress Media LLC: Welmoed Spahr Acquisitions Editor: Susan McDermott Development Editor: Laura Berendson Coordinating Editor: Rita Fernando Cover designed by eStudioCalamar Cover image designed by Freepik (www.freepik.com) Distributed to the book trade worldwide by Springer Science+Business Media New York, 233 Spring Street, 6th Floor, New York, NY 10013. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail orders-ny@springer- sbm.com, or visit www.springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation. For information on translations, please e-mail [email protected], or visit http://www.apress.com/ rights-permissions. Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales web page at http://www.apress.com/bulk-sales. Any source code or other supplementary material referenced by the author in this book is available to readers on GitHub via the book’s product page, located at www.apress.com/9781484250006. For more detailed information, please visit http://www.apress.com/source-code. Printed on acid-free paper Table of Contents About the Authors ����������������������������������������������������������������������������������������������������ix About the Technical Reviewers �������������������������������������������������������������������������������xi Acknowledgments �������������������������������������������������������������������������������������������������xiii Introduction �������������������������������������������������������������������������������������������������������������xv Chapter 1: Why Python? �������������������������������������������������������������������������������������������1 Setting Up a Python Environment �������������������������������������������������������������������������������������������������2 Anaconda3 Install Process for Windows ���������������������������������������������������������������������������������������3 Troubleshooting Python Installation for Windows ��������������������������������������������������������������������9 Anaconda3 Install Process for Linux �������������������������������������������������������������������������������������������13 Executing a Python Script on Windows ���������������������������������������������������������������������������������������16 Case Sensitivity ���������������������������������������������������������������������������������������������������������������������������19 Line Continuation Symbol �����������������������������������������������������������������������������������������������������������19 Executing a Python Script on Linux ��������������������������������������������������������������������������������������������20 Integrated Development Environment (IDE) for Python ���������������������������������������������������������������21 Jupyter Notebook ������������������������������������������������������������������������������������������������������������������������22 Jupyter Notebook for Linux ���������������������������������������������������������������������������������������������������������24 Summary�������������������������������������������������������������������������������������������������������������������������������������25 Chapter 2: Python Types and Formatting ���������������������������������������������������������������27 Numerics �������������������������������������������������������������������������������������������������������������������������������������28 Python Operators �������������������������������������������������������������������������������������������������������������������30 Boolean ���������������������������������������������������������������������������������������������������������������������������������������31 Comparison Operators �����������������������������������������������������������������������������������������������������������32 IN/NOT IN �������������������������������������������������������������������������������������������������������������������������������37 AND/OR/NOT ��������������������������������������������������������������������������������������������������������������������������38 Table of ConTenTs Numerical Precision ��������������������������������������������������������������������������������������������������������������������40 Strings �����������������������������������������������������������������������������������������������������������������������������������������44 String Slicing �������������������������������������������������������������������������������������������������������������������������47 Formatting �����������������������������������������������������������������������������������������������������������������������������51 Summary�������������������������������������������������������������������������������������������������������������������������������������63 Chapter 3: pandas Library ��������������������������������������������������������������������������������������65 Column Types ������������������������������������������������������������������������������������������������������������������������������67 Series ������������������������������������������������������������������������������������������������������������������������������������������68 DataFrames ���������������������������������������������������������������������������������������������������������������������������������73 DataFrame Validation ������������������������������������������������������������������������������������������������������������75 DataFrame Inspection �����������������������������������������������������������������������������������������������������������78 Summary�����������������������������������������������������������������������������������������������������������������������������������109 Chapter 4: Indexing and GroupBy �������������������������������������������������������������������������111 Create Index ������������������������������������������������������������������������������������������������������������������������������112 Return Columns by Position ������������������������������������������������������������������������������������������������������114 Return Rows by Position �����������������������������������������������������������������������������������������������������������117 Return Rows and Columns by Label �����������������������������������������������������������������������������������������119 Conditionals �������������������������������������������������������������������������������������������������������������������������123 Updating ������������������������������������������������������������������������������������������������������������������������������126 Return Rows and Columns by Position �������������������������������������������������������������������������������������128 MultiIndexing ����������������������������������������������������������������������������������������������������������������������������131 Basic Subsets with MultiIndexes �����������������������������������������������������������������������������������������137 Advanced Indexing with MultiIndexes ���������������������������������������������������������������������������������141 Cross Sections ���������������������������������������������������������������������������������������������������������������������148 GroupBy ������������������������������������������������������������������������������������������������������������������������������������150 Iteration Over Groups �����������������������������������������������������������������������������������������������������������155 GroupBy Summary Statistics �����������������������������������������������������������������������������������������������159 Filtering by Group ����������������������������������������������������������������������������������������������������������������161 iv Table of ConTenTs Group by Column with Continuous Values ���������������������������������������������������������������������������162 Transform Based on Group Statistic ������������������������������������������������������������������������������������165 Pivot ������������������������������������������������������������������������������������������������������������������������������������������168 Summary�����������������������������������������������������������������������������������������������������������������������������������176 Chapter 5: Data Management �������������������������������������������������������������������������������177 SAS Sort/Merge ������������������������������������������������������������������������������������������������������������������������181 Inner Join ����������������������������������������������������������������������������������������������������������������������������������184 Right Join ����������������������������������������������������������������������������������������������������������������������������������186 Left Join ������������������������������������������������������������������������������������������������������������������������������������189 Outer Join����������������������������������������������������������������������������������������������������������������������������������191 Right Join Unmatched Keys ������������������������������������������������������������������������������������������������������192 Left Join Unmatched Keys ��������������������������������������������������������������������������������������������������������195 Outer Join Unmatched Keys ������������������������������������������������������������������������������������������������������197 Validate Keys �����������������������������������������������������������������������������������������������������������������������������200 Joining on an Index �������������������������������������������������������������������������������������������������������������������201 Join Key Column with an Index �������������������������������������������������������������������������������������������������203 Update ���������������������������������������������������������������������������������������������������������������������������������������205 Conditional Update ��������������������������������������������������������������������������������������������������������������������209 Concatenation ���������������������������������������������������������������������������������������������������������������������������213 Finding Column Min and Max Values ����������������������������������������������������������������������������������������222 Sorting ��������������������������������������������������������������������������������������������������������������������������������������223 Finding Duplicates ��������������������������������������������������������������������������������������������������������������������227 Dropping Duplicates ������������������������������������������������������������������������������������������������������������������228 Sampling �����������������������������������������������������������������������������������������������������������������������������������231 Convert Types ����������������������������������������������������������������������������������������������������������������������������234 Rename Columns ����������������������������������������������������������������������������������������������������������������������235 Map Column Values �������������������������������������������������������������������������������������������������������������������235 Transpose ����������������������������������������������������������������������������������������������������������������������������������237 Summary�����������������������������������������������������������������������������������������������������������������������������������241 v Table of ConTenTs Chapter 6: pandas Readers and Writers ���������������������������������������������������������������243 Reading �csv Files ���������������������������������������������������������������������������������������������������������������������244 Date Handling in �csv Files ��������������������������������������������������������������������������������������������������������250 Read �xls Files ���������������������������������������������������������������������������������������������������������������������������253 Write �csv Files ��������������������������������������������������������������������������������������������������������������������������260 Write �xls Files ���������������������������������������������������������������������������������������������������������������������������262 Read JSON ��������������������������������������������������������������������������������������������������������������������������������264 Write JSON ��������������������������������������������������������������������������������������������������������������������������������268 Read RDBMS Tables ������������������������������������������������������������������������������������������������������������������269 Query RDBMS Tables�����������������������������������������������������������������������������������������������������������������279 Read SAS Datasets �������������������������������������������������������������������������������������������������������������������286 Write RDBMS Tables������������������������������������������������������������������������������������������������������������������289 Summary�����������������������������������������������������������������������������������������������������������������������������������294 Chapter 7: Date and Time �������������������������������������������������������������������������������������295 Date Object �������������������������������������������������������������������������������������������������������������������������������295 Return Today’s Date �������������������������������������������������������������������������������������������������������������296 Date Manipulation ���������������������������������������������������������������������������������������������������������������299 Shifting Dates ����������������������������������������������������������������������������������������������������������������������308 Date Formatting ������������������������������������������������������������������������������������������������������������������������309 Dates to Strings �������������������������������������������������������������������������������������������������������������������313 Strings to Dates �������������������������������������������������������������������������������������������������������������������316 Time Object �������������������������������������������������������������������������������������������������������������������������������318 Time of Day ��������������������������������������������������������������������������������������������������������������������������321 Time Formatting ������������������������������������������������������������������������������������������������������������������323 Times to Strings ������������������������������������������������������������������������������������������������������������������324 Strings to Time ��������������������������������������������������������������������������������������������������������������������326 Datetime Object ������������������������������������������������������������������������������������������������������������������������329 Combining Times and Dates ������������������������������������������������������������������������������������������������332 Returning Datetime Components ����������������������������������������������������������������������������������������334 vi Table of ConTenTs Strings to Datetimes ������������������������������������������������������������������������������������������������������������336 Datetimes to Strings ������������������������������������������������������������������������������������������������������������339 Timedelta Object �����������������������������������������������������������������������������������������������������������������������342 Time zone Object ����������������������������������������������������������������������������������������������������������������������351 Naïve and Aware Datetimes ������������������������������������������������������������������������������������������������352 pytz Library ��������������������������������������������������������������������������������������������������������������������������355 SAS Time zone ���������������������������������������������������������������������������������������������������������������������363 Summary�����������������������������������������������������������������������������������������������������������������������������������372 Chapter 8: SASPy Module �������������������������������������������������������������������������������������373 Install SASPy �����������������������������������������������������������������������������������������������������������������������������373 Set Up the sascfg_personal�py Configuration File ��������������������������������������������������������������������374 Make SAS-Supplied �jar Files Available ������������������������������������������������������������������������������������376 SASPy Examples �����������������������������������������������������������������������������������������������������������������������378 Basic Data Wrangling ����������������������������������������������������������������������������������������������������������������380 Write DataFrame to SAS Dataset ����������������������������������������������������������������������������������������������383 Define the Libref to Python ��������������������������������������������������������������������������������������������������384 Write the DataFrame to a SAS Dataset ��������������������������������������������������������������������������������385 Execute SAS Code ���������������������������������������������������������������������������������������������������������������������391 Write SAS Dataset to DataFrame ����������������������������������������������������������������������������������������������393 Passing SAS Macro Variables to Python Objects ����������������������������������������������������������������������397 Prompting ���������������������������������������������������������������������������������������������������������������������������������400 Scripting SASPy ������������������������������������������������������������������������������������������������������������������������401 Datetime Handling ��������������������������������������������������������������������������������������������������������������������404 Summary�����������������������������������������������������������������������������������������������������������������������������������409 Appendix A: Generating the Tickets DataFrame ���������������������������������������������������411 Appendix B: Many-to-Many Use Case �������������������������������������������������������������������415 Index ���������������������������������������������������������������������������������������������������������������������425 vii About the Authors Randy Betancourt’s professional career has been in and around data analysis. His journey began by managing a technical support group supporting over 2000 technical research analysts and scientists from the US Environmental Protection Agency at one of the largest mainframe complexes run by the federal government. He moved to Duke University, working for the administration, to analyze staff resource utilization and costs. There, he was introduced to the politics of data access as the medical school had most of the data and computer resources. He spent the majority of his career at SAS Institute Inc. in numerous roles, starting in marketing and later moving into field enablement and product management. He subsequently developed the role for Office of the CTO consultant. Randy traveled the globe meeting with IT and business leaders discussing the impact of data analysis to drive their business. And they also discussed challenges they faced. At the same time, he talked to end users, wanting to hear their perspective. Together, these experiences shaped his understanding of trade-offs that businesses make allocating scarce resources to data collection, analysis, and deployment of models. More recently, he has worked as independent consultant for firms including the International Institute for Analytics, Microsoft’s SQL Server Group, and Accenture’s Applied Intelligence Platform. ix abouT The auThors Sarah Chen has 12 years of analytics experience in banking and insurance, including personal auto pricing, compliance, surveillance, and fraud analytics, sales analytics, credit risk modeling for business, and regulatory stress testing. She is a Fellow of both the Casualty Actuarial Society and the Society of Actuaries (FCAS, FSA), an actuary, data scientist, and innovator. Sarah’s career began with five and a half years at Verisk Analytics in the Personal Auto Actuarial division, building predictive models for various ISO products. At Verisk she learned and honed core skills in data analysis and data management. Her skills and domain expertise were broadened when she moved to KPMG, working with leading insurers, banks, and large online platforms on diverse business and risk management problems. From 2014 to present, Sarah has been working at HSBC bank on wholesale credit risk models. She has experiences in PD, LGD, and EAD models in commercial real estate, commercial and industrial banks, and non-bank financial institution portfolios. She has been active in innovations within the organization. Over the years, she has used many analytics tools including R and SAS and Python. Sarah graduated summa cum laude with BA in Mathematics from Columbia University in 2007. She is the founder of Magic Math Mandarin, a school that emphasizes values and tomorrow’s skills for children. x