INTRODUCTION TO MACHINE LEARNING AN EARLY DRAFT OF A PROPOSED TEXTBOOK Nils J(cid:1) Nilsson Robotics Laboratory Department of Computer Science Stanford University Stanford(cid:2) CA (cid:3)(cid:4)(cid:5)(cid:6)(cid:7) e(cid:1)mail(cid:2) nilsson(cid:3)cs(cid:4)stanford(cid:4)edu September (cid:1)(cid:2)(cid:3) (cid:4)(cid:5)(cid:5)(cid:2) Copyright (cid:1)c(cid:1)(cid:2)(cid:2)(cid:3) Nils J(cid:4) Nilsson This materialmaynot be copied(cid:5) reproduced(cid:5) or distributed without the written permission of the copyright holder(cid:4) It is being madeavailableon the world(cid:6)wide web in draft formto students(cid:5) faculty(cid:5)and researchers solely for the purpose of preliminaryevaluation(cid:4) Contents (cid:1) Preliminaries (cid:1) (cid:1)(cid:2)(cid:1) Introduction (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:2)(cid:1)(cid:2)(cid:1) What is Machine Learning(cid:3) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:2)(cid:1)(cid:2)(cid:4) Wellsprings of Machine Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5) (cid:1)(cid:2)(cid:1)(cid:2)(cid:5) Varieties of Machine Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6) (cid:1)(cid:2)(cid:4) Learning Input(cid:7)Output Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8) (cid:1)(cid:2)(cid:4)(cid:2)(cid:1) Types of Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8) (cid:1)(cid:2)(cid:4)(cid:2)(cid:4) Input Vectors (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9) (cid:1)(cid:2)(cid:4)(cid:2)(cid:5) Outputs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10) (cid:1)(cid:2)(cid:4)(cid:2)(cid:11) TrainingRegimes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10) (cid:1)(cid:2)(cid:4)(cid:2)(cid:6) Noise (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:4)(cid:2)(cid:8) Performance Evaluation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:5) Learning Requires Bias(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:11) SampleApplications (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5) (cid:1)(cid:2)(cid:6) Sources (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11) (cid:1)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6) (cid:2) Boolean Functions (cid:1)(cid:3) (cid:4)(cid:2)(cid:1) Representation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13) (cid:4)(cid:2)(cid:1)(cid:2)(cid:1) Boolean Algebra (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13) (cid:4)(cid:2)(cid:1)(cid:2)(cid:4) DiagrammaticRepresentations (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9) (cid:4)(cid:2)(cid:4) Classes of Boolean Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:10) (cid:4)(cid:2)(cid:4)(cid:2)(cid:1) Terms and Clauses (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:10) (cid:4)(cid:2)(cid:4)(cid:2)(cid:4) DNF Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:12) i (cid:4)(cid:2)(cid:4)(cid:2)(cid:5) CNF Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:11) (cid:4)(cid:2)(cid:4)(cid:2)(cid:11) Decision Lists (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:6) (cid:4)(cid:2)(cid:4)(cid:2)(cid:6) Symmetricand Voting Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:8) (cid:4)(cid:2)(cid:4)(cid:2)(cid:8) Linearly Separable Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:8) (cid:4)(cid:2)(cid:5) Summary (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:13) (cid:4)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:9) (cid:4) Using Version Spaces for Learning (cid:2)(cid:5) (cid:5)(cid:2)(cid:1) Version Spaces and Mistake Bounds (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:10) (cid:5)(cid:2)(cid:4) Version Graphs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:1) (cid:5)(cid:2)(cid:5) Learning as Search of a Version Space (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:11) (cid:5)(cid:2)(cid:11) The Candidate EliminationMethod (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:6) (cid:5)(cid:2)(cid:6) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:13) (cid:6) Neural Networks (cid:4)(cid:5) (cid:11)(cid:2)(cid:1) Threshold Logic Units (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:10) (cid:11)(cid:2)(cid:1)(cid:2)(cid:1) De(cid:14)nitions and Geometry (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:10) (cid:11)(cid:2)(cid:1)(cid:2)(cid:4) Special Cases of Linearly Separable Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:1) (cid:11)(cid:2)(cid:1)(cid:2)(cid:5) Error(cid:7)Correction Trainingof a TLU (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:4) (cid:11)(cid:2)(cid:1)(cid:2)(cid:11) WeightSpace (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:6) (cid:11)(cid:2)(cid:1)(cid:2)(cid:6) The Widrow(cid:7)Ho(cid:15) Procedure (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:8) (cid:11)(cid:2)(cid:1)(cid:2)(cid:8) Traininga TLU on Non(cid:7)Linearly(cid:7)Separable Training Sets (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:10) (cid:11)(cid:2)(cid:4) Linear Machines (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:12) (cid:11)(cid:2)(cid:5) Networks of TLUs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:1) (cid:11)(cid:2)(cid:5)(cid:2)(cid:1) Motivationand Examples (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:1) (cid:11)(cid:2)(cid:5)(cid:2)(cid:4) Madalines (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:11) (cid:11)(cid:2)(cid:5)(cid:2)(cid:5) Piecewise Linear Machines(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:8) (cid:11)(cid:2)(cid:5)(cid:2)(cid:11) Cascade Networks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:13) (cid:11)(cid:2)(cid:11) TrainingFeedforward Networks by Backpropagation (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:9) (cid:11)(cid:2)(cid:11)(cid:2)(cid:1) Notation(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:9) (cid:11)(cid:2)(cid:11)(cid:2)(cid:4) The Backpropagation Method (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:12) (cid:11)(cid:2)(cid:11)(cid:2)(cid:5) ComputingWeight Changes in the Final Layer (cid:1) (cid:1) (cid:1) (cid:8)(cid:4) (cid:11)(cid:2)(cid:11)(cid:2)(cid:11) Computing Changes to the Weights in Intermediate Layers (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:11) ii (cid:11)(cid:2)(cid:11)(cid:2)(cid:6) Variationson Backprop (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:8) (cid:11)(cid:2)(cid:11)(cid:2)(cid:8) An Application(cid:16) Steering a Van (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:8) (cid:11)(cid:2)(cid:6) Synergies Between Neural Network and Knowledge(cid:7)Based Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:9) (cid:11)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:9) (cid:7) Statistical Learning (cid:8)(cid:5) (cid:6)(cid:2)(cid:1) Using Statistical Decision Theory (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:10) (cid:6)(cid:2)(cid:1)(cid:2)(cid:1) Background and General Method (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:10) (cid:6)(cid:2)(cid:1)(cid:2)(cid:4) Gaussian (cid:17)or Normal(cid:18)Distributions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:1) (cid:6)(cid:2)(cid:1)(cid:2)(cid:5) ConditionallyIndependent Binary Components (cid:1) (cid:1) (cid:1) (cid:13)(cid:6) (cid:6)(cid:2)(cid:4) Learning Belief Networks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:13) (cid:6)(cid:2)(cid:5) Nearest(cid:7)Neighbor Methods(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:13) (cid:6)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:10) (cid:8) Decision Trees (cid:9)(cid:1) (cid:8)(cid:2)(cid:1) De(cid:14)nitions(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:1) (cid:8)(cid:2)(cid:4) Supervised Learning of Univariate Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:5) (cid:8)(cid:2)(cid:4)(cid:2)(cid:1) Selecting the Type of Test (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:5) (cid:8)(cid:2)(cid:4)(cid:2)(cid:4) Using Uncertainty Reduction to Select Tests (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:11) (cid:8)(cid:2)(cid:4)(cid:2)(cid:5) Non(cid:7)Binary Attributes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:9) (cid:8)(cid:2)(cid:5) Networks Equivalent to Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:9) (cid:8)(cid:2)(cid:11) Over(cid:14)tting and Evaluation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:10) (cid:8)(cid:2)(cid:11)(cid:2)(cid:1) Over(cid:14)tting (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:10) (cid:8)(cid:2)(cid:11)(cid:2)(cid:4) ValidationMethods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:12) (cid:8)(cid:2)(cid:11)(cid:2)(cid:5) AvoidingOver(cid:14)tting in Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:1) (cid:8)(cid:2)(cid:11)(cid:2)(cid:11) Minimum(cid:7)DescriptionLength Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:4) (cid:8)(cid:2)(cid:11)(cid:2)(cid:6) Noise in Data (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:5) (cid:8)(cid:2)(cid:6) The Problem of Replicated Subtrees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:11) (cid:8)(cid:2)(cid:8) The Problem of Missing Attributes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) (cid:8)(cid:2)(cid:13) Comparisons (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) (cid:8)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) iii (cid:3) Inductive Logic Programming (cid:5)(cid:3) (cid:13)(cid:2)(cid:1) Notation and De(cid:14)nitions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:10) (cid:13)(cid:2)(cid:4) A Generic ILP Algorithm (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:12) (cid:13)(cid:2)(cid:5) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:5) (cid:13)(cid:2)(cid:11) Inducing Recursive Programs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:13) (cid:13)(cid:2)(cid:6) Choosing Literals to Add (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:12) (cid:13)(cid:2)(cid:8) Relationships Between ILP and Decision Tree Induction (cid:1) (cid:1) (cid:1)(cid:1)(cid:1) (cid:13)(cid:2)(cid:13) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:11) (cid:9) Computational Learning Theory (cid:1)(cid:1)(cid:3) (cid:9)(cid:2)(cid:1) Notation and Assumptions for PAC Learning Theory (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:13) (cid:9)(cid:2)(cid:4) PAC Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:10) (cid:9)(cid:2)(cid:4)(cid:2)(cid:1) The FundamentalTheorem (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:10) (cid:9)(cid:2)(cid:4)(cid:2)(cid:4) Examples (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:1) (cid:9)(cid:2)(cid:4)(cid:2)(cid:5) SomeProperly PAC(cid:7)Learnable Classes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:4) (cid:9)(cid:2)(cid:5) The Vapnik(cid:7)Chervonenkis Dimension (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:11) (cid:9)(cid:2)(cid:5)(cid:2)(cid:1) Linear Dichotomies(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:11) (cid:9)(cid:2)(cid:5)(cid:2)(cid:4) Capacity (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:8) (cid:9)(cid:2)(cid:5)(cid:2)(cid:5) A More General Capacity Result (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:13) (cid:9)(cid:2)(cid:5)(cid:2)(cid:11) SomeFactsandSpeculationsAbout the VCDimension(cid:1)(cid:4)(cid:10) (cid:9)(cid:2)(cid:11) VC Dimensionand PAC Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:10) (cid:9)(cid:2)(cid:6) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:12) (cid:5) Unsupervised Learning (cid:1)(cid:4)(cid:1) (cid:10)(cid:2)(cid:1) What is Unsupervised Learning(cid:3) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:1) (cid:10)(cid:2)(cid:4) Clustering Methods(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:5) (cid:10)(cid:2)(cid:4)(cid:2)(cid:1) A Method Based on Euclidean Distance (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:5) (cid:10)(cid:2)(cid:4)(cid:2)(cid:4) A Method Based on Probabilities (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:8) (cid:10)(cid:2)(cid:5) Hierarchical Clustering Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:5)(cid:2)(cid:1) A Method Based on Euclidean Distance (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:5)(cid:2)(cid:4) A Method Based on Probabilities (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:5) iv (cid:1)(cid:10) Temporal(cid:11)Di(cid:12)erence Learning (cid:1)(cid:6)(cid:7) (cid:1)(cid:12)(cid:2)(cid:1) TemporalPatterns and Prediction Problems (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:6) (cid:1)(cid:12)(cid:2)(cid:4) Supervised and Temporal(cid:7)Di(cid:15)erence Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:8) (cid:1)(cid:12)(cid:2)(cid:5) Incremental Computationof the (cid:17)(cid:19)W(cid:18)i (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:9) (cid:1)(cid:12)(cid:2)(cid:11) An Experiment with TD Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:12) (cid:1)(cid:12)(cid:2)(cid:6) Theoretical Results (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:4) (cid:1)(cid:12)(cid:2)(cid:8) Intra(cid:7)Sequence Weight Updating (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:5) (cid:1)(cid:12)(cid:2)(cid:13) An ExampleApplication(cid:16) TD(cid:7)gammon(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:6) (cid:1)(cid:12)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:8) (cid:1)(cid:1) Delayed(cid:11)ReinforcementLearning (cid:1)(cid:7)(cid:5) (cid:1)(cid:1)(cid:2)(cid:1) The General Problem (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:10) (cid:1)(cid:1)(cid:2)(cid:4) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:12) (cid:1)(cid:1)(cid:2)(cid:5) TemporalDiscounting and OptimalPolicies (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:1) (cid:1)(cid:1)(cid:2)(cid:11) Q(cid:7)Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:11) (cid:1)(cid:1)(cid:2)(cid:6) Discussion(cid:20) Limitations(cid:20)and Extensions of Q(cid:7)Learning (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:13) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:1) An Illustrative Example (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:13) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:4) Using RandomActions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:10) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:5) Generalizing Over Inputs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:12) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:11) PartiallyObservable States (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:1) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:6) Scaling Problems (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:4) (cid:1)(cid:1)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:5) (cid:1)(cid:2) Explanation(cid:11)Based Learning (cid:1)(cid:3)(cid:7) (cid:1)(cid:4)(cid:2)(cid:1) Deductive Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:6) (cid:1)(cid:4)(cid:2)(cid:4) DomainTheories (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:8) (cid:1)(cid:4)(cid:2)(cid:5) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:9) (cid:1)(cid:4)(cid:2)(cid:11) Evaluable Predicates (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:4) (cid:1)(cid:4)(cid:2)(cid:6) More General Proofs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:8) Utilityof EBL (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:13) Applications(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:13)(cid:2)(cid:1) Macro(cid:7)Operators in Planning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:11) (cid:1)(cid:4)(cid:2)(cid:13)(cid:2)(cid:4) Learning Search Control Knowledge (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:8) (cid:1)(cid:4)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:13) v vi Preface Thesenotesareintheprocess ofbecomingatextbook(cid:2) Theprocess isquite un(cid:14)nished(cid:20) and the author solicits corrections(cid:20) criticisms(cid:20) and suggestions fromstudents and other readers(cid:2) AlthoughI havetried toeliminateerrors(cid:20) some undoubtedly remain(cid:21)caveat lector(cid:2) Many typographical infelicities will no doubt persist until the (cid:14)nal version(cid:2) More material has yet to be added(cid:2) Please let me have your suggestions about topics that are too Someofmy plansfor important to be left out(cid:2) I hope that future versions will cover Hop(cid:14)eld additionsand nets(cid:20) Elmannets and other recurrent nets(cid:20) radialbasisfunctions(cid:20) grammar other remindersare and automata learning(cid:20) genetic algorithms(cid:20) and Bayes networks (cid:1)(cid:1)(cid:1)(cid:2) I am mentionedin alsocollectingexercises andproject suggestions whichwillappearinfuture marginalnotes(cid:1) versions(cid:2) Yes(cid:20) the (cid:14)nal version will have a good index(cid:2) My intention is to pursue a middle ground between a theoretical text(cid:7) book and one that focusses on applications(cid:2) The book concentrates on the important ideas in machine learning(cid:2) I do not give proofs of many of the theorems that I state(cid:20) but I dogive plausibilityarguments andcitations to formalproofs(cid:2) And(cid:20)Idonottreatmanymattersthatwouldbe ofpractical importance in applications(cid:22) the book is not a handbook of machine learn(cid:7) ing practice(cid:2) Instead(cid:20) my goal is to give the reader su(cid:23)cient preparation to makethe extensive literature on machinelearning accessible(cid:2) StudentsinmyStanfordcoursesonmachinelearninghavealreadymade severalusefulsuggestions(cid:20)ashavemycolleague(cid:20)PatLangley(cid:20)andmyteach(cid:7) ing assistants(cid:20) Ron Kohavi(cid:20) Karl P(cid:24)eger(cid:20) Robert Allen(cid:20) and Lise Getoor(cid:2) vii Chapter (cid:1) Preliminaries (cid:1)(cid:2)(cid:1) Introduction (cid:1)(cid:2)(cid:1)(cid:2)(cid:1) What is Machine Learning(cid:3) Learning(cid:1) like intelligence(cid:1) covers such a broad rangeof processesthatit is di(cid:2)culttode(cid:3)neprecisely(cid:4) Adictionaryde(cid:3)nitionincludesphrasessuchas (cid:5)to gain knowledge(cid:1) or understandingof(cid:1) or skill in(cid:1) by study(cid:1) instruction(cid:1) orexperience(cid:1)(cid:6)and(cid:5)modi(cid:3)cationofabehavioraltendencyby experience(cid:4)(cid:6) Zoologists and psychologists study learning in animals and humans(cid:4) In this book we focus on learning in machines(cid:4) There are several parallels between animal and machine learning(cid:4) Certainly(cid:1) many techniques in ma(cid:7) chinelearningderivefromthee(cid:8)ortsofpsychologiststomakemoreprecise their theories of animal and human learning through computationalmod(cid:7) els(cid:4) Itseemslikely alsothattheconceptsandtechniquesbeingexploredby researchersinmachinelearningmayilluminatecertainaspectsofbiological learning(cid:4) Asregardsmachines(cid:1)we mightsay(cid:1) very broadly(cid:1)thatamachinelearns whenever it changes its structure(cid:1) program(cid:1) or data (cid:9)based on its inputs or in responseto external information(cid:10)in such a mannerthat its expected future performanceimproves(cid:4) Some of these changes(cid:1) such as the addition ofarecordtoadatabase(cid:1)fallcomfortablywithintheprovinceofotherdis(cid:7) ciplinesandarenotnecessarilybetterunderstoodforbeingcalledlearning(cid:4) But(cid:1) for example(cid:1) when the performance of a speech(cid:7)recognition machine improves after hearing several samples of a person(cid:11)s speech(cid:1) we feel quite justi(cid:3)ed in thatcase to say that the machine has learned(cid:4) (cid:12) (cid:13) CHAPTER(cid:1)(cid:2) PRELIMINARIES Machine learning usually refersto the changes in systemsthatperform tasks associatedwith arti(cid:1)cial intelligence (cid:2)AI(cid:3)(cid:4) Such tasks involve recog(cid:7) nition(cid:1) diagnosis(cid:1) planning(cid:1) robot control(cid:1) prediction(cid:1) etc(cid:4) The (cid:5)changes(cid:6) might be either enhancements to already performing systems or ab initio synthesis of new systems(cid:4) To be slightly more speci(cid:3)c(cid:1) we show the archi(cid:7) tectureofatypicalAI(cid:5)agent(cid:6)inFig(cid:4) (cid:12)(cid:4)(cid:12)(cid:4) Thisagentperceivesandmodels itsenvironmentandcomputesappropriateactions(cid:1)perhapsbyanticipating their e(cid:8)ects(cid:4) Changes made to any of the componentsshown in the (cid:3)gure mightcountaslearning(cid:4) Di(cid:8)erentlearningmechanismsmightbeemployed depending on which subsystem is being changed(cid:4) We will study several di(cid:8)erent learning methodsin this book(cid:4) Sensory signals Goals Perception Model Planning and Reasoning Action Computation Actions Figure (cid:12)(cid:4)(cid:12)(cid:14) An AI System One might ask (cid:5)Why should machines have to learn(cid:15) Why not design machinestoperformasdesiredinthe(cid:3)rstplace(cid:15)(cid:6) Thereareseveralreasons why machinelearning is important(cid:4) Of course(cid:1) we have already mentioned thattheachievementoflearninginmachinesmighthelpusunderstandhow animalsandhumanslearn(cid:4) But thereareimportantengineeringreasonsas well(cid:4) Someof these are(cid:14) Introduction to Machine Learning (cid:1)c(cid:1)(cid:2)(cid:2)(cid:3) Nils J(cid:4) Nilsson(cid:4) All rights reserved(cid:4)