ebook img

Introduction to machine learning PDF

208 Pages·1996·1.329 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Introduction to machine learning

INTRODUCTION TO MACHINE LEARNING AN EARLY DRAFT OF A PROPOSED TEXTBOOK Nils J(cid:1) Nilsson Robotics Laboratory Department of Computer Science Stanford University Stanford(cid:2) CA (cid:3)(cid:4)(cid:5)(cid:6)(cid:7) e(cid:1)mail(cid:2) nilsson(cid:3)cs(cid:4)stanford(cid:4)edu September (cid:1)(cid:2)(cid:3) (cid:4)(cid:5)(cid:5)(cid:2) Copyright (cid:1)c(cid:1)(cid:2)(cid:2)(cid:3) Nils J(cid:4) Nilsson This materialmaynot be copied(cid:5) reproduced(cid:5) or distributed without the written permission of the copyright holder(cid:4) It is being madeavailableon the world(cid:6)wide web in draft formto students(cid:5) faculty(cid:5)and researchers solely for the purpose of preliminaryevaluation(cid:4) Contents (cid:1) Preliminaries (cid:1) (cid:1)(cid:2)(cid:1) Introduction (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:2)(cid:1)(cid:2)(cid:1) What is Machine Learning(cid:3) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:2)(cid:1)(cid:2)(cid:4) Wellsprings of Machine Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5) (cid:1)(cid:2)(cid:1)(cid:2)(cid:5) Varieties of Machine Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6) (cid:1)(cid:2)(cid:4) Learning Input(cid:7)Output Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8) (cid:1)(cid:2)(cid:4)(cid:2)(cid:1) Types of Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8) (cid:1)(cid:2)(cid:4)(cid:2)(cid:4) Input Vectors (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9) (cid:1)(cid:2)(cid:4)(cid:2)(cid:5) Outputs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10) (cid:1)(cid:2)(cid:4)(cid:2)(cid:11) TrainingRegimes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10) (cid:1)(cid:2)(cid:4)(cid:2)(cid:6) Noise (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:4)(cid:2)(cid:8) Performance Evaluation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:5) Learning Requires Bias(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12) (cid:1)(cid:2)(cid:11) SampleApplications (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5) (cid:1)(cid:2)(cid:6) Sources (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11) (cid:1)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6) (cid:2) Boolean Functions (cid:1)(cid:3) (cid:4)(cid:2)(cid:1) Representation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13) (cid:4)(cid:2)(cid:1)(cid:2)(cid:1) Boolean Algebra (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13) (cid:4)(cid:2)(cid:1)(cid:2)(cid:4) DiagrammaticRepresentations (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9) (cid:4)(cid:2)(cid:4) Classes of Boolean Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:10) (cid:4)(cid:2)(cid:4)(cid:2)(cid:1) Terms and Clauses (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:10) (cid:4)(cid:2)(cid:4)(cid:2)(cid:4) DNF Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:12) i (cid:4)(cid:2)(cid:4)(cid:2)(cid:5) CNF Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:11) (cid:4)(cid:2)(cid:4)(cid:2)(cid:11) Decision Lists (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:6) (cid:4)(cid:2)(cid:4)(cid:2)(cid:6) Symmetricand Voting Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:8) (cid:4)(cid:2)(cid:4)(cid:2)(cid:8) Linearly Separable Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:8) (cid:4)(cid:2)(cid:5) Summary (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:13) (cid:4)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:9) (cid:4) Using Version Spaces for Learning (cid:2)(cid:5) (cid:5)(cid:2)(cid:1) Version Spaces and Mistake Bounds (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:4)(cid:10) (cid:5)(cid:2)(cid:4) Version Graphs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:1) (cid:5)(cid:2)(cid:5) Learning as Search of a Version Space (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:11) (cid:5)(cid:2)(cid:11) The Candidate EliminationMethod (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:6) (cid:5)(cid:2)(cid:6) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:13) (cid:6) Neural Networks (cid:4)(cid:5) (cid:11)(cid:2)(cid:1) Threshold Logic Units (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:10) (cid:11)(cid:2)(cid:1)(cid:2)(cid:1) De(cid:14)nitions and Geometry (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:5)(cid:10) (cid:11)(cid:2)(cid:1)(cid:2)(cid:4) Special Cases of Linearly Separable Functions (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:1) (cid:11)(cid:2)(cid:1)(cid:2)(cid:5) Error(cid:7)Correction Trainingof a TLU (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:4) (cid:11)(cid:2)(cid:1)(cid:2)(cid:11) WeightSpace (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:6) (cid:11)(cid:2)(cid:1)(cid:2)(cid:6) The Widrow(cid:7)Ho(cid:15) Procedure (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:8) (cid:11)(cid:2)(cid:1)(cid:2)(cid:8) Traininga TLU on Non(cid:7)Linearly(cid:7)Separable Training Sets (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:11)(cid:10) (cid:11)(cid:2)(cid:4) Linear Machines (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:12) (cid:11)(cid:2)(cid:5) Networks of TLUs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:1) (cid:11)(cid:2)(cid:5)(cid:2)(cid:1) Motivationand Examples (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:1) (cid:11)(cid:2)(cid:5)(cid:2)(cid:4) Madalines (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:11) (cid:11)(cid:2)(cid:5)(cid:2)(cid:5) Piecewise Linear Machines(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:8) (cid:11)(cid:2)(cid:5)(cid:2)(cid:11) Cascade Networks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:13) (cid:11)(cid:2)(cid:11) TrainingFeedforward Networks by Backpropagation (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:9) (cid:11)(cid:2)(cid:11)(cid:2)(cid:1) Notation(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:6)(cid:9) (cid:11)(cid:2)(cid:11)(cid:2)(cid:4) The Backpropagation Method (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:12) (cid:11)(cid:2)(cid:11)(cid:2)(cid:5) ComputingWeight Changes in the Final Layer (cid:1) (cid:1) (cid:1) (cid:8)(cid:4) (cid:11)(cid:2)(cid:11)(cid:2)(cid:11) Computing Changes to the Weights in Intermediate Layers (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:11) ii (cid:11)(cid:2)(cid:11)(cid:2)(cid:6) Variationson Backprop (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:8) (cid:11)(cid:2)(cid:11)(cid:2)(cid:8) An Application(cid:16) Steering a Van (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:8) (cid:11)(cid:2)(cid:6) Synergies Between Neural Network and Knowledge(cid:7)Based Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:9) (cid:11)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:9) (cid:7) Statistical Learning (cid:8)(cid:5) (cid:6)(cid:2)(cid:1) Using Statistical Decision Theory (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:10) (cid:6)(cid:2)(cid:1)(cid:2)(cid:1) Background and General Method (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:8)(cid:10) (cid:6)(cid:2)(cid:1)(cid:2)(cid:4) Gaussian (cid:17)or Normal(cid:18)Distributions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:1) (cid:6)(cid:2)(cid:1)(cid:2)(cid:5) ConditionallyIndependent Binary Components (cid:1) (cid:1) (cid:1) (cid:13)(cid:6) (cid:6)(cid:2)(cid:4) Learning Belief Networks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:13) (cid:6)(cid:2)(cid:5) Nearest(cid:7)Neighbor Methods(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:13) (cid:6)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:13)(cid:10) (cid:8) Decision Trees (cid:9)(cid:1) (cid:8)(cid:2)(cid:1) De(cid:14)nitions(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:1) (cid:8)(cid:2)(cid:4) Supervised Learning of Univariate Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:5) (cid:8)(cid:2)(cid:4)(cid:2)(cid:1) Selecting the Type of Test (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:5) (cid:8)(cid:2)(cid:4)(cid:2)(cid:4) Using Uncertainty Reduction to Select Tests (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:11) (cid:8)(cid:2)(cid:4)(cid:2)(cid:5) Non(cid:7)Binary Attributes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:9) (cid:8)(cid:2)(cid:5) Networks Equivalent to Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:9) (cid:8)(cid:2)(cid:11) Over(cid:14)tting and Evaluation (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:10) (cid:8)(cid:2)(cid:11)(cid:2)(cid:1) Over(cid:14)tting (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:9)(cid:10) (cid:8)(cid:2)(cid:11)(cid:2)(cid:4) ValidationMethods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:12) (cid:8)(cid:2)(cid:11)(cid:2)(cid:5) AvoidingOver(cid:14)tting in Decision Trees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:1) (cid:8)(cid:2)(cid:11)(cid:2)(cid:11) Minimum(cid:7)DescriptionLength Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:4) (cid:8)(cid:2)(cid:11)(cid:2)(cid:6) Noise in Data (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:5) (cid:8)(cid:2)(cid:6) The Problem of Replicated Subtrees (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:11) (cid:8)(cid:2)(cid:8) The Problem of Missing Attributes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) (cid:8)(cid:2)(cid:13) Comparisons (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) (cid:8)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:8) iii (cid:3) Inductive Logic Programming (cid:5)(cid:3) (cid:13)(cid:2)(cid:1) Notation and De(cid:14)nitions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:10)(cid:10) (cid:13)(cid:2)(cid:4) A Generic ILP Algorithm (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:12) (cid:13)(cid:2)(cid:5) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:5) (cid:13)(cid:2)(cid:11) Inducing Recursive Programs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:12)(cid:13) (cid:13)(cid:2)(cid:6) Choosing Literals to Add (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:12) (cid:13)(cid:2)(cid:8) Relationships Between ILP and Decision Tree Induction (cid:1) (cid:1) (cid:1)(cid:1)(cid:1) (cid:13)(cid:2)(cid:13) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:11) (cid:9) Computational Learning Theory (cid:1)(cid:1)(cid:3) (cid:9)(cid:2)(cid:1) Notation and Assumptions for PAC Learning Theory (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:13) (cid:9)(cid:2)(cid:4) PAC Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:10) (cid:9)(cid:2)(cid:4)(cid:2)(cid:1) The FundamentalTheorem (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:1)(cid:10) (cid:9)(cid:2)(cid:4)(cid:2)(cid:4) Examples (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:1) (cid:9)(cid:2)(cid:4)(cid:2)(cid:5) SomeProperly PAC(cid:7)Learnable Classes (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:4) (cid:9)(cid:2)(cid:5) The Vapnik(cid:7)Chervonenkis Dimension (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:11) (cid:9)(cid:2)(cid:5)(cid:2)(cid:1) Linear Dichotomies(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:11) (cid:9)(cid:2)(cid:5)(cid:2)(cid:4) Capacity (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:8) (cid:9)(cid:2)(cid:5)(cid:2)(cid:5) A More General Capacity Result (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:13) (cid:9)(cid:2)(cid:5)(cid:2)(cid:11) SomeFactsandSpeculationsAbout the VCDimension(cid:1)(cid:4)(cid:10) (cid:9)(cid:2)(cid:11) VC Dimensionand PAC Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:4)(cid:10) (cid:9)(cid:2)(cid:6) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:12) (cid:5) Unsupervised Learning (cid:1)(cid:4)(cid:1) (cid:10)(cid:2)(cid:1) What is Unsupervised Learning(cid:3) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:1) (cid:10)(cid:2)(cid:4) Clustering Methods(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:5) (cid:10)(cid:2)(cid:4)(cid:2)(cid:1) A Method Based on Euclidean Distance (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:5) (cid:10)(cid:2)(cid:4)(cid:2)(cid:4) A Method Based on Probabilities (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:8) (cid:10)(cid:2)(cid:5) Hierarchical Clustering Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:5)(cid:2)(cid:1) A Method Based on Euclidean Distance (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:5)(cid:2)(cid:4) A Method Based on Probabilities (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:5)(cid:9) (cid:10)(cid:2)(cid:11) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:5) iv (cid:1)(cid:10) Temporal(cid:11)Di(cid:12)erence Learning (cid:1)(cid:6)(cid:7) (cid:1)(cid:12)(cid:2)(cid:1) TemporalPatterns and Prediction Problems (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:6) (cid:1)(cid:12)(cid:2)(cid:4) Supervised and Temporal(cid:7)Di(cid:15)erence Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:8) (cid:1)(cid:12)(cid:2)(cid:5) Incremental Computationof the (cid:17)(cid:19)W(cid:18)i (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:11)(cid:9) (cid:1)(cid:12)(cid:2)(cid:11) An Experiment with TD Methods (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:12) (cid:1)(cid:12)(cid:2)(cid:6) Theoretical Results (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:4) (cid:1)(cid:12)(cid:2)(cid:8) Intra(cid:7)Sequence Weight Updating (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:5) (cid:1)(cid:12)(cid:2)(cid:13) An ExampleApplication(cid:16) TD(cid:7)gammon(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:6) (cid:1)(cid:12)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:8) (cid:1)(cid:1) Delayed(cid:11)ReinforcementLearning (cid:1)(cid:7)(cid:5) (cid:1)(cid:1)(cid:2)(cid:1) The General Problem (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:6)(cid:10) (cid:1)(cid:1)(cid:2)(cid:4) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:12) (cid:1)(cid:1)(cid:2)(cid:5) TemporalDiscounting and OptimalPolicies (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:1) (cid:1)(cid:1)(cid:2)(cid:11) Q(cid:7)Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:11) (cid:1)(cid:1)(cid:2)(cid:6) Discussion(cid:20) Limitations(cid:20)and Extensions of Q(cid:7)Learning (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:13) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:1) An Illustrative Example (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:13) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:4) Using RandomActions (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:8)(cid:10) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:5) Generalizing Over Inputs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:12) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:11) PartiallyObservable States (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:1) (cid:1)(cid:1)(cid:2)(cid:6)(cid:2)(cid:6) Scaling Problems (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:4) (cid:1)(cid:1)(cid:2)(cid:8) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:5) (cid:1)(cid:2) Explanation(cid:11)Based Learning (cid:1)(cid:3)(cid:7) (cid:1)(cid:4)(cid:2)(cid:1) Deductive Learning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:6) (cid:1)(cid:4)(cid:2)(cid:4) DomainTheories (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:8) (cid:1)(cid:4)(cid:2)(cid:5) An Example(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:13)(cid:9) (cid:1)(cid:4)(cid:2)(cid:11) Evaluable Predicates (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:4) (cid:1)(cid:4)(cid:2)(cid:6) More General Proofs (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:8) Utilityof EBL (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:13) Applications(cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:5) (cid:1)(cid:4)(cid:2)(cid:13)(cid:2)(cid:1) Macro(cid:7)Operators in Planning (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:11) (cid:1)(cid:4)(cid:2)(cid:13)(cid:2)(cid:4) Learning Search Control Knowledge (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:8) (cid:1)(cid:4)(cid:2)(cid:9) Bibliographicaland Historical Remarks (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1) (cid:1)(cid:9)(cid:13) v vi Preface Thesenotesareintheprocess ofbecomingatextbook(cid:2) Theprocess isquite un(cid:14)nished(cid:20) and the author solicits corrections(cid:20) criticisms(cid:20) and suggestions fromstudents and other readers(cid:2) AlthoughI havetried toeliminateerrors(cid:20) some undoubtedly remain(cid:21)caveat lector(cid:2) Many typographical infelicities will no doubt persist until the (cid:14)nal version(cid:2) More material has yet to be added(cid:2) Please let me have your suggestions about topics that are too Someofmy plansfor important to be left out(cid:2) I hope that future versions will cover Hop(cid:14)eld additionsand nets(cid:20) Elmannets and other recurrent nets(cid:20) radialbasisfunctions(cid:20) grammar other remindersare and automata learning(cid:20) genetic algorithms(cid:20) and Bayes networks (cid:1)(cid:1)(cid:1)(cid:2) I am mentionedin alsocollectingexercises andproject suggestions whichwillappearinfuture marginalnotes(cid:1) versions(cid:2) Yes(cid:20) the (cid:14)nal version will have a good index(cid:2) My intention is to pursue a middle ground between a theoretical text(cid:7) book and one that focusses on applications(cid:2) The book concentrates on the important ideas in machine learning(cid:2) I do not give proofs of many of the theorems that I state(cid:20) but I dogive plausibilityarguments andcitations to formalproofs(cid:2) And(cid:20)Idonottreatmanymattersthatwouldbe ofpractical importance in applications(cid:22) the book is not a handbook of machine learn(cid:7) ing practice(cid:2) Instead(cid:20) my goal is to give the reader su(cid:23)cient preparation to makethe extensive literature on machinelearning accessible(cid:2) StudentsinmyStanfordcoursesonmachinelearninghavealreadymade severalusefulsuggestions(cid:20)ashavemycolleague(cid:20)PatLangley(cid:20)andmyteach(cid:7) ing assistants(cid:20) Ron Kohavi(cid:20) Karl P(cid:24)eger(cid:20) Robert Allen(cid:20) and Lise Getoor(cid:2) vii Chapter (cid:1) Preliminaries (cid:1)(cid:2)(cid:1) Introduction (cid:1)(cid:2)(cid:1)(cid:2)(cid:1) What is Machine Learning(cid:3) Learning(cid:1) like intelligence(cid:1) covers such a broad rangeof processesthatit is di(cid:2)culttode(cid:3)neprecisely(cid:4) Adictionaryde(cid:3)nitionincludesphrasessuchas (cid:5)to gain knowledge(cid:1) or understandingof(cid:1) or skill in(cid:1) by study(cid:1) instruction(cid:1) orexperience(cid:1)(cid:6)and(cid:5)modi(cid:3)cationofabehavioraltendencyby experience(cid:4)(cid:6) Zoologists and psychologists study learning in animals and humans(cid:4) In this book we focus on learning in machines(cid:4) There are several parallels between animal and machine learning(cid:4) Certainly(cid:1) many techniques in ma(cid:7) chinelearningderivefromthee(cid:8)ortsofpsychologiststomakemoreprecise their theories of animal and human learning through computationalmod(cid:7) els(cid:4) Itseemslikely alsothattheconceptsandtechniquesbeingexploredby researchersinmachinelearningmayilluminatecertainaspectsofbiological learning(cid:4) Asregardsmachines(cid:1)we mightsay(cid:1) very broadly(cid:1)thatamachinelearns whenever it changes its structure(cid:1) program(cid:1) or data (cid:9)based on its inputs or in responseto external information(cid:10)in such a mannerthat its expected future performanceimproves(cid:4) Some of these changes(cid:1) such as the addition ofarecordtoadatabase(cid:1)fallcomfortablywithintheprovinceofotherdis(cid:7) ciplinesandarenotnecessarilybetterunderstoodforbeingcalledlearning(cid:4) But(cid:1) for example(cid:1) when the performance of a speech(cid:7)recognition machine improves after hearing several samples of a person(cid:11)s speech(cid:1) we feel quite justi(cid:3)ed in thatcase to say that the machine has learned(cid:4) (cid:12) (cid:13) CHAPTER(cid:1)(cid:2) PRELIMINARIES Machine learning usually refersto the changes in systemsthatperform tasks associatedwith arti(cid:1)cial intelligence (cid:2)AI(cid:3)(cid:4) Such tasks involve recog(cid:7) nition(cid:1) diagnosis(cid:1) planning(cid:1) robot control(cid:1) prediction(cid:1) etc(cid:4) The (cid:5)changes(cid:6) might be either enhancements to already performing systems or ab initio synthesis of new systems(cid:4) To be slightly more speci(cid:3)c(cid:1) we show the archi(cid:7) tectureofatypicalAI(cid:5)agent(cid:6)inFig(cid:4) (cid:12)(cid:4)(cid:12)(cid:4) Thisagentperceivesandmodels itsenvironmentandcomputesappropriateactions(cid:1)perhapsbyanticipating their e(cid:8)ects(cid:4) Changes made to any of the componentsshown in the (cid:3)gure mightcountaslearning(cid:4) Di(cid:8)erentlearningmechanismsmightbeemployed depending on which subsystem is being changed(cid:4) We will study several di(cid:8)erent learning methodsin this book(cid:4) Sensory signals Goals Perception Model Planning and Reasoning Action Computation Actions Figure (cid:12)(cid:4)(cid:12)(cid:14) An AI System One might ask (cid:5)Why should machines have to learn(cid:15) Why not design machinestoperformasdesiredinthe(cid:3)rstplace(cid:15)(cid:6) Thereareseveralreasons why machinelearning is important(cid:4) Of course(cid:1) we have already mentioned thattheachievementoflearninginmachinesmighthelpusunderstandhow animalsandhumanslearn(cid:4) But thereareimportantengineeringreasonsas well(cid:4) Someof these are(cid:14) Introduction to Machine Learning (cid:1)c(cid:1)(cid:2)(cid:2)(cid:3) Nils J(cid:4) Nilsson(cid:4) All rights reserved(cid:4)

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.