Analyse discriminante, classification supervisée, scoring… Gilbert Saporta Conservatoire National des Arts et Métiers [email protected] http://cedric.cnam.fr/~saporta Version du 8/11/2009 1 Bibliographie (cid:132) Bardos: « Analyse discriminante », Dunod, 2001 (cid:132) Hastie, Tibshirani, Friedman : « The Elements of Statistical Learning », 2nd edition, Springer-Verlag, 2009 http://www- stat.stanford.edu/~hastie/Papers/ESLII.pdf (cid:132) Nakache, Confais: « Statistique explicative appliquée », Technip, 2003 (cid:132) Thiria et al. :« Statistique et méthodes neuronales » Dunod, 1997 (cid:132) Thomas, Edelman,Crook: « Credit scoring and its applications », SIAM, 2002 (cid:132) Tufféry: « Data Mining et statistique décisionnelle »,Technip, 2007 (cid:132) Tufféry: «Étude de cas en statistique décisionnelle »,Technip, 2009 (cid:132) Vapnik : « Statistical Learning Theory », Wiley 1998 2 Plan (cid:132) I L’analyse factorielle discriminante (cid:132) II Discrimination sur variables qualitatives : le scoring. (cid:132) III Analyse discriminante probabiliste (cid:132) IV Régression logistique (cid:132) V SVM (cid:132) VI Validation (cid:132) VII Choix de modèles et théorie de l’apprentissage statistique (cid:132) VIII Arbres de décision 3 Objet d’étude (cid:132) Observations multidimensionnelles réparties en k groupes définis a priori. (cid:132) Autre terminologie: classification supervisée (cid:132) Exemples d’application : (cid:132) Pronostic des infarctus (J.P. Nakache) • 2 groupes : décès, survie (variables médicales) (cid:132) Iris de Fisher : • 3 espèces : 4 variables (longueur et largeur des pétales et sépales) (cid:132) Risque des demandeurs de crédit • 2 groupes : bons, mauvais (variables qualitatives) (cid:132) Autres : • Météo, publipostage, reclassement dans une typologie. 4 Quelques dates : (cid:132) P.C. Mahalanobis 1927 (cid:132) H. Hotelling 1931 (cid:132) R. A. Fisher 1936 (cid:132) J.Berkson 1944 (cid:132) C.R.Rao 1950 (cid:132) T.W.Anderson 1951 (cid:132) D.Mc Fadden 1973 (cid:132) V.Vapnik 1998 5 Objectifs Y variable à expliquer qualitative à k catégories X , X , … , X variables explicatives 1 2 p (cid:132) Objectif 1 : Décrire (cid:132) Étude de la distribution des X / Y i (cid:132) Géométrie : Analyse factorielle discriminante AFD (cid:132) Tests : Analyse de variance multidimensionnelle MANOVA (cid:132) Objectif 2 : Classer (cid:132) Étude de P(Y/ X , X , … , X ) 1 2 p (cid:132) Modélisation fonctionnelle : Approche bayésienne (cid:132) Modélisation logique : Arbre de décision (cid:132) Méthodes géométriques. 6 ère 1 partie : L’analyse factorielle discriminante 1. Réduction de dimension, axes et variables discriminantes. 2. Cas de 2 groupes. 3. Méthodes géométriques de classement. 7 Représentation des données (cid:132) 2 cas : • prédicteurs numériques • prédicteurs qualitatifs ... 1 2 k 1 2 j p 0 1 ... 0 X1 X 2 X j X p 1 1 1 1 1 1 0 ... 0 2 ... 0 0 ... 1 X1 X 2 X j X p i i i i i 1 0 ... 0 X1 X 2 X j X p n n n n n indicatrices des groupes variables explicatives (cid:132) n points dans Rp appartenant à k groupes. 8 I.1 Réduction de dimension. Recherche d’axes et de variables discriminantes. (cid:132) Dispersion intergroupe W = matrice variance intra et dispersion intra (cid:132) W = 1/n Σn V i i groupe. V 1 V B = matrice variance inter 2 g (cid:132) B = 1/n Σn (g - g) (g - g)’ 1 g 2 i i i g k V = W + B variance totale V k 9 Axes discriminants : deux objectifs (cid:132) Dispersion intraclasse minimale : u’Wu min u (cid:132) Dispersion interclasse maximale : u’Bu max g k g 1 g 10 2
Description: