ebook img

Le cours de ALAIN BACCINI & PHILIPPE BESSE PDF

142 Pages·2004·6.59 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Le cours de ALAIN BACCINI & PHILIPPE BESSE

PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITE´S Data mining 1. Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Versionseptembre2004—misesa` jour:www.lsp.ups-tlse.fr/Besse LaboratoiredeStatistiqueetProbabilite´s—UMRCNRSC5583 Universite´ PaulSabatier—31062–Toulousecedex4. 2 Avant-propos Motivations du data mining Lede´veloppementdesmoyensinformatiquesdestockage(basesdedonne´es)etdecalculper- met le traitement et l’analyse d’ensembles de donne´es tre`s volumineux. Plus re´cemment, le per- fectionnementdesinterfacesoffrentauxutilisateurs,statisticiensounon,despossibilite´sdemise enœuvretre`ssimplesdesoutilslogiciels.Cettee´volution,ainsiquelapopularisationdenouvelles me´thodes algorithmiques (re´seaux de neurones) et outils graphiques, conduit au de´veloppement et a` la commercialisation de logiciels inte´grant un sous-ensemble de me´thodes statistiques et al- gorithmiques sous la terminologie de Data Mining : la prospection ou fouille de donne´es. Cette approche, issue du marketing spe´cialise´ dans la gestion de la relation client (GRC) (client rela- tionmanagementouCRM)trouvee´galementdesde´veloppementsetapplicationsindustriellesen controˆle de qualite´ ou meˆme dans certaines disciplines scientifiques de`s lors que les inge´nieurs et chercheurs sont confronte´s a` un volume de donne´es important. Besse et col. (2001) pre´sente uneintroductionde´taille´edecettede´marcheetdesrelationsqu’elleentretienaveclesdisciplines traditionnellesStatistiqueetInformatique.L’accrochepublicitairesouventcite´eparlese´diteursde logiciels(SAS)est: Commenttrouverundiamantdansuntasdecharbonsanssesalirlesmains. Nousproposonsd’e´valueretd’expe´rimenterlare´alite´ decetteannoncequis’adressea` unmarche´ enpleineexpansion.Lesentreprisessonteneffettre`smotive´espourtirerpartietamortir,parune aide a` la de´cision quantifie´e, les couˆts de stockage des teras octets que leur service informatique s’emploiea` administrer. Le contexte informationnel de la fouille de donne´es est celui des data wharehouses. Un en- trepoˆtdedonne´es,dontlamiseenplaceestassure´ parungestionnairededonne´es(datamanager) est un ensemble de bases relationnelles extraites des donne´es brutes de l’entreprise et relatives a` uneproble´matique: • gestiondesstocks(fluxtendu),desventesd’ungroupeafindepre´voiretanticiperaumieux lestendancesdumarche´, • suivi des fichiers clients d’une banque, d’une assurance, associe´s a` des donne´es socio- e´conomiques (INSEE), a` l’annuaire, en vue de la constitution d’une segmentation (typo- logie) pour cibler des ope´rations de marketing ou des attributions de cre´dit. La gestion de la relation client vise a` une individualisation ou personnalisation de la production et de la communicationafind’e´vacuerlanotiondeclientmoyen. • recherche, spe´cification puis ciblage de niches de marche´ les plus profitables (banque) ou aucontrairelesplusrisque´es(assurance); • suivienlignedesparame`tresdeproduction(trac¸abilite´)encontroˆledequalite´ pourde´tecter auplusvitel’origined’unede´faillance; • prospectiontextuelle(textmining)etveilletechnologique; 3 4 • webminingetcomportementdesinternautes; • ... Cetenvironnementsecaracte´risepar • une informatique he´te´roge`ne faisant intervenir des sites distants (Unix, Dos, NT, VM...) a` travers le re´seau de l’entreprise (intranet) ou meˆme des acce`s exte´rieurs (internet). Des contraintesd’efficacite´,defiabilite´oudese´curite´conduisenta`re´partir,stockerl’information a` lasourceplutoˆtqu’a` ladupliquersyste´matiquementoua` lacentraliser. • L’incompatibilite´logiquedesinformationsobserve´essurdese´chantillonsdiffe´rentsnepre´sentant paslesmeˆmesstrates,lesmeˆmescodifications. • Des volumes et flux conside´rables de donne´es issues de saisies automatise´es et chiffre´s en te´ra-octets. • La ne´cessite´ de ne pas exclure a priori un traitement exhaustif des donne´es afin de ne pas laissere´chapper,a` traverslecribled’unsondage,desgroupesdefaibleseffectifsmaisa` fort impacte´conomique. Strate´gie du data mining Dans tout ce qui suit, nous disposons d’un ensemble d’observations. Les caracte´ristiques ou variablesX = (X1,...,Xp)ditesexplicativesonte´te´ observe´essurunensembledenobjets,in- dividusouunite´sstatistiques.Unpremiertravail,souventfastidieuxmaisincontournable,consiste a` meneruneexplorationstatistiquedecesdonne´es:alluredesdistributions,pre´sencededonne´es atypiques, corre´lations et cohe´rence, transformations e´ventuelles des donne´es, description multi- dimensionnelle, classification. C’est l’objet de la premie`re partie de ce document. La deuxie`me partie de´crit les outils de mode´lisation statistique ou encore d’apprentissage utilisables pour la pre´dictiond’unevariablecibleY parlesvariablesexplicativesXj. L’enchaˆınement de ces e´tapes (exploration puis apprentissage) constitue le fondement de la fouillededonne´es. Pour comprendre la structure et bien appre´hender le contenu de ce cours, il est important d’inte´grer rapidement ce qu’est la strate´gie a` mettre en œuvre pour aboutir au bon apprentissage ouencoreaubonmode`lepre´dictifrecherche´ a` partirdesdonne´esobserve´es. Attention, il faut bien noter que, contrairement a` une de´marche statistique traditionnelle dans laquellel’observationdesdonne´esestinte´gre´ea` lame´thodologie(plannificationdel’expe´rience), les donne´es sont ici pre´alables a` l’analyse. Ne´anmoins il est clair que les pre´occupations lie´es a` leuranalyseeta` sonobjectifdoiventintervenirleplusenamontpossiblepours’assurerquelques chancesdesucce`s. Lese´tapesdelafouillededonne´es: i. Extraction des donne´es avec ou sans e´chantillonnage faisant re´fe´rence a` des techniques de sondageapplique´esouapplicablesa` desbasesdedonne´es. ii. Exploration des donne´es pour la de´tection de valeurs aberrantes ou seulement atypiques, d’incohe´rences, pour l’e´tude des distributions des structures de corre´lation, recherche de typologies,pourdestransformationsdesdonne´es... iii. Partitionale´atoiredel’e´chantillon(apprentissage,validation,test)enfonctiondesatailleet des techniques qui seront utilise´es pour estimer une erreur de pre´diction en vue des choix demode`le,choixetcertificationdeme´thode. iv. Pour chacune des me´thodes conside´re´es : mode`le line´aire ge´ne´ral (gaussien, binomial ou poissonien), discrimination parame´trique (line´aire ou quadratique) ou non parame´trique, 5 k plus proches voisins, arbre, re´seau de neurones (perceptron), support vecteur machine, combinaisondemode`les(bagging,boosting). • estimerlemode`lepourunevaleurdonne´ed’unparame`tredecomplexite´ :nombredeva- riables,devoisins,defeuilles,deneurones,dure´edel’apprentissage,largeurdefeneˆtre... ; • optimiserceparame`tre(saufpourlescombinaisonsdemode`lesaffranchiesdesproble`mes desur-apprentissage)enfonctiondelatechniqued’estimationdel’erreurretenue:e´chantillon devalidation,validationcroise´e,approximationparpe´nalisationdel’erreurd’ajustement. v. Comparaisondesmode`lesoptimauxobtenus(unparme´thode)parestimationdel’erreurde pre´vision sur l’e´chantillon test ou, si la pre´sence d’un e´chantillon test est impossible, sur le crite`re de pe´nalisation de l’erreur (Akaˆıke par exemple) s’il en existe une version pour chacunedesme´thodesconside´re´es. vi. Ite´ration e´ventuelle de la de´marche pre´ce´dente (valisation croise´e), si l’e´chantillon test est tropre´duit,depuis(iii).Partitionsale´atoiressuccessivesdel’e´chantillonpourmoyennersur plusieurs cas l’estimation finale de l’erreur de pre´diction et s’assurer de la robustesse du mode`leobtenu. vii. Choix de la me´thode retenue en fonction de ses capacite´s de pre´diction, de sa robustesse maisaussi,e´ventuellement,del’interpre´tabillite´ dumode`leobtenu. Objectif L’objetde cecoursestd’introduire, sousuneformehomoge`neet synthe´tique,les principales techniquesd’exploration,demode´lisationouencored’apprentissageutilise´eslepluscouramment en fouille de donne´es et cite´es dans la section pre´ce´dente. Il a fallu faire des choix dans l’en- semble des techniques propose´es et leurs nombreux avatars. La forme et le contenu sont guide´s parlesbesoinsexprime´slorsdesstagesre´alise´esparlese´tudiantsduMasterdeStatistique&Eco- nome´trie ou encore par les the`mes des collaborations industrielles du laboratoire de Statistique et Probabilite´s1. Le lecteur peut se faire une ide´e du nombre tre`s important de me´thodes et va- riantesconcerne´esparl’apprentissagesupervise´eounonsupervise´ enconsultantuneboˆıtea` outil Mathlab de classification2. Remarquons que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab...) ou gratuits (R), performants et s’imposant par des interfaces tre`s conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement a` la diffusion, voire la pe´ne´tration, de me´thodes tre`s sophistique´es dans des milieux imperme´ables a` une conceptualisa- tionmathe´matiquetropabstraite. Le choix a e´te´ fait de conserver et expliciter, dans la mesure du possible, les concepts origi- naux de chaque me´thode dans son cadre disciplinaire tout en taˆchant d’homoge´ne´iser notations etterminologies.L’objectifprincipalestdefaciliterlacompre´hensionetl’interpre´tationdestech- niquesdesprincipauxlogicielspourenfaciliteruneutilisationpertinenteetre´fle´chie.Unexemple e´le´mentairederecherched’unscored’appe´tanceissudumarketingbancaireillustrelesdiffe´rents points aborde´s. Traite´ avec les logiciels SAS, Splus ou R, il sert de “fil rouge” tout au long du cours. 1http://www.lsp.ups-tlse.fr 2http://tiger.technion.ac.il/eladyt/classification/ 6 Chapitre 1 Introduction 1 Objectif Toutee´tudesophistique´ed’uncorpusdedonne´esdoiteˆtrepre´ce´de´ed’unee´tudeexploratoirea` l’aide d’outils, certes rudimentaires mais robustes, en privile´giant les repre´sentations graphiques. C’est la seule fac¸on de se familiariser avec des donne´es et surtout de de´pister les sources de proble`mes: • valeursmanquantes,errone´esouatypiques, • modalite´stroprares, • distributions“anormales”(dissyme´trie,multimodalite´,e´paisseurdesqueues), • incohe´rences,liaisonsnonline´aires. • ... C’est ensuite la recherche de pre´traitements des donne´es afin de les rendre conformes aux tech- niquesdemode´lisationoud’apprentissagequ’ilserane´cessairedemettreenœuvreafind’atteindre lesobjectifsfixe´s: • transformation:logarithme,puissance,re´duction,rangs...desvariables, • codageenclasseourecodagedeclasses, • imputationsounondesdonne´esmanquantes, • lissage,de´compositions(ondelettes,fourier)decourbes, • re´ductiondedimension,classificationetpremierchoixdevariables, • classificationoutypologiedesobservations. Attention,lecoˆte´ rudimentairevoiretrivialdecesoutilsnedoitpasconduirea` lesne´gligeraupro- fitd’unemiseenœuvreimme´diatedeme´thodesbeaucoupplussophistique´es,doncbeaucoupplus sensibles aux proble`mes cite´s ci-dessus. S’ils ne sont pas pris en compte, ils re´apparaˆıtront alors commeautantd’artefactssusceptiblesdede´naturervoiredefaussertoutetentativedemode´lisation. 2 Contenu Cette partie se propose tout d’abord d’introduire brie`vement les techniques permettant de re´sumerlescaracte´ristiques(tendancecentrale,dispersion,boˆıtea` moustaches,histogramme,esti- mationnonparame´trique)d’unevariablestatistiqueoulesrelationsentrevariablesdemeˆmetype quantitatif(coefficientdecorre´lation,nuagedepoints,ouqualitatif(χ2,Cramer,Tchuprow)oude types diffe´rents (rapport de corre´lation, diagrammes en boˆıtes paralle`les). Les notions pre´sente´es sontillustre´essurunjeudedonne´estypiqued’unscored’appe´tanceenmarketingbancaire. 7 8 Chapitre1. Introduction Apre`scetteapprocheunietbidimensionnelle,lestechniquesmultidimensionnelles1sontde´crites et illustre´es. Elles diffe`rent selon le type des variables conside´re´es mais permettent toutes de re´duire la dimension afin de re´sumer un tableau (n×p) de grande dimension et re´ve´ler ses ca- racte´ristiques.L’analyseencomposantesprincipales(ACP)pourlesvariablesquantitatives,l’ana- lyse des correspondances simples ou multiples (AFCM) pour les variables qualitatives. L’ana- lyse factorielle discriminante (AFD) permet de juger de la qualite´ de discrimination d’un en- semble de variables quantitatives afin d’expliquer une typologie de´crite par une variable quali- tative. Lorsqu’une typologie est recherche´e, les me´thodes de classification (hie´rarchiques ou par re´allocation dynamique) de´terminent une variable qualitative de´finissant une partition de l’en- sembledesdonne´es.D’autrestechniquessontplusspe´cifiques,lepositionnementmultidimension- nelouACPsurtableaudedistancesestadapte´ a` desdonne´esparticulie`resmaispermete´galement de structurer un ensemble de variables trop important. Enfin, ce document se termine par une in- troduction a` l’e´tude exploratoire de donne´es fonctionnelles illustre´es par des exemples de se´ries climatiques. 1Ellesconstituentunensemblecommune´mentappele´enFrance“AnalysedeDonne´es”. Chapitre 2 Description statistique e´le´mentaire 1 Exemple de donne´es Unmeˆmeensemblededonne´esbancaires1vaservira`illustrerlaplupartdesoutilsetme´thodes de´critsdanscedocument.Envoiciledescriptifsommaire. Le service marketing d’une banque dispose de fichiers de´crivant ses clients et leurs compor- tements (mouvements, soldes des diffe´rents comptes). Deux types d’e´tudes sont habituellement re´alise´essurdesdonne´esbancairesoumeˆmeplusge´ne´ralementdansletertiaireafindepersonna- liserlesrelationsaveclesclients. i. uneclassificationousegmentationdelacliente`lepermettantdede´terminerquelquesclasses ousegmentsdecomportementstypes. ii. l’estimation d’un score en vue d’un objectif particulier. Il s’agit ici de pre´voir l’inte´reˆt ou l’appe´tenced’unclientpourleproduitbancairecarteVisaPremier.C’estunecartedepaie- menthautdegammequicherchea` renforcerleliendeproximite´ aveclabanqueenvuede fide´liserunecliente`leaise´e. Lalistedesvariablesestissued’unebasededonne´esretrac¸antl’historiquemensuelbancaireet lescaracte´ristiquesdetouslesclients.Unsondageae´te´ re´alise´ afind’alle´gerlestraitementsainsi qu’une premie`re se´lection de variables. Les variables contenues dans le fichier sont explicite´es dansletableau2.1.Ellessontobserve´essurune´chantillonde1425clients. 2 Introduction l’objectifdesoutilsdeStatistiquedescriptivee´le´mentaireestdefournirdesre´sume´ssynthe´tique dese´riesdevaleurs,adapte´sa` leurtype(qualitativesouquantitatives),etobserve´essurunepopu- lationouune´chantillon. Dans le cas d’une seule variable, Les notions les plus classiques sont celles de me´diane, quantile, moyenne, fre´quence, variance, e´cart-type de´finies paralle`lement a` des repre´sentations graphiques : diagramme en baˆton, histogramme, diagramme-boˆıte, graphiques cumulatifs, dia- grammesencolonnes,enbarreouensecteurs. Danslecasdedeuxvariables,ons’inte´ressea` lacorre´lation,aurapportdecorre´lationouen- corea` lastatistiqued’untestduχ2 associe´ a` unetabledecontingence.Cesnotionssontassocie´es a` diffe´rentsgraphiquescommelenuagedepoints(scatterplot),lesdiagrammes-boˆıtesparalle`les, lesdiagrammesdeprofilsouencoreenmosa¨ıque. 1Mercia`SophieSarpydeInformatiqueBanquePopulairea`Balmapourlamisea`dispositiondecesdonne´es. 9 10 Chapitre2. Descriptionstatistiquee´le´mentaire TAB.2.1–Libelle´sdesvariablesdesdonne´esbancaires. Identif. Libelle´ matric Matricule(identifiantclient) depts De´partementdere´sidence pvs Pointdevente sexec Sexe(qualitatif) ager Ageenanne´es famil Situationfamiliale (Fmar:marie´,Fcel:ce´libataire,Fdiv:divorce´, Fuli:unionlibre,Fsep:se´pare´decorps,Fveu:veuf) relat Anciennete´derelationenmois prcsp Cate´goriesocio-professionnelle(codenum) quals Code“qualite´”cliente´value´parlabanque GxxGxxS plusieursvariablescaracte´risantlesinterdits bancaires impnbs Nombred’impaye´sencours rejets Montanttotaldesrejetsenfrancs opgnb Nombred’ope´rationsparguichetdanslemois moyrv Moyennedesmouvementsnetscre´diteurs des3moisenKf tavep Totaldesavoirse´pargnemone´taireenfrancs endet Tauxd’endettement gaget Totaldesengagementsenfrancs gagec Totaldesengagementscourttermeenfrancs gagem Totaldesengagementsmoyentermeenfrancs kvunb Nombredecomptesa`vue qsmoy Moyennedessoldesmoyenssur3mois qcred Moyennedesmouvementscre´diteursenKf dmvtp Ageduderniermouvement(enjours) boppn Nombred’ope´rationsa`M-1 facan Montantfacture´dansl’anne´eenfrancs lgagt Engagementlongterme vienb Nombredeproduitscontratsvie viemt Montantdesproduitscontratsvieenfrancs uemnb Nombredeproduitse´pargnemone´taire uemmts Montantdesproduitsd’e´pargnemone´taireenfrancs xlgnb Nombredeproduitsd’e´pargnelogement xlgmt Montantdesproduitsd’e´pargnelogementenfrancs ylvnb Nombredecomptessurlivret ylvmt Montantdescomptessurlivretenfrancs nbelts Nombredeproduitsd’e´pargnelongterme mtelts Montantdesproduitsd’e´pargnelongtermeenfrancs nbcats Nombredeproduitse´pargnea`terme mtcats Montantdesproduitse´pargnea`terme nbbecs Nombredeproduitsbonsetcertificats mtbecs Montantdesproduitsbonsetcertificatsenfrancs rocnb Nombredepaiementsparcartebancairea`M-1 jntca Nombretotaldecartes nptag Nombredecartespointargent segv2s Segmentationversion2 itavc Totaldesavoirssurtouslescomptes havef Totaldesavoirse´pargnefinancie`reenfrancs dnbjd1s Nombredejoursa`de´bita`M dnbjd2s Nombredejoursa`de´bita`M-1 dnbjd3s Nombredejoursa`de´bita`M-2 carvp PossessiondelacarteVISAPremier

Description:
gorithmiques sous la terminologie de Data Mining : la prospection ou fouille de données. prospection textuelle (text mining) et veille technologique ;.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.