Table Of Content

Concepts et algorithmes Préface de Jean·Paul Haton Ul (1) 0 ' > w 0 ..--! 0 N EYROLLES � Dans la même collection ------------------------------- D YF S et al. -Apprentissage statistique et réseaux de neurones. G. RE U Méthodologie et applications. N°l2229, 3e édition 2008, 464 pages avec CD-Rom. P.N AïM, P.-HW.u 1LLEMtN, P.L ERAYO,. Pou1rnAn., B ECKER-.R éseaux bayésiens. N°11972, 3e édition, 2007, 424 pages (collection Algorithmes). F RY, P. ME et A. Simulation événements discrets. G. LEU LACOM TANGUY. - à Modèles déterministes et stochastiques -Exemples d'applications implémentés en De/phi et en C++. N°11924, 2006, 444 pages avec CD-Rom. et al. -La commande prédictive. J. R.icHALET Mise en oeuvre et applications industrielles. N°1 l553, 2004, 256 pages. P. LACOMME, C. PR1Ns, M. SEVAUX Algorithmes de graphes. N°1 l385, 2003, 368 pages, avec CD-Rom. DRÉOA,. PÉTROWSKPt.S, 1A RRY, E. TAILLARD -Métaheuristiques pour l'optimisation difficile. J. Recuit simulé, recherche tabou, algorithmes évolutionna.ires et algorithmes génétiques, colonies de foumzis ... N°1 1368, 2003, 368 pages. COLLETTE, P.S 1ARRY -Optimisation multiobjectif. Y. N°1 1168, 2002, 316 pages. C. GUÉRET, C. PR1Ns, M. -Programmation linéaire. SEVAUX. problèmes d'optimisation modélisés et résolus avec Visual XP ress. 65 N°9202, 2000, 365 pages, avec CD-ROM. Autres ouvrages ---------------------------------- I. H I avec la contribution d E. DREYFUS. -Mémento UN1x/Linux uRBAN, ' N°l 1954, 2006, 14 pages. JACQun-.M émento LaTeX C. N°l2244, 2007, 14 pages. VlQ) R. RJMELÉ. -Mémento MySQL. 0 N°l2720, 2e édition 2010, 14 pages. L.>. R. M. et al. -Richard Stallman et la révolution du logiciel libre. Une biographie autorisée. w STALLMAN 0 N°l2609, 2010, 344 pages. ,..-! 0N S. BORDAGE, D. THÉVENON, L. DuJ>AQUIER, F. BROUSSE. -Conduite de projet Web. N°1 2665, 5e édition, 2010, 432 pages. @ � ..c S. JABER-.P rogrammation GWT Développer des applications Ajax avec le Google Web Toolkit. Ol 2. ï:::: N°12569, 2010, 484 pages > a. 0 u Apprentissaie artificiel Antoine Cornuéjols - Laurent Miclet Vl QJ 0 1.... > w 0 ,..-t 0 N @ ...... ..c Ol ·= >- Q. 0 u EYROLLES ÉDITIONS EYROLLES 61, bd Saint-Germain 75240 Paris Cedex 05 www.editions-eyrolles.com Remerciements à Eric Bemauer pour la relecture de cet ouvrage. Vl Q) 0 L.>. w 0 T"-f 0 Le code de la prop1iété intellectuelle du 1er juillet 1992 interdit en effet expressément la N @) photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique s'est @ généralisée notamment dans les établissements d'enseignement, provoquant une baisse � ..c brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des Ol LE ï:::: œuvres nouvelles et de les faire éditer correctement est aujourd'hui menacée. > PHOTOCOPILLAGE a. TUE LEL IVRE En application de la loi du l 1 mars 1957, il est interdit de reproduire intégralement ou 0 u partiellement le présent ouvrage, sur quelque support que ce soit, sans autorisation de l'éditeur ou du Centre Français d'Exploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris. ©Groupe Eyrolles, 2002, 2010, ISBN: 978-2-212-12471-2 Préface à la deuxième édition Apprendre. Apprendre par l'exemple, par l'environnement, par la lecture, par le professeur, par cœur ... L'apprentissage est multiforme et c'est une caractéristique de l'intelligence. On comprend la remarque, très opportunément mise en exergue par les auteurs, d 'Alan Turing, un des pionniers de l'intelligence artificielle. Prétendre doter une machine de cette faculté propre à l'être humain, ou à tout le moins à l'animal supérieur, pouvait paraître une gageure à l'époque où cette remarque a été énoncée. Ce n'est plus le cas aujourd'hui et le vaste champ de l'apprentissage par une machine est un domaine de recherche en pleine expansion et dans lequel il y a encore beaucoup à faire! L'apprentissage occupe une place privilégiée au sein de l'intelligence artificielle, et plus généra lement de l'informatique. Cette place ne cessera de croître. Les succès des programmes incluant un certain niveau d'apprentissage automatique ou semi-automatique sont déjà nombreux. Il suffit de songer à la reconnaissance de la parole, la vision par ordinateur, le rejet de pourriels, la détec tion de transactions frauduleuses, le diagnostic, les jeux, la prédiction et la prévision, la fouille de données, etc. Les progrès spectaculaires enregistrés sont dûs pour une bonne part aux efforts des chercheurs qui sont parvenus à une meilleure compréhension des processus d'apprentissage, qu'ils soient implantés sur une machine ou qu'ils existent dans le cortex d'un animal. Le moment est donc opportun de faire le point sur les connaissances acquises et les appli cations. La décision de proposer une profonde révision de la première édition de l'ouvrage de A. Cornuéjols et L. Miclet arrive ainsi à point nommé. Ces deux auteurs, aux compétences com plémentaires, sont particulièrement bien indiqués pour couvrir le vaste champ pluridisciplinaire de l'apprentissage. La première édition, de très grande qualité, a connu un succès considérable et justifié, auprès d'un public varié : étudiants, enseignants-chercheurs, ingénieurs. Elle est devenue un ouvrage de référence pour la communauté francophone proposant la somme la plus complète d'idées, de concepts, d'algorithmes et d'applications sur le sujet. Le même fil directeur original a été conservé pour cette seconde édition. L'accroissement des \/') connaissances se traduit directement dans le nombre de pages et l'on ne peut que se féliciter qu'il Q) existe encore en France des éditeurs acceptant de faire paraître un ouvrage scientifique original e de plus de 800 pages ... > w 0 Je ne doute pas du succès de cette édition dont je recommande chaudement la lecture à toute .-1 0 personne désirant faire le point sur l'apprentissage, un des plus grands défis lancé à la recherche N @ en intelligence artificielle . .c..µ 0) ·;:: >- Jean-Paul Haton 0.. 0 Nancy, 28 mars 2010 u \/') Q) e > w 0 ..-1 0 N @ .µ .c. 0) ·;:: >- 0.. 0 u iii The idea of a learning machine rnay appear paradoxical to some readers. 1950. A. M. Turing, à Isabelle, Claire, Aurélie, Sébastien, Fanny et à M aura, Fabien, Marion Présentation de la deuxième édition La première édition de cet ouvrage, parue en septembre 2002, a reçu un très bon accueil, mon trant l'intérêt d'un livre couvrant largement les aspects de l'apprentissage artificiel. Par ailleurs son organisation raisonnée autour de trois grandes parties : l'apprentissage par exploration, par optimisation, et par approximation et interpolation, l'uniformité des notations et un directeur . fil tenu de bout en bout ont visiblement séduit à côté de l'offre des ouvrages existant en langue anglaise. Au des années, nous avons reçu de nombreux courriels témoignant à la fois de la variété du fil public intéressé : étudiants, enseignant-chercheurs du domaine, spécialistes de domaines connexes, et grand public, et de l'étendue géographique des publics touchés : la zone francophone bien sûr, y compris le Canada et les pays du Maghreb, mais aussi des pays d'Europe centrale. Plus rapidement qu'attendu, les presque 2000 exemplaires de la première édition ont été épui sés. La question s'est alors posée du choix entre une simple ré-impression ou bien une mise à jour conduisant à une deuxième édition. L'expérience de la première édition aurait du nous rendre prudents, mais la mémoire huma.ine étant volatile et étant donnée la vitalité du domaine de l'apprentissage artificiel, il nous a paru pertinent de choisir la deuxième voie. Petit à petit cepen dant, nous avons réalisé que non seulement les techniques et les résultats avaient progressé, mais \f) Q) que, plus largement, de nouvelles questions et de nouvelles approches étaient apparues depuis e 2002. Il devenait difficile de se contenter de simplement adapter la première édition, de nou > w veaux chapitres étaient nécessaires. Par ailleurs, une ré-organisation de certaines parties était 0 également souhaitable pour tenir compte de nouvelles perspectives ou de l'accent porté à des ap ..-1 0 proches classiques mais remises au goût du jour, comme les méthodes linéaires. D'un ravalement N @ de façade, nous sommes insensiblement passés à un chantier comprenant une ré-organisation des .µ .c. espaces et des cloisons et à l'élaboration d'extensions significatives. Comme pour tout chantier, 0) ·;:: les délais prévus ont été largement dépassés, puis dépassés encore, et à certains moments, notre >- 0.. 0 éditeur pourtant conciliant, et nos familles pourtant très compréhensives, ont pu croire que la u fiction de Dino Buzzati, Le désert des tartares », se réalisait. Ce n'est donc finalement qu'en « 2010 qu'apparaît cette deuxième édition. Le directeur allant de l'exposition des fondements conceptuels et méthodologiques, puis pro fil gressant depuis des apprentissages très guidés par l'existence d'une relation de généralité dans l'espace des hypothèses à des apprentissages s'appuyant sur des espaces de plus en plus démunis lV de structure a été maintenu. Nous avons cependant ajouté une partie inédite sur de nouvelles questions et de nouveaux types d'apprentissage qui dépassent les cadres classiques des appren tissages supervisés, non supervisés et par renforcement. Ainsi, par exemple, les apprentissages 'ordonnancement, les apprentissages semi-supervisés, actifs, à partir de flux de données et en cl ligne, font lobjet de sections ou de chapitres nouveaux. ' Par ailleurs, le développement considérable des méthodes à base de fonctions noyau nous a conduit à dédier tout un chapitre aux méthodes linéaires classiques, et un grand chapitre aux méthodes à noyaux. De même, les méthodes d'ensemble, boosting, bagging, etc. font maintenant l'objet d'un chapitre à part entière. Finalement, tous les chapitres ont été mis à jour pour tenir compte des progrès réalisés. De nombreuses figures ont été refaites pour les rendre plus lisibles, et beaucoup d'autres ont été ajoutées. La typographie a évolué afin de mieux mettre en évidence les définitions, les théorèmes et les formules principales. L'index a été entièrement revu et largement augmenté afin de faciliter l'accès direct aux concepts. Au bout du compte, et malgré notre souci de rester concis, le nombre de pages est passé en huit ans de 630 à 830. Cela reflète la vitalité du domaine et l'accroissement des idées, concepts et méthodes utiles à connaître. Nous espérons que cette deuxième édition séduira un public aussi large que pour la première édition. Bienvenue cla.ns le nouvel édifice. Nous vous souhaitons une visite agréable, une ins tallation heureuse et l'envie d'apporter de nouvelles idées, d'ouvrir de nouvelles fenêtres, et de dessiner de nouveaux horizons. Antoine et CORNUÉJOLS Laurent MICLET Paris, Lannion, France Le 27 Mars 2010 Nous tenons à remercier particulièrement les personnes suivantes pour leur aide, leurs com mentaires, leurs encouragements, et en général pour leurs contributions à la réalisation de cet \f) ouvrage. Notre gratitude va aussi aux lecteurs critiques des versions préliminaires, ce qui inclut Q) e notablement une certaine proportion de nos étudiants. Merci à vous et aussi à ceux que nous > avons pu oublier ici mais qui sont importants pour nous. w 0 ..-1 Abclel Belaïd, Sami Bengio, Younes Bennani, Christophe Bernard, Marc Bernard, Olivier Boëf 0 N fard, Cédric Buche, Michel Cartier, Christophe Choisy, Delphine Cosandier, François Coste, @ .µ François Denis, Gérard Douaire, Pierre Dupont, Béatrice Duval, Lou Fedon, Daniel Fredouille, .c. 0) ·;:: Mirta Gordon, Colin de la Higuera, Ghazal Jaber, Yves Kodratoff, Israël-César Lerman, Gaëlle >- 0.. Loosli, Christine Martin Tristan Mary-huard, Stan Matwin, Maurice Milgram, Engelbert Me 0 , u phu Nguifo, Tom Mitchell, Jacques Nicolas, La.urent Orsea.u, Yann Prudent, Arpacl Rimmel, . Céline Rouveirol, Michèle Sebag, Dominique Snyers, Franck Thollard, Fabien Torre, Stéphane Vandenmersch et Jean-Daniel Zucker. Merci aussi à notre éditrice, Muriel Sha.n-Sei-Fan, et à Sophie Hincelin pour une relecture complète du manuscrit. Heureusement qu'il existe encore des éditeurs de cette qualité. V Préface L'apprentissage artificiel s'intéresse à l'écriture de programmes d'ordinateur capables de s'amé liorer automatiquement au du temps, soit sur la base de leur propre expérience, soit à partir de fil données antérieures fournies par d'autres programmes. Dans le domaine scientifique relativement jeune de l'informa.tique, l'apprentissage artificiel joue un rôle de plus en plus essentiel. Au début de son existence, dans les années 1950, l'informatique se résumait principalement à program mer des machines en leur spécifiant ligne après ligne la séquence d'instructions que l'ordinateur aurait à suivre. Autour des années 1990, les logiciels étaient devenus si complexes qu'une alter native s'imposait naturellement : développer des techniques pour que les programmes puissent s'entraîner sur des exemples. Le résultat est qu'il existe aujourd'hui de nombreux doma.ines d'ap plication de l'informa.tique dans lesquels les méthodes de l'apprentissage artificiel sont employées pour entraîner les logiciels. Mieux, le code résultant dépasse de beaucoup en performance les réalisations les plus abouties de programmation manuelle ligne après ligne C'est ainsi que « ». tous les meilleurs logiciels commercialisés de reconnaissance de la parole sont fondés sur l'entraî nement de leurs programmes à la reconnaissance des différents sons et mots. La plupart d'entre eux permettent même à l'utilisateur d'accoutumer le système aux caractéristiques de sa voix. D'autres exemples existent dans des domaines tels que la vision par ordinateur, le traitement automatique du texte et la commande de robot. L'apprentissage artificiel peut clone déjà revendiquer des succès dans un grand nombre de do maines d'application. Il en est ainsi de logiciels de fouille de données utilisés à grande échelle pour découvrir la prescription la plus efficace pour un patient, à partir de l'analyse de fichiers médicaux antérieurs. D'autres applications vont de la prédiction de la demande en énergie, étant connu l'historique des consommations antérieures, à l'apprentissage de la reconnaissance de transactions frauduleuses par carte de crédit, par examen des transactions passées avérées frauduleuses. Alors que nous passons des cinquante premières années de l'informatique aux cinquante prochaines années, il semble évident que le rôle de l'apprentissage artificiel ne cessera de croître au centre de cette science. Pourquoi cette progression? La réponse fondamentale est que nous possédons désormais la compréhension de plusieurs principes calculatoires qui guident tout processus cl 'apprentissage, qu'il soit implémenté sur une machine ou sur un humain. La discipline de l'apprentissage ar tificiel possède désormais de riches fondements théoriques : on commence à savoir répondre à des questions comme Combien au mimimum d'exemples d'entraînement faut-il fournir à : « un programme d'apprentissage pour être certain qu'il apprenne avec une efficacité donnée? \/') » Q) et Quelles méthodes d'apprentissage sont les plus efficaces pour tel ou tel t.ype de problème? « » e Ces fondements proviennent de la théorie statistique de l'estimation, de la t.héorie de l'ident.ifi > cation et de la commande optimale, de travaux pionniers sur la complexité de l'apprentissage de w 0 grammaires ou plus récents sur l'inférence bayésienne algorithmique . ..-1 0 Cet ouvrage fournit au lecteur francophone l'introduction la plus complète à ce jour à l'ap N @ prentissage artificiel. Il traite de la. théorie et des a.pplica.tions de cette discipline sous un grand .µ .c. nombre d'aspects, en couvrant des sujets comme les méthodes d'apprentissage bayésien, l'infé 0) ·;:: rence grammaticale ou l'apprentissage par renforcement. C'est avec plaisir que je recommande au >- 0.. lecteur de découvrir ce livre, et à travers lui les idées et les méthodes de l'apprentissage artificiel. 0 u Tom M. NI1TCHELL Pittsburgh, Pennsylvania, USA Le 29 Mai 2002 \/') Q) e > w 0 ..-1 0 N @ .µ .c. 0) ·;:: >- 0.. 0 u