Méthodes combinatoires de reconstruction de réseaux phylogénétiques Philippe Gambette To cite this version: Philippe Gambette. Méthodes combinatoires de reconstruction de réseaux phylogénétiques. Informa- tique [cs]. Université Montpellier II - Sciences et Techniques du Languedoc, 2010. Français. NNT: 2010MON20214. tel-00608342 HAL Id: tel-00608342 https://theses.hal.science/tel-00608342 Submitted on 12 Jul 2011 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ACADÉMIE DE MONTPELLIER U N I V E R S I T É M O N T P E L L I E R II SciencesetTechniquesduLanguedoc T HÈSE présentéeauLaboratoired’InformatiquedeRobotique etdeMicroélectroniquedeMontpellierpour obtenirlediplômededoctorat Spécialité : Informatique FormationDoctorale : Informatique ÉcoleDoctorale : Information,Structures,Systèmes Méthodes combinatoires de reconstruction de réseaux phylogénétiques CombinatorialMethodsforPhylogeneticNetworkReconstruction par Philippe GAMBETTE Soutenuele30novembre2010,devantlejurycomposéde: Directeurdethèse M.ChristophePAUL,DirecteurdeRecherche.........................................CNRS,LIRMM Co-Directeurdethèse M.VincentBERRY,Professeur......................................UniversitéMontpellier2,LIRMM Rapporteurs M.GuillaumeFERTIN,Professeur........................................UniversitédeNantes,LINA M.VincentMOULTON,Professeur.......................................... UniversityofEastAnglia Présidentedujury MmeViolainePRINCE,Professeur.................................UniversitéMontpellier2,LIRMM Examinateurs M.AlainGUÉNOCHE,DirecteurdeRecherche.............................................CNRS,IML M.EricTANNIER,ChargédeRecherche................................................. INRIA,LBBE Table des matières Tabledesmatières i Remerciements 1 Préambule 3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Lesarbresphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Lesréseauxphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Plandelathèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Publicationsissuesdecettethèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 I Approchecombinatoiredesréseauxphylogénétiques 13 1 Arbresetréseauxcommeobjetscombinatoires 15 1.1 Premièresdéfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.1 Réseauxetgraphesorientés . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.2 Arbresphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 Propriétéscombinatoiresdesarbres . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.1 Unerichessemathématique . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2 Décompositionsensous-ensemblesdefeuilles . . . . . . . . . . . . . 18 1.3 Propriétéscombinatoiresdesréseaux . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.1 Réseauxabstraitsetexplicites . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.2 Réseauxetsous-ensemblesdefeuilles . . . . . . . . . . . . . . . . . . 24 1.3.3 Multifurcationsetmultiréticulations . . . . . . . . . . . . . . . . . . . 30 1.4 Restrictionssurlesmodèlesderéseaux . . . . . . . . . . . . . . . . . . . . . . 33 1.4.1 Restrictionssurlesensemblesdecladesetdebipartitions . . . . . . . 33 1.4.2 Réseauxàunecouchederéticulation . . . . . . . . . . . . . . . . . . . 36 1.4.3 Réseauxdeniveauk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.4.4 Réseauxnonenracinésdeniveauk . . . . . . . . . . . . . . . . . . . . 49 1.4.5 Autresrestrictionsderéseauxphylogénétiquesexplicites . . . . . . . 53 1.5 Classificationdesrestrictionssurlesréseauxphylogénétiques . . . . . . . . . 53 1.5.1 Hiérarchiesfaibles,pyramidesetniveau1 . . . . . . . . . . . . . . . . 54 1.5.2 Ensemblescirculairesdebipartitionsetniveau1 . . . . . . . . . . . . 56 i ii TABLEDESMATIÈRES 1.5.3 Diagrammesrécapitulatifsdesinclusionsdesous-classes . . . . . . . 58 2 Algorithmescombinatoiresdereconstruction 61 2.1 Méthodesetalgorithmesexistants . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.1.1 Panoramadesdiversesméthodes . . . . . . . . . . . . . . . . . . . . . 61 2.1.2 Reconstructionàpartirdetriplets . . . . . . . . . . . . . . . . . . . . . 66 2.2 Reconstructionàpartirdequadruplets . . . . . . . . . . . . . . . . . . . . . . 69 2.2.1 Extractiondesquadrupletsd’unréseau . . . . . . . . . . . . . . . . . . 69 2.2.2 Difficultédelareconstructiondanslecasgénéral . . . . . . . . . . . . 70 2.2.3 Structurearboréedepuisunensembledensedequadruplets . . . . . 73 2.2.4 Reconstructiondansdescasrestreints . . . . . . . . . . . . . . . . . . 77 2.3 Reconstructionàpartirdeclades . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2.3.1 Testdecompatibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2.3.2 Décompositiondesréseauxphylogénétiques . . . . . . . . . . . . . . 87 2.3.3 Recherched’unensemblemaximumdetaxonscompatibles . . . . . 90 2.3.4 Ajoutdesréticulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 II Utilisationpratiquedesméthodescombinatoires 101 3 Limitesdesméthodescombinatoires 105 3.1 Bruitetsilencedanslesdonnées . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.1.1 Bruitetcorrectionsd’erreurssurlestriplets . . . . . . . . . . . . . . . 105 3.1.2 Silenceetinférencedesdonnéesmanquantes . . . . . . . . . . . . . . 114 3.2 Explosiondecomplexitéenfonctionduniveau . . . . . . . . . . . . . . . . . . 115 3.2.1 Bornessurlenombredegénérateurs . . . . . . . . . . . . . . . . . . . 116 3.2.2 Algorithmedeconstructiondesgénérateursdeniveauk. . . . . . . . 118 3.2.3 Niveauélevéderéseauxsimulés . . . . . . . . . . . . . . . . . . . . . . 120 3.3 Fiabilitédesréseauxobtenusparlesméthodescombinatoires . . . . . . . . . 121 3.3.1 Encodagedesréseauxsimplesdeniveau1 . . . . . . . . . . . . . . . . 122 3.3.2 Encodagedesréseauxdeniveau1 . . . . . . . . . . . . . . . . . . . . . 123 3.3.3 Encodagedesréseauxdeniveau2etplus . . . . . . . . . . . . . . . . . 126 4 Lesméthodescombinatoiressurdesdonnéesréelles 129 4.1 Sélectionetprétraitementdesdonnées . . . . . . . . . . . . . . . . . . . . . . 129 4.1.1 Possibilitésdetypesdedonnéesenentrée . . . . . . . . . . . . . . . . 129 4.1.2 Choixdelaméthodedereconstruction . . . . . . . . . . . . . . . . . . 130 4.1.3 Problèmedechoixdesgènesetdesespècesdansunphylome . . . . 132 4.1.4 Interfacedesélectionsemi-automatiqued’arbresetd’espèces . . . . 136 4.2 Exemplessurdesdonnéesréelles . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.2.1 Outilsutilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 TABLEDESMATIÈRES iii 4.2.2 UtilisationsurlesdonnéesHOGENOM . . . . . . . . . . . . . . . . . . 140 Conclusionetperspectives 151 Problèmesouverts 151 Perspectivessurlesméthodescombinatoiresenphylogénieréticulée 153 Annexes 157 Bibliographie 157 Glossairefrançais-anglais 175 Index 177 Tabledesfigures 182 Listedestableaux 184 Publicationsenmargedusujetdethèse 185 Algorithmiquedesgraphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Traitementautomatiquedeslanguesnaturelles . . . . . . . . . . . . . . . . . . . . . 185 ACADÉMIE DE MONTPELLIER U N I V E R S I T É M O N T P E L L I E R II SciencesetTechniquesduLanguedoc T HÈSE présentéeauLaboratoired’InformatiquedeRobotique etdeMicroélectroniquedeMontpellierpour obtenirlediplômededoctorat Spécialité : Informatique FormationDoctorale : Informatique ÉcoleDoctorale : Information,Structures,Systèmes Méthodes combinatoires de reconstruction de réseaux phylogénétiques CombinatorialMethodsforPhylogeneticNetworkReconstruction par Philippe GAMBETTE Soutenuele30novembre2010,devantlejurycomposéde: Directeurdethèse M.ChristophePAUL,DirecteurdeRecherche.........................................CNRS,LIRMM Co-Directeurdethèse M.VincentBERRY,Professeur......................................UniversitéMontpellier2,LIRMM Rapporteurs M.GuillaumeFERTIN,Professeur........................................UniversitédeNantes,LINA M.VincentMOULTON,Professeur.......................................... UniversityofEastAnglia Présidentedujury MmeViolainePRINCE,Professeur.................................UniversitéMontpellier2,LIRMM Examinateurs M.AlainGUÉNOCHE,DirecteurdeRecherche.............................................CNRS,IML M.EricTANNIER,ChargédeRecherche................................................. INRIA,LBBE Remerciements Merciàmesdirecteurspourcestroisannéesdethèse!GrâceàVincentetChristophe, j’aipucomptersurunevéritableéquipedeco-directioncomplémentairesurlesdomaines scientifiques,habituéeautravailinterdisciplinaire.Ilsm’ontapportédespistes,desoutils, destechniques,maisaussidelasérénitédanslesmomentsdedoute,l’indispensablesou- tienfinancierpourlavalorisationdesrésultatsetsurtoutunegrandelibertéderecherche etdecollaborations,toutenrestanttrèsprésentsetdisponiblespournostravauxencom- mun. JeremercieGuillaumeFertinetVincentMoultond’avoiracceptéd’évaluercettethèse, Alain Guénoche et Eric Tannier qui ont bien voulu être examinateurs, leur expertise en tant que références dans la communauté bioinformatique est très précieuse. Merci aussi àViolainePrince,dontj’aipudécouvriretapprécierpendantmondoctoratlestalentsde linguiste-informaticienne, compositrice, chanteuse, et présidente de jury, d’avoir égale- mentacceptédefairepartiedemonjurydethèse. Mes rencontres avec Olivier Gascuel et Michel Habib, en stage de recherche, sont à l’originedecettethèseauLIRMM.J’aibénéficiédesmeilleuresconditionspourdécouvrir lemondedelarechercheetyentrer,grâceàleursqualitéshumainesetscientifiques,que j’airetrouvéeschezVincentetChristophe. Tous mes coauteurs m’ont énormément apporté, en partageant autant leurs tech- niques et leurs connaissances que leur enthousiasme et leur dynamisme à des moments clés.MerciàDaniel,Stéphane,Vincent,Christophe,Regula,Christophe,Kathi,Jean,Del- phine, Hyeran, Melissa, Elsa et Constance, avec qui j’ai eu la chance de travailler. C’était aussi un privilège inouï de faire partie des équipes AlGCo et MAB du LIRMM, où tant de talents et d’humour sont réunis. Séminaires, repas et pauses café m’ont permis d’appré- cierrégulièrementceuxdeStéphane,d’Émeric,Daniel,Philippe,Benjamin,Alexandre,Sté- phanetMarie-Catherine,etd’Anne-Muriel,Laurent,Gilles,Annie,François,Jean-François, Vincent,AlbanetÉric. JeremercieégalementlesdoctorantsduLIRMMpourlesbonsmomentspartagéspen- dantcestroisans,etleurparticipationàmalonguequêtedel’exhaustivitédutrombino- scopedesdoctorants.JeciteraiparticulièrementLisaetKhalilavecquinousavonsrelancé le SéminDoc. Grâce à Paola et Cécile, les préparations de projets portés au sein de l’asso Contact ont été aussi réussies que conviviales. Et c’est aussi à Paola que je dois la moti- vationinitialepourmonengagementdereprésentationdesétudiantsetdesdoctorants,à l’originedenouveauxintérêtsetdecompétencesquejen’auraispasimaginédévelopper pendantcettethèse,aveclesoutiendelaPrésidentedel’Universitéetdesonéquipe.Les doctorantsetmembresactifsdel’assoContact,dontCathysadirectrice,m’ontaccompa- 1
Description: