Thèse de Doctorat de l’Université Paris-Sud École Doctorale Gènes, Génomes, Cellules (ED 426) Présentée par : Céline Petitjean Pour l’obtention du grade de : Docteur ès Sciences de l’Université Paris-Sud Phylogénie et évolution des Archaea, une approche phylogénomique Thèse soutenue le 27 septembre 2013, devant le jury composé de : Simonetta GRIBALDO Rapporteur Vincent DAUBIN Rapporteur Pierre CAPY Examinateur Olivier LESPINET Examinateur David MOREIRA Co-directeur de thèse Céline BROCHIER-ARMANET Co-directeur de thèse Résumé En 1977, Carl Woese sépare les procaryotes en deux grands groupes en proposant une nouvelle classification basée sur des critères phylogénétiques. Les Archaea deviennent ainsi un domaine à part entière aux cotés des Bacteria et des Eucarya. Depuis, la compréhension de ce nouveau groupe et de ses relations avec les deux autres domaines, essentielles pour comprendre l’évolution ancienne du vivant, est largement passée par l’étude de leur phylogénie. Presque 40 ans de recherche sur les archées ont permis de faire évoluer leur image : de bactéries vivant dans des milieux spécialisés, souvent extrêmes, on est passé à un domaine indépendant, très diversifié aussi bien génétiquement, métaboliquement ou encore écologiquement. Ces dernières années la barre symbolique de cent génomes complets d’archées séquencés a été franchie et, parallèlement, les projets génomiques et métagénomiques sur des groupes peu caractérisés ou de nouvelles lignées de haut rang taxonomique (e.g. Nanohaloarchaea, Thaumarchaeota, ARMAN, Aigarchaeota, groupe MGC, groupe II des Euryarchaeota, etc.) se sont multipliés. Tout ceci apporte un matériel sans précédent pour l’étude de l’histoire évolutive et de la diversité des Archaea. Les protéines ribosomiques ont été utilisées de façon courante pour inférer la position phylogénétique des nouvelles lignées d’Archaea. Néanmoins, les phylogénies résultantes ne sont pas complètement résolues, laissant des interrogations concernant d’importantes relations de parenté. La recherche de nouveaux marqueurs est donc cruciale et c’est dans ce contexte que mon projet de thèse s’inscrit. À partir de l’analyse des génomes de deux Thaumarchaeota et d’une Aigarchaeota, nous avons identifié 200 protéines conservées et bien représentées dans les différents phyla d’archées. Ces protéines sont impliquées dans de nombreux processus cellulaires, ce qui peut apporter un signal phylogénétique complémentaire à celui des marqueurs de type informationnel utilisés par le passé. En plus de confirmer la plupart des relations phylogénétiques inférées à partir de ces derniers (i.e., protéines ribosomiques et sous unités de l’ARN polymérase), l’analyse phylogénétique de ces nouveaux marqueurs apporte un signal permettant une meilleure résolution de la phylogénie des archées et la clarification de certaines relations jusqu’ici confuses. Un certain nombre de ces nouveaux marqueurs sont aussi présents chez les bactéries. Les relations entre les grands phyla d’archées restant encore non résolues, nous avons utilisé ces protéines pour essayer de placer la racine de l’arbre des Archaea en utilisant comme groupe extérieur les bactéries. Nous avons ainsi pu identifier 38 protéines, parmi les 200 sélectionnées précédemment, ayant un signal phylogénétique suffisamment fiable pour cette étude, auxquelles nous avons ajouté 32 protéines ribosomiques universelles. L’utilisation conjointe de ces données nous a permis de placer la racine entre les Euryarchaeota, d’une part, et un groupe rassemblant les Thaumarchaeota, les Aigarchaeota, les Korarchaeota et les Crenarchaeota, d’autre part. Ce nouvel éclairage sur l’évolution ancienne des archées nous a amené à proposer une révision de leur taxonomie avec, principalement, la création du nouveau phylum "Proteoarchaeota" contenant les quatre phyla actuels que nous proposons de rétrograder en classes : Thaumarchaea, Aigarchaea, Korarchaea et Crenarchaea. Finalement, l’analyse des protéines codées dans les trois génomes qui ont servi de point de départ de ma thèse nous a permis de générer une masse considérable de données qui ont révélé des traits particuliers ou encore des histoires évolutives inattendues. Un exemple est l’histoire du complexe formé par la chaperonne DnaK et de ses co-chaperonnes GrpE, DnaJ, et DnaJ-Fer chez les Thaumarchaeota, impliquant plusieurs transferts horizontaux entre les trois domaines du vivant. Abstract In 1977, Carl Woese proposed a new classification of organisms based on phylogenetic criteria where he divided prokaryotes into two major groups. Thus, Archaea were defined as a new domain, together with Bacteria and Eucarya. Since then, the study of this group and its relationships with the two other domains, essential to understand the early evolution of Life, has been largely done through the investigation of its phylogeny. Almost 40 years of research on the archaea have led to a significant evolution of the knowledge on this group: from considering them as bacteria living in specialized environments, most often extreme ones, to defining them as an independent domain, highly diversified in genetic, metabolic and ecological terms. During the last years, the symbolic barrier of 100 complete archaeal genome sequences has been reached and, simultaneously, many genome projects from poorly-known groups or new high-rank lineages (e.g., Nanohaloarchaea, Thaumarchaeota, ARMAN, Aigarchaeota, MGC, group II Euryarchaeota, etc.) have been launched. All this provides unprecedented information to study the evolutionary history of Archaea. Ribosomal proteins have been used recurrently to infer the phylogenetic position of new archaeal lineages. Nevertheless, the resulting phylogenies are not fully resolved and several important nodes remain uncertain. The identification of new phylogenetic markers is therefore crucial. This represents the framework of my PhD thesis project. On the basis of the analysis of the genome sequences of two Thaumarchaeota and one Aigarchaeota, we have identified 200 conserved proteins well represented among the different archaeal phyla. These proteins are involved in a number of cellular functions, thus providing a phylogenetic signal complementary to the one obtained from the informational proteins (i.e., ribosomal proteins and RNA polymerase subunits). The phylogenetic analysis of these new markers has led to a better resolution of the archaeal phylogeny, including several relationships that remained unclear. Several of the new markers are also present in bacteria. Since the relationships among the different archaeal phyla are not yet resolved, we have used those markers to try to place the root of the archaeal phylogeny using the bacterial sequences as outgroup. We have identified 38 proteins among the 200 detected before containing a phylogenetic signal useful for that purpose, to which we have added 32 universal ribosomal proteins. The use of this complete dataset allowed us locating the root between the Euryarchaeota and a large group joining the Thaumarchaeota, Aigarchaeota, Korarchaeota and Crenarchaeota. This new result on the ancient evolutionary history of Archaea has led us to propose a taxonomic revision for this domain, in particular the erection of a new phylum "Proteoarchaeota", containing the current four phyla that we propose to retrograde into classes (Thaumarchaeales, Aigarchaeales, Korarchaeales and Crenarchaeales). Finally, the analysis of the proteins encoded by the three reference genomes at the origin of this work has generated a large amount of data, which reveals particular traits in certain organisms or unexpected evolutionary histories. One example concerns the evolution in Thaumarchaeota of the protein complex composed of the DnaK chaperon and its co-chaperons GrpE, DnaJ, and DnaJ- Fer, which involves several horizontal gene transfer events among the three domains of Life. Remerciements Merci aux membres de mon jury, Simonetta Gribaldo, Vincent Daubin, Pierre Capy et Olivier Lespinet d’avoir accepté d’évaluer mon travail de thèse. Merci à mes deux directeurs de thèse, David Moreira et Céline Brochier-Armanet de m’avoir fait confiance et de m’avoir permis de mener à bien ce travail. Merci à Purificación López-García de m’avoir fait confiance et accepté dans son équipe. Merci à Simonetta Gribaldo de m’avoir permis et poussée à entreprendre cette thèse. Merci à l’Agence Nationale de la Recherche d’avoir financé ma thèse au travers du projet EVOLDEEP et de l’Investissement d’avenir ANCESTROME pour l’accès à certains clusters de calculs ; à l’Université Paris-sud pour l’accès au cluster de calcul ebio. Merci à l’École Doctorale GGC de m’avoir acceptée malgré la complexité de mon dossier. Au début de mon stage de M2, Simonetta m’a dis un jour « tu verras, bientôt le labo sera ta deuxième maison » ; je ne soupçonnais pas à quel point cela serai vrai. Alors merci aussi à : Simonetta pour ton encadrement, ta confiance et ta passion pour la science et la phylogénie, et aussi de t’être battue pour moi et de m’avoir poussée à rejoindre finalement David et Céline pour ma thèse. Alexis pour toute l’aide que tu m’as apportée pendant mon M2 et après, et pour toutes nos discussions. Elie, d’avoir été un point de repère en tant que thésard et pour ton aide dans des moments critiques de fin de stage. Céline, de m’avoir acceptée en thèse, de m’avoir fait confiance. Merci aussi de m’avoir fait partager ta passion, de ta rigueur scientifique, et de ta bienveillance, particulièrement dans des moments compliqués. Laura, ma co-thésarde du LCB, pour tout ce qu’on a pu partager, scientifiquement et personnellement ; d’être là tout simplement. Rym, pour toutes tes questions, ta passion et notre amitié. Rémi, Sandrine, Boyang de l’équipe GEB, Mélodie, ma stagiaire, et aux membres du LCB, de tous nos échanges. Toute l’équipe microbio de l’ESE, de votre passion scientifique, d’être aussi soudés et de pouvoir partager autant avec vous. David M., de m’avoir acceptée en thèse, de m’avoir fait confiance, de partager ton incroyable savoir, de la justesse de ton encadrement, de ta bienveillance, et pour ton humour caustique. Purificación, de ta droiture, de tes coup de gueules, de toutes nos discussions, d’avoir su créer avec David cette équipe, de ta confiance, et particulièrement, de m’avoir poussé à raciner l’arbre des archées. Philippe, pour toute ton aide, de ta capacité à saisir certaines choses, de ton humour, d’être passé à Linux ; et Hélène, de ta présence autour de notre équipe. Bienvenue à Juliette Rusticule. Ludwig et Paola, de votre amitié et de votre présence. Marie, coloc et co-bureau, de ton amitié, d’être la première thésarde de l’équipe microbio et toujours présente. Charles, mon « grand frère » du labo, d’être aussi adorable, de tes talents d’imitateur, et de ta thèse qui m’a bien inspirée. Estelle, co-bureau et voisine, de ton soutien, de ton aide et de ce qu’on a partagé du coté d’Alesia. Jonathan, pour répondre à tes remerciements, te supporter a été un immense plaisir et une grande richesse, au labo, à la maison et le reste du temps, mais aussi depuis bientôt 10 ans ; de toutes nos discussions enflammées ou calmes, de ton humour de ton soutien et de tout ce pourquoi je ne trouverai pas les mots, merci. Marianne, de ton aide et de ta gentillesse, de tous les CMD. Je n’ai aucun doute sur le fait que tu finiras ta thèse avec panache. Aurélien, je ne doute pas que ta thèse sera une belle aventure. Julien, mon co-bureau direct, de toutes nos discussions sur la phylogénie et sur la vie, et pour mendeley. Tous les membres du bureau 208 et de la salle T pour nos passionnantes discussions, à 5h et le reste du temps. Pour ceux que je n’ai pas encore nommés, Boris et Yann ; Vincent, passé rapidement. Aux autres membres de l’ESE, si intéressants à côtoyer ; particulièrement Gwendal, Jacqui, Amandine, Hervé, Lucie, Alodie, Martha… c’est un vrai plaisir que de travailler dans cet environnement. Aux membres du LBBE, croisés trop peu souvent, mais toujours avec plaisir. Aux secrétaires, Vanessa, Nathalie et Emmanuelle, qui m’ont largement aidée dans mes nombreux problèmes administratifs. Tous les profs qui m’ont apporté savoirs, savoir-faire et méthodes. Particulièrement mes profs de bio de collège et lycée, Philippe Kachidian, Pascal Hingamp, Keith Dudley, Michel Termier, Daniel Gautheret, Olivier Lespinet, Dominique De Vienne, Fabrice Confalonieri et Pierre Capy de m’avoir encouragé à poursuivre. De même que Patrick Forterre, Eduardo Rocha et Pierre-Henri Gouyon pour les discussions partagées. Emese et Carl, ça a été un plaisir d’enseigner à vos côté. Pierre, de tes encouragement, de ta disponibilité, de ta bienveillance et de m’avoir accepté au sein de GGC. Olivier et Pascal, mes « parrains », d’avoir accepté ce rôle. Pascal, de ta compréhension et de ta disponibilité quand j’en ai eu besoin. Marie-Françoise et Patrick, de m’avoir toujours encouragée et soutenue dans mes choix. Aurore et Bérangère, mes merveilleuses petites sœurs, Davi mon cousin adoré, Isabelle et Martine pour être là, toujours. Mes amis, tous, depuis longtemps et de tous les côtés, qui m’aide à avancer jour après jour. Parmi eux, Claire, David et Doris si importants où que vous soyez ; mes colocs actuels Gregory et Virginie, qui m’avez offert une belle mise au vert pour ma rédaction ; Sarah et Sylvain, toujours là; et tout ceux que je ne peux pas nommer ici mais qui n’en restent pas moins essentiels. L’AMZ, l’ESP, Cannes et Dragons et Danielle Pauly, & Cie. de m’avoir permis de décompresser et de tenir le coup ! Aux anciens thésards dont j’ai relu les thèses, et à tous les relecteurs de la mienne, Bérangère, David, Jonathan, Laura, Marie, Marianne et Sébastien, MERCI, avec une mention spéciale à Sébastien et Marianne pour en avoir relu la quasi-totalité. Bestiolus, d’avoir réalisé cette thèse avec moi, sans bug majeur en trois ans. Sébastien, pour ton incommensurable soutien ces derniers temps, pour ton aide précieuse pour la toute fin, pour ta patience, et pour tout ce que je ne sais comment exprimer. Je ne m’étends pas plus, je mets mon chapeau bleu, et j’arrive. En hommage posthume à Carl Woese (1928- 2012) « Tel est le pouvoir des lettres quand seulement l’ordre en est changé » Lucrèce, De rerum natura Sommaire Sommaire RESUME .......................................................................................................................................................... 3 ABSTRACT ..................................................................................................................................................... 4 REMERCIEMENTS ........................................................................................................................................ 5 SOMMAIRE ..................................................................................................................................................... 9 TABLE DES FIGURES ................................................................................................................................ 13 INTRODUCTION ........................................................................................................................................ 15 A. Histoire de la découverte des Archaea ..............................................................................................................15 1. Les trois domaines du vivant .............................................................................................................................. 15 a. Un marqueur moléculaire pour la classification bactérienne : l’ARN ribosomique ....................................... 15 b. Premières phylogénies moléculaires microbiennes et découverte des « Archaebacteria » .......................... 16 c. La nouvelle classification du vivant : « Archaea », « Bacteria », « Eucarya »................................................. 21 2. A partir des années 1990 : Exploration de la diversité archée. .......................................................................... 23 a. Etudes environnementales ............................................................................................................................ 23 b. Les années 2000 : Séquençage de nombreux génomes complets ................................................................. 28 3. Conclusion .......................................................................................................................................................... 30 B. Phylogénie des Archaea ....................................................................................................................................31 1. Diversité des Archaea : la phylogénie de l’ARNr SSU .......................................................................................... 31 a. Les Euryarchaeota .......................................................................................................................................... 33 Hyperthermophiles ............................................................................................................................................ 33 Mésophiles et psychrophiles .............................................................................................................................. 35 Halophiles ........................................................................................................................................................... 37 Acidophiles ......................................................................................................................................................... 38 Méthanogènes et méthanotrophes.................................................................................................................... 40 b. Les Nanoarchaeota ........................................................................................................................................ 42 c. Les Crenarchaeota ......................................................................................................................................... 43 d. Les Thaumarchaeota ...................................................................................................................................... 46 e. Les Aigarchaeota ............................................................................................................................................ 50 f. Les Korarchaeota ........................................................................................................................................... 50 g. Conclusion ..................................................................................................................................................... 52 9 Phylogénie et évolution des Archaea, une approche phylogénomique 2. Phylogénies moléculaires inférées sur plusieurs marqueurs .............................................................................. 53 a. La phylogénie des archées ............................................................................................................................. 53 Première phylogénie des archées ....................................................................................................................... 53 Evolution de la méthanogenèse et implications pour la phylogénie des archées .............................................. 55 La position de Nanoarchaeum equitans : nouveau phylum ou artefact ? .......................................................... 58 Nouveaux génomes et nouveaux marqueurs ..................................................................................................... 60 Nouveaux phyla et phylogénie de référence actuelle ........................................................................................ 63 b. La racine de l’arbre des archées et la relation avec les autres domaines ...................................................... 70 3. Conclusion .......................................................................................................................................................... 75 OBJECTIFS ................................................................................................................................................... 77 Objectif 1 : La recherche de nouveaux marqueurs pour l’inférence de la phylogénie des archées. .................. 77 Objectif 2 : La recherche de la racine de l’arbre des archées grâce à des homologues bactériens. ................... 77 MATERIELS ET METHODES ................................................................................................................... 79 A. Analyses phylogénétiques des protéines codées dans les génomes de C. symbiosum, N. maritimus et ‘Ca. Caldiarchaeum subterraneum’. ..................................................................................................................................80 1. Construction d’une banque de données locale .................................................................................................. 80 2. Génération des phylogénies préliminaires ......................................................................................................... 80 3. Tri et sélection des phylogénies préliminaires .................................................................................................... 82 B. Inférence de la phylogénie des Archaea : méthodes du chapitre 1 ....................................................................84 1. Analyse des protéines d’intérêt pour l’étude de la phylogénie des Archaea ...................................................... 84 a. Sélection des protéines d’intérêt ................................................................................................................... 84 b. Construction d’une banque de données locale de génomes complets d’Archaea......................................... 84 c. Construction des jeux de données ................................................................................................................. 84 d. Analyse phylogénétique des jeux de données ............................................................................................... 86 Alignement ......................................................................................................................................................... 86 Phylogénies préliminaires ................................................................................................................................... 86 Répartition taxonomique des séquences ........................................................................................................... 86 Analyse de l’alignement ...................................................................................................................................... 87 Phylogénies individuelles définitives .................................................................................................................. 88 e. Analyse fonctionnelle des 200 nouveaux marqueurs .................................................................................... 88 2. Mise à jour des jeux de données de protéines informationnelles ..................................................................... 88 3. Inférence de la phylogénie globale des Archaea ................................................................................................ 89 a. Construction des supermatrices .................................................................................................................... 89 b. Désaturation .................................................................................................................................................. 89 Désaturation par sélection de sites .................................................................................................................... 90 10
Description: