Conception et analyse des biopuces à ADN en environnements parallèles et distribués Faouzi Jaziri To cite this version: Faouzi Jaziri. Conception et analyse des biopuces à ADN en environnements parallèles et distribués. Autre[cs.OH].UniversitéBlaisePascal-Clermont-FerrandII,2014. Français. NNT:2014CLF22465. tel-01276669 HAL Id: tel-01276669 https://theses.hal.science/tel-01276669 Submitted on 19 Feb 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Université Blaise Pascal – Clermont II Ecole Doctorale des Sciences pour l’Ingénieur Thèse pour obtenir le grade de Docteur d’Université (Spécialité: Informatique) Présentée par Faouzi JAZIRI Conception et analyse des biopuces à ADN en environnements parallèles et distribués Date de soutenance prévue : 23 Juin 2014 Membres du jury Rapporteurs: Abdoulaye Baniré Diallo, Professeur, Université du Québec Robert Duran, Professeur, Université de Pau et des Pays de l’Adour Examinateurs: Vincent Breton, Directeur de recherche, CNRS Eric Innocenti, Maître de conférences, Université de Corse Pasquale Paoli Directeurs de thèse: David Hill, Professeur, Université Blaise Pascal Pierre Peyret, Professeur, Université d’Auvergne Invité: Eric Peyretaillade, Maître de conférences, Université d’Auvergne Laboratoires d’accueil: Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes (LIMOS) EA Conception Ingénierie et Développement de l’Aliment et du Médicament (CIDAM) Laboratoire Microorganismes: Génome et Environnement (LMGE) Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Résumé 3 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Les microorganismes constituent la plus grande diversité du monde vivant. Ils jouent un rôle clef dans tous les processus biologiques grâce à leurs capacités d’adaptation et à la diversité de leurs capacités métaboliques. Le développement de nouvelles approches de génomique permet de mieux explorer les populations microbiennes. Dans ce contexte, les biopuces à ADN représentent un outil à haut débit de choix pour l'étude de plusieurs milliers d’espèces en une seule expérience. Cependant, la conception et l’analyse des biopuces à ADN, avec leurs formats de haute densité actuels ainsi que l’immense quantité de données à traiter, représentent des étapes complexes mais cruciales. Pour améliorer la qualité et la performance de ces deux étapes, nous avons proposé de nouvelles approches bioinformatiques pour la conception et l’analyse des biopuces à ADN en environnements parallèles. Ces approches généralistes et polyvalentes utilisent le calcul haute performance (HPC) et les nouvelles approches du génie logiciel inspirées de la modélisation, notamment l’ingénierie dirigée par les modèles (IDM) pour contourner les limites actuelles. Nous avons développé PhylGrid 2.0, une nouvelle approche distribuée sur grilles de calcul pour la sélection de sondes exploratoires pour biopuces phylogénétiques. Ce logiciel a alors été utilisé pour construire PhylOPDb: une base de données complète de sondes oligonucléotidiques pour l’étude des communautés procaryotiques. MetaExploArrays qui est un logiciel parallèle pour la détermination de sondes sur différentes architectures de calcul (un PC, un multiprocesseur, un cluster ou une grille de calcul), en utilisant une approche de méta-programmation et d’ingénierie dirigée par les modèles a alors été conçu pour apporter une flexibilité aux utilisateurs en fonction de leurs ressources matériel. PhylInterpret, quant à lui est un nouveau logiciel pour faciliter l’analyse des résultats d’hybridation des biopuces à ADN. PhylInterpret utilise les notions de la logique propositionnelle pour déterminer la composition en procaryotes d’échantillons métagénomiques. Enfin, une démarche d’ingénierie dirigée par les modèles pour la parallélisation de la traduction inverse d’oligopeptides pour le design des biopuces à ADN fonctionnelles a également été mise en place. Mots-clés: Bioinformatique, Biopuces à ADN, Sélection de sondes, Analyse des biopuces, Calcul intensif, Ingénierie dirigée par les modèles (IDM). 4 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Abstract 5 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Microorganisms represent the largest diversity of the living beings. They play a crucial role in all biological processes related to their huge metabolic potentialities and their capacity for adaptation to different ecological niches. The development of new genomic approaches allows a better knowledge of the microbial communities involved in complex environments functioning. In this context, DNA microarrays represent high-throughput tools able to study the presence, or the expression levels of several thousands of genes, combining qualitative and quantitative aspects in only one experiment. However, the design and analysis of DNA microarrays, with their current high density formats as well as the huge amount of data to process, are complex but crucial steps. To improve the quality and performance of these two steps, we have proposed new bioinformatics approaches for the design and analysis of DNA microarrays in parallel and distributed environments. These multipurpose approaches use high performance computing (HPC) and new software engineering approaches, especially model driven engineering (MDE), to overcome the current limitations. We have first developed PhylGrid 2.0, a new distributed approach for the selection of explorative probes for phylogenetic DNA microarrays at large scale using computing grids. This software was used to build PhylOPDb: a comprehensive 16S rRNA oligonucleotide probe database for prokaryotic identification. MetaExploArrays, which is a parallel software of oligonucleotide probe selection on different computing architectures (a PC, a multiprocessor, a cluster or a computing grid) using meta-programming and a model driven engineering approach, has been developed to improve flexibility in accordance to user’s informatics resources. Then, PhylInterpret, a new software for the analysis of hybridization results of DNA microarrays. PhylInterpret uses the concepts of propositional logic to determine the prokaryotic composition of metagenomic samples. Finally, a new parallelization method based on model driven engineering (MDE) has been proposed to compute a complete backtranslation of short peptides to select probes for functional microarrays. Keywords: Bioinformatics, DNA microarrays, Probe design, DNA MicroArray Data Analysis, High performance computing (HPC), Model driven engineering (MDE). 6 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Remerciements 7 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Je souhaite remercier d’abord les différents directeurs d’unités, Alain Quillot (Laboratoire d‘Informatique et de Modélisation et Optimisation des Système LIMOS – UMR CNRS 6158), Christian Amblard (Laboratoire Microorganismes: Génome et Environnement LMGE – UMR CNRS 6023) et Monique Alric (EA Conception Ingénierie et Développement de l’Aliment et du Médicament CIDAM - EA 4678), pour m’avoir accueilli au sein de leurs laboratoires. Je vous remercie pour votre accueil et pour m’avoir permis de travailler dans de bonnes conditions. Mes remerciements les plus sincères vont ensuite à Abdoulaye Baniré Diallo et Robert Duran pour m’avoir fait l’honneur d’accepter d’être rapporteurs de cette thèse ainsi qu’à Vincent Breton et Eric Innocenti pour avoir accepté d’examiner mon travail et faire partie de mon jury de thèse. Je voudrais également remercier la région d’Auvergne pour le financement des travaux de ma thèse. Mes remerciements les plus chaleureux vont à mes deux directeurs de thèse, David Hill et Pierre Peyret, pour avoir encadré mes travaux de recherche durant cette thèse jusqu‘à leur aboutissement. Je te remercie Benny pour ton aide, tes conseils et ton soutien dans les moments difficiles. Merci pour m’avoir toujours poussé à donner le meilleur de moi-même. Merci pour ton côté humain qui me touche depuis plusieurs années maintenant. Je ne te remercierai jamais assez pour tout ce que tu as fait pour moi. Et je ne peux pas oublier de remercier ta femme Anne. Merci Anne pour ton grand cœur et ta gentillesse. Mes remerciements vont aussi pour « Benny sénior » pour les relectures d’anglais! Je souhaite rendre hommage à Pierre pour son soutien, sa confiance et son aide précieuse. Merci pour m’avoir fait découvrir le monde vaste de l’écologie microbienne mais aussi pour m’avoir fait découvrir la beauté de Clermont-Ferrand: merci pour m’avoir accueilli à mon arrivée à Clermont-Ferrand et pour la visite de la ville! J’adresse également un grand merci à Eric Peyretaillade. Merci pour tes précieux conseils, ton soutien, ton savoir et ton humour à toute épreuve. Merci pour ton aide tout au long de cette thèse. Merci pour ton investissement sur mes travaux, et sur la correction du manuscrit. Je tiens à exprimer ma gratitude pour tous les membres de l’EA CIDAM et de l’équipe G2IM sans exception, qu’ils soient encore ici ou non, pour m’avoir accueilli chaleureusement parmi eux. Je remercie en particulier Delphine Boucher, Corinne Biderre- 8 Conception et Analyse des Biopuces à ADN en Environnements Parallèles et Distribués Petit, Anne Moné, Brigitte Chebance (merci Brigitte pour ta grande disponibilité et ton accueil), Jean-François Brugère, Olivier Gonçalves, Sébastien Rimour, Sébastien Terrat, Ourdia Bouzid, Sophie Comtet, Nicolas Parisot, Céline Ribière, Cyrielle Gasc, William Tottey, Mohieddine Missaoui (un grand merci pour tes précieux conseils), Jérémie Denonfoux et Eric Dugat-Bony (un grand merci à vous deux pour votre aide et pour toutes nos discussions). Merci également à mes collègues et amis du LIMOS: Luc, Jonathan C., Jonathan P. (M. Karaté! :p Je ne vais pas oublier ton calendrier Bio qui m’a accompagné durant la dernière année de ma thèse!! Merci pour ton amitié), Sébastien, Pierre, Guillaume, Romain, Nathalie, Nicolas, Toan, Rabii, Wajdi (merci pour ton amitié Bro), Sabeur, Haythem, Baraa, et tous les autres membres du LIMOS. Je tiens notamment à remercier Béatrice Bourdieu, Pascale Gouinaud et Antoine Mahul qui ont largement contribué au bon déroulement de cette thèse. Je n’oublie pas non plus tous mes collègues du département MMI du Puy-en-Velay pour leur accueil durant cette dernière année. Merci pour m’avoir accueilli chaleureusement parmi vous comme le membre d’une famille. Merci à vous tous pour votre soutien et votre amitié. Ensuite, mes remerciements vont à ma famille et mes amis pour leur compréhension et leur soutien. Cette thèse n’aurait pas abouti également sans l’aide de ma famille, en particulier, mes parents pour tout ce qu’ils ont fait pour moi, ma femme pour son soutien et pour avoir supporté ces longues années de thèse, mon petit ange Adam, mes frères et sœurs, la petite famille de ma femme et mes amis. Enfin, je dédie cette thèse à la mémoire de mes grands-parents… 9
Description: