Les Puces à ADN sur lames de verre : principes et méthodes de confection, d’application expérimentale et d’analyse des données. Waka LIN Extraits du mémoire de la thèse de doctorat : « Applications de la technologie des Puces à ADN à l’étude de la différenciation méiotique et des mécanismes de recombinaison chez la levure Saccharomyces cerevisiae » Soutenue le 27 avril 2004. Equipe Alain NICOLAS UMR144 CNRS – Institut Curie, Section de Recherche Sommaire I. Introduction : la technologie des puces à ADN.............................................................5 1. Avancées de la génomique fonctionnelle chez la levure.............................................5 2. Définition et principaux types de puces à ADN..........................................................6 3. Application à l’analyse de l’expression transcriptionnelle..........................................8 3.1. Principe général..........................................................................................................................8 3.2. Les études comparatives de transcriptomes..............................................................................10 3.3. Autres variantes de l’analyse de l’expression transcriptionnelle..............................................11 4. Application à l’analyse des génomes ........................................................................11 4.1. La localisation des sites d’interaction de protéines avec la chromatine....................................12 4.2. La détection du nombre de copies d’ADN par CGH-array.......................................................14 4.3. La détection de mutations et le génotypage de polymorphismes..............................................15 4.4. La détection et le criblage d’organismes spécifiques et de souches portant des marqueurs d’identification..........................................................................................................................15 II. Confection des puces de type « spotted microarrays »...............................................17 1. Amplification des sondes par PCR............................................................................17 1.1. Choix des produits à déposer....................................................................................................17 1.2. Amplification par PCR, purification et stockage des sondes d’ADN.......................................18 1.3. Contrôle des produits de PCR par électrophorèse.....................................................................19 2. Impression robotisée des lames.................................................................................20 2.1. Types de lames utilisées pour l’impression..............................................................................20 2.2. Dépôt des produits de PCR par le robot....................................................................................21 2.3. Coordonnées des gènes sur la matrice imprimée......................................................................22 3. Traitement de finition et préhybridation des lames...................................................23 III. Préparation des cibles et hybridation des puces.........................................................24 1. Préparation des échantillons d’ARN.........................................................................24 1.1. Extraction des ARN totaux et messagers..................................................................................24 1.2. Mesure de la concentration et contrôle de la qualité des ARN.................................................25 2. Transcription inverse et incorporation des marqueurs fluorescents..........................27 3. Hybridation et lavage.................................................................................................28 IV. Acquisition et analyse des données..............................................................................29 1. Acquisition des données brutes.................................................................................29 1.1. Lecture sur le scanner...............................................................................................................29 1.2. Extraction des données numériques..........................................................................................30 2. Transformation et stockage des données...................................................................31 2.1. Filtrage primaire des données brutes........................................................................................31 2.2. Le calcul des ratios d’expression..............................................................................................31 2.3. La normalisation.......................................................................................................................32 2.4. Le stockage dans des bases de données et le suivi des expériences..........................................34 3. Analyse et interprétation des résultats.......................................................................36 3.1. La mesure de l’expression différentielle...................................................................................36 3.2. Le regroupement hiérarchique des profils d’expression...........................................................38 3.3. La comparaison avec les données existantes............................................................................41 3.4. Réflexions sur la conception de l’expérience biologique..........................................................43 1 V. Guide de diagnostic des anomalies...............................................................................46 1.1. Problèmes liés à l’aspect des spots...........................................................................................47 1.2. Problèmes de bruits de fond sur la lame...................................................................................48 1.3. Faible intensité de signal...........................................................................................................49 1.4. Données biaisées détectées à l’analyse.....................................................................................50 VI. Protocoles expérimentaux.............................................................................................51 VII. Références bibliographiques.........................................................................................56 2 Liste des abréviations : ADN Acide DésoxyriboNucléique kb kilo paires de bases ADNc ADN complémentaire kDa kilo Dalton aa-dUTP amino-allyl dUTP Lowess Locally weighted scatter plot smoothing AMAD Another MicroArray Database MI 1re division de méiose APC Anaphase-Promoting Complex MII 2e division de méiose APS Ammonium Persulfate MAGEML MicroArray Gene Expression Markup ARN Acide RiboNucléique Language ARNm ARN messager MGED Microarray Gene Expression Database ARNr ARN ribosomique MIAME Minimal Information About a Microarray Experiment ATM Ataxia-Telangiectasia Mutated MIPS Munich Information center for Protein ATR ATM-Rad3-Related Sequences BASE BioArray Software Environment MMS Méthyl Méthane Sulfonate BSA Bovine Serum Albumin MSE Middle Sporulation Element CDBs Cassures Double-Brin NHS-ester N-Hydroxysuccinimidyl ester CEA Commissariat à l’Energie Atomique NRE Negative Regulatory Element CGH Comparative Genomic Hybridization ORF Open-Reading Frame Cdk Cyclin-dependent kinase pb paire de bases ChIP Chromatin Immuno-Precipitation PCR Polymerase Chain Reaction Cy3 Cyanine 3 PPG Polypropylène Glycol Cy5 Cyanine 5 RNase Ribonucléase DAPI Diamino-Phenylindole RNR Ribonucléotide Réductase dATP désoxy Adénosine Triphosphate Rr/v Ratio des signaux d’hybridation dCTP désoxy Cytosine Triphosphate rouge/vert DEPC Diéthyl Pyrocarbonate R Ratio d’expression au temps t, relatif au t/0h dGTP désoxy Guanine Triphosphate temps initial t=0h DMSO Diméthyl Sulfoxyde SAGE Serial Analysis of Gene Expression DNase Désoxyribonucléase SDS Sodium Dodécyl Sulfate dNTP désoxy Nucléotide Triphosphate SGD Saccharomyces Genome Database dUTP désoxy Uracile Triphosphate SNP Single-Nucleotide Polymorphism DTT DithioThréitol SSC Saline Sodium Citrate dTTP désoxy Thiamine Triphosphate TCA Trichloro Acetic Acid EDTA Acide Ethylène Diamine Tétra-acétique TE TRIS-EDTA ENS Ecole Normale Supérieure TEMED Tétraméthyl Ethylène Diamide ESPCI Ecole Supérieure de Physique et UV Ultra-Violet Chimie Industrielle UAS Upstream Activator Sequence FACS Fluorescence-Activated Cell Sorting URS1 Upstream Repressor Sequence 1 GO Gene Ontology yMGV yeast Microarray Global Viewer HEPES Hydroxyethyl Piperazine Ethanesulfonic YPD Yeast Proteome Database, ou milieu HU Hydroxyurée Yeast Peptone Dextrose Ir Intensité du signal rouge Iv Intensité du signal vert 3 Avertissements – nomenclature utilisée dans ce document : - Dans le texte qui suit, les fragments d’ADN fixés à la surface de la puce sont appelés « sondes » (« probe » en anglais), et les séquences nucléiques contenues dans l’échantillon à analyser sont appelées « cibles » (« target » en anglais), comme il a été convenu et recommandé notamment dans le manuel « DNA Microarrays » (Bowtell et Sambrook, 2003) [3], et le dossier « The Chipping Forecast II » (Nature Genetics supplement, 2002) [4]. Les termes sont parfois inversés selon les publications. - Pour faciliter la lecture, j’ai conservé certains termes spécialisés couramment utilisés en anglais sans les traduire systématiquement en français, notamment « spot » (dépôt de fragments d’ADN sur une puce à ADN), « ORF » (open-reading frame = cadre ouvert de lecture), « checkpoint » (mécanisme de surveillance moléculaire induisant une réponse cellulaire aux dommages à l’ADN, aux défauts de réplication ou de recombinaison), « cluster » (ensembles de données obtenus grâce à une analyse par regroupement hiérarchique), « ChIP-on-Chip » (chromatine-immunoprécipitation et analyse sur puces à ADN). - En accord avec la nomenclature internationale, les noms des gènes de S. cerevisiae sont indiqués en italiques, en majuscule lorsque le gène est sauvage (exemple : SPO11) et en minuscule lorsqu’il est inactivé et récessif (spo11). Les protéines correspondantes sont désignées avec une lettre initiale majuscule (Spo11). 4 I. Introduction : la technologie des puces à ADN 1. Avancées de la génomique fonctionnelle chez la levure L’essor fulgurant des études de génomique fonctionnelle, faisant suite aux avancées des projets internationaux de séquençage des génomes amorcés à la fin des années 80, suscite aujourd’hui un très grand intérêt expérimental et conceptuel ([5] pour revue). Les séquences des génomes entiers de nombreux organismes sont désormais connues – plus de 100 bactéries, 1000 virus, et plusieurs eucaryotes modèles tels que les levures S. cerevisiae, S. pombe, C. albicans, la drosophile D. melanogaster, l’arabidopsis A. thaliana et le nématode C. elegans1 [6] – ainsi que de la majeure partie du génome humain publié en avril 2003 [7, 8]. L’enjeu réside à présent dans la caractérisation de la fonction des gènes et des voies de régulation leur permettant de réaliser les processus biologiques dans lesquels ils sont impliqués. Des outils et des stratégies innovants se sont développés afin de répondre aux besoins d’une exploration par des analyses fonctionnelles systématiques à l’échelle de la globalité du génome. La levure boulangère Saccharomyces cerevisiae est reconnue depuis longtemps comme un modèle de choix pour les études génétiques classiques. Ce microorganisme est non pathogène, a une croissance rapide dans des conditions de cultures simples, en étant stable aussi bien a l’état haploïde que diploïde, et la grande efficacité de la transformation par recombinaison homologue facilite l’introduction de mutations et l’application de nombreuses techniques d’analyses moléculaires et cellulaires. S. cerevisiae se prête aussi particulièrement bien au développement des méthodes d’analyse génomique à haut débit. Elle a été le premier organisme eucaryote dont le génome a été séquencé, grâce à un programme de collaboration européen puis mondial initié par A. Goffeau en 1989 et achevé en 1996 [9]. Son génome est relativement petit, comportant un total d’environ 12 mégabases réparties sur 16 chromosomes. Les bases de données de référence (SGD2 [10], MIPS3 [11], YPD4 [12]) recensent aujourd’hui environ 5800 ORFs confirmés et plus de 800 ORFs dits « hypothétiques ». Près de 70% de l’ADN non-ribosomal code pour des protéines et très peu de gènes (263) contiennent des introns. Enfin, la plupart des fonctions cellulaires fondamentales caractérisées chez S. cerevisiae sont conservées chez les organismes supérieurs : près de 50% des gènes humains impliqués dans des maladies génétiques héréditaires ont des homologues identifiés chez la levure. La connaissance de son génome offre ainsi un grand intérêt aussi bien pour l’étude de l’évolution et de l’adaptation des espèces que pour prédire la fonction de gènes chez l’homme. 1 Site d’accès à GenBank par Entrez au NCBI : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db = Genome 2 Site de Saccharomyces Genome Database : http://www.yeastgenome.org/ 3 Site du Munich Information Center for Protein Sequences : http://mips.gsf.de/genre/proj/yeast/index.jsp 4 Site du Proteome BioKnowledge Library de Incyte : https://www.incyte.com/control/tools/proteome 5 Parmi les gènes identifiés chez S. cerevisiae, plus de 2000 codent pour des protéines de fonction inconnue [9, 13]. L’attention portée à l’étude fonctionnelle chez la levure a conduit à l’émergence de nombreuses approches d’analyses globales ([14, 15] pour revue) : production et caractérisation phénotypique de collections de mutants (issus de mutagenèse aléatoire [16], de délétion systématique de chaque ORF du génome [17, 18] ou d’insertion de marqueurs protéiques [19, 20]), analyse de l’expression transcriptionnelle [21, 22] ou protéique [23] sur « biopuces », études d’interactions protéines-protéines par des systèmes « double-hybride » à grande échelle [24, 25], d’interactions protéines-chromatine par « ChIP-on-Chip » [26, 27] et études protéomiques par analyses biochimiques [28] ou spectrométrie de masse [29, 30]. Dans ce contexte, la technologie des « puces à ADN » s’est imposée en quelques années comme un outil majeur de la génomique fonctionnelle. 2. Définition et principaux types de puces à ADN Une puce à ADN, aujourd’hui communément appelée « DNA microarray » en anglais (de « array » = rang ordonné), est constituée de fragments d’ADN immobilisés sur un support solide selon une disposition ordonnée. Son fonctionnement repose sur le même principe que des technologies telles que le Southern blot ou le northern blot, qui sont couramment utilisées pour détecter et quantifier la présence d’une séquence nucléique spécifique au sein d’un échantillon biologique complexe, par hybridation à une sonde de séquence complémentaire portant un marquage radioactif [31]. La confection des puces à ADN a permis d’étendre ce principe à la détection simultanée de milliers de séquences en parallèle. Une puce comporte quelques centaines à plusieurs dizaines de milliers d’unités d’hybridation appelées « spots » (de l’anglais spot=tache), chacune étant constituée d’un dépôt de fragments d’ADN ou d’oligonucléotides correspondant à des sondes de séquences données. L’hybridation de la puce avec un échantillon biologique, marqué par un radioélément ou par une molécule fluorescente, permet de détecter et de quantifier l’ensemble des cibles qu’il contient en une seule expérience. D’abord conçues sur des membranes poreuses de nylon (appelées parfois « macroarrays » par opposition aux « microarrays »), les puces à ADN ont été progressivement mises au point sur lames de verre à la fin des années 90. La miniaturisation, rendue possible par l’utilisation d’un support solide, de marqueurs fluorescents et par les progrès de la robotique, permet aujourd’hui de fabriquer des puces comportant une très haute densité de spots, susceptibles de recouvrir l’intégralité du génome d’un organisme sur une simple lame de microscope. On distingue plusieurs types de puces selon la densité des spots, le mode de fabrication, la nature des fragments fixés à la surface et les méthodes d’hybridation. Les caractéristiques des puces les plus courantes sont résumées dans le Tableau 1. 6 « Macroarray » « Microarray spottée » « GeneChips » de Affymetrix - support : membrane de nylon - support : lame de verre à - support : lame de verre à revêtement chimique revêtement chimique - taille des spots : 0,5-1mm - taille des spots : ~100µm - taille des spots : ~20µm - densité : quelques centaines de spots/cm2 - densité : 1000-10000 spots/cm2 - densité : jusque 250000 spots/cm2 - sondes : produits de PCR - sondes : produits de PCR ou - sondes : oligonucléotides courts oligonucléotides longs (30-70mers) (20-25 mers) synthétisés in situ - cibles : ADNc avec marquage radioactif au 32P - cibles : ADNc ou produits de PCR - cibles : ARNc ou produits de avec marquage fluorescent au Cy3 PCR avec marquage fluorescent à - principales applications : analyse et Cy5 la biotine-streptavidine de l’expression des gènes - principales applications : analyse - principales applications : analyse de l’expression, ChIP-on-Chip, de l’expression, détection de CGH-array marqueurs moléculaires Tableau 1 : Principaux types de puces à ADN Les deux technologies dominantes sont les puces dites « spottées » par un dépôt robotisé de produits de PCR ou de longs fragments oligonucléiques (« spotted microarrays ») et les puces à oligonucléotides synthétisés in situ : (cid:131) La méthode de fabrication des puces « spottées » a été développée par l’équipe de P. Brown à l’Université de Stanford, aux Etats-Unis [21]. Elle est aujourd’hui bien établie et de nombreuses plate-formes de production sont implantées dans les laboratoires académiques. Des solutions d’ADN sont préparées soit par amplification PCR à partir du génome ou de banques d’ADN complémentaires, soit par synthèse d’oligonucléotides longs (30-70 mers). Des micro-gouttelettes de ces solutions sont ensuite déposées par un robot, selon une matrice d’emplacements définis, sur une lame de verre traitée par un revêtement chimique qui permet de fixer l’ADN. En général, chaque spot de la matrice correspond à un gène donné. Les robots nécessaires à la fabrication de ces puces étaient construits à l’origine de manière artisanale dans chaque laboratoire selon le modèle conçu par J. DeRisi et dont les plans de montage et le logiciel de pilotage sont disponibles sur Internet 5 . Aujourd’hui, il existe plusieurs modèles commerciaux 5 Site The MGuide. Version 2.0 : http://cmgm.stanford.edu/pbrown/mguide/index.html 7 permettant d’obtenir des rendements de quelques dizaines à plusieurs centaines de lames en une seule série de production de quelques heures. Nous utilisons actuellement ce type de puces au laboratoire et je détaillerai les méthodes de fabrication et d’utilisation dans la suite de ce document. (cid:131) Les puces à oligonucléotides synthétisés in situ par photolithographie [32] (« GeneChips » de la société Affymetrix) ou par impression « jet d’encre » [33] (Agilent Technologies / Rosetta Inpharmaceutics) ne peuvent être produites que par des sociétés industrielles spécialisées, mais elles sont également de plus en plus utilisées et elles bénéficient désormais d’une importante diversification, d’une certaine baisse des prix et d’un contrôle de qualité accru. Une contrainte souvent posée par l’utilisation de ces puces est qu’elle nécessite en général l’emploi de méthodes et d’équipements imposés par le fournisseur (type de lecteurs, de logiciels d’analyse…) et que les licences de propriété industrielle ne permettent pas l’accès à certaines informations (telles que la séquence des sondes présentes sur la puce). La dépendance vis-à-vis de ces sociétés commerciales reste ainsi très forte. Il a été aussi souvent reproché un certain manque de souplesse, comme notamment les contraintes de production ne permettaient pas de fabriquer en quantité réduite des puces spécifiques à des besoins particuliers, mais d’importants progrès semblent avoir été accomplis à ce niveau face à l’accroissement de la demande (fabrication de puces à façon, diversification et adaptation des types de puces proposés à de nouvelles applications et de nouveaux organismes…). Quel que soit le type de puces, le succès de la technologie a entraîné, depuis le début des années 2000, un élargissement considérable du choix des équipements et des protocoles expérimentaux, aussi bien pour la fabrication des lames que pour l’amélioration des conditions de manipulation en vue d’optimiser la sensibilité, la spécificité et la reproductibilité de la méthode ([34] pour revue). Les études exploitant l’utilisation des puces à ADN se multiplient rapidement dans des domaines d’application variés. Désormais, l’accent est mis prioritairement sur le besoin de rationaliser la gestion des expériences et de développer des systèmes de stockage et d’analyse de la masse de données générée. Les paragraphes suivants présentent les applications les plus courantes, illustrées d’exemples choisies en particulier parmi les nombreuses études publiées sur la levure S. cerevisiae. 3. Application à l’analyse de l’expression transcriptionnelle 3.1. Principe général L’analyse de l’expression transcriptionnelle des gènes (parfois appelée « expression profiling ») a été la première application pour laquelle la technologie des puces à ADN a été développée avec succès. C’est encore l’application largement dominante aujourd’hui. L’hybridation d’un échantillon biologique sur une puce à ADN permet d’identifier et de 8 mesurer l’abondance des espèces d’ARN messagers (ARNm) qu’il contient. Dans la suite de mon étude, pour simplifier, le terme expression désignera, sauf indication contraire, l’expression transcriptionnelle, c’est-à-dire la production d’ARNm transcrits à partir de la matrice d’ADN d’un gène activé. (cid:131) L’utilisation des puces « spottées » permet d’acquérir une mesure relative du niveau d’expression des gènes dans un échantillon cellulaire par rapport à un témoin de référence, par exemple une souche mutée comparée à une souche sauvage, ou des cellules cultivées dans deux conditions différentes. Le principe expérimental est résumé dans la Figure 1: ADN àdéposer échantillon référence Impression robotisée Extraction d’ARNm a Cy5 Cy3 b Cibles d’ADNc avec marquage fluorescent c Hybridation et lecture Figure 1 : Principe général de l’analyse de l’expression transcriptionnelle sur une puce de type « spottée » (a) L’ensemble des ARNm sont extraits des prélèvements de cultures cellulaires à analyser. (b) Une transcription reverse est réalisée en présence de nucléotides modifiés permettant de coupler un marqueur fluorescent. Des cibles d'ADN complémentaires (ADNc) représentatives de l'ensemble des gènes exprimés pour chaque culture sont ainsi obtenues. (c) Les deux échantillons sont marqués par des fluorochromes à spectres d’émission distincts (les plus couramment utilisées sont les carbocyanines Cy3 et Cy5) et hybridées simultanément sur une même puce. Au contact de la puce, les brins d'ADNc marqués s'apparient avec les sondes de séquence complémentaire sur la lame. La mesure de l’intensité du signal fluorescent émis sur chaque spot permet ainsi d’estimer le taux d’expression différentiel du gène correspondant. (cid:131) L’utilisation de puces à oligonucléotides de type Affymetrix permet de quantifier en théorie l’abondance absolue de chaque ARNm transcrit. Les ARNm de l’échantillon à 9
Description: