UNIVERSITÉ DE NANTES FACULTÉ DES SCIENCES ET DES TECHNIQUES _____ ECOLE DOCTORALE 3MPL MATIERE, MOLECULE, MATERIAUX EN PAYS DE LA LOIRE Année 2013 Conception, réalisation et exploitation du traitement de données de l'expérience ALICE pour la simulation, la reconstruction et l'analyse ___________ THÈSE DE DOCTORAT Discipline : Physique Spécialité : Constituants Élémentaires et Physique Théorique Présentée et soutenue publiquement par Federico CARMINATI Le 22 février 2013, devant le jury ci-dessous Président : Jacques MARTINO Rapporteurs : Patrick AURENCHE, Directeur de Recherche Emeritus, LAPTH - Laboratoire d'Annecy- le-Vieux de Physique Théorique ; Yacine KADI, Professeur, CERN – Organisation Européenne pour la Recherche Nucléaire, Genève, Suisse, & Department of Energy Sciences, Sungkyunkwan University, Republic of Korea. Examinateurs : Sonia KABANA, Professeur II, Université de Nantes, Département de Physique et Laboratoire SUBATECH Jacques MARTINO, Directeur de l'Institut National de Physique Nucléaire et de Physique des Particules (IN2P3) du CNRS, Paris, Yves SCHUTZ, CNRS et CERN Directeur de thèse : Yves SCHUTZ Traitement des données de l’expérience ALICE -‐ Ou d'aller encore une fois, ô forêt pleine de mystère, -‐ jusqu'à ce lieu que je connais, où, dans une eau morte et brunie, trempent et s'amollissent encore les feuilles des ans passés, les feuilles des printemps adorables. C'est là que se reposent le mieux mes résolutions inutiles, et que se réduit à la fin, à peu de chose, ma pensée. André Gide, Paludes À Giuliana sans qui ce travail, comme beaucoup d’autres choses, n’aurait pas eu lieu. À mes parents. 3/275 Traitement des données de l’expérience ALICE 4/275 Traitement des données de l’expérience ALICE Remerciements Je voudrais remercier mon directeur de thèse, le Dr. Y. Schutz, pour son soutien dans cette aventure tardive et inhabituelle. J’ai du mal à imaginer quelqu’un d’autre avec qui j’aurais pu être doctorant et en même temps travailler au jour le jour avec autant de plaisir. Son sens de l’humour, sa compétence et son amitié m’ont été précieux. Je tiens à remercier l'ensemble des membres du jury pour l'honneur qu'ils m'ont fait en acceptant de juger ce travail de doctorat : Patrick Aurenche, Directeur de Recherche au LAPTH, Annecy ; Sonia Kabana, Professeur à l'Université de Nantes ; Yacine Kadi, directeur du projet HI-‐ISOLDE au CERN et Professeur à l'Université de Sungkyunkwan (Corée) et Jacques Martino, directeur de l'IN2P3. Ce travail doit son existence à Giuliana, mon épouse. C’est elle qui m’a encouragé, soutenu et inspiré tout au long, parfois avec discrétion et parfois de façon très explicite. Il m’en a fallu autant pour sortir de mes doutes, et je la remercie pour son énergie et sa détermination. Avec l’amour en prime. Pour mes collègues, qui m’ont accompagné pendant toutes ces années et avec lesquels nous avons imaginé, bâti et déployé le système de calcul de ALICE, j’éprouve un sentiment de gratitude que les mots ne peuvent exprimer. Ceux qui je voudrais remercier, au CERN mais aussi ceux dispersés aux quatre coins du monde, sont trop nombreux pour les nommer sans craindre d’en oublier. Parmi eux, une personne a tenu une place spéciale, Latchezar Betev, collaborateur fidèle et ami, pierre angulaire sur laquelle tout l’édifice a été bâti. Parce que c'était lui, parce que c'était moi. Un grand merci à Yiota Foka pour son amitié et pour ses conseils tout au long de ce travail. Merci et merci encore à Maud Struchen, notre chère correctrice, pour sa lecture attentive et intelligente de mon manuscrit. En dernier je ne peux m’empêcher d’avoir une petite pensée pour ma psychanalyste, Madame Françoise Palmaro, car l’achèvement de ce travail sera pour elle l’occasion d’un changement de sujet dans nos conversations, ce que j’imagine être bienvenu. 5/275 Traitement des données de l’expérience ALICE 6/275 Traitement des données de l’expérience ALICE Résumé L'expérience ALICE (A Large Ion Collider Experiment) auprès de l'accélérateur LHC (Large Hadron Collider) du CERN (Organisation Européenne pour la Recherche Nucléaire) s'appuie sur un environnement logiciel intégré pour la conception du dispositif expérimental, l'évaluation de ses performances et le traitement des données. Cet environnement a été conçu par l’auteur. Il inclut des générateurs d'événements, les algorithmes de transport des particules décrivant de façon détaillée les interactions particule-‐matière (conçus et réalisés par l’auteur), les reconstructions des traces des particules et leur identification, et les analyses finales de physique. Mots-‐clés : Ion lourds, logiciel, grille informatique, nuage informatique, génie logiciel, reconstruction, simulation, analyse Summary The ALICE (A Large Ion Collider Experiment) at the CERN (Conseil Européen pour la Recherche Nucléaire) LHC (Large Hadron Collider) facility uses an integrated software framework for the design of the experimental apparatus, the evaluation of its performance and the processing of the experimental data. The author has designed this framework. It includes the event generators and the algorithms for particle transport describing the details of the interaction particles-‐matter (designed and implemented by the author), the reconstruction of the particle trajectories and the final physics analysis. Keywords: Heavy Ions, software, Grid, Cloud, software engineering, reconstruction, simulation, analysis 7/275 Traitement des données de l’expérience ALICE 8/275 Traitement des données de l’expérience ALICE Synopsis Depuis son démarrage en septembre 2010, l’expérience ALICE (A Large Ion Collider Experiment) auprès de l'accélérateur LHC (Large Hadron Collider) du CERN (Organisation Européenne pour la Recherche Nucléaire) a récolté 154 µb-‐1 de collisions Plomb-‐Plomb, 18,2 pb-‐1 de collisions proton-‐proton et 60 µb-‐1 de collisions proton-‐Plomb pour un total de 2,9 x 109 collisions proton-‐proton, 5 x 108 collisions Plomb-‐Plomb et 107 collisions proton-‐Plomb. Le détecteur a enregistré 7 Po de données brutes et a produit 10 Po de données pour un total de 550 millions de fichiers, nécessitant pour cela l’équivalent de 55.000 années de temps de calcul. Cette énorme entreprise de traitement de données a été réalisée au cours des trois dernières années sur plus de quatre-‐vingt centres de calcul, dans trente pays travaillant ensemble grâce à une structure de calcul distribuée appelée Grille informatique, principalement développée par et pour la communauté mondiale de la Physique des Haute Énergies. C’est seulement au prix d’un tel effort que les résultats expérimentaux peuvent être analysés et interprétés pour en extraire les informations « physiques » qui font progresser notre connaissance de la structure intime de la matière. Pour mettre en œuvre une telle entreprise, la collaboration ALICE a dû développer pendant plus de dix années une suite de programmes, qui compte aujourd’hui plus de 10 millions de lignes de code, et participer activement au développement et au déploiement de la première et de la plus grande structure de calcul intégrée et distribuée au monde. Cette thèse décrit l’architecture de l’infrastructure de calcul de l’expérience ALICE au LHC et son développement, de mon point de vue très personnel qui est celui du coordinateur du calcul qui a guidé ce projet de la phase initiale de conception jusqu’à son déploiement et son application au traitement des données des collisions de protons et d’ions lourds générées par le LHC et détectées par le détecteur construit par la collaboration ALICE. Si l’effort informatique déployé pour le LHC est considérable, et, dans un sens, d’une ampleur sans précédent, il est tout aussi vrai que depuis ses débuts la Physique des Hautes Énergies s'est fortement appuyée sur les ordinateurs pour extraire les résultats de physique à partir des observations expérimentales. Toutefois, la complexité de l'informatique pour la Physique des Hautes Énergies n'est pas seulement due à la quantité des ressources nécessaires, mais aussi aux conditions dans lesquelles ces ressources sont agencées et dans lesquelles le logiciel est développé et maintenu. Des nos jours, une expérience de Physique des Hautes Énergies est constituée par une vaste collaboration internationale comptant des milliers de physiciens, ingénieurs et techniciens provenant de centaines d'instituts dans des dizaines de pays différents. Ces chercheurs, ne se rencontrant que rarement, et avec peu de structure hiérarchique entre eux, travaillent indépendamment les uns des autres avec et sur le même code et grâce à une structure informatique unique. Les exigences changent très fréquemment et les problèmes à résoudre repoussent souvent les limites de la connaissance scientifique, à la fois en physique, mais aussi en informatique. On peut dire que la recherche scientifique en physique fondamentale est limitée non pas par la 9/275 Traitement des données de l’expérience ALICE créativité de ses chercheurs, mais par l'état de l'art actuel de l'ingénierie et de l'informatique. Il est ainsi fréquent que les physiciens soient à l'origine de développements importants dans le domaine de l'informatique. Parmi les exemples notables, citons l'invention du Toile au CERN et, plus récemment, le développement et le déploiement, pilotés par le CERN, de la Grille de calcul pour le stockage et le traitement des données collectées par les expériences du LHC. Bien qu’actuellement la Grille soit encore en plein essor, l'attention de l’informatique pour la Physique des Hautes Énergies se déplace déjà vers le calcul « de nuage » (en anglais Cloud Computing), le calcul massivement parallèle et la virtualisation, pour anticiper les nouvelles technologiques à venir. Bien que ces développements se popularisent à l’extérieur du domaine de la Physique des Hautes Énergies, et qu’ils aient bénéficié d’une certaine exposition médiatique à l’intérieur des expériences de physique, la reconnaissance du métier de « physicien programmeur » comme une des « professions de la physique » est loin d’être acquise. Les physiciens programmeurs eux-‐mêmes ne se considèrent la plupart du temps que comme des physiciens qui « par nécessité » et « temporairement » se consacrent à l’informatique, même si ce temporaire peut parfois durer le temps d’une carrière. Une des conséquences de cet état d’esprit a été que plusieurs techniques et concepts de calcul, développés et appliqués dans le cadre de la Physique des Hautes Énergies, ont eu du succès seulement après avoir été « réinventés » et développés indépendamment, souvent des années plus tard. Pour n’en citer que deux exemples, la distribution libre du logiciel source ou les techniques de développement « agiles » ont été utilisées pendant plusieurs années dans la Physique des Hautes Énergies, mais n’ont été reconnues comme des entités conceptuelles importantes qu’après avoir été « conceptualisées » dans d’autres environnements. Tout comme les détecteurs, les systèmes informatiques pour la Physique des Hautes Énergies sont des réalisations uniques, souvent à la pointe, voire au-‐delà, de l’état de l’art de la technologie. L’expérience nous a montré que pour réaliser ces systèmes, il est nécessaire de créer un métier associant une formation de physicien à des connaissances approfondies d’ingénieur informatique, sans oublier des compétences de gestionnaire de projet. Effectivement, seule une compréhension détaillée des objectifs et des méthodes utilisées par les physiciens dans leur travail permet de comprendre leurs besoins, à la fois en termes de fonctionnalité mais aussi d’évolution de l’outil informatique et de communication. Cela ne signifie pas que les ingénieurs informatiques n’aient pas leur place dans les développements des systèmes de calcul pour la Physique des Hautes Énergies, mais la participation des physiciens au développement de leur outil informatique, notamment dans le rôle de planification et de direction du projet de calcul, reste fondamentale. La principale raison qui a motivé l’écriture de thèse relève de la volonté de présenter de façon détaillée le système informatique d’une expérience de Physique des Hautes Énergies actuelle, non seulement par ses résultats, mais en 10/275
Description: