Approches algébriques pour la gestion et l’exploitation de partitions sur des jeux de données Frédéric Dumonceaux To cite this version: Frédéric Dumonceaux. Approches algébriques pour la gestion et l’exploitation de partitions sur des jeux de données. Base de données [cs.DB]. Université de Nantes, 2015. Français. NNT: . tel- 01235087 HAL Id: tel-01235087 https://hal.archives-ouvertes.fr/tel-01235087 Submitted on 27 Nov 2015 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Thèse de Doctorat Frédéric D UMONCEAUX Mémoire présenté en vue de l’obtention du gradedeDocteurdel’Université de Nantes sous le label de l’Université de Nantes Angers Le Mans Écoledoctorale:Sciencesettechnologiesdel’information,etmathématiques Discipline:Informatiqueetapplications,sectionCNU27 Unitéderecherche:Laboratoired’informatiquedeNantes-Atlantique(LINA) Soutenuele16Octobre2015 Approches algébriques pour la gestion et l’exploitation de partitions sur des jeux de données JURY Rapporteurs: M.Sofian MAABOUT,MaîtredeConférences(HDR),UniversitédeBordeaux1 Mme Marie-Christine ROUSSET,Professeur,UniversitédeGrenoble Examinateurs: M.Amedeo NAPOLI,Directeurderecherche,CNRS,UniversitéHenri-Poincaré(Nancy1) M.Jin-Kao HAO,Professeur,Universitéd’Angers Directeurdethèse: M.Marc GELGON,Professeur,UniversitédeNantes Remerciements Bien que je n’aie jamais prêté d’attention particulière à la section des remerciements dans les manuscrits que j’ai pu parcourir lors de ma thèse de doctorat, je me suis posé la question de sa pertinence dans le récit global de ma thèse et du formalisme qui y est développé. Cette thèse n’est pas simplement l’aboutissement de plusieurs années d’un travail entrepris il y a quatre ans, mais plutôt le prolongement d’une vocation qui est apparue lorsdemesétudesuniversitairesetquejedoisauxpersonnesrencontréesduranttoutes ces années. J’aiunepenséetouteparticulièrepourAlexandreDikovsky,logicienrespecté,décédé en 2014, qui m’enseigna les rudiments de la logique et du raisonnement pendant mes années de licence, puis d’intelligence artificielle en master. Déconcerté par le person- nage et l’étendue de ses connaissances, il était souvent difficile de s’imprégner de sa compréhension des problèmes auxquels il nous confrontait. Son matériel pédagogique étaitégalementimpénétrabledufaitdelarigueurnécessaireàsacompréhension.Pour- tant, il faisait preuve d’une grande patience; il exprimait toujours la volonté de nous aider à surmonter nos difficultés et n’était jamais avare s’agissant de conseils pratiques ou de lectures permettant d’approfondir certains points. C’estdecetteexpérienceinitialequ’estnémonengouementpourlarecherchescien- tifique,lavolontéd’approfondirmesconnaissancesetmaréconciliationavecl’usagedes mathématiques.D’autresrencontresavecdesenseignants-chercheursontégalementété déterminantesdansmavolontéderéaliserundoctoratetmesremerciementspourl’aide et le soutien qu’ils m’ont apportés leur sont également adressés. Cettethèsen’auraitévidemmentpasexistésansleconcoursdemesencadrantsMarc Gelgon et Guillaume Raschia qui m’ont offert cette opportunité. Tous les deux ont été présents tout le long de ma thèse pour me conseiller sur le plan scientifique et hu- main. En particulier, ils ont toujours su me diriger tout en me permettant de travailler en autonomie au jour le jour et en me laissant le choix des pistes à suivre. Leur aide dans l’écriture de mes articles, ainsi que le présent manuscrit, fut également d’une aide précieuse pour communiquer mes résultats. Je les remercie chaleureusement de leur soutien et de leur présence pendant ces quatre années. Je remercie également Marie-Christine Rousset et Sofian Maabout qui m’ont fait l’honneur d’être les rapporteurs de ma thèse ainsi que Jin-Kao Hao pour avoir accepté 3 4 d’êtreexaminateurdecelle-ci.Enoutre,jeremercieAmedeoNapolipoursaprésenceen tant que président du jury malgré ses nombreux engagements professionnels pendant la même période. Jetienségalementàremercierl’ensembledesmembresdesancienneséquipesGRIM et COD, constituant désormais l’équipe DUKe, ainsi que les secrétaires du département pourl’ambiancedetravailchaleureuseetdécontractéeautantsurleplandelarecherche que de l’enseignement, ainsi que les discussions passionnantes et passionnées devant la machine à café ou au détour d’un couloir et bien sûr en salle de travaux pratiques. Dernier point, mais non des moindres, je tiens à remercier mes amis et mes proches, ainsi que ceux qui le sont devenus pendant ces quatre années, et qui ont été un soutien de poids dans les moments de doute et ont su trouver les mots justes pour surmonter les passages à vide. Table des matières 1 Introduction 9 2 Éléments d’algèbre universelle 17 2.1 Introduction / Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Relations et Structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Sous-structures et leurs propriétés . . . . . . . . . . . . . . . . . 20 2.3 Homomorphismes et isomorphismes de structures . . . . . . . . . . . . . 26 2.3.1 Généralités et Principes . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.2 Images, noyaux et compositions . . . . . . . . . . . . . . . . . . . 28 2.4 Relations de congruence, algèbres quotients et modèles . . . . . . . . . . 33 3 Ensembles ordonnés, Treillis et leurs applications 39 3.1 Ensembles partiellement ordonnés . . . . . . . . . . . . . . . . . . . . . 39 3.1.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.1.2 Liens avec les ordres stricts . . . . . . . . . . . . . . . . . . . . . 46 3.1.3 Relation de couverture et Diagramme de Hasse . . . . . . . . . . 48 3.1.4 Bornes et sous-ensembles remarquables . . . . . . . . . . . . . . 54 3.2 Treillis et algèbre de l’ordre . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.2.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.2.2 Propriétés ordinales des treillis . . . . . . . . . . . . . . . . . . . 61 3.2.3 Morphisme de treillis . . . . . . . . . . . . . . . . . . . . . . . . . 68 5 6 TABLE DES MATIÈRES 3.3 Représentation des treillis . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.3.1 Éléments premiers et parties génératices . . . . . . . . . . . . . . 69 3.3.2 Extension canonique . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4 Agrégation dans les entrepôts de données 75 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.1.1 Notre proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.2 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.3 Modélisation du cube de données . . . . . . . . . . . . . . . . . . . . . . 80 4.3.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3.2 Projections canoniques sur l’ensemble des attributs A . . . . . . . 84 4.4 Construction du treillis des partitions annotées . . . . . . . . . . . . . . 86 4.5 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.5.1 Aspects computationnels . . . . . . . . . . . . . . . . . . . . . . . 99 4.5.2 Processus opérationnel global . . . . . . . . . . . . . . . . . . . . 99 4.6 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5 Application au consensus de partitions 107 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.1.1 Les problématiques liées à la classification . . . . . . . . . . . . . 109 5.1.2 La voie axiomatique et ses implications . . . . . . . . . . . . . . . 110 5.1.3 Notre analyse du problème . . . . . . . . . . . . . . . . . . . . . 114 5.2 Sur le treillis des partitions . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.2.1 Représentation des partitions . . . . . . . . . . . . . . . . . . . . 116 5.2.2 Filtrage des partitions . . . . . . . . . . . . . . . . . . . . . . . . 121 5.3 Dualité sur le treillis des partitions . . . . . . . . . . . . . . . . . . . . . 127 5.3.1 Le treillis des antichaînes . . . . . . . . . . . . . . . . . . . . . . 127 5.3.2 Relations entre les antichaînes et les paires filtre-idéal . . . . . . 133 5.3.3 Représentation générale des treillis . . . . . . . . . . . . . . . . . 137 TABLE DES MATIÈRES 7 5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 6 La partition dans les SGBD 147 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.2 Travaux liés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 6.3 Modèle de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 6.3.1 Représentation extensionnelle . . . . . . . . . . . . . . . . . . . . 151 6.3.2 Encodage relationnel . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.4 Réalisation des opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 158 6.4.1 Opérateur de différence . . . . . . . . . . . . . . . . . . . . . . . 159 6.4.2 Opérateur de borne inférieure . . . . . . . . . . . . . . . . . . . . 160 6.4.3 Opérateur de borne supérieure . . . . . . . . . . . . . . . . . . . 160 6.4.4 Optimisations suivant des fonctionnalités SQL . . . . . . . . . . . 163 6.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 6.5.1 Configuration des expériences . . . . . . . . . . . . . . . . . . . . 165 6.5.2 Générations des partitions . . . . . . . . . . . . . . . . . . . . . . 166 6.5.3 Résultats et analyses . . . . . . . . . . . . . . . . . . . . . . . . . 167 6.6 Variantes pour le calcul de la borne supérieure . . . . . . . . . . . . . . . 170 6.6.1 Structure de données et problématique associée . . . . . . . . . . 175 6.6.2 Tri préalable des classes . . . . . . . . . . . . . . . . . . . . . . . 181 6.6.3 Version stochastique . . . . . . . . . . . . . . . . . . . . . . . . . 187 6.7 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.7.1 Résultats et analyses . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 7 Conclusions et Perspectives 195 8 Annexe 199 8.1 Annexe A : Requêtes SQL . . . . . . . . . . . . . . . . . . . . . . . . . . 199 8 TABLE DES MATIÈRES 8.2 Annexe B : Plans d’exécution . . . . . . . . . . . . . . . . . . . . . . . . 202 Bibliographie 220 1 Introduction Lesdeuxdernièresdécenniesontvul’essordesméthodesd’analysesdedonnéesmultidi- mensionnelles dans des domaines d’application aussi variés que les sciences humaines, lasociologieoul’économie[124,24,116].Leprincipegénéralàl’oeuvreestfondésurla recherched’uneouplusieursinformationsstatistiquespermettantderésumerl’informa- tionafind’établiruncaractèred’homogénéité,s’ilenexiste,etdoncdefaciliterl’analyse par une tierce personne. La transformation de ou des informations vers un savoir intel- ligible n’en demeure pas moins une tâche peu évidente, car elle impose une altération de celles-ci sous l’influence de notre perception à déterminer ce qui est pertinent ou significatif. Quelle que soit l’application, on souhaite pouvoir manipuler les informations ex- traites à l’aide de représentations symboliques des données et d’un ensemble de primi- tives, sous la forme de prédicats ou de relations, qui décrivent comment interagissent cesélémentsentreeux.Unedescriptionontologiquepermetalorsdedégagerl’ensemble des concepts permettant de qualifier ce qui existe en utilisant les notions du domaine. On distingue ainsi les entités et les prédicats comme étant les unités de base de la connaissance (c.f. [118] et les études plus récentes [61, 25]). Les entités sont des unités ponctuelles ou discrètes qui forment naturellement l’uni- vers du discours, soit le monde avec lequel on souhaite interagir ou le sujet sur lequel portentlesprédicats.Pardescombinaisonsdesprédicatsavecdesconnecteurslogiques, on est alors en mesure de formuler des propositions logiques dont la véracité dépend des faits qui décrivent de manière abstraite l’état du monde à un instant particulier. Celles-ci sont également les propositions atomiques à partir desquelles toutes les autres sont formulables [34]. 9
Description: