ebook img

Analyse distributionnelle appliquée aux textes de spécialité PDF

163 Pages·2017·0.98 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Analyse distributionnelle appliquée aux textes de spécialité

UNIVERSITÉ PARIS 13 LIMICS — UMR U1142 SORBONNE PARIS CITÉ T H È S E pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ PARIS 13 Discipline : Informatique présentée et soutenue publiquement par Amandine PÉRINET le 17 mars 2015 Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes Composition du jury Mme Cécile FABRE Professeur, CLLE-ERSS, Univ. Toulouse 2 Rapporteur M. Emmanuel MORIN Professeur, LINA-CNRS Rapporteur M. Thierry CHARNOIS Professeur, LIPN, Univ. Paris 13 Président M. Pierre ZWEIGENBAUM Directeur de recherche, LIMSI-CNRS Examinateur M. Olivier FERRET Chercheur, CEA LIST Examinateur Mme Sylvie DESPRÉS Professeur, LIMICS-INSERM Directrice M. Thierry HAMON MCF, LIMSI-CNRS et Univ. Paris 13 Encadrant Remerciements Je tiens en premier lieu à remercier Cécile Fabre et Emmanuel Morin qui m’ont fait l’honneur d’être rapporteurs de cette thèse. Je remercie également les autres membres du jury, à commencer par Thierry Charnois qui a accepté d’en être le président. Merci à Olivier Ferret d’avoir pris le temps de relire cette thèse bien que lui-même occupé par la rédaction de son HDR; ses nombreuses remarques m’ont été très utiles. Et enfin,j’exprime ma profonde reconnaissance à Pierre Zweigenbaum pour sa relecture minutieuse et détaillée qui m’a permis d’améliorer significativement le manuscrit. Je remercie Sylvie Després d’avoir accepté de diriger cette thèse. Je remercie chaleureusement Thierry Hamon de m’avoir proposé ce grand défi de thèse en informatique, de par mon cursus traductique. Je le remercie pour sa disponibilité (surtout pendant la dernière année), sa grande pédagogie et pour m’avoir transmis sa rigueur dans le travail. Je remercie l’équipe de l’anciennement Lim&Bio - actuel LIMICS de m’avoir accueillie pendant la durée de ma thèse. Un clin d’œil particulier à mes collègues de bureau, Maïa, Mobin et Romain. Je remercie Nicolas Grenèche pour son aide et sa disponibilité pour l’utilisation du serveur Magi de l’Université Paris 13. Merci à Eric de la Clergerie de m’avoir accuieillie dans les locaux de l’INRIA. Mon expérience de thèse est également marquée par ces moments passés avec Corentin, Mikaël, Benjamin, Paul et les stagiaires de passsage. Je garderai en mémoire les nombreuses discussions avec François Barthélémy, dans la navette pour aller ou venir de l’INRIA. Merci! Enfin, je remercie Claire Lemaire pour ses nombreux conseils. Merci à l’équipe Pygmalion-FR avec qui j’ai travaillé en parallèle de la thèse pendant la dernière année. Merci à Bruno, Jana, Laurent, Karine, Alice, Romain, Julie, Bénédicte, Gauthier et Asceline. J’ai été amenée à travailler avec Marie Dupuch et Natalia Grabar. Je les remercie particulièrementde m’avoirfaitparticiperau travailde thèse de Marie. Cette expérience m’a été très utile notamment pour aborder ma thèse sous un angle plus informatique et mathématique. iii Lors de mes participations à des conférences ou workshops, j’ai bénéficié de nombreux retours, remarques, questions et commentaires sur mes travaux. Je remercie tous ceux qui m’ont permis de faire avancer ce travail de recherche. Je remercie tous ceux avec j’ai échangé pendant la thèse, de près ou de loin en rapport avec mon sujet. Merci François (Morlane-Hondère), Mounira, Ornella, et excusez-moi si j’en oublie! Un très grand merci à ma famille, souvent bien trop loin. Je terminerai ces remerciements par un merci incommensurable à celui qui m’a accom- pagnée, encouragée, conseillée, et qui m’a surtout beaucoup aidée quand mes heures de sommeil ne correspondaient qu’au cinquième des heures de travail. Merci Damien pour ta patience et ton soutien. Cette thèse te doit beaucoup. Table des matières Remerciements iii Table des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 1 Introduction 1 1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Présentation des chapitres . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Etat de l’art 9 2.1 Paramètres distributionnels . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.1 Définition et sélection des contextes . . . . . . . . . . . . . . . . 12 2.1.1.1 Fenêtre graphique . . . . . . . . . . . . . . . . . . . . 13 2.1.1.2 Dépendances syntaxiques . . . . . . . . . . . . . . . . 15 2.1.1.3 Positionnement . . . . . . . . . . . . . . . . . . . . . . 16 2.1.2 Force d’association des contextes . . . . . . . . . . . . . . . . . 17 2.1.3 Mesure de la proximité distributionnelle . . . . . . . . . . . . . 18 2.1.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Modèles vectoriels ou d’espaces sémantiques . . . . . . . . . . . . . . . 21 2.2.1 Représentation géométrique du sens des mots . . . . . . . . . . 21 2.2.2 Matrice de co-occurrence . . . . . . . . . . . . . . . . . . . . . . 23 2.3 Limites : dispersion des données . . . . . . . . . . . . . . . . . . . . . . 24 2.4 Solutions aux limites de l’AD . . . . . . . . . . . . . . . . . . . . . . . 25 2.4.1 Influence sur les contextes . . . . . . . . . . . . . . . . . . . . . 25 2.4.2 La réduction de dimensions (par exemple, la projection aléatoire) 26 2.4.2.1 Modèles basés sur la Décomposition aux Valeurs Sin- gulières (SVD) . . . . . . . . . . . . . . . . . . . . . . 26 2.4.2.2 Random Indexing (RI) ou projection aléatoire . . . . . 28 2.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3 Méthode d’abstraction des contextes distributionnels 31 3.1 Méthode distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.1 Définition des mots cibles et des contextes (étape 1) . . . . . . . 32 3.1.2 Sélection des contextes (étape 1bis) . . . . . . . . . . . . . . . . 34 vii 3.1.3 Calcul de la similarité sémantique (étape 3) . . . . . . . . . . . 35 3.2 Règles d’abstraction des contextes distributionnels . . . . . . . . . . . . 37 3.2.1 Règles de généralisation des contextes . . . . . . . . . . . . . . . 38 3.2.2 Règle de normalisation des contextes . . . . . . . . . . . . . . . 39 3.2.3 Combinaison des règles de normalisation et généralisation . . . . 40 3.3 Méthodes d’acquisition de relations sémantiques pour l’abstraction des contextes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.1 Patrons lexico-syntaxiques . . . . . . . . . . . . . . . . . . . . . 40 3.3.2 Inclusion lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.3 Variation morphosyntaxique . . . . . . . . . . . . . . . . . . . . 42 3.3.4 Inférence de relations de synonymie . . . . . . . . . . . . . . . . 43 3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4 Corpus et évaluation 45 4.1 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1 Corpus de petite taille : corpus médicaux . . . . . . . . . . . . . 45 4.1.1.1 Corpus Menelas . . . . . . . . . . . . . . . . . . . . . . 47 4.1.1.2 Corpus de textes cliniques . . . . . . . . . . . . . . . . 48 4.1.2 Corpus de grande taille : corpus alimentaires . . . . . . . . . . . 48 4.1.2.1 Corpus de recettes de cuisine (Recettes) . . . . . . . . 50 4.1.2.2 Corpus de guides alimentaires (Guides Alimentaires) . 51 4.1.3 Pré-traitement des corpus . . . . . . . . . . . . . . . . . . . . . 52 4.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2.1 Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2.1.1 Domaine médical . . . . . . . . . . . . . . . . . . . . . 54 4.2.1.2 Domaine alimentaire . . . . . . . . . . . . . . . . . . . 55 4.2.1.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.2.2 Métriques d’évaluation . . . . . . . . . . . . . . . . . . . . . . . 58 4.2.2.1 Macro-précision . . . . . . . . . . . . . . . . . . . . . . 58 4.2.2.2 R-précision . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2.2.3 Moyenne des précisions moyennes (Mean Average Pre- cision : MAP) . . . . . . . . . . . . . . . . . . . . . . . 60 4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5 Expériences et résultats 63 5.1 Définition de paramètres distributionnels adaptés aux textes de spécialité 63 5.1.1 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.1.2 Mesures de similarité et de pondération . . . . . . . . . . . . . . 66 5.1.2.1 Corpus de petite taille . . . . . . . . . . . . . . . . . . 67 5.1.2.2 Corpus de grande taille . . . . . . . . . . . . . . . . . 70 5.1.3 Seuils et sélection des contextes . . . . . . . . . . . . . . . . . . 73 5.1.3.1 Seuils sur les mots cibles et les contextes . . . . . . . . 73 5.1.3.2 Impact des seuils sur les mots cibles et les contextes . . 74 5.1.3.3 Sélection des contextes les plus discriminants . . . . . 80 5.1.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.2 Abstraction des contextes . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.2.1 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.2.2 Généralisation des contextes distributionnels . . . . . . . . . . . 85 5.2.2.1 Corpus de petite taille . . . . . . . . . . . . . . . . . . 86 5.2.2.2 Corpus de grande taille . . . . . . . . . . . . . . . . . 95 5.2.2.3 Bilan sur la généralisation des contextes . . . . . . . . 102 5.2.3 Normalisation des contextes distributionnels . . . . . . . . . . . 103 5.2.3.1 Normalisation des contextes . . . . . . . . . . . . . . . 103 5.2.3.2 Normalisation combinée à la généralisation . . . . . . . 107 5.3 Comparaison à une approche par réseaux de neurones . . . . . . . . . . 115 5.3.1 Word2vec : choix des paramètres . . . . . . . . . . . . . . . . . 116 5.3.2 Qualité des groupements sémantiques obtenus . . . . . . . . . . 117 5.4 Bilan sur les expériences . . . . . . . . . . . . . . . . . . . . . . . . . . 120 6 Conclusion et perspectives 123 6.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Annexes 127 A Références pour les textes du corpus Guides Alimentaires . . . . . . . . 127 B Résultats : Impact des seuils en fonction de la mesure de similarité utilisée (corpus de grande taille) . . . . . . . . . . . . . . . . . . . . . . 129 B.1 Cosinus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 B.2 Cosinus pondéré avec l’information mutuelle . . . . . . . . . . . 130 B.3 Indice de Jaccard non pondéré . . . . . . . . . . . . . . . . . . . 131 B.4 Nombre de contextes partagés . . . . . . . . . . . . . . . . . . . 132 Bibliographie 133 Index 145 Résumés 147

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.