Int´egration de ressources lexicales riches dans un analyseur syntaxique probabiliste ` THESE DE DOCTORAT pr´esent´ee et soutenue publiquement le 3 d´ecembre 2012 pour l’obtention du Doctorat de l’Universit´e Paris-Est (sp´ecialit´e informatique linguistique) au titre de l’Ecole Doctorale MSTIC par Sigogne Anthony Composition du jury Directeur de th`ese : E´ric Laporte (Universit´e Paris-Est) Co-directeur de th`ese : Matthieu Constant (Universit´e Paris-Est) Rapporteurs : Alexis Nasr (Universit´e Aix-Marseille) Thierry Poibeau (LaTTiCe) Examinateurs : Djam´e Seddah (Universit´e Paris-Sorbonne Paris 4) Isabelle Tellier (Universit´e Sorbonne Nouvelle Paris 3) Laboratoire d’Informatique Gaspard Monge — UMR 8049 LIGM Labex Bezout Remerciements En premier lieu, je souhaiterais remercier les membres du jury, à savoir Alexis Nasr, Thierry Poibeau,DjaméSeddahetIsabelleTellier,pourleurremarquesetcritiquespertinentessurmon travail. Je remercie également mon directeur de thèse, Eric Laporte, ainsi que mon co-directeur, Mat- thieu Constant, pour toute l’aide apportée tout au long de mon parcours de jeune chercheur. Grâce à eux, il m’a été possible de développer de nombreuses compétences utiles à ma future carrière. De manière plus générale, j’aimerais également remercier les différents membres de l’équipe INFOLINGU: – Rosa Cetro et Myriam Rakho, mes deux collègues de bureau qui m’ont supporté durant ces 3années. – LiChietElsaTolone,quiaccomplissentàprésentunebrillantecarrièredanslarecherche. – TitaKyriacopoulou,poursabonnehumeuretl’impulsionqu’elledonneàl’équipe. – SébastienPaumier,pourm’avoirpermisd’intégrerunepartiedemontravaildanslelogiciel collaboratifUnitex. – ainsiquetouslesautres... Je voudrais saluer les membres d’autres équipes avec qui j’ai discuté, que ce soit pour des réunionsdetravailousimplementlorsdeconférences: – Thomas François et Seyed Abolghasem Mirroshandel, avec qui j’ai participé à plusieurs conférencesetexcursions. – JosephLeRouxetPatrickWatrin,avecquij’aiparticipéàl’écrituredeplusieursarticles. – Marie Candito et Djamé Seddah, qui m’ont donné de nombreux conseils et n’ont pas hésité àm’aiderlorsquej’enavaisbesoin. Pourfinir,jeremerciemafamilleetmesamisquim’ontsoutenupendantces3années. 1 2 Résumé Cette thèse porte sur l’intégration de ressources lexicales et syntaxiques du français dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l’étiquetage morpho-syntaxiqueprobabilisteetl’analysesyntaxiqueprobabiliste.Danslecadredufrançais, nous disposons d’une multitude de données lexicales et syntaxiques créées par des processus automatiquesoupardeslinguistes.Deplus,uncertainnombred’expériencesontmontrél’inté- rêtd’utiliserdetellesressourcesdanslesprocessusprobabilistescommel’étiquetageoul’ana- lyse,carellessontcapablesd’améliorersignificativementlesperformancesdessystèmes.Dans ce mémoire, nous utilisons ces ressources afin de donner une réponse à deux problématiques que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation automatiquedestextes. Grâce à des algorithmes d’analyse syntaxique de plus en plus évolués, les performances ac- tuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques permettantdemodéliserstatistiquementcettetâche(grammaire,modèlesdiscriminants,...).La dispersion des données est l’un de ces problèmes, et est causée principalement par la faible tailledescorpusannotésdisponiblespourlalangue.Ladispersionreprésenteladifficultéd’es- timer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l’apprentissage des analyseurs. De plus, il est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d’une langue estimportante,moinslesphénomèneslexicauxsontreprésentésdanslescorpusannotés.Notre premièreproblématiquereposedoncsurl’atténuationdel’effetnégatifdeladispersionlexicale desdonnéessurlesperformancesdesanalyseurs. Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical, et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus, liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements lexicaux à partir d’informations tirées des lexiques syntaxiques du français, et d’observer leur impactsurlesperformancesd’analyseurssyntaxiques. Parailleurs,laplupartdesévaluationsconcernantl’étiquetagemorpho-syntaxiqueprobabiliste et l’analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d’application, la segmentation d’un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses uni- tés multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple, cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième problématique portera donc sur la segmentation automatique des textes français et son impact surlesperformancesdesprocessusautomatiques. Pourcefaire,nousnoussommespenchésuruneapprocheconsistantàcoupler,dansunmême modèleprobabiliste,lareconnaissancedesmotscomposésetuneautretâcheautomatique.Dans notre cas, il peut s’agir de l’analyse syntaxique ou de l’étiquetage morpho-syntaxique. La re- connaissancedesmotscomposésestdoncréaliséeauseinduprocessusprobabilisteetnonplus dansunephasepréalable.Notreobjectifestdoncdeproposerdesstratégiesinnovantespermet- tant d’intégrer des ressources de mots composés dans deux processus probabilistes combinant l’étiquetageoul’analyseàlasegmentationdutexte. Mots-clés:Analysesyntaxique,Étiquetagemorpho-syntaxique,Probabilités,Lexiques,Hybri- dation,Dispersiondesdonnées,Segmentationautomatique Abstract This thesis focuses on the integration of lexical and syntactic resources of French in two fun- damental tasks of Natural Language Processing [NLP], that are probabilistic part-of-speech tagging and probabilistic parsing. In the case of French, there are a lot of lexical and syntactic datacreatedby automaticprocessesorbylinguists.In addition,anumberofexperiments have showninteresttousesuchresourcesinprocessessuchastaggingorparsing,sincetheycansig- nificantlyimprovesystemperformances.Inthispaper,weusetheseresourcestogiveananswer to two problems that we describe briefly below : data sparseness and automatic segmentation oftexts. Throughmoreandmoresophisticatedparsingalgorithms,parsingaccuracyisbecominghigher for many languages including French. However, there are several problems inherent in math- ematical formalisms that statistically model the task (grammar, discriminant models,...). Data sparseness is one of those problems, and is mainly caused by the small size of annotated cor- pora available for the language. Data sparseness is the difficulty of estimating the probability of syntactic phenomena, appearing in the texts to be analyzed, that are rare or absent from the corpus used for learning parsers. Moreover, it is proved that sparsness is partly a lexical prob- lem, because the richer the morphology of a language is, the sparser the lexicons built from a treebankwillbeforthatlanguage.Ourfirstproblemisthereforebasedonmitigatingthenega- tiveimpactoflexicaldatasparsenessonparsingperformance. To this end, we were interested in a method called word clustering that consists in grouping words of corpus and texts into clusters. These clusters reduce the number of unknown words, and therefore the number of rare or unknown syntactic phenomena, related to the lexicon, in texts to be analyzed. Our goal is to propose word clustering methods based on syntactic infor- mationfromFrenchlexicons,andobservetheirimpactonparsersaccuracy. Furthermore, most evaluations about probabilistic tagging and parsing were performed with a perfectsegmentationofthetext,asidenticaltotheevaluatedcorpus.Butinrealcasesofappli- cation,thesegmentationofatextisrarelyavailableandautomaticsegmentationtoolsfallshort of proposing a high quality segmentation, because of the presence of many multi-word units (compoundwords,namedentities,...).Inthispaper,wefocusoncontinuousmulti-wordunits, called compound words, that form lexical units which we can associate a part-of-speech tag. Wemayseethetaskofsearchingcompoundwordsastextsegmentation.Oursecondissuewill therefore focus on automatic segmentation of French texts and its impact on the performance ofautomaticprocesses. In order to do this, we focused on an approach of coupling, in a unique probabilistic model, the recognition of compound words and another task. In our case, it may be parsing or tag- ging.Recognitionofcompoundwordsisperformedwithintheprobabilisticprocessratherthan in a preliminary phase. Our goal is to propose innovative strategies for integrating resources of compound words in both processes combining probabilistic tagging, or parsing, and text segmentation. Keywords:Parsing,Part-Of-SpeechTagging,Probabilities,Lexicons,Hybridisation,Segmen- tation,Datasparseness Table des matières Introduction 19 1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 Plandelathèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Partie I État de l’art Chapitre1 Corpusannotés 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2 FrenchTreebank,uncorpusarborédufrançais . . . . . . . . . . . . . . . 26 1.3 FrenchTreebankendépendances . . . . . . . . . . . . . . . . . . . . . . 32 Chapitre2 Analysesyntaxiqueprobabiliste 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Évaluationdelaqualitédesanalyseurssyntaxiques . . . . . . . . . . . . . 38 7 Tabledesmatières 2.3 Modèles génératifs pour l’analyse syntaxique : Grammaires hors-contexte probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.4 Modèlesdiscriminantspourl’analysesyntaxique . . . . . . . . . . . . . . 57 2.5 Adaptation des analyseurs à de petits corpus et à des textes de genres dif- férents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Chapitre3 Étiquetagemorpho-syntaxique 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2 Modèlesgénératifsmarkoviens . . . . . . . . . . . . . . . . . . . . . . . . 97 3.3 Modèlesdiscriminants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.4 Éxpériencesd’étiquetageréaliséessurlecorpusdufrançaisFTB-UC . . . 109 3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Chapitre4 Ressourceslexicalesetsyntaxiques 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.2 Dicovalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.3 Lefff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.4 Lexique-Grammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.5 LexSchem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.6 Couverturedeslexiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8
Description: