Compression automatique de phrases: une étude vers la génération de résumés Alejandro Molina Villegas To cite this version: Alejandro Molina Villegas. Compression automatique de phrases: une étude vers la génération de résumés. Autre [cs.OH]. Université d’Avignon, 2013. Français. NNT: 2013AVIG0195. tel-00998924 HAL Id: tel-00998924 https://theses.hal.science/tel-00998924 Submitted on 3 Jun 2014 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ACADÉMIED’AIX-MARSEILLE UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE THÈSE présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse pourobtenirlediplômedeDOCTORAT SPÉCIALITÉ: Informatique ÉcoleDoctorale536«SciencesetAgrosciences» LaboratoireInformatiqued’Avignon(EA931) Compression automatique de phrases : une étude vers la génération de résumés par AlejandroMOLINAVILLEGAS Soutenuepubliquementle30septembre2013devantunjurycomposéde: HoracioSAGGION UniversitatPompeuFabra Rapporteur EricGAUSSIER UniversitédeGrenoble Rapporteur GuyLAPALME UniversitédeMontréal Examinateur JosianeMOTHE InstitutdeRechercheenInformatiquedeToulouse Examinateur Juan-ManuelTORRES-MORENO Universitéd’AvignonetdesPaysdeVaucluse Directeur EricSANJUAN Universitéd’AvignonetdesPaysdeVaucluse Co-directeur GerardoEugenioSIERRA UniversidadNacionalAutónomadeMéxico Co-encadrant LaboratoireInformatiqued’Avignon ConsejoNacionaldeCienciayTecnología 2 Résumé Cetteétudeprésenteunenouvelleapprochepourlagénérationautomatiquederé- sumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n’a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux pro- duitspardeshumains.C’estdanscecontextequelarechercheenrésuméautomatique s’est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent sou- ventdesinformationssecondaires,uneanalyseplusfines’avèrenécessaire. Nous proposons une méthode de compression automatique de phrases basée sur l’élimination de fragments à l’intérieur de celles-ci. À partir d’un corpus annoté, nous avonscrééunmodèlelinéairepourprédirelasuppressiondecesfragmentsenfonction decaractéristiquessimples.Notreméthodeprendencomptetroisprincipes:celuidela pertinence du contenu, l’informativité; celui de la qualité du contenu, la grammatica- lité,etlalongueur,letauxdecompression.Pourmesurerl’informativitédesfragments, nous utilisons une technique inspirée de la physique statistique : l’énergie textuelle. Quantàlagrammaticalité,nousproposonsd’utiliserdesmodèlesdelangageprobabi- listes.Laméthodeproposéeestcapabledegénérerdesrésuméscorrectsenespagnol. Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du ré- sumé de textes par compression de phrases. On a observé qu’en général il y a un haut degré de subjectivité de la tâche. Il n’y a pas de compression optimale unique mais plusieurscompressionscorrectespossibles.Nousconsidéronsdoncquelesrésultatsde cette étude ouvrent la discussion par rapport à la subjectivité de l’informativité et son influencepourlerésuméautomatique. 3 4 Table des matières Résumé 3 Tabledesmatières 6 Listedesillustrations 8 Listedestableaux 12 Introduction 15 1 Lacompressiondephrases:lerésuméautomatiqueau-delàdel’extraction 21 1.1 Premièresétudesliéesàlacompressiondephrases . . . . . . . . . . . . . 22 1.2 Latâchedecompressiondephrases . . . . . . . . . . . . . . . . . . . . . 24 1.3 Lacompressiondephrasesetlessystèmesderésuméautomatique . . . 26 1.4 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 Segmentationdiscursivepourlacompressiondephrases 31 2.1 Étudesrécentesdelacompressiondephrases . . . . . . . . . . . . . . . . 32 2.2 Lathéoriedelastructurerhétorique . . . . . . . . . . . . . . . . . . . . . 33 2.3 DiSeg:unsegmenteurdiscursifpourl’espagnol . . . . . . . . . . . . . . 34 2.4 Analysequantitativedesfragmentséliminés . . . . . . . . . . . . . . . . 37 2.5 Analysequalitativedesfragmentséliminés . . . . . . . . . . . . . . . . . 39 2.6 CoSeg:unsegmenteurpourlacompressiondephrases . . . . . . . . . . 42 2.7 Verslasegmentationautomatiquemultilingue . . . . . . . . . . . . . . . 43 2.8 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3 Pondérationdelagrammaticalitédesphrasescompressées 49 3.1 Générationdephrasescompresséesparéliminationdesegmentsdiscursifs 50 3.2 Lesmodèlesdelangageprobabilistes. . . . . . . . . . . . . . . . . . . . . 51 3.3 Évaluation de la grammaticalité de phrases compressées basée sur des modèlesdelangageprobabilistes . . . . . . . . . . . . . . . . . . . . . . . 54 3.4 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4 Pondération de l’informativité des phrases compressées basée sur l’énergie textuelle 59 4.1 Dumodèlemagnétiqued’Isingàl’énergietextuelle . . . . . . . . . . . . 60 5 4.2 L’énergietextuelleetleTALN . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.3 Calculdel’énergietextuellepourlacompressiondephrases . . . . . . . 64 4.4 L’énergietextuelletransformée . . . . . . . . . . . . . . . . . . . . . . . . 67 4.5 Analysedesvaleursmaximalesdel’énergietextuelle . . . . . . . . . . . 70 4.6 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5 Unmodèleprobabilisted’éliminationdesegmentsintra-phrase 75 5.1 Lacompressiondephrasesest-elleunproblèmed’optimisation? . . . . 76 5.2 Lessciencescitoyennespourl’annotationdecorpus . . . . . . . . . . . . 77 5.3 Accorddesannotateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.4 Lerésuméautomatiqueetlarégressionlinéaire . . . . . . . . . . . . . . . 81 5.5 Modèlederégressionlinéairepourprédirel’éliminationdesegments . . 86 5.6 Deuxalgorithmesdegénérationderésumésparéliminationdesegments discursifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.7 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6 TestdeTuringpourl’évaluationderésumésautomatiques 95 6.1 Problématiquedel’évaluationpourlacompressiondephrases . . . . . . 96 6.2 Lejeud’imitation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.3 LetestdeTuringrevisitépourévaluerlerésuméautomatique . . . . . . 99 6.4 Lagoûteusedethé:letestexactdeFisher . . . . . . . . . . . . . . . . . . 100 6.5 ValidationdesrésultatsdenotreévaluationavecletestexactdeFisher . 101 6.6 Évaluationderésumésselonletypedesegmentationetlataille . . . . . 102 6.7 Conclusionsduchapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Conclusionsetperspectivesderecherche 107 Bibliographie 119 A Segmentsdiscursifséliminés 121 B Exemplederésumésobtenusavecdifférentstauxdecompression 127 C Testd’évaluation 135 D Descriptionducorpusetdesdonnéesissuesdel’annotation 141 E Principalespublicationsliéesàlathèse 145 Index 145 6 Liste des illustrations 1 Diagrammedefréquencesdesmotsdansundocument. . . . . . . . . . . 16 1.1 Protocole expérimental pour l’évaluation de l’impact de la compression dephrasesappliquéssurdixsystèmesderésuméparextraction.. . . . . 27 2.1 Exemple d’un arbre rhétorique hiérarchique de la Rhetorical Structure Theoryappliquéàl’article«Darwin:ungéologue». . . . . . . . . . . . . 34 2.2 Exempledestroisétapesdel’analysediscursiveintra-phrase. . . . . . . 35 2.3 FréquencesdesrelationsRSTidentifiéesparDiSeg. . . . . . . . . . . . . 39 2.4 Architecture d’un segmenteur discursif pour des phrases compressées enespagnol:CoSeg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5 Couverture du segmenteur CoSeg pour 675 fragments (2 651 mots) non reconnusparDiSeg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6 Architectured’unsegmenteurdiscursifmultilingueutilisantpeuderes- sourceslinguistiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.1 Arbresyntaxiquecorrespondantàunephraseagrammaticale. . . . . . . 51 3.2 Relation entre le nombre de mots et la probabilité des phrases dans un modèledelangueavec15000phrasesenespagnol. . . . . . . . . . . . . 54 4.1 Unexempledegraphecompletavechuitsommets(K )vucommeréseau 5 deHopfield. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Énergied’unréseaudeHopfield. . . . . . . . . . . . . . . . . . . . . . . . 61 4.3 Résultats des évaluations INEX d’informativité et lisibilité dans le track decontextualizationdetweetspargénérationderésumépourlesannées 2011et2012. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.4 Densité de la distribution des valeur d’énergie textuelle pour des seg- mentsdiscursifs.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.5 Densité de la distribution des valeurs d’énergie textuelle pour des seg- ments discursifs corrigée par la transformation Box-Cox avec divers va- leursdeλ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.6 Comparaisonentrel’énergietextuelleetl’énergietextuelletransformée. 72 4.7 Exempledesvaleursd’énergietextuellepourdessegmentsDiSeg. . . . 73 4.8 Exempledesvaleursd’énergietextuellepourdessegmentsCoSeg. . . . 74 5.1 Interfacedusystèmed’annotation. . . . . . . . . . . . . . . . . . . . . . . 79 7 5.2 Proportiondel’ambiguïtédel’éliminationd’EDUsavecdifférentsseuils devotation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.3 Illustrationducoefficientdedéterminationpourunerégressionlinéaire. 85 5.4 Taux de compression en fonction de la valeur de probabilité d’élimina- tiond’EDUs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 8 Liste des tableaux 2 Exemple de résumé produit par notre méthode à partir d’un document avec375mots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2 Exemple d’une phrase compressée selon trois stratégies différentes : éli- minationmanuelledesatellitesdelaRST;éliminationmanuelleintuitive de mots; élimination automatique de parenthèses, d’adjectifs et d’ad- verbes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Exempledurésultatdelasegmentationdiscursive. . . . . . . . . . . . . 35 2.2 Proportiondecoïncidencespourlesfragmentséliminéscorrespondantà desEDUsdétectésparDiSeg. . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3 Proportionsducontenu(enpourcentagedemots)éliminédanstroisclasses: fragmentséliminéscorrespondantàdesEDUsdétectéesparDiSeg;frag- mentsavecsensdiscursif;fragmentssanssensdiscursif. . . . . . . . . . 38 2.4 Proportion des EDUs éliminées correspondant à des noyaux ou à des satellites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.5 Performancesdessegmenteursautomatiques . . . . . . . . . . . . . . . . 45 2.6 Performancesdessegmentationsmanuelles. . . . . . . . . . . . . . . . . 46 3.2 Exempledecandidatsàlacompressionpourlaphrase«Julietteprépare ungâteau,pourlemanger,bienqu’ellen’aitpasfaim.». . . . . . . . . . . 50 3.3 Résultatsdel’évaluationmanuelledelagrammaticalitépartroisjuges. . 56 3.4 Résultatsdel’évaluationaveclesystèmeFRESAenutilisantletexted’ori- ginecommeréférence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.1 Exempledevaleursd’énergietextuelledesegmentsDiSeg. . . . . . . . . 65 4.2 Exempledevaleursd’énergietextuelledesegmentsCoSeg.. . . . . . . . 66 5.1 Nombrethéoriquedescompressionspossiblesetnombremoyendescom- pressionsproposéesparlesannotateurspourDiSeg. . . . . . . . . . . . . 80 5.2 Nombrethéoriquedescompressionspossiblesetnombremoyendescom- pressionsproposéesparlesannotateurspourCoSeg. . . . . . . . . . . . 80 5.3 Exempledescompressionsproposéesparlesannotateurs. . . . . . . . . 83 5.4 Listedevariablesexplicativesutiliséespourl’ajustementdelarégression linéaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 9
Description: