Résumé automatique de parole pour un accès efficace aux bases de données audio Benoit Favre To cite this version: Benoit Favre. Résumé automatique de parole pour un accès efficace aux bases de données audio. Interface homme-machine [cs.HC]. Université d’Avignon, 2007. Français. NNT: . tel-00444105 HAL Id: tel-00444105 https://theses.hal.science/tel-00444105 Submitted on 5 Jan 2010 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ACADÉMIED’AIX-MARSEILLE UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE THÈSE présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse pourobtenirlediplômedeDOCTORAT SPÉCIALITÉ: Informatique ÉcoleDoctorale380«SciencesetAgronomie» Laboratoired’Informatique(EA931) Résumé automatique de parole pour un accès efficace aux bases de données audio par BenoîtFAVRE Soutenuepubliquementle19mars2007devantunjurycomposéde: Mme CatherineBERRUT Professeur,LIG,Grenoble Présidentedujury M. GuyLAPALME Professeur,RALI,Montréal Rapporteur M. FrançoisYVON MaîtredeConférences,ENST,Paris Rapporteur M. PatrickGALLINARI Professeur,LIP6,Paris Examinateur M. FrançoisCAPMAN Ingénieur,Thales,Colombes Examinateur M. Jean-FrançoisBONASTRE MaîtredeConférences,LIA,Avignon Directeurdethèse M. PatriceBELLOT MaîtredeConférences,LIA,Avignon Co-directeurdethèse Laboratoire d'Informatique Laboratoired’Informatiqued’Avignon Université d'Avignon 2 Remerciements Je tiens tout d’abord à remercier Jean-François Bonastre, Patrice Bellot et François Capmanpourleurencadrement,leursnombreuxconseilsetleursoutienconstanttout aulongdemathèse.JeremercieCatherineBerrutpouravoiracceptéd’êtreprésidente de mon jury. J’ai également été très honoré par Guy Lapalme et François Yvon qui ont accepté d’être rapporteurs de ma thèse. Ils m’ont apporté de précieux conseils sur l’ensembledemontravail.J’exprimemaprofondegratitudeàPatrickGallinaripoursa participationàmonjury. Je dédie ce document à mes proches Laure, Floriane, Martine et Roger et à la mé- moiredemonfrèreJulien.Leursoutientoutaulongdecetravailaétéinestimable. Je tiens aussi à remercier ceux qui m’ont tant apporté durant mes journées et mes soirées par leur joie, leur gentillesse et leur amitié. Par ordre alphabétique, ça donne quelquechosecomme:Alex,Anakin,Andrea,Annypog,Antho,Audrey,Ben,Bertrand, Cathy,Christophe,Cissou,Corinne,Denz,Dju,Domi,Driss,Eric,Florian,FredB.,Fred D.,FredW.,Gayp,Georges,Gilles,J.-P.,Joce,Jocelyne,Lapo,Laurent,Laurianne,Lolo, Louisa, M.-J., Maman Ours, Marc P., Max, Med, Mimi, Nanou, Nath, Nenex, Neug, Nick, Nico, Nicolas F., Nicole, Nimaan, Olivier, Ourselin, Papa Ours, Pascal, Phanou, Phillou,Pierrot,Quang,Ralph,Rico,Riton,Romane,Sarah,Simone,Stan,Steph,Tania, Ted,ThierryS.,ThierryV.,Tom,Virginie,etWill. 3 4 Résumé L’avènement du numérique permet de stocker de grandes quantités de parole à moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste difficile d’exploiter les documents à cause du temps nécessaire pour les écouter. Nous tentonsd’atténuercetinconvénientenproduisantunrésuméautomatiqueparléàpar- tirdesinformationslesplusimportantes.Pouryparvenir,uneméthodederésumépar extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA. Nouscomplétonscettechaînedestructurationparunesegmentationenphrasesetune détection des entités nommées, deux caractéristiques importantes pour le résumé par extraction.Laméthodederésuméproposéeprendencomptelescontraintesimposées pardesdonnéesaudioetpardesinteractionsavecl’utilisateur.Deplus,cetteméthode intègre une projection dans un espace pseudo-sémantique des phrases. Les différents modulesmisenplaceaboutissentàundémonstrateurcompletfacilitantl’étudedesin- teractionsavecl’utilisateur. Enl’absencededonnées d’évaluationsurlaparole, lamé- thodederésuméestévaluéesurletextelorsdelacampagneDUC2006.Noussimulons l’impact d’un contenu parlé en dégradant artificiellement les données de cette même campagne.Enfin,l’ensembledelachaînedetraitementestmiseenœuvreauseind’un démonstrateurfacilitantl’accèsauxémissionsradiophoniquesdelacampagneESTER. Nousproposons,danslecadredecedémonstrateur,unefrisechronologiqueinteractive complémentaireaurésuméparlé. Mots-clés Résumé Automatique de Parole, Recherche d’Information Parlée, Reconnaissance AutomatiquedelaParole,TranscriptionEnrichie,FrontièredePhrase,EntitéNommée, MaximalMarginalRelevance,MMR,ConditionalRandomFields,CRF,LatentSemantic Analysis,LSA,DocumentUnderstandingConference,DUC. 5 6 Abstract The digital era has revealed new ways to store great quantities of speech at a low cost. Whereas recent advances in spoken document retrieval, exploiting audio docu- mentsisstilldifficultbecauseofthetimenecessarytolistentothem.Wetrytoattenuate thisdisadvantagebyproducinganautomaticspokenabstractfromthemostimportant information.Forthatpurpose,anextractivesummarizationalgorithmisappliedtothe spokencontentthankstoautomaticspeechstructuring.Therichtranscriptioniscarried outthankstoSpeeralandAlizetoolkitsdevelopedatLIA.Wecomplementthisstructu- ringchainbysentencesegmentationandnamed entities detection,twoimportantfea- tures for extractive summarization. The proposed summarization approach includes constraints imposed by audio data and interactions with the user. Moreover, the me- thod integrates a projection of sentences in pseudo-semantic-space. We integrated the various modules in a coherent prototype that ease the study of user interactions. Due to the lack of evaluation data for the speech summarization task, we evaluate our ap- proachonthetextualdocumentsfromtheDUC2006campaign.Wesimulatetheimpact ofspokencontentstructuringbyartificiallydegradingthetextualcontentprovidedfor DUC. Finally, the whole processing sequence is implemented within a demonstrator facilitatingtheaccessradiobroadcastsfromtheESTERevaluationcampain.Withinthe framework of this prototype, we present an interactive timeline that aims at recontex- tualizingthespokensummary. Keywords Automatic speech summarization, Spoken Document Retrieval, Automatic Speech Recognition, Rich Transcription, Sentence Boundaries, Named Entities, Maximal Mar- ginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic Analysis, LSA,DocumentUnderstandingConference,DUC. 7 8 Résumé long L’avènement du numérique permet de stocker de grandes quantités de parole à moindre coût. Afin de les exploiter, la recherche documentaire audio tire parti de la transcription automatique du discours parlé. Malgré la compensation des erreurs de transcription, les moteurs de recherche sur la parole nécessitent une écoute des docu- mentscarilestplusdifficiled’obtenirunaperçud’uncontenuaudioqued’uncontenu écritouvisuel.Cettecaractéristiqueprovoqueuneréductiondelaquantitéd’informa- tion perçue par l’utilisateur à cause de longues et fastidieuses écoutes limitant l’effica- cité des moteurs de recherche audio. Pour répondre à cette difficulté, nous proposons degénérerunrésuméparlédesinformationslesplusimportantesretrouvéesparlemo- teurderecherche.Pouryparvenir,uneméthodederésuméparextractionestappliquée aucontenuparlé,transcritetstructuréautomatiquement. LatranscriptionenrichieestréaliséegrâceauxoutilsSpeeraletAlizedéveloppésau LIA.Nouscomplétonscettechaînedestructurationparunesegmentationenphraseset une détection des entités nommées, deux caractéristiques importantes pour le résumé par extraction. Les frontières de phrases sont retrouvées par étiquetage de séquence grâce à une modélisation Conditional Random Fields (CRF) fondée sur des caractéris- tiquesprosodiquesetlinguistiques.L’approcheestvalidéesurlecorpusradiophonique ESTER(précisionde0.77).Parailleurs,lesentitésnomméessontdétectéesdirectement dans le graphe d’hypothèses de transcription pour essayer d’atténuer l’influence des erreurscommiseslorsdelaphasedetranscription.Lecadredestransducteurspondé- rés(WeightedFiniteStateTransducers,WFST)permettentl’applicationdegrammaires localesautreillisd’hypothèses,puissapondérationparunmodèled’étiquetageHMM. Testée lors de la tâche expérimentale de la campagne ESTER, la méthode obtient les meilleursrésultats(F -mesurede0.63). 1 Lemodèleproposépourlerésumédeparoleprendencomptelanatureducontenu parlé et les contraintes imposées par les interactions avec l’utilisateur. Ce modèle est implémenté dans Maximal Marginal Relevance (MMR), sous la forme d’une séparation descaractéristiquesd’unephraseenunepartieindépendantedubesoindel’utilisateur (pouvantêtrecalculéeentempsdifféré)etunepartiedépendantedecebesoin(soumise àdescontraintesdecomplexité).Lalongueurdesphrasesoulesscoresdeconfiancede la structuration peuvent être considérés comme indépendants du besoin. La similarité d’une phrase avec le besoin de l’utilisateur est calculée après projection des phrases dansunespacepseudo-sémantiqueconstruitparLatentSemanticAnalysis(LSA). 9
Description: