Extraction lexicale bilingue à partir de textes médicaux comparables: application à la recherche d’information translangue Yun-Chuang Chiao To cite this version: Yun-ChuangChiao. Extractionlexicalebilingueàpartirdetextesmédicauxcomparables: application à la recherche d’information translangue. Sciences du Vivant [q-bio]. Université Pierre et Marie Curie - Paris VI, 2004. Français. NNT: . tel-00007704 HAL Id: tel-00007704 https://theses.hal.science/tel-00007704 Submitted on 9 Dec 2004 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE DE DOCTORAT DE L’UNIVERSITÉ PARIS 6 Spécialité InformatiqueMédicale Présentéepar YUN-CHUANG CHIAO Pourobtenirlegradede DOCTEUR DE L’UNIVERSITÉ PARIS 6 Sujetdelathèse: Extraction lexicale bilingue à partir de textes médicaux comparables: application à la recherche d’information translangue soutenuele30juin2004 devantlejurycomposéde: ChristianFluhr Rapporteur Directeurderecherche,CEAetProfesseur,INSTN ÉricGaussier Examinateur Ingénieur,RankXeroxCenterEurope PatrickGallinari Examinateur Professeur,UniversitéParisVI BenoîtHabert Rapporteur Professeur,UniversitéParisXetLIMSI-CNRS PierreLeBeux Examinateur Professeur,UniversitédeRennes Jean-DavidSta Co-directeur Chercheur,EDFR&D PierreZweigenbaum Directeur Ingénieur,AP-HPetProfesseur,INaLCO Résumé L’accroissement explosif des connaissances dans le domaine médical et l’infla- tiontextuelleetmultilingue,notammentsurleWeb,confèrentàl’accès,l’exploitation ou la traduction de ces informations un enjeu important. Ces traitements nécessitent des ressources lexicales multilingues qui font partiellement défaut. L’actualisation de cesressourcesmultilinguesestdoncuneproblématiqueclédansl’accèsàcesinforma- tions. Les travaux présentés ici ont été réalisés dans le cadre de l’extraction de lexique bilingue spécialisé à partir de textes médicaux comparables. L’objectif est d’évaluer et de proposer un outil d’aide à l’actualisation de lexique bilingue spécialisé et à la recherched’informationtranslangueens’appuyantsurl’exploitationderessourcesbi- linguesprovenantduWebdansledomainemédical. Nous présentons un modèle fondé sur l’analyse distributionnelle en introduisant à cette occasion une nouvelle notion que nous nommons symétrie distributionnelle. En général, les modèles classiques d’extraction de lexique bilingue à partir de corpus comparables établissent la relation de traduction entre deux mots en calculant la res- semblanceentreleursdistributionsd’unelangueversl’autre(parexemple,dufrançais vers l’anglais). L’hypothèse de symétrie distributionnelle postule que la ressemblance des distributions de deux mots dans les deux directions de langues est un critère fort dulientraductionnelentrecesmots. Deux grandes applications de ce modèle ont été expérimentées afin de le vali- der. Il s’agit de l’extraction d’un lexique bilingue médical (français-anglais) et de la recherche d’information translangue. Dans le cas de l’extraction lexicale bilingue, les résultats montrent que la prise en compte de la symétrie distributionnelle améliore la performance de manière significative par rapport aux modèles classiques. Dans le cas delarecherched’informationtranslangue,notremodèleaétéappliquépourtraduireet étendre les requêtes. Les résultats montrent que lorsque les propositions de traduction oud’extensionsontsuperviséesparl’utilisateur,ilaméliorelarecherched’information parrapportàunetraductionbaséesurundictionnaireinitial. Abstract Inrecentyears,witharapidexpansionofonlineinformationavailableonmedicalweb sites in different languages, one of the issues that have to be addressed is that of the access and the processing of this online information. It generally assumes that large, multilinguallexicalresourcesareavailableforeachlanguagepair. Howtoupdatethese multilingual resources becomes an important clue, especially in a rapidly evolving domainsuchasmedicine. This thesis focuses on domain-specific bilingual lexicon extraction from online medical texts. Our goal is to develop a translation method for bilingual lexicon acqui- sition from comparable corpora and for query translation in cross-language informa- tion retrieval (CLIR). We present here a novel approach based on words distribution symmetry. Traditionalapproachestobilinguallexiconextractionfromcomparablecorporaare basedontheassumptionthatwordsthataretranslationsofeachotherwillhavesimilar distributional profiles across languages. However, they proposed one direction extrac- tion,onlyfromthesourcetothetargetlanguage. Thebasicintuitionofthesymmetrical distribution is that the reciprocal distribution similarity between two words of differ- ent languages is an effective criterion for identifying the translational affinity between words. On the one hand, we evaluated our model for a French-English medical lexicon extraction. On the other hand, the extracted lexicon is used for query translation and expansion in CLIR. The results show that our approach exploring symmetrical distri- butionperformsbetterthanthetraditionalapproachtobilinguallexiconextraction. For querytranslationandexpansiontasks,ourmodelimprovestheretrievalresultsonlyin asemi-supervisedmodewhencomparedwiththedictionary-basedmethod. 2 3 Table des matières 1 Introduction 5 1.1 Problématiquegénérale . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Plangénéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Lecorpuscommesourced’acquisitionlexicalebilingue . . . . . . . . 8 1.5 Hypothèsesetméthodologie . . . . . . . . . . . . . . . . . . . . . . 10 1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Acquisitionlexicaleàpartirdecorpus 17 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Corpuscommeressourcelexicale . . . . . . . . . . . . . . . . . . . 18 2.3 Acquisitionterminologiquemonolingue . . . . . . . . . . . . . . . . 22 2.4 Acquisitionterminologiquebilingue . . . . . . . . . . . . . . . . . . 32 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3 Acquisitionlexicalebilingueàpartirdecorpuscomparables:unenouvelle approche 41 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2 Miseenévidencedelarelationdetraductionàpartirdescontextes . . 42 3.3 Unnouveaumodèled’extractiondelexiquebilingueàpartirdecorpus comparables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4 Expériencesd’acquisitionlexicalebilinguedansledomainemédical 67 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2 Constitutionderessourcesbilingues . . . . . . . . . . . . . . . . . . 67 4.3 Expériencesd’extractiondelexiquebilinguespécialisé . . . . . . . . 72 4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5 Recherched’informationtranslangue 97 5.1 WWWetmultilinguisme . . . . . . . . . . . . . . . . . . . . . . . . 97 5.2 Systèmesderecherched’informationsurleWeb . . . . . . . . . . . . 99 5.3 Problématiquedupassaged’unelangueàuneautre . . . . . . . . . . 107 4 5.4 Approchesenrecherched’informationtranslangue . . . . . . . . . . 107 5.5 Reformulationd’unerequêteparextension . . . . . . . . . . . . . . . 111 5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6 Expériencesderecherched’informationtranslangue 115 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.2 Evaluationd’unsystèmederecherched’information . . . . . . . . . 116 6.3 CollectionOHSUMED . . . . . . . . . . . . . . . . . . . . . . . . . 120 6.4 Expériencesderecherched’informationtranslangue . . . . . . . . . . 122 6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7 Discussionetconclusion 133 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.3 Discussionetperspectives . . . . . . . . . . . . . . . . . . . . . . . 137 Bibliographie 145 Annexes 163 A Annexe:Expériencesd’extractionlexicalebilinguespécialisée 163 A.1 TexteextraitducorpusCISMeF . . . . . . . . . . . . . . . . . . . . 164 A.2 TexteextraitducorpusCLINIWEB . . . . . . . . . . . . . . . . . . 165 A.3 Listedesmotsvidesfrançais . . . . . . . . . . . . . . . . . . . . . . 166 A.4 Listedesmotsvidesanglais . . . . . . . . . . . . . . . . . . . . . . 169 A.5 Exemplesdecontextes . . . . . . . . . . . . . . . . . . . . . . . . . 172 A.6 Extraitdesrésultatsnumériques . . . . . . . . . . . . . . . . . . . . 173 B Annexe:Expériencesderecherched’informationtranslangue 185 B.1 ListedesrequêtesMeSH . . . . . . . . . . . . . . . . . . . . . . . . 186 Chapitre1: Introduction 5 Chapitre 1 Introduction 1.1 Problématique générale L’inflation documentaire et notamment textuelle est une des caractéristiques du Web depuis ses débuts. Aujourd’hui, le Web est la première source d’information du monde professionnel. De plus en plus de textes sont disponibles sous forme électro- niqueetl’Internetestleréseauprivilégiéd’échangeetdecommunicationdescommu- nautésspécialisées:scientifiques,techniques,etc. Parallèlement à cette inflation, des genres textuels nouveaux apparaissent (le mail, le forum, le chat...) et l’on voit émerger un multilinguisme dont l’ampleur est corrélée à ‘l’internetisation’ grandissante du monde. L’information textuelle électro- niquedisponibleestdoncvolumineuse,diversifiéeetmultilingue. Ledomainemédicaln’échappepasàcephénomène.L’importancecroissantedu développement des réseaux internes dans les hôpitaux et les cliniques puis de l’In- ternet participent à l’émergence d’un enjeu important: l’accès et l’exploitation des informations médicales (Degoulet & Fieschi, 1991) de plus en plus nombreuses dans uncontextebilinguevoiremultilingue. Cette augmentation tant en volume qu’en nature des informations a des consé- quences sur les disciplines liées aux traitements des informations textuelles. De dis- ciplines initialement cantonnées aux laboratoires de recherche universitaires ou à des applications très spécifiques (traduction automatique, indexation, etc.), on est passé à une véritable ingénierie des langues qui œuvre dans le monde de l’Internet et des en- treprises. Cette évolution répond aux besoins de rechercher, classer, explorer, traduire l’information. Or, l’accroissement de la production textuelle et l’évolution afférente des tech- niquesdetraitementdecestextesontcrééunevéritablepénuriederessourceslexicales. Traiterautomatiquementuneinformationtextuellenécessiteeneffetdesconnaissances qui prennent la forme de lexiques, dictionnaires, ontologies... Malheureusement, le rythme de création de ces ressources est beaucoup plus faible que le rythme de créa- tion des néologismes lui-même corréléau rythme effréné de production des textes. Ce 6 Chapitre1: Introduction décalageentraîneunepénuriechroniqueenressourceslexicales.Celas’expliqueparle faitquel’acquisitionlexicaleestencoreaujourd’huilargementuneopérationmanuelle donc longue et coûteuse. Ainsi de nombreux domaines ne disposent pas de thésauri spécialisés et le construction de ces derniers est confrontée aux difficultés encore mal résoluesdel’acquisitionautomatiquedeconnaissances(Grefenstette,1994b). Dans le domaine de la médecine, les ressources lexicales existent. Par exemple le metathésaurus UMLS1 couvre plus de 800 000 concepts et plus de 2 000 000 de chaînes de caractères issus d’une centaine de terminologies biomédicales (MeSH, SNOMED, CIM, DSM...) (NLM, 2000)) dont beaucoup sont en langues autres que l’anglais.Cependant,leproblèmedel’actualisationdesressourceslexicalesmédicales notammentmultilinguesresteentier.Enparticulier,leslexiquesdoiventrendrecompte des néologismes en usage dans les textes et ceci en plusieurs langues pour alimen- ter les processus comme la traduction qu’elle soit automatique ou manuelle. Ceci est particulièrement vrai pour les domaines en constante évolution (médecine, informa- tique,intelligenceartificielle,etc.)pourlesquelslerythmeélevéd’apparitiondesnéo- logismesnécessiteuneremiseenquestioncontinuelledeleursterminologies(Chiao& Sta,2002). C’est en partie en réponse à la pénurie de ressources lexicales bilingues et dans le but d’automatiser le plus possible l’actualisation des lexiques spécialisés dans un cadremultilingue(français-anglais)quecetravailaétéeffectué. 1.2 Plan général Dans un premier temps, nous présentons au chapitre 1 les objectifs de ce travail eninsistantsurcequil’amotivéetsurleshypothèsesfondamentalesquilesoutiennent. Nousyverronsenparticulierl’importancedel’analysedistributionnelle,fondementde l’approchedéveloppéeici. Le deuxième chapitre aborde l’acquisition de lexique en présentant le corpus commeélémentessentielpouryparvenir.Nousdistinguonsàcetteoccasionl’acquisi- tionmonolinguedel’acquisitionmultilingue. Le chapitre 3 présente le modèle et la méthodologie développés dans ce travail. Il s’agit d’un modèle visant à extraire un lexique bilingue médical à partir de corpus comparables. Plus précisemment, ce modèle propose pour un mot donné en français, des candidats à sa traduction en anglais. La méthode avancée ici repose sur l’analyse distributionnelle et sur une de ses caractéristiques ignorée jusqu’ici, la symétrie distri- butionnelle entre les langues. Cette observation nous a amené à construire un modèle et à proposer une nouvelle mesure, la similarité croisée répondant à cette symétrie et rapprochantunmotetsatraduction. Lechapitre4metenœuvrenotremodèleàtraversplusieursexpériencesd’acqui- sitionlexicalemédicalebilingue(français-anglais).Cesexpériencesontétéconstruites 1.UnifiedMedicalLanguageSystem(http://www.nlm.nih.gov/research/umls).
Description: