MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITÉ MOULOUD MAMMERI DE TIZI OUZOU FACULTÉ DE GÉNIE ÉLECTRIQUE ET D’INFORMATIQUE DÉPARTEMENT D’INFORMATIQUE THÈSE DE DOCTORAT D’ÉTAT SPÉCIALITÉ : INFORMATIQUE Présentée par Farida YAMOUNI AOUGHLIS Sujet Construction d’un dictionnaire électronique de terminologie informatique et analyse automatique de textes par grammaires locales Soutenue le 12/12/2010 devant le jury d’examen composé de : Mr Soltane AMEUR Professeur UMMTO Président Mme Elisabeth Métais Professeur CNAM, Paris Rapporteur Mr Max Silberztein Professeur U. de Franche-Comté Co-Rapporteur Mr Mohand Boughanem Professeur U. P. Sabatier Toulouse Examinateur Mr Rachid Ahmed Ouamer Maître de Conférences UMMTO Examinateur Remerciements Je tiens à remercier tout particulièrement et à témoigner toute ma reconnaissance à ma directrice de thèse, le professeur Elisabeth Métais pour tous ses encouragements, ses conseils. Je tiens aussi à remercier très vivement mon co-directeur de thèse, Max Silberztein, professeur à l‘Université de Franche-Comté pour tout le temps précieux qu‘il m‘a consacrée, son aide, sa disponibilité. Mes respects et ma gratitude vont également aux membres de mon jury qui m'ont fait l'honneur de juger ce travail : A Monsieur Soltane Ameur, professeur à l‘Université Mouloud Mammeri de Tizi Ouzou, pour m‘avoir fait l‘honneur d‘être président du jury ; A Monsieur, Mohand Boughanem, professeur à l‘université de Toulouse pour avoir accepté de juger mon travail ; A Monsieur Rachid Ahmed Ouamer, Maître de conférences à l‘Université de Tizi Ouzou pour avoir accepté de juger mon travail. A mes chers enfants A la mémoire de ma très chère maman A la mémoire de Maurice Gross Table des matières Introduction .......................................................................................................................................... 18 Problématique .................................................................................................................................. 18 Objectifs ........................................................................................................................................... 19 Plan de la thèse ................................................................................................................................. 19 1 Etat de l‘art sur l'extraction automatique de terminologie ............................................................ 22 1.1 Introduction ........................................................................................................................... 22 1.2 L‘extraction de terminologie ................................................................................................. 22 1.2.1 Extraction manuelle ...................................................................................................... 22 1.2.1.1 La collecte de textes écrits .................................................................................... 22 1.2.1.2 La lecture des textes et l’extraction ...................................................................... 23 1.2.1.3 L’acquisition .......................................................................................................... 23 1.2.2 Extraction automatique ................................................................................................. 23 1.3 Les outils d‘extraction automatique de terminologie ............................................................. 23 1.4 Les différentes approches ...................................................................................................... 24 1.4.1 Les méthodes linguistiques ........................................................................................... 24 1.4.1.1 TERMINO .............................................................................................................. 24 1.4.1.2 LEXTER .................................................................................................................. 26 1.4.1.3 FASTER .................................................................................................................. 27 1.4.1.4 XTERM .................................................................................................................. 28 1.4.1.5 TERMINAE ............................................................................................................. 28 1.4.2 Les méthodes statistiques.............................................................................................. 28 1.4.2.1 ANA (Acquisition Naturelle Automatique) ............................................................ 29 1.4.2.2 MANTEX ................................................................................................................ 30 1.4.2.3 LIKES ..................................................................................................................... 30 1.4.3 Les méthodes mixtes..................................................................................................... 30 1.4.3.1 ACABIT (Automatic Corpus Based Acquisition of Binary terms) ............................ 30 1.4.3.2 ASIUM ................................................................................................................... 31 1.4.3.3 XTRACT ................................................................................................................. 31 1.5 Tableau récapitulatif ............................................................................................................. 32 1.6 Conclusion ............................................................................................................................ 33 2 Les dictionnaires électroniques et les bases de données terminologiques ..................................... 35 2.1 Introduction ........................................................................................................................... 35 2.2 Le système DELA ................................................................................................................. 35 2.2.1 Introduction .................................................................................................................. 35 2.2.2 Les dictionnaires des mots simples DELAS ................................................................ 36 2.2.3 Le dictionnaire des mots composés DELAC ................................................................ 36 2.2.3.1 Exemples d’entrées............................................................................................... 37 2.2.3.2 Les différentes classes de noms composés ........................................................... 37 2.2.3.2.1 Noms composés binaires (longueur 2) ............................................................... 37 2.2.3.2.2 Noms composés ternaires ................................................................................... 38 2.2.3.2.3 Plus longs............................................................................................................ 38 2.2.4 Le dictionnaire des mots composés fléchis DELACF...................................................... 39 2.2.5 Le Lexique-grammaire ................................................................................................. 39 2.2.5.1 Introduction .......................................................................................................... 39 2.2.5.2 Le lexique-grammaire des verbes du français ....................................................... 40 2.3 Les dictionnaires de terminologie et bases de données terminologiques ............................... 41 2.3.1 IATE ............................................................................................................................. 41 2.3.2 Le dictionnaire SensAgent ............................................................................................ 43 2.3.3 Le glossaire OSINET .................................................................................................... 45 2.3.4 Le dictionnaire électronique LVF ................................................................................. 45 2.3.5 Dictionnaire de l’informatique et de l’internet Dicofr.com .......................................... 46 2.3.6 Le répertoire terminologique 2000 ............................................................................... 47 2.3.7 UNBIS .......................................................................................................................... 48 2.3.8 Le GDT (Grand dictionnaire de la terminologie) ........................................................... 49 2.3.9 WORDNET ................................................................................................................. 49 2.3.10 Genoma ........................................................................................................................ 50 2.3.11 Le Dictionnaire des développeurs ................................................................................. 51 2.3.12 UMLS (Unified Medical Language) ............................................................................. 52 2.3.12.1 Introduction .......................................................................................................... 52 2.3.12.2 Terminologie utilisée dans CISMeF ....................................................................... 53 2.3.12.3 Sources de connaissances UMLS........................................................................... 54 2.3.12.3.1 Le Metathesaurus ................................................................................................. 54 2.3.12.3.2 Le lexique SPECIALIST ........................................................................................... 54 2.3.12.3.3 Le réseau sémantique ........................................................................................... 55 2.3.13 EUROVOC ................................................................................................................... 55 2.3.14 ALEXANDRIA ............................................................................................................ 57 2.3.15 Le dictionnaire fondamental de l‘informatique et de l‘internet : DicInfo ...................... 59 2.3.16 TermSciences .............................................................................................................. 61 2.3.17 Le dictionnaire du NEF ................................................................................................ 62 2.3.18 Le DicoduWeb .............................................................................................................. 63 2.4 Conclusion ............................................................................................................................ 63 3 Le système NooJ .......................................................................................................................... 66 3.1 Introduction ........................................................................................................................... 66 3.2 D‘INTEX à NooJ .................................................................................................................. 66 3.3 NooJ : une plateforme de développement linguistique .......................................................... 67 3.3.1 Architecture intégrée .................................................................................................... 67 3.3.2 Architecture orientée objet ............................................................................................ 68 3.3.3 Utilisation de la technologie à états finis ...................................................................... 68 3.3.4 Développement de ressources linguistiques à large couverture .................................... 69 3.3.5 Moteur linguistique robuste .......................................................................................... 69 3.3.6 Traitement de corpus .................................................................................................... 69 3.3.7 Construction, édition et gestion de concordances sophistiquées ................................... 69 3.3.8 Annotation interactive de corpus .................................................................................. 70 3.4 Les dictionnaires NooJ .......................................................................................................... 70 3.4.1 Les ALUs (Atomic Linguistic Units) ............................................................................ 70 3.4.2 Ressources pour reconnaître les unités linguistiques atomiques .................................. 71 3.4.2.1 Les Dictionnaires ................................................................................................... 72 3.4.2.2 La Morphologie ..................................................................................................... 72 3.4.3 Outils pour décrire la morphologie ............................................................................... 73 3.4.3.1 Descriptions flexionnelles et dérivationnelles ...................................................... 73 3.4.3.2 Grammaires flexionnelles et dérivationnelles....................................................... 73 3.5 Format des dictionnaires NooJ .............................................................................................. 73 3.5.1 Exemples d‘entrées ....................................................................................................... 73 3.5.2 Informations linguistiques ............................................................................................ 74 3.5.3 Codes d‘information spéciaux ...................................................................................... 74 3.5.4 Propriétés lexicales ....................................................................................................... 75 3.5.5 Variantes lexicales ........................................................................................................ 75 3.6 Fichiers de définition des propriétés ".DEF" ........................................................................ 75 3.7 Représentation formelle des dictionnaires électroniques ....................................................... 76 3.8 Conclusion ............................................................................................................................ 77 4 Aspects linguistiques de la terminologie ...................................................................................... 79 4.1 Introduction ........................................................................................................................... 79 4.2 Définitions ............................................................................................................................ 79 4.2.1 Terminologie ................................................................................................................ 79 4.2.2 Mot ............................................................................................................................... 79 4.2.3 Terme ........................................................................................................................... 79 4.2.4 Forme simple (définition orthographique) .................................................................... 80 4.2.5 Mot simple .................................................................................................................... 80 4.2.6 Forme composée ........................................................................................................... 80 4.2.7 Mot composé ................................................................................................................ 80 4.2.8 Synapsie ....................................................................................................................... 81 4.3 Mots composés et notions de composition ............................................................................ 81 4.3.1 Mots composés ............................................................................................................. 81 4.3.2 Notion de composition ................................................................................................. 81 4.4 Degré de figement des noms composés ................................................................................. 82 4.4.1 "Il n’y a pas de relation syntaxique entre les 2 noms" ................................................... 82 4.4.2 Pronominalisation ......................................................................................................... 83 4.4.3 Figement partiel ............................................................................................................ 83 4.5 Les groupes nominaux productifs et les noms composés lexicalisés .................................... 84 4.5.1 L‘atomicité sémantique ................................................................................................ 84 4.5.2 L‘institutionnalisation de l‘usage .................................................................................. 85 4.5.2.1 Termes institutionnalisés ...................................................................................... 85 4.5.2.2 Termes inexistants ................................................................................................ 85 4.5.3 Restrictions distributionnelles ....................................................................................... 85 4.5.4 Analyse transformationnelle ......................................................................................... 86 4.6 Variantes terminologiques .................................................................................................... 86 4.6.1 La surcomposition ........................................................................................................ 86 4.6.2 Les insertions ................................................................................................................ 86 4.6.3 La coordination ............................................................................................................. 87 4.7 Conclusion ............................................................................................................................ 87 5 Elaboration des dictionnaires électroniques de la terminologie informatique ............................... 89 5.1 Introduction ........................................................................................................................... 89 5.2 Dictionnaires usuels et dictionnaires spécialisés ................................................................... 90 5.3 Extraction des termes ............................................................................................................ 91 5.4 Dictionnaire des mots composés "Info_comp.dic" ................................................................ 91 5.4.1 Caractéristiques des composants des noms composés (notion de tête) ......................... 91 5.4.2 Les déterminants possibles pour les noms composés .................................................... 92 5.4.3 Notion de mot vide, mot plein ...................................................................................... 92 5.4.4 Etude et classification syntaxique des termes ............................................................... 94 5.4.4.1 Codes grammaticaux ............................................................................................ 94 5.4.4.2 Longueur 2 ............................................................................................................ 94 5.4.4.3 Longueur 3 ............................................................................................................ 95 5.4.4.4 Longueur 4 (termes contenant 4 mots pleins) ...................................................... 96 5.4.4.5 Longueur 5 (termes contenant 5 mots pleins) ...................................................... 96 5.4.5 Format d‘une entrée ...................................................................................................... 96 5.4.6 Les informations sémantiques....................................................................................... 98 5.4.6.1 Systèmes d’information ........................................................................................ 98 5.4.6.2 Compilation: "+comp" .......................................................................................... 99 5.4.6.3 Algorithmique : "+algo" ........................................................................................ 99 5.4.6.4 Langages (programmation) : "+lang" .................................................................... 99 5.4.6.5 Architecture des ordinateurs : +arch" ................................................................... 99 5.4.6.6 Systèmes d’exploitation : "+expl" ......................................................................... 99 5.4.6.7 Réseaux et télécommunications : "+ rest" .......................................................... 100 5.4.6.8 Internet and groupware : "+intn" ....................................................................... 100 5.4.6.9 Informatique appliquée : "+ iapl" ....................................................................... 101 5.4.6.10 Intelligence artificielle : "+iart" ........................................................................... 102 5.5 Variantes ............................................................................................................................. 103 5.5.1 Définitions .................................................................................................................. 103 5.5.1.1 Abréviations ........................................................................................................ 103 5.5.1.2 Acronymes .......................................................................................................... 104 5.5.1.3 Sigles ................................................................................................................... 104 5.5.2 Différences entre les trois notions ............................................................................... 104 5.6 Dictionnaires des sigles et abréviations d‘informatique ...................................................... 105 5.6.1 Dictionnaire des sigles d‘informatique ....................................................................... 105 5.6.1.1 Le corpus............................................................................................................. 105 5.6.1.2 Le dictionnaire des sigles d’informatique "sigles.dic" ......................................... 106 5.6.2 Dictionnaire des abréviations d‘informatique ............................................................. 108 5.6.2.1 Recensement des abréviations ........................................................................... 108 5.6.2.2 Le dictionnaire des abréviations d’informatique "abréviations.dic" ................... 109 5.7 Conclusion .......................................................................................................................... 110 6 Morphologie ............................................................................................................................... 112 6.1 Introduction ......................................................................................................................... 112 6.2 Exemples d‘entrées de dictionnaire et paradigme "+FLX".................................................. 112 6.3 Opérateurs (commandes) .................................................................................................... 112 6.4 Morphologie flexionnelle .................................................................................................... 114 6.4.1 Description graphique des flexions ............................................................................. 114 6.4.2 Description textuelle des flexions ............................................................................... 116 6.5 Flexion des mots composés ................................................................................................. 117 6.5.1 Modes de flexion ........................................................................................................ 117 6.5.2 Cas où un élément est à fléchir ................................................................................... 117 6.5.3 Cas où plusieurs éléments sont à fléchir ..................................................................... 118 6.5.3.1 Il n’y a pas d’accord entre les composants fléchis .............................................. 118 6.5.3.2 Il y a accord en genre ou en nombre.................................................................. 118 6.6 Morphologie dérivationnelle ............................................................................................... 118 6.7 Descriptions flexionnelles des mots composés d‘informatique .......................................... 118 6.7.1 Elaboration des règles de flexions des mots composés du dictionnaire ...................... 119 6.7.2 Grammaire textuelle des mots composés d‘informatique ........................................... 121 6.7.3 Tableau des paradigmes flexionnels ........................................................................... 123
Description: