Université de Montréal Étude de l’évolution dans la terminologie de l’informatique en anglais avant et après 2006 Une approche en diachronie courte par Angélique Lafrance Département de linguistique et de traduction Faculté des arts et des sciences Mémoire présenté à la Faculté des études supérieures et postdoctorales en vue de l’obtention du grade de Maître en traduction option recherche septembre 2016 © Angélique Lafrance, 2016 Université de Montréal Faculté des études supérieures et postdoctorales Ce mémoire intulé : Étude de l’évolution dans la terminologie de l’informatique en anglais avant et après 2006 : Une approche en diachronie courte présenté par : Angélique Lafrance a été évalué par le jury composé des personnes suivantes : Chantal Gagnon président-rapporteur Marie-Claude L’Homme directrice de recherche Patrick Drouin codirecteur de recherche Mireille Tremblay membre du jury Résumé Dans la présente étude, nous proposons une méthode pour observer les changements lexicaux (néologie et nécrologie) en anglais dans le domaine de l’informatique en diachronie courte. Comme l’informatique évolue rapidement, nous croyons qu’une approche en diachronie courte (sur une période de 10 ans) se prête bien à l’étude de la terminologie de ce domaine. Pour ce faire, nous avons construit un corpus anglais constitué d’articles de revues d’informatique grand public, PC Magazine et PC World, couvrant les années 2001 à 2010. Le corpus a été divisé en deux sous-corpus : 2001-2005 et 2006-2010. Nous avons choisi l'année 2006 comme pivot, car c’est depuis cette année-là que Facebook (le réseau social le plus populaire) est ouvert au public, et nous croyions que cela donnerait lieu à des changements rapides dans la terminologie de l’informatique. Pour chacune des deux revues, nous avons sélectionné un numéro par année de 2001 à 2010, pour un total d’environ 540 000 mots pour le sous-corpus de 2001 à 2005 et environ 390 000 mots pour le sous-corpus de 2006 à 2010. Chaque sous-corpus a été soumis à l’extracteur de termes TermoStat pour en extraire les candidats-termes nominaux, verbaux et adjectivaux. Nous avons procédé à trois groupes d’expérimentations, selon le corpus de référence utilisé. Dans le premier groupe d’expérimentations (Exp1), nous avons comparé chaque sous-corpus au corpus de référence par défaut de TermoStat pour l’anglais, un extrait du British National Corpus (BNC). Dans le deuxième groupe d’expérimentations (Exp2), nous avons comparé chacun des sous-corpus à l’ensemble du corpus informatique que nous avons créé. Dans le troisième groupe d’expérimentations (Exp3), nous avons comparé chacun des sous-corpus entre eux. Après avoir nettoyé les listes de candidats-termes ainsi obtenues pour ne retenir que les termes du domaine de l’informatique, et généré des données sur la variation de la fréquence et de la spécificité relative des termes entre les sous-corpus, nous avons procédé à la validation de la nouveauté et de l’obsolescence des premiers termes de chaque liste pour déterminer si la méthode proposée fonctionne mieux avec un type de changement lexical (nouveauté ou obsolescence), une partie du discours (termes nominaux, termes verbaux et termes adjectivaux) ou un groupe d’expérimentations. i Les résultats de la validation montrent que la méthode semble mieux convenir à l’extraction des néologismes qu’à l’extraction des nécrologismes. De plus, nous avons obtenu de meilleurs résultats pour les termes nominaux et adjectivaux que pour les termes verbaux. Enfin, nous avons obtenu beaucoup plus de résultats avec l’Exp1 qu’avec l’Exp2 et l’Exp3. Mots-clés : terminologie, diachronie courte, extraction semi-automatique de termes, néologie, nécrologie, informatique ii Abstract In this study, we propose a method to observe lexical changes (neology and necrology) in English in the field of computer science in short-period diachrony. Since computer science evolves quickly, we believe that a short-period diachronic approach (over a period of 10 years) lends itself to studying the terminology of that field. For this purpose, we built a corpus in English with articles taken from computer science magazines for the general public, PC Magazine and PC World, covering the years 2001 to 2010. The corpus was divided into two subcorpora: 2001-2005 and 2006-2010. We chose year 2006 as a pivot, because Facebook (the most popular social network) has been open to the public since that year, and we believed that would cause quick changes in computer science terminology. For each of the magazines, we selected one issue per year from 2001 to 2010, for a total of about 540,000 words for the 2001-2005 subcorpus and about 390,000 words for the 2006-2010 subcorpus. Each subcorpus was submitted to term extractor TermoStat to extract nominal, verbal and adjectival term candidates. We proceeded to three experiment groups, according to the reference corpus used. In the first experiment group (Exp1), we compared each subcorpus to the default reference corpus in TermoStat for English, a British National Corpus (BNC) extract. In the second experiment group (Exp2), we compared each subcorpus to the whole computer science corpus we created. In the third experiment group (Exp3), we compared the two subcorpora with each other. After cleaning up the term candidates lists thus obtained to retain only the terms in the field of computer science, and generating data about relative frequency and relative specificity of the terms between subcorpora, we proceeded to the validation of novelty and obsolescence of the first terms of each list to determine whether the proposed method works better with a particular type of lexical change (novelty or obsolescence), part of speech (nominal, verbal or adjectival term), or experiment group. The validation results show that the method seems to work better with neology extraction than with necrology extraction. Also, we had better results with nominal and iii adjectival terms than with verbal terms. Finally, we had much more results with Exp1 than with Exp2 and Exp3. Keywords : terminology, short-period diachrony, semi-automatic term extraction, neology, necrology, computer science iv Table des matières Résumé ......................................................................................................................................... i Abstract ...................................................................................................................................... iii Table des matières ....................................................................................................................... v Liste des tableaux ...................................................................................................................... vii Liste des figures ....................................................................................................................... xiv Liste des sigles et des abréviations ........................................................................................... xv Remerciements ........................................................................................................................ xvii Introduction ................................................................................................................................. 1 Chapitre 1 : État de l’art .............................................................................................................. 5 1.1 Place de la dimension diachronique en terminologie ................................................. 5 1.1.1 Prédominance de la dimension synchronique en terminologie .................................. 6 1.1.2 Études ouvrant la porte à la dimension diachronique ................................................ 7 1.1.3 Ce que la diachronie permet d’étudier ..................................................................... 10 1.2 Études terminologiques en diachronie ...................................................................... 11 1.2.1 La néologie dans le domaine du terrorisme .......................................................... 12 1.2.2 La nécrologie dans le domaine de l’écologie terrestre ............................................. 15 1.2.3 La diachronie courte dans le domaine spatial .......................................................... 19 1.3 Conclusion ...................................................................................................................... 23 Chapitre 2 : Méthodologie ........................................................................................................ 25 2.1 Mise en forme du corpus ................................................................................................. 25 2.2 Extraction des candidats-termes par TermoStat .............................................................. 28 2.3 Expérimentations ............................................................................................................ 29 2.3.1 Exp1 : comparaison des sous-corpus avec le corpus par défaut de TermoStat ........ 30 2.3.2 Exp2 : comparaison des sous-corpus avec l’ensemble du corpus informatique ...... 31 2.3.3 Exp3 : comparaison des sous-corpus entre eux ....................................................... 31 2.4 Traitement des candidats-termes ..................................................................................... 32 2.4.1 Élimination des noms de produits et des erreurs ..................................................... 33 2.4.2 Validation du statut terminologique des CT ............................................................ 36 v 2.4.3 Regroupement des CT extraits des deux sous-corpus .............................................. 41 2.5 Comparaison des fréquences des termes entre les sous-corpus 2001-2005 et 2006-2010 ............................................................................................................................................... 44 Chapitre 3 : Analyse et validation des résultats ........................................................................ 45 3.1 Exp1 : comparaison des sous-corpus au corpus par défaut de TermoStat .................. 49 3.1.1 Termes extraits seulement d’un sous-corpus ........................................................... 50 3.1.2 Termes extraits des deux sous-corpus ...................................................................... 61 3.2 Exp2 : comparaison de chaque sous-corpus avec l’ensemble du corpus informatique .. 83 3.2.1 Termes extraits seulement dans le sous-corpus 2001-2005 ..................................... 83 3.2.2 Termes extraits seulement dans le sous-corpus 2006-2010 ..................................... 85 3.3 Exp3 : comparaison des sous-corpus entre eux .............................................................. 86 3.3.1 Termes extraits seulement du sous-corpus 2001-2005 ............................................ 87 3.3.2 Termes extraits seulement dans le sous-corpus 2006-2010 ..................................... 90 3.4. Comparaison des résultats entre les expérimentations ................................................... 94 3.4.1 Comparaison des résultats pour la nouveauté et l’obsolescence ............................. 95 3.4.2 Comparaison des résultats selon les parties du discours .......................................... 96 3.4.3 Comparaison des résultats selon les groupes d’expérimentations ........................... 96 3.4.4 Comparaison selon l’indice de variation .................................................................. 97 3.4.5 Synthèse des résultats .............................................................................................. 98 3.4.6 Limites de l’étude .................................................................................................... 98 Conclusion .............................................................................................................................. 101 Bibliographie ........................................................................................................................... 103 Annexe 1 – Listes des termes de l’Exp1 ................................................................................ xviii Annexe 2 : Listes des termes de l’Exp2 ................................................................................ xcvii Annexe 3 : Liste des termes de l’Exp3 .................................................................................. xciv vi Liste des tableaux Tableau I. Échantillonnage pour la sélection des numéros de PC Magazine et PC World ...... 27 Tableau II : Les 10 premiers CT adjectivaux extraits du sous-corpus 2006-2010 dans l’Exp1 32 Tableau III : Les 10 premiers CT adjectivaux extraits du sous-corpus 2006-2010 dans l’Exp1 avec leur rang ............................................................................................................................ 32 Tableau IV : Les candidats-termes download et downloads dans la liste de candidats-termes nominaux issus du sous-corpus 2001-2005 dans l’Exp1 avant nettoyage ................................ 34 Tableau V : Les candidats-termes download et downloads dans la liste de candidats-termes nominaux issus du sous-corpus 2001-2005 dans l’Exp1 après nettoyage ................................ 34 Tableau VI : Quelques adjectifs participiaux extraits du sous-corpus 2006-2010 dans l’Exp1 35 Tableau VII : Rangs des 10 premiers CT nominaux extraits du sous-corpus 2001-2005 dans l’Exp1 et leur variation ............................................................................................................. 42 Tableau VIII : Fréquences brutes, fréquences relatives et variation des fréquences relatives pour les 10 premiers CT nominaux extraits du sous-corpus 2001-2005 dans l’Exp1 .............. 43 Tableau IX : Spécificités, spécificités relatives et variation des spécificités relatives des 10 premiers CT nominaux extraits du sous-corpus 2001-2005 dans l’Exp1 ................................. 44 Tableau X : Nombre de termes retenus dans chaque liste pour chaque groupe d’expérimentations .................................................................................................................... 45 Tableau XI : Les 20 premiers termes nominaux, verbaux et adjectivaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 ......................................................................................... 51 Tableau XII : Les termes nominaux validés parmi les 20 premiers termes nominaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 ................................................................... 52 Tableau XIII : Les termes nominaux réfutés parmi les 20 premiers termes nominaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 ................................................................... 53 Tableau XIV : Les termes validés parmi les 20 premiers termes nominaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 .................................................................................... 53 Tableau XV : Les termes verbaux réfutés parmi les 20 premiers termes verbaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 ................................................................... 54 vii Tableau XVI : Les termes validés parmi les 20 premiers termes adjectivaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 .................................................................................... 54 Tableau XVII : Les termes adjectivaux réfutés parmi les 20 premiers termes adjectivaux extraits seulement du sous-corpus 2001-2005 dans l’Exp1 ...................................................... 55 Tableau XVIII : Synthèse des résultats de la validation de l’obsolescence des termes extraits seulement dans le corpus 2001-2005 dans l’Exp1 .................................................................... 55 Tableau XIX : Les 20 premiers termes nominaux, verbaux et adjectivaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ......................................................................................... 56 Tableau XX : Les termes nominaux validés parmi les termes nominaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ......................................................................................... 57 Tableau XXI : Le terme nominal réfuté parmi les termes nominaux extraits seulement du sous- corpus 2006-2010 dans l’Exp1 ................................................................................................. 57 Tableau XXII : Les termes verbaux validés parmi les 20 premiers termes verbaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ................................................................... 58 Tableau XXIII : Les termes verbaux réfutés parmi les 20 premiers termes verbaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ................................................................... 59 Tableau XXIV : Les termes adjectivaux validés parmi les 20 premiers termes adjectivaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ...................................................... 60 Tableau XXV : Les termes adjectivaux réfutés parmi les 20 premiers termes adjectivaux extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ...................................................... 60 Tableau XXVI : Synthèse de la validation de la nouveauté des termes extraits seulement du sous-corpus 2006-2010 dans l’Exp1 ......................................................................................... 61 Tableau XXVII : Les dix premiers termes nominaux extraits des deux sous-corpus et classés par ordre croissant de la variation de la fréquence relative ...................................................... 63 Tableau XXVIII : Les termes validés parmi les 10 premiers termes de la liste de termes nominaux extraits des deux sous-corpus et classés par ordre croissant de la variation de la fréquence relative ...................................................................................................................... 63 Tableau XXIX : Les termes réfutés parmi les 10 premiers termes de la liste de termes nominaux extraits des deux sous-corpus et classés par ordre croissant de la variation de la fréquence relative ...................................................................................................................... 64 viii
Description: