Université de Gand Faculté de Philosophie et Lettres Année universitaire 2012-2013 La traduction automatique des articles de l’anglais au français Lissa Catthoor Mémoire de master présenté en vue de l’obtention du diplôme de Master en linguistique et littérature Directrice de recherche : Prof. Dr. Marleen Van Peteghem Mes remerciements sont adressés à tous ceux qui ont contribué à l’accomplissement de ce mémoire de master. De façon générale, je tiens à remercier les professeurs de linguistique française que j’ai rencontrés au cours des années à l’Université de Gand, qui ont suscité mon intérêt pour la linguistique et qui m’ont inspirée à écrire mon mémoire dans ce domaine. Avant tout, je souhaite exprimer ma gratitude à Prof. Dr. Marleen Van Peteghem. En tant que directrice de recherche, elle m’a guidée dans mon travail et m’a donné des conseils essentiels, tant sur la langue que sur le contenu. Son enthousiasme m’a toujours encouragée à faire le maximum lors de la réalisation de ce mémoire. Sur une note personnelle, j’exprime mes remerciements à mes parents et à mon frère, pour leur patience et pour leur soutien permanent. Je veux également remercier Randy, Shana, Marieke et Julie pour leur encouragement et pour leur confiance en moi. Table des matières LISTE DES ABRÉVIATIONS ................................................................................................... 6 INTRODUCTION ................................................................................................................... 7 1. LA TA : UNE PRATIQUE MULTIDIMENSIONNELLE ........................................................... 9 1.1. Introduction à la TA ........................................................................................... 9 1.1.1. Les quatre types de traduction .................................................................. 9 1.1.2. Les différentes facettes de la TA ............................................................ 12 1.2. Évaluation de la TA .......................................................................................... 13 1.2.1. Avantages et fonctions de la TA ............................................................ 13 1.2.2. Problèmes liés à la TA............................................................................ 15 1.3. Typologie des systèmes de TA ......................................................................... 18 1.3.1. Plusieurs possibilités de classification ................................................... 18 1.3.2. Architectures .......................................................................................... 21 1.3.2.1. L’approche directe ......................................................................... 22 1.3.2.2. L’approche à base de règles .......................................................... 23 1.3.2.3. L’approche basée sur le corpus ..................................................... 25 2. LES LOGICIELS DE TA .................................................................................................. 29 2.1. Google Traduction ............................................................................................ 29 2.2. SYSTRAN et SYSTRANet .............................................................................. 30 3. LA TA ET L’ABSENCE D’ARTICLE ................................................................................. 32 3.1. L’absence d’article en anglais .......................................................................... 32 3.1.1. L’absence d’article avec les noms communs ......................................... 33 3.1.2. L’absence d’article avec les noms propres ............................................. 39 3.2. Étude de corpus ................................................................................................ 40 4. LA TA ET L’ARTICLE .................................................................................................... 44 4.1. La détermination nominale ............................................................................... 44 4.2. L’article et la référence spécifique ou générique ............................................. 48 4.3. L’article défini .................................................................................................. 53 4.3.1. Les noms communs ................................................................................ 55 4.3.1.1. La référence spécifique ................................................................ 55 4.3.1.2. La référence générique ................................................................. 59 4.3.2. Les noms propres.................................................................................... 60 4.4. L’article indéfini ............................................................................................... 62 4.4.1. La référence spécifique .......................................................................... 62 4.4.2. La référence générique ........................................................................... 63 5. ÉTUDE DE CORPUS ........................................................................................................ 65 5.1. Méthodologie .................................................................................................... 65 5.1.1. Rappel des questions de recherche ......................................................... 65 5.1.2. La constitution du corpus ....................................................................... 66 5.1.3. L’interprétation des résultats .................................................................. 67 5.2. Résultats ........................................................................................................... 69 5.2.1. L’article dans des phrases isolées ........................................................... 70 5.2.1.1. Les types d’emploi des articles défini et indéfini ......................... 70 5.2.1.2. L’article et les opérations de détermination ................................. 73 5.2.2. L’article dans un texte ............................................................................ 81 5.2.2.1. Les articles défini et indéfini ........................................................ 81 5.2.2.2. L’absence d’article ....................................................................... 82 CONCLUSION .................................................................................................................... 88 BIBLIOGRAPHIE ................................................................................................................ 91 ANNEXE 1 ............................................................................................................................i ANNEXE 2 .......................................................................................................................... ii ANNEXE 3 ......................................................................................................................... iii Liste des abréviations BNC British National Corpus FAHQ(M)T fully automated high quality (machine) translation SN syntagme nominal TA traduction automatique TAAH traduction automatique assistée par l’homme TAO traduction assistée par ordinateur TH traduction humaine THAM traduction humaine assistée par la machine 6 Introduction L’automatisation de la traduction frappe depuis longtemps l’imagination de l’homme. De nos jours, la traduction automatique (TA) est devenue une réalité indispensable dans la société de l’information à laquelle nous appartenons. Néanmoins, même si d’importants progrès ont déjà été réalisés dans ce domaine, les résultats de la TA sont encore loin d’être parfaits. Cette étude examinera un aspect particulier de la traduction à l’aide de programmes informatiques, à savoir la TA des articles défini, indéfini et zéro de l’anglais vers le français. Dans notre mémoire de bachelor (Catthoor 2012), nous avons étudié la TA de l’absence d’article de l’anglais au français dans des phrases isolées. Nous avons distingué différents types d’emploi de l’article zéro afin d’obtenir des résultats pour chacun de ces types. Comme nous le verrons dans ce qui suit, ce mémoire de master vise à approfondir davantage le sujet de la TA de l’article. La présente étude poursuit trois objectifs principaux. Nous tenterons en premier lieu de présenter quelques informations générales par rapport à la pratique de la TA et d’expliquer le fonctionnement des différents types de logiciels. En deuxième lieu, similairement à la démarche adoptée dans notre mémoire de bachelor (Catthoor 2012), nous étudierons les contextes dans lesquels les articles défini et indéfini de l’anglais peuvent apparaître, en fournissant en même temps une comparaison avec le français. Les articles défini, indéfini et zéro de l’anglais seront également examinés sous l’angle des opérations de détermination du groupe nominal. En troisième lieu, au moyen d’une étude de corpus, nous espérons fournir une réponse aux questions de recherche présentées dans le paragraphe suivant. Par la voie d’une étude de corpus, nous essaierons d’examiner dans quelle mesure les logiciels de TA parviennent à traduire correctement les articles de l’anglais vers le français, tout en déterminant les contextes les plus problématiques. Nous prévoyons que les résultats seront meilleurs lorsque les deux langues ne diffèrent pas dans leur emploi de l’article, ayant donc recours au même type d’article. De plus, nous tenterons de déterminer si les trois logiciels utilisés pour la traduction du corpus, à savoir Google 7 Traduction, SYSTRAN et SYSTRANet, manifestent des différences dans les résultats de la TA. Le corpus se compose de quatre parties distinctes. Premièrement, nous avons cherché 50 phrases isolées comportant un article défini ou indéfini, dans le but d’adopter la même démarche que dans notre mémoire de bachelor (Catthoor 2012). Deuxièmement, nous avons rassemblé un total de 56 phrases isolées pour étudier la problématique de l’article en relation avec les principales opérations de détermination. Finalement, comme nous n’avons pas voulu limiter cette étude à la TA de phrases isolées, deux extraits de textes différents ont été inclus dans le corpus. Le premier est un article de presse de 625 mots qui provient du site web du Parlement européen, alors que le second est un texte littéraire de 624 mots qui est issu du roman The Great Gatsby de F. Scott Fitzgerald. Dans les deux extraits de textes, nous avons relevé toutes les occurrences des articles défini, indéfini et zéro. Chacune des parties du corpus a été traduite par les logiciels mentionnés ci-dessus. Dans les deux premiers chapitres, nous fournirons des informations concernant la pratique de la TA et les trois logiciels utilisés pour cette étude. Ensuite, le troisième chapitre rappellera la démarche et les résultats de notre mémoire de bachelor (Catthoor 2012). Dans le quatrième chapitre, nous traiterons les opérations de détermination du groupe nominal tout comme les types d’emploi des articles défini et indéfini. Enfin, le dernier chapitre présentera les résultats de l’analyse du corpus. 8 1. La TA : une pratique multidimensionnelle Dans le présent chapitre, nous traiterons les aspects les plus importants de la traduction automatique en général. Tout d’abord, nous fournirons une introduction portant sur les différentes facettes de la TA et les quatre types de traduction qui peuvent être distingués. Nous présenterons ensuite les avantages tout comme les inconvénients allant de pair avec la pratique de la TA, avant de passer à une typologie des approches possibles. Enfin, nous nous pencherons sur les logiciels de TA qui sont d’intérêt pour notre étude, à savoir Google Traduction, SYSTRAN et SYSTRANet. 1.1. Introduction à la TA 1.1.1. Les quatre types de traduction De façon générale, le terme de traduction automatique s’applique à la traduction d’une langue naturelle à une autre à l’aide de programmes informatiques, et s’oppose donc à la traduction dite humaine (Hutchins et Somers 1992). Cette classification se complique pourtant : d’après le degré d’automatisation, Hutchins et Somers (1992) distinguent quatre types de traduction, qui s’insèrent dans un continuum linéaire (cf. figure 1) Figure 1 : types de traduction Source : Hutchins et Somers (1992) dans Quah (2006) : 7 9 dont la TA et la traduction humaine constituent les extrémités. Le centre est formé par la traduction automatique assistée par l’homme (TAAH) et la traduction humaine assistée par la machine (THAM), qui peuvent être regroupés sous le terme de traduction assistée par ordinateur (TAO). Dans ce qui suit, nous examinerons de plus près les concepts introduits ici, en nous appuyant sur les ouvrages de Quah (2006) et de Hutchins et Somers (1992). Comme décrit par Quah (2006), les débuts de la recherche sur la TA se caractérisaient par l’espérance optimiste de développer des systèmes automatisés capables de générer des traductions de grande qualité sans aucune intervention humaine. En 1952, Yehoshua Bar-Hillel a introduit le terme de FAHQT (fully automated high quality translation) pour renvoyer à cet idéal, qui est selon lui irréalisable parce que fondamentalement impossible (Bar-Hillel 1960/2003 dans Quah 2006). De nos jours, l’impossibilité de la FAHQT est généralement acceptée : une traduction est soit de grande qualité, soit générée de façon complètement automatisée, mais la combinaison des deux n’est pas réalisable. Par conséquent, l’idéal de la FAHQT a été remplacé par la simple TA, traduction automatique, qui se situe entre la FAHQT et la traduction automatique assistée par l’homme sur le continuum mentionné ci-dessus. La TA a donc comme objectif de générer automatiquement des traductions, sans prétention de grande qualité. Jusqu’à présent, les savants et les chercheurs ne se sont pas à l’unisson sur la définition exacte de la TA en ce qui concerne le degré d’intervention humaine (Archer 2002 dans Quah 2006). En ce qui concerne la TAAH et la THAM, Quah (2006) nous avertit que la limite entre ces deux concepts est parfois difficile à marquer. D’un point de vue théorique, la TAAH implique que la machine a un rôle plus grand tandis que la THAM met l’accent sur l’homme, mais d’un point de vue pratique les choses peuvent s’embrouiller. Dans le cas de la TAAH, le système informatique est le traducteur principal, sans exclure un certain degré d’intervention humaine. L’assistance de l’homme est possible à trois moments différents : avant, après ou pendant la génération de la traduction. Pour référer à la participation humaine dans le stade de la préparation du texte ou dans le stade de la production du texte, les termes de pré-édition et de post-édition sont utilisés. La pré-édition consiste à contrôler le texte source afin de découvrir à l’avance des éléments qui pourraient poser problème au logiciel de TA. Le traducteur humain 10
Description: