ebook img

Modèle de vérification grammaticale automatique gauche-droite PDF

268 Pages·2017·8.76 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Modèle de vérification grammaticale automatique gauche-droite

Modèle de vérification grammaticale automatique gauche-droite Agnès Souque To cite this version: Agnès Souque. Modèle de vérification grammaticale automatique gauche-droite. Linguistique. Uni- versité de Grenoble, 2014. Français. ￿NNT: 2014GRENL012￿. ￿tel-01247368￿ HAL Id: tel-01247368 https://theses.hal.science/tel-01247368 Submitted on 4 Jan 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE Pour obtenir le grade de DOCTEURE DE L’UNIVERSITÉ DE GRENOBLE Spécialité : Sciences du langage, Spécialité Informatique et Sciences du langage Arrêtéministériel:7août2006 Présentéepar Agnès SOUQUE Thèse dirigée par Thomas LEBARBÉ préparée au sein du Laboratoire LIDILEM – EA 609 dans l’École Doctorale no50 – Langues, Littérature et Sciences Hu- maines Modèle de vérification grammaticale automatique gauche-droite Thèse soutenue publiquement le 12 décembre 2014, devant le jury composé de : M. Thomas LEBARBÉ Professeur,UniversitéStendhal-Grenoble3,Directeurdethèse Mme Cécile FABRE Professeur,UniversitéToulouse2-LeMirail,Rapporteur M. Geoffrey WILLIAMS Professeur,UniversitédeBretagneSud,Président M. Olivier KRAIF MaîtredeConférences,UniversitéStendhal-Grenoble3,Examinateur Université Joseph Fourier / Université Pierre Mendès France / Université Stendhal / Université de Savoie / Grenoble INP ii iii Remerciements Je tiens tout d’abord à remercier mon directeur de thèse, Thomas Lebarbé, de m’avoir fait confiance pour mener cette thèse à bien et surtout à son terme. Je voudrais ensuite remercier Cécile Fabre et Geoffrey Williams d’avoir accepté d’évaluer mon travail et Olivier Kraif d’avoir accepté de faire partie de mon jury. Un immensissime (c’est moche mais j’aime bien!!) merci également à Bad Cop et Good Cop, sans le coaching desquels cette thèse n’aurait jamais connu de fin. J’aimerais aussi dire, dans le désordre : Un grand merci aux copines de galère, de poucave et de refaisage de monde dans le bureau, Aïcha et Paulette; Un grand merci aux copains des pauses du matin, du midi et de l’aprés-midi, pour les discus- sions surnaturelles auxquelles elles donnent généralement lieu : Aïcha, Mathieu, Alexia, Thomas, Ninie, Claude, Aurélie, Bubu, Cristelle, les 2 Isa, Monmon, Tiphaine, Vannina, Hoaï, Arno, Sylvain, Paulette, Alex, Lucie, Eleni, et sûrement d’autres que j’oublie; Un grand merci à la fine équipe de CEDIL2010, la petite Isa, Aïcha, Auriane et Tiphaine... Trop bonne expérience que ce colloque avec vous les filles! Un grand merci aux collègues du DIP et en particulier Maman Roseline pour sa gentillesse (mêmesiellefaitdespouet-pouetquandonditdesgrosmots)etNinie,Thomas,Mathieu,Alexia pour leurs facéties; UngrandmerciàGégé,quim’aoffertl’asilequotidienetm’anourrie,toujourslegrognement sourire aux lèvres! Et P’tit mouton, toujours de bonne humeur mais qui chante comme une casserole; Un grand merci à mes relecteurs attentifs et parfois psychopathes de la virgule : Paulette (AINSI!), Ninie (on ne se base pas sa mère), Tiphaine, Vannina, Alex et la grande Isa; Un grand merci à Math, pour ses jeux de piste dans ses relectures et ses méta-commentaires désopilants. Tu dois avoir un sacré stock de pincettes!!; Un grand merci à ma Lucy pour ses conseils en traduction; Un grand merci à Thomas (et Sandrine), Gégé et leur chat caractériel respectif pour les résidences d’été studieux; Un grand merci à Cécile et Élisabeth pour m’avoir accueillie à la MSH; Ungrandmerciàlacommunautéd’OpenOffice.org,etLaurentGodard,quim’ontparhasard conduite à cette thèse; Un grand merci à ma famille pour avoir composé avec la rareté de mes visites; Un grand merci aux étudiants qui ont réalisé la dictée et les auteurs des mails, des résumés et des commentaires de blog qui m’ont fourni la matière première de mon travail; Un grand merci enfin à tous ceux que j’aurais involontairement oubliés... Cordialement!;-) iv Table des matières Liste des figures vii Liste des tableaux ix Conventions 1 Préambule 3 Partie I Problématique 5 1 Approche linguistique de la notion d’erreur de grammaire 7 1.1 Interprétation de la notion de grammaire . . . . . . . . . . . . . . . . . . . . 7 1.1.1 La grammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.2 L’orthographe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2 Définitions de l’erreur et de la faute . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.1 Définitions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.2 Erreur et faute en didactique des langues . . . . . . . . . . . . . . . . 20 1.2.3 Précisions terminologiques . . . . . . . . . . . . . . . . . . . . . . . . 22 2 Interprétation informatique de l’erreur de grammaire 25 2.1 Mécanismes de gestion des erreurs tapuscrites . . . . . . . . . . . . . . . . . . 25 2.1.1 La vérification orthographique . . . . . . . . . . . . . . . . . . . . . . 26 v vi Table des matières 2.1.2 La vérification grammaticale . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 De la grammaire académique à la grammaire en bureautique . . . . . . . . . 35 2.2.1 La grammaire des outils bureautiques . . . . . . . . . . . . . . . . . . 35 2.2.2 Les types d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3 Etat des lieux des outils et études sur les erreurs 39 3.1 Documentation et fonctionnement des vérificateurs existants . . . . . . . . . 39 3.1.1 Des outils très peu documentés . . . . . . . . . . . . . . . . . . . . . . 40 3.1.2 Un fonctionnement limité . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.3 Les utilisateurs livrés à eux-mêmes . . . . . . . . . . . . . . . . . . . . 45 3.2 Panorama des études sur les erreurs tapuscrites . . . . . . . . . . . . . . . . . 53 3.2.1 Les études existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.2 Spécificité des tapuscrits . . . . . . . . . . . . . . . . . . . . . . . . . 57 Partie II Caractérisation des erreurs tapuscrites 61 4 Choix d’une approche corpus 63 4.1 Justification d’une approche corpus . . . . . . . . . . . . . . . . . . . . . . . 64 4.1.1 Définition de la notion de corpus . . . . . . . . . . . . . . . . . . . . . 64 4.1.2 Les corpus disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2 Méthodologie de constitution du corpus . . . . . . . . . . . . . . . . . . . . . 68 4.2.1 Caractéristiques communes des données . . . . . . . . . . . . . . . . . 68 4.2.2 Variété des scripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2.3 Variété des situations de scription . . . . . . . . . . . . . . . . . . . . 70 4.2.4 Variété des types de documents . . . . . . . . . . . . . . . . . . . . . 71 4.3 Caractérisation du corpus de l’étude . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.1 Écueils de la collecte des textes . . . . . . . . . . . . . . . . . . . . . . 72 vii 4.3.2 Contenu du corpus et représentativité . . . . . . . . . . . . . . . . . . 73 4.3.3 Positionnement de notre corpus . . . . . . . . . . . . . . . . . . . . . 75 5 Constitution du corpus 77 5.1 Recueil des textes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.1.1 Dictées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.1.2 Résumés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.1.3 Courriers électroniques . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.1.4 Commentaires de blog . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.2 Normalisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2.1 Stockage homogène des données . . . . . . . . . . . . . . . . . . . . . 81 5.2.2 Standards d’annotation : XML, TEI, CES . . . . . . . . . . . . . . . . 83 5.2.3 Normalisation des données . . . . . . . . . . . . . . . . . . . . . . . . 86 6 Annotation et analyse des erreurs 89 6.1 Typologies des erreurs et annotation descriptive . . . . . . . . . . . . . . . . 89 6.1.1 Adaptation de typologies existantes . . . . . . . . . . . . . . . . . . . 89 6.1.2 Balisage du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.1.3 Réajustements de la typologie . . . . . . . . . . . . . . . . . . . . . . 103 6.2 Analyse quantitative des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2.1 Traitements statistiques des données . . . . . . . . . . . . . . . . . . . 109 6.2.2 Description quantitative du corpus . . . . . . . . . . . . . . . . . . . . 112 6.3 Résumé des principaux résultats . . . . . . . . . . . . . . . . . . . . . . . . . 136 Partie III Modélisation de la vérification grammaticale 139 7 Modélisation de la production et de la détection humaine des erreurs 141 7.1 La production du langage écrit . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7.1.1 Les processus cognitifs mis en œuvre . . . . . . . . . . . . . . . . . . . 142 viii Table des matières 7.1.2 La production d’erreurs dans le corpus . . . . . . . . . . . . . . . . . 147 7.2 Révision du langage écrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.2.1 Le processus de révision . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.2.2 Hypothèses sur la manière de détecter une erreur . . . . . . . . . . . . 163 7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8 Proposition d’un modèle pour la vérification grammaticale 175 8.1 Structure du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 8.1.1 Mécanisme de lecture gauche-droite . . . . . . . . . . . . . . . . . . . 176 8.1.2 Étiquetage morphosyntaxique . . . . . . . . . . . . . . . . . . . . . . 178 8.1.3 Segmentation en chunks . . . . . . . . . . . . . . . . . . . . . . . . . . 179 8.2 Des attentes aux piles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 8.2.1 Les valences de Tesnière . . . . . . . . . . . . . . . . . . . . . . . . . . 183 8.2.2 Les actants de Mel’čuk . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.2.3 Des attentes de différents niveaux . . . . . . . . . . . . . . . . . . . . 186 8.2.4 Un traitement par piles . . . . . . . . . . . . . . . . . . . . . . . . . . 188 8.2.5 Contenu des piles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 8.2.6 Portée des attentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 8.3 Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 8.3.1 Règles de segmentation en chunks . . . . . . . . . . . . . . . . . . . . 193 8.3.2 Ressources pour les attentes . . . . . . . . . . . . . . . . . . . . . . . 193 8.4 Fonctionnement attendu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 8.4.1 Exemple de détection par une attente non comblée . . . . . . . . . . . 197 8.4.2 Exemples de détection par un échec d’unification . . . . . . . . . . . . 200 8.4.3 Rétroactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 8.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 ix Conclusion et perspectives 205 Perspectives d’implantation du modèle 207 1 Un système multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 2 Limitations du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 2.1 Complexité de la détection de certaines erreurs . . . . . . . . . . . . . 211 2.2 Des ressources complexes à élaborer . . . . . . . . . . . . . . . . . . . 213 3 La question des rétroactions explicites contextuelles . . . . . . . . . . . . . . 214 3.1 Quel contenu? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 3.2 Quelle représentation? . . . . . . . . . . . . . . . . . . . . . . . . . . 216 3.3 Prise en compte de la décision de l’utilisateur . . . . . . . . . . . . . . 217 4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Acronymes 221 Bibliographie 223 Annexes 239 A Tableaux de données 241

Description:
gauche-droite. Agn`es Souque. To cite this version: Agn`es Souque. Mod`ele de vérification grammaticale automatique gauche-droite. Linguistique. Université .. 8.1.1 Mécanisme de lecture gauche-droite . Advances in applied psycholinguistics, volume 2 - Reading, writing, and language learning,.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.