ebook img

Manuel Gemini CLS Version 0.65 PDF

15 Pages·2004·9.353 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Manuel Gemini CLS Version 0.65

CECP CENTRE D,ETUDES Gt§ Gemini 09.2004 - Version de travail. Âle pas diffuser Documentation et code : @ CECP 20O4 ffi Gemin CtS Version 0.65 Averfissement Le programme et sa documentation sont tous deux en cours de développement. L'un et l'autre doivent donc être considérés comme des versions provisoiies, non finalisées et destinées uniquement à l'évaluation. Leur utilisation se fait aux risques et périls de l'utilisateur. 1. Présentation rapide Gemini CLS est un analyseur de texte polyvalent destiné à la recherche, à l'enseignement mais aussi à la pratique de l'écrit. Pour les professionnels de la rédaction (rédacteurs, éditeurs), son utilité première est de calculer certains des facteur qui peuvent rendre un texte plus ou moins difficile à lire pour des lecteurs plus ou moins entraînés. Encore faut-il bien comprendre ce que signifient ces paramètres : la difficulté de lecture n'esf pas la difficulté de compréhension (même si elle y contribue). C'est pourquoi la consultation du document « Comprendre la lisibilité » est très vivement recommandée. Techniquement parlant, Gemini est un quantifieur de surface. En d'autre termes, il réalise le moins possible d'analyse grammaticale (seulement pour certains aspects sÿlistiques) mais se concentre sur sa vocation première : mesurer de la façon la plus fiable possible les principales caractéristiques statistiques du texte, et en particulier celles qui contribuent à sa «« charge lexico-syntaxique » (CLS). Pour plus d'information sur cette dernière, on se reportera au document « Un nouvel indice de lisibilité » édité par le CECP. Par ailleurs, Gemini fournit de nombreuses autres indications statistiques, dont beaucoup seront inutiles aux praticiens de l'écrit mais dont les spécialistes de l'analyse textuelle pourront avoir I'uage. 2. Spécifications Gemini est conçu pour l'analyse de textes « ordinaires », c'est-à-dire de suites de phrases grammaticales, telles que des articles de presse, des récits de fiction, des discours politiques, des mémos ou des lettres. Vous pouvez évidemment lui donner à analyser une liste de courses, du code informatique, un bilan financier ou l'annuaire du téléphone, mais les résultats n'euront aucun sens,.. En tout état de cause, Gemini s'attend à ce que le texte commence par le début d'une phrase et se termine par la fin d'une phrase. Si ce n'est pas le cas, il vous avertira. . Format : Le fichier à analyser peut provenir de n'importe quel logiciel de traitement de texte, de butinage internet, etc., mais il doit dans tous les cas avoir été enregistré sans formatage spécifique et sans retours artificiels en fin de ligne (Avec MS Word, utiliser le menu « Enregistrer sous... » et le format « Texte seulement »). o Sélection du texte source : Pour des résultats fiables, il est nécessaire d'exclure tout ce qui ne fait pas partie du corps du texte proprement dit, par exemple les titres ou les signatures. Si vous ne souhaitez pas les effacer du fichier, : vous pouvez utiliser les balises d'analyse le groupe de trois signes t>l marque le début du texte à analyser (ce qui préêde est ignoré), tandis que [<[ marque la fin du texte à analyser (tout ce qui suit est ignoré). De même, il est vivement conseillé d'exclure les éléments paratextuels situés dans le texte (intertitres, titres de chapitres, numéros de section, etc.). Vous pouvez utiliser des balises d'exclusion : le groupe de trois signes [ ![ marque le début du texte à ignorer, tandis que I !l marque la fin du texte à ignorer. Par exemple, face au texte : Début à omettre I >l Voici le texte util-e. [ ! [Ceci est inutil-e.l !lCela est aussi à conserver. t<t Fin à omettre. Gemini lira: Voici Ie texte util-e. Cel-a est aussi à conserver. A défaut de sélection, Gemini acceptera de traiter le texte excédentaire, mais les résultats pourront être faussés. Par exemple, les intertitres seront généralement rattachés à la phrase qui les suit, dont l'indice de longueur sera accru en consequence. . Composition : La correction typographique est essentielle pour la qualité de l'analyse. Gemini rectifie de lui-même les fautes typographiques les plus courantes, notamment les espaces incorrectes, les triples points à la place des points de suspension, les doubles retours de ligne, etc. ll peut toutefois être induit en erreur par une typographie trop fantaisiste... . Enumérations : La version actuelle de Gemini n'est pas conçue pour traiter des textes comprenant des énumérations (marquées par exemple par des tirets, des puces, des numéros d'article, etc.). Cette capacité devrait être ajoutée dans une version ultérieure. En attendant, le mieux est de placer l'énumération entre des balises d'exclusions (ou de s'en remettre au hasard de son interprétation par le programme). o Taille des fichiers : Gemini n'a pas de limite inférieure ou supérieure stricte: celles-ci dépendent des plates-formes sur lequel il est employé, de la mémoire disponible, etc. Néanmoins, il est déconseillé d'analyser des textes de moins de 100 mots ou de plus de 10 000 mots. En deçà de '100 mots, le programme ne rencontrera pas de difficulté (il analysera correctement le texte) mais des résultats sur une base aussi mince auront peu de signification statistique. Au delà de 10 000 mots, le traitement deviendra lent et pourra même saturer la mémoire disponible. Le même phénomène peut, du reste, se produire après l'analyse de nombreux textes, même courts (dans ce cas, quitter et relancer le programme). 3. Utilisation Gemini possède deux modes d'utilisation. En mode console, toutes les commandes doivent être entrées au clavier dans la fenêtre d'exécution. Ce mode, plutôt destiné aux utilisateurs avertis, est assez austère mais un peu plus rapide et offre un meilleur contrôle des fonctions. En mode dialogue (mode par défaut dans les versions Windows et Mac os8/9) la navigation et le rapport d'analyse utilisent des fenêtres de dialogue. La fenêtre d'exécution est néanmoins présente en arrière plan. L'utilisation proprement dite est on ne peut plus simple : après avoir éventuellement sélectionné les options de traitement (bouton options ; voir section 4), l'utilisateur indique le fichier à analyser (bouton procéder) et Gemini s'occupe du reste puis affiche son rapport d'analyse (voir section 6). ütmnnf §2â.ont *;.*ç11ile:dinr GEhllNI flf : lnfor I rgüonr I ll prurÉüer § - Ecran d'accueil (interface dialogue sous Mac OS9) Fenêtre de rapport principale IEf,I$.E : Longueur moyenne des mots l i tDll Loltf,u.È{r {.St Variation (variété) de la r Vadaffon : 3.22 longueur des mofs tE2l . ftilxl8 : |ffgla Taux de mots suoérieurs à huit ID4] lettres Sfr§E§,-1,, ::::: r : Longueur moyenne des tcll Longtrelf 3+J5 phrases r Variatia* : 9O IlEc3z]l , Mqieurt : Xlfi7 Vpherraiasteiosn de la longueur des Lonoueur movenne des 50% de phràses les plus longues IHDITET î lHll . ftâneelÊxi(otyüfi.§ül : 33.8r slnvdnitcaexsio duee c(heaffrooïe dleex liecoct-ure). r lH2I firarycl"*rtroSmtLlüt : §eç7 L'indice'2 eèt l'indice de référence. I urtr I flts ll_--§!g_§ - :':: .."iï'*::i::j:,. :"-"ry.,: .:ll"::jïr;:. i.I.sjïï:-:; . : :. ";gî;:Ë".;":, ]:ll:l,*. *ff-i..:.::"1:: j : *: î:::::]r:;.r=.rîr"r;.:.-.L,,:,:,.d::iÀ ; r 1. Fenêtre de raooort secondaire (« Stdts ») El"E[d[hn§ HE[§I{.E, } Nombre de paragraphes lAlI r Pàrüdr. : ll Nombre de phrases lA2I * ffrrater :,,13 Nombre de pseudo-phrases IA3] o §ë*u€G(ef ; 3 Nombre de mots r lAsI dh*înarIypo : 268 typograph.iques (« Voulez- tA6l r &raheç Le]d : lgt vous»=1ffiot) Nombre de mots lexicaux (« Voulez-vous » = 2 mots) -.:.' . fÂBÂf,fEffi§ r IB1] Eru[ ; t72e Nombre de signes du fichier * I t82l * ÂÀ*tHfb+.ll+ I€ l:HilüBü§ Lettres+ch iffres+ I iens+espaces tlBB43Il *rA À:+l3FIT'J DI3iû ' LLeettttrreess++cchh ififffrreess+ I ien s Lettres tB5I * Ysrd(rn* r 5ffi,6§ Voyelles / consonnes t86l ,fffi'lffirj tEffiN ,, ij)tl$ffi ffi.1 ï*-:j#ffi ffi 2. Fenêtre de difficulté de HtT* c H ltê lecture (« Lisib») §IerchH.Ëarc ',,' lndtrce: 3û** Les deux indices de lisibilité clignotent en alternance. La barre svmbolise l'effort de lecture (ethon de comoré- hension) demandé au lecteur. î:îri,ffir;,Ë,: lllffiÈultÉ Nota : comme l'indice de Flesh est inversé (0 = très difficile 100 = très facile), la barre de; {harg*Lt{h2} ,i, ,lndlre: charqe corresoond à 100 moins Ë?.97 f indiëe (dans l'exe mple ci-contre, l'indice de facilité de'Flesh = 30,49, d'où : la bane de difftculté = 100 - 30,49 = 69,51). Quelques exemples d'indices de charge lexico-syntaxique (CLS b2) : . Livres enfants : Babar : 20,86, Oui-Oui '. 21,15, Nounours : 2B,lB ' Littérature : St Exupery ÿol de nuit) = 38,15 ; Zola (Germinat\ = 43,42 . Balzac (Col. Chabert) = 47,88; Flaubert (Bovary) = 53,67 ; Prou§t (Swann) = 98:24 ' Presse : Moyenne de 160 articles (Monde, Libération & Fiqaro) :52.77. îépartition des texfes; CLS< 40=Sarticles; CLS < 50= 67 arfs; CLS 1AO113darts.)' 'Universitaire: Durkheim (Div. Trav. Soc.) = 59,63; Kant (Métaphys. mæurs) = {31,00 4. Préférences Pour accéder au réglage des préférences, cliquer sur le bouton « options » (en mode console, donc sans bouton, taper la touche [: ] (deux points) puis [retour].). Geminivous permet alors de saisir des couples /effie : chiffrc, où la lettre correspond à la classe d'option et chiffre à l'option choisie. (par ex. A:1 C :2). Provisoire. Les options que vous allez choisir ne seront pas mémorisées lorsque vous quitterez le programme. Nota : comme c'est le choix par défaut, ilesf en fait inutile de /e saisir. Permanente. Vos options seront conservées lors des prochaines utilisations. Réinitialisation. Gemini revient à ses options par défaut (qui sont généralement les meilleures). Nota : Vous pouvez obtenir le même résultat en détruisant le fichier nommé « GeminiPrefs » que Gemini à créé lors de son premier lancement. Détermine le degré de détaildu compte rendu d'analyse Très détaillé. Expose la ventilation en nombre de signes par mot et en nombre de mot de chacune des phrases, ainsi que l'ensemble des variables calculées. Détaillé. Expose l'ensemble des variables calculées (dont la plupart ne vous serviront probablement à rien). Normal. Expose les principales variables calculées (reglage par défaut). Non. Gemini n'enregistrera pas de compte rendu d'analyse (réglage par défaut). Oui. Gemini enregistrera, dans le même dossier que I'application, un fichier de compte rendu intitulé << nomDuFichielstats.b<t » Sylk. Gemini enregistrera un listing des paramètres de tous les fichiers analysés, dans un format tabulé (sylk) compatible avec les principaux tableurs. Nota : /es opfibns 2 et 3 ne sont disponibles que dans /es versrbns <t éditeur »» et « recherche » de Gemini. Sylkcplit. Comme cidessus, mais Geminidécoupera en outre le nom du fichier en étiquettes de traitement, qu'il incorporera au listing. Nota : Les noms des fichiers doivent être composé de quatrc grcupes de lettres ou chiffres séparés par des points (par exemple << Romans.Camus.Peste.l » ou « Hebdos.Newsweek. 1 *09-04.page32-1. ») Option utilisée pour le développement du programme. Ne yous sert à ien. Ceftaines fonctions du prcgramme reposent sur le décompte des mofs dont la longueur est supérieure ou égale à un certain seuil. Seuil = 4. Gemini prendra en compte les mots de plus de 4 lettres (le total sera présenté sous l'index [84]) i1 Seuil= 5. ldem, mais mots de plus de 5lettres. () etc. Pour tout chiffre n rentré, le seuil sera fixé à n+4. (mais au-delà de n= 21, vous n'aurez plus rien à détecter dans la langue française). i4 Attention Ne changez pas la valeur par défaut (E :4 , d'oit : seuil= 8) si vous n'avez pas= une excellente raison de le faire : certaines formules seront affectées et les résultats ne seront plus comparables avec les calculs standards. Les sigles comme S.N.C.F. doivent être considérées comme un bloc (SNCF) lorsqu'on décompte les mots mais comme quatre lettres distinctes (S N C F) lorsqu'on décompte les syllabes. :0 Standard. (Réglage par défaut). Gemini comptera une syllabe par lettre lorsque des lettres - en capitales ou non - sont séparées par des points. (« h.t. » estconsidérécomme h t»t, « H.T. »comme « H T ») << i1 Plus. En sus du cas précédent, Gemini comptera une syllabe par lettre lorsqu'une suite de lettres en capitales (non séparées) s'achève par un point (« HT. » esf consrdéré comme « H T »). Nota : Option un peu risquée si des noms en capitales se trouvent en fin de phrase. i2 Plus-Plus. En sus des deux cas précédents, Gemini comptera une syllabe par lettre pour toute suite de lettres en capitales, même sans point à la fin (« HT » est considéré comme « H T »). Option frès risquée. :9 Non. Gemini n'appliquera aucun traitement particulier. Option utilisée pour le développement du programme. Ne vous sert à rien. :0 Mode dialogues. (Défaut).Pour versions \Â/indows et Mac os 8-9 uniquement. i1 Mode console seule. :0 FR. (Défaut).Gemini exportera les nombres avec une virgule décimale. i1 US. Geminiexportera les nombres avec un point décimal. Cette rubrique permet d'agir sur deux aspects différents : le statut de << : » (deux points) comme marqueur de fin de phrase et le statut des signes associés aux nombres. :0 Néant. (Défaut). Les deux points ne sont jamais considérés comme des fins de phrases (voir ci-dessous : section 5). Les signes mathématiques, monétaires et horaires ne sont pas rattachés aux nombres. i1 < :>. Les deux points sont considérés comme des fins de phrase lorsqu'ils.sont suivis par une espace ou un retour de ligne suivi par une capitale ou un chiffre (les guillemets éventuels n'étant pas pris en compte). i2 <%> Les signes mathématiques et monétaires sont rattachés aux nombres, même lorsqu'ils en sont séparés par une espace. (« + 112 >», << 50 Ê >» ou << 5,5 o/o » comptent chacun pour un seul mot) NOTA : Quelles oue soient les ootions choisies. Gemini considère touiours les esoaces. ooints et viroules ou'il trouve dans un nombre comme des éléments de ce'nomb-rè (« 1-0 000,ü0 )) = un mot). Cette règle n'est pas modifiable (à quoi bon, d'ailleùrs ?) t4 <h> Le signe horaire << h »» ou « H » est rattaché aux nombres, même lorsqu'il en est séparé par une espace. Le séparateur « : » est neutralisé lorsqu'il est entouré de chiffres. (« 20 h 30 » et « 20:30:00 » comptent chacun pour un seul mot) Ces options peuvent se combiner en additionnant leurs chiffres d'index : :3 < :>+ <7o> (option 1 + option 2) <h) :5 < :>+ (option 1 + option 4) :6 1o/o)1<h> (option 2 + option 4) i7 < :>+ <ÿo>+<h> (option 1 + option 2 +option 3) 5. Les choix d'analyse statistique Avant de préciser la signification des diverses variables mesurées (section 6), quelques explications plus générales sont nécessaires. A priori, rien ne semble plus simple que de calculer les paramètres d'un texte, en particulier les valeurs de base telles que le nombre de mots et de phrases. Pourtant, d'un logiciel à I'autre, et même d'une version à l'autre du même logiciel, ces calculs donnent des résultats nettement différents. A titre d'exemple, le traitement de texte aujourd'hui le plus utilisé dans le monde décompte pour un même texte : 290 mots et 12 phrases (version 2000, sysfême Windows Xn,277 mots et 36 phrases (version 2001, sysfème Mac OS9) ; et enfin 271 mots et 12 phrases (version 2002, sysfême Win. XP). Avec des versions plus anciennes, le résultat peut descend même à253 mots... Les problèmes de programmation ne sont toutefois pas seuls en cause. Des aspects plus fondamentaux font en outre que deux personnes mesurant manuellement un texte obtiendront souvent des résultats différents. Combien compter de mots dans une phrase telle que : Viendrez-vous au rendez-vous d'aujourd'hui ? Une approche simple considère qu'un mot est une chaîne de signes graphiques limitée par des espaces. Résultat : 4 « mots ». Une démarche un peu moins approximative ne retient que les chaînes alphanumériques (formées de lettres ou de chiffres). Résultat : 8 << mots ». Un meilleur calcul partira des chaînes typographiques, mais séparera les pronoms postposés (le vous de viendrez-vous) et les articles élidés (le d de d'aujourd'hui). Résultat : 6 << mots »». Mais dans d'autres cas, il faudra aussi prendre en compte les mots composés ou locutions (<< trait d'Ltnion», « timbre posfe n, voire «< qu'en dira-t-on », «< tout de suite »», « à la va vite »...). Le problème est tout simplement qu'il n'existe pas de critère morphologique définissant ce qu'est un mot ». Donc, nul ne peut prâendre << compter les mots d'un texte de façon absolue. Les choses sont à peine plus simples en ce qui concerne les << phrases », par exemple celle(s)-ci : « Bien ! ,fe te crois ! > dit M. Didier (iI y avaiE déjà pensé...) << mais j'hésite : ne vaut-il pas mieux renoncer ? >> La définition enseignée à l'école (« Une phrase esf un groupe de mots commençant par une majuscule et terminé par une ponctuation forte ; un point ou un point d'intenogation, partois aussi par un point d'exclamation ou un point de suspension. ») conduirait un ordinateur à exclure « Bien ! »», ce qui est déjà très discutable, mais aussi à scinder le texte en : 1o phrase '. << Bien (...) dit M. »,2" phrase << Didier (...) renoncer ? >>. Le Grevr'sse verrait pour sa part une seule phrase dans Je le veux. Maintenanf. » mais deux dans « Jean chante et Piene <« joue ». Enfin le calcul de beaucoup de formules de lisibilité, telles que celles de Flesch et de Gunning, est rendu encore plus aléatoire par le fait que la longueur des mots y est comptée en nombre de syllabes, ce qui est plus que difficile à évaluer, même pour un être humain'. Ainsi, pour le logiciel de traitement de texte mentionné plus haut, le score de lisibilité de Flesch varie-t-il, selon les versions, de 32 à 80 pour le même document. Pour sa part, Gemini utilise une méthode règle + exceptions. ll considère comme un mot: - Un ou plusieurs chiffres avec ou sans séparateurs ( « 10 000,00 » = 1 mot) - Une ou plusieurs lettres séparées par un signe non alphabétique quelconque (« Veux-tu m'aider » = 4 mots) Mais (exceptions) il ne disjoint pas : - Les noms propres liés par des tirets (Lamure-sur-Azergue, Mendès-France) - Les mots composés les plus fréquents liés par une apostrophe (d'abord, aujourd'hui...) un tiret (non-lieu, état-major, vis-à-vis...) ou une espace (compte rendu, statu quo...) - Les mots liés par tiret dont le premier élément est fréquemment composé : anti-, contre-, après-, demi-, garde-, porte-, cache- grand(e/s)-, etc. - Les lettres ou groupes de lettres séparés par des points (sigles). Pour être précis, Gemini compte celles-ci comme un mot unique quand il calcule le total des mots, mais comme autant de mot séparés lorsqu'il calcule le total des syllabes. En ce qui concerne les phrases, Gemini considère comme telles les séquences de la forme : [séparateur]+(option)+ldébutl+[corps]+[fin]+(option)+lséparateurl+(opfion)+[suivant] où: - « séparateur » est soit une espace, soit un alinéa, soit un début ou une fin de fichier (ou encore une balise d'analyse ; voir ci-dessus, section 2) - ; « option »r est soit un guillemet ouvrant ou fermant (citations), soit rien du tout - ; « début » est soit une lettre capitale, soit un chiffre - ; « corps »» est au moins une lettre ou un chiffre supplémentaire ; 1 « Je vais le faire »» peut se prononcer en cinq syllabes dans le Midi (7eu vais leu faireu) mais en deux syllabes seulement en d'autres lieux (1'vais lTairc). - « fin » est un point ou un point d'intenogation, d'exclamation ou de suspension, ou encore - dans le seulcas où I'utilisateur I'a choisit dans /es options (déænseillé) - deux points. - <« suivant » est le « début >» d'une autre phrase (chiffre ou capitale), ou rien lorsque le second « séparateur » est une fin de fichier. Ce test n'est effectué qu'après que les autres signes pouvant interférer (par exemple les espaces avant un alinéa ou un guillemet français fermant) ont été neutralisés De façon générale, le décompte des octets du texte importé (caractères bruts) est le seulcalculquisoit opéré sans traitement préalable. Tous les autres décomptes : sont opérés sur un fichier de travail traité à cette fin par le programme anomalies rectifiées (autant que possible), espaces inutiles supprimées, tabulations neutralisées, etc.

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.