Une grammaire en tronçons appliquée à la génération de la prosodie PhilippeBouladeMareüil –Christophed’Alessandro, FrédéricBeaugendre–AnneLacheret-Dujour LIMSI-CNRS Bâtiment508-UniversitéParisXI,BP133F91403Orsay {mareuil,cda}@limsi.fr, [email protected],[email protected] RÉSUMÉ. Danscetarticle,nousdécrivonsunegrammaireentronçonsappliquéeauparenthé- sageprosodiqueetàlagénérationdelaprosodieenfrançais.Nousprésentonsunanalyseur rapide,robusteetdéterministe,quiutiliselesinformationsattachéesauxpartiesdudiscourset unjeuderègles,pourassignerdesfrontièresetdesmouvementsprosodiquesensynthèsedela paroleàpartirdutexte.L’interfacesyntaxe-prosodieestexposée:lesséquencesdéfiniesper- mettentdeplacerdesfrontièresprosodiquespotentielles(mineures,majeuresetmajeuresinter- médiaires).Desaccentssontensuiteattribuésauxmotslexicauxetdesrèglesphonotactiques sontappliquées.Enfin,ladescriptionaccentuelleesttraduiteen laréalisationde 9contours mélodiques(synchronisésaveclastructuredesurface),depausesdanscertainscas,etd’allon- gements.Desmesuresquantitativeseffectuéessurles (cid:0)(cid:0) tronçons délimitésparlesfrontières (cid:1)(cid:1) prosodiquesontmontrél’avantagede cettegrammairesuruneapprocheplussimple,fondée uniquementsurlesmotsoutilsetlessignesdeponctuation. ABSTRACT. In thispaper,wedescribeexperimentsintext chunkingforprosodicphrasingand generationinFrench:wepresentaquick,robustanddeterministicparserwhichusespart-of- speechinformationandasetof20rules,toconsistentlyassignprosodicboundariesandmove- mentsinText-To-Speechsynthesis. Thesyntax-prosodyinterfaceispresented: thesequences enablethelocationofpotentialprosodicboundaries(minor,majorormid-major).Stressesare thenassignedtolexicalwords,andstressdeletionrulesbasedonphonotacticconstraintsare applied.Eventually,theaccentualdescriptionislinkedtotherealisationof9melodiccontours (synchronisedwiththesurfacestructure),pausesincertaincasesandlengthening.Quantitative measurementscomputedontheso-called“chunks”delimitedbyprosodicboundariesshowed theadvantageofourchunkgrammaroverasimplerapproach,onlybasedonfunctionwords andpunctuation. MOTS-CLÉS: grammaireentronçons,parenthésageprosodique,générationdelaprosodie,syn- thèsedelaparoleàpartirdutexte. KEYWORDS: chunkgrammar,prosodicphrasing,generationofprosody,text-to-speechsynthesis. TAL.Volume42-n(cid:2) 1/2001,pages115à143 116 TAL.Volume42-n(cid:2) 1/2001 1. Introduction Ilest généralementreconnu que le parenthésageprosodiqueest liéà la syntaxe: uneanalysesyntaxiqueestdoncnécessaire,pourunsystèmedesynthèsedelaparole àpartirdutexte.Danscetarticle,nousdécrivonsdanssesgrandstraitsunanalyseur etsonapplicationàlagénérationdelaprosodieenfrançais. Lacorrespondanceentre syntaxeet prosodieaétédébattue parde nombreuxau- teurs(parexemple[VAI80,MAR80,CAE91,MER00]pourlefrançais).Enlama- tière en effet, il y a interaction entre tous les niveaux de l’analyse linguistique, de la phonétiqueà la sémantiqueet à la pragmatique (interprétationdansune situation d’échange d’information). La syntaxe est reflétée dans les fonctions démarcative et modaledelaprosodie,maiscelle-ciassureégalementunefonctionexpressive,etdé- pend aussi du nombre de syllabes ainsi que de la vitesse d’élocution. Donner à un même énoncé un grand nombre de variantes de contours mélodiques, c’est précisé- ment toutl’art de l’acteur. La prosodieest unmécanismemultidimensionnel,à plu- sieursentrées. Lasynthèsede paroleajouéunrôle fondamentalpourles recherchessurla pro- sodie, car elle a révéléà quel point les fonctions prosodiquesétaient variéeset fon- damentales dans de la parole véritable. Ce domaine, qui avait été plutôt négligé en linguistique saufdansle cas deslanguesà tons, réapparudanstoute sa complexité: ainsi,denombreusesétudessurlaphonologieetlaphonétiquedel’intonationsesont constituéespourdiverseslangues,àpartirdesannées70,entreautressouslapression delapiètrequalitéd’uneparolesynthétiquequifaisaitl’économiedelaprosodie. On peut arguer que la prosodie véhicule la substance plus que la forme . (cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4) Cependant,dansl’étatactueldenosconnaissances,lamachinen’apasaccèsausens, pourletout-venantdestextes.Aucontraire,lacomposanteprosodiqued’unsystème de synthèsepeutrecevoir desinformationsutilesd’unanalyseursyntaxiquerobuste, rapide et déterministe – une seule façonde lire une phrase est prévue. Pour un sys- tème de synthèse, l’enjeu est de rendre compte d’un grand nombre de faits, et non de sélectionnerles phrases grammaticales d’une langue, définies comme des candi- dats éligibles, et de rejeter les autres. Dans ce cadre, la syntaxe (prise ici au sens large) est apparue très vite comme une donnée essentielle pour définir la prosodie d’unénoncé,oudumoinssondécoupageenconstituantsprosodiques.Dès1975,dans [CHO75, LIE77] la succession des mots et de leurs catégories est utilisée afin de synthétiserlaprosodiedansunsystèmeautomatiquedesynthèsedelaparoleàpartir du texte. Il s’agissait alors de prendre en compte la distinction entre mots pleins et motsvides(ou motsoutils ), pourdéfinirlessuitesdemotsécritsqui formentun (cid:3)(cid:3) (cid:4)(cid:4) même groupe prosodique: une analyse superficielle en constituants syntaxiques est ainsiréalisée.Ce procédés’estrévélétrèsrentable,puisqu’uneanalyserudimentaire (une simple liste de mots outils), de complexité très faible, fournit des constituants quisontsouventtoutàfaitacceptables.C’estcetyped’approchequiserautiliséparla suitedansdenombreuxsystèmesjusqu’àaujourd’hui,maisdefaçonplusapprofondie, etmieuxjustifiéelinguistiquement,danslecadredesgrammairesdedépendance. Grammaireentronçonspourlaprosodie 117 Issue des travaux de Tesnière [TES59], une grammaire de dépendance est bien adaptéepourdesapplicationsàgrandeéchelle.Desexemplesensont,pourlasynthèse dufrançais,[LAR89,BAI89,VER90,CON91],ainsiquelesystèmeduLIMSIpré- sentéici.CommelerappelleEjerhed[EJE88],mêmelesanalyseursàlargecouverture sontd’unintérêtàlafoispratiqueetscientifique.C’estpourquoinousvoyonsaujour- d’hui resurgir les techniques empiriqueset statistiquesen vogue dansles années50 [CHU88].L’apprentissageautomatiqueduparenthésageprosodiqueaétérendupos- sible par le fait qu’on dispose maintenant d’importantes quantités de données (par exemple[OST94,SHA96,BLA97,VER97]). En comparaison avec d’autres systèmes récents qui utilisent également des ana- lyse syntaxiques pour la prosodie en français, comme [VAN99, VER97, DIC98], nousavonsplutôtprivilégiélescritèresstructurelsparrapportauxprobabilités,etune approcheintensive,fondéesurdesrèglesplutôtquesurle lexique.Danscequisuit, nous proposonsune grammaireen tronçonsdu français,inspirée desgrammairesde dépendance(notammentdanslerôlepivotaccordéauverbe,siègedelaprédication). Nousavonségalementtentédedécriredefaçonpratiqueetexplicitelesheuristiques etlesrèglesutiliséespourl’analysesyntaxiqueetlagénérationdelaprosodie:ainsi, cetravaildevraitpouvoirêtreaisémentdupliquéetaméliorépard’autreschercheurs. Cet article est organisé comme suit. Section 2, l’analyseur superficiel (shal- (cid:3)(cid:3) (cid:4)(cid:4) low parser) est présenté: nous ne discuterons pas la tokenisation (segmentation en phrases et en mots);desméthodes nonlexicalistes sontproposéespourl’étiquetage morpho-syntaxique(outagging),utilisantun dictionnaire partielde mots outils, ad- jectifsantéposableset formesverbales,ainsiquedesinformationssurles suffixeset des règles de désambiguïsation. Le parenthésage prosodique est ensuite abordé: il consiste àsegmenter les phrases en séquences nonrécursives, définiesen termes de catégoriespossibles. Section 3, l’interface syntaxe-prosodie est exposée: des règles sont présentées pour l’accentuation et la génération de la prosodie. La méthode préconisée consiste àsimplifierla courbeoriginaled’intonationpar dessegments de droiteélémentaires (suruneéchelletemps-fréquencesemi-logarithmique)etàclassifiercessegmentsen unnombrerestreintdemouvementsstandard.Cetteprocédure,initialementproposée pour le néerlandais [HAR91] (et depuis appliquée à l’allemand, à l’anglais britan- nique, au russeetàl’arabe),élimineainsiles détailsles moinspertinents.Elleaété conduiteendeuxétapes(stylisationetstandardisation),surlabasedecritèrespercep- tifs:unesériedetestsaprouvélavaliditédecetteschématisation[BEA94].Pourles durées,lemodèleestencomparaisonrelativementsimple. La section 4 est consacrée à des expériences: des mesures quantitatives sur les tronçonsdéfinisparlesfrontièresprosodiquessontprésentées,demêmequ’unecom- paraisondenotreapprocheavecuneapprocheuniquementfondéesurlesmotsoutils etlaponctuation.Lasection5discutelesrésultatsetconclut. 118 TAL.Volume42-n(cid:2) 1/2001 2. Analysesyntaxique 2.1. Étiquetagemorpho-syntaxique Unanalyseursyntaxiquerobuste,capabledetraiterlesnéologismesetleserreurs d’orthographeoud’accord,aétéproposédans[VER90]etreprisdans[VAN99]:il utiliseuniquementundictionnairepartiel.Commedansunegrammairedecontraintes [KAR90],lesrèglesmorpho-syntaxiquesrésultentdecorpusobservés.Unparenthé- sageprosodiqueutilisantunpetitdictionnaireavecdesrèglessurlessuffixes[OSH87] et/ou identifiant les mots outils [QUE92, QUA89] a également été exploré dans la communautédutraitementautomatiquedelaparole,pourl’anglais,lenéerlandaiset l’italien. Dansnotrecas,ledictionnairecontient: 1.despronoms, 2.desdéterminants, 3.desprépositions, 4.desconjonctions, 5.desadverbes(unmillier)auxquelsdesadverbesen-mentontétéajoutés, 6.desformesverbales(environ60000,issuesdeBDLEX[PER92]), 7.desadjectifsantéposables(unmillier)carlesadjectifsenfrançaisapparaissent enmajoritéaprèslenom,mais1/3decasd’antépositionpeutêtreobservé). Cedictionnaireest complétépar unelistede 340terminaisonsqui permettentde déduirelacatégoriegrammaticale:parexemple,lesuffixe-ieuseindiquetoujoursun adjectif féminin singulier.Les mots non identifiés se voient attribuer l’étiquette par défautnom–lesnomspropresetlessiglesnotamment. Siuneetuneseulecatégorieestaffectéeauxmots,leproblèmemajeurestbiensûr celuidelapolycatégorie.Touslesverbes,parexemple,ontlamêmeformeàla (cid:5)(cid:7)(cid:6)(cid:9)(cid:8) età la (cid:8) personnedusingulier,auconditionnelprésentouàl’imparfaitdel’indicatif.Des (cid:10) classesmixtesontdoncétéintroduites.Unecentained’homonymies(outrecellesavec les noms) est également notable, entre adjectifs antéposables, mots outils et formes verbales. Dansl’ensemble,notre dictionnaireprivilégieles adjectifs antéposables par rap- portauxmotsoutils,etlesmotsoutilsparrapportauxformesverbales.Parexemple, célèbre, qui peut être une forme du verbe célébrer, est plutôt considéré comme un adjectif,sur labase d’importantscorpus dujournalLe Monde.Decettemanière,un certainéquilibreestrétabliparrapportànotredictionnaire,quidonneungrandpoids auxformesverbales. À l’intérieurde la classe desmots outils, les cas d’homonymie tels que ce, leur, en,s’doiventêtredésambiguïsés.Lesétiquetteslesplusfréquentessonttd’abordassi- gnées,dansunephased’amorce(bootstrapping),toujoursàpartird’importantscorpus Grammaireentronçonspourlaprosodie 119 du journal Le Monde; puis d’autres étiquettes possibles sont analysées, en fonction d’ensembles d’étiquettes pour les mots suivants. Ces étiquettes les plus fréquentes sont,dansunordredécroissantdepréférence: préposition conjonction adverbe déterminant pronom. (cid:11) (cid:11) (cid:11) (cid:11) Cette contrainte n’est pas très éloignée de l’heuristique suggérée par J. Vergne dans le cadre de l’action GRACE [ADD99]. Par exemple, en reçoit l’étiquette par défautpréposition,etestconsidérécommeunpronomsilemotsuivantestunverbe conjugué :nousentendonsparlàunverbeàl’indicatif,ausubjonctif,auconditionnel ouàl’impératif.Exemple: ellen’enveutpas. Examinonsplus en détail les cas d’homonymie que représentent le, la, les, leur, l’, qui concernent près d’un mot sur dix en discours, et qui est un obstacle notoire pourtouteanalyseautomatiquedufrançais.Ilsreçoiventl’étiquettepardéfautdéter- minant, mais peuvent aussi être des pronoms – normalement placés avant le verbe en français.La désambiguïsationde ces mots (désormais désignéspar det/P)suit le principe de l’ensembledes catégories possibles (commele parenthésagesyntaxique quenousverronsci-dessous),avecunregardenavant.Silemotsuivantestunverbe transitifouauxiliaire,unpronompersonnelcomplémentouleurlui-même,suivipar unverbetransitifouauxiliaire,ledet/Pambiguestconsidérécommeunpronom.Bien sûr,cettecontrainten’estpassystématique :danslemanger,parexemple,lepeutêtre undéterminant(cf.4.2.). Sielledérangeparsafréquence,cettehomonymieestmoinsgravequecelleentre verbe et non-verbe, qui concerneplus de 2 000 entrées différentesde BDLEX avec formes fléchies. Cette ambiguïté a été encodée dans le dictionnaire, de même que l’information intransitif à partir de [BES90]. Ainsi six heuristiques, négatives et à caractère distributionnel,ont-ellesétédéployées,pourfairebasculerunmotd’abord reconnu comme verbe conjugué dansla catégorie nom. Provenant d’une analyse de corpusetderecoupementsavecdesétudesprécédentes[CON91],ellessontdutype utilisédanslesgrammairesdecontraintes[KAR90]. Heuristique1: aprèsunepréposition,ilnepeutyavoirunverbeconjuguéquiensoit séparéparrien,par lemotenoupar uneséquencenominalesansnometsans pronom possessif – on comprendra, dans la sous-section suivante, que l’éti- quetage morpho-syntaxiquene présuppose pas le parenthésage en séquences. Exemples: sanslemauvaissort avecenpoche Heuristique2: aprèsunverbe,ilnepeutyavoirunverbeconjuguéquiensoitséparé parundet/P,parlemotenouparuneséquencenominalesansnom.Exemples: 120 TAL.Volume42-n(cid:2) 1/2001 ilvoitmallapetitemarche iln’estpasenmesure Heuristique3: immédiatementaprèsundet/Poulemotenendébutdephrase,ilne peutyavoir unverbeconjugué,sionn’apasaprèsunpronompersonnelsujet (inversé).Exemples: Laporteétroitevslaporte-t-il Encours,vsencours-tulerisque Heuristique4: immédiatementaprèsundet/P,ilnepeutyavoirunverbeintransitif conjugué.Exemple: etlevoyage Heuristique5: immédiatementaprèsundéterminantautre qu’undet/P,il nepeuty avoirunverbeconjugué.Exemple: maisunavantageindéniable Heuristique6: immédiatementaprèsunadjectifantéposableaupluriel(resp.singu- lier),ilnepeutyavoirunverbeconjuguéàla2(cid:8) personnedusingulier(resp.à la (cid:8) personnedupluriel).Exemple: (cid:12) lespetitesbrises Les heuristiques 1, 2 et 3 ont la priorité sur la désambiguïsationdes det/P et du moten.Exemples: aimerladansepourladanse êtreendemeureenlademeure D’autres exemples, qui ne sont pas acceptables, sont fournis dans la section 4.2 (Évaluationdel’analyseursyntaxique). 2.2. Parenthésagesyntaxique Commel’étiquetagemorpho-syntaxique,leparenthésagesyntaxiquetiresonins- pirationdestravauxdeVergne[VER90],reprisdans[VAN99].Lesphrasessontdé- coupées en séquences nominales,verbales et transjonctives . Le terme générique (cid:3)(cid:3) (cid:4)(cid:4) de transjonctif ,quenousintroduisonsenréférenceàlatranslationetàlajonction (cid:3)(cid:3) (cid:4)(cid:4) de Tesnière,englobelesprépositions,lesconjonctions,lespronomsrelatifs,certains adverbesetsignesdeponctuationcommelavirguleetlesparenthèses.Rappelonsque la connection (i.e. le lien qui existe entre deux mots), la jonction (juxtaposition ou coordination)etlatranslation(éclairantlescomplémentsdunometlespropositions relatives)sontlesstructuressyntaxiquesfondamentalesdeTesnière. Grammaireentronçonspourlaprosodie 121 Lesséquencessontfaitesdemotscontigus,etnesontpasrécursives.Parexemple, une belle vue de Paris est décomposéen trois séquences: une belle vue (sé- (cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4) quence nominale), de (séquencetransjonctive)et Paris (séquencenominale). (cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4) Decettenonrécursivité,nousvoulonscommejustification(psycho)linguistiquelefait quel’enchâssementestlimitédanslalangue.Lespropriétésrécursivesdulangagesont d’ailleurssujettesàcaution:commel’écritP.Mertens: Souventunlocuteurentame (cid:3)(cid:3) unephrasesanssavoircommentellefiniraetdèslorssansavoiràl’espritsastructure syntaxiqueentière. [MER97].Enoutre,lesdépendancesentrelesséquencesrepré- (cid:4)(cid:4) sententunproblèmecomplexe,pouvantdemanderunaccèsaucontenulexicalouàla sémantique:onpeutavoirdesdépendanceslointaines;onpeutcoordonnerdessujets, desverbes,desobjetsetdesphrases.Notrechoixestdoncaussietsurtoutguidépar desraisonsdesimplificationducalcul. Nous nous sommes cantonnés aux dépendances entre les mots à l’intérieur des séquences, ce qui nous rapproche des chunk grammars [ABN91], grammaires en tronçons qui aboutissent à un partial parsing. La grammaire en tronçons consiste simplement à diviser la phrase en segments. Elle est en partie inspirée d’études en psychologie sur la durée des pauses, en lecture, et sur la structuration naïve de (cid:3)(cid:3) (cid:4)(cid:4) phrases. Fondée sur une analyse assez superficielle, non exhaustive, sa motivation est égalementprocédurale.Siellediffèreles difficilesdécisionsd’attachementàune étapeultérieure,cettegrammairepeutserviràladécouverted’unitésdetraduction,à l’extractiond’informationouàlagénérationautomatiqued’index:danscedomaine, laplupartdeseffortssesontconcentréssurl’identificationdesgroupesnominauxde base[RAL95,ANB96].Semblablesauxtechniquesutiliséesdans[RAL95](issues deBrill[BRI93]),desarbresdeclassificationetderégression(CART)ontégalement étéappliquésdans[HIR96],pourpositionnerdesfrontièresintonatives. Les grammaires en tronçons proposéesdans la littérature,qu’elles soientproba- bilistes oupar règles,intègrentdestermescoordonnésoucertainssyntagmesprépo- sitionnels,prenantainsiunedécisionderattachement.Pourla synthèsedela parole, il semble illusoire de désirer énumérerla totalité des séquences possibles.Celles-ci peuventêtreassezlongues(lorsd’uneconstructiondisloquéeavecunverbe àmon- (cid:3)(cid:3) tée notamment),et,inévitablement,certainesnouséchappent.Desurcroît,nouspou- (cid:4)(cid:4) vons avoir une approche plustolérante qu’en génération,suivanten cela [CON91], qui ne parlepasde séquences maisde bandesgénéralisées nominalesetver- (cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4) bales.Labandenominalegénéralisée(BNG)sedéfinitcomme suitedemotscom- (cid:3)(cid:3) priseentredeuxmotsdutypejonctif,translatifoubienverbe ;et labandeverbale (cid:4)(cid:4) (cid:3)(cid:3) représenteleverbeetlesdifférentsélémentsqu’ilgouvernelocalement [CON91]. (cid:4)(cid:4) Dansnotrecas,les séquencessontdéfiniespardesensemblesdecatégoriespos- sibles (cf. tableau 1). Ceci peut certes être représenté par des règles de réécriture. Cependant,exprimerlesséquencesentermesd’ensemblesdecatégoriespossiblesest beaucoupplussimpleetplusconcis,puisqu’ellesnecorrespondentqu’àunniveaude parenthésage. Les ensembles utilisés dans la définition des séquences ne sont pas disjoints: la plupart des adverbes, par exemple, peuvent apparteniraux trois types de séquences. 122 TAL.Volume42-n(cid:2) 1/2001 séquencenominale séquenceverbale séquencetransjonctive nom verbeconjugué préposition adjectif infinitif conjonction (pré)déterminant négation pronomrelatif pronompossessif pronompersonnel ponctuation(,-) adverbed’adjectif pronomadverbial pronomindéfini pronomdémonstratif participe adverbe(nondenégationnid’adjectif) Tableau1. Définitiondescatégoriespossiblesdanslesséquencesnominales,verbales ettransjonctives. C’est le premier mot de la séquence qui décide, par propagation gauche-droite, les séquencessétantexaminéesdansl’ordretransjonctive-nominale-verbale.Ainsi,siun adverbe(nondenégationnid’adjectif)estendébutdephrase,ilouvreuneséquence transjonctive.Unadverbe(autrequepasetpoint)estunadverbed’adjectifsilemot suivantimmédiatementestunadjectif. Une table indiquant qu’entre deux catégories successives (dont la première peut être débutdephrase ),onpassed’untypedeséquenceàunautre,nepeutgénérer (cid:3)(cid:3) (cid:4)(cid:4) cetteanalyse,pasplusqu’unalgorithmetelquechinks’nchunks[LIB92],quin’est qu’unedétectionmodifiéedemotsoutils. On note que la classe traditionnelle des pronoms a été subdivisée en plusieurs catégories:lespronomspossessifs(danslesséquencesnominales),lespronomsper- sonnels,adverbiaux(enety),indéfinisoudémonstratifs(danslesséquencesverbales) etlespronomsrelatifs(danslesséquencestransjonctives).Outrelefaitquedanscer- taines langues (tellesquel’espagnol,l’italienou l’arabe),lepronompersonnelsujet estfacultatif,etqu’enfrançaislesujetn’estqu’apparentdansdesphrasescomme il (cid:3)(cid:3) pleut(descordes) ,deuxargumentsnousontsemblémiliterenfaveurd’unrattache- (cid:4)(cid:4) mentdupronompersonnel,adverbial,indéfinioudémonstratifàlaséquenceverbale. D’unepartlepronom(aussibiensujetquecomplément)peuts’inséreraumilieud’un groupeverbal (ex. Paul net’a pasvu,as-tuvuPaul?).D’autrepart, iln’estsouvent quelarepriseanaphoriquedusujet(ex.monpère,ilavuPaul...). Pour chaque phrase en entrée, l’analyse peut fournir une partition de la chaîne écrite en trois types de séquences (nominales, verbales et transjonctives) qui ne se chevauchentpas,ainsiqu’unalignementdemotsetdepartiesdudiscours.Cetteopé- ration dirigée par les données (data-driven) utilise des contraintes locales, faciles à implémenterdansunautomated’étatsfinis.L’algorithmeprocèdephraseparphrase, etestdecomplexitélinéaireparrapportaunombredemots. Grammaireentronçonspourlaprosodie 123 3. Interfacesyntaxe-prosodie 3.1. Unemethodologieascendante Lasortie de l’analyseur syntaxique,qui comprendune suite de séquences repré- sentant la phrase donnée en entrée ainsi que la catégorie grammaticale de chaque motetlamodalité(assertiveouinterrogative),estconnectéeàdesrèglesprosodiques, commedécritfigure1.Lesrèglespourlagénérationautomatiquedelaprosodiesont organiséesentroismodules: –unmodulesyntaxique: -pour délimiter des unités prosodiques virtuelles, de taille variable, et leur associerunefrontièrespécifique, -pour fournir les catégories morpho-syntaxiques qui serviront à générer les accents; –unmodulephonotactique,pourprendreencomptelescontraintesrythmiqueset lesphénomènesdedésaccentuation(voirenparticulierlesrègles10et11); –unmodule phonético-acoustique,permettantde lier la structureprosodiquede surface aux paramètres de mouvements mélodiques,pauses dans certainscas, et al- longement. Cetensemblederèglesaétéélaboréensuivantuneméthodologieinductive(bottom- up), à partir de l’inspection d’un corpus d’apprentissage de 220 phrases isolées. La constructiondececorpusaprisenconsidérationdescontraintessyntaxiques(moda- lité,inversion,dislocation,natureetfonctiondesgroupes),morphologiques(structure desmots),distributionnelles(positiondesmots),phonotactiques(nombredesyllabes) etphonétiques(ilaétéévitédefairecommencerunmotparuneocclusivesourde,afin declairementdistinguerlespauses).Cecorpusaétéluparunlocuteurparisien,àun débitd’élocution normal ,etavecuneintonation neutre (sansemphase,quine (cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4) véhiculepasd’émotion):ainsilestyledeprosodieest-ilsimple,etenrelativeadéqua- tionaveclasyntaxe.Desmesuresdemoyenneausensstatistiqueontétéeffectuées,et différentesexpériencesontétéconduites,oùl’ondemandaitàdessujetsdecomparer desstimuli,oudetranscrirelesproéminencesaccentuellesperçues. Cette section décrit les contraintes syntaxiques et phonotactiques utilisées pour enrichirlachaînephonématiquedemarqueurspourleparenthésageprosodiqueetle calculdelastructureaccentuelle.Lastratégieconsidéréesesitueentrelespropositions extrêmesquiprônentl’uneunerelationbijectivetotaleentrestructuressyntaxiqueset prosodiques,l’autrel’indépendancecomplètedesdeux,supposantla prosodieentiè- rementdirigéeparlescontraintesrythmiques. 124 TAL.Volume42-n(cid:2) 1/2001 Figure1.DiagrammeblocdusystèmedesynthèseduLIMSI
Description: