ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN Apprentissage d’analyseur en dépendances cross-lingue par projection partielle de dépendances OphélieLacroix1 LaurianeAufrant1,2 GuillaumeWisniewski1 FrançoisYvon1 (1)LIMSI,CNRS,Univ.Paris-Sud,UniversitéParis-Saclay,F-91405Orsay (2)DGA,60boulevardduGénéralMartialValin,F-75509Paris {lacroix, aufrant, wisniews, yvon}@limsi.fr RÉSUMÉ Cetarticleprésenteuneméthodesimpledetransfertcross-linguededépendances.Nousmontrons tout d’abord qu’il est possible d’apprendre un analyseur en dépendances par transition à partir dedonnéespartiellementannotées.Nousproposonsensuitedeconstruiredegrandsensemblesde données partiellement annotés pour plusieurs langues cibles en projetant les dépendances via les liensd’alignementlesplussûrs.Enapprenantdesanalyseurspourleslanguesciblesàpartirdeces donnéespartielles,nousmontronsquecetteméthodesimpleobtientdesperformancesquirivalisent aveccellesdeméthodesétat-de-l’artrécentes,toutenayantuncoûtalgorithmiquemoindre. ABSTRACT Cross-linguallearningofdependencyparsersfrompartiallyprojecteddependencies Thispaperpresentsasimplestrategyfortransferringdependencyparsersacrosslanguages.Wefirst showthatlearningtransition-basedparserfrompartiallyannotateddataispossibleandeffective.Then weproposetobuildlargepartiallyannotateddatasetforseveraltargetlanguagesviatheprojection of annotations through unambiguous word alignments. Based on the results obtained with such methodology, we show that our method is therefore easy to implement and compete with recent algorithmicallycostlymethodsatamuchcheapercomputationalcost. MOTS-CLÉS :Transfertcross-lingue,Analyseendépendances,Annotationspartielles. KEYWORDS:Cross-lingualtransfer,Dependencyparsing,Partiallyannotateddata. 1 Introduction Demultiplestâchesdetraitementautomatiquedeslanguesreposentsurdesméthodesd’apprentissage supervisénécessitantdescorpusannotésdetaillesuffisante.Cependant,toutesleslanguesnesontpas surunpiedd’égalitélorsqu’ils’agitd’appliquercesméthodes:certaineslangues,tellequel’anglais, sont largement pourvues en ressources annotées tandis que d’autres, généralement qualifiées de «peudotées»,enmanquentcruellement.Danscecontexte,denombreusestechniquesontétémises enœuvredanslebutdetransférerdesannotations(parexemplegrammaticales,syntaxiques,etc.) depuisunelanguesourcebiendotéeversunelangueciblepeudotée,puisd’utilisercettesupervision imparfaitepourentraînerdessystèmesdetraitementdelalanguecible(Pan&Yang,2010). Danscetravail,nousnousintéressonsplusparticulièrementautransfertcross-linguepourl’analyse endépendances.Danscedomaine,deuxtypesd’approchesontétéproposés:letransfertdirectde 1 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN modèlesetletransfertd’annotationsparalignement.Lepremiertypes’appuiesurunereprésentation communedestokensdeslanguessourcesetcibles(parexempleenutilisantlesétiquettesmorpho- syntaxiquesuniversellesdePetrovetal.(2012)),permettantainsid’entraînerunanalyseursurles phrasessourcesetdel’appliquerdirectementauxphrasesciblessanstenircomptedesinformations lexicales (c.-à-d. des tokens). Cette technique d’« analyse délexicalisée », initialement introduite par Zeman & Resnik (2008), peut être améliorée par des méthodes d’auto-apprentissage, par la sélectionintelligentedesdonnées,parlarelexicalisationdesdonnéesouletransfertmulti-source (Naseemetal.,2010;Cohenetal.,2011;Søgaard,2011;Täckströmetal.,2013). Lesecondtyped’approcherequiertl’emploidedonnéesparallèlesetreposesurlaprojectiondes dépendancesdesphrasessourcesauxphrasesciblesautraversdesliensd’alignement.Cetteméthode introduite par Hwa et al. (2005) a été depuis reprise et améliorée (Ozdowska, 2006; Tiedemann, 2014).Unedesdifficultéssoulevéeparcetteapprochevientdufaitquelesstructuressyntaxiques entrelesphrasessourcesetciblesnesontpasisomorphesdufaitdesdivergencessyntaxiquesdes langues,tellesl’absence/laconcaténationdespartitifs.Enoutre,lesalignementspeuventêtrebruités etl’analyseendépendancesdesphrasessourcesinexacte.L’apprentissagedoitalorssoits’effectuer surunfaiblenombrededonnéesintégralementannotées,soits’adapteràdesdonnéespartiellement annotées.Danscecas,lesarbrespartielssontgénéralementcomplétés,parexempleenattachant chaquemotisoléàl’aided’unedépendancefactice(Spreyer&Kuhn,2009)ouensoumettanttoutes lespossibilitésderattachementdecesmots(Lietal.,2014),enconsidérantlesdépendancesprédites paruneanalysedélexicalisée(Ma&Xia,2014)ouparunepremièreétaped’apprentissagesurdes phrasesintégralementannotées(Rasooli&Collins,2015).Unevarianterécente(Tiedemannetal., 2014)decetteméthodeutilisedescorpusparallèlessynthétiquesproduitspartraductionautomatique, ce qui permet de s’affranchir du bruit d’alignement et de simplifier les règles de projection; elle présentel’inconvénientfournirdesdonnéesarticificielles,dequalitédifficilementcontrôlable,au parseurenlanguecible. Danscetarticle,nousproposonsuneméthodesimpleetefficacedetransfertd’annotationsquine nécessite pas de recourir au filtrage et aux règles de transfert de Hwa et al. (2005). Lors de la projectiondesdépendancesd’unephrasesourceversunephrasecible,noustransféronsuniquement lesdépendancesentrelesmotsdontl’alignementestsûr,produisantdegrandscorpusdedonnées partiellementannotées.Nousmontronsqu’ilestpossibled’apprendreunanalyseurpartransition projectifsurcesdonnées:ceux-cisonteneffetapprisparcorrectiond’erreuràl’aided’unoracle dynamique(Goldberg&Nivre,2012),cequipermetd’ignorerlesmotsnonattachéspourseconcentrer surlacorrectiondesdépendancesconnuesetdeminimiserl’impactdel’accumulationdeserreurs. Lerestedel’articleestorganisécommesuit:danslasection2,nousdétaillonslesystèmed’analyse endépendancesquipermetl’apprentissageàpartirdedonnéespartiellementannotées.Nousmontrons, pardesexpériencessurdescorpusartificiels(section2.2),quel’apprentissageàpartirdephrases partiellementannotéesestpossibleetdemeureefficace.Puisnousappliquonscetteméthodedansle cadredutransfertd’annotations(section3)endépendances. 2 Apprentissage à partir de données partiellement annotées Danscettesection,nouscommnençonsparrappelerleprinciped’unanalyseurArc-Eager(Nivre, 2003)puisleprincipedesonapprentissageavecunoracledynamique(Goldberg&Nivre,2012).Nous expliquonsensuiteenquoicesystèmeestadaptéàl’apprentissageàpartirdedonnéesincomplètes. 2 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN 2.1 Analysepartransition:inférence Unanalyseurpartransitionsconstruitunarbreendépendancesdemanièreincrémentale;ilparcourt laphraseàanalyserdegaucheàdroiteetajoutedesdépendancesaufuretàmesureparapplication d’actions. Dans le cas d’un analyseur Arc-Eager quatre actions, définies dans le tableau 1, sont possibles : LEFTARC, RIGHTARC, SHIFT et REDUCE. À chaque étape de l’analyse, le choix de l’actionàappliquerpourpasseràlaconfigurationsuivanteestdéterminéparunclassifieurmulti- classe.Celui-cicalculelescoredechaqueactionpossibleàcemomentdel’analyse(c.-à-d.lesactions respectantlesconditionsdutableau1)etchoisitd’appliquerl’actiona deplusgrandscore: ⇤ a⇤ = argmax �(c,a)w , (1) h | i a LEGAL(c) 2 oùcestlaconfigurationcourante,w,unvecteurdeparamètres,�(c,a),unvecteurdetraitsdécrivant laconfigurationcouranteetLEGAL(c)l’ensembledesactionsquipeuventêtreappliquéesàpartirde c.L’analysesyntaxiqued’unephrasecorrespondalorsàunesuitededécisionsquipermetdepasser progressivementd’uneconfigurationinitiale(notéec =([],[w ,...,w ], )),décrivantunestructure 0 1 n ; dedépendancevide,àuneconfigurationfinaledanslaquellechaquemotestrattachéàsatête. Actions Effetssurlesconfigurations Conditions LEFTARC (� wi, wj �, A) (�, wj �, A (j,i) ) i=0 k(k,i) A | | ) | [{ } 6 ^¬9 2 RIGHTARC (� wi, wj �, A) (� wj,�, A (i,j) ) k(k,j) A | | ) | [{ } ¬9 2 REDUCE (� wi,�, A ) (�, �, A) k(k,i) A | ) 9 2 SHIFT (�, wi �, A) (� wi,�, A ) | ) | TABLE1–Effetsetconditionsd’applicationdesactions(nonétiquetées)del’analyseurArcEager surlesconfigurations.Uneconfigurationestuntriplet(�, �, A)où�estunepiledemots,� estun bufferdemotsnonencoretraitésetAestunensembled’arcs. 2.2 Apprentissagepartiel L’algorithme1décritcommentestapprisl’analyseurpartransition:pourchaquephrasedel’ensemble d’apprentissage,unarbrededépendancesestconstruitdemanièreincrémentalecommepourl’étape d’inférence.Àchaqueétape,sil’actionpréditecréeunedépendancequin’estpasdansl’arbrede référenceouempêchelacréationd’unedépendancedecelui-ci,levecteurdeparamètresestmisà jourselonlarègleduperceptron.Goldberg&Nivre(2012)introduisentuneméthodequiconstruit, pouruneconfigurationcdonnée,l’ensemble,CORRECTy(c),desactions«correctes»n’empêchant paslacréationd’unedesdépendancesdelaréférencey.Siplusieursactionssontcorrectes,l’action choisie comme référence lors de la mise à jour est celle de plus haut score selon le modèle. En résumé,l’apprentissageconsisteàconstruirelasortieassociéeàunephraseenvérifiant,àchaque étapedel’analyse,sil’actionprédite(c.-à-d.l’actiondeplushautscoreappartenantàl’ensemble LEGAL(c))estdifférentedel’actioncorrecte(l’actiondeplushautscoreappartenantàl’ensemble CORRECTy(c));danscecas,levecteurdeparamètreswestmisàjour. Ilestimportantderemarquerquel’algorithme1suituneprocédured’apprentissageparcorrection d’erreur.L’analyseurdoitdoncsavoirdétectersilechoixd’uneactioninduituneerreur.Lorsque aucuneerreurn’estdétectée,levecteurdeparamètresn’estpasmodifiéetlaconstructiondel’arbre 3 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN dedépendancescontinueselonlesprédictionsdumodèle.Parconséquent,l’algorithme1peutêtre employésansmodificationpourentraînerunanalyseuràpartirdedonnéespartiellementannotées.En effet,uneerreurestdétectéelorsqu’uneactionpréditeempêchelaconstructiond’unedépendancedela structurederéférence;siaucuneinformationdesupervisionn’estdisponible(c.-à-d.siladépendance correcte n’est pas connue), aucune action n’est pénalisante dans le processus de construction de lasortieettouteslesactionspréditespeuventêtreconsidéréescommecorrectes.Lesinformations nonconnuesn’entraventdoncpasl’apprentissagesurlerestedelastructureconnue.Laprocédure d’apprentissagen’adoncpasbesoind’êtremodifiée,c’estlecalculdel’ensembleCORRECTy(c)qui s’adapteautomatiquementauxinformationsdisponibles. Algorithm1:Apprentissaged’unanalyseurpartransitions fort 1,...,T do 2 x,y SAMPLE(dataset) // extraction d’une phrase c JINITIALK(x) // configuration initiale while FINAL(c)do ¬ a⇤ =argmaxa2LEGAL(c)h�(c,a)|wi // action prédite ifa⇤ / CORRECTy(c)then 2 aˆ=argmax �(c,a)w // action correcte de score max. w w+�(ac2,CaˆO)RREC�T(yc(,ca)h⇤) | i // mise à jour � c c a ⇤ � Laméthoded’apprentissagequenousvenonsdedécrireprésenteunsecondavantageluipermettant d’exploiterlesdépendancespartielles.L’oracledynamiqueaétéintroduitpourlimiterl’accumulation d’erreurslorsdel’apprentissaged’unanalyseurendépendances.Eneffet,lorsdel’apprentissage l’analyseurconstruitunestructurededépendancesàpartird’actionspréditesdoncpotentiellement erronées.Cequisignifieque,aufuretàmesuredelaconstructiondecettestructure,l’apprentissage duvecteurdeparamètresutilisedestraitsquiproviennentd’unestructurepréditepotentiellement fausse : l’analyseur apprend à prédire les bonnes actions dans un contexte erroné ce qui le rend mieux à même de s’adapter aux erreurs de prédiction en phase de test. Cette caractéristique est particulièrement importante dans le cadre de l’apprentissage partiel puisque l’analyseur, lors de l’apprentissage,peutseretrouverdansunétatdanslequellesdépendancesprécédemmentprédites n’ontpasétévalidéesencomparaisonaveclastructurederéférence(quiestinconnue)etsontdonc potentiellementfausses. Ilestintéressantdenotertoutefoisqueladétectiond’uneerreurestpossiblemêmelorsquelatêtedu motcourantn’estpasconnue:danscertainscas,grâceàlacontraintedeprojectivité,laconnaissance desdépendancesvoisinespermetderestreindrelesactionscorrectespossibles.Lafigure1illustreun exempledestructurepartielledanslaquellelemot«libre»(sanstêteconnue)aseulementdeuxchoix detêtepossibles(«le»,sonvoisingauche,ou«échange»,sonvoisindroit)dufaitdeladépendance connueentre«échange»et«Le»etdelacontraintedeprojectivité.Eneffet,celle-ciproscritle rattachementd’unmotcomprisentrelatêteetledépendantd’unedépendanceàunetêtesituéeà l’extérieurdecetintervalle.Lorsdel’entraînementdel’analyseurpartransition,celasetraduitpar unerestrictionsurl’ensembledesactionscorrectes.Ici,aprèsl’applicationdelapremièreprédiction SHIFT (quiplace«Le»surlapile),l’ensembledesactionscorrectes, CORRECTy(c),estlimitéà SHIFT et RIGHTARC tandis que l’ensemble des actions possibles LEGAL(c) contient également l’actionLEFTARC.Sicettedernièreactionestchoisie,alorsilyaunemiseàjourduvecteurdepoids 4 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN bienquelatêtedumot«libre»nesoitpasconnue.Sil’unedesactionsSHIFTouRIGHTARCest prédite,iln’yapasdemiseàjouràcetteétapemais,àl’étapesuivante,lesactionscorrectesseront égalementrestreintes:siSHIFTestchoisie,alors«libre»n’auraplusqu’unchoixderattachement correct (« échange », par l’action LEFTARC) tandis que si RIGHTARC est choisie, alors l’action REDUCEseraleseulchoixcorrectpossible.Cetterestrictionpeutentraînerunemiseàjour. ROOT Le libre échange n’ est pas du commerce équitable . FIGURE1–Structurededépendancespartielle(traitspleins)danslaquellelatêtedumot«libre» n’est pas connue mais est limitée, à cause de la contrainte de projectivité à deux choix (traits en pointillé):«Le»ou«échange». 2.3 Expériencessurdesdonnéesartificielles Afindemontrerquel’apprentissageàpartirdedonnéespartiellementannotéesestpossible,nous avonsmenédesexpériencesdecontrôlesurdesdonnéesdontlesdépendancesontétésupprimées artificiellement : nous comparons les performances d’un analyseur appris, d’une part, à partir de n% des phrases d’un corpus, et d’autre part, à partir de toutes les phrases du corpus mais pour lesquellesseulesn%desdépendancessontconnues.Danslesdeuxcas,lesdonnéesconservéespour l’apprentissage(phrasesoudépendances)sontextraitesaléatoirement. Lafigure2présentelesperformancesenUAS1desanalyseurssurlescorpusallemandetespagnoldu UniversalDependencyTreebank2(UDT)v2.0standard(McDonaldetal.,2013)selonlepourcentage de dépendances préservées durant l’entraînement. Les résultats correspondent à un score moyen mesurésur10expériencespourlesquellesnousconservonsladivisiondescorpusproposéeparle corpusUDTendonnéesd’entraînementetdonnéesdetest,àl’exclusiondesphrasesnon-projectives3. LesUASdesanalysesdébutentà75,44%pourl’allemandetà78,83%pourl’espagnollorsqueseule- ment10%desphrases(intégralementannotées)sontconservéespourl’apprentissage,etatteignent respectivement 80,35% et 82,81% sur l’intégralité du corpus. Lorsque l’apprentissage se fait sur l’intégralitédescorpusauxquelssontaléatoirementretiréesdesdépendances,lesscoressonttoujours supérieurs(aumaximum+0,43pourl’allemandet+0,62pourl’espagnol)pourunnombremoyen équivalentdedépendancesconservées.Nousavonseffectuédesexpériencessimilairessurd’autres languesduUDTpourlesquelleslesrésultatsobtenussuiventlesmêmestendances. Nousremarquonsdoncd’unepartquelenombredephrasesd’entraînementpeutêtreconsidérablement réduitsansaffaiblirsévèrementlesscores:supprimerlamoitiédesphrasesdescorpusréduitles 1. UAS(UnlabeledAttachmentScore)correspondaupourcentagedemotsétantcorrectementrattachéssurl’ensembledu corpus,àl’exceptiondesponctuations. 2. https://github.com/ryanmcd/uni-dep-tb 3. Dansnosexpériences,lecorpusallemandcontient12752phrasesdanslecorpusd’apprentissageet785danslecorpus detest,tandisquelescorpusespagnolcomprennent,respectivement,13280et267phrases. 5 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN scoresde«seulement»1,18pointspourl’allemandet0,94pourl’espagnol.Pourchacunedesdeux languesetpourunmêmenombrededépendancesconnues,lesscoressontsupérieurslorsqueplus dephrasessontannotées,mêmepartiellement.Commeexpliquéàlasection2.2,desinformations sur les dépendances inconnues peuvent en effet être déduites du contexte syntaxique (c.-à-d. les dépendancesvoisinesconnues)etainsicorrigerdeserreurslorsdel’apprentissage.Enpratique,lors del’apprentissagesur60%desdépendances35382misesàjoursonteffectuéesenmoyennecontre 31339lorsqueseulement60%desphrasessontexploitéesdanslecasdel’allemandcequiconstitue une différence importante (+13% de mises à jours) bien que le nombre moyen de dépendances conservéessoitéquivalent.Desécartssimilairesontétérelevéspourd’autreslanguesdel’UDT. 80 82 e) s) d e ( 78 ( S S A A U U 80 76 annotationscomplètes annotationscomplètes annotationspartielles annotationspartielles 20 40 60 80 100 20 40 60 80 100 %dépendances %dépendances (a) Langue:Allemand (b) Langue:Espagnol FIGURE2–UASd’unanalyseurentraînésurn%desdépendancesdescorpusUDTallemandetespa- gnol.«Annotationscomplètes»:n%desphrases(intégralementannotées)ducorpus.«Annotations partielles»:n%desdépendancesdetoutlecorpus. 3 Application au transfert de dépendances Danscettesection,nousmontronscommentl’apprentissageàpartirdedonnéespartiellementannotées peut être employé pour développer des analyseurs performants pour des langues peu dotées en transférantlesannotationsd’unelanguemieuxdotée.Nousproposonsdansunpremiertempsune méthodesimpledeprojectionpartielledesdépendancesd’unelanguesourceversunelanguecible. Cetteméthodepermetd’obtenirdesdonnéesciblespartiellementannotéesensefiantuniquement auxalignementsnonambigus.Puisnousutilisonscesdonnéespourapprendredesanalyseursen dépendancespourleslanguescibles.Cetteapprocheestvalidéeexpérimentalementencomparant, d’unepart,notreméthodedetransfertavecdesméthodesétat-de-l’artdanscedomaineet,d’autre part,enobservantl’impactduchoixdesheuristiquesdefiltrage. 3.1 Transfertdedépendanceparprojectionpartielle Lesgrandscorpusdetextesparallèlesalignésphrase-à-phraseutilisésentraductionpermettentde transférerdesannotationsd’unelangueversl’autre.Parexemple,danslecasdelaprojectionde 6 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN dépendances,letextesourceprovenantd’unelanguebiendotéeestautomatiquementannoté,puisces annotationssontprojetéessurletexteciblevialesliensd’alignemententrelesmots(voirfigure3): lorsquedanslaphrasesourceunmotx estdépendantd’unmotx ,etquechacundecesmotsest 1 2 alignérespectivementavecununiquemot,y ety ,danslaphrasecible,unliendedépendanceest 1 2 établidey versy .Danslafigure3,lemot«this»estdépendantdumot«is»danslaphrasesource 2 1 (anglais)etcesdeuxmotssontrespectivementalignés(uniquement)aveclesmots«ce»et«est»en cible(français);ladépendanceentre«is»et«this»peutdoncêtreprojetéeenciblede«est»à «ce»avecunegrandeconfiance. Laprojectiondesdépendancesvialesliensd’alignement1:1estintuitivement,unefaçonassezsûre d’obtenirdesdépendancescorrectespourlaphrasecible.Cetteapprochenepermettoutefoispasde déterminerlesdépendancesdesmotsimpliquésdansdesalignementsmultiples(detypen:m)etpour lesmotsnon-alignés.Hwaetal.(2005)ontproposédesheuristiquespourdéterminerlesdépendances manquantesdanscesdeuxcas.Maiscesheuristiquesontpourprincipalobjectifdeconstruire,pour lesphrasescibles,desstructuresdedépendancescomplètes,sansnécessairementtenircomptedela plausibilitédecelles-ci.Aufinal,ellesreposentsurdesdécisionsarbitrairesallant,parfois,jusqu’à l’ajoutdemots«factices»danslaphrasecible.C’estpourquoiellesrestentpeufiablesetproduisent desdonnéesdesupervisiontrèsbruitées. Dans ce travail, nous avons choisi une approche à la fois plus simple et plus robuste : nous pro- posonsd’ignorerlesalignements«difficiles»ouinexistantsetdeneconsidérerquelaprojection desdépendancescorrespondantauxliensd’alignement1:14,telqu’illustréparlafigure3.Cette approche permet de produire dans la langue cible des données partiellement annotées, contenant uniquement les dépendances que nous qualifions de « sûres », car elles reposent directement sur lesliensd’alignementobservésetnonsurdesdécisionsarbitraires.L’avantaged’unetelleméthode estqu’ellepermetd’obtenirdesannotationsdequalitétrèssimplement,sansnécessiteruneétape coûteusedemodélisationdelaconfiancedesdépendancesprojetées.Enoutre,elleestindépendante delalangueetdoncapplicableàn’importequellepairedelangues. ROOT Quite honestly , this is a non-answer . (en) Sincèrement , ce n’ est pas une réponse . (fr) ROOT FIGURE3–Projectionpartielledel’anglaisverslefrançais.Seuleslesdépendancessourcesdont la tête et le dépendant sont alignés avec un et un seul mot cible sont projetées (dépendances et alignementsreprésentéspardestraitspleins).Lestraitspointillésdécriventlesalignementsn:m. 4. Danslecasdeladépendanceattachantlaracinedelaphrase,nousconsidéronsunmotadditionneldanschacunedes phrases,sourceetcible,toujourscorrectementaligné. 7 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN ROOT Por este motivo , he votado en contra del proyecto de Estatuto . (es) C’ est pourquoi j’ ai voté contre ce projet de statut . (fr) ROOT FIGURE 4 – Projection partielle de l’espagnol vers le français via les alignements en fonction del’heuristiquedesymétrisationemployée.Lesliensd’alignementrouges(pleins)sontceuxqui apparaissentdanslesdeuxsensd’alignement(sourceverscibleetcibleverssource);seulscesliens sontconservéslorsdelasymétrisationvial’heuristiqueintersection.Lesliensd’alignementenbleu (pointillés)apparaissentdansuneseuledirectiond’alignement;ilssontconservésenplusdesliens rouges(pleins)lorsdelasymétrisationavecl’heuristiquegrow-diag.Lesdépendancesvertes(en dessous)sontcellesquisontprojetéesavecl’emploideintersectionetseuleslesdépendancesen traitspleinsvertssontprojetéesavecgrow-diag. 3.2 Processusdetransfert Alignements Touslestextesparallèlessontautomatiquementalignésdanslesdeuxdirections5. Deuxheuristiquessontutiliséespourfusionnerlesdeuxdirectionsd’alignements:intersectionet grow-diag(Koehn,2010).L’heuristiqueintersectionneconservequeleslienspréditsconjointement danslesdeuxdirections,quicorrespondentintuitivementauxalignements1:1lesplussûrs.L’heu- ristiquegrow-diagcomplètelesalignementsenutilisantdesargumentsdevoisinage;contrairementà l’heuristiqueintersection,ellegénèredesalignementsmultiples.D’unecertainemanière,l’heuristique grow-diagapporteplusd’informationsenconservantl’ambiguïtéexistanteentrelesalignements. Analyseendépendances Pourchaquepairedelanguestraitée,ilestnécessairequelesdonnées sourcessoientannotéesenpartiedudiscoursetendépendances(avantprojectionsurlesdonnées cibles).Pourcela,nouschoisissonsleMateParser(Bohnet&Nivre,2012),unsystèmeétat-de-l’art performantpourl’étiquetageenpartiedudiscoursjointàl’analyseendépendances,quiestapprissur lesdonnéesd’apprentissagedel’UDT,pourétiqueteretanalyserlesdifférentscorpussource. Pour l’étape d’analyse en dépendances des corpus partiellement annotés (après projection), nous employons notre propre implémentation de l’analyseur en dépendances par transition Arc-Eager associéàunoracledynamiqueetutilisantlarechercheparfaisceaux(beam-search)avecunfaisceau detaille8.Lestraitsemployéspourl’apprentissagesontceuxproposésparZhang&Nivre(2011). 5. DansnosexpériencesnousutilisonsFASTALIGN(Dyeretal.,2013)quiimplémenteunmodèleIBM2. 8 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN Projection partielle Les dépendances sont projetées (partiellement) sur les données cibles en utilisantlaméthodedécriteen3.1vialesalignementssymétrisésàl’aidedesheuristiquesintersection etgrow-diag.Lafigure4donneunexempledesdeuxpossibilitésdeprojectioninduitesparlesdeux casdesymétrisation.Ladépendanceexistanteentre«he»et«votado»enespagnolestprojetéeen françaisentrelestokens«j’»et«voté»avecl’emploideintersectioncarseulslesliensd’alignements 1:1(«he»–«j’»et«votado»–«voté»)sontconservés;tandisqu’avecgrow-diagcertainsliens n:msontconservésenplus,ici«he»et«j’»sontimpliquésdansdesalignementsmultiples,ils sontdoncignoréslorsdelaprojection. L’heuristiqueintersectionpermetdeprojeterplusdedépendancesquel’heuristiquegrow-diagbien qu’ellegénèremoinsdeliensd’alignement.Eneffet,commeelleneconservequedesliens1:1,tous lestokensalignéspeuventrecevoirunedépendancealorsqu’avecl’heuristiquegrow-diagtousles liensd’alignementmultiplessontignoréslorsdelaprojection. Nousconstatonsdefaitl’impactduchoixdelasymétrisationsurl’étapedeprojectionpartielle.Cette étapedeprojectionpartiellepermetd’obteniruntauxd’attachementdesmotsquivade17,9%(suédois versitalien)à33,1%(espagnolversitalien)avecl’heuristiquegrow-diagetde38,2%(italienvers allemand)à55,9%(espagnolversanglais)avecl’heuristiqueintersection.Lenombrededépendances transféréesdanslecasdedeuxlanguesestprésentédanslafigure5.Nousdétailleronsl’impactsur lesperformancesdel’analysedanslasection3.4. intersection grow-diag intersection grow-diag 60 60 s s é é ch40 ch40 a a att att s s ot ot m m e20 e20 d d % % 0 0 de en es it sv de en es fr it (a) Languecible:Français (b) Languecible:Suédois FIGURE5–Pourcentagedemotsattachés(c.-à-d.recevantunedépendance)surl’ensembledesmots descorpus(1231216phrases)aprèsprojectionvialesalignementsintersection/grow-diag. Filtrage Pourgarantirlaqualitédesdépendancesprojetées,nousappliquonsdeuxrèglesdefiltrage. Premièrement,pourlesprojectionspartielles,lesalignementsmettantenjeudesmotsensourceeten cibledontlespartiesdudiscoursnefontpaspartiedelamêmeclassed’équivalence(suivantlesrègles «soft»proposéesparRasooli&Collins(2015))sontretirés6.Deuxièmement,nouschoisissonsdene pasconserverpourl’apprentissagelesphrasesnon-projectivescarellescorrespondentgénéralementà 6. Lefiltrageparlespartiesdudiscoursestnécessairepourlesphrasesquireçoiventuneprojectionpartiellepourgarantir laqualitédelaprojectionmaisdésavantageuxlorsqu’ilestappliquésurlesphrasesquireçoiventuneprojectioncomplète(sans filtrage)carrestreignantlaprojectionauxstructuressyntaxiquessimilairesentreleslanguessourceetcible. 9 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN desprojectionsdefaiblequalité(Marecˇek,2011).Enfinnousretironségalementlesphrasesayant peu de dépendances car il s’agit souvent de phrases « mal » alignées (c.-à-d. ayant peu de liens d’alignements1:1,etdontonpeutdoncsupposerquel’alignementestpeufiable). Auregarddesrésultatsdenosexpériences,nousdécidonsderetirerlesphrasesayantmoinsde80% demotsattachés.Aprèscefiltrage,lepourcentagedemotsrecevantunedépendance,surl’ensemble desphrases,variede89,86%(françaisversitalien)à96,12%(allemandversitalien)pourunnombre dephrasesquivade1583(allemandversitalien)à14369(espagnolversitalien)avecgrow-diag;et de87,5%(espagnolversfrançais)à91,5%(italienversallemand)pourunnombredephrasesquiva de4727(italienversallemand)à52554(anglaisverssuédois)avecl’intersection. 3.3 Expériences Nouseffectuonsnosexpériencessur6langues7del’UDT(v2.0standard):allemand(de),anglais (en),espagnol(es),français(fr),italien(it)etsuédois(sv).Encequiconcernelesdonnéesparallèles, nousconsidéronsunsous-ensembleducorpusEuroparl(Koehn,2005)constituédesphrasesquisont communesàchacunedeslanguesquenousétudions,rassemblant1231216phrasesparallèlespour chaquepairedelangues. Chaqueensemblededonnéespartiellementannoté(parprojectionpartielle)estexploitépourentraîner desanalyseursendépendancespourchaquepairedelanguesetleursperformancessontévaluéessur lesdonnéesdetestdescorpusUDT(enutilisantdesétiquettesenpartiedudiscourspréditesparle MateParser).Lecritèred’évaluationestleUAS(excluantlaponctuation). Nousproposonségalementdecomparernotreméthodeavecdesméthodesdetransfertcouramment présentéescommeréférenceetderéaliserdesexpériencesmulti-sourcespourlesquellesunensemble delangues,plutôtqu’uneseulelangue,estutilisécommeuneuniquesource. Méthodesdel’état-de-l’art Nouscomparonsnotreméthodedetransfertdedépendancesàplu- sieursméthodesétat-de-l’art.Lapremièreestuneméthodequiinclut,enplusduparsingdélexicalisé, une étape intermédiaire de re-lexicalisation sur des données de la langue cible (McDonald et al., 2011).Laseconde,proposéeparMa&Xia(2014),emploieuneméthodederégularisationd’entropie pourtransférerdesconnaissancescross-linguesetladernièreestlaméthode«density-driven»de Rasooli&Collins(2015)utilisantuneméthoded’analysecontraintepourcompléterlesarbrespartiels projetés.Cettedernièreestcellequiserapprocheleplusdelaméthodeproposée.Nousutilisons, dansnostravaux,lesmêmescorpusparallèles(Europarl)etlesmêmescorpusendépendancespour l’entrainementetl’évaluation(UDTv2.0std)quedanscestravauxétats-de-l’art.Notonstoutefoisque lesconditionsd’expérimentationsn’étantpassimilaires8àcellesdenotreméthodetoutecomparaison directeestimpossible. Transfertmulti-source Pourchacunedeslanguesciblesnousprésentonségalementlesrésultats du transfert multi-source pour lequel l’ensemble des 5 autres langues est considérée comme une uniquelanguesource.Nousproposonsunestratégiequiconsistepourunephrasedonnée: 7. Ils’agitdes6languesprésentesàlafoisdanslecorpusEuroparletleUDT. 8. Lesétapesd’apprentissage(deslanguessourcesetcibles)denotreméthoden’incluentpascertainstraitstelsqueles clusters,etappliquentunelargeurdefaisceauxinférieure. 10
Description: