ebook img

Apprentissage d'analyseur en dépendances cross-lingue par projection partielle de dépendances ... PDF

14 Pages·2016·4.16 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Apprentissage d'analyseur en dépendances cross-lingue par projection partielle de dépendances ...

ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN Apprentissage d’analyseur en dépendances cross-lingue par projection partielle de dépendances OphélieLacroix1 LaurianeAufrant1,2 GuillaumeWisniewski1 FrançoisYvon1 (1)LIMSI,CNRS,Univ.Paris-Sud,UniversitéParis-Saclay,F-91405Orsay (2)DGA,60boulevardduGénéralMartialValin,F-75509Paris {lacroix, aufrant, wisniews, yvon}@limsi.fr RÉSUMÉ Cetarticleprésenteuneméthodesimpledetransfertcross-linguededépendances.Nousmontrons tout d’abord qu’il est possible d’apprendre un analyseur en dépendances par transition à partir dedonnéespartiellementannotées.Nousproposonsensuitedeconstruiredegrandsensemblesde données partiellement annotés pour plusieurs langues cibles en projetant les dépendances via les liensd’alignementlesplussûrs.Enapprenantdesanalyseurspourleslanguesciblesàpartirdeces donnéespartielles,nousmontronsquecetteméthodesimpleobtientdesperformancesquirivalisent aveccellesdeméthodesétat-de-l’artrécentes,toutenayantuncoûtalgorithmiquemoindre. ABSTRACT Cross-linguallearningofdependencyparsersfrompartiallyprojecteddependencies Thispaperpresentsasimplestrategyfortransferringdependencyparsersacrosslanguages.Wefirst showthatlearningtransition-basedparserfrompartiallyannotateddataispossibleandeffective.Then weproposetobuildlargepartiallyannotateddatasetforseveraltargetlanguagesviatheprojection of annotations through unambiguous word alignments. Based on the results obtained with such methodology, we show that our method is therefore easy to implement and compete with recent algorithmicallycostlymethodsatamuchcheapercomputationalcost. MOTS-CLÉS :Transfertcross-lingue,Analyseendépendances,Annotationspartielles. KEYWORDS:Cross-lingualtransfer,Dependencyparsing,Partiallyannotateddata. 1 Introduction Demultiplestâchesdetraitementautomatiquedeslanguesreposentsurdesméthodesd’apprentissage supervisénécessitantdescorpusannotésdetaillesuffisante.Cependant,toutesleslanguesnesontpas surunpiedd’égalitélorsqu’ils’agitd’appliquercesméthodes:certaineslangues,tellequel’anglais, sont largement pourvues en ressources annotées tandis que d’autres, généralement qualifiées de «peudotées»,enmanquentcruellement.Danscecontexte,denombreusestechniquesontétémises enœuvredanslebutdetransférerdesannotations(parexemplegrammaticales,syntaxiques,etc.) depuisunelanguesourcebiendotéeversunelangueciblepeudotée,puisd’utilisercettesupervision imparfaitepourentraînerdessystèmesdetraitementdelalanguecible(Pan&Yang,2010). Danscetravail,nousnousintéressonsplusparticulièrementautransfertcross-linguepourl’analyse endépendances.Danscedomaine,deuxtypesd’approchesontétéproposés:letransfertdirectde 1 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN modèlesetletransfertd’annotationsparalignement.Lepremiertypes’appuiesurunereprésentation communedestokensdeslanguessourcesetcibles(parexempleenutilisantlesétiquettesmorpho- syntaxiquesuniversellesdePetrovetal.(2012)),permettantainsid’entraînerunanalyseursurles phrasessourcesetdel’appliquerdirectementauxphrasesciblessanstenircomptedesinformations lexicales (c.-à-d. des tokens). Cette technique d’« analyse délexicalisée », initialement introduite par Zeman & Resnik (2008), peut être améliorée par des méthodes d’auto-apprentissage, par la sélectionintelligentedesdonnées,parlarelexicalisationdesdonnéesouletransfertmulti-source (Naseemetal.,2010;Cohenetal.,2011;Søgaard,2011;Täckströmetal.,2013). Lesecondtyped’approcherequiertl’emploidedonnéesparallèlesetreposesurlaprojectiondes dépendancesdesphrasessourcesauxphrasesciblesautraversdesliensd’alignement.Cetteméthode introduite par Hwa et al. (2005) a été depuis reprise et améliorée (Ozdowska, 2006; Tiedemann, 2014).Unedesdifficultéssoulevéeparcetteapprochevientdufaitquelesstructuressyntaxiques entrelesphrasessourcesetciblesnesontpasisomorphesdufaitdesdivergencessyntaxiquesdes langues,tellesl’absence/laconcaténationdespartitifs.Enoutre,lesalignementspeuventêtrebruités etl’analyseendépendancesdesphrasessourcesinexacte.L’apprentissagedoitalorssoits’effectuer surunfaiblenombrededonnéesintégralementannotées,soits’adapteràdesdonnéespartiellement annotées.Danscecas,lesarbrespartielssontgénéralementcomplétés,parexempleenattachant chaquemotisoléàl’aided’unedépendancefactice(Spreyer&Kuhn,2009)ouensoumettanttoutes lespossibilitésderattachementdecesmots(Lietal.,2014),enconsidérantlesdépendancesprédites paruneanalysedélexicalisée(Ma&Xia,2014)ouparunepremièreétaped’apprentissagesurdes phrasesintégralementannotées(Rasooli&Collins,2015).Unevarianterécente(Tiedemannetal., 2014)decetteméthodeutilisedescorpusparallèlessynthétiquesproduitspartraductionautomatique, ce qui permet de s’affranchir du bruit d’alignement et de simplifier les règles de projection; elle présentel’inconvénientfournirdesdonnéesarticificielles,dequalitédifficilementcontrôlable,au parseurenlanguecible. Danscetarticle,nousproposonsuneméthodesimpleetefficacedetransfertd’annotationsquine nécessite pas de recourir au filtrage et aux règles de transfert de Hwa et al. (2005). Lors de la projectiondesdépendancesd’unephrasesourceversunephrasecible,noustransféronsuniquement lesdépendancesentrelesmotsdontl’alignementestsûr,produisantdegrandscorpusdedonnées partiellementannotées.Nousmontronsqu’ilestpossibled’apprendreunanalyseurpartransition projectifsurcesdonnées:ceux-cisonteneffetapprisparcorrectiond’erreuràl’aided’unoracle dynamique(Goldberg&Nivre,2012),cequipermetd’ignorerlesmotsnonattachéspourseconcentrer surlacorrectiondesdépendancesconnuesetdeminimiserl’impactdel’accumulationdeserreurs. Lerestedel’articleestorganisécommesuit:danslasection2,nousdétaillonslesystèmed’analyse endépendancesquipermetl’apprentissageàpartirdedonnéespartiellementannotées.Nousmontrons, pardesexpériencessurdescorpusartificiels(section2.2),quel’apprentissageàpartirdephrases partiellementannotéesestpossibleetdemeureefficace.Puisnousappliquonscetteméthodedansle cadredutransfertd’annotations(section3)endépendances. 2 Apprentissage à partir de données partiellement annotées Danscettesection,nouscommnençonsparrappelerleprinciped’unanalyseurArc-Eager(Nivre, 2003)puisleprincipedesonapprentissageavecunoracledynamique(Goldberg&Nivre,2012).Nous expliquonsensuiteenquoicesystèmeestadaptéàl’apprentissageàpartirdedonnéesincomplètes. 2 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN 2.1 Analysepartransition:inférence Unanalyseurpartransitionsconstruitunarbreendépendancesdemanièreincrémentale;ilparcourt laphraseàanalyserdegaucheàdroiteetajoutedesdépendancesaufuretàmesureparapplication d’actions. Dans le cas d’un analyseur Arc-Eager quatre actions, définies dans le tableau 1, sont possibles : LEFTARC, RIGHTARC, SHIFT et REDUCE. À chaque étape de l’analyse, le choix de l’actionàappliquerpourpasseràlaconfigurationsuivanteestdéterminéparunclassifieurmulti- classe.Celui-cicalculelescoredechaqueactionpossibleàcemomentdel’analyse(c.-à-d.lesactions respectantlesconditionsdutableau1)etchoisitd’appliquerl’actiona deplusgrandscore: ⇤ a⇤ = argmax �(c,a)w , (1) h | i a LEGAL(c) 2 oùcestlaconfigurationcourante,w,unvecteurdeparamètres,�(c,a),unvecteurdetraitsdécrivant laconfigurationcouranteetLEGAL(c)l’ensembledesactionsquipeuventêtreappliquéesàpartirde c.L’analysesyntaxiqued’unephrasecorrespondalorsàunesuitededécisionsquipermetdepasser progressivementd’uneconfigurationinitiale(notéec =([],[w ,...,w ], )),décrivantunestructure 0 1 n ; dedépendancevide,àuneconfigurationfinaledanslaquellechaquemotestrattachéàsatête. Actions Effetssurlesconfigurations Conditions LEFTARC (� wi, wj �, A) (�, wj �, A (j,i) ) i=0 k(k,i) A | | ) | [{ } 6 ^¬9 2 RIGHTARC (� wi, wj �, A) (� wj,�, A (i,j) ) k(k,j) A | | ) | [{ } ¬9 2 REDUCE (� wi,�, A ) (�, �, A) k(k,i) A | ) 9 2 SHIFT (�, wi �, A) (� wi,�, A ) | ) | TABLE1–Effetsetconditionsd’applicationdesactions(nonétiquetées)del’analyseurArcEager surlesconfigurations.Uneconfigurationestuntriplet(�, �, A)où�estunepiledemots,� estun bufferdemotsnonencoretraitésetAestunensembled’arcs. 2.2 Apprentissagepartiel L’algorithme1décritcommentestapprisl’analyseurpartransition:pourchaquephrasedel’ensemble d’apprentissage,unarbrededépendancesestconstruitdemanièreincrémentalecommepourl’étape d’inférence.Àchaqueétape,sil’actionpréditecréeunedépendancequin’estpasdansl’arbrede référenceouempêchelacréationd’unedépendancedecelui-ci,levecteurdeparamètresestmisà jourselonlarègleduperceptron.Goldberg&Nivre(2012)introduisentuneméthodequiconstruit, pouruneconfigurationcdonnée,l’ensemble,CORRECTy(c),desactions«correctes»n’empêchant paslacréationd’unedesdépendancesdelaréférencey.Siplusieursactionssontcorrectes,l’action choisie comme référence lors de la mise à jour est celle de plus haut score selon le modèle. En résumé,l’apprentissageconsisteàconstruirelasortieassociéeàunephraseenvérifiant,àchaque étapedel’analyse,sil’actionprédite(c.-à-d.l’actiondeplushautscoreappartenantàl’ensemble LEGAL(c))estdifférentedel’actioncorrecte(l’actiondeplushautscoreappartenantàl’ensemble CORRECTy(c));danscecas,levecteurdeparamètreswestmisàjour. Ilestimportantderemarquerquel’algorithme1suituneprocédured’apprentissageparcorrection d’erreur.L’analyseurdoitdoncsavoirdétectersilechoixd’uneactioninduituneerreur.Lorsque aucuneerreurn’estdétectée,levecteurdeparamètresn’estpasmodifiéetlaconstructiondel’arbre 3 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN dedépendancescontinueselonlesprédictionsdumodèle.Parconséquent,l’algorithme1peutêtre employésansmodificationpourentraînerunanalyseuràpartirdedonnéespartiellementannotées.En effet,uneerreurestdétectéelorsqu’uneactionpréditeempêchelaconstructiond’unedépendancedela structurederéférence;siaucuneinformationdesupervisionn’estdisponible(c.-à-d.siladépendance correcte n’est pas connue), aucune action n’est pénalisante dans le processus de construction de lasortieettouteslesactionspréditespeuventêtreconsidéréescommecorrectes.Lesinformations nonconnuesn’entraventdoncpasl’apprentissagesurlerestedelastructureconnue.Laprocédure d’apprentissagen’adoncpasbesoind’êtremodifiée,c’estlecalculdel’ensembleCORRECTy(c)qui s’adapteautomatiquementauxinformationsdisponibles. Algorithm1:Apprentissaged’unanalyseurpartransitions fort 1,...,T do 2 x,y SAMPLE(dataset) // extraction d’une phrase c JINITIALK(x) // configuration initiale while FINAL(c)do ¬ a⇤ =argmaxa2LEGAL(c)h�(c,a)|wi // action prédite ifa⇤ / CORRECTy(c)then 2 aˆ=argmax �(c,a)w // action correcte de score max. w w+�(ac2,CaˆO)RREC�T(yc(,ca)h⇤) | i // mise à jour � c c a ⇤ � Laméthoded’apprentissagequenousvenonsdedécrireprésenteunsecondavantageluipermettant d’exploiterlesdépendancespartielles.L’oracledynamiqueaétéintroduitpourlimiterl’accumulation d’erreurslorsdel’apprentissaged’unanalyseurendépendances.Eneffet,lorsdel’apprentissage l’analyseurconstruitunestructurededépendancesàpartird’actionspréditesdoncpotentiellement erronées.Cequisignifieque,aufuretàmesuredelaconstructiondecettestructure,l’apprentissage duvecteurdeparamètresutilisedestraitsquiproviennentd’unestructurepréditepotentiellement fausse : l’analyseur apprend à prédire les bonnes actions dans un contexte erroné ce qui le rend mieux à même de s’adapter aux erreurs de prédiction en phase de test. Cette caractéristique est particulièrement importante dans le cadre de l’apprentissage partiel puisque l’analyseur, lors de l’apprentissage,peutseretrouverdansunétatdanslequellesdépendancesprécédemmentprédites n’ontpasétévalidéesencomparaisonaveclastructurederéférence(quiestinconnue)etsontdonc potentiellementfausses. Ilestintéressantdenotertoutefoisqueladétectiond’uneerreurestpossiblemêmelorsquelatêtedu motcourantn’estpasconnue:danscertainscas,grâceàlacontraintedeprojectivité,laconnaissance desdépendancesvoisinespermetderestreindrelesactionscorrectespossibles.Lafigure1illustreun exempledestructurepartielledanslaquellelemot«libre»(sanstêteconnue)aseulementdeuxchoix detêtepossibles(«le»,sonvoisingauche,ou«échange»,sonvoisindroit)dufaitdeladépendance connueentre«échange»et«Le»etdelacontraintedeprojectivité.Eneffet,celle-ciproscritle rattachementd’unmotcomprisentrelatêteetledépendantd’unedépendanceàunetêtesituéeà l’extérieurdecetintervalle.Lorsdel’entraînementdel’analyseurpartransition,celasetraduitpar unerestrictionsurl’ensembledesactionscorrectes.Ici,aprèsl’applicationdelapremièreprédiction SHIFT (quiplace«Le»surlapile),l’ensembledesactionscorrectes, CORRECTy(c),estlimitéà SHIFT et RIGHTARC tandis que l’ensemble des actions possibles LEGAL(c) contient également l’actionLEFTARC.Sicettedernièreactionestchoisie,alorsilyaunemiseàjourduvecteurdepoids 4 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN bienquelatêtedumot«libre»nesoitpasconnue.Sil’unedesactionsSHIFTouRIGHTARCest prédite,iln’yapasdemiseàjouràcetteétapemais,àl’étapesuivante,lesactionscorrectesseront égalementrestreintes:siSHIFTestchoisie,alors«libre»n’auraplusqu’unchoixderattachement correct (« échange », par l’action LEFTARC) tandis que si RIGHTARC est choisie, alors l’action REDUCEseraleseulchoixcorrectpossible.Cetterestrictionpeutentraînerunemiseàjour. ROOT Le libre échange n’ est pas du commerce équitable . FIGURE1–Structurededépendancespartielle(traitspleins)danslaquellelatêtedumot«libre» n’est pas connue mais est limitée, à cause de la contrainte de projectivité à deux choix (traits en pointillé):«Le»ou«échange». 2.3 Expériencessurdesdonnéesartificielles Afindemontrerquel’apprentissageàpartirdedonnéespartiellementannotéesestpossible,nous avonsmenédesexpériencesdecontrôlesurdesdonnéesdontlesdépendancesontétésupprimées artificiellement : nous comparons les performances d’un analyseur appris, d’une part, à partir de n% des phrases d’un corpus, et d’autre part, à partir de toutes les phrases du corpus mais pour lesquellesseulesn%desdépendancessontconnues.Danslesdeuxcas,lesdonnéesconservéespour l’apprentissage(phrasesoudépendances)sontextraitesaléatoirement. Lafigure2présentelesperformancesenUAS1desanalyseurssurlescorpusallemandetespagnoldu UniversalDependencyTreebank2(UDT)v2.0standard(McDonaldetal.,2013)selonlepourcentage de dépendances préservées durant l’entraînement. Les résultats correspondent à un score moyen mesurésur10expériencespourlesquellesnousconservonsladivisiondescorpusproposéeparle corpusUDTendonnéesd’entraînementetdonnéesdetest,àl’exclusiondesphrasesnon-projectives3. LesUASdesanalysesdébutentà75,44%pourl’allemandetà78,83%pourl’espagnollorsqueseule- ment10%desphrases(intégralementannotées)sontconservéespourl’apprentissage,etatteignent respectivement 80,35% et 82,81% sur l’intégralité du corpus. Lorsque l’apprentissage se fait sur l’intégralitédescorpusauxquelssontaléatoirementretiréesdesdépendances,lesscoressonttoujours supérieurs(aumaximum+0,43pourl’allemandet+0,62pourl’espagnol)pourunnombremoyen équivalentdedépendancesconservées.Nousavonseffectuédesexpériencessimilairessurd’autres languesduUDTpourlesquelleslesrésultatsobtenussuiventlesmêmestendances. Nousremarquonsdoncd’unepartquelenombredephrasesd’entraînementpeutêtreconsidérablement réduitsansaffaiblirsévèrementlesscores:supprimerlamoitiédesphrasesdescorpusréduitles 1. UAS(UnlabeledAttachmentScore)correspondaupourcentagedemotsétantcorrectementrattachéssurl’ensembledu corpus,àl’exceptiondesponctuations. 2. https://github.com/ryanmcd/uni-dep-tb 3. Dansnosexpériences,lecorpusallemandcontient12752phrasesdanslecorpusd’apprentissageet785danslecorpus detest,tandisquelescorpusespagnolcomprennent,respectivement,13280et267phrases. 5 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN scoresde«seulement»1,18pointspourl’allemandet0,94pourl’espagnol.Pourchacunedesdeux languesetpourunmêmenombrededépendancesconnues,lesscoressontsupérieurslorsqueplus dephrasessontannotées,mêmepartiellement.Commeexpliquéàlasection2.2,desinformations sur les dépendances inconnues peuvent en effet être déduites du contexte syntaxique (c.-à-d. les dépendancesvoisinesconnues)etainsicorrigerdeserreurslorsdel’apprentissage.Enpratique,lors del’apprentissagesur60%desdépendances35382misesàjoursonteffectuéesenmoyennecontre 31339lorsqueseulement60%desphrasessontexploitéesdanslecasdel’allemandcequiconstitue une différence importante (+13% de mises à jours) bien que le nombre moyen de dépendances conservéessoitéquivalent.Desécartssimilairesontétérelevéspourd’autreslanguesdel’UDT. 80 82 e) s) d e ( 78 ( S S A A U U 80 76 annotationscomplètes annotationscomplètes annotationspartielles annotationspartielles 20 40 60 80 100 20 40 60 80 100 %dépendances %dépendances (a) Langue:Allemand (b) Langue:Espagnol FIGURE2–UASd’unanalyseurentraînésurn%desdépendancesdescorpusUDTallemandetespa- gnol.«Annotationscomplètes»:n%desphrases(intégralementannotées)ducorpus.«Annotations partielles»:n%desdépendancesdetoutlecorpus. 3 Application au transfert de dépendances Danscettesection,nousmontronscommentl’apprentissageàpartirdedonnéespartiellementannotées peut être employé pour développer des analyseurs performants pour des langues peu dotées en transférantlesannotationsd’unelanguemieuxdotée.Nousproposonsdansunpremiertempsune méthodesimpledeprojectionpartielledesdépendancesd’unelanguesourceversunelanguecible. Cetteméthodepermetd’obtenirdesdonnéesciblespartiellementannotéesensefiantuniquement auxalignementsnonambigus.Puisnousutilisonscesdonnéespourapprendredesanalyseursen dépendancespourleslanguescibles.Cetteapprocheestvalidéeexpérimentalementencomparant, d’unepart,notreméthodedetransfertavecdesméthodesétat-de-l’artdanscedomaineet,d’autre part,enobservantl’impactduchoixdesheuristiquesdefiltrage. 3.1 Transfertdedépendanceparprojectionpartielle Lesgrandscorpusdetextesparallèlesalignésphrase-à-phraseutilisésentraductionpermettentde transférerdesannotationsd’unelangueversl’autre.Parexemple,danslecasdelaprojectionde 6 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN dépendances,letextesourceprovenantd’unelanguebiendotéeestautomatiquementannoté,puisces annotationssontprojetéessurletexteciblevialesliensd’alignemententrelesmots(voirfigure3): lorsquedanslaphrasesourceunmotx estdépendantd’unmotx ,etquechacundecesmotsest 1 2 alignérespectivementavecununiquemot,y ety ,danslaphrasecible,unliendedépendanceest 1 2 établidey versy .Danslafigure3,lemot«this»estdépendantdumot«is»danslaphrasesource 2 1 (anglais)etcesdeuxmotssontrespectivementalignés(uniquement)aveclesmots«ce»et«est»en cible(français);ladépendanceentre«is»et«this»peutdoncêtreprojetéeenciblede«est»à «ce»avecunegrandeconfiance. Laprojectiondesdépendancesvialesliensd’alignement1:1estintuitivement,unefaçonassezsûre d’obtenirdesdépendancescorrectespourlaphrasecible.Cetteapprochenepermettoutefoispasde déterminerlesdépendancesdesmotsimpliquésdansdesalignementsmultiples(detypen:m)etpour lesmotsnon-alignés.Hwaetal.(2005)ontproposédesheuristiquespourdéterminerlesdépendances manquantesdanscesdeuxcas.Maiscesheuristiquesontpourprincipalobjectifdeconstruire,pour lesphrasescibles,desstructuresdedépendancescomplètes,sansnécessairementtenircomptedela plausibilitédecelles-ci.Aufinal,ellesreposentsurdesdécisionsarbitrairesallant,parfois,jusqu’à l’ajoutdemots«factices»danslaphrasecible.C’estpourquoiellesrestentpeufiablesetproduisent desdonnéesdesupervisiontrèsbruitées. Dans ce travail, nous avons choisi une approche à la fois plus simple et plus robuste : nous pro- posonsd’ignorerlesalignements«difficiles»ouinexistantsetdeneconsidérerquelaprojection desdépendancescorrespondantauxliensd’alignement1:14,telqu’illustréparlafigure3.Cette approche permet de produire dans la langue cible des données partiellement annotées, contenant uniquement les dépendances que nous qualifions de « sûres », car elles reposent directement sur lesliensd’alignementobservésetnonsurdesdécisionsarbitraires.L’avantaged’unetelleméthode estqu’ellepermetd’obtenirdesannotationsdequalitétrèssimplement,sansnécessiteruneétape coûteusedemodélisationdelaconfiancedesdépendancesprojetées.Enoutre,elleestindépendante delalangueetdoncapplicableàn’importequellepairedelangues. ROOT Quite honestly , this is a non-answer . (en) Sincèrement , ce n’ est pas une réponse . (fr) ROOT FIGURE3–Projectionpartielledel’anglaisverslefrançais.Seuleslesdépendancessourcesdont la tête et le dépendant sont alignés avec un et un seul mot cible sont projetées (dépendances et alignementsreprésentéspardestraitspleins).Lestraitspointillésdécriventlesalignementsn:m. 4. Danslecasdeladépendanceattachantlaracinedelaphrase,nousconsidéronsunmotadditionneldanschacunedes phrases,sourceetcible,toujourscorrectementaligné. 7 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN ROOT Por este motivo , he votado en contra del proyecto de Estatuto . (es) C’ est pourquoi j’ ai voté contre ce projet de statut . (fr) ROOT FIGURE 4 – Projection partielle de l’espagnol vers le français via les alignements en fonction del’heuristiquedesymétrisationemployée.Lesliensd’alignementrouges(pleins)sontceuxqui apparaissentdanslesdeuxsensd’alignement(sourceverscibleetcibleverssource);seulscesliens sontconservéslorsdelasymétrisationvial’heuristiqueintersection.Lesliensd’alignementenbleu (pointillés)apparaissentdansuneseuledirectiond’alignement;ilssontconservésenplusdesliens rouges(pleins)lorsdelasymétrisationavecl’heuristiquegrow-diag.Lesdépendancesvertes(en dessous)sontcellesquisontprojetéesavecl’emploideintersectionetseuleslesdépendancesen traitspleinsvertssontprojetéesavecgrow-diag. 3.2 Processusdetransfert Alignements Touslestextesparallèlessontautomatiquementalignésdanslesdeuxdirections5. Deuxheuristiquessontutiliséespourfusionnerlesdeuxdirectionsd’alignements:intersectionet grow-diag(Koehn,2010).L’heuristiqueintersectionneconservequeleslienspréditsconjointement danslesdeuxdirections,quicorrespondentintuitivementauxalignements1:1lesplussûrs.L’heu- ristiquegrow-diagcomplètelesalignementsenutilisantdesargumentsdevoisinage;contrairementà l’heuristiqueintersection,ellegénèredesalignementsmultiples.D’unecertainemanière,l’heuristique grow-diagapporteplusd’informationsenconservantl’ambiguïtéexistanteentrelesalignements. Analyseendépendances Pourchaquepairedelanguestraitée,ilestnécessairequelesdonnées sourcessoientannotéesenpartiedudiscoursetendépendances(avantprojectionsurlesdonnées cibles).Pourcela,nouschoisissonsleMateParser(Bohnet&Nivre,2012),unsystèmeétat-de-l’art performantpourl’étiquetageenpartiedudiscoursjointàl’analyseendépendances,quiestapprissur lesdonnéesd’apprentissagedel’UDT,pourétiqueteretanalyserlesdifférentscorpussource. Pour l’étape d’analyse en dépendances des corpus partiellement annotés (après projection), nous employons notre propre implémentation de l’analyseur en dépendances par transition Arc-Eager associéàunoracledynamiqueetutilisantlarechercheparfaisceaux(beam-search)avecunfaisceau detaille8.Lestraitsemployéspourl’apprentissagesontceuxproposésparZhang&Nivre(2011). 5. DansnosexpériencesnousutilisonsFASTALIGN(Dyeretal.,2013)quiimplémenteunmodèleIBM2. 8 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN Projection partielle Les dépendances sont projetées (partiellement) sur les données cibles en utilisantlaméthodedécriteen3.1vialesalignementssymétrisésàl’aidedesheuristiquesintersection etgrow-diag.Lafigure4donneunexempledesdeuxpossibilitésdeprojectioninduitesparlesdeux casdesymétrisation.Ladépendanceexistanteentre«he»et«votado»enespagnolestprojetéeen françaisentrelestokens«j’»et«voté»avecl’emploideintersectioncarseulslesliensd’alignements 1:1(«he»–«j’»et«votado»–«voté»)sontconservés;tandisqu’avecgrow-diagcertainsliens n:msontconservésenplus,ici«he»et«j’»sontimpliquésdansdesalignementsmultiples,ils sontdoncignoréslorsdelaprojection. L’heuristiqueintersectionpermetdeprojeterplusdedépendancesquel’heuristiquegrow-diagbien qu’ellegénèremoinsdeliensd’alignement.Eneffet,commeelleneconservequedesliens1:1,tous lestokensalignéspeuventrecevoirunedépendancealorsqu’avecl’heuristiquegrow-diagtousles liensd’alignementmultiplessontignoréslorsdelaprojection. Nousconstatonsdefaitl’impactduchoixdelasymétrisationsurl’étapedeprojectionpartielle.Cette étapedeprojectionpartiellepermetd’obteniruntauxd’attachementdesmotsquivade17,9%(suédois versitalien)à33,1%(espagnolversitalien)avecl’heuristiquegrow-diagetde38,2%(italienvers allemand)à55,9%(espagnolversanglais)avecl’heuristiqueintersection.Lenombrededépendances transféréesdanslecasdedeuxlanguesestprésentédanslafigure5.Nousdétailleronsl’impactsur lesperformancesdel’analysedanslasection3.4. intersection grow-diag intersection grow-diag 60 60 s s é é ch40 ch40 a a att att s s ot ot m m e20 e20 d d % % 0 0 de en es it sv de en es fr it (a) Languecible:Français (b) Languecible:Suédois FIGURE5–Pourcentagedemotsattachés(c.-à-d.recevantunedépendance)surl’ensembledesmots descorpus(1231216phrases)aprèsprojectionvialesalignementsintersection/grow-diag. Filtrage Pourgarantirlaqualitédesdépendancesprojetées,nousappliquonsdeuxrèglesdefiltrage. Premièrement,pourlesprojectionspartielles,lesalignementsmettantenjeudesmotsensourceeten cibledontlespartiesdudiscoursnefontpaspartiedelamêmeclassed’équivalence(suivantlesrègles «soft»proposéesparRasooli&Collins(2015))sontretirés6.Deuxièmement,nouschoisissonsdene pasconserverpourl’apprentissagelesphrasesnon-projectivescarellescorrespondentgénéralementà 6. Lefiltrageparlespartiesdudiscoursestnécessairepourlesphrasesquireçoiventuneprojectionpartiellepourgarantir laqualitédelaprojectionmaisdésavantageuxlorsqu’ilestappliquésurlesphrasesquireçoiventuneprojectioncomplète(sans filtrage)carrestreignantlaprojectionauxstructuressyntaxiquessimilairesentreleslanguessourceetcible. 9 ActesdelaconférenceconjointeJEP-TALN-RECITAL2016,volume2: TALN desprojectionsdefaiblequalité(Marecˇek,2011).Enfinnousretironségalementlesphrasesayant peu de dépendances car il s’agit souvent de phrases « mal » alignées (c.-à-d. ayant peu de liens d’alignements1:1,etdontonpeutdoncsupposerquel’alignementestpeufiable). Auregarddesrésultatsdenosexpériences,nousdécidonsderetirerlesphrasesayantmoinsde80% demotsattachés.Aprèscefiltrage,lepourcentagedemotsrecevantunedépendance,surl’ensemble desphrases,variede89,86%(françaisversitalien)à96,12%(allemandversitalien)pourunnombre dephrasesquivade1583(allemandversitalien)à14369(espagnolversitalien)avecgrow-diag;et de87,5%(espagnolversfrançais)à91,5%(italienversallemand)pourunnombredephrasesquiva de4727(italienversallemand)à52554(anglaisverssuédois)avecl’intersection. 3.3 Expériences Nouseffectuonsnosexpériencessur6langues7del’UDT(v2.0standard):allemand(de),anglais (en),espagnol(es),français(fr),italien(it)etsuédois(sv).Encequiconcernelesdonnéesparallèles, nousconsidéronsunsous-ensembleducorpusEuroparl(Koehn,2005)constituédesphrasesquisont communesàchacunedeslanguesquenousétudions,rassemblant1231216phrasesparallèlespour chaquepairedelangues. Chaqueensemblededonnéespartiellementannoté(parprojectionpartielle)estexploitépourentraîner desanalyseursendépendancespourchaquepairedelanguesetleursperformancessontévaluéessur lesdonnéesdetestdescorpusUDT(enutilisantdesétiquettesenpartiedudiscourspréditesparle MateParser).Lecritèred’évaluationestleUAS(excluantlaponctuation). Nousproposonségalementdecomparernotreméthodeavecdesméthodesdetransfertcouramment présentéescommeréférenceetderéaliserdesexpériencesmulti-sourcespourlesquellesunensemble delangues,plutôtqu’uneseulelangue,estutilisécommeuneuniquesource. Méthodesdel’état-de-l’art Nouscomparonsnotreméthodedetransfertdedépendancesàplu- sieursméthodesétat-de-l’art.Lapremièreestuneméthodequiinclut,enplusduparsingdélexicalisé, une étape intermédiaire de re-lexicalisation sur des données de la langue cible (McDonald et al., 2011).Laseconde,proposéeparMa&Xia(2014),emploieuneméthodederégularisationd’entropie pourtransférerdesconnaissancescross-linguesetladernièreestlaméthode«density-driven»de Rasooli&Collins(2015)utilisantuneméthoded’analysecontraintepourcompléterlesarbrespartiels projetés.Cettedernièreestcellequiserapprocheleplusdelaméthodeproposée.Nousutilisons, dansnostravaux,lesmêmescorpusparallèles(Europarl)etlesmêmescorpusendépendancespour l’entrainementetl’évaluation(UDTv2.0std)quedanscestravauxétats-de-l’art.Notonstoutefoisque lesconditionsd’expérimentationsn’étantpassimilaires8àcellesdenotreméthodetoutecomparaison directeestimpossible. Transfertmulti-source Pourchacunedeslanguesciblesnousprésentonségalementlesrésultats du transfert multi-source pour lequel l’ensemble des 5 autres langues est considérée comme une uniquelanguesource.Nousproposonsunestratégiequiconsistepourunephrasedonnée: 7. Ils’agitdes6languesprésentesàlafoisdanslecorpusEuroparletleUDT. 8. Lesétapesd’apprentissage(deslanguessourcesetcibles)denotreméthoden’incluentpascertainstraitstelsqueles clusters,etappliquentunelargeurdefaisceauxinférieure. 10

Description:
show that learning transition-based parser from partially annotated data is ceux-ci sont en effet appris par correction d'erreur à l'aide d'un oracle.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.