ebook img

Discriminative Alignment Models For Statistical Machine Translation PDF

168 Pages·2017·7.05 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Discriminative Alignment Models For Statistical Machine Translation

Discriminative Alignment Models For Statistical Machine Translation Nadi Tomeh To cite this version: Nadi Tomeh. Discriminative Alignment Models For Statistical Machine Translation. Other [cs.OH]. Université Paris Sud - Paris XI, 2012. English. ￿NNT: 2012PA112104￿. ￿tel-00720250￿ HAL Id: tel-00720250 https://theses.hal.science/tel-00720250 Submitted on 24 Jul 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. UNIVERSITY OF PARIS-SUD DOCTORAL SCHOOL OF COMPUTER SCIENCE P H D T H E S I S to obtain the title of Ph.D. of Science of the University of Paris-Sud Discipline : Computer Science Defended by omeh Nadi T Discriminative Alignment Models For Statistical Machine Translation von Thesis advisor: François Y llauzen Thesis co-advisor: Alexandre A prepared at LIMSI-CNRS, TLP Team 27 2012 defended on June , Jury: President: Anne Vilnat - Université Paris-Sud Reviewers: Eric Gaussier - Université Joseph Fourier anglais Philippe L - Université de Montréal Examinator: Hermann NEY - RWTH Aachen Invited: Nasredine Semmar - Commissariat à l’Energie Atomique Advisor: François Yvon - Université Paris-Sud Co-advisor: Alexandre Allauzen - Université Paris-Sud Remerciements A l’issue de ces quatre dernières années de travail, je souhaiterais remercier toutes les personnesquim’ontpermis,deprèsoudeloin,demeneràbiencetravail. Magratitudevatoutd’abordàmondirecteurdethèse,MonsieurFrançoisYvon,Professeur del’UniversitéParis-Sud. Jeleremerciedem’avoirconfiécetravailderechercheetdem’avoir guidé, encouragé, conseillé, tout en me laissant une grande liberté de recherche tout au longdecettethèse. JetienségalementàremercierMonsieurAlexandreAllauzen,Maîtrede Conférencedel’UniversitéParis-Sudetco-encadrantdecettethèse,poursadisponibilité,ses idées et son aide au quotidien. Au-delà de leur rigueur scientifique, je voudrais saluer du fondducoeurleursqualitéshumainesquiontfacilitémonintégrationauseinduLIMSIeten France. Mes remerciements s’adressent également à Madame Anne Vilnat, Professeur de l’Université Paris-Sud, pour m’avoir fait l’honneur de présider mon jury de thèse. Je suis aussitrèsreconnaissantàMonsieurEricGaussier,Professeurdel’UniversitéJosephFourier,et MonsieurPhilippeLanglais,Professeurdel’UniversitédeMontréal,d’avoiracceptédejuger cetravailetd’enêtrelesrapporteurs. Enfin,j’aimeraisremercierlesautresmembresdujury, MonsieurHermannNey,Professeurdel’UniversitéRWTHAachen,etMonsieurNasredine Semmar,ChargédeRechercheauCEA,pourleursquestions,remarquesetsuggestions. CetravailaétéeffectuéauLaboratoired’informatiquepourlaMécaniqueetlesSciences de l’ingénieur (LIMSI-CNRS) dont je remercie le directeur, Monsieur Patrick Le Quéré, de m’avoirouvertlesportes. JeremercieégalementMonsieurJean-LucGauvain,Directeurde RechercheCNRS,dem’avoiraccueilliauseindesonéquipe,TraitementduLangageParlé (TLP). J’aieulachanceaucoursdemathèsedepartagerlebureaudeGuillaumeWisniewski,qui estdevenuplusqu’uncollèguepourmoi. Asoncontact,etgrâceàsesnombreusesqualités (ycompriscelledeDJ),jepenseavoirénormémentappris,passeulementsurl’apprentissage statistique, mais aussi sur la vie. Grâce à lui, venir au bureau tous les matins (ou presque) étaitungrandplaisir,merciWichnou. J’aimeraisparticulièrementremercierAurélienMaxpoursonaccueilchaleureuxdèsmon premierjourauLIMSI,poursagentillesse,sonsoutiencontinu,sonintérêtdansmontravail, ainsiquepourlesnombreusesdiscussionsenrichissantesquenousavonseues. Jetiensàremercierinfinimenttousmescollèguesenseignantsàl’InstitutUniversitairede Technologie(IUT)d’Orsaypourleurconfiancependantmesannéesdemonitoratetd’ATER. MesremerciementvontnotammentàmatutriceCécileBalkanskipoursonaideprécieuxau débutduchemin,etégalementàHélèneBonneau-Maynardpourcescomplimentsquim’ont toujoursfaitplaisir. Grâceàl’ensembledemescollèguesdetravailauLIMSI,j’aiputravaillerdansuncadre exceptionnellement agréable. Je pense particulièrement à Thiago qui m’a appris comment vivre sans trop s’inquiéter, Ilya et Nadège sur qui j’ai toujours pu compter, Thomas pour son suivi méticuleux de l’état d’avancement de ma thèse, Penny pour les promenades au soleil,Houdalaspécialistedel’administrationfrançaiseetl’organisatricedesoutenances,et à Artem, Cécile, Clément, Eric, HaiSon, Hervé, Marianna, Nicolas et Souhir. Merci à tous i Remerciements pourvotrebonnehumeur,pournosséancesderiresetpournosdiscussionsautourdecafés, beaucoupdecafés. Ces remerciements ne seraient pas complets sans une pensée pour mes amis qui n’ont cessédemerappelerqu’ilexistaitunmondeàl’extérieurduLIMSI.Jepensenotammentà Lynn, ma meilleure amie, et à son prince charmant Nicolas. Un grand merci également à CharlotteetTonypourm’avoirchangélesidéesquandillefallait,etàChristinepourm’avoir apprismespremiersmotsd’allemand. Mespenséeslespluschaleureusesvontparailleursà mesmeilleursamisdeDamas,particulièrementàDani,Louay,Mike,Micho,Tonyetenfin Lana pour leurs encouragements et les fous rires que nous continuons à avoir malgré la distanceetlescirconstancesactuelles. J’aimeraisenfinremerciermoncamaradeJean-Baptiste poursonsoutiendanstouteslesbataillesquenousavonsmenéesensemble. JevoudraisexprimermaprofondereconnaissanceàmesparentsNaylaetNazihetàma petitesoeurAnsa,quim’ontencouragétoutaulongdemesétudesavectendresseetmalgré touteslesdifficultésqu’entraîneladistance. J’espèrequ’ilsontfiersdemoi. Pourfinir,j’aimeraisremercierlajeune,belle,charmanteetintelligenteAnne-Sophiequia toujourssumesoutenir. C’estàellequejedédiecetravail. ii Contents Remerciements i Contents iii Introduction v Currentpracticesinbitextalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Issuesandchallenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Improvingalignmentswithdiscriminativetechniques . . . . . . . . . . . . . . . . . . vii I Bitext Alignment 1 1 TheAlignmentProblem: AnOverview 3 1.1 BitextAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 TranslationandAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 IdentifyingtheTranslationUnit . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1.1 Meaning-languageinterface . . . . . . . . . . . . . . . . . . . . 4 Wordsandconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Wordlexicalambiguity . . . . . . . . . . . . . . . . . . . . . . . . 5 Wordorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1.2 Translationstrategy . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 TranslationUnitsandAlignmentDifficulty . . . . . . . . . . . . . . . . . 6 1.2.3 TranslationUnitandAlignment-ContextBound . . . . . . . . . . . . . . 7 1.3 AlignmentGranularity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 DocumentAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.2 SentenceAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.3 Sub-sententialAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3.1 Wordalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3.2 Phrasealignment . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.3.3 Structureandtreealignment . . . . . . . . . . . . . . . . . . . . 11 1.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 AGenericFrameworkforAlignment . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 AlignmentSpaceandConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1 SegmentConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1.1 Contiguityconstraints . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.1.2 Lengthconstraints . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.1.3 Structuralconstraints . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2 AlignmentConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2.1 Structuralconstraints . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2.2 Rangeconstraint . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.2.3 Functionalconstraints. . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.2.4 Bijectivityconstraints . . . . . . . . . . . . . . . . . . . . . . . . 17 iii Contents 1.7 EvaluationMethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7.1 IntrinsicMeasures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7.1.1 AlignmentErrorRate(AER) . . . . . . . . . . . . . . . . . . . . 17 1.7.1.2 BalancedF-measure . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.1.3 Otherword-levelmeasures . . . . . . . . . . . . . . . . . . . . . 18 1.7.1.4 Phrase-levelmeasures . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.2 ExtrinsicMeasures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.3 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2 AlignmentModels 23 2.1 Word-BasedAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 AsymmetricOne-to-ManyMethods . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 HeuristicAlignments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.2 UnsupervisedGenerativeSequenceModels . . . . . . . . . . . . . . . . 27 2.2.2.1 ConditionalBayesiannetworks . . . . . . . . . . . . . . . . . . 27 Parameterestimation . . . . . . . . . . . . . . . . . . . . . . . . . 28 Expectation-Maximization(EM) . . . . . . . . . . . . . . . . . . . 29 IBMmodel1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 30 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 IBMModel2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 HiddenMarkovModel(HMM)alignment . . . . . . . . . . . . . 31 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 31 IBMmodel3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 32 IBMmodel4andbeyond . . . . . . . . . . . . . . . . . . . . . . . 33 Locallog-linearparameterization . . . . . . . . . . . . . . . . . . 33 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.2.2 ConditionalRandomFields . . . . . . . . . . . . . . . . . . . . 34 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Unsupervisedparameterestimation . . . . . . . . . . . . . . . . . 35 2.2.3 SupervisedDiscriminativeSequenceModels . . . . . . . . . . . . . . . . 35 2.2.3.1 Maximumentropymodels . . . . . . . . . . . . . . . . . . . . . 35 2.2.3.2 ConditionalRandomFields . . . . . . . . . . . . . . . . . . . . 36 Supervisedparameterestimation . . . . . . . . . . . . . . . . . . 36 2.2.3.3 Large-Marginmethods . . . . . . . . . . . . . . . . . . . . . . . 37 2.3 SymmetricMany-to-ManyMethods . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.1 SymmetrizationandAlignmentCombination . . . . . . . . . . . . . . . 38 2.3.1.1 Symmetrizationheuristics . . . . . . . . . . . . . . . . . . . . . 38 Grow-diag-final-and(GDFA) . . . . . . . . . . . . . . . . . . . . . 38 Generalizingthesymmetrization . . . . . . . . . . . . . . . . . . . 39 Application-drivencombination . . . . . . . . . . . . . . . . . . . 39 2.3.1.2 Agreementconstraints . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.1.3 Discriminativecombination . . . . . . . . . . . . . . . . . . . . 40 2.3.2 WeightedMatrixBasedMethods . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.2.1 MinimumBayes-riskdecoding . . . . . . . . . . . . . . . . . . 41 2.3.2.2 One-to-manyconstraints . . . . . . . . . . . . . . . . . . . . . . 41 2.3.2.3 One-to-oneconstraints . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.2.4 Alignmentasassignment . . . . . . . . . . . . . . . . . . . . . . 42 2.3.2.5 Alignmentasmatrixfactorization . . . . . . . . . . . . . . . . . 42 2.3.3 GenerativeMany-to-ManyModels . . . . . . . . . . . . . . . . . . . . . . 42 iv Contents 2.3.4 GlobalDiscriminativeModels . . . . . . . . . . . . . . . . . . . . . . . . 42 2.3.4.1 CRF-basedmatrixmodeling . . . . . . . . . . . . . . . . . . . . 43 2.3.4.2 Othermodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4 SyntacticandHierarchicalAlignments. . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.1 InversionTransductionGrammars . . . . . . . . . . . . . . . . . . . . . . 45 2.4.2 parameterizationandLearning . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4.3 SyntacticConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.4.4 OtherSyntax-BasedModels . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5 Phrase-BasedAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.1 Bisegmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.1.1 Generativemodels . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Hiddensemi-Markovmodels . . . . . . . . . . . . . . . . . . . . . 49 Thedegeneracyproblem . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.1.2 Bayesianmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5.1.3 Discriminativemodels . . . . . . . . . . . . . . . . . . . . . . . 51 2.5.2 GeneralizedPhraseAlignment . . . . . . . . . . . . . . . . . . . . . . . . 51 2.5.2.1 Extractionheuristics . . . . . . . . . . . . . . . . . . . . . . . . . 51 Thestandardapproach . . . . . . . . . . . . . . . . . . . . . . . . 51 Weightedphrase-basedmatrix . . . . . . . . . . . . . . . . . . . . 52 2.5.2.2 Translationspotting . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5.2.3 Discriminativemodels . . . . . . . . . . . . . . . . . . . . . . . 53 2.6 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6.1 Type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6.2 Indicatorsofalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.6.3 Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3 PhrasebasedSMT 59 3.1 Phrase-BasedTranslationModel . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.2 ModelingandParameterEstimation . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.1 DiscriminativeTranslationModels . . . . . . . . . . . . . . . . . . . . . . 61 3.2.2 BilexiconInduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.3 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.4 ThePhraseTable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.5 LearninginDiscriminativeModels . . . . . . . . . . . . . . . . . . . . . 64 3.3 Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 EvaluatingMachineTranslation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 II Improving Alignment with Discriminative Learning Techniques for Sta- tistical Machine Translation 69 ResearchStatement 71 4 MaxEntforWord-BasedAlignmentModels 75 4.1 WordAlignmentasaStructuredPredictionProblem . . . . . . . . . . . . . . . 76 4.2 TheMaximumEntropyFramework . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3 MinimumBayes-RiskDecoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4 ParameterEstimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 TheSetofInputLinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.6 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.6.1 WordFeatures. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 v Contents 4.6.2 AlignmentMatrixFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.6.3 PartitioningFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.7 StackedInference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.7.1 TheStackingAlgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.7.2 AK-foldSelectionProcess. . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.7.3 StackingforWordAlignment . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.8 ExperimentalMethodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.1 ExperimentalSetupandData . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.2 ArabicPre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.3 RemappingsAlignments . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.9 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.9.1 ComparisontoGenerative“Viterbi”Alignments . . . . . . . . . . . . . 86 4.9.1.1 Baselines: IBMandHMMmodels. . . . . . . . . . . . . . . . . 86 4.9.1.2 MaxEntandstacking . . . . . . . . . . . . . . . . . . . . . . . . 87 4.9.2 PruningandOracleStudy . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.9.3 DiscriminativeTrainingSetSize . . . . . . . . . . . . . . . . . . . . . . . 88 4.9.4 FeaturesAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.9.4.1 Firstfeaturegroup. . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.9.4.2 Secondfeaturegroup . . . . . . . . . . . . . . . . . . . . . . . . 90 4.9.5 Precision-RecallBalance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.6 Regularization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.7 SearchSpaceandWindowSize . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.8 InputAlignmentsQuality . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.9.9 ModelandFeatureSelection . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.9.10 AComparisonwithWeightedMatrixBasedAlignments . . . . . . . . . 93 4.9.10.1 ViterbiIBMandHMMmodels . . . . . . . . . . . . . . . . . . 93 4.9.10.2 N-bestheuristic . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.9.10.3 PostCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.9.10.4 CRFs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.9.10.5 MaxEnt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.10 ErrorAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.11 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5 MaxEntAlignmentsinSMT 99 5.1 PhraseTableConstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.1.1 AGeneralFramework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.1.2 Viterbi-Based(Standard)Approach . . . . . . . . . . . . . . . . . . . . . 101 5.1.3 WAM-basedInstantiation . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.1.3.1 Evaluationandcountingfunctions . . . . . . . . . . . . . . . . 102 5.1.3.2 Alignmentconstraintsandselectioncriteria . . . . . . . . . . . 103 5.1.3.3 Translationmodelscores . . . . . . . . . . . . . . . . . . . . . . 103 5.2 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2.1 Viterbi-BasedExtraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.2.1.1 Largescalesystems . . . . . . . . . . . . . . . . . . . . . . . . . 104 MaxEntvs. IBMandHMMmodels . . . . . . . . . . . . . . . . . 104 CorrelationbetweenAERandBLEU . . . . . . . . . . . . . . . . 105 5.2.1.2 Astudyofalignmentcharacteristics . . . . . . . . . . . . . . . 107 5.2.2 WeightedMatrixBasedExtraction . . . . . . . . . . . . . . . . . . . . . . 108 5.2.2.1 Resultsanddiscussion . . . . . . . . . . . . . . . . . . . . . . . 109 MGIZA++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 N-bestWAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 PostCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 vi Contents CRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 MaximumEntropy(MaxEnt) . . . . . . . . . . . . . . . . . . . . . 110 5.2.2.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6 SupervisedPhraseAlignmentwithSCC 113 6.1 SupervisedPhrase-PairExtraction . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.1.1 Single-ClassClassification(SCC) . . . . . . . . . . . . . . . . . . . . . . . 115 6.1.2 PhraseTranslationModelTrainingAlgorithm . . . . . . . . . . . . . . . 115 6.1.3 BalancingPrecisionandRecall . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2 LearningtheSingle-ClassClassifier . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2.1 One-ClassSVM(OC-SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2.2 MappingConvergence(MC) . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.2.3 PˆP MeasureandClassifierSelection . . . . . . . . . . . . . . . . . . . . . 119 6.3 OracleDecoderforBuildingtheSetofPositiveExamples . . . . . . . . . . . . 121 6.4 FeatureFunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.4.1 WeightedAlignmentMatrix(WAM) . . . . . . . . . . . . . . . . . . . . . 122 6.4.2 WordAlignments(WA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4.3 BilingualandMonolingualInformation(BI,MI) . . . . . . . . . . . . . . 122 6.4.4 StatisticalSignificance(Pval) . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4.5 Morpho-SyntacticSimilarity(MS) . . . . . . . . . . . . . . . . . . . . . . 123 6.4.6 LexicalProbability(LEX) . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5.1 DataandExperimentalSetup . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5.2 ClassificationPerformance: PˆP . . . . . . . . . . . . . . . . . . . . . . . . 124 6.5.3 TranslationPerformance: BLEU . . . . . . . . . . . . . . . . . . . . . . . 125 6.5.3.1 Phrasepairsscoringmethod . . . . . . . . . . . . . . . . . . . . 125 6.5.3.2 Usingadditionalphrasetablefeatures . . . . . . . . . . . . . . 126 6.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Conclusion 129 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 PublicationsbytheAuthor 133 Bibliography 135 vii

Description:
Discriminative Alignment Models For Statistical Machine Translation. Other .. 2.2.3 Supervised Discriminative Sequence Models . Bibliography.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.