UNIVERSITY OF PARIS-SUD DOCTORAL SCHOOL OF COMPUTER SCIENCE P H D T H E S I S to obtain the title of Ph.D. of Science of the University of Paris-Sud Discipline : Computer Science Defended by omeh Nadi T Discriminative Alignment Models For Statistical Machine Translation von Thesis advisor: François Y llauzen Thesis co-advisor: Alexandre A prepared at LIMSI-CNRS, TLP Team 27 2012 defended on June , Jury: President: Anne Vilnat - Université Paris-Sud Reviewers: Eric Gaussier - Université Joseph Fourier anglais Philippe L - Université de Montréal Examinator: Hermann NEY - RWTH Aachen Invited: Nasredine Semmar - Commissariat à l’Energie Atomique Advisor: François Yvon - Université Paris-Sud Co-advisor: Alexandre Allauzen - Université Paris-Sud Remerciements A l’issue de ces quatre dernières années de travail, je souhaiterais remercier toutes les personnesquim’ontpermis,deprèsoudeloin,demeneràbiencetravail. Magratitudevatoutd’abordàmondirecteurdethèse,MonsieurFrançoisYvon,Professeur del’UniversitéParis-Sud. Jeleremerciedem’avoirconfiécetravailderechercheetdem’avoir guidé, encouragé, conseillé, tout en me laissant une grande liberté de recherche tout au longdecettethèse. JetienségalementàremercierMonsieurAlexandreAllauzen,Maîtrede Conférencedel’UniversitéParis-Sudetco-encadrantdecettethèse,poursadisponibilité,ses idées et son aide au quotidien. Au-delà de leur rigueur scientifique, je voudrais saluer du fondducoeurleursqualitéshumainesquiontfacilitémonintégrationauseinduLIMSIeten France. Mes remerciements s’adressent également à Madame Anne Vilnat, Professeur de l’Université Paris-Sud, pour m’avoir fait l’honneur de présider mon jury de thèse. Je suis aussitrèsreconnaissantàMonsieurEricGaussier,Professeurdel’UniversitéJosephFourier,et MonsieurPhilippeLanglais,Professeurdel’UniversitédeMontréal,d’avoiracceptédejuger cetravailetd’enêtrelesrapporteurs. Enfin,j’aimeraisremercierlesautresmembresdujury, MonsieurHermannNey,Professeurdel’UniversitéRWTHAachen,etMonsieurNasredine Semmar,ChargédeRechercheauCEA,pourleursquestions,remarquesetsuggestions. CetravailaétéeffectuéauLaboratoired’informatiquepourlaMécaniqueetlesSciences de l’ingénieur (LIMSI-CNRS) dont je remercie le directeur, Monsieur Patrick Le Quéré, de m’avoirouvertlesportes. JeremercieégalementMonsieurJean-LucGauvain,Directeurde RechercheCNRS,dem’avoiraccueilliauseindesonéquipe,TraitementduLangageParlé (TLP). J’aieulachanceaucoursdemathèsedepartagerlebureaudeGuillaumeWisniewski,qui estdevenuplusqu’uncollèguepourmoi. Asoncontact,etgrâceàsesnombreusesqualités (ycompriscelledeDJ),jepenseavoirénormémentappris,passeulementsurl’apprentissage statistique, mais aussi sur la vie. Grâce à lui, venir au bureau tous les matins (ou presque) étaitungrandplaisir,merciWichnou. J’aimeraisparticulièrementremercierAurélienMaxpoursonaccueilchaleureuxdèsmon premierjourauLIMSI,poursagentillesse,sonsoutiencontinu,sonintérêtdansmontravail, ainsiquepourlesnombreusesdiscussionsenrichissantesquenousavonseues. Jetiensàremercierinfinimenttousmescollèguesenseignantsàl’InstitutUniversitairede Technologie(IUT)d’Orsaypourleurconfiancependantmesannéesdemonitoratetd’ATER. MesremerciementvontnotammentàmatutriceCécileBalkanskipoursonaideprécieuxau débutduchemin,etégalementàHélèneBonneau-Maynardpourcescomplimentsquim’ont toujoursfaitplaisir. Grâceàl’ensembledemescollèguesdetravailauLIMSI,j’aiputravaillerdansuncadre exceptionnellement agréable. Je pense particulièrement à Thiago qui m’a appris comment vivre sans trop s’inquiéter, Ilya et Nadège sur qui j’ai toujours pu compter, Thomas pour son suivi méticuleux de l’état d’avancement de ma thèse, Penny pour les promenades au soleil,Houdalaspécialistedel’administrationfrançaiseetl’organisatricedesoutenances,et à Artem, Cécile, Clément, Eric, HaiSon, Hervé, Marianna, Nicolas et Souhir. Merci à tous i Remerciements pourvotrebonnehumeur,pournosséancesderiresetpournosdiscussionsautourdecafés, beaucoupdecafés. Ces remerciements ne seraient pas complets sans une pensée pour mes amis qui n’ont cessédemerappelerqu’ilexistaitunmondeàl’extérieurduLIMSI.Jepensenotammentà Lynn, ma meilleure amie, et à son prince charmant Nicolas. Un grand merci également à CharlotteetTonypourm’avoirchangélesidéesquandillefallait,etàChristinepourm’avoir apprismespremiersmotsd’allemand. Mespenséeslespluschaleureusesvontparailleursà mesmeilleursamisdeDamas,particulièrementàDani,Louay,Mike,Micho,Tonyetenfin Lana pour leurs encouragements et les fous rires que nous continuons à avoir malgré la distanceetlescirconstancesactuelles. J’aimeraisenfinremerciermoncamaradeJean-Baptiste poursonsoutiendanstouteslesbataillesquenousavonsmenéesensemble. JevoudraisexprimermaprofondereconnaissanceàmesparentsNaylaetNazihetàma petitesoeurAnsa,quim’ontencouragétoutaulongdemesétudesavectendresseetmalgré touteslesdifficultésqu’entraîneladistance. J’espèrequ’ilsontfiersdemoi. Pourfinir,j’aimeraisremercierlajeune,belle,charmanteetintelligenteAnne-Sophiequia toujourssumesoutenir. C’estàellequejedédiecetravail. ii Contents Remerciements i Contents iii Introduction v Currentpracticesinbitextalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Issuesandchallenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Improvingalignmentswithdiscriminativetechniques . . . . . . . . . . . . . . . . . . vii I Bitext Alignment 1 1 TheAlignmentProblem: AnOverview 3 1.1 BitextAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 TranslationandAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 IdentifyingtheTranslationUnit . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1.1 Meaning-languageinterface . . . . . . . . . . . . . . . . . . . . 4 Wordsandconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Wordlexicalambiguity . . . . . . . . . . . . . . . . . . . . . . . . 5 Wordorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1.2 Translationstrategy . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 TranslationUnitsandAlignmentDifficulty . . . . . . . . . . . . . . . . . 6 1.2.3 TranslationUnitandAlignment-ContextBound . . . . . . . . . . . . . . 7 1.3 AlignmentGranularity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 DocumentAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.2 SentenceAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.3 Sub-sententialAlignment . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3.1 Wordalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3.2 Phrasealignment . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.3.3 Structureandtreealignment . . . . . . . . . . . . . . . . . . . . 11 1.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 AGenericFrameworkforAlignment . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 AlignmentSpaceandConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1 SegmentConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1.1 Contiguityconstraints . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.1.2 Lengthconstraints . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.1.3 Structuralconstraints . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2 AlignmentConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2.1 Structuralconstraints . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.2.2 Rangeconstraint . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.2.3 Functionalconstraints. . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.2.4 Bijectivityconstraints . . . . . . . . . . . . . . . . . . . . . . . . 17 iii Contents 1.7 EvaluationMethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7.1 IntrinsicMeasures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7.1.1 AlignmentErrorRate(AER) . . . . . . . . . . . . . . . . . . . . 17 1.7.1.2 BalancedF-measure . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.1.3 Otherword-levelmeasures . . . . . . . . . . . . . . . . . . . . . 18 1.7.1.4 Phrase-levelmeasures . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.2 ExtrinsicMeasures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.3 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2 AlignmentModels 23 2.1 Word-BasedAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 AsymmetricOne-to-ManyMethods . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 HeuristicAlignments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.2 UnsupervisedGenerativeSequenceModels . . . . . . . . . . . . . . . . 27 2.2.2.1 ConditionalBayesiannetworks . . . . . . . . . . . . . . . . . . 27 Parameterestimation . . . . . . . . . . . . . . . . . . . . . . . . . 28 Expectation-Maximization(EM) . . . . . . . . . . . . . . . . . . . 29 IBMmodel1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 30 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 IBMModel2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 HiddenMarkovModel(HMM)alignment . . . . . . . . . . . . . 31 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 31 IBMmodel3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 InferenceandEM . . . . . . . . . . . . . . . . . . . . . . . . . 32 IBMmodel4andbeyond . . . . . . . . . . . . . . . . . . . . . . . 33 Locallog-linearparameterization . . . . . . . . . . . . . . . . . . 33 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.2.2 ConditionalRandomFields . . . . . . . . . . . . . . . . . . . . 34 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Unsupervisedparameterestimation . . . . . . . . . . . . . . . . . 35 2.2.3 SupervisedDiscriminativeSequenceModels . . . . . . . . . . . . . . . . 35 2.2.3.1 Maximumentropymodels . . . . . . . . . . . . . . . . . . . . . 35 2.2.3.2 ConditionalRandomFields . . . . . . . . . . . . . . . . . . . . 36 Supervisedparameterestimation . . . . . . . . . . . . . . . . . . 36 2.2.3.3 Large-Marginmethods . . . . . . . . . . . . . . . . . . . . . . . 37 2.3 SymmetricMany-to-ManyMethods . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.1 SymmetrizationandAlignmentCombination . . . . . . . . . . . . . . . 38 2.3.1.1 Symmetrizationheuristics . . . . . . . . . . . . . . . . . . . . . 38 Grow-diag-final-and(GDFA) . . . . . . . . . . . . . . . . . . . . . 38 Generalizingthesymmetrization . . . . . . . . . . . . . . . . . . . 39 Application-drivencombination . . . . . . . . . . . . . . . . . . . 39 2.3.1.2 Agreementconstraints . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.1.3 Discriminativecombination . . . . . . . . . . . . . . . . . . . . 40 2.3.2 WeightedMatrixBasedMethods . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.2.1 MinimumBayes-riskdecoding . . . . . . . . . . . . . . . . . . 41 2.3.2.2 One-to-manyconstraints . . . . . . . . . . . . . . . . . . . . . . 41 2.3.2.3 One-to-oneconstraints . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.2.4 Alignmentasassignment . . . . . . . . . . . . . . . . . . . . . . 42 2.3.2.5 Alignmentasmatrixfactorization . . . . . . . . . . . . . . . . . 42 2.3.3 GenerativeMany-to-ManyModels . . . . . . . . . . . . . . . . . . . . . . 42 iv Contents 2.3.4 GlobalDiscriminativeModels . . . . . . . . . . . . . . . . . . . . . . . . 42 2.3.4.1 CRF-basedmatrixmodeling . . . . . . . . . . . . . . . . . . . . 43 2.3.4.2 Othermodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4 SyntacticandHierarchicalAlignments. . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.1 InversionTransductionGrammars . . . . . . . . . . . . . . . . . . . . . . 45 2.4.2 parameterizationandLearning . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4.3 SyntacticConstraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.4.4 OtherSyntax-BasedModels . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5 Phrase-BasedAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.1 Bisegmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.1.1 Generativemodels . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Hiddensemi-Markovmodels . . . . . . . . . . . . . . . . . . . . . 49 Thedegeneracyproblem . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.1.2 Bayesianmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5.1.3 Discriminativemodels . . . . . . . . . . . . . . . . . . . . . . . 51 2.5.2 GeneralizedPhraseAlignment . . . . . . . . . . . . . . . . . . . . . . . . 51 2.5.2.1 Extractionheuristics . . . . . . . . . . . . . . . . . . . . . . . . . 51 Thestandardapproach . . . . . . . . . . . . . . . . . . . . . . . . 51 Weightedphrase-basedmatrix . . . . . . . . . . . . . . . . . . . . 52 2.5.2.2 Translationspotting . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5.2.3 Discriminativemodels . . . . . . . . . . . . . . . . . . . . . . . 53 2.6 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6.1 Type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6.2 Indicatorsofalignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.6.3 Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3 PhrasebasedSMT 59 3.1 Phrase-BasedTranslationModel . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.2 ModelingandParameterEstimation . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.1 DiscriminativeTranslationModels . . . . . . . . . . . . . . . . . . . . . . 61 3.2.2 BilexiconInduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.3 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.4 ThePhraseTable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.5 LearninginDiscriminativeModels . . . . . . . . . . . . . . . . . . . . . 64 3.3 Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 EvaluatingMachineTranslation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 II Improving Alignment with Discriminative Learning Techniques for Sta- tistical Machine Translation 69 ResearchStatement 71 4 MaxEntforWord-BasedAlignmentModels 75 4.1 WordAlignmentasaStructuredPredictionProblem . . . . . . . . . . . . . . . 76 4.2 TheMaximumEntropyFramework . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3 MinimumBayes-RiskDecoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4 ParameterEstimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 TheSetofInputLinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.6 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.6.1 WordFeatures. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 v Contents 4.6.2 AlignmentMatrixFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.6.3 PartitioningFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.7 StackedInference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.7.1 TheStackingAlgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.7.2 AK-foldSelectionProcess. . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.7.3 StackingforWordAlignment . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.8 ExperimentalMethodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.1 ExperimentalSetupandData . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.2 ArabicPre-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.8.3 RemappingsAlignments . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.9 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.9.1 ComparisontoGenerative“Viterbi”Alignments . . . . . . . . . . . . . 86 4.9.1.1 Baselines: IBMandHMMmodels. . . . . . . . . . . . . . . . . 86 4.9.1.2 MaxEntandstacking . . . . . . . . . . . . . . . . . . . . . . . . 87 4.9.2 PruningandOracleStudy . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.9.3 DiscriminativeTrainingSetSize . . . . . . . . . . . . . . . . . . . . . . . 88 4.9.4 FeaturesAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.9.4.1 Firstfeaturegroup. . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.9.4.2 Secondfeaturegroup . . . . . . . . . . . . . . . . . . . . . . . . 90 4.9.5 Precision-RecallBalance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.6 Regularization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.7 SearchSpaceandWindowSize . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9.8 InputAlignmentsQuality . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.9.9 ModelandFeatureSelection . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.9.10 AComparisonwithWeightedMatrixBasedAlignments . . . . . . . . . 93 4.9.10.1 ViterbiIBMandHMMmodels . . . . . . . . . . . . . . . . . . 93 4.9.10.2 N-bestheuristic . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.9.10.3 PostCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.9.10.4 CRFs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.9.10.5 MaxEnt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.10 ErrorAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.11 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5 MaxEntAlignmentsinSMT 99 5.1 PhraseTableConstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.1.1 AGeneralFramework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.1.2 Viterbi-Based(Standard)Approach . . . . . . . . . . . . . . . . . . . . . 101 5.1.3 WAM-basedInstantiation . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.1.3.1 Evaluationandcountingfunctions . . . . . . . . . . . . . . . . 102 5.1.3.2 Alignmentconstraintsandselectioncriteria . . . . . . . . . . . 103 5.1.3.3 Translationmodelscores . . . . . . . . . . . . . . . . . . . . . . 103 5.2 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2.1 Viterbi-BasedExtraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.2.1.1 Largescalesystems . . . . . . . . . . . . . . . . . . . . . . . . . 104 MaxEntvs. IBMandHMMmodels . . . . . . . . . . . . . . . . . 104 CorrelationbetweenAERandBLEU . . . . . . . . . . . . . . . . 105 5.2.1.2 Astudyofalignmentcharacteristics . . . . . . . . . . . . . . . 107 5.2.2 WeightedMatrixBasedExtraction . . . . . . . . . . . . . . . . . . . . . . 108 5.2.2.1 Resultsanddiscussion . . . . . . . . . . . . . . . . . . . . . . . 109 MGIZA++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 N-bestWAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 PostCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 vi Contents CRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 MaximumEntropy(MaxEnt) . . . . . . . . . . . . . . . . . . . . . 110 5.2.2.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6 SupervisedPhraseAlignmentwithSCC 113 6.1 SupervisedPhrase-PairExtraction . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.1.1 Single-ClassClassification(SCC) . . . . . . . . . . . . . . . . . . . . . . . 115 6.1.2 PhraseTranslationModelTrainingAlgorithm . . . . . . . . . . . . . . . 115 6.1.3 BalancingPrecisionandRecall . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2 LearningtheSingle-ClassClassifier . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2.1 One-ClassSVM(OC-SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2.2 MappingConvergence(MC) . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.2.3 PˆP MeasureandClassifierSelection . . . . . . . . . . . . . . . . . . . . . 119 6.3 OracleDecoderforBuildingtheSetofPositiveExamples . . . . . . . . . . . . 121 6.4 FeatureFunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.4.1 WeightedAlignmentMatrix(WAM) . . . . . . . . . . . . . . . . . . . . . 122 6.4.2 WordAlignments(WA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4.3 BilingualandMonolingualInformation(BI,MI) . . . . . . . . . . . . . . 122 6.4.4 StatisticalSignificance(Pval) . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4.5 Morpho-SyntacticSimilarity(MS) . . . . . . . . . . . . . . . . . . . . . . 123 6.4.6 LexicalProbability(LEX) . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5.1 DataandExperimentalSetup . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.5.2 ClassificationPerformance: PˆP . . . . . . . . . . . . . . . . . . . . . . . . 124 6.5.3 TranslationPerformance: BLEU . . . . . . . . . . . . . . . . . . . . . . . 125 6.5.3.1 Phrasepairsscoringmethod . . . . . . . . . . . . . . . . . . . . 125 6.5.3.2 Usingadditionalphrasetablefeatures . . . . . . . . . . . . . . 126 6.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Conclusion 129 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 PublicationsbytheAuthor 133 Bibliography 135 vii
Description: