Statistical Machine Translation: From Single-Word Models to Alignment Templates Von der Fakulta¨t fu¨r Mathematik, Informatik und Naturwissenschaften der Rheinisch-Westfa¨lischen Technischen Hochschule Aachen zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften genehmigte Dissertation vorgelegt von Diplom–Informatiker Franz Josef Och aus Ebermannstadt Berichter: Universita¨tsprofessor Dr.–Ing. Hermann Ney Universita¨tsprofessor Dr.–Ing. Heinrich Niemann Tag der mu¨ndlichen Pru¨fung: Dienstag, 8. Oktober 2002 DieseDissertationistaufdenInternetseitenderHochschulbibliothekonlineverfu¨gbar. Wovonmannichtsprechenkann, daru¨bermußmanschweigen. LudwigWittgenstein,Tractatuslogico-philosophicus Acknowledgements An erster Stelle, mo¨chte ich mich bei meinem Doktorvater Prof. Dr.-Ing. Hermann Ney be- danken. SeinekonstanteUnterstu¨tzungundkonstruktiveKritikwarenvonunscha¨tzbarenWert. Weiterhin mo¨chteich mich bei Prof. Dr.-Ing. Heinrich Niemanndafu¨r bedanken, die Rolle des Zweitgutachtersu¨bernommenzuhaben. Besonderer Dank geht an alle meine Kollegen am Lehrstuhl fu¨r Informatik VI und allen Forscherkollegen von anderen Instituten mit denen ich im Laufe der letzten viereinhalb Jahre viele hilfreiche Diskussionen fu¨hren durfte und von denen ich zahlreiche Hilfestellungen er- halten habe: Christoph, Daniel, Florian, Gregor, Hassan, Ismael, Kevin, Klaus, Maja, Max, Michael,Nicola,Oliver,Ralf,Richard,Shankar,Shahram,Sonja,Stephan,Stephan,Wolfgang, undvielenweiteren. Ichmo¨chtemeinenElterndafu¨rdanken,daßsiemirdasStudiumderInformatikermo¨glichtund michaufmeinemWegimmerunterstu¨tzthaben. Ganz besonderen Dank mo¨chte ich Dimitra aussprechen, die mit ihrem Versta¨ndnis, ihren Kochku¨nstenundihrerZuneigungvielfa¨ltigundentscheidendamErfolgdieserArbeitbeteiligt war. Kurzfassung In diesear Arbeit werden neue Ansa¨tze zur Sprachu¨bersetzung basierend auf statistischen Verfahen vorgestellt. Als Verallgemeinerung zu dem u¨blicherweise verwendeten Source- ChannelModellwirdeinallgemeineresModellbasierendaufdemMaximum-Entropie-Prinzip vorgeschlagen. Es werden verschiedene Verfahren zur Bestimmung von Wort-Alignments unter Nutzung von statistischen und heuristischen Modellen beschrieben. Dabei werden insbesondere ver- schiedeneGla¨ttungsverfahren,MethodenzurIntegrationzusa¨tzlicherLexikaundTrainingsver- fahren verglichen. Eine detaillierte Bewertung der Alignment-Qualita¨t wird durchgefu¨hrt in- dem die automatisch erstellten Wort-Alignmentsmit manuell erstellten Alignmentsverglichen werden. Aufbauend auf diesen grundlegenden einzelwortbasierten Alignment-Modellen wird dann ein phrasenbasiertes statistisches U¨bersetzungsmodell, das Alignment Template Modell, vorgeschlagen. Fu¨r dieses Modell wird ein Trainingsverfahren und ein effizienter Suchalgo- rithmusbasierendaufdemPrinzipderdynamischerProgrammierungundStrahlsucheentwick- elt. Weiterhin werden fu¨r zwei spezielle Anwendungsszenarien (interaktive U¨bersetzung und U¨bersetzungbasierendaufverschiedenenmehrsprachigenQuelltexten)spezielleSuchverfahren entwickelt. Der beschriebene U¨bersetzungsansatzwurdegetestetfu¨r dasdeutsch-englischeVerbmobilKo- rpus, das franzo¨sisch-englische Hansards Korpus und fu¨r chinesisch-englische Nachrichten- texte. Das entwickelte System erzielt dabei ha¨ufig deutlich bessere Ergebnisse als alternative Verfahren zurmaschinellenU¨bersetzung. Abstract In this work, new approaches for machine translation using statistical methods are described. In addition to the standard source-channel approach to statistical machine translation, a more generalapproachbasedonthemaximumentropyprincipleispresented. Variousmethodsforcomputingsingle-wordalignmentsusingstatisticalorheuristicmodelsare described. Various smoothing techniques, methods to integrate a conventional dictionary and trainingmethodsare analyzed. A detailedevaluationof thesemodelsis performed by compar- ingtheautomaticallyproducedwordalignmentwithamanuallyproducedreferencealignment. Based on these fundamental single-word based alignment models, a new phrase-based trans- lation model—the alignment template model—is suggested. For this model, a training and an efficient search algorithm is developed. For two specific applications (interactive translation andmulti-sourcetranslation)specificsearch algorithmsaredeveloped. ThesuggestedmachinetranslationapproachhasbeentestedfortheGerman-EnglishVerbmobil task, the French-English Hansards task and for Chinese-English news text translation. Often, the obtained results are significantly better than those obtained with alternative approaches to machinetranslation. Contents 1 Introduction 1 1.1 MachineTranslation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 ClassificationofMTSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 StatisticalMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3.1 Source–Channel Model . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3.2 DirectMaximumEntropyTranslationModel . . . . . . . . . . . . . . 6 1.3.3 AlignmentModelsandMaximumApproximation . . . . . . . . . . . 7 1.3.4 TasksinStatisticalMT . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.5 AdvantagesoftheStatisticalApproachforMT . . . . . . . . . . . . . 9 1.4 RelatedWork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Scientific Goals 13 3 System Overview 15 3.1 DevelopmentCycle ofStatisticalMTSystems . . . . . . . . . . . . . . . . . . 15 3.2 TrainingCorpusCollection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4 LanguageModeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5 MTEvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4 StatisticalAlignmentModels 23 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1.1 ProblemDefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.3 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.2 ReviewofAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.1 General Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.2 StatisticalAlignmentModels . . . . . . . . . . . . . . . . . . . . . . . 29 4.2.3 Fertility-basedAlignmentModels . . . . . . . . . . . . . . . . . . . . 31 4.2.4 ComputationoftheViterbiAlignment . . . . . . . . . . . . . . . . . . 34 4.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.1 EMalgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.2 IsDeficiencyaProblem? . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.3 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.4 BilingualDictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.4 Symmetrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 i ii CONTENTS 4.5 EvaluationMethodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.6 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5 Monotone Phrase-Based Translation 53 5.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.2 BilingualContiguousPhrases . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.3 Example-BasedMTwithBilingualPhrases . . . . . . . . . . . . . . . . . . . 56 6 Alignment Templates 59 6.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 6.1.1 Phrase LevelAlignment . . . . . . . . . . . . . . . . . . . . . . . . . 60 6.1.2 WordLevelAlignment: AlignmentTemplates . . . . . . . . . . . . . . 60 6.2 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 6.3 Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.3.1 General Concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.3.2 Search Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.3.3 Structure ofSearch Graph . . . . . . . . . . . . . . . . . . . . . . . . 66 6.3.4 Search Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6.3.5 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.4 HeuristicFunction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.5 MaximumEntropyModelingofAlignmentTemplates . . . . . . . . . . . . . 74 6.5.1 Feature Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.5.2 TrainingwithGISAlgorithm . . . . . . . . . . . . . . . . . . . . . . . 76 7 BilingualWordClasses 77 7.1 MonolingualWordClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 77 7.2 BilingualWordClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 7.3 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 7.4 Results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 8 ResultsofAlignmentTemplate Approach 83 8.1 VERBMOBIL Task . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8.1.1 VERBMOBIL TrainingandTestEnvironment . . . . . . . . . . . . . . 83 8.1.2 EffectofVariousModelParameters . . . . . . . . . . . . . . . . . . . 86 8.1.3 Official VERBMOBIL Evaluation . . . . . . . . . . . . . . . . . . . . . 95 8.1.4 ComparisonwithBaselineAlgorithms . . . . . . . . . . . . . . . . . . 100 8.2 Resultsonthe HANSARDS task . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.3 ResultsonChinese–English . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 9 StatisticalMulti-Source Translation 111 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 9.2 StatisticalModeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 9.3 Results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 9.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

