Leitfaden der Informatik Gernot A. Fink Mustererkennung mit Markov-Modellen Leitfaden der Informatik Herausgegeben von Prof. Dr. Bernd Becker, Freiburg Prof. Dr. Friedemann Mattern, Zurich Prof. Dr. Heinrich Muller, Dortmund Prof. Dr. Wilhelm Schafer, Paderborn Prof. Dr. Dorothea Wagner, Karlsruhe Prof. Dr. Ingo Wegener, Dortmund Die Leitfaden der Informatik behandeln • Themen aus der Theoretischen, Praktischen und Technischen Informatik entsprechend dem aktuel len Stand der Wissenschaft in einer systematischen und fundierten Darstellung des jeweiligen Gebietes . • Methoden und Ergebnisse der Informatik, aufgearbeitet und dargestellt aus Sicht der Anwen- dungen in einer fOr Anwender verstandlichen, exakten und prazisen Form. Die Bande der Reihe wenden sich zum einen als Grundlage und Erganzung zu Vorlesungen der Infor matik an Studierende und Lehrende in Informatik-Studiengangen an Hochschulen, zum anderen an "Praktiker", die sich einen Oberblick Ober die Anwendungen der Informatik (-Methoden) verschaffen wollen; sie dienen aber auch in Wirtschaft, Industrie und Verwaltung tatigen Informatikern und Infor matikerinnen zur Fortbildung in praxisrelevanten Fragestellungen ihres Faches. Gernot A. Fink Mustererkennung mit Markov-Modellen Theorie - Praxis - Anwendungsgebiete Teubner B. G. Teubner Stuttgart· Leipzig' Wiesbaden Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliografische Daten sind im Internet uber <http://dnb.ddb.de> abrufbar. Dr.-Ing. habil. Gernot A. Fink Geboren 1965 in Nurnberg, von 1985 bis 1991 Studium der Informatik and der Friedrich-Alexander Universitat in Erlangen. Seit 1991 wissenschaftlicher Mitarbeiter in der Arbeitsgruppe Angewandte Informatik an der Technischen Fakultat der Universitat Bielefeld. Promotion 1995 uber Integration von Spracherkennung und Sprachverstehen. 2002 Habilitation im Fach Angewandte Informatik. Seine Forschungsinteressen umfassen die automatische Sprach- und Handschrifterkennung, das Verstehen gesprochener Sprache, die multi-modale Mensch-Maschine-Interaktion sowie die statistische Analyse genetischer Sequenzen. 1. Auflage Oktober 2003 Aile Rechte vorbehalten © B. G. Teubner Verlag / GWV Fachverlage GmbH, Wiesbaden 2003 Der B. G. Teubner Verlag ist ein Unternehmen der Fachverlagsgruppe BertelsmannSpringer. www.teubner.de Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschutzt. Jede Verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Ver lags unzulassig und strafbar. Das gilt insbesondere fUr Vervielfaltigungen, Obersetzun gen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden durften. Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Gedruckt auf saurefreiem und chlorfrei gebleichtem Papier. I SBN-13:978-3-519-00453-0 e-ISBN-13:978-3-322-80065-7 DOl: 10.1007/978-3-322-80065-7 Vorwort Die Entwicklung von Mustererkennungsmethoden auf der Basis sogenannter Markov-Modelle ist eng verknupft mit dem technologischen Fortschritt im Bereich der automatischen Spracherkennung. Allerdings kommen Markov-Ketten- und Hidden-Markov-Modelle heute auch in vielen anderen Anwendungsfeldem zum Einsatz, wo es urn die Modellierung und Analyse zeitlich organisierter Daten wie z.B. genetischer Sequenzen oder handschriftlicher Texte geht. Trotzdem werden Markov Modelle in Monographien praktisch ausschlieBlich im Kontext der automatischen Spracherkennung behandelt und nicht als ein allgemeines, vieWiltig einsetzbares Instrumentarium der statistischen Mustererkennung. Dieses Buch stellt dagegen den Formalismus der Markov-Ketten- und Hidden-Markov-Modelle in den Mittelpunkt der Betrachtungen. Am Beispiel der drei Hauptanwendungsgebiete dieser Techno logie - namlich der automatischen Spracherkennung, der Handschrifterkennung sowie der Ana lyse genetischer Sequenzen - wird gezeigt, we1che Anpassungen an das jeweilige Einsatzgebiet erforderlich sind und wie diese in aktuellen Mustererkennungssystemen umgesetzt werden. Neben der Behandlung der theoretischen Grundlagen der Modellbildung liegt ein wesentlicher Schwer punkt des vorliegenden Werks auf der Darstellung der fUr den erfolgreichen praktischen Einsatz unabdingbaren algorithmischen Losungen. Daher wendet sich dieses Buch sowohl an Fachleute aus dem Bereich Mustererkennung als auch an Studentinnen und Studenten mit einem entsprechenden Studienschwerpunkt, die sich mit Fragen der Sprach- oder Schrifterkennung bzw. der Bioinforma tik oder vergleichbaren Problemstellungen beschiiftigen und ein tiefergehendes Verstandnis fUr den Einsatz statistischer Methoden in diesen Bereichen erwerben mochten. Entstanden ist dieses Werk als Habilitationsschrift in der Arbeitsgruppe Angewandte Informatik an der Technischen Fakultat der Universitat Bielefeld. Mein besonderer Dank gilt Prof. Dr.-Ing. Hein rich Niemann (Universitat Erlangen), der im Studium mein Interesse an Mustererkennung geweckt hat, und meinem Betreuer Prof. Dr.-Ing. Gerhard Sagerer, der mir die Moglichkeit gegeben hat, im Rahmen vieler interessanter Projekte in dieses Forschungsfeld hineinzuwachsen. Ihnen beiden und Prof. Dr. Dieter Metzing danke ich daruber hinaus fUr die Erstellung der Gutachten. Ganz herzlich bedanken mochte ich mich auch bei all jenen, die mich bei der Erstellung dieses Buchs durch Anregungen, Kritik und Hilfe bei der technischen AusfUhrung untersttitzt haben. Da zu zahlen insbesondere meine Kollegen Prof. Dr.-Ing. Franz Kummert, Thomas Plbtz, Markus Wienecke und Dr.-Ing. Britta Wrede. Fur die kompetente Beratung zu Fragen der Bioinformatik und speziell dem Themenkomplex der Analyse biologischer Sequenzen danke ich Kerstin Koch und Steffen Neumann. Martin Ellermann gilt mein Dank fur die Unterstutzung bei der Erstel lung von Graphiken sowie der umfangreichen und teilweise nichttrivialen Literaturrecherche und -aufbereitung. Bielefeld, im August 2003 Cernot A. Fink Meinen Eltern Inhalt 1 Einleitung 13 1.1 Thematischer Kontext 14 1.2 Funktionsprinzipien von Markov-Modellen 15 1.3 Zielsetzung und Aufbau 17 2 Anwendungen 19 2.1 Sprache 19 2.2 Schrift . 25 2.3 Biologische Sequenzen . 33 2.4 Ausblick. . . . . . . . 37 I Theorie 39 3 Grundlagen der Statistik 41 3.1 Zufallsexperiment, Ereignis und Wahrscheinlichkeit 41 3.2 Zufallsvariable und Wahrscheinlichkeitsverteilungen 43 3.3 Parameter von Wahrscheinlichkeitsverteilungen .. 45 3.4 Normalverteilungen und Mischverteilungsmodelle 46 3.5 Stochastische Prozesse und Markov-Ketten 47 3.6 Prinzipien der Parameterschatzung . 49 3.6.1 Maximum-Likelihood-Schatzung 49 3.6.2 Maximum-a-posteriori-Schatzung 51 3.7 Literaturhinweise . . . 51 4 Vektorquantisierung 53 4.1 Definition . 53 4.2 Optimalitat 55 4.3 Algorithmen zum Design von Vektorquantisierern 57 8 Inhalt Lloyd-Algorithmus . . 58 LBG-Algorithmus .. 59 k-means-Algorithmus 61 4.4 Schatzung von Mischverteilungsmodellen . 62 EM-Algorithm us . 63 4.5 Literaturhinweise . . . . . 66 5 Hidden-Markov-Modelle 67 5.1 Definition . . . . . . . . 67 5.2 Emissionsmodellierung . 69 5.3 Verwendungskonzepte 70 5.4 Notation ...... . 72 5.5 Bewertung ..... . 73 5.5.1 Die Produktionswahrscheinlichkeit 73 Forward-Algorithm us ...... . 74 5.5.2 Die "optimale" Produktionswahrscheinlichkeit 76 5.6 Dekodierung . . . . 79 Viterbi-Algorithmus 80 5.7 Parameterschatzung 81 5.7.1 Grundlagen . . . . . 82 Forward-Backward-Algorithmus. 83 5.7.2 Trainingsverfahren . . . . 85 Baum-Welch-Algorithm us 85 Viterbi-Training .... . 91 Segmental k-Means .. . 93 5.7.3 Mehrere Observationsfolgen 95 5.8 Modellvarianten ..... . 96 5.8.1 Alternative Algorithmen . . 96 5.8.2 Alternative Modellarchitekturen 97 5.9 Literaturhinweise . . 97 6 n-Gramm-Modelle 99 6.1 Definition . . . . . . 99 6.2 Verwendungskonzepte 100 6.3 Notation 101 6.4 Bewertung 102 6.5 Parameterschatzung 104 6.5.1 Umverteilung von Wahrscheinlichkeitsmasse 105 Discounting. . . . . . . . . . . . . . . . . . 105 Inhalt 9 6.5.2 Einbeziehung allgemeinerer Verteilungen 107 Interpolation . . . . . . . . . . . . . . . 108 Backing-Off . . . . . . . . . . . . . . . 110 6.5.3 Optimierung verallgemeinerter Verteilungen 111 6.6 Modellvarianten ........ . 113 6.6.1 Kategoriemodelle. . . . . . . . . 113 6.6.2 Uingere zeitliche Abhangigkeiten 115 6.7 Literaturhinweise . . . . . . . . . 116 II Praxis 117 7 Rechnen mit Wahrscheinlichkeiten 119 7.1 Logarithmische Wahrscheinlichkeitsreprasentation 119 7.2 Untere Schranken fUr Wahrscheinlichkeiten . . . . 122 7.3 Codebuchauswertung fUr semi-kontinuierliche HMMs 123 7.4 Wahrscheinlichkeitsverhaltnisse . . . . . . . . . 124 8 Konfiguration von Hidden-Markov-Modellen 127 8.1 Modelltopologien. . . . . . . . . . . . . 127 8.2 Modelluntereinheiten. . . . . . . . . . . 128 8.2.1 Kontextunabhangige Wortuntereinheiten . 129 8.2.2 Kontextabhangige Wortuntereinheiten 130 8.3 Verbundmodelle 131 8.4 Proiile-HMMs 133 8.5 Emissionsmodellierung . 135 9 Robuste Parameterschatzung 137 9.1 Merkmalsoptimierung . . . . 139 9.1.1 Dekorrelation . . . . . . . . . 140 Hauptachsentransformation I . 141 Whitening ......... . 145 9.1.2 Dimensionsreduktion. . . . . 146 Hauptachsentransformation II 146 Lineare Diskriminanzanalyse 147 9.2 Tying . ....... . 151 9.2.1 Modelluntereinheiten . 152 9.2.2 Zustandstying. . . . . 155 9.2.3 Tying in Mischverteilungsmodellen 159 9.3 Parameterinitialisierung ..... . 161 10 Inhalt 10 Effiziente Modellanswertung 163 10.1 Effiziente Auswertung von Mischverteilungen . 163 10.2 Beam Search . . . . . . . . . 165 10.3 Effiziente Parameterschatzung 168 10.3.1 Forward-Backward-Pruning . 168 10.3.2 Segmentweiser Baum-Welch-Algorithmus . 169 10.3.3 Training von Modellhierarchien . 170 10.4 Baumformige Modellorganisation 171 10.4.1 Priifixbaum flir HMMs . . . . . . 171 10.4.2 Baumrepriisentation flir n-Gramm-Modelle 172 11 Modellanpassung 177 11.1 Grundprinzipien 177 11.2 Adaption von Hidden-Markov-Modellen 178 Maximum-Likelihood Linear-Regression 180 11.3 Adaption von n-Gramm-Modellen . 182 11.3.1 Cache-Modelle . . . . . . . . . 183 11.3.2 Dialogschrittabhiingige Modelle 183 11.3.3 Topic-basierte Sprachmodelle 184 12 Integrierte Suchverfahren 185 12.1 HMM-Netzwerke. 188 12.2 Mehrphasensuche . 189 12.3 Suchraumkopien 190 12.3.1 Kontextbasierte Suchraumkopien 190 12.3.2 Zeitbasierte Suchbaumkopien . . 191 12.3.3 Language-ModeJ Look-Ahead . . 192 12.4 Zeitsynchrone parallele Modelldekodierung . 193 12.4.1 Generierung von Segmenthypothesen 194 12.4.2 Sprachmodellbasierte Suche . . . . . . . . . 195 III Systeme 197 13 Spracherkennung 200 13.1 Erkennungssystem der RWTH Aachen 200 13.2 BBN-Spracherkennungssystem B YBLOS 202 13.3 ESMERALDA ............. . 203