Semi-supervised Semantic Role Labeling via Graph Alignment Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie der Philosophischen Fakulta¨ten der Universit¨at des Saarlandes Vorgelegt von Hagen Fu¨rstenau aus Bonn-Bad Godesberg Dekan der Philosophischen Fakult¨at II: Prof. Dr. Erich Steiner Berichterstatter: Prof. Dr. Manfred Pinkal Dr. Mirella Lapata Prof. Dr. Dietrich Klakow Tag der letzten Pru¨fungsleistung: 10. Februar 2011 Im Gedenken an meinen Großvater Karl-Heinz Fu¨rstenau (21. Februar 1917 – 16. Ma¨rz 2011) Abstract Semantic roles, which constitute a shallow form of meaning representation, have attracted increasing interest in recent years. Various applications have been shown to benefit from this level of semantic analysis, and a large num- ber of publications has addressed the problem of semantic role labeling, i.e., the task of automatically identifying semantic roles in arbitrary sentences. A major limiting factor for these approaches, however, is the need for large manually labeled semantic resources to train semantic role labeling systems in the supervised learning paradigm. Consequently, the application of such systems is still limited to the small number of languages and domains for which sufficiently large semantic resources are available. This thesis addresses the knowledge acquisition problem of semantic role labeling, i.e., the substantial annotation effort required for the creation of semantic resources that can be used to train state-of-the-art semantic role labeling systems. Our main contribution is to formulate a semi-supervised approach to semantic role labeling, which requires only a small manually labeled corpus of role-annotated sentences. This initial seed corpus is augmented with annotationinstancesgeneratedautomaticallyfromalargeunlabeledcorpus. The augmented corpus is used as training data for a supervised role labeler, to improve labeling performance over what can be attained when training on the manually labeled sentences alone. Our approach therefore reduces the annotation effort required to attain satisfactory performance and thus alleviates the knowledge acquistion problem, especially for languages and domainswherethecostofannotatinglargesemanticresourcesisprohibitive. The key idea of our semi-supervised approach is to measure the simi- larity between labeled sentences from the manually annotated resource and sentences from a large unlabeled corpus. Similarity is conceptualized in terms of optimal graph alignments, which are employed to project annota- tions from labeled to unlabeled sentences. To select a set of novel training instances, similarity is operationalized as a measure of confidence, allowing us to limit the adverse effect of erroneous annotations. The optimization problem is formulated as an integer linear program and solved efficiently. The thesis broadly consists of two parts. In the theoretical part, our semi-supervised approach to semantic role labeling is described in detail. v ABSTRACT The empirical part then evaluates the effect of this method on various cor- pora extracted from existing semantic resources for English and German. These experiments show that the additional training data generated by our method can indeed improve the performance of a semantic role labeler and thus reduce annotation effort in practice. vi Zusammenfassung In den letzten Jahren hat sich ein wachsendes Interesse an semantischen Rollen,einerflachenFormvonBedeutungsrepr¨asentation,entwickelt. Eshat sich gezeigt, dass verschiedene Anwendungen von dieser Ebene der semanti- schen Analyse profitieren k¨onnen, und eine große Zahl an Publikationen hat sich mit dem Problem der automatischen rollensemantischen Annotation befasst, also der Aufgabe, semantische Rollen in beliebigen S¨atzen automa- tisch zu identifizieren. Ein Hindernis fu¨r solche Verfahren ist der Mangel an umfangreichen,semantischannotiertenRessourcen,wiesieben¨otigtwerden, um rollensemantische Annotationssysteme nach u¨berwachten Lernverfahren zutrainieren. DieAnwendungsolcherSystemeistdahernochaufeinekleine ZahlvonSprachenundDom¨anenbegrenzt,fu¨rdiehinreichendgroßeseman- tische Ressourcen zur Verfu¨gung stehen. Die vorliegende Arbeit besch¨aftigt sich mit dem Problem der Wissens- aquise fu¨r rollensemantische Annotation, d.h. mit dem erheblichen Anno- tationsaufwand, der mit der Erstellung von semantischen Ressourcen fu¨r leistungsf¨ahige rollensemantische Annotationssysteme verbunden ist. Der Hauptbeitrag der Arbeit liegt in der Formulierung eines halbu¨ber- wachten Ansatzes fu¨r rollensemantische Annotation, der lediglich auf ein kleines manuell mit semantischen Rollen annotiertes Korpus angewiesen ist. Dieses Initialkorpus wird durch Annotationsinstanzen erg¨anzt, die mit Hilfe eines umfangreichen unannotierten Korpus automatisch generiert wer- den. Das erweiterte Korpus wird dann verwendet, um ein u¨berwachtes Rollenannotationssystem zu trainieren und dessen Leistung im Vergleich zu einemSystem,demnurdasInitialkorpuszurVerfu¨gungsteht,zuverbessern. Unser Ansatz reduziert daher den Annotationsaufwand, der n¨otig ist, um zufriedenstellendeAnnotationsqualit¨atzuerreichen,undmildertsodasPro- blem der Wissensaquise, insbesondere fu¨r Sprachen und Dom¨anen, fu¨r die die hohen Annotationskosten ein großes Hindernis darstellen. DieGrundideeunsereshalbu¨berwachtenVerfahrensistes,dieA¨hnlichkeit zwischenannotiertenS¨atzendesInitialkorpusundunannotiertenS¨atzendes großenErweiterungskorpuszuquantifizieren. Wirdru¨ckendieseA¨hnlichkeit mit Hilfe von optimalen Graphalinierungen aus, die wir verwenden, um semantische Information von annotierten auf unannotierte S¨atze zu pro- jizieren. Um eine Auswahl von neuen Trainingsinstanzen zu treffen, ver- vii ZUSAMMENFASSUNG wenden wir diese A¨hnlichkeit als Konfidenzmaß, was uns erlaubt, Annota- tionsfehler zu vermeiden. Das Optimierungsproblem wird als Aufgabe der ganzzahligen linearen Programmierung formuliert und effizient gel¨ost. Die Arbeit gliedert sich grob in zwei Teile. Der theoretische Teil be- schreibt detailliert unseren halbu¨berwachten Ansatz zur rollensemantischen Annotation. Im empirischen Teil wird dann der Effekt dieser Methode auf verschiedenen Korpora evaluiert, die auf existierenden semantischen Ressourcen fu¨r Englisch und Deutsch basieren. Diese Experimente zeigen, dass die zus¨atzlichen Trainingsdaten, die unsere Methode erzeugt, in der Tat die Leistung eines semantischen Rollenannotationssystems verbessern und somit den Annotationsaufwand reduzieren k¨onnen. viii Acknowledgements There are a number of people without whom this thesis would not have taken its present shape — or none at all. While only those most directly involvedarementionedhere, mythanksgotoeveryonewhohelpedmemake the quest for my PhD enjoyable and ultimately successful. Naturally, the first to mention is my supervisor Manfred Pinkal. Ten years ago, he let me take my first glimpse into Computational Linguistics, sparking an interest deep enough for me to come to Saarbru¨cken a few years later and venture into a new field. Guiding me on this way, he always left me enough room to learn from my own mistakes, but also time and again helped me take the essential “step back” from my work, and see the difference between results and insights. IamalsomuchindebtedtomysecondsupervisorMirellaLapata. During my time in Edinburgh and afterwards, she helped me shape and focus the topic of my thesis, and taught me much about how to go about planning, conducting, and presenting good research. Of course, where this is not reflected in the present work, the responsibility is entirely mine. Outofthemanyotherpeoplewhosharedtheirexperiencewithme, Iam especially grateful for the guidance I received from Sabine Schulte im Walde and Caroline Sporleder during the earlier stages of my studies. Further I want to thank Martin Forst for patiently helping me solve my problems with LFG parsing, as well as Sebastian Pad´o and Alexander Koller for some stimulating discussions. I was also fortunate to enjoy an excellent research environment, supported first by the DFG International Research Training Group 715 “Language Technology and Cognitive Systems” and later by the SALSAProject(DFGgrantPI154/9-3), complementedwithexcellenttech- nical support by Christoph Clodo and the Systemgruppe. Finally,mymostspecialthanksgotoSuhee,whoseloveandpatienceand unfaltering belief supported me on this whole journey, and make everything worthwhile. ix
Description: