Methods for Open Information Extraction and Sense Disambiguation on Natural Language Text Luciano Del Corro Dissertation zur Erlangung des Grades Doktor der Ingenieurwissenschaften (Dr.-Ing.) der Naturwissenschaftlich-Technischen Fakultäten der Universität des Saarlandes Saarbrücken 2015 iii Dean Prof. Dr. MarkusBläser Colloquim 11.01.2016 Saarbrücken ExaminationBoard SupervisorandReviewer Prof. Dr. RainerGemulla Reviewer Prof. Dr. GerhardWeikum Reviewer Prof. Dr. SimonePaoloPonzetto Chairman Prof. Dr. ReinhardWilhelm ResearchAssistant Dr. JannikStrötgen Abstract Natural language text has been the main and most comprehensive way of expressing and storing knowledge. A long standing goal in computer science is to develop systems that automatically understand textual data, makingthis knowledge accessibleto computers and humans alike. We conceiveautomatic textunderstanding as a bottom-upapproach, in which aseriesofinterleavedtasksbuilduponeachother. Eachtaskachievesmoreunderstanding over the text than the previous one. In this regard, we present three methods that aim to contributetotheprimarystagesofthissetting. Our first contribution, ClausIE, is an open information extraction method intended to recognize textual expressions of potential facts in text (e.g. “Dante wrote the Divine Comedy”)andrepresentthemwithanamenablestructurefor computers [(“Dante”,“wrote”, “theDivineComedy”)]. Unlikepreviousapproaches,ClausIEseparatestherecognitionofthe informationfromitsrepresentation,aprocessthatunderstandstheformerasuniversal(i.e., domain-independent)andthelaterasapplication-dependent. ClausIEisaprincipledmethod thatreliesonpropertiesoftheEnglishlanguageandtherebyavoidstheuseofmanuallyor automaticallygeneratedtrainingdata. Oncetheinformationin texthasbeencorrectlyidentified,probablythe most important element in a structured fact is the relation which links its arguments, a relation whose main component is usually a verbal phrase. Our second contribution, Werdy, is a word entry recognition and disambiguation method. It aims to recognize words or multi-word expressions(e.g.,“DivineComedy”isamulti-wordexpression)inafactanddisambiguate verbs (e.g., what does “write” mean?). Werdy is also an unsupervised approach, mainly relying on the syntactic and semantic relation established between a verb sense and its arguments. Theotherkeycomponentsinastructuredfactarethenamedentities(e.g.,“Dante”)that oftenappearinthearguments. FINET,ourlastcontribution,isanamedentitytypingmethod. It aims to understand the types or classes of those names entities (e.g., “Dante” refers to a writer). FINET is focused on typing named entities in short inputs (like facts). Unlike previoussystems,it isdesignedtofindthe typesthatmatchtheentity mentioncontext(e.g., thefactinwhichitappears). Itusesthemostcomprehensivetypesystemofanyentitytyping methodtodatewithmorethan16kclassesforpersons,organizationsandlocations. vi These contributions are intended to constitute constructive building blocks for deeper understandingtasksinabottom-upautomatictextunderstandingsetting. Kurzfassung Das SchreibenvonTexten ist diewichtigste und reichhaltigste Art und Weise, Wissen aus- zudrücken und zu speichern. Schon lange verfolgt die Informatik das Ziel, Systeme zu entwickeln,dieTexteautomatischverstehen,umdiesesWissensowohlMaschinenalsauch Menschenzugänglichzumachen.IndieserArbeitverstehenwirdasAutomatischeTextver- stehenalsbottom-up Aufgabe,indereine Reiheineinandergreifender Bausteineaufeinander aufbauen.JederBausteinerlangtdabeieintieferesTextverständnisalsdervorhergehende.In diesem Sinnepräsentieren wirdrei Methoden,die allezu den fundamentalen Stufen dieses Prozessesbeizutragen. UnserersterBeitrag,ClausIE,isteineMethodederOffenenInformationsextraktion,die textuelleAusdrückevonFaktekandidaten(z.B.“DanteschriebdieGöttlicheKommödie”) erkennt,unddieseineinermaschinenlesbarenStrukturrepräsentiert[(“Dante”,“schrieb”, “die Göttliche Kommödie”)]. Im Gegensatz zu vorherigen Ansätzen trennt ClausIE die Erkennungder faktischenInformationvonder Repräsentation,ineinem Prozess derersters alsuniversell(d.h.domänenunabhängig),letzteresalsstrenganwendungsabhängigversteht. ClausIE löst diese Aufgabe in einer grundsätzlichen, auf den Prinzipien der englischen SpracheaufbauendenWeiseundvermeidetdamitdenGebrauchmanuelleroderautomatisch generierterTrainingsdaten. Wurde diese Art der Information korrekt identifiziert, ist das wahrscheinlich wich- tigste Element eines strukturierten Fakts die Relation, welche die verschiedenen Argu- mente miteinander verbindet. Hauptbestandteil einer solchen Relation ist üblicherweise eine Verbalphrase. Unser zweiter Beitrag, Werdy, ist eine Worteintrag-Erkennungs und -Disambiguierungsmethode.EserkenntWörteroderMehrwortausdrücke(z.B.istdie“Göttli- cheKommdödie”einMehrwortausdruck)ineinemFaktunddisambiguiertVerben(z.B.was “schreiben” bedeutet). Werdy ist auch ein nichtüberwachtes Verfahren, das hauptsächlich auf dersemantischenBeziehungzwischeneinerVerbbedeutungunddessenArgumentenberuht. Die anderen Schlüsselkomponenten eines strukturierten Fakts sind Eigennamen (z.B. “Dante”),diehäufigalsArgumentauftreten.FINET,unserletzerBeitrag,isteineMethodezur Typisierung von Eigennamen. Sie versteht die Typen oderKlassen solcher Eigennamen (z.B. ist“Dante”ein“Schriftsteller”).FINETsFokusistdieTypisierungvonEigennameninkurzen Eingaben,beispielsweise Fakten.Im Gegensatzzu vorherigenSystemen istes sokonzipiert, dassesTypenfindet,diedemKontextderEigennamenentspricht(z.B.demFaktindemer viii auftritt). FINET verwendet mit mehr als 16.000 Typen für Personen, Organisationen und OrtendasreichhaltigsteTypsystemallerbisherigenTypisierungsmethoden. AlleBeiträgestellenBausteinefürdastiefereVerständnisineinembottom-upVerfahren zumautomatischenTextverstehendar. ToLeticia,theloveofmylife,andDante,theproductofit.
Description: