ebook img

Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining PDF

247 Pages·2014·5.38 MB·German
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining

Universität Osnabrück Institut für Informatik Dissertation Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining Nicolas Neubauer März 2014 Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) des Fachbereichs Mathematik/Informatik der Universität Osnabrück Betreut durch Prof. Dr. Oliver Vornberger Zusammenfassung Diese Arbeit befasst sich mit zwei Themenbereichen des Data Mining beziehungsweise Text Mining, den zugehörigen algorithmischen Verfahren sowie Konzepten und untersucht mögliche Anwendungsszenarien. Auf der einen Seite wird das Gebiet der semantischen Ähnlichkeit besprochen. Kurz, der Frage, wie algorithmisch bestimmt werden kann, wie viel zwei Begriffe oder Konzepte miteinander zu tun haben. Die Technologie um das Wissen, dass etwa „Regen“ ein Bestandteil von „Wetter“ sein kann, ermöglicht verschiedenste Anwendungen. In dieser Arbeit wird ein Überblick über gängige Literatur gegeben, das Forschungsgebiet wird grob in die zwei Schulen der wissensbasierten und statistischenMethodenaufgeteiltundinjederwirdeinBeitragdurchUntersuchungvorhandener und Vorstellung eigener Ähnlichkeitsmaße geleistet. Eine Studie mit Probanden und ein daraus entstandener Datensatz liefert schließlich Einblicke in die Präferenzen von Menschen bezüglich ihrer Ähnlichkeitswahrnehmung. Auf der anderen Seite steht das Gebiet des Sentiment Mining, in dem versucht wird, algo- rithmisch aus großen Sammlungen unstrukturierten Texts, etwa Nachrichten von Twitter oder anderensozialenNetzwerken,StimmungenundMeinungenzuidentifizierenundzuklassifizieren. Nach einer Besprechung zugehöriger Literatur wird der Aufbau eines neuen Testdatensatzes mo- tiviertunddieErgebnissederGewinnungdiesesbeschrieben.AufdieserneuenGrundlageerfolgt eine ausführliche Auswertung einer Vielzahl von Vorgehensweisen und Klassifikationsmethoden. SchließlichwirddiepraktischeNutzbarkeitderErgebnisseanhandverschiedenerAnwendungssze- narien bei Produkt-Präsentationen sowie Medien- oder Volksereignissen wie der Bundestagswahl nachgewiesen. Inhaltsverzeichnis 1 Einleitung 1 2 Semantik und semantische Ähnlichkeit 3 2.1 Messung semantischer Ähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Evaluationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.1 Rubenstein und Goodenough (1965) . . . . . . . . . . . . . . . . . . . . . 8 2.2.2 Miller und Charles (1991) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3 WordSimilarity-353 und zugehörige Experimente . . . . . . . . . . . . . . 13 2.2.4 Free Association Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.5 Baroni and Lenci Evaluation of Semantic Spaces (BLESS) . . . . . . . . . 19 2.2.6 Synonym-Erkennung im „Test of English as a Foreign Language“ . . . . . 22 2.2.7 Weitere Testmethoden und -anwendungen . . . . . . . . . . . . . . . . . . 24 2.2.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis . . . . . . 29 2.3.1 Wörterbuch-basierte Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.2 Thesaurus-basierte Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.3 WordNet und vergleichbare semantische Netzwerke . . . . . . . . . . . . . 33 2.3.3.1 Maße auf Basis des (kürzesten) Weges im Netzwerk . . . . . . . 36 2.3.3.2 Maße auf Basis gemeinsamen Informationsgehaltes . . . . . . . . 41 2.3.3.3 Eigene Arbeiten im Bereich der Ähnlichkeitsmaße auf Basis des gemeinsamen Informationsgehalts . . . . . . . . . . . . . . . . . 47 2.3.3.4 Maße auf Basis von Glossen . . . . . . . . . . . . . . . . . . . . . 56 2.3.3.5 Vektor-basierte Maße . . . . . . . . . . . . . . . . . . . . . . . . 58 2.3.4 Wikipedia, Wiktionary und andere Wissensbasen . . . . . . . . . . . . . . 58 2.3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.4 Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken . . . . . . . . . . 63 2.4.1 Bestandteile eines Maßes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.4.2 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.4.3 (Linguistisches) Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.4.4 Kontext und Ermittlung gemeinsamen Auftretens . . . . . . . . . . . . . . 76 2.4.5 Messung von Assoziationsstärke und Kontextähnlichkeit . . . . . . . . . . 81 2.4.5.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . 82 2.4.5.2 Pointwise Mutual Information . . . . . . . . . . . . . . . . . . . 82 v 2.4.5.3 Normalized Similarity Score . . . . . . . . . . . . . . . . . . . . . 84 2.4.5.4 Bidirectional Co-occurrence Measure . . . . . . . . . . . . . . . . 85 2.4.5.5 Vektorielle Distanz und Ähnlichkeitsmaße von Kontexten . . . . 92 2.4.5.6 Hybride Ansätze mit Nutzung von Experten-Ressourcen . . . . . 97 2.4.5.7 Variationen der Parameter . . . . . . . . . . . . . . . . . . . . . 101 2.4.6 Exkurs: Die verteilte Berechnung der Assoziationswerte mit MapReduce . 104 2.4.6.1 Das MapReduce-Modell . . . . . . . . . . . . . . . . . . . . . . . 106 2.4.6.2 Eingesetzte Implementierungen und Technologien. . . . . . . . . 109 2.4.6.3 Streaming MapReduce mit Wukong . . . . . . . . . . . . . . . . 118 2.4.7 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 2.5 Menschen und semantische Ähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . 125 2.5.1 Ähnliche Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 2.5.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 2.5.3 Aufbau und Ablauf der Studie . . . . . . . . . . . . . . . . . . . . . . . . 128 2.5.4 Evaluation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 2.5.5 Zusammenfassung und mögliche weiterführende Arbeiten . . . . . . . . . 132 2.6 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3 Stimmung, Meinung und Sentiment 135 3.1 Anwendungsszenarien und zugehörige Arbeiten . . . . . . . . . . . . . . . . . . . 138 3.1.1 Sentiment- und Opinion-Mining im Allgemeinen . . . . . . . . . . . . . . 138 3.1.2 Anwendungsorientierte Arbeiten auf Basis von Twitter . . . . . . . . . . . 145 3.1.3 Verfahrensorientierte Arbeiten auf Basis von Twitter . . . . . . . . . . . . 152 3.1.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3.2 Aufbau eines neues Evaluations-Datensets . . . . . . . . . . . . . . . . . . . . . . 161 3.2.1 Qualitätskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 3.2.2 Datensammlung und Annotationsverfahren . . . . . . . . . . . . . . . . . 163 3.2.3 Durchführung und Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . 165 3.2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 3.3 Analyse verschiedener Techniken zur Sentiment-Klassifikation . . . . . . . . . . . 168 3.3.1 Betrachtete Klassifikationsalgorithmen . . . . . . . . . . . . . . . . . . . . 169 3.3.1.1 Naive-Bayes-Klassifikation. . . . . . . . . . . . . . . . . . . . . . 169 3.3.1.2 Klassifikation mit Support-Vektor-Maschinen . . . . . . . . . . . 172 3.3.2 Trainingscorpus, Feature-Arten und Statistiken . . . . . . . . . . . . . . . 176 3.3.2.1 Sammeln der Daten . . . . . . . . . . . . . . . . . . . . . . . . . 177 3.3.2.2 Processing Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . 178 3.3.2.3 Feature-Extraktion und Textverarbeitungsstrategien . . . . . . . 180 3.3.2.4 Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 3.3.3 Evaluation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 3.3.3.1 Einfluss von Klassifikationsalgorithmen, Feature-Extraktion und Corpus-Größe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 3.3.3.2 Einfluss verschiedener Preprocessing-Verfahren . . . . . . . . . . 195 3.3.3.3 Integration von semantischem Wissen . . . . . . . . . . . . . . . 197 3.3.3.4 Kombinationsstrategien und Ablehnung bei Ungewissheit . . . . 199 vi 3.3.4 Zusammenfassung und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . 205 3.4 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 3.4.1 Auswertung von Ereignissen großer Technologiefirmen . . . . . . . . . . . 207 3.4.1.1 Google I/O Keynote am 15.05.2013 . . . . . . . . . . . . . . . . 208 3.4.1.2 Apple WWDC-Keynote am 10.06.2013. . . . . . . . . . . . . . . 211 3.4.1.3 Microsofts build-Keynote am 26.06.2013 . . . . . . . . . . . . . . 214 3.4.1.4 Präsentation der Playstation 4 von Sony am 20.02.2013 und der Xbox One von Microsoft am 21.05.2013 . . . . . . . . . . . . . . 216 3.4.1.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . 217 3.4.2 Auswertung der Bundestagswahl 2013 . . . . . . . . . . . . . . . . . . . . 220 3.4.3 Zusammenfassung des Abschnitts Anwendungen . . . . . . . . . . . . . . 225 3.5 Zusammenfassung und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 4 Fazit und Schlussworte 227 Literaturverzeichnis 229 vii Kapitel 1 Einleitung Zum Zeitpunkt des Verfassens dieser Arbeit war das Unternehmen Google etwa 400 Milliarden US-Dollar wert und gehörte damit zu den wertvollsten Firmen der Welt. Eine Firma, die keine Produkte herstellt1, keine Bank- oder Versicherungsdienstleitungen anbietet und keinen Wieder- verkäufer von Waren darstellt. Letzteres vielleicht aber doch, nur dass die Ware nicht sichtbar ist. Die Ware ist Information. Zweifellos leben wir in einem Informationszeitalter in dem Wissen oder analog dazu Information zu einem Gut geworden ist, dessen Wert zwar schwer einschätzbar aber in jedem Fall hoch ist. Nicht umsonst gibt es das Sprichwort „Wissen ist Macht“ – „Nam et ipsa scientia potestas est.“, aus Francis Bacons’ „Meditationes sacrae“ von 1597. Eigentlich auf die Aufklärung bezogen, lässt sich der Ausspruch hervorragend auf das Informationszeitalter übertragen. Das Wissen oder die Information führt schließlich dazu, dass Prozesse optimiert, Zusammenhänge verstanden und Möglichkeiten erkannt werden können. Forschungsgegenstand dieser Arbeit ist das Themenfeld des Text Mining, ein Untergebiet des Data Mining. Die Frage, die diesem Gebiet zugrunde liegt, zeigt sich schon im Namen: „data“ und „mining“. Die Menge an, sogar frei verfügbaren, aber auch überhaupt verfügbaren Daten wächst exponentiell. Allein auf der Plattform Twitter werden täglich über 500 Millionen Kurz- nachrichtengeschrieben2 –Tendenzsteigend,unddasistnureine vonvielen,vielenDatenquellen im Internet. Wenn man ihre Gesamtheit betrachtet, dann gibt es fast einen Überfluss an Daten. Das Problem, mit dem sich nun das Data Mining befasst, ist – ganz passend zu dem Bild des- jenigen, der in einer Mine nach Gold sucht – aus dieser Unmenge von Daten, die interessanten und nutzbaren Informationen, Wissen, zu extrahieren. Eng damit verbunden ist der Begriff der Knowledge Discovery,denFrawleyetal.(1992)alsdienicht-trivialeExtraktionimpliziter,bisher verborgener und potentiell nutzbarer Information bezeichnen3. Das Feld des Text Mining ist in gewisser Weise etwas spezieller, da beim Data Mining oft bereits strukturierte Daten, etwa in einem Datenbanksystem, vorliegen, deren Datensätze schon über bedeutungsvolle Verknüpfun- gen miteinander verbunden sind. Text Mining befasst sich im Speziellen damit, wie Wissen aus 1zumindest nicht mit einem nennenswerten Anteil am Produktportfolio 2https://blog.twitter.com/2013/new-tweets-per-second-record-and-how, abgerufen am 07.01.2014. 3Original: „nontrivial extraction of implicit, previously unknown, and potentially useful information“ 1 Kapitel 1. Einleitung wenig oder gar nicht strukturierten Daten, bestehend aus natürlichsprachlichem Text, extrahiert werden kann (vgl. auch Feldman und Dagan (1995)). Feldman und Sanger (2007) bezeichnen das Gebiet des Text Mining als ein Forschungsfeld, das Techniken verschiedener Gebiete – Data Mining, maschinelles Lernen, Natural Language Processing, Information Retrieval und Wissens- management – zusammenbringt, um diese interessanten Informationen zu erlangen. In dieser Arbeit werden zwei Problemfelder im Kontext von Text Mining behandelt. In Kapitel 2 geht es um den Bereich der Semantik und im Besonderen der semantischen Ähnlichkeit von Begriffen in Text. Sehr knapp zusammengefasst wird hier die Antwort auf die Frage gesucht, wie mit Hilfe von Text Mining-Verfahren das Wissen um die semantische, also bedeutungsbezogene, Ähnlichkeit von Begriffen ermittelt werden kann, die Menschen ganz intuitiv haben: Ein Regen- schirmhatmitdemWetterzutun,aberehernichtmitNahrungsmitteln.DerartigesWissenkann auf verschiedene Arten erlangt werden. Diese werden, auch im Hinblick auf die zugehörige Lite- ratur, analysiert, wobei mit eigenen Ideen, Verfahren und Erkenntnissen zum Forschungsgebiet beigetragen wird. Kapitel 3 behandelt das zweite Forschungsfeld, das sich mit dem Bereich des Sentiment Mining auseinandersetzt. Hier geht es um die Frage, wie es einem Computersystem gelingen kann, die vorherrschende Stimmung in einem Textfragment zu identifizieren. Das Wissen um die daraus ableitbareMeinungeinerPersonoderGruppe,beispielsweiseausdenAussagen„IchliebeProdukt X“ gegen „Mir gefällt Produkt X gar nicht“, hat ebenfalls verschiedenste Anwendungsszenarien. Auch hier wird relevante Literatur des Themenfeldes analysiert, die vorgeschlagenen Verfahren evaluiertunddurchdieErgebnisseundneueVorschlägeeinBeitragzumForschungsfeldgeleistet. Nähere Informationen können den Einleitungen der jeweiligen Kapitel entnommen werden. Hinweise zur Darstellung Auch wenn diese Arbeit in deutscher Sprache verfasst ist, wurde versucht darauf zu verzichten gängige englische Fachbegriffe zwanghaft ins Deutsche zu überset- zen. Oben klingt dies bereits bei den Begriffen „Text Mining“ oder „Data Mining“ an. In den meisten Fällen wurde auch darauf verzichtet, die aus mehreren Substantiven zusammensetzten Begriffe durch Nutzung von Bindestrichen einzudeutschen. Sobald ein Fachbegriff zum ersten Mal eingeführt wird, ist dieser kursiv dargestellt. Die gleiche Darstellungsform wird auch für Beispiele in Daten und besondere Betonung genutzt, außerdem dann, wenn deutlich gemacht werden soll, dass ein englischer Begriff im deutschen Kontext in seiner englischen Schreibweise – also insbesondere Kleinschreibung auch bei Substantiven im Fließtext – verwendet wird. So- fern es sich um längere Text-Zitate oder einfache wörtliche Wiedergabe handelt ist selbige in „Anführungszeichen“ gesetzt. 2

Description:
mit Hilfe von Text Mining-Verfahren das Wissen um die semantische, also bedeutungsbezogene,. Ähnlichkeit von Offenbar ist für diese Form der Vorverarbeitung nicht nur größeres Vorwissen, sondern unter Firmen können darauf mit Hilfe von Social Media Monitoring und -Analyse reagieren.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.