Opinion Mining in Newspapers for a Media Response Analysis Inaugural-Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fakult¨at der Heinrich-Heine-Universit¨at Du¨sseldorf vorgelegt von Thomas Scholz aus Meerbusch Du¨sseldorf, Oktober 2013 Aus dem Institut fu¨r Informatik der Heinrich-Heine Universit¨at Du¨sseldorf Gedruckt mit der Genehmigung der Mathematisch-Naturwissenschaftlichen Fakult¨at der Heinrich-Heine-Universit¨at Du¨sseldorf Referent: Prof. Dr. Stefan Conrad Koreferent: Prof. Dr. Martin Mauve Tag der mu¨ndlichen Pru¨fung: 04.02.2014 Dedicated to Thorsten, Margrit, and Stefan Acknowledgements The results presented in this thesis are the outcome of my three years of research at theDatabasesand Information Systems Group oftheDepartmentofComputerScience at the Heinrich Heine University of Du¨sseldorf. First of all, I would like to say thank you to my supervisor, Prof. Dr. Stefan Conrad. His door was always open for me to come in with questions or problems from the time when I was an undergraduate and needed a schedule for my subsidiary subject to the time when this thesis was nearly printed. I knew very early, that I would like to work in his group one day. Also, I would like to thank Prof. Dr. Martin Mauve for his interest in my research and his willingness to be the second assessor. Likewise, I thank the third reviewer Prof. Dr. Jo¨rg Scheidt for the same reasons. WewouldliketoexpandmycomplimentstoDr.JohannaVomprasandtoDr.Sadet Alcic, who supervised my first steps in academic research. Special thanks go to my first room neighbour Dr. Tim Schlu¨ter, who taught me a lot of practical things about working in a research department. I would also like to say thank you to my colleagues Ludmila Himmelspach (our rumour generator), Jiwu Zhao (the karate bowler), Dr. Ka- trin Zaiß (Doctrine), and my new colleagues Magdalena Rischka (redundancy creates security), Daniel Braun (inventor of so many things whose names include his surname), Michael Singhof (the organiser), and Robin Ku¨ppers (we are still waiting for his sar- casm blog). Last but not least, I say thank you to Sabine Freese and Guido Ko¨nigstein for time, patience, support, suggestions, and their positive spirit. All of you are the reasons, why I will miss my work at the University of Du¨sseldorf. The time was to short. And I would like to thank Dr. Isabel Wolters for our many discussions at the beginning of the ATOM project and before. I will never forget the day, when we received the funding approval, and our evenings in the steakhouse. Finally, I would like to thank everybody, who has supported me in the last three years, especially my family and my friends. Du¨sseldorf, Germany October, 2013 Thomas Scholz Abstract A part of the broad research domains Knowledge Discovery and Information Retrieval deals only with Data Mining in texts: Text Mining. In general, Text Mining tries to obtain knowledge by identifying patterns in textual data. One of its most important areas is Opinion Mining, which is the main topic of this thesis. Opinion Mining is a far-reaching research area, because it is potentially interesting for many different fields of application as well as its results are very valuable: Opinions are analysed in reviews of products, services, etc. to create very detailed reports about the subject of the reviews or to identify fake or spam reviews. Furthermore, contri- butions for Opinion Mining in Social Media try to discover opinions in these networks such as Twitter, Facebook, and Youtube. We concentrate on Opinion Mining in news articles, because automatically extracted opinions from news have a high economic value, especially for media monitoring services, but at the same time, this domain has been rather neglected by approaches for Opinion Mining. Thus, we complement this research area by tasks of a Media Response Analysis, which includes the extraction of statements, the classification of the tonality, and the determination of viewpoints. To establish these tasks within the Opinion Mining com- munity, we published an own dataset of a Media Response Analysis (MRA). A major challenge is the extraction of statements for an MRA. In this step, the text parts of a news article have to be identified, which are most relevant for analysis objects and contain opinions, even if the tonality of the opinion is neutral. Theclassificationofthetonalityforagiventextortextpartrepresentsthemostdif- ficult task for almost every Opinion Mining approach. Many contributions involve only this step and apply a broad spectrum of techniques to tackle this problem: The cre- ation of sentiment dictionaries, the analysis of contextual information, machine learn- ing, heuristic rules, profoundly linguistic analyses, and many more. During this thesis we investigate many characteristics for the determination of tonality in our domain in contrast to recent research and propose a very well working approach for the tonality classification of statements in newspaper articles, which is adjusted to the requirements of a practical solution and achieves better results for our task than current state-of- the-art techniques. Extracted and rated statements are difficult to assess for MRA, if they do not containanyinformationabouttheviewpoint. Tocompleteafullyautomatedsolutionof Opinion Mining for a Media Response Analysis, we explain and evaluate our ontology- based approach for the determination of viewpoints. Zusammenfassung Ein Teil der weitreichenden Forschungsgebiete von Knowledge Discovery und Informa- tion Retrieval besch¨aftigtsichnurmitData Mining inTexten: Text Mining. Allgemein versucht man beim Text Mining durch Mustererkennung Wissen aus textuellen Daten zu ziehen. Eines der bekanntesten Gebiete in Text Mining ist Opinion Mining, das grundlegende Thema dieser Arbeit. Opinion Mining ist ein weitreichender Forschungszweig, weil Opinion Mining fu¨r viele Anwendungsgebiete interessant ist und gleichzeitig die Resultate potentiell wert- voll sind: Meinungen k¨onnen in Bewertungen zu Produkten, Dienstleistungen, etc. untersucht werden, um detaillierte Berichte u¨ber den Gegenstand der Bewertung zu erstellen oder um nicht glaubwu¨rdige oder nutzlose Bewertungen zu identifizieren. Im BereichsozialeNetzwerkeversuchtmanMeinungenz.B.beiTwitter, Facebook, Youtu- be, etc. zu entdecken. Wir konzentrieren uns auf Opinion Mining in Zeitungsartikeln, weil automatisch extrahierte Meinungen aus Zeitungen von großem wirtschaftlichen Wert sind, besonders fu¨r Medienbeobachter und ihre Kunden. Zugleich ist Opinion Mining in Zeitungen von aktuellen Arbeiten eher vernachl¨assigt worden. Deshalb komplettieren wir dieses Forschungsgebiet um die Herausforderungen ei- ner Medienresonanzanalyse, die eine Aussagenextraktion, eine Tonalit¨atsklassifikation und eine Perspektivbestimmung umfasst. Wir ver¨offentlichten einen eigenen Datensatz einer solchen Analyse um diese Herausforderungen noch weiter zu etablieren. EineSchlu¨sselaufgabeistdieExtraktionvonAussagenfu¨reineMedienresonanzana- lyse (MRA). In diesem Schritt mu¨ssen die Abschnitte von Zeitungsartikeln identifiziert werden, die relevant fu¨r die Analyseobjekte sind und eine Meinung beinhalten, selbst wenn die Tonalit¨at dieser Meinung neutral ist. Die Klassifikation der Tonalit¨at fu¨r einen gegebenen Text oder Textteile ist mei- stens die schwierigste Aufgabe innerhalb einer automatischen Meinungsanalyse. Viele Ans¨atze drehen sich nur um diesen Schritt und schlagen ein breites Spektrum an Tech- niken fu¨r dieses Problem vor: Generierung von Tonalit¨atsw¨orterbu¨chern, Analyse des Kontextes, maschinelles Lernen, heuristische Regeln, tiefgehende sprachliche Analy- sen und vieles mehr. Innerhalb dieser Arbeit stellen wir viele Besonderheiten fu¨r die Tonalit¨atsbestimmung in Zeitungen im Vergleich zu aktuellen Arbeiten heraus und entwickeln einen sehr gut funktionierenden Ansatz fu¨r die Klassifikation der Tonalit¨at in Aussagen aus Zeitungsartikeln, der an die Voraussetzungen fu¨r einen Einsatz in der Praxis angepasst ist und bessere Resultate erzielt als der aktuelle Stand der Technik. Extrahierte und mit Tonalit¨at versehene Aussagen sind allerdings immer noch schwierig zu bewerten innerhalb einer MRA, wenn keine Informationen u¨ber die Per- spektive verfu¨gbar sind. Deshalb vervollst¨andigen wir unsere automatische L¨osung fu¨r eine Medienresonanzanalyse um eine Perspektivbestimmung durch einen ontologieba- sierten Ansatz.
Description: