ebook img

Concept-based and Relation-based Corpus Navigation PDF

350 Pages·2017·9.38 MB·French
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Concept-based and Relation-based Corpus Navigation

Concept-based and relation-based corpus navigation: applications of natural language processing in digital humanities Pablo Ruiz Fabo To cite this version: Pablo Ruiz Fabo. Concept-based and relation-based corpus navigation: applications of natural lan- guage processing in digital humanities. Linguistics. Université Paris sciences et lettres, 2017. English. ￿NNT: 2017PSLEE053￿. ￿tel-01575167v2￿ HAL Id: tel-01575167 https://theses.hal.science/tel-01575167v2 Submitted on 2 Jul 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE DE DOCTORAT de l’Université de recherche Paris Sciences et Lettres  PSL Research University Préparée à l’École normale supérieure Concept-Based and Relation-Based Corpus Navigation: Applications of Natural Language Processing in Digital Humanities Ecole doctorale n°540 TRANSDISCIPLINAIRE LETTRES / SCIENCES Spécialité SCIENCES DU LANGAGE COMPOSITION DU JURY : Mme. BEAUDOUIN Valérie Télécom ParisTech, Rapporteur  Mme. SPORLEDER Caroline Universität Göttingen, Rapporteur  M. GANASCIA Jean-Gabriel Université Paris 6, Membre du jury Mme. GONZÁLEZ-BLANCO Elena Soutenue par PABLO RUIZ FABO UNED Madrid, Membre du jury le 23 juin 2017 Mme. TELLIER Isabelle h Université Paris 3, Membre du jury Dirigée par Thierry POIBEAU Mme. TERRAS Melissa University College London, Membre du jury h PSL RESEARCH UNIVERSITY ÉCOLE NORMALE SUPÉRIEURE DOCTORAL THESIS Concept-Based and Relation-Based Corpus Navigation: Applications of Natural Language Processing in Digital Humanities Author: Supervisor: Pablo RUIZ FABO Thierry POIBEAU ResearchUnit: LaboratoireLATTICE Écoledoctorale540–TransdisciplinaireLettres/Sciences DefendedonJune23,2017 Thesiscommittee: Valérie BEAUDOUIN TélécomParisTech Rapporteur Jean-Gabriel GANASCIA UniversitéParis6 Examinateur Elena GONZÁLEZ-BLANCO UNEDMadrid Examinateur Caroline SPORLEDER UniversitätGöttingen Rapporteur Isabelle TELLIER UniversitéParis3 Examinateur Melissa TERRAS UniversityCollegeLondon Examinateur iii Abstract SocialsciencesandHumanitiesresearchisoftenbasedonlargetextualcorpora,that it would be unfeasible to read in detail. Natural Language Processing (NLP) can identifyimportantconceptsandactorsmentionedinacorpus,aswellastherelations betweenthem. Suchinformationcanprovideanoverviewofthecorpususefulfor domain-experts,andhelpidentifycorpusareasrelevantforagivenresearchquestion. To automatically annotate corpora relevant for Digital Humanities (DH), the NLP technologies we applied are, first, Entity Linking, to identify corpus actors and concepts. Second,therelationsbetweenactorsandconceptsweredeterminedbased onanNLPpipelinewhichprovidessemanticrolelabelingandsyntacticdependencies amongotherinformation. PartIoutlinesthestateoftheart,payingattentiontohow thetechnologieshavebeenappliedinDH. Generic NLP tools were used. As the efficacy of NLP methods depends on the corpus, some technological development was undertaken, described in Part II, in ordertobetteradapttothecorporainourcasestudies. PartIIalsoshowsanintrinsic evaluationofthetechnologydeveloped,withsatisfactoryresults. Thetechnologieswereappliedtothreeverydifferentcorpora,asdescribedinPartIII. First, the manuscripts of Jeremy Bentham. This is a 18th–19th century corpus in politicalphilosophy. Second,thePoliInformaticscorpus,withheterogeneousmateri- alsabouttheAmericanfinancialcrisisof2007–2008. Finally,theEarthNegotiations Bulletin(ENB),whichcoversinternationalclimatesummitssince1995,wheretreaties liketheKyotoProtocolortheParisAgreementsgetnegotiated. For each corpus, navigation interfaces were developed. These user interfaces (UI) combinenetworks,full-textsearchandstructuredsearchbasedonNLPannotations. Asanexample,intheENBcorpusinterface,whichcoversclimatepolicynegotiations, searchescanbeperformedbasedonrelationalinformationidentifiedinthecorpus: Thenegotiationactorshavingdiscussedagivenissueusingverbsindicatingsupport or opposition can be searched, as well as all statements where a given actor has expressedsupportoropposition. Relationinformationisemployed,beyondsimple co-occurrencebetweencorpusterms. TheUIswereevaluatedqualitativelywithdomain-experts,toassesstheirpotential usefulnessforresearchintheexperts’domains. First,wepayedattentiontowhether the corpus representations we created correspond to experts’ knowledge of the corpus,asanindicationofthesanityoftheoutputsweproduced. Second,wetried to determine whether experts could gain new insight on the corpus by using the applications, e.g. if they found evidence unknown to them or new research ideas. ExamplesofinsightgainwereattestedwiththeENBinterface;thisconstitutesagood validationoftheworkcarriedoutinthethesis. Overall,theapplications’strengths andweaknesseswerepointedout,outliningpossibleimprovementsasfuturework. iv Keywords: EntityLinking,Wikification,RelationExtraction,PropositionExtraction, CorpusVisualization,NaturalLanguageProcessing,DigitalHumanities v Résumé Note:Lerésuméétenduenfrançaiscommenceàlap.263. LarechercheenScienceshumainesetsocialesreposesouventsurdegrandesmasses dedonnéestextuelles,qu’ilseraitimpossibledelireendétail.LeTraitementautoma- tiquedeslangues(TAL)peutidentifierdesconceptsetdesacteursimportantsmen- tionnésdansuncorpus,ainsiquelesrelationsentreeux.Cesinformationspeuvent fournirunaperçuducorpusquipeutêtreutilepourlesexpertsd’undomaineetles aideràidentifierleszonesducorpuspertinentespourleursquestionsderecherche. Pourannoterautomatiquementdescorpusd’intérêtenHumanitésnumériques,les technologiesTALquenousavonsappliquéessont,enpremierlieu,leliaged’entités (plusconnusouslenomdeEntityLinking),pouridentifierlesacteursetconceptsdu corpus;deuxièmement,lesrelationsentrelesacteursetlesconceptsontétédétermi- néessurlabased’unechaînedetraitementsTAL,quieffectueunétiquetagedesrôles sémantiquesetdesdépendancessyntaxiques,entreautresanalyseslinguistiques.La partieIdelathèsedécritl’étatdel’artsurcestechnologies,ensoulignantenmême tempsleuremploienHumanitésnumériques. DesoutilsTALgénériquesontétéutilisés.Commel’efficacitédesméthodesdeTAL dépendducorpusd’application,desdéveloppementsontétéeffectués,décritsdans lapartieII,afindemieuxadapterlesméthodesd’analyseauxcorpusdansnosétudes decas.LapartieIImontreégalementuneévaluationintrinsèquedelatechnologie développée,avecdesrésultatssatisfaisants. Lestechnologiesontétéappliquéesàtroiscorpustrèsdifférents,commedécritdansla partieIII.Toutd’abord,lesmanuscritsdeJeremyBentham,uncorpusdephilosophie politiquedes18e et19e siècles.Deuxièmement,lecorpusPoliInformatics,quicontient des matériaux hétérogènes sur la crise financière américaine de 2007–2008. Enfin, leBulletindesNégociationsdelaTerre(ENBdanssonacronymeanglais),quicouvre dessommetsinternationauxsurlapolitiqueclimatiquedepuis1995,oùdestraités commeleProtocoledeKyotooulesAccordsdeParisontéténégociés. Pourchaquecorpus,desinterfacesdenavigationontétédéveloppées.Cesinterfaces utilisateurcombinentlesréseaux,larechercheentexteintégraletlarecherchestructu- réebaséesurdesannotationsTAL.Àtitred’exemple,dansl’interfacepourlecorpus ENB,quicouvredesnégociationsenpolitiqueclimatique,desrecherchespeuvent êtreeffectuéessurlabased’informationsrelationnellesidentifiéesdanslecorpus: lesacteursdelanégociationayantabordéunsujetconcretenexprimantleursoutien ou leur opposition peuvent être recherchés. Le type de la relation entre acteurs et conceptsestexploité,au-delàdelasimpleco-occurrenceentrelestermesducorpus. Les interfaces ont été évaluées qualitativement avec des experts de domaine, afin d’estimerleurutilitépotentiellepourlarecherchedansleursdomainesrespectifs.Tout d’abord,onavérifiéquelesreprésentationsgénéréespourlecontenudescorpussont vi enaccordaveclesconnaissancesdesexpertsdudomaine,pourdécelerdeserreurs d’annotation.Ensuite,nousavonsessayédedéterminersilesexpertspouvaientêtre enmesured’avoirunemeilleurecompréhensionducorpusgrâceàl’utilisationdes applicationsdéveloppées,parexemple,sicelles-cipermettentderenouvelerleurs questionsderechercheexistantes.Onapumettreaujourdesexemplesoùungain decompréhensionsurlecorpusestobservégrâceàl’interfacedédiéeauBulletindes NégociationsdelaTerre,cequiconstitueunebonnevalidationdutravaileffectuédans la thèse. En conclusion, les points forts et faiblesses des applications développées ontétésoulignés,enindiquantdepossiblespistesd’améliorationentantquetravail futur. MotsClés:Liaged’entité,EntityLinking,Wikification,extractionderelations,extrac- tiondepropositions,visualisationdecorpus,Traitementautomatiquedeslangues, Humanitésnumériques vii Acknowledgements Iwouldliketothankmysupervisor,ThierryPoibeau,foreverything. Iwould also like to thank the other colleagues I did research with. The domain- experts who provided feedback about the applications in the thesis also needtobethanked. ThethesiswascarriedoutattheLatticelab,whichis a place to recommend for Linguistics, NLP, and Digital Humanities, and whose community I am thanking too. I had the chance to teach at some coursesoncorpusanalysistoolsandNLPapplications,that’sanexperience I’mgratefulforandthepeoplewhogavemethechancetodosoneedtobe thanked,aswellastheverydedicatedco-workersImetthereandthestu- dentsfortheexperience. Thepeoplewhohadfeedbackattalks,conferences orschoolsalsohelpedmedeveloptheworkinthethesisandthanksaredue tothem. Finally,I’dliketothankmyformercolleagues,thefinepeopleatV2 wholetmegotodothisthesis,andalsoQueenSt.peopleandothers,with whomIalsolearnedsomeofthethingsthatwereusefulfortheworkhere. Thethesisisdedicatedtomyfamilywhowerealwaysverysupportive.

Description:
utilisateur combinent les réseaux, la recherche en texte intégral et la recherche .. keyphrase map ~ Synonyms and antonyms for sinister interest 129.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.