Parsing and Evaluation. Improving Dependency Grammars Accuracy Anàlisi Sintàctica Automàtica i Avaluació. Millora de qualitat per a Gramàtiques de Dependències Marina Lloberes Salvatella Aquesta tesi doctoral està subjecta a la llicència Reconeixement- CompartIgual 3.0. Espanya de Creative Commons. Esta tesis doctoral está sujeta a la licencia Reconocimiento - CompartirIgual 3.0. España de Creative Commons. This doctoral thesis is licensed under the Creative Commons Attribution-ShareAlike 3.0. Spain License. Parsing and Evaluation. Improving Dependency Grammars Accuracy AnàlisiSintàcticaAutomàticaiAvaluació.MilloradequalitatperaGramàtiquesdeDependències ADissertationSubmittedinPartialFulfilmentoftheRequirements oftheDegreeofDoctorofPhilosophywiththeInternationalMention MarinaLloberesSalvatella Supervisors: IreneCastellónMasalles LluísPadróCirera CiènciaCognitivaiLlenguatge DepartamentdeFilologiaCatalanaiLingüísticaGeneral UniversitatdeBarcelona May2016 ParsingandEvaluation ImprovingDependencyGrammarsAccuracy ii ABSTRACT Becauseparsersarestilllimitedinanalysingspecificambiguousconstructions,theresearchpre- sentedinthisthesismainlyaimstocontributetotheimprovementofparsingperformancewhenit hasknowledgeintegratedinordertodealwithambiguouslinguisticphenomena. Moreprecisely, this thesis intends to provide empirical solutions to the disambiguation of prepositional phrase attachment and argument recognition in order to assist parsers in generating a more accurate syntacticanalysis. Thedisambiguationofthesetwohighlyambiguouslinguisticphenomenaby the integration of knowledge about the language necessarily relies on linguistic and statistical strategiesforknowledgeacquisition. The starting point of this research proposal is the development of a rule-based grammar for Spanish and for Catalan following the theoretical basis of Dependency Grammar (Tesnière, 1959;Mel’čuk,1988)inordertocarryouttwoexperimentsabouttheintegrationofautomatically- acquired knowledge. In order to build two robust grammars that understand a sentence, the FreeLingpipeline(Padróetal.,2010)hasbeenusedasaframework.Ontheotherhand,aneclectic repertoireofcriteriaaboutthenatureofsyntacticheadsisproposedbyreviewingthepostulates ofGenerativeGrammar(Chomsky,1981;BonetandSolà,1986;Haegeman,1991)andDependency Grammar(Tesnière,1959;Mel’čuk,1988). Furthermore,asetofdependencyrelationsisprovided andmappedtoUniversalDependencies(Mcdonaldetal.,2013). Furthermore, an empirical evaluation method has been designed in order to carry out both a quantitative and a qualitative analysis. In particular, the dependency parsed trees generated by the grammars are compared to real linguistic data. The quantitative evaluation is based on the Spanish Tibidabo Treebank (Marimon et al., 2014), which is large enough to carry out a real analysisofthegrammarsperformanceandwhichhasbeenannotatedwiththesameformalism asthegrammars, syntacticdependencies. Sincethecriteriabetweenbothresourcesarediffer- ent, a process of harmonization has been applied developing a set of rules that automatically adapt the criteria of the corpus to the grammar criteria. With regard to qualitative evaluation, there are no available resources to evaluate Spanish and Catalan dependency grammars quali- tatively. Forthisreason,atestsuiteofsyntacticphenomenaaboutstructureandwordorderhas been built. In order to create a representative repertoire of the languages observed, descriptive grammars(BosqueandDemonte,1999;Solàetal.,2002)andtheSenSemCorpus(Vázquezand iii ParsingandEvaluation ImprovingDependencyGrammarsAccuracy Fernández-Montraveta, 2015) have been used for capturing relevant structures and word order patterns,respectively. Thankstothesetwotools,twoexperimentshavebeencarriedoutinordertoprovethatknowl- edgeintegrationimprovestheparsingaccuracy. Ontheonehand,theautomaticlearningoflan- guagemodelshasbeenexploredbymeansofstatisticalmethodsinordertodisambiguatePP- attachment. More precisely, a model has been learned with a supervised classifier using Weka (WittenandFrank,2005). Furthermore,anunsupervisedmodelbasedonwordembeddingshas been applied (Mikolov et al., 2013a,b). The results of the experiment show that the supervised methodislimitedinpredictingsolutionsforunseendata,whichisresolvedbytheunsupervised methodsinceprovidesasolutionforanycase. However,theunsupervisedmethodislimitedifit onlylearnsfromlexicaldata. Forthisreason,trainingdataneedstobeenrichedwiththelexical value of the preposition, as well as semantic and syntactic features. In addition, the number of patterns used to learn language models has to be extended in order to have an impact on the grammars. Ontheotherhand,anotherexperimentiscarriedoutinordertoimprovetheargumentrecog- nitioninthegrammarsbytheacquisitionoflinguisticknowledge. Inthisexperiment,knowledge isacquiredautomaticallyfromtheextractionofverbsubcategorizationframesfromtheSenSem Corpus (Vázquez and Fernández-Montraveta, 2015) which contains the verb predicate and its arguments annotated syntactically. As a result of the information extracted, subcategorization frames have been classified into subcategorization classes regarding the patterns observed in thecorpus. Theresultsofthesubcategorizationclassesintegrationinthegrammarsprovethat thisinformationincreasestheaccuracyoftheargumentrecognitioninthegrammars. Theresultsoftheresearchofthisthesisshowthatgrammars’rulesontheirownarenotex- pressive enough to resolve complex ambiguities. However, the integration of knowledge about theseambiguitiesinthegrammarsmaybedecisiveinthedisambiguation. Ontheonehand,sta- tisticalknowledgeaboutPP-attachmentcanimprovethegrammarsaccuracy,butsyntacticand semantic information, and new patterns of PP-attachment need to be included in the language models in order to contribute to disambiguate this phenomenon. On the other hand, linguistic knowledge about verb subcategorization acquired from annotated linguistic resources show a positiveinfluencepositivelyongrammars’accuracy. iv RESUM Aquestatesivoltractarleslimitacionsambquèestrobenelsanalitzadorssintàcticsautomàtics actualment. Tot i els progressos que s’han fet en l’àrea del Processament del Llenguatge Nat- ural en els darrers anys, les tecnologies del llenguatge i, en particular, els analitzadors sintàc- tics automàtics no han pogut traspassar el llindar de certes ambiguïtats estructurals com ara l’agrupaciódelsintagmapreposicionalielreconeixementd’arguments. Ésperaquestmotiuque larecercadutaatermeenaquestatesitécomaobjectiuaportarmilloressignificativesdequali- tatal’anàlisisintàcticaautomàticapermitjàdelaintegraciódeconeixementlingüísticiestadístic perdesambiguarconstruccionssintàctiquesambigües. Elpuntdepartidadelarecercahaestateldesenvolupamentded’unagramàticaenespanyol iunaaltraencatalàbasadesenreglesquesegueixenelspostulatsdelaGramàticadeDependèn- dencies(Tesnière,1959;Mel’čuk,1988)pertaldeduratermeelsexperimentssobrel’adquisició deconeixementautomàtic. Pertaldecrearduesgramàtiquesrobustesqueanalitzinientenguin l’oració en profunditat, ens hem basat en l’arquitectura de FreeLing (Padró et al., 2010), una lli- breria de Processament de Llenguatge Natural que proveeix una anàlisi lingüística automàtica de l’oració. Per una altra banda, s’ha elaborat una proposta eclèctica de criteris lingüístics per determinarlaformaciódelssintagmesilesclàusulesalagramàticapermitjàdelarevisiódeles propostes teòriques de la Gramàtica Generativa (Chomsky, 1981; Bonet and Solà, 1986; Haege- man,1991)idelaGramàticadeDependències(Tesnière,1959;Mel’čuk,1988). Aquestaproposta s’acompanyad’unllistatdelesetiquetesderelaciódedependènciaquefanservirlesreglesdeles gramàtques. A més a més de l’elaboració d’aquest llistat, s’han establert les correspondències ambl’estàndardd’anotaciódelesDependènciesUniversals(Mcdonaldetal.,2013). Alhora,s’hadissenyatunsistemad’avaluacióempíricquetéencomptel’anàlisiquantitativa iqualitativapertaldeferunavaloraciócompletadelsresultatsdelsexperiments. Precisament, estractaunatascaempíricapelfetqueescomparenlesanàlisisgeneradesperlesgramàtiques amb dades reals de la llengua. Per tal de dur a terme l’avaluació des d’una perspectiva quan- titativa, s’ha fet servir el corpus Tibidabo en espanyol (Marimon et al., 2014) disponible només en espanyol que és prou extens per construir una anàlisi real de les gramàtiques i que ha estat anotatambelmateixformalismequelesgramàtiques. Enconcret,pertalcomelscriterisdeles gramàtiquesidelcorpusnosóncoincidents,s’hadutatermeunprocésd’harmonitzaciódecri- v ParsingandEvaluation ImprovingDependencyGrammarsAccuracy terispermitjàd’unesreglescreadesmanualmentqueadaptenautomàticamentl’estructuraila relaciódedependènciadelcorpusalcriteridelesgramàtiques.Pelquefaal’avaluacióqualitativa, pelfetquenohiharecursosdisponiblesenespanyolicatalà,hemdissenyatunreprertoridetest defenòmenssintàcticsestructuralsirelacionatsambl’ordredel’oració. Ambl’objectiudecrear un repertori representatiu de les llengües estudiades, s’han fet servir gramàtiques descriptives per fornir el repertori d’estructures sintàctiques (Bosque and Demonte, 1999; Solà et al., 2002) i el Corpus SenSem (Vázquez and Fernández-Montraveta, 2015) per capturar automàticament l’ordreoracional. Gràcies a aquestes dues eines, s’han pogut dur a terme dos experiments per provar que la integraciódeconeixement enl’anàlisisintàctica automàticaen millora laqualitat. D’una banda, s’ha explorat l’aprenentatge de models de llenguatge per mitjà de models estadístics per tal de proposar solucions a l’agrupació del sintagma preposicional. Més concretament, s’ha desen- volupat un model de llenguatge per mitjà d’un classificador d’aprenentatge supervisat de Weka (WittenandFrank,2005).Amésamés,s’haaprèsunmodeldellenguatgepermitjàd’unmètode no supervisat basat en l’aproximació distribucional anomenat word embeddings (Mikolov et al., 2013a,b). Elsresultatsdel’experimentposendemanifestqueelmètodesupervisattégreuslim- itacions per fer donar una resposta en dades que no ha vist prèviament, cosa que és superada pel mètode no supervisat pel fet que és capaç de classificar qualsevol cas. De tota manera, el mètodenosupervisatques’haestudiatéslimitatsiaprènapartirdedadeslèxiques.Peraquesta raó,ésnecessariquelesdadesutilitzadesperentrenarelmodelcontinguinelvalordelapreposi- ció,tretssintàcticsisemàntics. Amésamés,calampliarelnúmerodepatronsapresospertal d’ampliarlacoberturadelsmodelsitenirunimpacteenelsresultatsdelesgramàtiques. D’unaaltrabanda,s’haproposatunamanerademillorarelreconeixementd’argumentsales gramàtiquespermitjàdel’adquisiciódeconeixementlingüístic. Enaquestexperiment, s’haop- tatperextreureautomàticamentelconeixementenformadeclassesdesubcategoritzacióverbal d’el Corpus SenSem (Vázquez and Fernández-Montraveta, 2015), que conté anotats sintàctica- mentelpredicatverbalielsseusarguments. Apartirdelainformacióextreta,s’haclassificatles diversesdiàtesisverbalsenclassesdesubcategoritzacióverbalenfunciódelspatronsobservats enelcorpus. Elsresultatsdelaintegraciódelesclassesdesubcategoritzacióalesgramàtiques mostrenqueaquestainformaciódeterminapositivamentelreconeixementdelsarguments. Els resultats de la recerca duta a terme en aquesta tesi doctoral posen de manifest que les regles de les gramàtiques no són prou expressives per elles mateixes per resoldre ambigüitats complexes del llenguatge. No obstant això, la integració de coneixement sobre aquestes am- bigüitatspotserdecisiual’horadeproposarunasolució.D’unabanda,elconeixementestadístic sobrel’agrupaciódelsintagmapreposicionalpotmillorarlaqualitatdelesgramàtiques,peròper afirmar-hocalincloureinformaciósintàcticaisemànticaenelsmodelsd’aprenentatgeautomàtic i capturar més patrons per contribuir en la desambiguació de fenòmens complexos. D’una al- trabanda, elconeixementlingüísticsobresubcategoritzacióverbaladquiritderecursoslingüís- tics anotats influeix decisivament en la qualitat de les gramàtiques per a l’anàlisi sintàctica au- tomàtica. vi CONTENTS Abstract iii Resum v 1 Introduction 9 1.1 ResearchMotivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 AimofthisThesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 MainHypothesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4 ThesisStructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 TrendsinParsing 19 2.1 TheoreticalFrameworksinParsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.1.1 ConstituencyGrammars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.1.1.1 PhraseStructureGrammar . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.2 DependencyGrammars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.2.1 Meaning-TextTheory . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1.2.2 LinkGrammar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.1.2.3 ConstraintDependencyGrammar . . . . . . . . . . . . . . . . . . . 28 2.1.2.4 ExtensibleDependencyGrammar . . . . . . . . . . . . . . . . . . . 29 2.1.3 UnificationGrammars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.3.1 Head-DrivenPhraseStructureGrammar . . . . . . . . . . . . . . . 32 2.1.4 ImplementationinParsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 MethodologicalFrameworksinParsing . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.1 ProjectiveStrategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.2 DeterministicMethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.3 Rule-basedApproach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2.4 Statistical-basedApproach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3 LanguageDiversityinParsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1 ParsingandEvaluation ImprovingDependencyGrammarsAccuracy 3 NaturalLanguageAmbiguityinParsing 45 3.1 NaturalLanguageAmbiguity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2 PrepositionalPhraseAttachment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.1 Definitionoftheproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.2 LearningtheattachmentofthePP . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3 ArgumentRecognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.3.1 Definitionoftheproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.3.2 Subcategorizationframesacquisition . . . . . . . . . . . . . . . . . . . . . . 56 4 Methodology 59 5 FreeLingDependencyGrammars 63 5.1 TxalaParser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.2 DependencyGrammarsArchitecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2.1 AttachmentRules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2.2 LabellingRules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.3 CriteriaforSyntacticDependenciesRepresentation . . . . . . . . . . . . . . . . . . 73 5.3.1 TheNatureofSyntacticHeads . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.3.2 AuxiliaryisAuxiliary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.3.3 MeaningfulPreposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.3.4 StructuralDiversityinSubordinateClauses . . . . . . . . . . . . . . . . . . . 81 5.3.4.1 SubstantiveandAdverbialClauses . . . . . . . . . . . . . . . . . . 81 5.3.4.2 RelativeClause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.3.4.3 FreeRelativeClauseandIndirectQuestion . . . . . . . . . . . . . . 86 5.3.5 EncodingCoordinationStructures . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4 DependencyRelations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.5 GrammarDevelopment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6 DependencyGrammarsEvaluation 107 6.1 EvaluationMethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.2 EvaluationMetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.3 EvaluationData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.3.1 QuantitativeAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.3.1.1 MappingofAnCoraCorpus . . . . . . . . . . . . . . . . . . . . . . 113 6.3.1.2 MappingofTibidaboTreebak . . . . . . . . . . . . . . . . . . . . . 116 6.3.2 QualitativeAnalysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3.2.1 ParTesTestSuite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4 EvaluationTask . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 2 ParsingandEvaluation ImprovingDependencyGrammarsAccuracy 7 ExploringPP-attachment 133 7.1 ASupervisedApproachforPP-attachment . . . . . . . . . . . . . . . . . . . . . . . 134 7.2 LearningPP-attachmentDistributionally . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2.1 Distributionalmethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2.2 PP-attachmentTrainingandTestData. . . . . . . . . . . . . . . . . . . . . . 139 7.2.2.1 TrainingDataforNaiveClassification . . . . . . . . . . . . . . . . . 139 7.2.2.2 TrainingDataforWordEmbeddings . . . . . . . . . . . . . . . . . 140 7.2.2.3 TestData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 7.2.3 NaiveSupervisedClassifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.2.4 LearningWordEmbeddings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.3 IntegrationofPP-attachmentKnowledgeinFDGs . . . . . . . . . . . . . . . . . . . 154 7.4 EvaluationofPP-attachmentPerformance . . . . . . . . . . . . . . . . . . . . . . . 156 7.4.1 EvaluationExperiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 7.4.2 EvaluationResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7.4.3 AnalysisoftheResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 8 ImprovingArgumentRecognition 165 8.1 AcquisitionofSubcategorizationInformation . . . . . . . . . . . . . . . . . . . . . . 166 8.1.1 InitialSubcategorizationFrames . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.1.2 RedesignofSubcategorizationFrames . . . . . . . . . . . . . . . . . . . . . 168 8.1.3 IntegrationofCompLex-VSintheFDGs . . . . . . . . . . . . . . . . . . . . . 170 8.2 EvaluationofDependencyRelationsLabelling . . . . . . . . . . . . . . . . . . . . . . 172 8.2.1 EvaluationExperiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 8.2.2 AccuracyResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 8.2.3 PrecisionResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 8.2.4 RecallResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 8.2.5 AnalysisoftheResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 8.3 ComparisonofFDGs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 9 Conclusions 183 Bibliography 190 Appendix 211 3
Description: