Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales MaiteGiménezFayos TrabajoFinaldelMásterUniversitarioen InteligenciaArtificialReconocimientodeFormaseImagenDigital. Tutores:LluísF.HurtadoyFerranPla UniversidadPolitècnicadeValència València Abril2016 Tutores: LluísF.HurtadoyFerranPla MaiteGiménezFayos Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales Resumen Estetrabajosecentraenlaresolucióndedistintastareaspropiasdelprocesamientoauto- máticodellenguajenatural,paralocualseempleóunaaproximaciónbasadaenalgorit- mosdeaprendizajeautomático. Lastareasconsideradasfueron:ladeteccióndelidioma,elanálisisdesentimientosyla creacióndeperfilesdeusuario.Setratadetareaspropuestasencompeticionesinternacio- nalesyquehandadolugaradiversaspublicaciones. Todasestastareasseplantearonutilizandodatosextraídosderedessociales,enparti- cular textos de Twitter. En general, los textos que pueden encontrarse en estos medios poseen una serie de características (textos cortos y agramaticales) que plantean nuevos retosparaelprocesamientodellenguajenatural. Encadacaso,seestudiaelestadodelarteyseproponeunmodeloqueseajustealos requisitos de la tarea. Para ello, se emplean los recursos y los algoritmos de aprendizaje automático supervisado más adecuados. Finalmente, se ha analizado los resultados y se plantean futuras modificaciones que mejoren el comportamiento de los sistemas plan- teados. iii Advisors: LluísF.HurtadoyFerranPla MaiteGiménezFayos A machine learning approach for natural language processing tasks in social media Abstract ThisworkisfocusedonsolvingseveralNaturalLanguageProcessingtasks,forwhichan approachbasedonmachinelearningalgorithmswasused. Thetasksaddressedwere:languageidentification,sentimentanalysisandauthorprofi- ling.Thesetaskswereproposedbyinternationalcompetitionswhichhaveledtopublish severalpapers. Adatasetofsocialmediatextswereusedinthesetasks,mainlyfromTwitter.Overall, thesetextspresentsomecharacteristics(shortandungramaticaltexts)thatarechallenging forNaturalLanguageProcessingtechniques. Foreachtask,thestate-of-the-artisstudiedandamodeltosolvethetaskisproposed. Inordertocreateavalidmodel,severalresourcesandsupervisedmachinelearningtech- niqueswereused.Finally,theresultsobtainedwereanalyzedandimprovementstothe modelwereproposedtoenhancethebehaviorofthemodel. iii Índice general 1. Introducción 1 1.1. Descripcióndelproblema,motivaciónyobjetivos . . . . . . . . . . . . 1 1.2. Estructuradeltrabajofinaldemáster . . . . . . . . . . . . . . . . . . . 4 2. Marcoteórico 6 2.1. Representancióndeltexto . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2. Algoritmosdeaprendizajeautomático . . . . . . . . . . . . . . . . . . 13 2.3. Métricasempleadasparaevaluarelrendimientodelossistemas . . . . . . 18 3. Deteccióndeidioma 22 3.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 36 4. Análisisdesentimientos 37 4.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.4. Presentacióndelametodologíapropuesta . . . . . . . . . . . . . . . . 47 4.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 59 5. Caracterizacióndeperfilesdeusuario 62 5.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 iv 5.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.6. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 81 6. Conclusiones 83 ApéndiceA. Publicaciones 86 Referencias 95 v Índice de figuras 1.1. Esquemageneraldeunclasificador. . . . . . . . . . . . . . . . . . . . . 3 2.1. Ejemplodelproblemadeladimensionalidad.Enelcasodeunadimensión únicamentenecesitamosdiferenciar10áreasdeinterés.Condosdimensio- nes,elalgoritmodeberásercapazdediferenciarentre100áreasdistintasy porlotantonecesitaremosveralmenos100muestrasdeaprendizaje.Por últimoenelcasode3dimensionesnecesitaremosdistinguirentre103 re- gionesdelespaciolocualcomplicatodavíamáselproblema.Engeneral, en un problema con d dimensiones y v valores a distinguir en cada eje, necesitaremosverO(vd). . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.1. Distribución de la polaridad en función de la fecha de creación de los tweetsdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev- testdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.3. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev- testdelatarea11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.4. DistribucióndelaspalabrassiguiendolaleydeZipf. . . . . . . . . . . . 47 4.5. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque seutilizaenelcorpusdelatarea10. . . . . . . . . . . . . . . . . . . . . 48 4.6. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque seutilizaenelcorpusdelatarea11. . . . . . . . . . . . . . . . . . . . . 49 4.7. Resultadosdeexactitudobtenidosdurantelaexperimentacióninicialsi- guiendodistintasaproximacionesparavectorizareltextocomoparaen- trenarelsistemadelatarea10. . . . . . . . . . . . . . . . . . . . . . . . 53 5.1. Distribucióndelgéneroenelcorpusdeentrenamiento. . . . . . . . . . . 67 5.2. Distribuciónporedadenelcorpusdeentrenamiento. . . . . . . . . . . 67 5.3. Distribucióndelrasgodepersonalidadafableenelcorpusdeentrenamiento. 68 5.4. Distribucióndelosquincehashtagsmásfrecuentesencastellano. . . . . . 70 vi 5.5. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor- pusenitaliano.Laetiquetadecadaclasedefinelostrescomponentesdel modelo:sisehaempleadounlexicóneninglésotraducido,eltipodevec- torizacióndeltextoyelalgoritmodeaprendizajeempleado. . . . . . . . 74 5.6. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor- pusenholandés.Cadasistemaestáetiquetadoanálogamentealagráfica 5.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.7. DiagramadecuartilesparaelgéneroenItaliano. . . . . . . . . . . . . . 76 5.8. Diagramadecuartilesparaelrasgodepersonalidad“abierto”enItaliano. . 77 vii Índice de tablas 3.1. Distribucióndelidiomaenqueestabanescritoslostweetsdelcorpusre- colectadoparalatareaTweetLID. . . . . . . . . . . . . . . . . . . . . . 28 3.2. TalladelvocabularioextraídodelaWikipedia . . . . . . . . . . . . . . . 31 3.3. Evaluacióndelossistemasdurantelafaseexperimentalrealizandounava- lidacióncruzadaconcincoparticiones. . . . . . . . . . . . . . . . . . . 33 3.4. Evaluación por idioma durante la fase de entrenamiento realizando una validacióncruzadaconcincoparticiones . . . . . . . . . . . . . . . . . 34 3.5. Evaluacióndelossistemasenelconcurso. . . . . . . . . . . . . . . . . . 35 4.1. Porcentaje de palabras con polaridad en los córpora de las tareas 10 y 11 utilizandodiferenteslexicones. . . . . . . . . . . . . . . . . . . . . . . 51 4.2. Métricasobtenidasdurantelafasededesarrollodenuestrosmejoressiste- masenlatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3. Resultadosdelaevaluaciónoficialdelatarea10comparadocontraelsis- temaquemejorypeorcomportamientopresentóporcorpus. . . . . . . 57 4.4. Resultados oficiales de la evaluación de la tarea 11 comparando nuestro sistemacontraelmejoryelpeorsistemapresentadoencadacategoría. . . 58 4.5. Evaluacióndelatarea11empleandoMeanSquareError(MSE). . . . . . . 59 4.6. Ejemplo de tweets etiquetados erróneamente por nuestro sistema en la tarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.1. Distribucióndelnúmerodetweetsyautoresenelconjuntodeentrena- miento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2. Distribucióndelnúmerodeautoresenelconjuntodeevaluación . . . . . 66 5.3. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporedad. . . 69 5.4. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporgénero. . 69 5.5. Exactitudmediaobtenidamediantevalidacióncruzadadurantelafasede entrenamientodelPAN. . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.6. PrecisiónmediaobtenidaenlaevaluaciónoficialdelPAN. . . . . . . . . 80 viii Acrónimos AP AuthorProfiling.62–65,71,82 BOW BagofWords.7 DAG DirectedAcyclicGraph.15 IR InformationRetrieval.7,12 LID LanguageIdentification.22–24,35 LSA LatentSemanticAnalysis.44 MLE Maximum-LikelihoodEstimation.11,12 MSE MeanSquareError.viii,20,58,59 NLP NaturalLanguageProcessing.2,12,22,38,39,62–65,84 RMSE RootMeanSquareError.68,78,80,81 SA SentimentAnalysis.38–41 SVM SupportVectorMachine.14,32,34,40,54,56,58,79,81 SVR SupportVectorRegression.56 ix 1 Introducción Antesdeintroducirnosenladescripcióndetalladadeltrabajorealizadocomoconclu- sión del “Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e ImagenDigital”,queremosdetenernosenestecapítuloparacontextualizarelámbitoteó- ricoenelqueseenmarcayenfatizarelinterésdelacomunidadcientíficaenelestudiode lalingüísticacomputacional. 1.1. Descripción del problema, motivación y objetivos Comenzaremos por definir el objetivo de la lingüística computacional siguiendo la aproximaciónquepodemosencontrarenellibrodeManningandSchütze[42].Dicha área se enfoca en ser capaz de explicar y caracterizar el lenguaje natural que empleamos loshablantesdeunalenguaennuestracomunicación,bienseaoraloescrita.Setratade uncampodeestudiointerdisciplinarenelqueconfluyenlaLingüísticaylaInteligencia Artificial. Lasprimerasaproximacionesaesteestudiosecentraronenintentarcompilarunconjunto dereglasquedescribieranellenguaje,conlaesperanzaqueesteconocimientopermitiera comprenderlo. Paulatinamenteseevolucionóhacialaconstruccióndegramáticasformalesquefaciliten deunmodorigurosoelavanceenelestudiodelalingüísticacomputacional. 1
Description: