Table Of Content

Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales MaiteGiménezFayos TrabajoFinaldelMásterUniversitarioen InteligenciaArtificialReconocimientodeFormaseImagenDigital. Tutores:LluísF.HurtadoyFerranPla UniversidadPolitècnicadeValència València Abril2016 Tutores: LluísF.HurtadoyFerranPla MaiteGiménezFayos Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales Resumen Estetrabajosecentraenlaresolucióndedistintastareaspropiasdelprocesamientoauto- máticodellenguajenatural,paralocualseempleóunaaproximaciónbasadaenalgorit- mosdeaprendizajeautomático. Lastareasconsideradasfueron:ladeteccióndelidioma,elanálisisdesentimientosyla creacióndeperfilesdeusuario.Setratadetareaspropuestasencompeticionesinternacio- nalesyquehandadolugaradiversaspublicaciones. Todasestastareasseplantearonutilizandodatosextraídosderedessociales,enparti- cular textos de Twitter. En general, los textos que pueden encontrarse en estos medios poseen una serie de características (textos cortos y agramaticales) que plantean nuevos retosparaelprocesamientodellenguajenatural. Encadacaso,seestudiaelestadodelarteyseproponeunmodeloqueseajustealos requisitos de la tarea. Para ello, se emplean los recursos y los algoritmos de aprendizaje automático supervisado más adecuados. Finalmente, se ha analizado los resultados y se plantean futuras modificaciones que mejoren el comportamiento de los sistemas plan- teados. iii Advisors: LluísF.HurtadoyFerranPla MaiteGiménezFayos A machine learning approach for natural language processing tasks in social media Abstract ThisworkisfocusedonsolvingseveralNaturalLanguageProcessingtasks,forwhichan approachbasedonmachinelearningalgorithmswasused. Thetasksaddressedwere:languageidentification,sentimentanalysisandauthorprofi- ling.Thesetaskswereproposedbyinternationalcompetitionswhichhaveledtopublish severalpapers. Adatasetofsocialmediatextswereusedinthesetasks,mainlyfromTwitter.Overall, thesetextspresentsomecharacteristics(shortandungramaticaltexts)thatarechallenging forNaturalLanguageProcessingtechniques. Foreachtask,thestate-of-the-artisstudiedandamodeltosolvethetaskisproposed. Inordertocreateavalidmodel,severalresourcesandsupervisedmachinelearningtech- niqueswereused.Finally,theresultsobtainedwereanalyzedandimprovementstothe modelwereproposedtoenhancethebehaviorofthemodel. iii Índice general 1. Introducción 1 1.1. Descripcióndelproblema,motivaciónyobjetivos . . . . . . . . . . . . 1 1.2. Estructuradeltrabajofinaldemáster . . . . . . . . . . . . . . . . . . . 4 2. Marcoteórico 6 2.1. Representancióndeltexto . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2. Algoritmosdeaprendizajeautomático . . . . . . . . . . . . . . . . . . 13 2.3. Métricasempleadasparaevaluarelrendimientodelossistemas . . . . . . 18 3. Deteccióndeidioma 22 3.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 36 4. Análisisdesentimientos 37 4.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.4. Presentacióndelametodologíapropuesta . . . . . . . . . . . . . . . . 47 4.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 59 5. Caracterizacióndeperfilesdeusuario 62 5.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 iv 5.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.6. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 81 6. Conclusiones 83 ApéndiceA. Publicaciones 86 Referencias 95 v Índice de figuras 1.1. Esquemageneraldeunclasificador. . . . . . . . . . . . . . . . . . . . . 3 2.1. Ejemplodelproblemadeladimensionalidad.Enelcasodeunadimensión únicamentenecesitamosdiferenciar10áreasdeinterés.Condosdimensio- nes,elalgoritmodeberásercapazdediferenciarentre100áreasdistintasy porlotantonecesitaremosveralmenos100muestrasdeaprendizaje.Por últimoenelcasode3dimensionesnecesitaremosdistinguirentre103 re- gionesdelespaciolocualcomplicatodavíamáselproblema.Engeneral, en un problema con d dimensiones y v valores a distinguir en cada eje, necesitaremosverO(vd). . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.1. Distribución de la polaridad en función de la fecha de creación de los tweetsdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev- testdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.3. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev- testdelatarea11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.4. DistribucióndelaspalabrassiguiendolaleydeZipf. . . . . . . . . . . . 47 4.5. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque seutilizaenelcorpusdelatarea10. . . . . . . . . . . . . . . . . . . . . 48 4.6. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque seutilizaenelcorpusdelatarea11. . . . . . . . . . . . . . . . . . . . . 49 4.7. Resultadosdeexactitudobtenidosdurantelaexperimentacióninicialsi- guiendodistintasaproximacionesparavectorizareltextocomoparaen- trenarelsistemadelatarea10. . . . . . . . . . . . . . . . . . . . . . . . 53 5.1. Distribucióndelgéneroenelcorpusdeentrenamiento. . . . . . . . . . . 67 5.2. Distribuciónporedadenelcorpusdeentrenamiento. . . . . . . . . . . 67 5.3. Distribucióndelrasgodepersonalidadafableenelcorpusdeentrenamiento. 68 5.4. Distribucióndelosquincehashtagsmásfrecuentesencastellano. . . . . . 70 vi 5.5. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor- pusenitaliano.Laetiquetadecadaclasedefinelostrescomponentesdel modelo:sisehaempleadounlexicóneninglésotraducido,eltipodevec- torizacióndeltextoyelalgoritmodeaprendizajeempleado. . . . . . . . 74 5.6. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor- pusenholandés.Cadasistemaestáetiquetadoanálogamentealagráfica 5.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.7. DiagramadecuartilesparaelgéneroenItaliano. . . . . . . . . . . . . . 76 5.8. Diagramadecuartilesparaelrasgodepersonalidad“abierto”enItaliano. . 77 vii Índice de tablas 3.1. Distribucióndelidiomaenqueestabanescritoslostweetsdelcorpusre- colectadoparalatareaTweetLID. . . . . . . . . . . . . . . . . . . . . . 28 3.2. TalladelvocabularioextraídodelaWikipedia . . . . . . . . . . . . . . . 31 3.3. Evaluacióndelossistemasdurantelafaseexperimentalrealizandounava- lidacióncruzadaconcincoparticiones. . . . . . . . . . . . . . . . . . . 33 3.4. Evaluación por idioma durante la fase de entrenamiento realizando una validacióncruzadaconcincoparticiones . . . . . . . . . . . . . . . . . 34 3.5. Evaluacióndelossistemasenelconcurso. . . . . . . . . . . . . . . . . . 35 4.1. Porcentaje de palabras con polaridad en los córpora de las tareas 10 y 11 utilizandodiferenteslexicones. . . . . . . . . . . . . . . . . . . . . . . 51 4.2. Métricasobtenidasdurantelafasededesarrollodenuestrosmejoressiste- masenlatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3. Resultadosdelaevaluaciónoficialdelatarea10comparadocontraelsis- temaquemejorypeorcomportamientopresentóporcorpus. . . . . . . 57 4.4. Resultados oficiales de la evaluación de la tarea 11 comparando nuestro sistemacontraelmejoryelpeorsistemapresentadoencadacategoría. . . 58 4.5. Evaluacióndelatarea11empleandoMeanSquareError(MSE). . . . . . . 59 4.6. Ejemplo de tweets etiquetados erróneamente por nuestro sistema en la tarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.1. Distribucióndelnúmerodetweetsyautoresenelconjuntodeentrena- miento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2. Distribucióndelnúmerodeautoresenelconjuntodeevaluación . . . . . 66 5.3. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporedad. . . 69 5.4. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporgénero. . 69 5.5. Exactitudmediaobtenidamediantevalidacióncruzadadurantelafasede entrenamientodelPAN. . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.6. PrecisiónmediaobtenidaenlaevaluaciónoficialdelPAN. . . . . . . . . 80 viii Acrónimos AP AuthorProfiling.62–65,71,82 BOW BagofWords.7 DAG DirectedAcyclicGraph.15 IR InformationRetrieval.7,12 LID LanguageIdentification.22–24,35 LSA LatentSemanticAnalysis.44 MLE Maximum-LikelihoodEstimation.11,12 MSE MeanSquareError.viii,20,58,59 NLP NaturalLanguageProcessing.2,12,22,38,39,62–65,84 RMSE RootMeanSquareError.68,78,80,81 SA SentimentAnalysis.38–41 SVM SupportVectorMachine.14,32,34,40,54,56,58,79,81 SVR SupportVectorRegression.56 ix 1 Introducción Antesdeintroducirnosenladescripcióndetalladadeltrabajorealizadocomoconclu- sión del “Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e ImagenDigital”,queremosdetenernosenestecapítuloparacontextualizarelámbitoteó- ricoenelqueseenmarcayenfatizarelinterésdelacomunidadcientíficaenelestudiode lalingüísticacomputacional. 1.1. Descripción del problema, motivación y objetivos Comenzaremos por definir el objetivo de la lingüística computacional siguiendo la aproximaciónquepodemosencontrarenellibrodeManningandSchütze[42].Dicha área se enfoca en ser capaz de explicar y caracterizar el lenguaje natural que empleamos loshablantesdeunalenguaennuestracomunicación,bienseaoraloescrita.Setratade uncampodeestudiointerdisciplinarenelqueconfluyenlaLingüísticaylaInteligencia Artificial. Lasprimerasaproximacionesaesteestudiosecentraronenintentarcompilarunconjunto dereglasquedescribieranellenguaje,conlaesperanzaqueesteconocimientopermitiera comprenderlo. Paulatinamenteseevolucionóhacialaconstruccióndegramáticasformalesquefaciliten deunmodorigurosoelavanceenelestudiodelalingüísticacomputacional. 1

Description:

Advisors: Lluís F. Hurtado y Ferran Pla. Maite Giménez Fayos. A machine learning approach for natural language processing tasks in social media.

Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento ... PDF

104 Pages·2016·1.45 MB·Spanish

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento ...

Description:

Advisors: Lluís F. Hurtado y Ferran Pla. Maite Giménez Fayos. A machine learning approach for natural language processing tasks in social media.

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.