Multilingual Automated Text Anonymization Francisco Manuel Carvalho Dias Thesis to obtain the Master of Science Degree in Information Systems and Computer Engineering Supervisors: Prof. Dr. Nuno João Neves Mamede Dr. João de Almeida Varelas Graça Examination Committee Chairperson: Prof. Dr. Alberto Manuel Rodrigues da Silva Supervisor: Prof. Dr. Nuno João Neves Mamede Members of the Committee: Prof. Dr. Jorge Manuel Evagelista Baptista Prof. Dr. Maria Luísa Torres Ribeiro Marques da Silva Coheur June 2016 Abstract Sharing data in the form of text is important for a wide range of activities but it also raises a concern aboutprivacywhensharingdatathatcouldbesensitive. Automatedtextanonymizationisasolution forremovingallthesensitiveinformationfromdocuments. However,thisisachallengingtaskdueto theunstructuredformoftextualdataandtheambiguityofnaturallanguage. Inthiswork,wepresenttheimplementationofamultilingualanonymizationsystemfortextdocuments infourlanguages: English,German,PortugueseandSpanish. Fourdifferentmethodsofanonymizationareevaluatedandcompared. Twomethodsreplacethesen- sitive information by artificial labels: suppression and tagging. The other two methods replace the informationbytextualexpressions: randomsubstitutionandgeneralization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information. iii Resumo A partilha de dados sob a forma de texto é importante numa vasta gama de actividades. Porém, a partilha de dados suscita preocupações quanto a privacidade no caso em que os textos contêm infor- mação sensível. A anonimização automática de texto é uma solução para a remoção das informações confidenciaiscontidasemdocumentos. Noentanto,estaéumatarefadesafiadoradevidoàformanão estruturadadosdadosemformadetextoedaambiguidadedalínguanatural. Nestetrabalho,apresentamosaimplementaçãodeumsistemadeanonimizaçãomultilingueparadoc- umentosemquatroidiomas: Alemão,Espanhol,InglêsePortuguês. Quatrométodosdiferentesdeanonimizaçãoforamavaliadosecomparados.Doismétodossubstituema informaçãosensívelporrótulosartificiais: supressãoeetiquetação. Osoutrosdoismétodossubstituem ainformaçãosensívelporexpressõestextuais: asubstituiçãoaleatóriaegeneralização. A avaliação mostrou que o uso dos métodos de etiquetação e de generalização facilitam a leitura dos textosanonimizados,evitandoalgunsdeslizessemânticoscausadaspelaremoçãodainformaçãoorigi- nal. v Keywords TextAnonymization Privacy NamedEntityRecognition CoreferenceResolution Sanitization Palavras-Chave AnonimizaçãodeTexto Privacidade ReconhecimentodeEntidadesMencionadas ResoluçãodeCo-referências SanitizaçãodeDados vii Acknowledgments IwouldliketoshowmyappreciationtomyadvisorsNunoMamedeandJoãoGraçafortheirguidance, theirconfidenceandforthehelptheyhavegivenmeduringthiswork. IamalsoverygratefultoJoão Graça for the opportunity to work on this project and for helping me to head my work in the correct directionfromthebeginning. Hewasthemajorcontributortomakethisprojectcometrue. IwouldliketothankprofessorJorgeBaptistafromUniversidadedoAlgarveforallthecorrectionsand suggestions,whichwereveryusefulwhilstwritingthisdissertation. I would like to thank professor Luisa Coheur for the corrections and suggestions to the draft of this manuscript. I would like to thank the Unbabel team for their reception and support, and for making possible this project. IwouldliketothankprofessorDavidMatosforhisadvicesaboutstatisticalsignificance. Iwouldliketothanktheannotatorsfortheirpatienceanddedicationtothetask. ThisworkwassupportedbynationalfundsthroughFundaçãoparaaCiênciaeaTecnologia(FCT)with referenceUID/CEC/50021/2013. Finally,Iwouldliketoexpressmygratitudetothefollowingpersonsintheirnativelanguages: Queroagradeceràminhamãe,UmbelinaDias,portodooapoioincondicionalecompreensãoaolongo destesanosdetrabalhoepor,mesmoàdistância,terdadotodoopreciososuportenosmomentosmais difíceis. Vreausa˘-imultumescluiAlinapentruprietenie,întelegeresisprijinînrealizareaacestuiproiect. , , , Lisbon,June24th2016 FranciscoDias ix x
Description: