ebook img

Multilingual Automated Text Anonymization PDF

134 Pages·2016·1.34 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Multilingual Automated Text Anonymization

Multilingual Automated Text Anonymization Francisco Manuel Carvalho Dias Thesis to obtain the Master of Science Degree in Information Systems and Computer Engineering Supervisors: Prof. Dr. Nuno João Neves Mamede Dr. João de Almeida Varelas Graça Examination Committee Chairperson: Prof. Dr. Alberto Manuel Rodrigues da Silva Supervisor: Prof. Dr. Nuno João Neves Mamede Members of the Committee: Prof. Dr. Jorge Manuel Evagelista Baptista Prof. Dr. Maria Luísa Torres Ribeiro Marques da Silva Coheur June 2016 Abstract Sharing data in the form of text is important for a wide range of activities but it also raises a concern aboutprivacywhensharingdatathatcouldbesensitive. Automatedtextanonymizationisasolution forremovingallthesensitiveinformationfromdocuments. However,thisisachallengingtaskdueto theunstructuredformoftextualdataandtheambiguityofnaturallanguage. Inthiswork,wepresenttheimplementationofamultilingualanonymizationsystemfortextdocuments infourlanguages: English,German,PortugueseandSpanish. Fourdifferentmethodsofanonymizationareevaluatedandcompared. Twomethodsreplacethesen- sitive information by artificial labels: suppression and tagging. The other two methods replace the informationbytextualexpressions: randomsubstitutionandgeneralization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information. iii Resumo A partilha de dados sob a forma de texto é importante numa vasta gama de actividades. Porém, a partilha de dados suscita preocupações quanto a privacidade no caso em que os textos contêm infor- mação sensível. A anonimização automática de texto é uma solução para a remoção das informações confidenciaiscontidasemdocumentos. Noentanto,estaéumatarefadesafiadoradevidoàformanão estruturadadosdadosemformadetextoedaambiguidadedalínguanatural. Nestetrabalho,apresentamosaimplementaçãodeumsistemadeanonimizaçãomultilingueparadoc- umentosemquatroidiomas: Alemão,Espanhol,InglêsePortuguês. Quatrométodosdiferentesdeanonimizaçãoforamavaliadosecomparados.Doismétodossubstituema informaçãosensívelporrótulosartificiais: supressãoeetiquetação. Osoutrosdoismétodossubstituem ainformaçãosensívelporexpressõestextuais: asubstituiçãoaleatóriaegeneralização. A avaliação mostrou que o uso dos métodos de etiquetação e de generalização facilitam a leitura dos textosanonimizados,evitandoalgunsdeslizessemânticoscausadaspelaremoçãodainformaçãoorigi- nal. v Keywords TextAnonymization Privacy NamedEntityRecognition CoreferenceResolution Sanitization Palavras-Chave AnonimizaçãodeTexto Privacidade ReconhecimentodeEntidadesMencionadas ResoluçãodeCo-referências SanitizaçãodeDados vii Acknowledgments IwouldliketoshowmyappreciationtomyadvisorsNunoMamedeandJoãoGraçafortheirguidance, theirconfidenceandforthehelptheyhavegivenmeduringthiswork. IamalsoverygratefultoJoão Graça for the opportunity to work on this project and for helping me to head my work in the correct directionfromthebeginning. Hewasthemajorcontributortomakethisprojectcometrue. IwouldliketothankprofessorJorgeBaptistafromUniversidadedoAlgarveforallthecorrectionsand suggestions,whichwereveryusefulwhilstwritingthisdissertation. I would like to thank professor Luisa Coheur for the corrections and suggestions to the draft of this manuscript. I would like to thank the Unbabel team for their reception and support, and for making possible this project. IwouldliketothankprofessorDavidMatosforhisadvicesaboutstatisticalsignificance. Iwouldliketothanktheannotatorsfortheirpatienceanddedicationtothetask. ThisworkwassupportedbynationalfundsthroughFundaçãoparaaCiênciaeaTecnologia(FCT)with referenceUID/CEC/50021/2013. Finally,Iwouldliketoexpressmygratitudetothefollowingpersonsintheirnativelanguages: Queroagradeceràminhamãe,UmbelinaDias,portodooapoioincondicionalecompreensãoaolongo destesanosdetrabalhoepor,mesmoàdistância,terdadotodoopreciososuportenosmomentosmais difíceis. Vreausa˘-imultumescluiAlinapentruprietenie,întelegeresisprijinînrealizareaacestuiproiect. , , , Lisbon,June24th2016 FranciscoDias ix x

Description:
of an anonymized text while preventing some semantic drifts caused by the remotion of the umentos em quatro idiomas: Alemão, Espanhol, Inglês e Português 3.2.2 Silver-Standard Corpora for Training NER Classifiers . Appendixes of the thesis support this work with UML diagrams [39] of our
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.