Uma abordagem para pr´e-processamento de dados textuais em algoritmos de aprendizado Claudia Aparecida Martins SERVIC¸O DE PO´S-GRADUAC¸A˜O DO ICMC-USP Data de Dep´osito: 29/08/2003 Assinatura: Uma abordagem para pr´e-processamento de dados textuais em algoritmos de aprendizado Claudia Aparecida Martins Orientadora: Profa Dra Maria Carolina Monard Tese apresentada ao Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao - ICMC-USP, como parte dos requi- sitos para obten¸c˜ao do t´ıtulo de Doutor em Ciˆencias de Computa¸c˜ao e Matem´atica Computacional. USP - S˜ao Carlos agosto/2003 Resumo A representa¸c˜ao atributo-valor de documentos usada no processo de minera¸c˜ao de textos ´e uma estrutura adequada `a maioria das tarefas de classifica¸c˜ao e agrupamento de documentos. No contexto de algoritmos de aprendizado de m´aquina, a representa¸c˜ao atributo-valor de documentos frequ¨entemente utiliza a abordagem bag-of-words. Essa abordagem ´e caracterizada pela alta dimensionalidade na representa¸c˜ao dos dados, pois toda palavra presente no documento pode ser um poss´ıvel atributo. Deve ser considerado, portanto, que uma boa representa¸c˜ao de documentos tem uma influˆencia fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou n˜ao supervisionado). Como uma das principais contribui¸c˜oes deste trabalho, ´e apresentada uma ferra- menta para pr´e-processamento que eficientemente decomp˜oe textos em palavras usando a abordagem bag-of-words, bem como o uso de m´etodos para reduzir a dimensionalidade da representa¸c˜ao gerada. Essa ferramenta transforma os documentos em um formato acess´ıvel `a maioria dos algoritmos de aprendizado, nos quais os dados s˜ao descritos como um vetor de dimens˜ao fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representa¸c˜ao de documentos com o objetivo de obter um melhor desempenhodosalgoritmosdeaprendizadodem´aquinautilizados. Aescolhadoalgoritmo de aprendizado a ser utilizado, supervisionado e n˜ao supervisionado, ´e dependente do problema em quest˜ao. Algoritmos de aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado n˜ao supervisionado s˜ao frequ¨entemente aplicados a dados n˜ao rotulados. No caso do aprendizado n˜ao supervisionado, para avaliar se um dado cluster corre- sponde a um certo conceito, neste trabalho ´e utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpreta¸c˜ao dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhec- imento adquirido. Essa compreens˜ao ´e necess´aria tanto para o usu´ario aceitar a solu¸c˜ao gerada pelo sistema quanto para analisar o racioc´ınio utilizado. v Abstract The attribute-value representation of documents used in text mining provides a natural framework for classifying or clustering documents based on their contents. In the contextof machine learningalgorithms, the attribute-value representation of documents is oftenaccomplishedbyusingthebag-of-wordsapproach. Sinceeverywordinthedocument could be treated as an attribute, such an approach is characterized by yielding very high dimensional data. In fact, the representation of documents has a crucial influence on how well some learning algorithms (either supervised or unsupervised) can perform. Asoneofthemaincontributionsofthiswork,aframeworktoefficientlydecomposing textintowords byusingthe bag-of-words approach, as wellas reducingthe dimensionality of the representation generated, is presented. This framework makes text accessible to most machine learning algorithms for it only requires data to be described as a vector of fixed dimensionality. In order to illustrate the framework proposed, a computational tool was imple- mented. This tool by, among other things, reducing the dimensionality of the text repre- sentation can lead to an improvement in the performance of the machine learning tech- niques being applied. The types of machine learning algorithms employed were either supervised or unsupervised, depending on the problem in hand. For instance, super- vised learning algorithms can be applied whenever the documents have labels preassigned, whereas unsupervised learning algorithms are often applied to unlabelled data. For the case of unsupervised learning, in order to evaluate if a given cluster corre- sponds to a certain concept, this work takes another approach by using inductive learning techniques. For example, with this approach one could understand how the system rep- resents and reasons about the acquired knowledge. Explanation facilities are required both for user acceptance of the solution generated by the system, and for the purpose of understanding whether the reasoning is sound. vii Dedicat´oria Dedico esse trabalho em mem´oria do meu pai Jos´e Pac´ıfico Sobrinho, que sempre foi um exemplo para mim de garra, dedica¸c˜ao e amor. A vocˆe, por tudo que me ensinou na vida. Saudades. Agradecimentos A professora Carolina que ´e muito mais do que uma orientadora, pois orienta com sabedoria, questionamentos, ensinamentos e, principalmente, amizade. Reconhe¸co e ad- miro sua atitude em ajudar seus“desorientandos”, mesmo que isso muitas vezes significa abrir m˜ao de alguma coisa. Obrigada pela sua amizade, por aceitar ser minha orientadora, por me orientar, por me incentivar, enfim, por me ensinar. Aprendi muito com vocˆe! E a cada dia, percebo o quanto ainda tenho a aprender. A vocˆe Carolina, o meu muito obrigada por tudo! Agrade¸co a todas as pessoas que me ajudaram na realiza¸c˜ao deste trabalho. Um agradecimento especial ao Edson (Takashi) por seu excelente trabalho, pela disposi¸c˜ao em me ajudar v´arias vezes e, acima de tudo, por saber que sempre poderia contar com vocˆe. Ao Ronaldo que ´e uma pessoa bastante acess´ıvel e, por saber disso, n˜ao hesitava em importun´a-lo diante de qualquer du´vida. Ao Gustavo que, entre outros, disponibilizou as suas implementa¸c˜oes e fez os ajustes necess´arios para que eu pudesse utiliz´a-los. Ao Augusto que foi o primeiro a me dar dicas de Perl, ao Walter pelas configura¸c˜oes de m´aquinas que precisei, ao Marcelo pela ajuda com a formata¸c˜ao deste trabalho. Agrade¸co a todos vocˆes n˜ao s´o pelo trabalho, pois certamente sem a ajuda de vocˆes tudo seria muito mais dif´ıcil, mas tamb´em pelos bons momentos. A convivˆencia no Labic e do ICMC durante esses quatro anos ser´a sem du´vida uma grande e boa recorda¸c˜ao. Algumas pessoas foram muito mais do que apenas colegas de trabalho. Dentre essas pessoas, algumas convivi mais de perto, Patr´ıcia, Jaque, Claudia, Katti, Huei, Edson (Melanda) e Fernanda, Lorena, Cristiane, Adriano, Gedson, Daniel, Valmir, Marquinho, Marcos, Chandler, Humberto, Sadao. Citar nomes ´e complicado e com certeza posso ter esquecido algu´em, que me desculpe. Tamb´em, vou sempre guardar as boas recorda¸c˜oes dos momentos divertidos e de amizade com Marc´ılio e Tha´ıs, prin- cipalmente, nos dias de maior stress na finaliza¸c˜ao deste trabalho. Ao Marc´ılio agrade¸co tamb´em pela ajuda final com o inglˆes. Com muito carinho, obrigada a todos vocˆes! Ao pessoal do Nilc por disponibilizar o conjunto de dados textuais e, principalmente, a Juliana Greghi que esclareceu diversas du´vidas e se mostrou disposta a me ajudar. Aos professores Solange, Andr´e e Alneu que tornam esse ambiente de trabalho mais agrad´avel, pela simpatia, dinamismo e disponibiliza¸c˜ao de material. Principalmente, Solange que sempre foi mais do que uma simples professora e coordenadora de p´os. Ao pessoal da p´os-gradua¸c˜ao do ICMC, Beth, Laura, Ana Paula, Mar´ılia pela efi- ciˆencia, simpatia e por todos os esclarecimentos. E tamb´em ao pessoal da biblioteca. Durante esse trabalho pude contar com a amizade e o carinho de Cleide, Rosana, Marcelinho, Alexandre, Regina, Edna, Cidinho, que mesmo longe, sempre t˜ao perto. Agrade¸co a minha fam´ılia que ´e o meu porto seguro. A minha m˜ae Nilta que ´e for¸ca, paciˆencia e amor. Aos meus irm˜aos Jos´e Antˆonio, Eleida e ‘Catita’, que sempre me apoiaram em qualquer coisa que tenha decidido fazer. Ao amor, algumas vezes in- explic´avel, que sempre recebi de meus sobrinhos: Filipe, Fabr´ıcio e Maria Beatriz. Aos meus cunhados Vanilda e Carlinhos. Todos vocˆes s˜ao especiais e representam muito para mim. Agrade¸cooapoiofinanceirodaCAPESedaUniversidadeFederaldeMatodeGrosso (UFMT). A todo o pessoal do Departamento de Ciˆencia da Computa¸c˜ao da UFMT. Agrade¸co a Deus por estar sempre presente.
Description: