ebook img

Ricardo Lima Feitosa de Ávila Emprego de técnicas de pré-processamento textual e algoritmos de ... PDF

150 Pages·2013·2.7 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Ricardo Lima Feitosa de Ávila Emprego de técnicas de pré-processamento textual e algoritmos de ...

UNIVERSIDADE FEDERAL DO CEARÁ ENGENHARIA DE TELEINFORMÁRTICA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TELEINFORMÁTICA Ricardo Lima Feitosa de Ávila Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições Fortaleza - Ceará 2013 RICARDO LIMA FEITOSA DE ÁVILA Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições Dissertação de mestrado apresentada ao Programa de Pós-Graduação em Engenharia de Teleinformática, (PPGETI) da Universidade Federal do Ceará, como parte dos requisitos para a obtenção do título de Mestre em Engenharia de Teleinformática. Orientador: Prof. Dr. José Marques Soares Fortaleza - Ceará 2013 Ricardo Lima Feitosa de Ávila Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições Esta dissertação foi julgada adequada para a obtenção do título de Mestre em Engenharia de Teleinformática e aprovada em sua forma final pelo Programa de Pós-Graduação em Engenharia de Teleinformática da Universidade Federal do Ceará. ____________________________________________ Ricardo Lima Feitosa de Ávila Banca examinadora: _________________________________ José Marques Soares, Dr. _________________________________ Paulo César Cortez, Dr. _________________________________ Auzuir Ripardo de Alexandria, Dr. 23/08/2013 iii Para minha avó, Maria Lima (in memoriam), porto seguro de toda uma família e exemplo de amor e doação absolutos. Ela me ensinou a construir com alegria, honestidade e perseverança minha própria história e me guiou no caminho de Deus. iv AGRADECIMENTOS À Deus por ter me dado a vida e guiar meus caminhos entre pastos verdejantes. À toda minha família, principalmente minha mãe Divina e pai Benedito, pelo carinho, minha irmã Mara e irmão Carlos Expedito, pela força e amizade, e meus filhos Yuri e Yago, pela compreensão ao serem privados de minha presença e atenção, mas nunca do meu amor. À minha amada esposa Sara por me ensinar o verdadeiro significado da palavra amor, pela força e motivação para vencer sempre. Amor igual ao teu eu nunca mais terei. Meu agradecimento mais que especial ao professor Dr. José Marques Soares que através da confiança e incentivo transmitidos sempre com muita paciência e atenção, em cada orientação, tornou possível a realização desta dissertação. Agradecer aos professores Dr. Paulo César Cortez e Dr. Auzuir Ripardo de Alexandria que participaram da banca de defesa final desta dissertação. Ao amigo Diego Carvalho do Amaral por toda ajuda no desenvolvimento da ferramenta de testes utilizada nesta dissertação. Aos colegas do PPGETI pelo companheirismo durante o curso, e também aos funcionários do PPGETI pela competência demonstrada desde a entrada do mestrado em 2011, em especial para o secretário acadêmico Renato Barbosa de Vasconcelos. Às demais pessoas que direta ou indiretamente contribuíram na elaboração desta dissertação. v RESUMO Esta dissertação apresenta um estudo de técnicas que podem ser empregadas como apoio para a correção de questões dissertativas com base na adaptação de algoritmos de comparação textual combinados a técnicas de pré- processamento de textos. O principal desafio na concepção de uma ferramenta para este tipo de aplicação é a ambiguidade da linguagem natural. Para analisar situações de correção de questões subjetivas, foram efetuados testes com esses algoritmos, tendo-se desenvolvido uma ferramenta para tal propósito. Confrontando respostas de alunos ao padrão de resposta de questões propostas em provas subjetivas, foram analisados o desempenho individual dos algoritmos e de um conjunto de técnicas de pré-processamento que são encontrados na literatura, de maneira isolada e combinada. Buscando contornar situações específicas de falso negativo e falso positivo, foram propostas algumas técnicas auxiliares como contribuição deste trabalho. Após a análise dos experimentos realizados, os resultados de índice de similaridade entre respostas indicam o uso da solução como suporte a correção de questões discursivas, podendo, ainda, ser aplicado na detecção de plágio e ser integrado a um ambiente virtual de ensino e aprendizagem. Palavras-Chave: algoritmos de comparação, pré-processamento de textos, similaridade, detecção de plágio. vi ABSTRACT This master thesis presents a study of techniques used as support for a correction of essay questions based in an adaptation of string-matching algorithms combined with text preprocessing techniques. The main challenge to design a tool like this is an ambiguity of natural language. To analyze a correction of subjective questions, tests were performed with these algorithms, and a tool have been developed for this purpose. Comparing student responses with response pattern of questions proposed in subjective tests, we analyzed the performance of individual algorithms and a set of pre- processing techniques that are found in the literature, in isolation and combined. Seeking to neutralize specific situations of false negative and false positive, some techniques have been proposed as auxiliary contribution of this work. After analyzing the experiments, the results of similarity index between responses indicate the use of the solution to support the correction of essay questions, and may also be applied in the detection of plagiarism and be integrated to a learning management system. Keywords: string-matching algorithms, preprocessing texts, similarity, plagiarism detection. vii SUMÁRIO 1 INTRODUÇÃO ........................................................................................................... 15 1.1 JUSTIFICATIVAS .......................................................................................................................................................... 19 1.2 OBJETIVOS .................................................................................................................................................................. 20 1.3 PUBLICAÇÃO ............................................................................................................................................................... 20 1.4 LIMITAÇÕES DA PESQUISA .......................................................................................................................................... 21 1.5 ORGANIZAÇÃO DO TEXTO ........................................................................................................................................... 21 2 REFERENCIAL TEÓRICO ......................................................................................... 23 2.1 A AVALIAÇÃO NO PROCESSO DE ENSINO E APRENDIZAGEM .......................................................................................... 23 2.2 QUESTÕES DISSERTATIVAS ......................................................................................................................................... 24 2.2.1 TIPOS DE ITENS DE RESPOSTA LIVRE ................................................................................................................. 26 2.3 RECONHECIMENTO DE PADRÕES EM TEXTOS .............................................................................................................. 28 2.3.1 PRINCIPAIS ALGORITMOS ENCONTRADOS NA LITERATURA ................................................................................ 29 2.4 TÉCNICAS DE PRÉ-PROCESSAMENTO DE TEXTO UTILIZADAS ................................................................................. 40 2.4.1 REMOÇÃO DE PALAVRAS REPETIDAS – RPR ...................................................................................................... 41 2.4.2 REMOÇÃO DE CARACTERES INVÁLIDOS – RCI .................................................................................................... 41 2.4.3 REMOÇÃO DE STOPWORDS – RSW .................................................................................................................... 42 2.4.4 NORMALIZAÇÃO MORFOLÓGICA DO TEXTO (STEMMING OU LEMATIZAÇÃO) – SOR ........................................... 43 2.4.5 SUBSTITUIÇÃO DE CARACTERES ACENTUADOS – RAP ....................................................................................... 48 2.4.6 APLICAÇÃO DE UPPERCASE – AUC .................................................................................................................... 49 2.5 TRABALHOS CORRELATOS .......................................................................................................................................... 50 2.6 CONSIDERAÇÕES FINAIS .............................................................................................................................................. 54 3 FERRAMENTA PARA COMPARAÇÃO TEXTUAL E ANÁLISE DE SIMILARIDADE ENTRE RESPOSTAS DISCURSIVAS .......................................................................... 57 3.1 CARACTERÍSTICAS ...................................................................................................................................................... 59 3.2 SUBSTITUIÇÃO DE SEQUÊNCIA PRÉ-DEFINIDA – SSD .................................................................................................. 59 3.3 TROCA DE PALAVRAS SEMELHANTES – TPS................................................................................................................ 60 3.4 A REALIMENTAÇÃO COM N RESPOSTAS PADRÕES ....................................................................................................... 61 3.5 FUNCIONAMENTO DA FERRAMENTA PROPOSTA .......................................................................................................... 62 3.6 INTERFACE.................................................................................................................................................................. 63 3.7 ARQUIVOS DE CONFIGURAÇÃO DAS TÉCNICAS DE PRÉ-PROCESSAMENTO ................................................................... 70 3.8 CONFIGURAÇÃO DE CARACTERES INVÁLIDOS .............................................................................................................. 71 3.9 CONFIGURAÇÃO DE SEQUÊNCIA DE PALAVRAS DEFINIDAS ........................................................................................... 72 3.10 CONFIGURAÇÃO DE TROCA DE PALAVRAS SEMELHANTES.......................................................................................... 74 3.11 MODIFICAÇÕES NOS ALGORITMOS NECESSÁRIAS PARA O CONTEXTO DO TRABALHO ................................................. 75 4 METODOLOGIA PROPOSTA E ANÁLISE DOS RESULTADOS ............................. 76 4.1 METODOLOGIA DE TESTE ............................................................................................................................................ 76 viii 4.2 AVALIAÇÃO DA METODOLOGIA PROPOSTA .................................................................................................................. 77 4.2.1 RESULTADOS DE SIMILARIDADE COM ALGORITMOS DE BUSCA E COMPARAÇÃO TEXTUAL .................................. 78 4.2.2 RESULTADOS DE SIMILARIDADE COM TÉCNICAS DE PRÉ-PROCESSAMENTO DE TEXTO ENCONTRADAS NA LITERATURA ................................................................................................................................................................ 86 4.2.3 AVALIAÇÃO COM TROCA DE PALAVRAS SEMELHANTES – TPS ............................................................................ 96 4.2.4 AVALIAÇÃO COM SEQUÊNCIA DE PALAVRAS DEFINIDAS – SSD ........................................................................... 98 4.2.5 AVALIAÇÃO COM REALIMENTAÇÃO DE RESPOSTAS CONSIDERADAS CERTAS.................................................... 104 4.3 DISCUSSÃO DOS RESULTADOS .................................................................................................................................. 109 5 CONSIDERAÇÕES FINAIS ..................................................................................... 112 5.1 LIMITAÇÕES ............................................................................................................................................................. 114 5.2 CONTRIBUIÇÕES ...................................................................................................................................................... 114 5.3 RECOMENDAÇÕES PARA TRABALHOS FUTUROS ....................................................................................................... 115 6 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................ 117 ANEXO A – ARTIGO PUBLICADO ............................................................................ 124 ANEXO B – PRIMEIRA AVALIAÇÃO UTILIZADA NOS TESTES ............................. 134 ANEXO C – SEGUNDA AVALIAÇÃO UTILIZADA NOS TESTES ............................. 139 ANEXO D – PERMUTAÇÕES REALIZADAS PARA OS TESTES ............................ 148 ANEXO E – TESTES MANUAIS ................................................................................. 149 ANEXO F – RESULTADOS DOS TESTES COM AS PERMUTAÇÕES .................... 150 ix LISTA DE FIGURAS Figura 2.1: um exemplo do uso do algoritmo força-bruta. ............................................. 30 Figura 2.2: applet comparando as palavras “ricardoavila” e “ricardodeavila”. ............... 32 Figura 2.3: o algoritmo Rabin-Karp compara cada sub-string do texto com a hash do texto padrão. .......................................................................................................... 34 Figura 2.4: o algoritmo KMP pula algumas comparações avançando para a próxima posição possível de um match. .............................................................................. 36 Figura 2.5: explicação da heurística do bom-sufixo e do mau caractere. ...................... 37 Figura 2.6: exemplo da utilização da heurística do mau caractere. ............................... 38 Figura 2.7: exemplo da utilização da heurística do bom-sufixo. .................................... 40 Figura 2.8: exemplo de declaração de regra no algoritmo stemming RSLP. ................. 46 Figura 2.9: sequência de execução do algoritmo de stemming RLSP .......................... 48 Figura 3.1: arquitetura da ferramenta. ........................................................................... 58 Figura 3.2: fluxograma de funcionamento da ferramenta proposta. .............................. 62 Figura 3.3: tela de entrada de textos. ............................................................................ 64 Figura 3.4: tela de seleção de algoritmo e configuração de técnicas de pré- processamento. ...................................................................................................... 65 Figura 3.5: tela de configuração da seleção de sequência definida. ............................. 65 Figura 3.6: tela de resultados. ....................................................................................... 66 Figura 3.7: tela de textos comparados........................................................................... 67 Figura 3.8: menus da ferramenta. ................................................................................. 67 Figura 3.9: tela de configuração por entrada e saída de arquivos de textos. ................ 68 x

Description:
Ricardo Lima Feitosa de Ávila. Emprego de técnicas de fato vem ao encontro do que afirmam. Tavares et al (2010), que reforçam que “especialmente no caso de turmas numerosas, a NIGRO, H. O., CÍSARO, S. E. G. E XODO, D. H. Data Mining with Ontologies: Implementations, Findings, and
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.