FACULTADE DE FILOLOXÍA DA UNIVERSIDADE DA CORUÑA Departamento de Galego-Portugués, Francés e Lingüística ALGORITMOS DE PROCESSAMENTO DA LINGUAGEM NATURAL PARA SISTEMAS DE CONVERSÃO TEXTO-FALA EM PORTUGUÊS Daniela Filipa Macedo Braga Moreira da Silva Dissertação submetida para obtenção da “mención de DOUTOR EUROPEO” Dissertação realizada sob a direcção de: Professor Doutor Xosé Ramón Freixeiro Mato (Universidade da Coruña) Professora Doutora Maria Aldina Marques (Universidade do Minho) Professor Doutor Fernando Gil Vianna Resende Jr. (Universidade Federal do Rio de Janeiro) A Coruña, 23 de Maio de 2008 i ii FACULTADE DE FILOLOXÍA DA UNIVERSIDADE DA CORUÑA Departamento de Galego-Portugués, Francés e Lingüística ALGORITMOS DE PROCESSAMENTO DA LINGUAGEM NATURAL PARA SISTEMAS DE CONVERSÃO TEXTO-FALA EM PORTUGUÊS Dissertação submetida para obtenção da “mención de DOUTOR EUROPEO” A autora da tese Vº e praz iii JÚRI PRESIDENTE: PROF.ª DRA. NIEVES RODRÍGUEZ BRISABOA (DEPARTAMENTO DE COMPUTACIÓN, UNIVERSIDADE DA CORUÑA, ESPAÑA) VOGAIS: PROF.ª DRA. M. ANTONIA MARTI ANTONÍN (DEPARTAMENTO DE LINGÜÍSTICA GENERAL, UNIVERSIDAD DE BARCELONA, ESPAÑA) PROF. DR. JOSÉ JOÃO ALMEIDA (DEPARTAMENTO DE INFORMÁTICA, UNIVERSIDADE DO MINHO, PORTUGAL) PROF. DR. ANTÓNIO TEIXEIRA (DEPARTAMENTO DE ELECTRÓNICA, TELECOMUNICAÇÕES E INFORMÁTICA, UNIVERSIDADE DE AVEIRO, PORTUGAL) SECRETÁRIO: PROF. DR. ÁLVARO IRIARTE SANROMÁN (DEPARTAMENTO DE ESTUDOS PORTUGUESES, UNIVERSIDADE DO MINHO, PORTUGAL) JÚRI SUPLENTE PROF. DR. MANUEL FERREIRO FERNÁNDEZ (DEPARTAMENTO DE GALEGO- PORTUGUÉS, FRANCÉS E LINGÜÍSTICA, UNIVERSIDADE DA CORUÑA, ESPAÑA) PROF.ª DRA. M. FÁTIMA SILVA (DEPARTAMENTO DE ESTUDOS PORTUGUESES E ESTUDOS ROMÂNICOS, UNIVERSIDADE DO PORTO) CLASSIFICAÇÃO OBTIDA: “SOBRESALIENTE CUM LAUDE” iv Ao Luís. À minha mãe. v vi " O Universo está escrito em linguagem matemática." "É preciso eliminar os mal-entendidos entre a fé e a ciência." "Quando alguém menos entende mais quer discordar." "Eu creio na razão." "Eppur si Muove!" Galileu Galilei (1564-1642) vii viii Índice Agradecimentos ...................................................................................................... xi Resumo ................................................................................................................. xiii Abstract .................................................................................................................. xv Resumen ............................................................................................................... xvii Lista de Tabelas .................................................................................................... xix Lista de Figuras ................................................................................................... xxiii Lista de Siglas e Abreviaturas .............................................................................. xxv Introdução ................................................................................................................ 1 Antecedentes e motivações .............................................................................. 1 Objectivos e metodologia ................................................................................. 6 Síntese dos conteúdos....................................................................................... 9 Capítulo 1 ............................................................................................................... 11 Fundamentos teóricos, estado da arte e arquitectura do sistema ........................ 11 1.1. Fundamentos teóricos ....................................................................... 11 1.2. Estado da arte ................................................................................... 13 1.3. Arquitectura do sistema .................................................................... 25 1.4. Síntese do capítulo 1 ......................................................................... 27 Capítulo 2 ............................................................................................................... 29 Pré-processamento de texto ................................................................................ 29 2.1. Separador de frases ........................................................................... 29 2.2. Separador de palavras ....................................................................... 30 2.3. Conversor de símbolos e caracteres especiais .................................. 30 2.4. Expansor de abreviaturas .................................................................. 32 2.5. Leitor de siglas e acrónimos ............................................................. 35 2.6. Conversor de numerais ..................................................................... 39 2.7. Testes e discussão dos resultados ..................................................... 50 2.8. Aplicações do sistema ao português do Brasil ................................. 51 2.9. Aplicações do sistema ao galego ...................................................... 52 2.10. Síntese do capítulo 2 ......................................................................... 56 ix Capítulo 3 ............................................................................................................... 57 Desambiguador de homógrafos .......................................................................... 57 3.1. Caracterização do problema e estado da arte .................................... 58 3.2. Arquitectura do desambiguador de homógrafos heterófonos ........... 60 3.3. Algoritmos de desambiguação de homógrafos heterófonos ............. 65 3.4. Testes e discussão de resultados ....................................................... 84 3.5. Aplicações do sistema ao português do Brasil ................................. 91 3.6. Aplicações do sistema ao galego ...................................................... 97 3.7. Síntese do capítulo 3 ....................................................................... 101 Capítulo 4 ............................................................................................................. 103 Leitor de estrangeirismos ................................................................................. 103 4.1. Definição do problema e estado da arte .......................................... 104 4.2. Leitor de estrangeirismos ............................................................... 106 4.3. Testes e discussão de resultados ..................................................... 119 4.4. Aplicações do sistema ao português do Brasil e ao galego ............ 120 4.5. Síntese do capítulo 4 ....................................................................... 125 Capítulo 5 ............................................................................................................. 127 Conversor grafema-fone ................................................................................... 127 5.1. Divisor silábico ............................................................................... 127 5.2. Marcador de sílaba tónica ............................................................... 131 5.3. Transcritor grafema-fone ................................................................ 134 5.4. Testes e discussão de resultados ..................................................... 145 5.5. Aplicações do sistema ao português do Brasil ............................... 148 5.6. Aplicações do sistema ao galego .................................................... 158 5.7. Síntese do capítulo 5 ....................................................................... 169 Capítulo 6 ............................................................................................................. 171 Integração do sistema no motor de síntese ....................................................... 171 6.1. Construção e gravação da voice font .............................................. 171 6.2. Integração do sistema com o motor de síntese por HMMs ............. 173 6.3. Síntese do capítulo 6 ....................................................................... 177 Capítulo 7 ............................................................................................................. 179 Conclusões e trabalho futuro ............................................................................ 179 Referências bibliográficas .................................................................................... 187 x
Description: