Tesis Doctoral Síntesis de voz aplicada a la traducción voz a voz Pablo Daniel Agüero Director de Tesis: Antonio Bonafonte Cávez TALP Research Centre, Speech Processing Group Departamento de Teoría de la Señal y Comunicaciones Universidad Politécnica de Cataluña (UPC) Barcelona, 2012 A mi viejo Resumen Dentro delas tecnologías delhabla, la conversión texto a voz consiste en la generación, por medios automáticos, de una voz artificial que genera idéntico sonido al producido por una persona al leer un texto en voz alta. En resumen, los conversores texto a voz son sistemas que permiten la conversión de textos en voz sintética. El proceso de conversión texto a voz se divide en tres módulos básicos: procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración, y también la duración y la energía de los fonemas, etc. La correcta generación de esta información repercutirá directamente en la naturalidad y expresividad del sistema. En el último modulo de generación de la voz es donde se produce la voz considerando la información provista por los módulos de procesamiento del texto y prosodia. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrena- mientodemodelosdegeneracióndeprosodiaparalaconversióntextoavoz,ysuaplicación en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de ento- nación, en la literatura se proponen generalmente enfoques que incluyen una estilización previa a la parametrización. En esta tesis se estudiaron alternativas para evitar esa esti- lización, combinando la parametrización y la generación del modelo de entonación en un todointegrado.Dicho enfoqueharesultadoexitosotanto enlaevaluación objetiva(usando medidas como el error cuadrático medio o el coeficiente de correlación Pearson) como en la subjetiva. Los evaluadores han considerado que el enfoque propuesto tiene una calidad y una naturalidad superiores a otros algoritmos existentes en la literatura incluidos en las evaluaciones, alcanzando un MOS de naturalidad de 3,55 (4,63 para la voz original) y un MOS de calidad de 3,78 (4,78 para la voz original). En lo referente al modelado de la duración se estudió la influencia de los factores segmentales y suprasegmentales en la duración de los fonemas. Con los resultados de este estudio se propusieron algoritmos que permiten combinar la información segmental y suprasegmental para realizar una predicción de la duración de los fonemas, tal como se propuso en otras publicaciones del tema en cuestión. A través de un estudio de los datos de entrenamiento se demostró la dependencia entre la duración de la sílaba y el número de segmentos constituyentes. Como consecuencia de estas observaciones, se propuso el modelado segmental utilizando la duración silábica, sin considerar una isocronía silábica i estricta. Los primeros algoritmos propuestos consideran que la duración segmental puede mo- delarse como unafracción de la duración silábica. En consecuencia, cada segmento variará en función de la duración suprasegmental, ajustándose todos los fonemas constituyentes a la duración predicha de la sílaba. Sin embargo, la observación de la correlación entre la duración de la sílaba y la duración segmental nos permitió determinar que en algunas ocasiones pueden considerarse como fenómenos que no guardan una relación lineal entre ellos. Teniendo en cuenta esto, en esta tesis también se propuso el modelado de la dura- ción segmental de manera condicional, considerándola como una fracción de la duración silábica, o bien en forma absoluta, independiente de la duración suprasegmental. Estos algoritmos propuestos utilizan una extrapolación para el modelado de la duración del en- foque planteado para el modelado de la entonación. La evaluación subjetiva sugiere que la predicción de la duración segmental en base a la duración de la sílaba usando duraciones relativas y absolutas alcanzan un MOS de naturalidad de 4,06 (4,59 para la voz original) y un MOS de calidad de 4,25 (4,65 para la voz original). Finalmente, también se realizó un análisis de diversos modelos de junturas terminales usando tanto palabras como grupos acentuales: árboles de clasificación (CART), modelos de lenguaje (LM) y transductores de estados finitos (FST). La utilización del mismo con- junto de datos para los experimentos permitió obtener conclusiones relevantes sobre las diferencias de los diferentes modelos. Los experimentos realizados revelan la ventaja de la utilización de modelos de lenguaje a través de n-gramas (CART+LM) sobre el algoritmo más simple que predice junturas usando solamente CART. Tanto en el modelado usando palabras como grupos acentuales, CART+LMy FST resultaron superiores a la utilización deárbolesdeclasificación enformaaislada.Además,entodosloscasosCART+LMresultó superior a FST debido a la posibilidad de utilizar información contextual más compleja a través de la probabilidad modelada con el árbol de clasificación, tales como etiquetas morfosintácticas adyacentes y la distancia a signos de puntuación. Uno de los objetivos de esta tesis era mejorar la naturalidad y expresividad de la conversión texto a voz utilizando la prosodia del hablante fuente disponible en el proceso de traducción voz a voz como información adicional. Por ello se han desarrollado una serie de algoritmos para la generación de la prosodia que permiten la integración de la información adicional en la predicción de la entonación, la duración de los fonemas y la ubicación de junturas terminales. Los diferentes modelos prosódicos de entonación, duración segmental y junturas ter- minales desarrollados en la primeraparte dela tesis se adaptaron para incluir información prosódica extraída del hablante fuente. El objeto era mejorar la generación de la prosodia en la conversión texto a voz en el marco de la traducción voz a voz en aspectos tales como naturalidad, expresividad y consistencia con el estilo del hablante fuente. En ese sentido esta tesis exploró diferentes enfoques para la transferencia de la ento- nación de un idioma a otro. Para ello se consideró la posibilidad de utilizar esquemas de anotación existentes, tales como ToBI o INTSINT. De esta manera, una vez obtenida la anotación deambos idiomas, sería posibleaplicar técnicas de aprendizajeautomático para encontrar relaciones entre las anotaciones. Sin embargo, la conclusión fue que en este tipo de esquemas de anotación de eventos tonales se realizan ciertas suposiciones, tales como una discretización taxativa de los contornos, que pueden forzar el ajuste del fenómeno al esquema de anotación, y no viceversa, que es lo deseado. Esto puede llevar a una ano- ii tación deficiente de los eventos tonales, y la utilización de esta información errónea solo conduciría a resultados pobres en la transferencia de la entonación. Porellosedecidiólautilizacióndeunenfoquedeagrupamientoautomáticoquepermita encontrarunciertonúmerodetiposdemovimientostonalesrelacionadosenlosdosidiomas sin utilizar ninguna suposición acerca de su número. De esta manera, es posible utilizar esta codificación (obtenida luego del agrupamiento automático) de los contornos tonales delidiomaorigen como característica adicional enel modeladodelaentonación delidioma destino. Los resultados experimentales demostraron la mejora introducida en el modelado de la entonación debido al enfoque propuesto, en comparación con un sistema base que no utiliza la información de la codificación del contorno del idioma origen. La mejora es importante en idiomas cercanos, tales como español y catalán. En el caso del español y el inglés,los resultados fueronapenasligeramente mejores,debidoenpartealaraizdiferente de los idiomas: latina y germánica respectivamente. Si bien se decidió norealizar unatransferencia de la duración segmental entre idiomas, en esta tesis se propuso transferir el ritmo del idioma origen al destino. Para ello se propusounmétodoquecombinalatransferenciadelritmoylasincronizaciónentreaudios. Este último aspecto fue considerado debido al uso de la tecnología de traducción voz a voz en conjunción con video. Coordinar los aspectos gestuales con la voz traducida es importante a causa de los múltiples canales involucrados en la comunicación humana. En los experimentos se puedieron observar errores desincronización muy bajos, cercanos a los 150milisegundos,queconviertealenfoquepropuestoenaptoparasuusoensincronización de audio/video. Por último, en esta tesis también se propuso una técnica de transferencia de pausas en el marco de la traducción voz a voz, mediante la utilización de información sobre alineamiento. El estudio de los datos de entrenamiento utilizando dos tipos diferentes de unidades de traducción, palabras y tuplas, arrojó como resultado la ventaja del uso de la últimaparadichatarea.Latuplapermiteagruparessuinterior palabrasquepresentanun ordenamientoentreidiomas.Enconsecuencia,esposibletransferirlaspausasdeunidioma a otro cuando estas se encuentran en la frontera de las tuplas. Una limitación importante de este enfoque es la imposibilidad para trasladar una pausa de una tupla de un idioma a otro, si esta se encuentra dentro dela misma. Para compensar esta deficiencia el algoritmo realiza una predicción de pausas adicionales utilizando algoritmos convencionales (CART, CART+LM, FST), teniendo en cuenta las pausas ya predichas mediante la transferencia de pausas entre idiomas. iii iv
Description: