ebook img

Speech recognition for accented English pdfsubject=Automatic Speech Recognition for accented ... PDF

83 Pages·2011·1.32 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Speech recognition for accented English pdfsubject=Automatic Speech Recognition for accented ...

Lexical and Acoustic Adaptation for Multiple Non-Native English Accents Diploma thesis at the Cognitive Systems Lab (CSL) Prof. Dr.-Ing. Tanja Schultz Department of Computer Science Karlsruhe Institute of Technology (KIT) from Zlatka Mihaylova Advisors: Prof. Dr.-Ing. Tanja Schultz Dipl.-Inform. Tim Schlippe Dipl.-Inform. Ngoc Thang Vu Dipl.-Inform. Dominic Telaar Begin: 4. November 2010 End: 4. Mai 2011 Ich erkl¨are hiermit, dass ich die vorliegende Arbeit selbst¨andig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet habe. Karlsruhe, den 04. Mai 2011 Abstract This work investigates the impact of non-native English accents on the performance ofanlargevocabularycontinuousspeechrecognition(LVCSR)system. Basedonthe GlobalPhonecorpus[1], aspeechcorpuswascollectedconsistingofEnglishsentences read by native speakers of Bulgarian, Chinese, German and Indian languages. To accommodate for non-native pronunciations, two directions are followed: Modifica- tion of the dictionary to better reflect the non-native pronunciations and adaptation of the acoustic models for native US English with non-native speech. The proposed methods for dictionary modification are data-driven. Therefore no language-specific rules are necessary: The idea is to extract a parallel corpus of phoneme sequences fromphonetictranscriptionsofnativeUSEnglishandaccentedEnglishintheGeorge Mason University (GMU) accented database [2]. With this corpus, Statistical Ma- chine Translation models are generated to translate the US English pronunciations in the GlobalPhone dictionary into accented pronunciations which are then used as new pronunciation variants in the GlobalPhone dictionary. With the combination of the lexical and acoustic model approaches, relative improvements of 26.9% for Bulgarian, 33.2% for Chinese, 30.9% for German, and 53.2% for Indian accents are achieved. Zusammenfassung Diese Arbeit untersucht die Auswirkungen akzentbehafteter englischer Sprache hin- sichtlich der Erkennungsqualit¨at in LVCSR Systemen. Zu diesem Zweck wurde ein Sprachkorpus von verschiedenen Gruppen gesammelt, fu¨r die Englisch eine Fremd- sprache darstellt: Muttersprachler fu¨r Bulgarisch, Deutsch, chinesische und indische Sprachen. DerakzentbehafteteSprachkorpusbasiertaufGlobalPhone[1]derDaten- bank. Zur Verbesserung der Erkennungsqualit¨at wurden zwei verschiedene Ans¨atze verfolgt: Modifikation des W¨orterbuches um den Unterschieden in der Aussprache der verschiedenen Gruppen gerecht zu werden, sowie die Anpassung des akustis- chen Modells an die Nicht-Muttersprachler. Da die Methode der Anpassung des W¨orterbuches datengestu¨tzt erfolgt, ist die Vorgabe von sprachspezifischen Regeln nicht notwendig. Stattdessen werden diese Regeln automatisch aus der akzentbe- hafteten Datenbank von GMU [2] ermittelt, in dem zus¨atzliche Aussprachevariante einer existierenden Sprachdatenbank hinzugefu¨gt werden. Die Generierung neuer AussprachevariantenerfolgtmitHilfevonStatistischerMaschinellerU¨bersetzungauf einem kleinen Korpus von IPA-basierten Transkriptionen. Durch die Kombination von Ans¨atzen, welche auf lexikalischen und akustischen Modellen basieren, konnte eine relative Steigerung der Erkennungsrate fu¨r die verschiedenen Muttersprachen erreicht werden: 26.9% fu¨r Bulgarisch, 30.9% fu¨r Deutsch, 33.2% fu¨r chinesische Sprachen und 53.2% fu¨r indische Sprachen. ACKNOWLEDGEMENTS We would like to thank the following persons: Prof. Dr. Tanja Schultz for being our supervisor at Cognitive Systems Lab (CSL) at Karlsruhe Institute of Technology (KIT), Dipl. Inf. Tim Schlippe, Dipl. Inf. Ngoc Thang Vu, Dipl. Inf. Dominic Telaar for their contribution with ideas, discussions and comments. Also thanks to Dr. Florian Metze, associate director of interACT lab at Carnegie Mellon University (CMU), Language Technology Institute (LTI) for his kind support. Finally we would also like to thank all participants in the speech recordings for their time and effort.

Description:
of the acoustic models for native US English with non-native speech. The proposed in the GlobalPhone dictionary into accented pronunciations which are then used as . 5.3 Data Analysis Using Amazon Mechanical Turk .
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.