ebook img

ARISTOTLE UNIVERSITY OF THESSALONIKI The hidden Markov model in speech recognition Τα ... PDF

78 Pages·2017·1.53 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview ARISTOTLE UNIVERSITY OF THESSALONIKI The hidden Markov model in speech recognition Τα ...

ARISTOTLE UNIVERSITY OF THESSALONIKI The hidden Markov model in speech recognition Τα Κρυφά Μαρκοβιανά Μοντέλα στην αναγνώριση λόγου A Thesis By Karyotis Konstantinos-Vasileios Supervisor: Ioannis Antoniou, Professor AUTH Co Supervisor: Bratsas Charalampos, EDIP AUTH Faculty of Exact Sciences, Department of Mathematics Submitted in partial fulfillment of the requirements for the degree of Master of Science, Webscience Date December 2016, Thessaloniki, Greece ii ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ The hidden Markov model in speech recognition Τα Κρυφά Μαρκοβιανά Μοντέλα στην αναγνώριση λόγου Διπλωματική διατριβή του Καρυώτη Κωνσταντίνου-Βασίλειου Επιβλέπων Καθηγητής: Ιωάννης Αντωνίου, Καθηγητής ΑΠΘ Συνεπιβλέπων: Μπράτσας Χαράλαμπος, ΕΔΙΠ ΑΠΘ Σχολή Θετικών Επιστημών, Τμήμα Μαθηματικών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη του Διαδικτύου» Εγκρίθηκε από την τριμελή εξεταστική επιτροπή ………………………… ………………………… ………………………… Ι. Αντωνίου Χ. Μπράτσας Π. Μωυσιάδης Καθηγητής Α.Π.Θ. ΕΔΙΠ Α.Π.Θ. Καθηγητής ΑΠΘ Θεσσαλονίκη , Δεκέμβρης 2016 iii ………………………………………….. Καρυώτης Κωνσταντίνος-Βασίλειος Πτυχιούχος Μαθηματικός Α.Π.Θ. Copyright © Κωνσταντίνος-Βασίλειος Καρυώτης, 2016 Με επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι εκφράζουν τις επίσημες θέσεις του Α.Π.Θ. iv ABSTRACT The present dissertation is an effort to completely describe the use of the Hidden Markov Model in speech recognition programs. Basic knowledge of stochastic theory is needed whilst the Hidden Markov Model is presented thoroughly. The human speech model is described at first part and the anatomy of message transmission via the spoken language. As structural material Markov Chains are used to build the Hidden Markov Model theory and find the connection between speech recognition and Hidden Markov Model. Going deeper to HMMs, Forward algorithm, Viterbi algorithm and Baum-Welch algorithm are examined as filtering and preprocessing tools. Since the vocabulary of spoken languages is represented as graph, optimization algorithms are used to easily take advantage of it. Beam search and the Token Algorithm are applied to the trellis of the soundwaves to be recognized. In the final part, HTK toolkit, the most significant open source project went over and presented. KEYWORDS Hidden Markov Model, Speech Recognition, Viterbi Algorithm v vi ΠΕΡΙΛΗΨΗ Η χρήση Κρυφών Μαρκοβιανών Μοντέλων στα λογισμικά αναγνώρισης λόγου αποτελεί ένα από τα σημαντικότερα και πιο σύγχρονα εργαλεία και χρησιμοποιούνται ευρέως τις τελευταίες δεκαετίες. Η ιδέα έγκειται στη μετατροπή της κυματομορφής του προς αναγνώριση λόγου, σε δίκτυο του οποίου οι κόμβοι αναπαριστούν τους φθόγγους που χρησιμοποιούνται από το εκάστοτε αλφάβητο και οι ακολουθίες φθόγγων σχηματίζουν τις λέξεις οι οποίες αποτελούν το μεταδιδόμενο μήνυμα. Εισάγεται η πιθανότητα εμφάνισης ενός φθόγγου έπειτα από έναν άλλον βάσει τις ιδιαιτερότητας κάθε γλώσσας. Οι αρχικές τιμές των πιθανοτήτων αυτών αποδίδονται τυχαία και στη συνέχεια εκτελείται εκπαίδευση του προγράμματος. Έχοντας εισάγει την έννοια της πιθανότητας, ο πίνακας γειτνίασης του γράφου είναι στοχαστικός. Για εξοικονόμηση υπολογιστικής ισχύος και χρόνου, χρησιμοποιούνται τεχνικές φιλτραρίσματος όπως ο αλγόριθμος Viterbi. Έπειτα, μέθοδοι βελτιστοποίησης εφαρμόζονται όπως ο αλγόριθμος Token Passing και ο Beam Search. Στο τελευταίο κομμάτι της εργασίας μελετάται το ευρέως χρησιμοποιούμενο πρόγραμμα γραμμένο σε γλώσσα προγραμματισμού C, το HTK TOOLKIT. vii Σύνοψη Από πολύ νωρίς παρουσιάστηκε η ανάγκη αξιοποίησης των χαρακτηριστικών της ανθρώπινης για την εξυπηρέτηση των αναγκών του εκάστοτε σύγχρονου ανθρώπου. Ως μέσο επικοινωνίας, οι ήχοι που δύνανται να παραχθούν από τις ταλαντώσεις των ανθρωπίνων φωνητικών χορδών χρησίμευσαν σαν εργαλείο βασικής επικοινωνίας των ανθρώπων από την εμφάνισή τους, ενώ η εμφάνιση πρωταρχικής μορφής φυσικής γλώσσας τοποθετείται πιθανότατα περίπου 600.000 χρόνια πριν, στη εποχή του λίθου. Η εμφάνιση του γραπτού λόγου ήρθε χιλιάδες χρόνια αργότερα και συγκεκριμένα οι ιστορικοί την τοποθετούν στη Μεσοποταμία γύρω στα 3200 π.Χ., ενώ τη γραφή αριθμών πολλές χιλιάδες χρόνια πριν. Η μετατροπή του προφορικού λόγου σε γραπτό προφανώς γινόταν απευθείας από τον άνθρωπο με τη μέθοδο της υπαγόρευσης, και αυτό διήρκεσε πολλά χρόνια. Η πρώτη προσπάθεια αξιοποίησης της ανθρώπινης φωνής έγινε πολλά χρόνια μετά, συγκεκριμένα το 1881 όταν ο Alexander Graham Bell σε συνεργασία με τον ανιψιό του Chichester Bell και τον Charles Sumner Tainter ανέπτυξαν μία συσκευή η οποία ανταποκρινόταν στις διακυμάνσεις τις έντασης του ήχου που παραγόταν από τον χειριστή της. Η συσκευή αυτή μπορεί να μην είχε κάποια ουσιαστική χρήση, υπήρξε όμως ο πρόγονος του φωνογράφου του Thomas Edison το οποίο εξελίχθηκε στο πλέον γνωστό γραμμόφωνο. Η χρήση της ανθρώπινης φωνής και γενικότερα η αναγνώριση ηχητικών σημάτων είναι μια μορφή απομακρυσμένης διαχείρισης συσκευών. Τεχνικές αναγνώρισης ηχητικών σημάτων χρησιμοποιούνται σε πάρα πολλές περιπτώσεις: από το χειρισμό του φωτισμού ενός σπιτιού, τη λειτουργία των συστημάτων πλοήγησης, μέχρι την εξυπηρέτηση πελατών μέσω τηλεφωνικού κέντρου. Στις δύο τελευταίες περιπτώσεις απαραίτητη είναι viii η μετατροπή των ηχητικών σημάτων σε κείμενο προκειμένου να αναγνωριστεί ο προορισμός στην πρώτη περίπτωση, ενώ η σημασιολογική ερμηνεία του ηχητικού σήματος είναι αναγκαία στο παράδειγμα του τηλεφωνικού κέντρου προκειμένου να γίνει αναγνώριση του προβλήματος του πελάτη και αντιστοίχιση με τη λύση, ενώ στην περίπτωση του φωτισμού ένα χαρακτηριστικό ηχητικό σήμα όπως ο ήχος από το χτύπημα των χεριών είναι αρκετός. Η αναγνώριση της ομιλίας, δηλαδή η συστηματοποιημένη μετατροπή ενός ηχητικού μηνύματος σε γραπτό κείμενο δεν είναι απλή διεργασία. Αρκετές μέθοδοι έχουν εφαρμοστεί. Η χρήση Κρυφών Μαρκοβιανών Μοντέλων αποτέλεσε μεγάλη καινοτομία και έδωσε τεράστια ώθηση στην ανάπτυξη λογισμικών αναγνώρισης ομιλίας καθώς μειώθηκαν αισθητά τα σφάλματα αναγνώρισης. Η πολυπλοκότητα όμως των αλγορίθμων που χρησιμοποιούν κρυφά μαρκοβιανά μοντέλα αυξάνει κατά πολύ ανάλογα με το μέγεθος της προς αναγνώριση φυσικής γλώσσας. Ο αριθμός των λέξεων που περιέχει το λεξιλόγιο της γλώσσας αλλά και η φύση των λέξεων της, δηλαδή το πλήθος των φθόγγων οι οποίοι ως πεπερασμένοι συνδιασμοί σχηματίζουν τις λέξεις της, αυξάνουν αισθητά τις απαιτήσεις του προς υλοποίηση προγράμματος. Αυτό συμβαίνει κυρίως εξαιτίας του ιδιαίτερου ρόλου των φθόγγων στη μέθοδο αυτή. Οι φθόγγοι για τον προφορικό λόγο είναι ότι τα γράμματα για το γραπτό. Η ιδέα της μεθόδου αυτής είναι ιδιαίτερα απλή. Εισάγεται η ομιλία σε κυματομορφή, τμηματοποιείται η κυματομορφή σε διαστήματα (συνήθως επιλέγεται το διάστημα των 10ms). Χαρακτηρίζεται το τμήμα της κυματομορφής είτε σε  Ομιλία  Θόρυβος  Ησυχία ix και αντιστοιχίζεται σε έναν και μοναδικό φθόγγο. Όμοια και το επόμενο τμήμα. Όμως κάθε φθόγγος εξαρτάται από τον προηγούμενο. Προφανώς κάθε γλώσσα έχει τις δικές της ιδιαιτερότητες άρα και περιορισμούς και είναι πολύ πιθανό έπειτα από ένα φθόγγο να μην είναι δυνατό να ακολουθήσουν συγκεκριμένοι φθόγγοι. Αυτό στη γλώσσα των στοχαστικών μαθηματικών μεταφράζεται ως η πιθανότητα μετάβασης από την κατάσταση Χ στην κατάσταση Υ είναι μηδέν. Ένας φθόγγος ακολουθείται λοιπόν από διαφορετικούς φθόγγους με διαφορετικές πιθανότητες. Η κατανομή αυτή μπορεί να βρεθεί έπειτα από στατιστική ανάλυση του λεξιλογίου της γλώσσας, έπειτα από μετατροπή των λέξεων σε ακολουθίες φθόγγων, ή διαφορετικά θέτοντας αυθαίρετες αρχικές τιμές (η ομοιόμορφη κατανομή ενδείκνυται για την περίπτωση αυτή) και έπειτα από κάθε επιτυχημένη εκτέλεση του αλγορίθμου επαναπροσαρμογή των δειγματικών πιθανοτήτων. Επιτυγχάνεται έτσι μια δυναμική βελτίωση του αλγορίθμου. Στο σημείο αυτό, υπάρχει το σύνολο των καταστάσεων και η κατανομή πιθανοτήτων που αναπαριστά τις πιθανότητες μετάβασης από τη μία κατάσταση στην άλλη. Η ιδέα λοιπόν της εφαρμογής των κρυφών μαρκοβιανών μοντέλων στην αναγνώριση λόγου είναι απλή και γίνεται περίπου όπως περιγράφηκε μόλις. Στόχος της εργασίας είναι η ανάπτυξη της θεωρίας των κρυφών μαρκοβιανών δικτύων και η παρουσίαση των δυνατοτήτων τους πάνω στην αναγνώριση ομιλίας. Η ανασκόπηση των εργαλείων και αλγορίθμων που χρησιμοποιούνται από τα ήδη υπάρχοντα λογισμικά καθώς και η μελέτη του μεγαλύτερου πρότζεκτ ανοικτού κώδικα, του HTK. x

Description:
ARISTOTLE UNIVERSITY OF. THESSALONIKI. The hidden Markov model in speech recognition. Τα Κρυφά Μαρκοβιανά Μοντέλα στην αναγνώριση λόγου. A Thesis. By. Karyotis Konstantinos-Vasileios. Supervisor: Ioannis Antoniou, Professor AUTH. Co Supervisor: Bratsas Cha
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.