ebook img

Praca dyplomowa in˙zynierska Aplikacja mobilna ułatwiaj ˛aca eliminacj˛e nawyku mówienia PDF

34 Pages·2014·3.3 MB·Polish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Praca dyplomowa in˙zynierska Aplikacja mobilna ułatwiaj ˛aca eliminacj˛e nawyku mówienia

AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁINFORMATYKI, ELEKTRONIKIITELEKOMUNIKACJI KATEDRATELEKOMUNIKACJI Praca dyplomowa inz˙ynierska Aplikacja mobilna ułatwiaja˛ca eliminacje˛ nawyku mówienia „yyyy” podczas prezentacji. Autor: Tomasz Balawajder Kierunek studiów: Elektronika i Telekomunikacja Opiekun pracy: dr inz˙. Jarosław Bułat Kraków,2014 Os´wiadczam, s´wiadomy(-a) odpowiedzialnos´ci karnej za pos´wiadczenie nieprawdy, z˙e niniejsza˛ prace˛ dyplomowa˛ wykonałem(-am) osobis´cie i samodzielnie i nie korzystałem(-am) zez´ródełinnychniz˙ wymienionewpracy. Spis tres´ci Wste˛p..................................................................................................................................................... 6 Celepracy........................................................................................................................................ 6 1. Charakterystykamowyludzkiej.................................................................................................. 8 1.1. Fizycznewłas´ciwos´cidz´wie˛ku.............................................................................................. 8 1.2. Opisludzkiegoaparatumowy............................................................................................... 10 1.3. Celeikorzys´cicyfrowegoprzetwarzaniagłosu.................................................................... 13 2. SpecyfikacjaprogramuyyyKiller................................................................................................. 14 2.1. Zaimplementowanefunkcjonalnos´ci..................................................................................... 14 2.2. Algorytmydetekcjiartefaktów.............................................................................................. 16 3. Implementacja................................................................................................................................ 24 3.1. Opisplatformy....................................................................................................................... 24 3.2. ImplementacjaaplikacjiyyyKiller........................................................................................ 26 3.3. Algorytmzaimplementowanywaplikacji............................................................................. 27 4. Testy................................................................................................................................................. 31 4.1. Testywewspółczesnychprojektachinformatycznych.......................................................... 31 4.2. Wydajnos´c´ algorytmudetekcjiartefaktów............................................................................ 31 4.3. Konfiguracjaitestyuz˙ytkoweaplikacji................................................................................. 32 Wnioskikon´cowe................................................................................................................................. 33 Bibliografia........................................................................................................................................... 35 5 Wste˛p Cele pracy Wszyscymielis´myokazje˛ przemawiac´ doludzi,jakrówniez˙ wysłuchiwac´ przemówien´ innych.Cze˛- stoproblememmówcówniejestnieznajomos´c´tematuczybrakprzygotowania,atechnikamowy.Proble- memstaja˛sie˛ wrodzoneoraznabytewadywymowy,nalotgwaryregionalnejczynieprawidłowadykcja. Wielezłychnawykówmoz˙nawyeliminowac´ poprzezc´wiczenia.Jednymzbłe˛dówwymowyjestnawyk mówienia „yyy” czy „eee” w czasie prowadzenia prezentacji. Jest to przyzwyczajenie, które potrafi ła- two i szybko znieche˛cic´ słuchacza do nawet najlepiej merytorycznie przygotowanej prezentacji. Takie zawieszaniegłosumoz˙emiec´ uzasadnieniewtym,z˙emówcajestnieprzygotowanydoprezentacjii„za- pełnia” w ten sposób czas. Najcze˛s´ciej jednak jest to nies´wiadomy odruch, pozwalaja˛cy prelegentowi na chwile˛ przerwy w merytorycznych rozwaz˙aniach. To włas´nie poczucie nies´wiadomos´ci stało sie˛ po- wodem zaje˛cia sie˛ tym tematem w niniejszej pracy. Jednym ze sposobów us´wiadomienia prelegenta o błe˛dach wymowy jest informowanie go o nich w trakcie prezentacji. Kiedy prelegent jest na biez˙a˛co informowanyoswoichbłe˛dachwymowy,moz˙ejeszybkoiskutecznieskorygowac´. Celem pracy jest opracowanie aplikacji umoz˙liwiaja˛cej eliminacje˛ nawyku mówienia ,yyy” oraz „eee” podczas prezentacji. Załoz˙ono, z˙e aplikacja ma zostac´ zaimplementowana dla systemu Android. Jej celem be˛dzie rejestrowanie dz´wie˛ku w czasie rzeczywistym, analizowanie go pod ka˛tem wysta˛pie- nia „yyy” lub „eee” oraz prezentacja wyników tej analizy w sposób zdefiniowany przez uz˙ytkownika. Zaprojektowana aplikacja powinna, oprócz przetwarzania dz´wie˛ku, dostarczac´ uz˙ytkownikowi prosty i przejrzystyinterfejs,któryumoz˙liwimuszybkieorazdyskretneposługiwaniesie˛ nia˛wczasieprelekcji. Dodatkowo w programie znajdzie sie zegar, który be˛dzie odliczał czas prezentacji w taki sposób, aby prelegentmógłgoswobodniekontrolowac´.Naste˛pna˛funkcja˛programupowinnabyc´ moz˙liwos´c´ groma- dzeniaprzezniegostatystykorejestrowanejprezentacji.Zebranedanenalez˙ywys´wietlic´uz˙ytkownikowi pozakon´czeniuprzezniegoprelekcji. Niniejsza praca stanowi opis procesu tworzenia aplikacji opisanej powyz˙ej. Zawiera cztery roz- działy, które szczegółowo obrazuja˛jak przebiegało projektowanie oraz implementacja programu. Roz- działpierwszyzawierapodstawyteoretycznefizycznychwłasnos´cidz´wie˛ku,orazopisludzkiegoaparatu mowy. Znajduja˛sie˛ w nim tez˙ podstawy teorii cyfrowego przetwarzania sygnałów wraz z najwaz˙niej- szymitwierdzeniami.Nakon´cuprzedstawionoiporównanosukcesyzdziedzinyprzetwarzaniadz´wie˛ku jakiedotejpozyzostałyosia˛gnie˛te. 6 Wste˛p 7 Rozdział2zawieraspecyfikacje˛programuopisywanegowpracy.Szczegółowozostałysprecyzowane wymagania, jakie powinna spełniac´ aplikacja, która została nazwana yyyKiller. Zobrazowano w nim równiez˙ algorytm, wykorzystywany póz´niej w implementacji kodu z´ródłowego aplikacji. Znajduje sie˛ tu zarówno jego opis, jak tez˙ charakterystyka algorytmów be˛da˛cych cze˛s´ciami składowymi głównej procedury. Ponadto opisano w nim przebieg procesu badawczego poprzedzaja˛cego implementacje˛ oraz testyaplikacji. Kolejny rozdział charakteryzuje platforme˛ na jakiej przeprowadzono implementacje˛ aplikacji. Roz- poczynaja˛c od teoretycznych rozwaz˙an´ na temat systemów mobilnych opisujeproces tworzenia aplika- cji,zastosowanychtechnikiwzorcóworazprezentujediagramyifragmentykoduz´ródłowegoprogramu. Skupiasie˛ tez˙ nasposobieprzeniesieniaalgorytmudos´rodowiskaprogramistycznegoAndroid. Czwarty rozdział pracy zawiera opis przeprowadzonych testów aplikacji. Prezentuje moz˙liwe kon- figuracje programu oraz stanowi opis uzyskanych rezultatów. W zakon´czeniu pracy sa˛zamieszczone wnioskiorazpodsumowanieosia˛gnie˛tychefektów. T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 1. Charakterystyka mowy ludzkiej W niniejszym rozdziale przedstawiono podstawowe informacje dotycza˛ce cech fonetycznych oraz podstawy teorii przetwarzania mowy. Znajduja˛sie˛ w nim równiez˙ informacje na temat fizycznych wła- s´ciwos´cifaldz´wie˛kowych. 1.1. Fizyczne włas´ciwos´ci dz´wie˛ku Wytwarzaniegłosujestbardzozłoz˙onymzjawiskiemakustycznymimechanicznym.Dz´wie˛k,wka- tegoriach fizycznych jest wraz˙eniem słuchowym spowodowanym drganiami fal akustycznych rozcho- dza˛cych sie˛ w os´rodku spre˛z˙ystym. Fala akustyczna to zaburzenie ge˛stos´ci w formie fali podłuz˙nej rozchodza˛ce sie˛ w powietrzu lub innym os´rodku. Sa˛to zarówno te fale, które powoduja˛wraz˙enia słu- chowe,jakrówniez˙faleocze˛stotliwos´ciachwykraczaja˛cychpozapasmosłyszalnos´ciludzkichzmysłów. Zewzgle˛dunacze˛stotliwos´c´ dz´wie˛kimoz˙emypodzielic´ wnaste˛puja˛cysposób[5]: - infradz´wie˛ki-ocze˛stotliwos´ciponiz˙ej16Hz, - dz´wie˛kisłyszalne-ocze˛stotliwos´ciwpas´mie16Hz–20kHz, - ultradz´wie˛ki-powyz˙ej20kHz, - hiperdz´wie˛ki-powyz˙ej1010 Hz. Jakmoz˙nazauwaz˙yc´,z˙ezakresdz´wie˛kówsłyszalnychstanowiniewielkiwycinekcałegopasmadz´wie˛- kówotaczaja˛cychczłowieka.Fizycznymiaspektamidz´wie˛kówsa˛: - widmo, - nate˛z˙enie, - czastrwaniadz´wie˛ku. Wszystkiecechydz´wie˛kumoz˙emyła˛czyc´wanaliziewykorzystuja˛cfaktzmiennos´ciwybranychcech wtrakcietrwaniadz´wie˛ku.Wykorzystujesie˛ jedoposzukiwaniazłóz˙ ropynaftowejczybadan´ skorupy ziemskiej [7]. Fale dz´wie˛kowe słuz˙a˛tez˙ jako narze˛dzie do prowadzenia badan´ medycznych oraz ma- teriałowych. Widmem dz´wie˛ku nazywamy rozkład nate˛z˙enia składowych sinusoidalnych w funkcji ich 8 1.1.Fizycznewłas´ciwos´cidz´wie˛ku 9 cze˛stotliwos´ci.Widmodz´wie˛kuuzyskujemyzapomoca˛metodspektroskopiilubwwynikuanalizycze˛- stotliwos´ciowej, np. za pomoca˛transformaty Fouriera sygnału dz´wie˛kowego. Zwykle przedstawia sie˛ je jako wykres pra˛z˙kowy, który na osi poziomej zawiera cze˛stotliwos´ci, natomiast na osi pionowej am- plitudy lub energie˛ wyraz˙ona˛w decybelach dla poszczególnych składowych. Przykłady takich widm przedstawiarysunek1.1. Rysunek1.1:Przykładowewidmosygnałumowy Nate˛z˙enie dz´wie˛ku jest wielkos´cia˛opisuja˛ca˛energie˛ fali akustycznej. W fizyce wyraz˙ana jest ona w W jako powierzchniowa ge˛stos´c´ mocy fali akustycznej. Nate˛z˙enie I fali dz´wie˛kowej na pewnej po- m2 wierzchnitos´redniaszybkos´c´ wprzeliczeniunajednostke˛ powierzchni,zjaka˛faladostarczaenergie˛ do tejpowierzchni.Bardziejpowszechnejestjednakpodawanienate˛z˙eniadz´wie˛kuwskalilogarytmicznej, czyliwartos´cipoziomunate˛z˙eniadz´wie˛ku(głos´nos´ci).Dlategotez˙ zamiastmówic´ onate˛z˙eniudz´wie˛ku moz˙emyuz˙ywac´ terminugłos´nos´cidz´wie˛kuβ,któryzdefiniowanojako (cid:18) I (cid:19) β = 10log (1) 10 I 0 gdzie I jest standardowym nate˛z˙eniem odniesienia. Wybrane zostało w taki sposób, aby było jak naj- 0 bliz˙szedolnejgranicysłyszalnos´ciludzkiegoucha.I wynosi10−12W . 0 m2 Podawanienate˛z˙eniadz´wie˛kuwtakiejskalijestbliz˙szeopisowizachowanialudzkichnarza˛dówsłu- chu.Odpowiadabowiemzmianomwartos´cinate˛z˙eniawodniesieniudoustalonegopoziomuodniesienia. Inna˛skala˛, która uwzgle˛dnia fizjologie˛ ludzkiego ucha jest skala głos´nos´ci mierzona w fonach. Waz˙na˛ role˛wanalizienate˛z˙eniadz´wie˛kuodgrywajejzmianawrazzodległos´cia˛.Sposóbwjakiulegaonazmia- niejestzwykleskomplikowany.Dz´wie˛kjestemitowanyprzezz´ródłasferycznie.Jednakniektórez´ródła T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 10 1.2.Opisludzkiegoaparatumowy rzeczywiste moga˛wytwarzac´ dz´wie˛k rozchodza˛cy sie˛ w jednym wybranym kierunku. Dodatkowo na- lez˙y wzia˛c´ pod uwage˛ zjawiska jakie zachodza˛w trakcie emisji dz´wie˛ku. Otoczenie zwykle wytwarza echo odbijaja˛c dz´wie˛kico powoduje wzmocnienie lub zmniejszenienate˛z˙enia w miejscachoddalonych od z´ródła. Do podstawowej analizy moz˙na załoz˙yc´, z˙e dz´wie˛k rozchodzi sie˛ izotropowo od z´ródła, tzn. zestałymnate˛z˙eniemwewszystkichkierunkach.Zgodniezzalez˙nos´cia˛ P s I = (2) 4πr2 gdzie P to moc akustyczna z´ródła przy załoz˙eniu, z˙e zachowana zostaje energia mechaniczna, moz˙na s okres´lic´ nate˛z˙enie dz´wie˛ku w dowolnym punkcie. Nalez˙y zwrócic´ szczególna˛uwage˛, z˙e jest ono od- wrotnieproporcjonalnetokwadratuodległos´ciodz´ródła,zatemniewielkazmianaodległos´cimoz˙espo- wodowac´ duz˙a˛zmiane˛ nate˛z˙eniadz´wie˛ku. Widmosygnałuskładasie˛ zsumyskładowychsinusoidalnych.Jes´liuznac´ widmozaszeregharmo- niczny to wyróz˙niamy spos´ród nich jedna˛, zwana˛tonem podstawowym. Składowa główna f oznacza 0 fale˛ harmoniczna˛o najniz˙szej cze˛stotliwos´ci. Ton podstawowy wyste˛puje m.in. w instrumentach mu- zycznych.Niekaz˙dydz´wie˛krejestrowanyprzezuchojestfala˛harmoniczna˛okonkretnejcze˛stotliwos´ci. Z´ródła dz´wie˛ku wytwarzaja˛, oprócz tonu podstawowego dz´wie˛ki o wyz˙szych cze˛stotliwos´ciach be˛da˛- cychwielokrotnos´cia˛tonupodstawowego.Poniz˙ejprzedstawionozalez˙nos´c´ nan-ta˛harmoniczna˛. f = nf , n ∈ N (3) n 0 Włas´ciwos´c´ dz´wie˛ku, pozwalaja˛ca odróz˙niac´ dz´wie˛ki o tym samym tonie podstawowym to barwa dz´wie˛ku.Barwadz´wie˛kujestzalez˙naodliczbyicze˛stotliwos´ciskładowychharmonicznych,orazodich amplitud. 1.2. Opis ludzkiego aparatu mowy Jednymznajwaz˙niejszychz´ródełinformacjiootaczaja˛cymnass´wieciejestdz´wie˛k.Jestonobecny wsze˛dzie i zawsze nam towarzyszy. Szacuje sie˛, z˙e około 10% populacji ludzkiej cierpi na niedosłuch [11]. Mowa pozwala przekazywac´ informacje, wyraz˙ac´ uczucia, emocje oraz artystyczne zachwyty. Mowastałasie˛ fundamentemcywilizacjiikulturyczłowieka. Wprocesiewytwarzaniagłosubiora˛udziałnaste˛pujaceelementyukładuoddechowego:wargiize˛by, jamanosowa,podniebienie,je˛zyk,strunygłosowe(głos´nia),krtan´,tchawicaioskrzelaorazpłucaiprze- pona.Całyaparatmowyodpowiedzialnyzawytwarzaniedz´wie˛kumoz˙napodzielic´ na3głównecze˛s´ci: 1. Aparatoddechowy. 2. Aparatfonacyjny. 3. Aparatartykulacyjny. T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 1.2.Opisludzkiegoaparatumowy 11 Z´ródłem energii dla układu głosowego jest cze˛s´c´ krtani poniz˙ej strun głosowych oraz tchawica, płuca i przepona. Aparat oddechowy wytwarza fale˛ dz´wie˛kowa˛, która naste˛pnie jest modulowana w górnych warstwach układu głosowego. Powietrze przechodza˛c z tchawicy trafia do układu fonacyjnego, gdzie przechodza˛c przez głos´nie˛ pobudza struny głosowe. W zalez˙nos´ci od ułoz˙enia wie˛zadeł głosowych, od tegoczysa˛onerozchylonenacałejdługos´ciczyokresowosie˛ rozchylaja˛,powstajefaladz´wie˛kowama- ja˛capostac´cia˛guimpulsówlubszumu.Towłas´nietampowstajetonpodstawowygłosu(ang.pitch).Wy- sokos´c´ tonupodstawowegojestzwia˛zanaztakimicechamijakpłec´ rozmówcy,jegowiekorazjegowro- dzonelubnabytecechycharakterystyczne,np.oddziaływaniemiejscazamieszkania.Wpływnazmiane˛ wysokos´cipierwszejskładowejmarówniez˙ intonacjagłosu,widocznanp.przyartykulacjizdan´ pytaja˛- cychczyoznajmuja˛cych.Uczłowiekatonpodstawowymoz˙ezmieniac´ siewzakresieod80do960Hz. Bardzo waz˙na˛role˛ w tym wypadku odgrywa płec´. U me˛z˙czyzn ton podstawowy zawiera sie˛ w pas´mie ok.80–480Hz,dlakobietpasmojestokołodwarazywie˛kszeok.160–960Hz.Schematbudowytraktu głosowegoprzedstawiononarysunku1.2.Naschemaciepominie˛tezostałyelementyniespełniaja˛ceistot- nejroliwprocesieformowaniasygnałupobudzenia,abiora˛ceudziałwgenerowaniumowy. Rysunek1.2:Schemattraktugłosowego Przy przechodzeniu fali dz´wie˛kowej przez trakt głosowy kształtowane jest widmo sygnału krtanio- wego, które powstaje po przejs´ciu fali przez głos´nie˛. Tak powstały sygnał dz´wie˛kowy moz˙na poddac´ T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji.

Description:
Skupia si˛e te˙z na sposobie przeniesienia algorytmu do srodowiska programistycznego Android. Czwarty rozdział pracy . mowy, trakt głosowy jest liniowo niezmiennym w czasie układem. Przyjmuje si˛e wi˛ec, ˙ze dla fragmentów mowy o długosci ok. 20 ms pa- rametry opisuj ˛ace głos s ˛a tak
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.