AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁINFORMATYKI, ELEKTRONIKIITELEKOMUNIKACJI KATEDRATELEKOMUNIKACJI Praca dyplomowa inz˙ynierska Aplikacja mobilna ułatwiaja˛ca eliminacje˛ nawyku mówienia „yyyy” podczas prezentacji. Autor: Tomasz Balawajder Kierunek studiów: Elektronika i Telekomunikacja Opiekun pracy: dr inz˙. Jarosław Bułat Kraków,2014 Os´wiadczam, s´wiadomy(-a) odpowiedzialnos´ci karnej za pos´wiadczenie nieprawdy, z˙e niniejsza˛ prace˛ dyplomowa˛ wykonałem(-am) osobis´cie i samodzielnie i nie korzystałem(-am) zez´ródełinnychniz˙ wymienionewpracy. Spis tres´ci Wste˛p..................................................................................................................................................... 6 Celepracy........................................................................................................................................ 6 1. Charakterystykamowyludzkiej.................................................................................................. 8 1.1. Fizycznewłas´ciwos´cidz´wie˛ku.............................................................................................. 8 1.2. Opisludzkiegoaparatumowy............................................................................................... 10 1.3. Celeikorzys´cicyfrowegoprzetwarzaniagłosu.................................................................... 13 2. SpecyfikacjaprogramuyyyKiller................................................................................................. 14 2.1. Zaimplementowanefunkcjonalnos´ci..................................................................................... 14 2.2. Algorytmydetekcjiartefaktów.............................................................................................. 16 3. Implementacja................................................................................................................................ 24 3.1. Opisplatformy....................................................................................................................... 24 3.2. ImplementacjaaplikacjiyyyKiller........................................................................................ 26 3.3. Algorytmzaimplementowanywaplikacji............................................................................. 27 4. Testy................................................................................................................................................. 31 4.1. Testywewspółczesnychprojektachinformatycznych.......................................................... 31 4.2. Wydajnos´c´ algorytmudetekcjiartefaktów............................................................................ 31 4.3. Konfiguracjaitestyuz˙ytkoweaplikacji................................................................................. 32 Wnioskikon´cowe................................................................................................................................. 33 Bibliografia........................................................................................................................................... 35 5 Wste˛p Cele pracy Wszyscymielis´myokazje˛ przemawiac´ doludzi,jakrówniez˙ wysłuchiwac´ przemówien´ innych.Cze˛- stoproblememmówcówniejestnieznajomos´c´tematuczybrakprzygotowania,atechnikamowy.Proble- memstaja˛sie˛ wrodzoneoraznabytewadywymowy,nalotgwaryregionalnejczynieprawidłowadykcja. Wielezłychnawykówmoz˙nawyeliminowac´ poprzezc´wiczenia.Jednymzbłe˛dówwymowyjestnawyk mówienia „yyy” czy „eee” w czasie prowadzenia prezentacji. Jest to przyzwyczajenie, które potrafi ła- two i szybko znieche˛cic´ słuchacza do nawet najlepiej merytorycznie przygotowanej prezentacji. Takie zawieszaniegłosumoz˙emiec´ uzasadnieniewtym,z˙emówcajestnieprzygotowanydoprezentacjii„za- pełnia” w ten sposób czas. Najcze˛s´ciej jednak jest to nies´wiadomy odruch, pozwalaja˛cy prelegentowi na chwile˛ przerwy w merytorycznych rozwaz˙aniach. To włas´nie poczucie nies´wiadomos´ci stało sie˛ po- wodem zaje˛cia sie˛ tym tematem w niniejszej pracy. Jednym ze sposobów us´wiadomienia prelegenta o błe˛dach wymowy jest informowanie go o nich w trakcie prezentacji. Kiedy prelegent jest na biez˙a˛co informowanyoswoichbłe˛dachwymowy,moz˙ejeszybkoiskutecznieskorygowac´. Celem pracy jest opracowanie aplikacji umoz˙liwiaja˛cej eliminacje˛ nawyku mówienia ,yyy” oraz „eee” podczas prezentacji. Załoz˙ono, z˙e aplikacja ma zostac´ zaimplementowana dla systemu Android. Jej celem be˛dzie rejestrowanie dz´wie˛ku w czasie rzeczywistym, analizowanie go pod ka˛tem wysta˛pie- nia „yyy” lub „eee” oraz prezentacja wyników tej analizy w sposób zdefiniowany przez uz˙ytkownika. Zaprojektowana aplikacja powinna, oprócz przetwarzania dz´wie˛ku, dostarczac´ uz˙ytkownikowi prosty i przejrzystyinterfejs,któryumoz˙liwimuszybkieorazdyskretneposługiwaniesie˛ nia˛wczasieprelekcji. Dodatkowo w programie znajdzie sie zegar, który be˛dzie odliczał czas prezentacji w taki sposób, aby prelegentmógłgoswobodniekontrolowac´.Naste˛pna˛funkcja˛programupowinnabyc´ moz˙liwos´c´ groma- dzeniaprzezniegostatystykorejestrowanejprezentacji.Zebranedanenalez˙ywys´wietlic´uz˙ytkownikowi pozakon´czeniuprzezniegoprelekcji. Niniejsza praca stanowi opis procesu tworzenia aplikacji opisanej powyz˙ej. Zawiera cztery roz- działy, które szczegółowo obrazuja˛jak przebiegało projektowanie oraz implementacja programu. Roz- działpierwszyzawierapodstawyteoretycznefizycznychwłasnos´cidz´wie˛ku,orazopisludzkiegoaparatu mowy. Znajduja˛sie˛ w nim tez˙ podstawy teorii cyfrowego przetwarzania sygnałów wraz z najwaz˙niej- szymitwierdzeniami.Nakon´cuprzedstawionoiporównanosukcesyzdziedzinyprzetwarzaniadz´wie˛ku jakiedotejpozyzostałyosia˛gnie˛te. 6 Wste˛p 7 Rozdział2zawieraspecyfikacje˛programuopisywanegowpracy.Szczegółowozostałysprecyzowane wymagania, jakie powinna spełniac´ aplikacja, która została nazwana yyyKiller. Zobrazowano w nim równiez˙ algorytm, wykorzystywany póz´niej w implementacji kodu z´ródłowego aplikacji. Znajduje sie˛ tu zarówno jego opis, jak tez˙ charakterystyka algorytmów be˛da˛cych cze˛s´ciami składowymi głównej procedury. Ponadto opisano w nim przebieg procesu badawczego poprzedzaja˛cego implementacje˛ oraz testyaplikacji. Kolejny rozdział charakteryzuje platforme˛ na jakiej przeprowadzono implementacje˛ aplikacji. Roz- poczynaja˛c od teoretycznych rozwaz˙an´ na temat systemów mobilnych opisujeproces tworzenia aplika- cji,zastosowanychtechnikiwzorcóworazprezentujediagramyifragmentykoduz´ródłowegoprogramu. Skupiasie˛ tez˙ nasposobieprzeniesieniaalgorytmudos´rodowiskaprogramistycznegoAndroid. Czwarty rozdział pracy zawiera opis przeprowadzonych testów aplikacji. Prezentuje moz˙liwe kon- figuracje programu oraz stanowi opis uzyskanych rezultatów. W zakon´czeniu pracy sa˛zamieszczone wnioskiorazpodsumowanieosia˛gnie˛tychefektów. T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 1. Charakterystyka mowy ludzkiej W niniejszym rozdziale przedstawiono podstawowe informacje dotycza˛ce cech fonetycznych oraz podstawy teorii przetwarzania mowy. Znajduja˛sie˛ w nim równiez˙ informacje na temat fizycznych wła- s´ciwos´cifaldz´wie˛kowych. 1.1. Fizyczne włas´ciwos´ci dz´wie˛ku Wytwarzaniegłosujestbardzozłoz˙onymzjawiskiemakustycznymimechanicznym.Dz´wie˛k,wka- tegoriach fizycznych jest wraz˙eniem słuchowym spowodowanym drganiami fal akustycznych rozcho- dza˛cych sie˛ w os´rodku spre˛z˙ystym. Fala akustyczna to zaburzenie ge˛stos´ci w formie fali podłuz˙nej rozchodza˛ce sie˛ w powietrzu lub innym os´rodku. Sa˛to zarówno te fale, które powoduja˛wraz˙enia słu- chowe,jakrówniez˙faleocze˛stotliwos´ciachwykraczaja˛cychpozapasmosłyszalnos´ciludzkichzmysłów. Zewzgle˛dunacze˛stotliwos´c´ dz´wie˛kimoz˙emypodzielic´ wnaste˛puja˛cysposób[5]: - infradz´wie˛ki-ocze˛stotliwos´ciponiz˙ej16Hz, - dz´wie˛kisłyszalne-ocze˛stotliwos´ciwpas´mie16Hz–20kHz, - ultradz´wie˛ki-powyz˙ej20kHz, - hiperdz´wie˛ki-powyz˙ej1010 Hz. Jakmoz˙nazauwaz˙yc´,z˙ezakresdz´wie˛kówsłyszalnychstanowiniewielkiwycinekcałegopasmadz´wie˛- kówotaczaja˛cychczłowieka.Fizycznymiaspektamidz´wie˛kówsa˛: - widmo, - nate˛z˙enie, - czastrwaniadz´wie˛ku. Wszystkiecechydz´wie˛kumoz˙emyła˛czyc´wanaliziewykorzystuja˛cfaktzmiennos´ciwybranychcech wtrakcietrwaniadz´wie˛ku.Wykorzystujesie˛ jedoposzukiwaniazłóz˙ ropynaftowejczybadan´ skorupy ziemskiej [7]. Fale dz´wie˛kowe słuz˙a˛tez˙ jako narze˛dzie do prowadzenia badan´ medycznych oraz ma- teriałowych. Widmem dz´wie˛ku nazywamy rozkład nate˛z˙enia składowych sinusoidalnych w funkcji ich 8 1.1.Fizycznewłas´ciwos´cidz´wie˛ku 9 cze˛stotliwos´ci.Widmodz´wie˛kuuzyskujemyzapomoca˛metodspektroskopiilubwwynikuanalizycze˛- stotliwos´ciowej, np. za pomoca˛transformaty Fouriera sygnału dz´wie˛kowego. Zwykle przedstawia sie˛ je jako wykres pra˛z˙kowy, który na osi poziomej zawiera cze˛stotliwos´ci, natomiast na osi pionowej am- plitudy lub energie˛ wyraz˙ona˛w decybelach dla poszczególnych składowych. Przykłady takich widm przedstawiarysunek1.1. Rysunek1.1:Przykładowewidmosygnałumowy Nate˛z˙enie dz´wie˛ku jest wielkos´cia˛opisuja˛ca˛energie˛ fali akustycznej. W fizyce wyraz˙ana jest ona w W jako powierzchniowa ge˛stos´c´ mocy fali akustycznej. Nate˛z˙enie I fali dz´wie˛kowej na pewnej po- m2 wierzchnitos´redniaszybkos´c´ wprzeliczeniunajednostke˛ powierzchni,zjaka˛faladostarczaenergie˛ do tejpowierzchni.Bardziejpowszechnejestjednakpodawanienate˛z˙eniadz´wie˛kuwskalilogarytmicznej, czyliwartos´cipoziomunate˛z˙eniadz´wie˛ku(głos´nos´ci).Dlategotez˙ zamiastmówic´ onate˛z˙eniudz´wie˛ku moz˙emyuz˙ywac´ terminugłos´nos´cidz´wie˛kuβ,któryzdefiniowanojako (cid:18) I (cid:19) β = 10log (1) 10 I 0 gdzie I jest standardowym nate˛z˙eniem odniesienia. Wybrane zostało w taki sposób, aby było jak naj- 0 bliz˙szedolnejgranicysłyszalnos´ciludzkiegoucha.I wynosi10−12W . 0 m2 Podawanienate˛z˙eniadz´wie˛kuwtakiejskalijestbliz˙szeopisowizachowanialudzkichnarza˛dówsłu- chu.Odpowiadabowiemzmianomwartos´cinate˛z˙eniawodniesieniudoustalonegopoziomuodniesienia. Inna˛skala˛, która uwzgle˛dnia fizjologie˛ ludzkiego ucha jest skala głos´nos´ci mierzona w fonach. Waz˙na˛ role˛wanalizienate˛z˙eniadz´wie˛kuodgrywajejzmianawrazzodległos´cia˛.Sposóbwjakiulegaonazmia- niejestzwykleskomplikowany.Dz´wie˛kjestemitowanyprzezz´ródłasferycznie.Jednakniektórez´ródła T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 10 1.2.Opisludzkiegoaparatumowy rzeczywiste moga˛wytwarzac´ dz´wie˛k rozchodza˛cy sie˛ w jednym wybranym kierunku. Dodatkowo na- lez˙y wzia˛c´ pod uwage˛ zjawiska jakie zachodza˛w trakcie emisji dz´wie˛ku. Otoczenie zwykle wytwarza echo odbijaja˛c dz´wie˛kico powoduje wzmocnienie lub zmniejszenienate˛z˙enia w miejscachoddalonych od z´ródła. Do podstawowej analizy moz˙na załoz˙yc´, z˙e dz´wie˛k rozchodzi sie˛ izotropowo od z´ródła, tzn. zestałymnate˛z˙eniemwewszystkichkierunkach.Zgodniezzalez˙nos´cia˛ P s I = (2) 4πr2 gdzie P to moc akustyczna z´ródła przy załoz˙eniu, z˙e zachowana zostaje energia mechaniczna, moz˙na s okres´lic´ nate˛z˙enie dz´wie˛ku w dowolnym punkcie. Nalez˙y zwrócic´ szczególna˛uwage˛, z˙e jest ono od- wrotnieproporcjonalnetokwadratuodległos´ciodz´ródła,zatemniewielkazmianaodległos´cimoz˙espo- wodowac´ duz˙a˛zmiane˛ nate˛z˙eniadz´wie˛ku. Widmosygnałuskładasie˛ zsumyskładowychsinusoidalnych.Jes´liuznac´ widmozaszeregharmo- niczny to wyróz˙niamy spos´ród nich jedna˛, zwana˛tonem podstawowym. Składowa główna f oznacza 0 fale˛ harmoniczna˛o najniz˙szej cze˛stotliwos´ci. Ton podstawowy wyste˛puje m.in. w instrumentach mu- zycznych.Niekaz˙dydz´wie˛krejestrowanyprzezuchojestfala˛harmoniczna˛okonkretnejcze˛stotliwos´ci. Z´ródła dz´wie˛ku wytwarzaja˛, oprócz tonu podstawowego dz´wie˛ki o wyz˙szych cze˛stotliwos´ciach be˛da˛- cychwielokrotnos´cia˛tonupodstawowego.Poniz˙ejprzedstawionozalez˙nos´c´ nan-ta˛harmoniczna˛. f = nf , n ∈ N (3) n 0 Włas´ciwos´c´ dz´wie˛ku, pozwalaja˛ca odróz˙niac´ dz´wie˛ki o tym samym tonie podstawowym to barwa dz´wie˛ku.Barwadz´wie˛kujestzalez˙naodliczbyicze˛stotliwos´ciskładowychharmonicznych,orazodich amplitud. 1.2. Opis ludzkiego aparatu mowy Jednymznajwaz˙niejszychz´ródełinformacjiootaczaja˛cymnass´wieciejestdz´wie˛k.Jestonobecny wsze˛dzie i zawsze nam towarzyszy. Szacuje sie˛, z˙e około 10% populacji ludzkiej cierpi na niedosłuch [11]. Mowa pozwala przekazywac´ informacje, wyraz˙ac´ uczucia, emocje oraz artystyczne zachwyty. Mowastałasie˛ fundamentemcywilizacjiikulturyczłowieka. Wprocesiewytwarzaniagłosubiora˛udziałnaste˛pujaceelementyukładuoddechowego:wargiize˛by, jamanosowa,podniebienie,je˛zyk,strunygłosowe(głos´nia),krtan´,tchawicaioskrzelaorazpłucaiprze- pona.Całyaparatmowyodpowiedzialnyzawytwarzaniedz´wie˛kumoz˙napodzielic´ na3głównecze˛s´ci: 1. Aparatoddechowy. 2. Aparatfonacyjny. 3. Aparatartykulacyjny. T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji. 1.2.Opisludzkiegoaparatumowy 11 Z´ródłem energii dla układu głosowego jest cze˛s´c´ krtani poniz˙ej strun głosowych oraz tchawica, płuca i przepona. Aparat oddechowy wytwarza fale˛ dz´wie˛kowa˛, która naste˛pnie jest modulowana w górnych warstwach układu głosowego. Powietrze przechodza˛c z tchawicy trafia do układu fonacyjnego, gdzie przechodza˛c przez głos´nie˛ pobudza struny głosowe. W zalez˙nos´ci od ułoz˙enia wie˛zadeł głosowych, od tegoczysa˛onerozchylonenacałejdługos´ciczyokresowosie˛ rozchylaja˛,powstajefaladz´wie˛kowama- ja˛capostac´cia˛guimpulsówlubszumu.Towłas´nietampowstajetonpodstawowygłosu(ang.pitch).Wy- sokos´c´ tonupodstawowegojestzwia˛zanaztakimicechamijakpłec´ rozmówcy,jegowiekorazjegowro- dzonelubnabytecechycharakterystyczne,np.oddziaływaniemiejscazamieszkania.Wpływnazmiane˛ wysokos´cipierwszejskładowejmarówniez˙ intonacjagłosu,widocznanp.przyartykulacjizdan´ pytaja˛- cychczyoznajmuja˛cych.Uczłowiekatonpodstawowymoz˙ezmieniac´ siewzakresieod80do960Hz. Bardzo waz˙na˛role˛ w tym wypadku odgrywa płec´. U me˛z˙czyzn ton podstawowy zawiera sie˛ w pas´mie ok.80–480Hz,dlakobietpasmojestokołodwarazywie˛kszeok.160–960Hz.Schematbudowytraktu głosowegoprzedstawiononarysunku1.2.Naschemaciepominie˛tezostałyelementyniespełniaja˛ceistot- nejroliwprocesieformowaniasygnałupobudzenia,abiora˛ceudziałwgenerowaniumowy. Rysunek1.2:Schemattraktugłosowego Przy przechodzeniu fali dz´wie˛kowej przez trakt głosowy kształtowane jest widmo sygnału krtanio- wego, które powstaje po przejs´ciu fali przez głos´nie˛. Tak powstały sygnał dz´wie˛kowy moz˙na poddac´ T.Balawajder Aplikacjamobilnaułatwiaja˛caeliminacje˛ nawykumówienia„yyyy”podczasprezentacji.
Description: