Nozioni e termini di fonetica acustica. Come si analizza il segnale acustico 2 1. Definizione La fonetica acustica è lo studio dei segnali acustici complessi diretto a scomporli nelle loro componenti semplici. Essa si serve principalmente della spettrografia, la tecnica di analisi che permette la scomposizione, mediante il procedimento matematico denominato trasformata di Fourier. Lo spettrogramma è la rappresentazione grafica di tale procedimento. Un’onda è detta semplice se è prodotta da un corpo che oscilla in ogni sua parte a una stessa frequenza. In natura non esistono sorgenti sonore in grado di produrre onde semplici; l’unico oggetto in grado di farlo, il diapason, deve essere appositamente costruito in modo tale che, quando messo in vibrazione, oscilli in ogni sua parte a una e a una sola frequenza. Anche nel caso di una corda tesa vincolata alle due estremità, come, ad es., la corda di una chitarra, il segnale generato è un segnale complesso, costituito dalla somma di più frequenze, una multipla dell’altra. Tali frequenze vengono dette armoniche: la frequenza più bassa è detta fondamentale (o prima armonica) e corrisponde sul piano percettivo all’altezza (o tono) del suono prodotto. Per restare all’esempio della chitarra, se si mettono in vibrazione contemporaneamente due corde, si continuerà a sentire un singolo suono, diverso da quello prodotto dalla vibrazione dell’una o dell’altra corda. La ragione è che le onde sonore hanno 3 la proprietà di sommarsi tra loro. La frequenza dell’onda complessa risultante equivale alla frequenza della sua componente più bassa. Se alla corda vibrante si aggiunge un risonatore, come la cassa armonica della chitarra, alle onde prodotte dalle vibrazioni della corda si aggiungono quelle prodotte dal risonatore, che si mette a oscillare a frequenze che dipendono dalla sua forma e dal materiale di cui è costituito. L’apparato fonatorio è molto più complicato di una semplice corda vibrante accoppiata a un risonatore a volume fisso: la sorgente sonora, costituita dalle corde (o pliche) vocali, varia rapidamente grazie alla contrazione di alcuni muscoli laringei, in particolare del muscolo tensore (il cricotiroideo) che tende in misura maggiore o minore le due corde facendole vibrare a frequenza diversa. Per quanto riguarda il risonatore, esso genera frequenze differenti a seconda della forma assunta dalle diverse cavità (laringale, faringale, orale, nasale), dell’elasticità dei tessuti, della loro conformazione e dimensione. Anche tali frequenze variano molto rapidamente nel tempo grazie alla grande motilità degli organi articolatori e ciò comporta significative variazioni del segnale prodotto che, anche se dell’ordine di pochi millisecondi, risultano rilevanti sul piano percettivo. Il risultato di tutta questa complessa attività è la voce, un’onda sonora le cui caratteristiche variano istante per istante in dipendenza dei movimenti articolatori. Il tracciato spettrografico è il tentativo di rappresentare graficamente tutto questo. L’applicazione della tecnica spettrografica all’analisi della voce risale al 1951, anno in cui 4 viene prodotto e messo in commercio dalla Kay Electrics il primo modello di sound spectrograph. Oggi sono disponibili vari modelli di spettrografi, sia hardware, come il CSL (Computerized speech lab) della Kaypentax, sia software, come il Multi-Speech, commercializzato dalla stessa società, o il Praat, elaborato presso l’università di Amsterdam e scaricabile dalla rete. Gli spettrogrammi riportati nelle figure seguenti sono stati prodotti con WaveSurfer 1.8.5, un software open source elaborato dal CTT (Centre for speech technology) del KTH (Kungliga tekniska Högskolan; in ingl., Royal Institute of technology) di Stoccolma. 5 2. Lo spettrogramma Lo spettrogramma è il tracciato tridimensionale ottenuto mediante la scomposizione del segnale complesso nelle sue varie componenti semplici. Sull’asse delle ascisse viene rappresentato il tempo, sull’asse delle ordinate le frequenze. La terza dimensione è quella dell’intensità, rappresentata dal maggiore o minore annerimento del tracciato. A seconda del diverso procedimento utilizzato nel filtrare il segnale complesso, lo spettrogramma assume caratteristiche diverse (fig. 1). I due filtri passabanda comunemente utilizzati hanno una larghezza di 45 Hz (spettrogramma a banda stretta) e di 300 Hz (spettrogramma a banda larga). Il primo mette in evidenza il comportamento delle corde vocali, in quanto separa le singole armoniche che vengono rappresentate da una serie di striature 6 orizzontali. La distanza tra due striature contigue, misurata in Hz sulla scala delle frequenze, dà il valore della frequenza di vibrazione della glottide o frequenza fondamentale (F0). Il secondo mette in risalto le cosiddette formanti (frequenze di risonanza generate dalle cavità sopralaringali) evidenziate da zone di maggiore annerimento, senza che vengano perdute le informazioni sul comportamento della sorgente glottidale: le aperture e chiusure delle corde vocali sono infatti rappresentate da striature verticali periodiche. L’altezza di una formante, misurata nel punto centrale della banda annerita, dipende non solo dalla forma del risonatore ma anche dalla sua dimensione: in generale si può dire che più piccola è la cavità, più alta è la frequenza alla quale risuona. Sia la frequenza fondamentale che le altezze formantiche variano in relazione alle caratteristiche fisiche del parlante. La frequenza fondamentale di un parlato conversazionale è mediamente compresa tra 70 e 150 Hz per una voce maschile, tra 150 e 250 Hz per una voce femminile, tra 250 e 350 Hz per una voce di bambino. Tali differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, più lunghe e spesse nell’uomo, più corte e sottili nella donna, ancora più corte nel bambino. Per quanto riguarda le altezze formantiche, il canale epilaringeo, dalla glottide alla labbra, è mediamente lungo 17,5 cm nell’uomo, più corto di circa il 15% nella donna e del 50% nel bambino: questo comporta, a parità di conformazione, formanti più basse nella voce maschile rispetto alla voce femminile e a quella infantile. 7 Oltre all’analisi di tipo segmentale, lo spettrogramma consente anche un’indagine di tipo soprasegmentale (fig. 2), in quanto dal tracciato è possibile ricavare la durata dei singoli foni, la loro intensità e l’andamento intonativo dell’enunciato. Infine l’analisi spettrografica permette di evidenziare i numerosi effetti di coarticolazione che caratterizzano il parlato. 8 3. Le vocali Le vocali sono foni prodotti con un canale fonatorio libero, che non presenta chiusure né restringimenti. La loro produzione è quindi caratterizzata da una gran quantità di flusso d’aria espiratoria per tutta la loro durata e ciò, in termini acustici, corrisponde a un segnale molto intenso. Inoltre l’assenza di impedimenti permette alle cavità sopralaringali di vibrare liberamente alle proprie frequenze di risonanza, per cui le formanti saranno, sullo spettro, ben definite e marcate. Per l’individuazione delle vocali è sufficiente far riferimento all’altezza delle prime due formanti (F1 e F2) la cui dislocazione cambia a seconda della vocale: in generale si può dire che, per le vocali anteriori, più la vocale è chiusa più le due formanti sono distanti l’una dall’altra; per le vocali posteriori protruse, più la vocale è chiusa più le due formanti sono basse e vicine. Nella determinazione del grado di apertura della vocale vanno tenute presenti le seguenti corrispondenze articolatorio-acustiche: (b) un restringimento nella cavità faringale determina, rispetto ai valori formantici di [ə], l’innalzamento della F1 e l’abbassamento della F2; maggiore è la costrizione, maggiore è l’effetto sulla formante; 9 (c) l’arrotondamento e la protrusione delle labbra determinano l’abbassamento di tutte le formanti; maggiore è la labializzazione, maggiore è l’effetto sulle formanti. L’unica vocale ad avere tutte le formanti equidistanti l’una dall’altra è la vocale centrale [ə], il cui tracciato costituisce un utile punto di riferimento nell’operazione di lettura spettrografica. Infatti se la distanza in Hz tra due formanti consecutive (F – F ) n+1 n è uguale a 1000 Hz, il canale epilaringeo è lungo 17,5 cm. Per valori diversi di F – F è possibile ricavare la lunghezza della n+1 n distanza glottide-labbra del locutore secondo la formula x = 17,5 ‧ 1000 / k, dove x è la lunghezza cercata e k è la distanza F – F n+1 n misurata in Hz. Avendo come riferimento la vocale centrale è possibile determinare con precisione le caratteristiche articolatorie dei segmenti vocalici e, in base ai valori di F1 e F2 di ciascuno di essi, assegnare il corrispondente simbolo IPA. I valori medi di F1 e F2 delle sette vocali dell’italiano pronunciate da voce adulta maschile e femminile sono riportati nello specchietto che segue (ricavato da Ferrero & Magno Caldognetto 1986): vocale F1 - F2 F1 - F2 voce maschile voce femminile [i] 280 - 2240 320 - 2750 [e] 360 - 2040 400 - 2500 [ɛ] 560 - 1840 620 - 2400 [a] 800 - 1280 920 - 1400 10