Disen˜o y Evaluacio´n de Algoritmos para Detectar Vocalizaciones de Aves en Registros Sonoros Juan Sebastia´n Ulloa por Pontificia Universidad Javeriana Facultad de Ingenier´ıa Ingenier´ıa Electro´nica Cali Octubre 2012 Disen˜o y Evaluacio´n de Algoritmos para Detectar Vocalizaciones de Aves en Registros Sonoros Juan Sebastia´n Ulloa por Trabajo de grado presentado como requisito parcial para optar al t´ıtulo de Ingeniero Electr´onico Director Dr. Herna´n Dar´ıo Ben´ıtez Pontificia Universidad Javeriana Facultad de Ingenier´ıa Ingenier´ıa Electro´nica Cali Octubre 2012 ´ Indice general ´Indice de figuras IV Lista de Abreviaciones VI 1. Introduccio´n 1 1.1. Relevancia del estudio en relaci´on con la biodiversidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Contribuci´on de este proyecto . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Esquema del manuscrito . . . . . . . . . . . . . . . . . . . . . . . . . 5 2. Base teo´rica: biolog´ıa 6 2.1. La comunicacio´n acu´stica en las aves . . . . . . . . . . . . . . . . . . 6 2.1.1. Anatom´ıa del ´organo vocal . . . . . . . . . . . . . . . . . . . . 6 2.1.2. Las vocalizaciones de aves . . . . . . . . . . . . . . . . . . . . 7 2.2. Pa´ramo y bosque alto-andino . . . . . . . . . . . . . . . . . . . . . . 9 3. Registros sonoros del IAvH 11 3.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1. Equipo de grabaci´on . . . . . . . . . . . . . . . . . . . . . . . 12 3.1.2. Selecci´on de audio . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1.3. Homogenizaci´on de los datos . . . . . . . . . . . . . . . . . . . 13 3.2. Vocalizaci´on de aves en los registros . . . . . . . . . . . . . . . . . . . 14 3.2.1. Frecuencia cuasi-constante . . . . . . . . . . . . . . . . . . . . 14 3.2.2. Frecuencia modulada . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.3. Pulso en banda ancha . . . . . . . . . . . . . . . . . . . . . . 15 3.3. Ruido ambiental e interferencias . . . . . . . . . . . . . . . . . . . . . 16 3.3.1. Ruido ambiental . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.3.2. ‘Clicks’ y ‘pops’ . . . . . . . . . . . . . . . . . . . . . . . . . . 18 i 3.3.3. Voz humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4. Caracter´ısticas en sen˜ales de audio 21 4.1. Procesamiento de corto plazo en sen˜ales de audio . . . . . . . . . . . 21 4.2. Caracter´ısticas frecuenciales . . . . . . . . . . . . . . . . . . . . . . . 22 4.2.1. Centroide espectral . . . . . . . . . . . . . . . . . . . . . . . . 22 4.2.2. Spectral Rolloff . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2.3. Spectral Flux . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2.4. Entrop´ıa Espectral . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.5. Ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.6. Frecuencia pico . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.7. Spectral Flatness . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3. Caracter´ısticas temporales . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.1. Energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3.2. Tasa de cruce por cero . . . . . . . . . . . . . . . . . . . . . . 26 5. Algoritmos de deteccio´n 27 5.1. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.1.1. Umbral de energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . 27 5.1.2. M´aquinas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 28 5.1.3. Template matching . . . . . . . . . . . . . . . . . . . . . . . . 28 5.2. Constant False Alarm Rate (CFAR) . . . . . . . . . . . . . . . . . . . 29 5.3. Red Neuronal Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.3.1. Modelo general de la red . . . . . . . . . . . . . . . . . . . . . 31 5.3.2. M´etodo de entrenamiento . . . . . . . . . . . . . . . . . . . . 31 5.3.3. Ajuste de para´metros . . . . . . . . . . . . . . . . . . . . . . . 32 5.4. Template Matching (TM) . . . . . . . . . . . . . . . . . . . . . . . . 33 5.4.1. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.4.2. La plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.4.3. Procesamiento de la sen˜al de salida . . . . . . . . . . . . . . . 35 5.5. Filtro pasabanda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 6. Pruebas y resultados 38 6.1. Modelo de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.2.1. Pruebas sin filtro . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.2.2. Adici´on de filtro FIR . . . . . . . . . . . . . . . . . . . . . . . 45 ii 6.2.3. Tiempo de ejecucio´n . . . . . . . . . . . . . . . . . . . . . . . 50 6.3. Discusio´n de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 50 7. Conclusiones y trabajos futuros 53 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 7.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Ap´endices 56 A. Grabaciones del IAvH 57 B. Especificaciones del equipo de grabaci´on 59 Bibliograf´ıa 60 iii ´ Indice de figuras 2.1. Mecan´ısmo de produccio´n de sonido en las aves (Fagerlund, 2004) . . 7 2.2. Las divisiones jer´arquicas de las vocalizaciones de aves: silaba, frase y canto (o llamado). Canto de Atlapetes pallidinucha. . . . . . . . . . 9 3.1. Ejemplo de (a) estructura cao´tica de vocalizacio´nes superpuestas y (b) vocalizaciones separadas . . . . . . . . . . . . . . . . . . . . . . . 13 3.2. Ejemplo de vocalizaci´on con frecuencia constante. Especie: Acropter- nis orthonyx. Frecuencia: 2-3kHz . . . . . . . . . . . . . . . . . . . . . 15 3.3. Ejemplo de vocalizaci´on compuesta por varias s´ılabas que modulan en frecuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz . . 15 3.4. Ejemplo de vocalizacio´n en pulsos de banda ancha. Especie: Cinny- certhia unirufa. Frecuencia: 1-12kHz . . . . . . . . . . . . . . . . . . . 16 3.5. Cuatro gra´ficas espec´ıficas de ana´lisis exploratorio para una muestra deruidoambiente.1.Esquinasuperiorderecha,secuenciadeamplitud delasmuestraseneltiempo.2.Esquinasuperiorizquierda,dispersi´on de las muestras. 3. Esquina inferior derecha, histograma. 4. Esquina inferior derecha, gr´afico de probabilidad normal. . . . . . . . . . . . . 17 3.6. Ejemplo de ruido ambiental. . . . . . . . . . . . . . . . . . . . . . . . 18 3.7. Ejemplo de click . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.8. Ejemplodeunainterferenciaproducidaporelmovimientodelmicro´fono 19 3.9. Ejemplo de voz humana . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.1. Ejemplo de valores obtenidos de Spectral Centroid en una sen˜al que contiene vocalizaciones de aves e interferencia de tipo I2 . . . . . . . 22 4.2. Ejemplo de valores obtenidos de Spectral Rolloff en una sen˜al que contiene una vocalizaci´on de un ave y ruido ambiente. . . . . . . . . . 23 4.3. Ejemplo de valores obtenidos del pico de frecuencia en una sen˜al que contiene una vocalizaci´on de un ave y voz humana yuxtapuestas. . . . 25 iv 5.1. Diagrama de flujo del algoritmo CFAR . . . . . . . . . . . . . . . . . 30 5.2. Modelo de la red perceptron multicapa implementada. . . . . . . . . 31 5.3. Validaci´on cruzada de cinco a cien neuronas con incrementos de cinco unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.4. Diagrama del algoritmo template matching . . . . . . . . . . . . . . . 34 5.5. Comparacio´nderesultadosobtenidosenlacorrelacio´nconeltemplate artificial y con el template natural. . . . . . . . . . . . . . . . . . . . 35 5.6. Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR disen˜ado por muestreo en frecuencia. . . . . . . . . . . . . . . . . . . 37 6.1. Esquema de la elaboraci´on de sen˜ales para la Prueba I. A una sen˜al con vocalizaciones de aves se le agrega ruido ambiente a diferentes niveles para obtener diferentes valores de SNR. . . . . . . . . . . . . . 39 6.2. Esquema de la elaboracio´n de las sen˜ales para la Prueba II. Se toma una sen˜al con vocalizaciones de aves y se le agregan interferencias. . . 40 6.3. Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 6.4. Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b). . 43 6.5. Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.6. Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b). . 45 6.7. Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.8. Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.9. Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.10.Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 v Lista de Abreviaciones AUC Area Under the Curve CFAR Constant False Alarm Rate DFT Discrete Fourier Transform FFT Fast Fourier Transform FIR Finite Impulse Response IAvH Instituto Alexander von Humboldt RMS Root mean square RNA Red Neuronal Artificial ROC Receiver Operating Characteristic SNR Signal-to-noise ratio TM Template Matching vi Agradecimientos Este proyecto no habr´ıa sido posible sin la ayuda de muchas personas. En primer lugar, quiero darle las gracias a Hern´an Ben´ıtez por haberme acompan˜ado incon- dicionalmente de principio a fin durante este largo proceso de aprendizaje. Paula Caycedo me abri´o las ventanas al mundo de la bioacu´stica y los paisajes sonoros. Jaime Parra y Mauricio Orozco ayudaron a construir las bases fundamentales del proyecto. Patricia Chaco´n, mi madre, por la incalculable ayuda recibida en este pro- yecto.SaraKeen,quiensiemprecontesto´amisinterminablescorreosconinformacio´n precisa y detallada. Mi primo Juan Fernando Correa me apoy´o en la idea de desdi- bujar la so´lida l´ınea que se ha trazado entre la ingenier´ıa y otras ´areas de estudio. Algunos bi´ologos que contribuyeron sustancialmente con sus ideas y conocimiento son Gustavo Kattan, Fernando Montealegre y Wilmar Bolivar. ´ Quiero adema´s dar un especial agradecimiento a la Fundaci´on Alejandro Angel Escobar por financiar parte de este proyecto y al Instituto Humboldt por proveer las indispensables grabaciones de campo. Finalmente, quiero agradecer a mi familia por el apoyo brindado en mis estudios. Abstract Bird monitoring based on avian sound analysis provide valuable information for science and conservation efforts. In Colombia, the Alexander von Humboldt Institute (IAvH) will perform an acoustic monitoring study on the moorland and high Andean forest, which includes over 500 hours of recordings. Due to the large amount of information, a great challenge of the project is to develop automated systems for data analysis. The purpose of this study is to compare the performance of different signal processing techniques to detect bird vocalizations on field recordings. Three signal detection algorithms were selected and adapted: an energy threshold de- tector, a neural network (9 acoustic features) and a template matching approach (spectro- gramcross-correlation).Furthermore,abandpassfilterwasimplementedbetween1and10 kHz. From a database provided by the IAvH, 433 audio samples were extracted, 335 bird vocalizations and 98 interference sounds. 80% of the samples were selected for training and algorithm development, and 20% were used for testing purposes. Tow different tests were designed, the first was focused on estimating the sensitivity of the algorithms, and the second to analyze their specificity. Regarding the sensitivity test, the results showed that by varying signal-to-noise ratio from 30dB to 0dB, the best algorithm was the template matching with only 7.9% of decrease on its performance, while the energy threshold algorithm showed 31.5% and the neural network 49.5%. On the specificity test, the performance was evaluated comparing theresultsbetweenacleansignalandasignalalteredbyinterferences.Theneuralnetwork showed to be the more robust against interferences with a decrease of only 2.3% on the results, followed by the template matching with 4.6% and the last algorithm by far was the energy threshold with 58.2%. By adding the bandpass filter, the results of the energy thresholdandtheneuralnetworkimprovedsubstantially.Onaverage,thethresholdenergy performance improved by 29.7% and the neural network a 17.7%. However, the template matching had almost the same results by including the filter, it improved 1.9%. The energy threshold with the filter shown to be a good starting point for analyzing the signals of the moor and the high-Andean forest, where interference is scarce. The cross-correlation is an interesting alternative for being robust and is a method to be used in stereotyped singing birds. Finally, the neural network technique, being more susceptible to ambient noise, is not recommended for the IAvH studies. Thus, this comparative study shows the advantages and disadvantages of each algorithm. Moreover, it clarifies how to develop a robust module to both ambient noise and interferences. Keywords: bird vocalization, acoustic field recordings, bioacoustics, digital filters, signal detection.
Description: