dise˜no y evaluación de algoritmos para detectar vocalizaciones

Diseno y Evaluacion de Algoritmos paraDetectar Vocalizaciones de Aves en Registros

Sonoros

por Juan Sebastian Ulloa

Pontificia Universidad Javeriana

Facultad de Ingenierıa

Ingenierıa ElectronicaCali

Octubre 2012

Diseno y Evaluacion de Algoritmos paraDetectar Vocalizaciones de Aves en Registros

Sonoros

por Juan Sebastian Ulloa

Trabajo de grado presentado como requisito parcial para optar al tıtulo de

Ingeniero Electronico

Director

Dr. Hernan Darıo Benıtez

Pontificia Universidad Javeriana

Facultad de Ingenierıa

Ingenierıa ElectronicaCali

Octubre 2012

Indice general

Indice de figuras IV

Lista de Abreviaciones VI

1. Introduccion 1

1.1. Relevancia del estudio en relacion con la

biodiversidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Contribucion de este proyecto . . . . . . . . . . . . . . . . . . . . . . 4

1.3. Esquema del manuscrito . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Base teorica: biologıa 6

2.1. La comunicacion acustica en las aves . . . . . . . . . . . . . . . . . . 6

2.1.1. Anatomıa del organo vocal . . . . . . . . . . . . . . . . . . . . 6

2.1.2. Las vocalizaciones de aves . . . . . . . . . . . . . . . . . . . . 7

2.2. Paramo y bosque alto-andino . . . . . . . . . . . . . . . . . . . . . . 9

3. Registros sonoros del IAvH 11

3.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1.1. Equipo de grabacion . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.2. Seleccion de audio . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.3. Homogenizacion de los datos . . . . . . . . . . . . . . . . . . . 13

3.2. Vocalizacion de aves en los registros . . . . . . . . . . . . . . . . . . . 14

3.2.1. Frecuencia cuasi-constante . . . . . . . . . . . . . . . . . . . . 14

3.2.2. Frecuencia modulada . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.3. Pulso en banda ancha . . . . . . . . . . . . . . . . . . . . . . 15

3.3. Ruido ambiental e interferencias . . . . . . . . . . . . . . . . . . . . . 16

3.3.1. Ruido ambiental . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3.2. ‘Clicks’ y ‘pops’ . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3.3. Voz humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4. Caracterısticas en senales de audio 21

4.1. Procesamiento de corto plazo en senales de audio . . . . . . . . . . . 21

4.2. Caracterısticas frecuenciales . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.1. Centroide espectral . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.2. Spectral Rolloff . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.3. Spectral Flux . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.4. Entropıa Espectral . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2.5. Ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2.6. Frecuencia pico . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2.7. Spectral Flatness . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3. Caracterısticas temporales . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3.1. Energıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3.2. Tasa de cruce por cero . . . . . . . . . . . . . . . . . . . . . . 26

5. Algoritmos de deteccion 27

5.1. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.1.1. Umbral de energıa . . . . . . . . . . . . . . . . . . . . . . . . 27

5.1.2. Maquinas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 28

5.1.3. Template matching . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2. Constant False Alarm Rate (CFAR) . . . . . . . . . . . . . . . . . . . 29

5.3. Red Neuronal Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3.1. Modelo general de la red . . . . . . . . . . . . . . . . . . . . . 31

5.3.2. Metodo de entrenamiento . . . . . . . . . . . . . . . . . . . . 31

5.3.3. Ajuste de parametros . . . . . . . . . . . . . . . . . . . . . . . 32

5.4. Template Matching (TM) . . . . . . . . . . . . . . . . . . . . . . . . 33

5.4.1. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.4.2. La plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.4.3. Procesamiento de la senal de salida . . . . . . . . . . . . . . . 35

5.5. Filtro pasabanda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6. Pruebas y resultados 38

6.1. Modelo de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.2.1. Pruebas sin filtro . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.2.2. Adicion de filtro FIR . . . . . . . . . . . . . . . . . . . . . . . 45

6.2.3. Tiempo de ejecucion . . . . . . . . . . . . . . . . . . . . . . . 50

6.3. Discusion de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 50

7. Conclusiones y trabajos futuros 53

7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Apendices 56

A. Grabaciones del IAvH 57

B. Especificaciones del equipo de grabacion 59

Bibliografıa 60

Indice de figuras

2.1. Mecanısmo de produccion de sonido en las aves (Fagerlund, 2004) . . 7

2.2. Las divisiones jerarquicas de las vocalizaciones de aves: silaba, frase

y canto (o llamado). Canto de Atlapetes pallidinucha. . . . . . . . . . 9

3.1. Ejemplo de (a) estructura caotica de vocalizaciones superpuestas y

(b) vocalizaciones separadas . . . . . . . . . . . . . . . . . . . . . . . 13

3.2. Ejemplo de vocalizacion con frecuencia constante. Especie: Acropter-

nis orthonyx. Frecuencia: 2-3kHz . . . . . . . . . . . . . . . . . . . . . 15

3.3. Ejemplo de vocalizacion compuesta por varias sılabas que modulan

en frecuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz . . 15

3.4. Ejemplo de vocalizacion en pulsos de banda ancha. Especie: Cinny-

certhia unirufa. Frecuencia: 1-12kHz . . . . . . . . . . . . . . . . . . . 16

3.5. Cuatro graficas especıficas de analisis exploratorio para una muestra

de ruido ambiente. 1. Esquina superior derecha, secuencia de amplitud

de las muestras en el tiempo. 2. Esquina superior izquierda, dispersion

de las muestras. 3. Esquina inferior derecha, histograma. 4. Esquina

inferior derecha, grafico de probabilidad normal. . . . . . . . . . . . . 17

3.6. Ejemplo de ruido ambiental. . . . . . . . . . . . . . . . . . . . . . . . 18

3.7. Ejemplo de click . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.8. Ejemplo de una interferencia producida por el movimiento del microfono 19

3.9. Ejemplo de voz humana . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1. Ejemplo de valores obtenidos de Spectral Centroid en una senal que

contiene vocalizaciones de aves e interferencia de tipo I2 . . . . . . . 22

4.2. Ejemplo de valores obtenidos de Spectral Rolloff en una senal que

contiene una vocalizacion de un ave y ruido ambiente. . . . . . . . . . 23

4.3. Ejemplo de valores obtenidos del pico de frecuencia en una senal que

contiene una vocalizacion de un ave y voz humana yuxtapuestas. . . . 25

5.1. Diagrama de flujo del algoritmo CFAR . . . . . . . . . . . . . . . . . 30

5.2. Modelo de la red perceptron multicapa implementada. . . . . . . . . 31

5.3. Validacion cruzada de cinco a cien neuronas con incrementos de cinco

unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.4. Diagrama del algoritmo template matching . . . . . . . . . . . . . . . 34

5.5. Comparacion de resultados obtenidos en la correlacion con el template

artificial y con el template natural. . . . . . . . . . . . . . . . . . . . 35

5.6. Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR

disenado por muestreo en frecuencia. . . . . . . . . . . . . . . . . . . 37

6.1. Esquema de la elaboracion de senales para la Prueba I. A una senal

con vocalizaciones de aves se le agrega ruido ambiente a diferentes

niveles para obtener diferentes valores de SNR. . . . . . . . . . . . . . 39

6.2. Esquema de la elaboracion de las senales para la Prueba II. Se toma

una senal con vocalizaciones de aves y se le agregan interferencias. . . 40

6.3. Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras

(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.4. Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b). . 43

6.5. Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras

(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.6. Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b). . 45

6.7. Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de

barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.8. Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras

(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.9. Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de

barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.10. Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras

(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Lista de Abreviaciones

AUC Area Under the Curve

CFAR Constant False Alarm Rate

DFT Discrete Fourier Transform

FFT Fast Fourier Transform

FIR Finite Impulse Response

IAvH Instituto Alexander von Humboldt

RMS Root mean square

RNA Red Neuronal Artificial

ROC Receiver Operating Characteristic

SNR Signal-to-noise ratio

TM Template Matching

Agradecimientos

Este proyecto no habrıa sido posible sin la ayuda de muchas personas. En primer

lugar, quiero darle las gracias a Hernan Benıtez por haberme acompanado incon-

dicionalmente de principio a fin durante este largo proceso de aprendizaje. Paula

Caycedo me abrio las ventanas al mundo de la bioacustica y los paisajes sonoros.

Jaime Parra y Mauricio Orozco ayudaron a construir las bases fundamentales del

proyecto. Patricia Chacon, mi madre, por la incalculable ayuda recibida en este pro-

yecto. Sara Keen, quien siempre contesto a mis interminables correos con informacion

precisa y detallada. Mi primo Juan Fernando Correa me apoyo en la idea de desdi-

bujar la solida lınea que se ha trazado entre la ingenierıa y otras areas de estudio.

Algunos biologos que contribuyeron sustancialmente con sus ideas y conocimiento

son Gustavo Kattan, Fernando Montealegre y Wilmar Bolivar.

Quiero ademas dar un especial agradecimiento a la Fundacion Alejandro Angel

Escobar por financiar parte de este proyecto y al Instituto Humboldt por proveer

las indispensables grabaciones de campo.

Finalmente, quiero agradecer a mi familia por el apoyo brindado en mis estudios.

Abstract

Bird monitoring based on avian sound analysis provide valuable information for scienceand conservation efforts. In Colombia, the Alexander von Humboldt Institute (IAvH) willperform an acoustic monitoring study on the moorland and high Andean forest, whichincludes over 500 hours of recordings. Due to the large amount of information, a greatchallenge of the project is to develop automated systems for data analysis. The purposeof this study is to compare the performance of different signal processing techniques todetect bird vocalizations on field recordings.

Three signal detection algorithms were selected and adapted: an energy threshold de-tector, a neural network (9 acoustic features) and a template matching approach (spectro-gram cross-correlation). Furthermore, a bandpass filter was implemented between 1 and 10kHz. From a database provided by the IAvH, 433 audio samples were extracted, 335 birdvocalizations and 98 interference sounds. 80 % of the samples were selected for trainingand algorithm development, and 20 % were used for testing purposes. Tow different testswere designed, the first was focused on estimating the sensitivity of the algorithms, andthe second to analyze their specificity.

Regarding the sensitivity test, the results showed that by varying signal-to-noise ratiofrom 30dB to 0dB, the best algorithm was the template matching with only 7.9 % ofdecrease on its performance, while the energy threshold algorithm showed 31.5 % and theneural network 49.5 %. On the specificity test, the performance was evaluated comparingthe results between a clean signal and a signal altered by interferences. The neural networkshowed to be the more robust against interferences with a decrease of only 2.3 % on theresults, followed by the template matching with 4.6 % and the last algorithm by far wasthe energy threshold with 58.2 %. By adding the bandpass filter, the results of the energythreshold and the neural network improved substantially. On average, the threshold energyperformance improved by 29.7 % and the neural network a 17.7 %. However, the templatematching had almost the same results by including the filter, it improved 1.9 %.

The energy threshold with the filter shown to be a good starting point for analyzing

the signals of the moor and the high-Andean forest, where interference is scarce. The

cross-correlation is an interesting alternative for being robust and is a method to be used

in stereotyped singing birds. Finally, the neural network technique, being more susceptible

to ambient noise, is not recommended for the IAvH studies. Thus, this comparative study

shows the advantages and disadvantages of each algorithm. Moreover, it clarifies how to

develop a robust module to both ambient noise and interferences.

Keywords: bird vocalization, acoustic field recordings, bioacoustics, digital filters, signal

detection.

Resumen

Los muestreos de avifauna basados en senales sonoras son procesos que proveen valiosainformacion para la ciencia y las acciones de conservacion ambiental. En Colombia, elInstituto Alexander von Humboldt (IAvH) realizara un proyecto sobre monitoreo acustico,que incluye mas de 500 horas de grabacion en los ecosistemas de paramo y bosque alto-andino. Debido a este gran volumen de informacion, uno de los grandes retos del proyectoes desarrollar sistemas automatizados para analizar los datos. El proposito de la presenteinvestigacion es comparar el desempeno de diferentes tecnicas de procesamiento de senales,para detectar vocalizaciones de aves en los registros sonoros del IAvH.

Se seleccionaron y adaptaron tres algoritmos de deteccion de senales: una tecnica ba-sada en umbral de energıa, una red neuronal (9 caracterısticas acusticas) y la tecnica detemplate matching (correlacion cruzada de espectrogramas). Ademas, se implemento unfiltro pasabanda entre 1 y 10 kHz. De una base de datos provista por el IAvH se sacaron433 cortes, 335 vocalizaciones y 98 interferencias. El 80 % de los cortes fueron seleccionadospara entrenamiento y desarrollo de los algoritmos, y el 20 % restante se dispuso para pro-bar el desempeno de los mismos. Se disenaron dos tipos de evaluacion, la primera enfocadaa estimar la sensibilidad de los algoritmos y la segunda para analizar su especificidad.

Respecto a la sensibilidad, los resultados mostraron que al variar la relacion senal/ruidode 30dB a 0dB, el mejor algoritmo fue el template matching al presentar una disminucionde solo 7.9 % en su desempeno, mientras que se observo un 31.5 % en el umbral de energıay un 49.5 % en las redes neuronales. En las pruebas de especificidad, al comparar losresultados obtenidos con una senal limpia y otra alterada con interferencias, se observa quetanto la red neuronal como el template matching variaron poco su desempeno, disminuciondel 2.3 % y 4.6 % respectivamente, por el contrario el rendimiento del umbral de energıacayo en un 58.5 %. Al adicionar el filtro pasabanda, los resultados del umbral de energıa yla red neuronal mejoraron sustancialmente en ambas pruebas. En promedio, el desempenodel umbral de energıa mejoro un 29.7 % y la red neuronal un 17.7 %. Sin embargo, eltemplate matching mantuvo casi el mismo desempeno al incluir el filtro, mejoro un 1.9 %.

El umbral de energıa junto con el filtro muestra ser un buen punto de partida para

analizar las senales del paramo y bosque alto-andino, donde las interferencias son esca-

sas. El template matching es un alternativa interesante por ser robusta y es un metodo a

emplear en aves con cantos estereotipados. Finalmente, la red neuronal, por ser la tecnica

mas susceptible al ruido ambiente, no es recomendable para los estudios del IAvH. Ası,

este estudio comparativo muestra las ventajas y desventajas de cada algoritmo. Ademas,

esclarece la manera de desarrollar un modulo que sea robusto tanto al ruido ambiente

como a las interferencias.

Palabras clave: vocalizacion de aves, registros sonoros de campo, bioacustica, deteccion

de senales, filtros digitales.

Capıtulo 1

Introduccion

Colombia es reconocida mundialmente por su biodiversidad. Hasta la fecha, se

han identificado mas de 1850 especies de aves y este numero sigue aumentado ca-

da ano. En ningun otro paıs en el mundo se ha registrado tal diversidad de aves

(Stattersfield et al., 2008). Las aves juegan un papel importante manteniendo el

equilibrio de un ecosistema; como insectıvoros, controlan las poblaciones de insec-

tos, como frugıvoros, ayudan a propagar semillas de plantas y como consumidores

de nectar son importantes polinizadores (Brandes, 2008). Ademas en casi todas las

culturas han sido fuente de inspiracion, devocion o companıa para el ser humano.

Las aves producen sonidos para diversas funciones biologicas tales como defender

su territorio, conseguir pareja y mantener contacto con miembros de su grupo social.

La gran mayorıa de aves tienen cantos o llamados que son caracterısticos de cada

especie. Por lo tanto, las vocalizaciones son una fuente de informacion que puede

ser usada para explorar la composicion y diversidad de aves en un area particular

de interes. En paıses tropicales como Colombia, donde el follaje limita la visibilidad,

estos sonidos son una forma eficiente para el monitoreo de las aves (Villarreal et al.

(2006), Parker (1991))

Avances en tecnologıa permiten tener sistemas automaticos que realicen graba-

ciones continuas de larga duracion (“long-term recording”). Estos son dispositivos

compuestos basicamente por un microfono, una grabadora de audio (sensor), una

fuente de energıa, un mecanismo para iniciar y terminar las grabaciones y algun tipo

de proteccion contra el agua y el medio ambiente. Los sensores proveen una forma

efectiva de acumular datos a gran escala y a alta resolucion. Pueden ser implemen-

tados para recolectar datos de forma no intrusiva, objetiva y continua a traves de

grandes areas por largos periodos de tiempo (Bardeli et al., 2010).

En Colombia, el Instituto de Investigacion de Recursos Biologicos Alexander

von Humboldt (IAvH) esta por desarrollar por primera vez un piloto de monitoreo

acustico automatizado. Este hace parte de un proyecto para evaluar las caracterısti-

cas de un habitat degradado y otro no degradado, en escalas temporales y espaciales

amplias. El total de horas de grabacion estimado del muestreo es de mas de 500

horas. Se iniciara en los municipios de Junin, La Calera y Choachı del departamento

de Cundinamarca, en el corredor de conservacion Chingaza, Corredor Guerrero, en

los ecosistemas de paramo y bosque alto-andino.

Dada la cantidad de datos, la implementacion de sistemas de grabacion automati-

cos crea la necesidad de desarrollar algoritmos que permitan facilitar el analisis de

la informacion capturada. Mediante el uso de tecnicas de procesamiento de senales

y reconocimiento de patrones, se puede identificar y discriminar los sonidos de in-

teres en registros acusticos de forma automatica. El proceso de reconocer senales se

divide en dos tareas sucesivas: deteccion y clasificacion de los datos. La deteccion

de senales consiste en identificar y separar sonidos estructurados de interes del fon-

do ruidoso. La clasificacion consiste en subdividir las senales detectadas en grupos

biologicamente relevantes.

Este trabajo se enfoca en la primera fase de un sistema de reconocimiento. Se

adaptaron algoritmos de deteccion de senales a grabaciones tomadas por el IAvH en

los ambientes de paramo y bosque alto andino. El objetivo es identificar y separar del

ruido de fondo los segmentos que contienen vocalizaciones de aves. Para establecer

la tecnica mas apropiada se diseno un modelo de pruebas para evaluar el desempeno

de las tecnicas mediante un estudio comparativo.

1.1. Relevancia del estudio en relacion con la

biodiversidad

La variedad de seres vivos, tipos de ecosistemas, procesos ecologicos e informa-

cion genetica presentes en una region se conoce tecnicamente como biodiversidad

(Castillo y Forrero, 2010). Esta proporciona una serie de servicios ambientales cru-

ciales, de los cuales depende la vida humana en el planeta. Colombia cuenta con una

riqueza envidiable de biodiversidad, sin embargo, ecosistemas de la region Andina

han permanecido relativamente inexplorados y algunos han desaparecido sin que se

conozcan siquiera sus caracterısticas basicas.

El estudio de la estructura de las comunidades de aves proporciona un medio

rapido, confiable y replicable de evaluacion del estado de conservacion de la mayorıa

de habitats terrestres y acuaticos (Villarreal et al., 2006). La presente investigacion

radica en explorar el desarrollo de nuevas herramientas que permitan optimizar el

proceso de monitoreo acustico de las aves.

Una variedad de metodos para el seguimiento y la evaluacion de las aves estan

disponibles Verner (1985), Bibby et al. (1992), Ralph et al. (1993) y tres tecnicas

ampliamente utilizadas son la captura por redes de niebla, los conteos de puntos

y los transectos. De estos, solo las redes de niebla no incluyen el uso de registros

acusticos. El analisis de las grabaciones es una tarea que demanda tiempo y esfuerzo

significativo y ademas requiere de personal calificado que pueda distinguir adecua-

damente la variedad de sonidos presentes en estas. Este problema se vuelve crıtico

cuando se tienen grabadoras autonomas como en el estudio del IAvH.

La implementacion de un algoritmo computacional que detecte las secciones de

interes en los registros sonoros permite analizar mayor cantidad de informacion de

forma mas rapida, liberando ası personal calificado y reduciendo los costos de las

investigaciones. Como el tiempo invertido en el analisis de los datos crudos se mini-

miza, los especialistas pueden enfocar su esfuerzo en el area de interes, obteniendo

un proceso mas eficiente. Ademas, se pueden tener estudios mas objetivos ya que el

algoritmo usa siempre los mismos parametros para general resultados, y por lo tanto

se tiene un proceso sistematico en el estudio de las grabaciones.

En el area de reconocimiento de patrones, la deteccion es una etapa previa para

construir un sistema autonomo de clasificacion. Muchos trabajos se han enfocado so-

lamente en la etapa de clasificacion de diferentes especies realizando la deteccion de

manera manual, algunos ejemplos son los trabajos de Chen y Maher (2006), Vallejo

et al. (2010), Adi et al. (2010). Sin embargo, para trabajar con grandes cantidades

de datos, estos sistemas necesitan incorporar un metodo adecuado de deteccion au-

tomatizado. Una deteccion imprecisa genera ruido en todo el sistema y por lo tanto

afecta los resultados de clasificacion (Fagerlund, 2004). El buen desempeno de esta

deteccion es un primer paso esencial para las subsiguientes partes del estudio, ya sea

manual o automatizado.

Herramientas para realizar investigaciones y muestreos mas rapidos y eficientes

de las aves, permitiran reconocer y evidenciar los efectos que el hombre genera en

el medio ambiente. Es por lo tanto necesario poner la ingenierıa al servicio de la

ciencia que estudia la biodiversidad, particularmente en un paıs megadiverso como

Colombia.

1.2. Contribucion de este proyecto

Como el procesamiento automatizado de registros sonoros es un campo relativa-

mente nuevo, gran parte de este trabajo es innovador. En este estudio se realizaron

los siguientes aportes:

Se investigaron revistas y publicaciones de diferentes laboratorios para presen-

tar un estado del arte en tecnicas para detectar senales bioacusticas.

Se examino una base de datos provista por el IAvH y se identificaron los

tipos de vocalizaciones encontrados. Por otro lado, se consultaron expertos

y bibliografıa para reconocer que interferencias se pueden encontrar en las

grabaciones de campo realizadas en el paramo y el bosque alto andino.

Se presentaron nueve caracterısticas acusticas, dos en el dominio del tiempo y

siete en el dominio de la frecuencia, que permiten discriminar las vocalizaciones

de aves del ruido ambiente y las interferencias.

Se implementaron tres algoritmos de deteccion de senales que fueron adap-

tados a encontrar vocalizaciones de aves. Primero, una tecnica que identifica

senales de interes trazando un umbral en la distribucion de energıa de la senal.

Segundo, una red neuronal artificial que fue entrenada con muestras de vocali-

zaciones de aves, ruido ambiente e interferencias. Tercero, un algoritmo que usa

la correlacion entre la senal grabada y una plantilla, entregando una funcion

de reconocimiento.

Se diseno un filtro digital pasabanda para reducir el ruido ambiente y la energıa

de las interferencias que no se encontraban en el rango de frecuencias de las

vocalizaciones de aves.

Se diseno un modelo de pruebas para evaluar el desempeno de los algoritmos

implementados. El modelo cuenta con cuatro senales que permiten medir la

sensibilidad y la especificidad de los detectores.

Las tecnicas implementadas son muy diferentes entre sı, lo cual hace que com-

pararlas sea difıcil. No obstante, se identificaron las fortalezas y debilidades de

los algoritmos analizando los resultados obtenidos en las pruebas disenadas.

1.3. Esquema del manuscrito

El presente trabajo de grado se organiza de la siguiente manera:

Capıtulo 2 : describe el contexto biologico en el cual se enmarca el problema de

ingenierıa, dando un breve repaso sobre las caracterısticas de la senal acustica y

sobre los ecosistemas de paramo y bosque alto-andino.

Capıtulo 3 : presenta la coleccion de sonidos con los cuales se baso este estudio

y muestra los tipos de vocalizaciones ası como el ruido ambiente y las interferencias

encontradas en esta base de datos.

Capıtulo 4 : expone una variedad de caracterısticas acusticas, tanto en el dominio

del tiempo como en el de la frecuencia, que permiten caracterizar y discriminar la

senal de interes en las grabaciones de campo.

Capıtulo 5 : primero presenta el estado del arte en algoritmos de deteccion de

senales. Despues explica detalladamente las tecnicas escogidas que fueron evaluadas

en los capıtulos posteriores.

Capıtulo 6 : explica cual fue el modelo de pruebas ideado para evaluar los algo-

ritmos, muestra y analiza los resultados obtenidos.

Capıtulo 7 : expone las conclusiones generales del trabajo de grado junto con

algunas posibles direcciones futuras que se derivan de la investigacion actual.

Capıtulo 2

Base teorica: biologıa

La ingenierıa provee las herramientas para facilitar el analisis de senales bio-

acusticas. Con el fin de adaptarlas adecuadamente, es importante comprender el

contexto en el cual se enmarca el problema a resolver. En este capıtulo, se pre-

sentaran algunas generalidades sobre la comunicacion acustica de las aves, luego se

exponen caracterısticas propias de los ecosistemas de paramo y bosque alto-andino,

lugares donde el IAvH proyecta hacer sus primeros estudios.

2.1. La comunicacion acustica en las aves

Las aves han desarrollado un sistema de comunicacion complejo que varıa con-

siderablemente entre las especies. Aunque este trabajo no se propone ahondar en

este tema, sı se mencionan algunos aspectos generales que son relevantes para esta

investigacion.

2.1.1. Anatomıa del organo vocal

Los organos responsables de la produccion del sonido en las aves son los pulmo-

nes, los bronquios, la siringe, la traquea, la laringe, la boca y el pico (Figura 2.1)

(Fagerlund, 2004). El flujo de aire de los pulmones se propaga a traves de los bron-

quios a la siringe. Este organo esta compuesto por varias membranas que vibran con

el paso del aire, generando sonidos. La variacion en el tono y frecuencia es contro-

lada por los musculos de la siringe que determinan la rigidez de estas membranas

(Mindlin y Laje, 2004). Entre mas musculos tenga la siringe, mas complejo puede

ser el canto del ave. Luego el aire llega a la traquea, un tubo entre la siringe y la

laringe, que actua como aparato resonador junto con la boca y el pico del ave. La

laringe en las aves no tiene cuerdas vocales como en seres humanos y parece jugar

un papel secundario en la produccion de sonido.

Chapter 2

Bird Sounds

2.1 Sound production mechanism

Main parts of sound production mechanism in birds are lungs, bronchi, syrinx, trachea,larynx, mouth and beak. Airflow from lungs propagates through the bronchi to the syrinx,which is the main source of sound. Sound from syrinx is then modulated by vocal tract,which consist of the trachea, larynx, mouth and beak. In figure 2.1 is presented schematicview of the mechanism. Dimensions of mechanism and parts of it varies considerablyamong different species, but organization is rather uniform.

Syrinx

Bronchi

Larynx

Mouth Beak

Trachea

Figure 2.1: Parts and organization of the avian sound producing mechanism.

Figura 2.1: Mecanısmo de produccion de sonido en las aves (Fagerlund, 2004)

Esta es la estructura que da origen a una variedad de sonidos que se examinaran

en las siguientes secciones.

2.1.2. Las vocalizaciones de aves

Las aves vocalizan de diversas formas. Estos sonidos se deben estudiar para

entender las dificultades del analisis automatizado. Las vocalizaciones se dividen

usualmente en cantos y llamados. Los cantos estan mas desarrollados en las especies

pertenecientes al suborden Passeriformes, que cubre casi la mitad de todas las espe-

cies de la clase Aves. Sin embargo, las aves no-cantoras tambien usan sonidos para

comunicarse y estos sonidos son tan importantes como el canto en las Passeriformes

(Beckers et al., 2003).

El canto

En general, los cantos son vocalizaciones largas y complejas producidas de forma

espontanea por los machos. En unas pocas especies se escucha a las hembras cantar,

y a veces, las parejas forman duetos y combinan sus melodias.

Los cantos son producidos para atraer a una pareja o para marcar territorio. Las

hembras escogen a los machos con los cantos de mayor calidad. Es probable que

estos machos tengan las capacidades cerebrales mas desarrolladas, como la memoria

y la navegacion, por lo que vale la pena el apareamiento. Por otro lado, producir

canciones de alta calidad requiere la inversion de energıa que solo un macho en

buenas condiciones fısicas puede producir. Si la condicion corporal afecta la capa-

cidad de lucha, lo cual es bastante probable, entonces una cancion que refleja esta

caracterıstica indica que el individuo es fuerte y competitivo (Collins, 2004).

En los climas templados, las aves cantan principalmente durante la epoca de

reproduccion y algunas especies no vuelven a cantar durante el resto del ano. En

cambio, en paıses tropicales como Colombia, las aves cantan durante los 365 dıas

del ano. En ambas regiones, se puede observar que el pico actividad del canto es al

amanecer. Las aves que cantan al amanecer se benefician de un ambiente acustico

favorable: el sonido se refleja en las capas calidas superiores y viaja mas fuerte y

claro en el tunel de aire frıo que se crea en las primeras horas de la manana, donde

el viento y las turbulencias son reducidas (Slabbekoorn, 2004).

El llamado

Los llamados son generalmente cortos, monosilabicos y con un patron de frecuen-

cia simple (Marler, 2004). Los llamados son usados de manera practica y funcional:

para alertar la presencia de un predador, anunciar e intercambiar comida , o pa-

ra mantener la cohesion del grupo durante el desplazamiento. Los llamados estan

ligados a cuestiones inmediatas de vida o muerte, por lo tanto son emitidos por hem-

bras y machos durante todo el ano. Tanto las aves cantoras como las no-cantoras

tienen llamados, pero las primeras suelen tener un repertorio mas amplio a la hora

de comunicarse.

Division jerarquica

Tanto los cantos como los llamados pueden ser divididos en unidades basicas

llamadas sılabas. Las sılabas componen frases, y las frases canciones (Figura 2.2).

En esta investigacion se trabajara sobre la deteccion de estas unidades basicas.

Figura 2.2: Las divisiones jerarquicas de las vocalizaciones de aves: silaba, frase y canto(o llamado). Canto de Atlapetes pallidinucha.

2.2. Paramo y bosque alto-andino

En Colombia estos ecosistemas se ubican en la zona andina (cordilleras occiden-

tal, central y oriental) y en la Sierra Nevada de Santa Marta, a partir de los 2800

m.s.n.m. Poseen condiciones fisico-bioticas que los convierten en una fuente perma-

nente de agua, por lo tanto son literalmente de vital importancia. Ademas cuentan

con una gran capacidad de almacenamiento y captacion del carbono, convirtiendolos

en ecosistemas estrategicos. Sin embargo, a manos del hombre, estos sistemas son

de los mas afectados y alterados (del bosque alto-andino tan solo queda un 4 % de

lo que habıa). La ganaderıa, el efecto de quemas y la agricultura del monocultivo

tienen una fuerte influencia negativa sobre la captacion del agua y la biodiversidad

(Morales et al., 2007).

El paramo se encuentra a partir de los 3000 m.s.n.m. en el sistema montanoso

de Colombia. Tiene una temperatura media inferior a los 6 oC, pero la variacion de

temperatura durante el dıa y la noche es marcada; las fluctuaciones van desde el

punto de congelamiento, hasta los 30o C. Los paramos se conocen como el ‘tropico

frıo”, donde cada noche es un invierno y cada dıa un verano. A esta variacion de

temperatura, se le suma una humedad relativa entre el 80 y 98 %, y por lo tanto es

nublado y lluvioso, aunque hay horas de sol intenso. Cuando se presenta el sol intenso

a estas alturas, donde la capa de ozono es delgada y el oxıgeno escaso, llega una alta

radiacion ultravioleta. Por estas condiciones climaticas, el paramo se caracteriza por

su vegetacion enana y su limitada pero particular fauna. Los paramos se asemejan

a islas entre el bosque y por lo tanto son sistemas aislados que hacen que los seres

vivientes sean endemicos en estos ambientes (Morales et al., 2007).

El bosque alto-andino empieza alrededor de los 2800 m.s.n.m. y puede llegar

hasta los 3300 metros. Su vegetacion alcanza una altura de 8 a 20 metros con un

estrato de pequenos arboles y arbustos que tienen entre 3 y 10 metros. Es un am-

biente con humedad elevada y tiene como funcion la regulacion del flujo hıdrico que

desciende desde los paramos (Morales et al., 2007).

Las caracterısticas climaticas extremas dificultan la adaptacion de los seres vivos

y por lo tanto la diversidad biologica de estos ecosistemas es reducida en comparacion

con otros ambientes. Los paramos estan separados entre sı a manera de pequenas

islas, y segun la teorıa de la biografıa de islas, a menor tamano de la isla, menor

numero de especies (Morales et al., 2007).

La limitada diversidad animal de estos sistemas, se ve reflejada en los ambientes

acusticos que aquı se encuentran. Las aves, que en tierras bajas deben compartir

algunas frecuencias con otros animales, en el paramo encuentran poca competencia.

La gran mayorıa insectos y ranas que aprovechan el medio acustico para su comuni-

cacion, son nocturnos. Esto pareciera estar relacionado con niveles de depredacion

por aves y otros animales diurnos. Los insectos mas comunes que cantan de dıa

son las cigarras, langostas y saltamontes, y estos son escasos en los paramos (Co-

rreos Fernando Montealegre, 2012). De igual forma, las especies de ranas con habitos

diurnos viviendo a gran altura son pocas (Correos con Wilmar Bolivar, 2012).

Capıtulo 3

Registros sonoros del IAvH

Para adaptar los algoritmos y realizar las pruebas fue necesario contar con una

base de registros sonoros. Durante los ultimos anos el IAvH ha trabajado para conso-

lidar una coleccion de sonidos ambientales, herramienta clave para generar y mante-

ner activo el programa de monitoreo de avifauna en el paıs. Para el presente trabajo

se tomo una seleccion de esta base de datos, limitando el audio a ciertas especies

propias del paramo y bosque alto-andino. En este capıtulo se detallan las carac-

terısticas de dichas grabaciones. Por un lado se examina de forma general la primera

recopilacion, se presentan nuevos criterios de seleccion y se define una segunda y

definitiva base de datos. Luego se describen y se caracteriza tanto las vocalizaciones

como el ruido y las interferencias de esta ultima seleccion que servira para ajustar

los algoritmos y realizar las pruebas finales.

3.1. Base de datos

La base de registros sonoros provista por el IAvH es una coleccion de cantos

de aves de 39 especies propias del paramo y del bosque alto-andino, 350 cortes que

suman mas de ocho horas de audio. Cada archivo de audio esta etiquetado con

el nombre de la especie, subespecie y numero de grabacion. Un archivo contiene

varias vocalizaciones de uno o mas individuos de la especie y frecuentemente se

escuchan vocalizaciones de varias especies en una misma grabacion ya que estas

fueron tomadas en el campo y no en un ambiente controlado como un laboratorio.

3.1.1. Equipo de grabacion

El equipo necesario para realizar los registros se compone de una grabadora,

microfono, pantallas contraviento, casetes y soporte para microfono. A continuacion

se listan los equipos usados en las grabaciones del IAvH:

Grabadora: Marantz R© modelos PMD-201, PMD-222 y PMD-430.

Microfono: Sennheisser R© modelos ME-66 y ME-67, MKH-70.

Soporte para microfono: Sennheisser R© MZS-17.

Casetes analogos: TDK R© Profesional de 60 minutos.

Pantalla contra el viento: Sennheisser R© MZW-70, MZW-67, dependiendo del

microfono utilizado.

Especificaciones y detalles de estos equipos se encuentran en la tabla B.1 del

Apendice B.

3.1.2. Seleccion de audio

De las 39 especies y los 350 cortes, para esta investigacion se hizo una seleccion

del material de la siguiente manera:

Relacion senal a ruido : En las pruebas se deben controlar ciertas variables para

poder evaluar los algoritmos. Una de estas variables es el ruido ambiental, el cual

sera agregado artificialmente (Ver capitulo Modelo de pruebas). Es complejo manipu-

lar la senal para reducir el ruido ambiente, sin embargo este sı puede ser adicionado

facilmente. Por lo tanto se tomaron unicamente las grabaciones con relacion senal a

ruido superior a 20dB.

Coros de aves : Las grabaciones capturadas al amanecer y al atardecer, donde se

presenta el pico de actividad vocal en las aves, suelen contener muchos individuos

cantando al mismo tiempo y sus vocalizaciones se superponen. Tambien existen

especies de aves que suelen cantar en coro. Esta estructura caotica de los datos no

sera estudiada en este trabajo de grado. Solamente se trabajara con vocalizaciones

de aves que estan separadas la una de la otra por un silencio (ver Figura 3.1).

(a) (b)

Figura 3.1: Ejemplo de (a) estructura caotica de vocalizaciones superpuestas y (b) voca-lizaciones separadas

Distorsion del audio : Si la ganancia de entrada en el equipo de grabacion no es

ajustada correctamente, el amplificador se satura y los sonidos que sobrepasen cierto

umbral de amplitud seran recortados. Esta forma de distorsion modifica la forma de

la senal original significativamente y por lo tanto tampoco se trabajara con graba-

ciones que presenten este defecto.

Los registros fueron escuchados y analizados uno a uno para ser seleccionados.

Luego de este proceso, se obtuvo una base reducida con la cual se trabajo. La Tabla

3.1 muestra un resumen de su contenido, vocalizaciones de siete especies de aves

y dos tipos de interferencias. Las caracterısticas de estas senales se detallan en las

proximas secciones de este capıtulo.

3.1.3. Homogenizacion de los datos

Todas las grabaciones estan en formato sin compresion de datos extension WAV.

La mayor parte de los archivos tiene un solo canal (monoaural) que se obtienen

de digitalizar el audio de las cintas de casete analogas muestreando la senal de

audio a 44.1kHz y aplicando una cuantizacion lineal de 16 bits. Sin embargo se

encuentran algunas excepciones de archivos con informacion en dos canales (estereo)

y otros donde se ha realizado el muestreo a 48kHz. Con el fin de homogeneizar las

muestras, se uso el programa de edicion de audio digital Protools R© para convertir

los archivos excepcionales al mismo formato que la mayor parte de la base de datos:

Tipo de muestra No. de muestras

VOCALIZACIONESAcropternis orthonyx 58Atlapetes pallidinucha 57Atlapetes schistaceus 46Atlapetes torquatus 44Cinnycerthia unirufa 41Henicorhina leucophrys 52Penelope montagnii 37Total 335

INTERFERENCIASClicks y pops 54Voz humana 44Total 98

TOTAL MUESTRAS 433

Cuadro 3.1: Resumen de los segmentos seleccionados para este trabajo

senal monoaural con muestreo de 44.1kHz y cuantificacion de 16 bits.

3.2. Vocalizacion de aves en los registros

Las grabaciones del IAvH cuentan con audios etiquetados de 39 especies diferen-

tes de aves que se listan en el cuadro A.1 del Apendice. Sin embargo, si analizamos

elementos basicos como las sılabas, podemos simplificar tal diversidad. Analizan-

do uno a uno los diferentes cantos, se encontro que existen tres tipos diferentes de

sılabas: de frecuencia cuasi-constante, frecuencia modulada y pulsos en banda ancha.

3.2.1. Frecuencia cuasi-constante

Las sılabas o vocalizaciones de frecuencia cuasi-constante se caracterizan por

tener una variacion mınima en frecuencia y porque su energıa esta contenida en

una banda angosta, aproximadamente 500Hz. En la Figura 3.2 se puede observar un

ejemplo de este tipo de vocalizacion.

(a) Espectrograma (b) Espectro

Figura 3.2: Ejemplo de vocalizacion con frecuencia constante. Especie: Acropternis ort-honyx. Frecuencia: 2-3kHz

3.2.2. Frecuencia modulada

Tambien es frecuente encontrar cantos de banda angosta donde la frecuencia es

modulada en un rango amplio de frecuencias, mas de 3kHz (Figura 3.3).

Figura 3.3: Ejemplo de vocalizacion compuesta por varias sılabas que modulan en fre-cuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz

3.2.3. Pulso en banda ancha

Aunque no tan frecuente como los anteriores, existen vocalizaciones que constan

de pulsos en banda ancha. (Figura 3.4).

Figura 3.4: Ejemplo de vocalizacion en pulsos de banda ancha. Especie: Cinnycerthiaunirufa. Frecuencia: 1-12kHz

3.3. Ruido ambiental e interferencias

Analizando la seleccion de audios se encontraron diferentes tipos de interferencias

y un constante ruido de fondo. A continuacion se detallan sus caracterısticas.

3.3.1. Ruido ambiental

El ruido ambiental se encuentra en todas las grabaciones a diferentes intensi-

dades. Por un lado, el equipo de grabacion inevitablemente introduce ruido en la

grabacion, ya sea por su circuito electronico o por la cuantizacion al convertir la

senal de analoga a digital. Los valores de la relacion senal a ruido de los diferentes

equipos usados para las grabaciones del IAvH se encuentran en el Apendice B. Por

otro lado, el ruido ambiental puede ser producido por elementos naturales tales como

el paso de un rıo o una quebrada, el viento, la lluvia y el balanceo de la vegetacion.

En la Figura 3.5 se muestran cuatro representaciones de una muestra de rui-

do ambiente tomada de las grabaciones del IAvH. Se puede observar en la grafica

de dispersion que no existe una estructura definida, es decir que no existe una au-

tocorrelacion y que los datos son aproximadamente aleatorios. De las dos graficas

inferiores se nota una frecuencia de los datos en forma de campana y un patron

lineal en la grafica de probabilidad normal. Por lo tanto se puede constatar que la

distribucion normal es un buen modelo para estos datos.

En el dominio de la frecuencia (Figura 3.6), la amplitud es cuasi uniforme. Sin

Figura 3.5: Cuatro graficas especıficas de analisis exploratorio para una muestra de ruidoambiente. 1. Esquina superior derecha, secuencia de amplitud de las muestras en el tiempo.2. Esquina superior izquierda, dispersion de las muestras. 3. Esquina inferior derecha,histograma. 4. Esquina inferior derecha, grafico de probabilidad normal.

embargo, se observa que a bajas frecuencias el nivel aumenta exponencialmente. Este

fenomeno esta presente en todas las secciones de ruido ambiente en las grabaciones.

Tambien se detallan algunos picos a altas frecuencias que pueden ser producidos por

el error de cuantificacion.

Figura 3.6: Ejemplo de ruido ambiental.

3.3.2. ‘Clicks’ y ‘pops’

Es frecuente encontrar en los registros sonoros interferencias que se caracterizan

por descargar gran cantidad de energıa en un lapso breve de tiempo (10-50ms) y en

banda ancha (1-15kHz). A estas interferencias se le denomina en la literatura como

‘clics’ y ‘pops’ y son la suma de varios factores. Los microfonos de condensador

son fragiles y la humedad puede provocar pequenas descargas electricas entre las

placas del condensador generando estas interferencias. En ocasiones, estos sonidos

son simplemente producto del choque del microfono con la vegetacion o el entorno.

En otros casos, resultan por tener un mal contacto entre los cables de la grabadora y

el microfono. En el resto de este documento se hara referencia a estos sonidos como

interferencias de tipo I2. Ver Figuras 3.7 y 3.8.

3.3.3. Voz humana

En las grabaciones de campo se suele agregar un comentario durante el registro

indicando la hora, la fecha, localidad, coordenadas, y detalles del ave que se esta re-

gistrando (determinacion taxonomica, ubicacion del individuo respecto al bosque,

Figura 3.7: Ejemplo de click

Figura 3.8: Ejemplo de una interferencia producida por el movimiento del microfono

actividad observada, entre otros). Esta informacion no es de interes para ser detec-

tada y por lo tanto se considera como interferencia.

El sonido emitido por las cuerdas vocales es rico en armonicos. Aunque la fre-

cuencia suele variar con el interlocutor, en las grabaciones se observa que el rango

de energıa que ocupa en la senal se concentra a bajas frecuencias, entre los 20Hz a

1kHz. Sin embargo, algunos fonemas, como el /s/, muestran energıa a altas frecuen-

cias (Figura 3.9).

Figura 3.9: Ejemplo de voz humana

Capıtulo 4

Caracterısticas en senales de audio

La seleccion y extraccion de caracterısticas, como en muchos problemas de reco-

nocimiento de patrones, es un paso muy importante en el analisis de senales sonoras.

En este capıtulo, se presentan algunas caracterısticas de audio que permiten diferen-

ciar las vocalizaciones de las aves del ruido ambiente e interferencias. Las siguientes

caracterısticas han sido usadas comunmente en problemas de clasificacion de audio

(Giannakopoulos, 2009), reconocimiento tımbrico musical (Zhang y Ras, 2007) y en

bioacustica (Fagerlund, 2004).

4.1. Procesamiento de corto plazo en senales de

Las grabaciones de campo son senales estadısticamente no-estacionarias ya que

sus componentes frecuenciales varıan con el tiempo. Es necesario realizar un proce-

samiento a corto plazo, dividiendo la senal en ventanas y calculando la caracterıstica

en cada una. Definiendo ventanas que representan una fraccion de la senal estudiada,

se logra tener un proceso quasi-estacionario. El tamano de la ventana debe ser lo

suficientemente largo para poder extraer informacion de la senal, pero lo suficiente-

mente corto para que se pueda considerar como estacionario. En reconocimiento de

voz y procesamiento de audio, se usa comunmente una ventana de entre 10 y 50ms.

Observando que las vocalizaciones mas cortas son de unos 60ms, se decidio calcular

las caracterısticas con ventanas de un tercio de este mınimo, 20ms. Es importante

tener en cuenta que al aplicar la transformada de Fourier a un ventana cuadrada, su

resultado es afectado por el fenomeno de Gibbs. En el presente trabajo se uso una

ventana de Hamming para suavizar las discontinuidades y ası minimizar la distorsion

Figura 4.1: Ejemplo de valores obtenidos de Spectral Centroid en una senal que contienevocalizaciones de aves e interferencia de tipo I2

en la senal.

4.2. Caracterısticas frecuenciales

Para las siguientes ecuaciones, se tomara Xi(k), k = 1..., N, como los coeficientes

obtenidos por la Transformada Discreta de Fourier (DFT por sus siglas en ingles)

de la i-esima trama, donde N representa la longitud de la ventana.

4.2.1. Centroide espectral

El centroide del espectro es el “centro de gravedad”del espectro. Esta carac-

terıstica esta asociada, en terminos de percepcion humana, al brillo del sonido. Se

calcula de la siguiente forma:

∑Nk=1(k + 1)Xi(k)∑N

k=1Xi(k)(4.1)

Esta caracterıstica puede ayudar a diferenciar la interferencia de tipo I2 de una

vocalizacion de un ave ya que estas interferencias suelen introducir energıa en altas

frecuencias (Figura 4.1).

Figura 4.2: Ejemplo de valores obtenidos de Spectral Rolloff en una senal que contieneuna vocalizacion de un ave y ruido ambiente.

4.2.2. Spectral Rolloff

El Spectral Rolloff representa la frecuencia en la cual cierto porcentaje (usual-

mente c = 80-90 %) de la magnitud del espectro esta concentrada. Es decir, que para

el coeficiente m-esimo de la DFT, correspondiente al punto de spectral rolloff del

i-esimo cuadro, la siguiente ecuacion es valida:

m∑k=1

Xi(k) =c

N∑k=1

Xi(k) (4.2)

Es una medida de la forma del espectro y puede ser usada para diferenciar vo-

calizaciones de aves y el ruido ambiente. En la Figura 4.2, se presenta un ejemplo

de las diferencias entre los valores obtenidos. El valor medio es menor donde existen

vocalizaciones, mientras que es mas elevado cuando se presenta ruido ambiente.

4.2.3. Spectral Flux

Esta caracterıstica mide cambios locales del espectro entre dos ventanas sucesi-

vas, se define como la diferencia de cuadrados de las magnitudes normalizadas de

dos espectros entre estas ventanas.

F (i) =N∑k=1

(Ni(m)−Ni−1(m))2 (4.3)

Donde, Ni(m) es la magnitud normalizada (con relacion a su valor maximo) del

respectivo coeficiente de la DFT en la i-esima trama.

4.2.4. Entropıa Espectral

La entropıa espectral se calcula dividiendo el espectro en L sub-bandas. La

energıa Ef de la banda f, es normalizada respecto al total de la energıa en todas las

bandas: nf =Ef∑L−1

f=0 Ef. La Entropıa de la energıa espectral normalizada n se obtiene

a partir de:

SE = −L−1∑f=0

nf .log2(nf ) (4.4)

4.2.5. Ancho de banda

El ancho de banda esta definido como el ancho de la banda de frecuencia alrededor

del centro del espectro. Se calcula con la siguiente ecuacion:

√∑Nk=0(n− SC)2|X(k)|∑N

k=0 |X(k)|2(4.5)

Donde SC es el espectro centroidal dado en la ecuacion 4.1.

4.2.6. Frecuencia pico

Esta sencilla caracterıstica simplemente toma del espectro el coeficiente de la

DFT en el cual se presente la mayor cantidad de energıa. Como la voz humana

esta principalmente en rangos de frecuencia mas bajos que las vocalizaciones de

aves, esto nos permite discriminar algunos de estos sonidos. En la Figura 4.3 se

observa como cambia esta caracterıstica con los diferentes tipos de muestras.

4.2.7. Spectral Flatness

Esta caracterıstica mide que tan tonal es el sonido. Da un valor bajo para sonidos

ruidosos y valores mas elevados para sonidos vocalizados. Spectral Flatness es la

Figura 4.3: Ejemplo de valores obtenidos del pico de frecuencia en una senal que contieneuna vocalizacion de un ave y voz humana yuxtapuestas.

razon entre la media geometrica y la media aritmetica de la senal, se obtiene en dB

con la siguiente ecuacion:

SF = 10log10Gm

Donde Gm = (∏M

i=0 |Xi|)1M es la media geometrica y Am = 1

∑Mi=0 |Xi| es la

media aritmetica. M es la mitad del valor de la DFT.

4.3. Caracterısticas temporales

Estas caracterısticas se extraen directamente del dominio del tiempo y represen-

tan cambios en la energıa de la senal. Por lo tanto pueden ser usadas para discriminar

senales de audio en base a diferencias de energıa. Estas caracterısticas ofrecen una

forma facil y de baja complejidad computacional de analizar senales de audio. No

es necesario aplicar una transformada de Fourier y por lo tanto se evita el fenomeno

de Gibbs.

4.3.1. Energıa

Sea xi(n), n = 1, ..., N las muestras de audio de la i-esima trama, de tamano N .

Entonces para cada trama i la energıa es calculada de acuerdo a siguiente ecuacion:

E(i) =1

N∑n=1

|xi(n)|2 (4.7)

Esta caracterıstica puede ser usada para identificar silencios en la grabacion y

ademas para discriminar entre diferentes clases de audio.

4.3.2. Tasa de cruce por cero

La tasa de cruce por cero (ZCR, por sus siglas en ingles) representa la cantidad

de veces que la senal cambia de signo, de positivo a negativo y vice versa, por unidad

de tiempo. Se define en la siguiente ecuacion:

ZCR(i) =1

N∑n=1

|sgn[xi(n)]− sgn[xi(n− 1)| (4.8)

donde sgn() es la funcion:

sgn[xi(n)] =

{1, xi(n) ≥ 0

−1, xi(n) < 0

Esta caracterıstica mide el nivel de fluctuaciones aleatorias en la senal. Por lo

tanto puede ser implementada para discriminar los sonidos de las aves de ambientes

ruidosos, como la lluvia y el correr de un rıo. El ruido ambiente tendra valores mas

altos de ZCR que una vocalizacion de un ave.

Capıtulo 5

Algoritmos de deteccion

Los algoritmos de deteccion de senales tienen como objetivo encontrar en una

senal secciones de interes. En la primera parte de este capıtulo se presentan diversas

alternativas para detectar senales en registros sonoros que han sido implementadas

anteriormente. Luego, se explica detalladamente los algoritmos seleccionados para

la deteccion de vocalizaciones de aves en los registros sonoros del IAvH, estos seran

evaluados en los capıtulos siguientes.

5.1. Estado del Arte

La deteccion de audio se basa en la evaluacion de cambios en las caracterısticas

de la senal. Las diferentes alternativas se presentan, como en todo problema de

clasificacion, en las caracterısticas y el clasificador seleccionados. Se describen a

continuacion, diversos estudios que tienen como objetivo detectar una senal de audio

de interes en registros sonoros.

5.1.1. Umbral de energıa

Ya que las vocalizaciones de aves son eventos sonoros que se destacan del ruido

ambiente por tener mayor amplitud, se desarrollo una tecnica de bajo costo compu-

tacional a partir del calculo de cambios en la energıa en la senal. El principio es

simple, las secciones de la senal en las cuales el nivel de energıa sobrepasa un um-

bral preestablecido son definidas como senal de interes. Esta tecnica ha sido usada

en el procesamiento del habla para eliminar silencios y ruido ambiente, ubicando el

principio y final de secciones de voz (Rabiner y Sambur, 1975) y (Giannakopoulos,

2009). Aplicado al estudio de las aves, Fagerlund (2004) y Somervuo et al. (2006)

usaron este algoritmo para identificar y segmentar las sılabas en cantos de aves. Por

su velocidad de ejecucion, fue implementado en aplicaciones de tiempo real para mo-

nitorear aves (Trifa, 2006) y marmotas (Ali et al., 2007). Por ultimo, cabe agregar

que actualmente esta tecnica ha sido incorporada a un software comercial que es

usado por la comunidad cientıfica: Avisoft Bioacustics (http://www.avisoft.com/).

El software permite al usuario escoger el umbral de energıa y ası una senal con varias

vocalizaciones es segmentada.

5.1.2. Maquinas de aprendizaje

Aunque existen varios tipos de maquinas de aprendizaje, el principio sobre el cual

se basan es el mismo. Se divide la senale de audio en pequenas ventanas de tiempo

(10-50ms) y se calcula una serie de caracterısticas. Luego, estas caracterısticas son

usadas para entrenar y crear modelos de la senal a clasificar. Las maquinas de

aprendizaje se basan en la valides de estos modelos, derivados de los ejemplos de

entrenamiento.

Esta tecnica ha sido usada para detectar vocalizaciones de variedad de fauna.

Skowronski y Harris (2006) emplearon modelos de mezclas gaussianas para detectar

y clasificar vocalizaciones de murcielagos. Neal et al. (2011) uso Random Forest, que

consiste en varios arboles de decision, para el analisis visual de espectogramas con

el fin de identificar vocalizaciones de aves. Erbe et al. (1999) adapto un modelo con

redes neuronales artificiales (RNA) para identificar el canto de ballenas en el oceano

artico. El doctor Chesmore, tambien empleo las RNA para reconocer cuatro especies

de insectos en un ambiente con altos niveles de interferencia (Chesmore (2004)).

5.1.3. Template matching

Esta es un tecnica de procesamiento digital de senales que tiene por objetivo

encontrar lugares en la senal que sean iguales o similares a un patron de referencia,

un template, una plantilla. Template matching es comun en reconocimiento de voz,

alineamiento de secuencias moleculares y sobre todo en procesamiento de imagenes.

Existen muchas formas de aplicar esta tecnica y libros enteros dedicados a este tema

se han publicado. Una alternativa usada ampliamente es la correlacion de senales,

una operacion matematica que entrega una medida de similitud entre senales. La

correlacion usa dos senales para producir una tercera llamada correlacion cruzada.

Teniendo una senal de referencia que sı se conoce (una plantilla) y una senal desco-

nocida, la amplitud de la correlacion cruzada presenta picos cada vez que la plantilla

encuentre una correspondencia en la senal desconocida. Trabajando con espectro-

gramas y aplicando esta tecnica Munger et al. (2005) y Mellinger y Clark (2000)

estudiaron registros sonoros del Pacıfico Norte buscando la presencia de cantos de

ballena en grabaciones de larga duracion.

5.2. Constant False Alarm Rate (CFAR)

A partir de un estudio en el estado del arte, se encontro que varias investigaciones

habıan usado, por su sencillez y bajo costo computacional, un algoritmo basado en

la evaluacion de cambios en el nivel de energıa de la senal.

El algoritmo CFAR ha sido usado previamente en diversas aplicaciones y fue

adaptado por Trifa (2006) para detectar vocalizaciones de aves. Basicamente, es-

te algoritmo identifica segmentos con energıa pronunciada en una senal de audio.

El algoritmo primero calcula la distribucion estadıstica de la cantidad de energıa

durante N muestras consecutivas (Se asume que el ruido ambiental sigue una distri-

bucion normal N(µ, σ2)). Con este estimativo, se define un umbral µ+ βσ, es decir

β desviaciones estandar por encima de la energıa media.

El registro sonoro se divide en ventanas de 20ms y se calcula en cada una su

nivel de energıa (Ecuacion 4.8). Las secciones de la senal donde la energıa sobrepasa

el umbral anteriormente definido, se considera como una vocalizacion de un ave.

Ademas, se integra una caracterıstica temporal, la longitud mınima del segmento

lvoc = 40ms, que permite discriminar algunos sonidos que tambien presentan niveles

altos de energıa como ‘clicks’ y ‘pops’. Ası, un evento debe ser de alta energıa y tener

una duracion mınima de 40 milisegundos para ser identificado como una vocalizacion

de ave.

El diagrama de flujo del algoritmo se presenta en la Figura 5.1. Primero, el

calculo de la energıa en ventanas se guarda en el vector E y se inicializa la variable

curpos (“current position”) donde se tiene el registro de la posicion de E que se

esta evaluando. Esta variable va incrementando en cada ciclo y ası se recorre todo

el vector. Tambien se inicializa en cero la variable lseg donde se anota la longitud

de los segmentos de energıa pronunciada. Luego, se compara el valor de E en un

instante de tiempo (Ei) con el valor del umbral, si la energıa no sobrepasa dicho

umbral, simplemente se evalua la siguiente posicion del vector. En el momento que

la energıa supera el umbral, se levanta la bandera onset y se empieza a registrar la

longitud del segmento. El ciclo se repite hasta tener de nuevo la energıa por debajo

del umbral. Cuando esto sucede, se evalua la longitud del segmento y si es mayor a

lvoc, se guarda el principio y final de la seccion (variables init y end) en la matriz

limits. Al finalizar el recorrido por el vector, se imprimen los resultados y termina

el programa.

Figura 5.1: Diagrama de flujo del algoritmo CFAR

5.3. Red Neuronal Artificial

Las redes neuronales artificiales (RNA), como su nombre lo indica, son modelos

computacionales inspirados en las redes neuronales biologicas. Por su habilidad de

‘aprender’ a partir de ejemplos y su versatilidad, han sido usadas en diversas areas.

En este trabajo de grado, se implemento una RNA como un clasificador binario de

senales de audio. Detalles del funcionamiento de una RNA se pueden encontrar en

Caicedo y Lopez (2009). Para implementar la red, entrenar y ajustar sus parametros

se uso el paquete de MATLAB PRTools desarrollado por el grupo de investigacion

DelftPR (van der Heijden et al., 2004).

5.3.1. Modelo general de la red

Para enfrentar el problema de detectar vocalizaciones de aves, se tomo como

modelo general la red mas comunmente usada. Se trata de una red perceptron multi-

capa feed-forward. En esta red, la informacion se mueve en una sola direccion, hacia

adelante, es decir que no tiene ciclos ni retroalimentacion. La red posee tres niveles

de neuronas, el primero es el de entrada, luego viene un nivel de capa oculta y fi-

nalmente una capa de salida. La funcion que activa las neuronas de la capa oculta

es sigmoidal, mientras que en la salida se tiene una funcion lineal (Figura 5.2). La

seleccion del numero de neuronas y las caracterısticas de entrada se explican en la

seccion 5.3.3.

Figura 5.2: Modelo de la red perceptron multicapa implementada.

5.3.2. Metodo de entrenamiento

La RNA, como otras maquinas de aprendizaje, opera en dos fases, la fase de

entrenamiento y la fase operacional. En la primera, muestras de las vocalizaciones

que deben ser identificadas (ejemplares) son usadas para entrenar la RNA. Mediante

una serie de muestras y asignacion de salida deseada, los pesos sinapticos de la red

neuronal se van modificando con el fin de crear una red que minimize el error en la

salida. Como algoritmo de entrenamiento se utilizo un metodo de amplia difusion

llamado Backpropagation.

Para entrenar la red, se le presentaron 257 vocalizaciones de aves que corres-

ponden a 54 segundos de audio. Como ejemplares de ruido se le presento a la red

diversas fuentes de interferencias y ruido ambiente que sumadas completan 57 se-

gundos de audio. Las muestras de ruido se dividen en 40 segundos de ruido rosado,

41 interferencias de ‘clicks’ y ‘pops’, y 35 segmentos con voz humana. El total de

las muestras se sumo para formar un unico archivo de audio de donde se calcularon

las caracterısticas acusticas en ventanas de 20 milisegundos. De esta forma, cada

objeto de la red neuronal es una porcion de audio de 20 milisegundos definida con

las caracterısticas calculadas.

5.3.3. Ajuste de parametros

Una vez entrenada la red, es necesario ajustar algunos parametros para opti-

mizar su funcionamiento. En esta investigacion, se trabajo en la seleccion de las

caracterısticas y en el numero de neuronas en la capa oculta.

Para determinar el numero de neuronas en la capa oculta se realizo una validacion

cruzada en diferentes valores de este parametro. Se divide el total de los datos de

entrenamiento en cinco secciones complementarias, se entrena con cuatro secciones y

se valida con la restante. El procedimiento se repite para que cada seccion pase a ser

la de validacion. El resultado se muestra en la Figura 5.3. Aunque la grafica muestra

una figura con muchas irregularidades, se observa que existe un mınimo al usar 40

neuronas. Este fue el numero seleccionado para las pruebas de esta investigacion.

Las caracterısticas de audio se analizaron en primer lugar mediante un analisis

exploratorio. Se represento en una matriz cuadrada de nueve filas por nueve columnas

la combinacion de todas las parejas de caracterısticas posibles, y en cada elemento

de esta matriz se dibujo un grafico de dispersion. Observando visualmente uno por

uno los elementos de esta matriz, se determino que todas las caracterısticas eran

relevantes. Para corroborar este resultado, se examinaron las caracterısticas con el

algoritmo Branch and bound (van der Heijden et al., 2004). Este algoritmo tiene como

objetivo encontrar el subset de caracterısticas que presentan el mejor desempeno (el

tamano del subset es definido por el usuario). Como entrada se le presento el conjunto

con las nueve caracterısticas y se fue variando el tamano del subconjunto de salida,

de dos a nueve caracterısticas. Usando uno de los clasificadores mas sencillos, un K-

vecinos con K = 1, se comparo el desempeno de cada uno de estos subconjuntos y se

encontro que el mejor resultado se obtenıa con el conjunto total de caracterısticas.

Figura 5.3: Validacion cruzada de cinco a cien neuronas con incrementos de cinco uni-dades.

Por lo tanto ninguna de las nueve caracterısticas fue descartada.

5.4. Template Matching (TM)

Esta tecnica de deteccion de senales ha sido desarrollada ampliamente para pro-

cesamiento de imagenes. En los artıculos mencionados sobre la busqueda de cantos

de ballenas, se trabaja sobre los sonogramas y la correlacion se hace sobre imagenes.

El mismo principio se implemento para las vocalizaciones de aves en los registros

de campo. La Figura 5.4 muestra un diagrama explicativo de como se adapto esta

tecnica.

5.4.1. El espectrograma

Para aplicar las tecnicas del procesamiento de imagenes, es necesario transformar

la senal de audio en una imagen. Esto se hace calculando la transformada discreta

de Fourier (DFT) en pequenas ventanas de tiempo, y yuxtaponiendo los resultados

de la magnitud de cada coeficiente, i.e. los espectros de potencia de cada trama, se

crea una matriz. Este procedimiento se conoce como short-time Fourier transform

(STFT). El valor de cada elemento de la matriz define la intensidad del pixel de la

Figura 5.4: Diagrama del algoritmo template matching

imagen, teniendo en el eje horizontal el tiempo y en el eje vertical la frecuencia. Al

generar un espectrograma, los parametros que definen la imagen son: tamano de la

FFT, tamano de la trama, tipo de ventana y porcentaje de solapamiento. Con el

fin de obtener un balance entre resolucion temporal, resolucion espectral y ancho de

banda del espectrograma, se tomaron 512 puntos para la FFT, una trama de 512

puntos, una ventana tipo Hamming y un solapamiento de 75 % entre tramas.

5.4.2. La plantilla

Para la plantilla se probaron dos opciones. La primera fue la de crear una plan-

tilla artificial a partir del metodo implementado por Mellinger y Clark (2000), y

la segunda fue la de tomar una vocalizacion de la base de datos que presentara

una buena relacion senal a ruido. Se realizaron pruebas con ambas plantillas y se

observo que la plantilla artificial producıa mas ruido en la salida que la plantilla

natural (ver Figura 5.5). Por lo tanto se selecciono la plantilla natural.

Figura 5.5: Comparacion de resultados obtenidos en la correlacion con el template arti-ficial y con el template natural.

5.4.3. Procesamiento de la senal de salida

La correlacion entrega un curva que indica que tan similar son las senales. La

salida es una curva con picos, donde esta la senal buscada, y valles donde no hay senal

de interes. Como estamos buscando segmentar esta senal, la salida de la correlacion

debe ser procesada. En primer lugar se trazo un umbral en la salida normalizada de

0.5 y se buscaron picos que sobrepasaran dicho umbral. Luego se busco el principio y

final del segmento. El tiempo en la funcion de reconocimiento donde se tiene un pico

coincide con el comienzo de una vocalizacion; la longitud de la plantilla nos indica

la longitud del segmento. De esta forma la funcion de reconocimiento se convirtio en

una secuencia de deteccion de eventos discretos.

5.5. Filtro pasabanda

Un filtro digital permite atenuar la energıa de la senal en frecuencias que no son

de interes. Las aves vocalizan en un rango de frecuencias limitado y por lo tanto

se estima que la adicion de un filtro para pre-procesar la senal puede mejorar el

desempeno de los algoritmos de deteccion.

De la base de datos seleccionada se analizo el rango de frecuencias de las voca-

lizaciones y se observo que la frecuencia mas baja es 1.2 kHz y la mas alta 9.3kHz.

Con el fin de eliminar informacion de la senal que no es de interes, se implemento un

filtro pasabanda con las siguientes especificaciones:

Frecuencia de rechazo baja Ws1 = 0.8kHzFrecuencia de paso baja Wp1= 1kHzFrecuencia de paso alta Wp2 = 10 kHzFrecuencia de rechazo alta Ws2 =11kHzAtenuacion en la banda de paso Rp = 1dBAtenuacion en la banda de rechazo Rs =30dB

Por su estabilidad y porque no se tienen limitaciones de memoria se decidio im-

plementar un filtro de respuesta finita al impulso (FIR, por sus siglas en ingles).

Se probaron tres metodos diferentes: diseno por ventanas, muestreo en frecuencia y

aproximacion de Chebyshev. Los resultados con la aproximacion de Chebyshev pre-

sentaron un sobrepico anormal (de mas de 60dB) en la banda de transicion (entre

10 y 11kHz) y por lo tanto este filtro se descarto en primer lugar. Luego se tabu-

laron los resultados (Tabla 5.1) del filtro disenado por ventanas y el de muestreo

en frecuencia. La respuesta del filtro de muestreo en frecuencia se acerca mas a las

especificaciones de diseno y por consiguiente se implemento en la fase de pruebas de

los algoritmos de deteccion. La respuesta impulsional y la respuesta en frecuencia

de este filtro se muestra en la Figura 5.6.

ATENUACION (en dB)

FRECUENCIA Esp. de diseno Muestreo en frecuencia Diseno por ventanas

Ws1 -30 -18.1317 -11.2941Wp1 1 -0.7311 -1.2215Wp2 1 -0.3598 -0.0122Ws2 -30 -38.8774 -57.2667

Cuadro 5.1: Resultado de los filtros obtenidos mediante dos tecnicas diferentes: el mues-treo en frecuencia y diseno por ventanas.

Figura 5.6: Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR disenadopor muestreo en frecuencia.

Capıtulo 6

Pruebas y resultados

Con el fin de evaluar el desempeno de los algoritmos se realizaron pruebas sis-

tematicas de sensibilidad y especificidad. En la primera parte de este capıtulo se

detalla el modelo de pruebas disenado para la evaluacion. En segundo lugar, se

muestran y analizan los resultados obtenidos.

6.1. Modelo de pruebas

Para controlar variables y tener certeza sobre los resultados ideales de la de-

teccion, se usaron senales de prueba artificiales y no grabaciones de campo reales.

Primero, se obtuvieron las vocalizaciones y las interferencias tomando secciones de

los registros del IAvH. De esta forma se pudo determinar con certeza el comienzo

y final de las vocalizaciones. Por otro lado, como se necesitaba manejar la relacion

senal a ruido, el ruido ambiente (ruido rosado) se sintetizo por computador. Se ge-

neraron numeros aleatorios con distribucion normal (µ = 0, σ = 1) y se le aplico un

filtro pasa bajos para simular la respuesta en frecuencia del ruido ambiente observa-

do en las grabaciones (Seccion 3.3.1). Los registros sonoros artificiales se componen

de mezclar las vocalizaciones, interferencias y ruido rosado de diferentes formas.

El desempeno de un detector se evalua con dos variables estadısticas: la sensi-

bilidad y la especificidad. La sensibilidad indica la capacidad del algoritmo de dar

como positivo los segmentos de audio donde realmente existe una vocalizacion de un

ave. En casos donde no se identifica, se tiene un “falso negativo”. Por su parte, la

especificidad indica la capacidad del algoritmo de dar como negativo los segmentos

de audio donde se tiene ruido ambiente o una interferencia. Se tiene un “falso po-

sitivo” si estas secciones se clasifican como sonidos de aves. La relacion entre estos

terminos se observa en las ecuaciones 6.1 y 6.2.

Sensibilidad =V P

V P + FN(6.1)

Donde V P es verdaderos positivos y FN falsos negativos.

Especificidad =V N

V N + FP(6.2)

Donde V N es verdaderos negativos y FP falsos positivos.

Con estas variables en mente se idearon dos tipos de pruebas. La Prueba I esta en-

focada a estimar la sensibilidad de los algoritmos. Se compone de segmentos con

vocalizaciones de diversas aves inmersas en ruido ambiente variable (no se incluye

ninguna interferencia). Para esto, se crearon tres registros sonoros con diferentes

relaciones senal a ruido: 30dB, 15dB y 0dB. La Prueba II examina la especificidad

de los algoritmos. Se construye combinando en una senal vocalizaciones de aves e

interferencias (‘clicks’, pops’ y voz humana). Se adiciona ruido rosado leve (SNR

= 30dB) para simular el inevitable ruido ambiente en los registros sonoros, pero

la relacion senal a ruido se mantiene constante. Las Figuras 6.1 y 6.2 ilustran este

proceso.

Figura 6.1: Esquema de la elaboracion de senales para la Prueba I. A una senal con vo-calizaciones de aves se le agrega ruido ambiente a diferentes niveles para obtener diferentesvalores de SNR.

Figura 6.2: Esquema de la elaboracion de las senales para la Prueba II. Se toma unasenal con vocalizaciones de aves y se le agregan interferencias.

6.2. Resultados

El detector basado en Template Matching, es un detector que busca un tipo de

canto especıfico en las grabaciones. Para comparar adecuadamente su desempeno

con los otros detectores se decidio realizar una senal de prueba compuesta por vo-

calizaciones de Acropternis orthonyx. Esta especie produce sus cantos de manera

innata, es decir que sus vocalizaciones son estereotipadas. Para cada tipo de prueba

(Prueba I y Prueba II) se tiene: una senal base con las 7 especies y otra senal solo

con sonidos de Acropternis orthonyx. Por otra parte, para evidenciar el efecto que

puede tener el filtro pasabanda en los algoritmos de deteccion, se realizaron todas las

pruebas sin filtro para luego repetirlas adicionando el filtro. Para evitar confusiones,

las pruebas se numeraron de la siguiente manera:

PRUEBA I PRUEBA II

SIN FILTROTodas las especies Prueba Ia Prueba IIaSolo Acropternis orthonyx Prueba Ib Prueba IIb

CON FILTROTodas las especies Prueba Ia-FIR Prueba IIa-FIRSolo Acropternis orthonyx Prueba Ib-FIR Prueba IIb-FIR

Cuadro 6.1: Numeracion de las pruebas

La curva ROC (acronimo de Receiver Operating Characteristic, o Caracterıstica

Operativa del Receptor) de cada algoritmo se trazo tomando los umbrales mınimo

y maximo, donde se producen cero falsos negativos y cero falsos positivos respecti-

vamente, y luego calculando la salida en 100 umbrales linealmente espaciados entre

estos extremos. Para cuantificar el desempeno de los detectores, el tiempo se dis-

cretizo en tramos de 20 milisegundos. Los detectores determinan si al menos una

fraccion de una vocalizacion ocurre en cada tramo. Este resultado se compara con

la salida ideal dada por los segmentos de vocalizacion en la senal de prueba.

6.2.1. Pruebas sin filtro

Prueba Ia. La Figura 6.3 muestra las curvas ROC para los detectores CFAR y

RNA y un resumen de los resultados del area bajo la curva (AUC, por sus siglas en

ingles) en un diagrama de barras. Se observa que el algoritmo CFAR tiene mejores

resultados con las tres senales de prueba y aunque el desempeno es similar cuando

existe alta relacion senal a ruido, la diferencia se va incrementando a medida que la

relacion disminuye. El AUC, entre SNR=30dB y SNR=0dB, para la RNA disminuye

un 49.5 %, mientras que para CFAR la reduccion es de 31.5 %. Por lo tanto, se deduce

que el ruido ambiente afecta en mayor medida a las redes neuronales que al algoritmo

basado en umbral de energıa.

(a) (b)

(c) (d)

Figura 6.3: Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras (d).

Prueba IIa. A una senal con varios tipos de vocalizacion, se le agregaron in-

terferencias. De la curva ROC se observa que la RNA alcanza mas de un 95 % de

sensibilidad con una tasa de falsos positivos de tan solo 0,1. Por su lado, el algoritmo

CFAR debe incidir en una tasa de falsos positivos seis veces mayor para alcanzar

el mismo valor. El desempeno de la tecnica basada en umbral de energıa, entre una

senal limpia y otra alterada con interferencias, disminuye en un 58.5 %, mientras que

la red varıa su desempeno en tan solo un 2.3 % (Figura 6.4). Es evidente entonces

que la red es mucho mas robusta frente a las interferencias que el algoritmo CFAR.

(a) (b)

Figura 6.4: Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b).

Prueba Ib. Las senales de base se acomodaron para tener solamente vocalizacio-

nes de Acropternis orthonyx. Con esta prueba se quiere incluir al detector basado

en Template Matching para poder comparar los resultados con los otros algoritmos.

En la Figura 6.5 se observa que el TM tiene un desempeno inferior a los otros al-

goritmos cuando se tiene una relacion senal a ruido de 30dB y 15dB. Sin embargo,

con una relacion de 0dB, este algoritmo llega a superar el desempeno de las otras

tecnicas. Se puede observar que el desempeno de este algoritmo, entre SNR=30dB y

SNR=0dB, varıa tan solo en un 7.9 %, y es por lo tanto el que menos se ve afectado

por el incremento del ruido ambiente en la senal.

(a) (b)

(c) (d)

Figura 6.5: Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras (d).

Prueba IIb. De nuevo se seleccionaron vocalizaciones de Acropternis orthonyx,

esta vez se combinan en una senal con las interferencias. Los resultados muestran

que el desempeno del TM disminuye solamente un 4.7 %, un resultado parecido al

obtenido con las redes neuronales (2.3 %). El template matching es robusto frente a

las interferencias, sin embargo la red neuronal es el algoritmo que mejor discrimina

las vocalizaciones en un ambiente con interferencias (Figura 6.10).

(a) (b)

Figura 6.6: Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b).

6.2.2. Adicion de filtro FIR

Una vez evaluados los algoritmos, se procede a adicionar un filtro pasabanda y

se realizan de nuevo las mismas pruebas. Los detalles del filtro se encuentran en la

Seccion 5.5.

Prueba Ia-FIR. Comparando los resultados de esta prueba (Figura 6.7) con los

de la Figura 6.3, se observa un incremento en el rendimiento de ambos algoritmos,

sobre todo cuando el nivel de ruido ambiente es elevado. Particularmente, con una

relacion senal a ruido de cero, el area bajo la curva incremento en un 70.2 % para la

red neuronal, y un 37.6 % para CFAR. Es importante notar, que el algoritmo CFAR

sigue teniendo un desempeno levemente mejor que la red neuronal.

(a) (b)

(c) (d)

Figura 6.7: Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras(d).

Prueba IIa-FIR. Esta prueba muestra un cambio drastico en el desempeno del

algoritmo CFAR, mejorando su respuesta a las interferencias en un 235.4 %. Por su

parte, las redes neuronales tambien mejoran su respuesta, en un 2 %. No obstante,

las redes siguen dando una mejor respuesta frente a las interferencias (Figura 6.8).

(a) (b)

Figura 6.8: Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras (b).

Prueba Ib-FIR. En esta ocasion se observa de nuevo la mejora en el desempeno

de los algoritmos CFAR y RNA. Por el contrario, el TM mantiene los resultados

casi identicos con o sin filtro, el desempeno incrementa tan solo un 1.1 %. Aunque

las diferencias en el desempeno de los algoritmos disminuyen, se sigue observando

la tendencia de la PruebaIb sin filtro. Al variar la relacion senal/ruido de 30dB a

0dB, el mejor algoritmo fue el template matching al presentar una disminucion de

1.4 % en su desempeno, luego sigue un 3.6 % en el umbral de energıa y finalmente

un 8.7 % en las redes neuronales. (Figura 6.9).

(a) (b)

(c) (d)

Figura 6.9: Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras(d).

Prueba IIb-FIR. Para esta prueba se observa que otra vez el TM mantiene re-

sultados casi iguales con o sin filtro, el rendimiento aumenta un 4.3 %. El algoritmo

CFAR es el que tiene una mejora mas significativa, sin embargo sigue siendo el de

menor rendimiento en esta prueba. Ver Figura 6.10.

(a) (b)

Figura 6.10: Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras (b).

6.2.3. Tiempo de ejecucion

Analizar detalladamente el orden de complejidad de los algoritmos esta mas

alla de los alcances de esta investigacion. A continuacion se adjuntan los tiempos

de ejecucion de las tecnicas implementadas con el fin dar una idea del orden de

magnitud de estos valores. La grabacion de campo Acropternis orthonyx 10880.wav

(95.0665 segundos de duracion) se analizo con los tres algoritmos en un procesador

de 2.4GHz y una memoria de 8GB. Los resultados se muestran en la tabla 6.2.

CFAR RNA TM

Tiempo de ejecucion 0.503 s 13.508 s 3.552s

Cuadro 6.2: Tiempos de ejecucion de cada algoritmo al analizar una grabacion de campode 95 segundos: Acropternis orthonyx 10880.wav

6.3. Discusion de resultados

Las tecnicas presentadas aquı, son una muestra de las posibilidades que ofrece el

procesamiento digital de senales aplicado a los registros sonoros. A continuacion, se

subrayan las ventajas y desventajas de los algoritmos de deteccion evaluados:

CFAR. A pesar de ser una tecnica sencilla, este algoritmo tiene desempeno sobre-

saliente cuando se trata de senales con buena relacion senal a ruido y sin interfe-

rencias. Aunque su rendimiento se ve afectado por el ruido ambiente, el caso es mas

crıtico al enfrentarse a una senal con interferencias. Esto es previsible ya que este

toma como positivo todas las partes de la senal que tengan un alto nivel de energıa,

en este caso las interferencias son clasificadas como vocalizaciones y por lo tanto se

incrementa la tasa de falsos positivos. La adicion de un filtro ayuda a enfrentar las

desventajas de este inconveniente. Volviendo a la descripcion de las interferencias en

los registros (Seccion 3.3), se observa que estas tienen la mayor parte de su energıa

en frecuencias bajas y por ende pueden ser atenuadas por el filtro disenado. Hay

que tener en cuenta que en casos donde las interferencias no pueden ser atenuadas

por un filtro su taza de falsos positivos incrementara ya que este no es un detector

especıfico.

Red neuronal artificial. Este metodo muestra un muy buen desempeno en las

pruebas que contienen interferencias sin la necesidad de un filtro adicional (sin filtro

AUC = 0.467, con filtro AUC = 0.476). La red consigue discriminar las interferencias

de las vocalizaciones de aves. Sin embargo, se puede observar que su desempeno se

ve afectado considerablemente por la presencia de ruido ambiente. Esto problema

puede ser originado por la deformacion que produce el ruido ambiente en el espectro

de frecuencias. Las energıas bajas se hacen dominantes y los pequenos cambios en

frecuencia por una vocalizacion no pueden ser discriminados por las caracterısticas

acusticas. Sin embargo, no se puede tener certeza sobre esta hipotesis sin un estudio

detallado. Un inconveniente de esta tecnica es que la estructura de una red entrena-

da es difıcil de comprender, haciendo que sea complejo determinar el origen de los

problemas. Otro inconveniente que cabe resaltar de la RNA, y en general las maqui-

nas de aprendizaje, es que requiere de una base de datos de entrenamiento amplia

y por lo tanto tiempo de un operador para entrenar y ajustar sus parametros.

Template matching. Esta tecnica, aunque tiene buenos resultados, no se muestra

sobresaliente en las pruebas individuales. Su maxima (AUC = 0.47) y todas las

curvas ROC muestran que para llegar o acercarse a un 100 % de sensibilidad, el costo

en falsos positivos es elevado. Esto se debe a que este es un detector especializado

en una vocalizacion particular y que no esta adaptado a las posibles variaciones de

tiempo. Sin embargo, el valor mınimo de este algoritmo en todas las pruebas fue

AUC = 0.44. Esto indica que este es un detector robusto ante el ruido ambiente y

las interferencias de las grabaciones de campo. Por lo tanto, esta tecnica se muestra

adecuada para ser implementada en aves con cantos estereotipados en registros con

alto ruido ambiente o interferencias.

Filtro digital. Al adicionar el filtro pasabanda, los resultados del umbral de

energıa y la red neuronal mejoraron sustancialmente en ambas pruebas. En pro-

medio, el desempeno del umbral de energıa mejoro un 29.7 % y la red neuronal un

17.7 %. Sin embargo, la correlacion cruzada mantuvo casi el mismo desempeno al

incluir el filtro, mejoro un 1.9 %.

La Tabla 6.3 a continuacion muestra un resumen de lo explicado anteriormente.

CFAR RNA TM

Robusto al ruido ambiente ? ? ? ?? ? ? ??Robusto a interferencias ? ? ? ? ? ? ? ? ??Facil de implementar ? ? ? ? ? ? ? ? ?Velocidad de ejecucion ? ? ? ? ? ?? ? ? ?Capacidad de generalizar ? ? ? ? ? ? ? ?? ?

Cuadro 6.3: Se valoran cinco caracterısticas en una escala de una estrella (?) a cincoestrellas ( ? ? ? ? ?), siendo las cinco estrellas la valoracion mas positiva.

Capıtulo 7

Conclusiones y trabajos futuros

7.1. Conclusiones

Este trabajo de grado evaluo la capacidad de diversas tecnicas de ingenierıa para

detectar vocalizaciones de aves en registros sonoros. En primer lugar, se expusieron

algunos fundamentos teoricos de biologıa para entender el contexto del problema.

Luego, se describio la base de datos con la cual se realizo la investigacion, caracte-

rizando las vocalizaciones de aves, interferencias y ruido ambiente encontrados. A

continuacion, una serie de modelos matematicos permitieron caracterizar la senal

de audio en el dominio del tiempo y la frecuencia. Despues se presentaron diversos

algoritmos encontrados en la literatura de procesamiento de senales. Se tomaron

tres de estos para desarrollarlos y adaptarlos al problema en cuestion. Finalmente,

se ideo un modelo de pruebas y se examino el desempeno de cada una de las tecnicas

implementadas.

Ningun algoritmo fue sobresaliente en todas las pruebas, a su vez estas mostra-

ron que cada tecnica tiene sus ventajas y desventajas. El algoritmo CFAR trabaja

adecuadamente hasta ciertos niveles de SNR, pero es incapaz de discriminar las in-

terferencias. La tecnica de template matching se mostro robusta ante el ruido y la

interferencia, pero su estructura basica no esta adaptada a los cambios temporales

de la senal de interes. Las redes neuronales pueden discriminar correctamente entre

una interferencia y el sonido de las aves, pero resulto muy susceptible al ruido am-

biente. Ası, este estudio comparativo da luz hacia la mejor forma de usar las tecnicas

para obtener los resultados buscados.

En el piloto de monitoreo del IAvH, los microfonos son omnidireccionales y cap-

tan paisajes sonoros. Por lo tanto la relacion senal a ruido de las senales de interes

cambiaran continuamente, segun el clima (lluvia, viento) y la distancia entre la fuente

de sonido (el ave) y el microfono. Por otro lado, los ecosistemas de paramo y bos-

que alto-andino son ambientes acusticos donde las vocalizaciones de aves no tienen

mayores fuentes de interferencia. El umbral de energıa junto con el filtro, muestran

ser un buen punto de partida para analizar las senales del paramo y bosque alto-

andino. El algoritmo de template matching se adapta para detectar una vocalizacion

particular. Aunque esto limita su alcance, se puede emplear en aves con cantos es-

tereotipados, y como es robusto frente al ruido ambiente y las interferencias es sin

duda una tecnica a emplear en las futuras grabaciones del IAvH. La red neuronal,

por ser la tecnica mas susceptible al ruido ambiente, es la menos recomendable para

analizar los paisajes sonoros del paramo y el bosque alto-andino.

Las maquinas de aprendizaje y el template matching presentan gran cantidad de

variables que deben ser adecuadas al problema en cuestion. En el caso de las redes

encontramos: la base de datos usada para entrenarlas, la cantidad de neuronas en la

capa oculta, las caracterısticas acusticas de entrada, el algoritmo de entrenamiento y

su topologıa, entre otros. Para el template matching se tienen: la seleccion y/o elabo-

racion de la plantilla y los parametros para generar el sonograma. Los pocos estudios

previos en senales bioacusticas ayudan a orientarse a la hora de encontrar el punto

optimo de funcionamiento. Sin embargo, no existe un metodo lo suficientemente ri-

guroso para dicha labor, y por lo tanto la presente comparacion de desempeno entre

algoritmos muestra tan solo resultados parciales. Siendo este trabajo un producto de

tan solo seis meses y el primer acercamiento a estas nuevas tecnicas, no cabe duda

que es posible mejorar el desempeno de estos algoritmos.

Por su parte, la teorıa de filtros digitales esta muy bien definida y la implemen-

tacion de estos modulos resulta sencilla y sumamente eficiente. La adicion de un

pasabanda en el pre-procesamiento de la senal intervino positivamente en el desem-

peno de las redes y el algoritmo CFAR.

Los tiempos de ejecucion de los algoritmos son una fraccion del tiempo de re-

produccion de la grabacion y de lo que un operador puede tardar en realizar la

tarea. Como consecuencia, adaptar este tipo de sistemas permitira ahorrar tiempo y

esfuerzo de personal calificado. Con presupuestos muy limitados y una desbordan-

te diversidad biologica, las investigaciones de los sistemas naturales se podrıa ver

beneficiada si la ingenierıa aporta sus herramientas en este campo.

7.2. Trabajos futuros

Los resultados presentados en este trabajo dan una idea de las ventajas y des-

ventajas de algunas tecnicas de procesamiento de senales adaptadas a la bioacustica.

Sin embargo se consideran resultados parciales que se pueden seguir desarrollando

en investigaciones futuras.

Como cada algoritmo tiene ventajas y desventajas, surge la idea de combinar las

fortalezas de cada tecnica en un solo modulo. Por ejemplo, tener un detector basado

en umbral de energıa y conectar su salida a una red neuronal. O instalar en primer

lugar el template matching y luego procesar la senal con una red neuronal para

adaptarse a las diferencias temporales. Aunque se espera que el desempeno de tal

combinacion mejore los resultados, tambien se debe tener en cuenta que se induce

un costo computacional adicional.

El estudio se enfoco en los sistemas de paramo y bosque alto-andino, ambientes

donde el espacio acustico diurno es dominado por las aves. Un nuevo reto se presenta

al orientarse en otros ecosistemas del tropico, particularmente de tierras mas bajas

donde las interferencias por la presencia de anfibios o insectos conspicuos, cigarras

por ejemplo, no se puede ignorar.

La FFT permite transformar el sonido en un imagen. El algoritmo de template

matching mostro que es posible trabajar en el analisis de estas imagenes en vez de

trabajar con el sonido directo, permitiendo caracterizar la senal en tiempo y frecuen-

cia. Trabajos futuros podrıan tambien enfocarse en buscar tecnicas de procesamiento

de imagenes que puedan servir en el contexto de la bioacustica.

Despues de haber identificado los segmentos de audio que contienen las vocaliza-

ciones, el analisis posterior es clasificar estos sonidos. Obtener a partir de grabaciones

de campo un maximo de informacion de forma automatizada es una busqueda que

apenas esta comenzando. La mayor parte de las investigaciones se estan desarrollan-

do en laboratorios de Europa y Estados Unidos, ¿no serıa una buena idea empezar

a fomentar este tipo de investigaciones en un paıs megadiverso como Colombia?

Apendices

Apendice A

Grabaciones del IAvH

ESPECIE FAMILIA REGISTROS DURACION

Acropternis orthonyx Rhinocryptidae 5 12:00:00Amblycercus holosericeus Icteridae 3 2:45:00Anairetes agilis Tyrannidae 6 2:40:00Atlapetes brunneinucha Emberizidae 3 6:09:00Atlapetes pallidinucha Emberizidae 15 22:12:00Atlapetes schistaceus Emberizidae 16 23:09:00Atlapetes torquatus Emberizidae 22 22:26:00Basileuterus nigrocristatus Parulidae 17 20:46:00Cacicus chrysonotus Icteridae 28 46:29:00Campephilus pollens Picidae 12 19:37:00Cinnycerthia unirufa Troglodytidae 36 54:47:00Cyanolyca armillata Corvidae 12 19:47:00Dubusia taeniata Thraupidae 2 1:06:00Grallaria quitensis Grallaridae 3 3:18:00Grallaria rufula Grallaridae 21 16:55:00Hellmayrea gularis Furnariidae 4 6:20:00Henicorhina leucophrys Troglodytidae 12 14:17:00Margarornis squamiger Furnariidae 5 5:39:00Mecocerculus leucophrys Tyrannidae 16 20:29:00Mecocerculus stictopterus Tyrannidae 7 7:31:00Metallura tyrianthina Trochilidae 6 2:54:00Myioborus ornatus Parulidae 11 6:24:00Myiotheretes fumigatus Tyrannidae 7 12:11:00Nothocercus julius Tinamidae 6 7:50:00Otus albogularis Strigidae 8 11:15:00Penelope montagnii Cracidae 12 27:05:00Phyllomyias nigrocapillus Tyrannidae 8 5:27:00Premnoplex brunnescens Furnariidae 5 6:37:00Pyrrhura calliptera Psittacidae 11 8:20:00Schizoeaca fuliginosa Furnariidae 6 5:14:00Scytalopus griseicollis Rhinocryptidae 4 2:03:00Scytalopus latebricola Rhinocryptidae 10 10:18:00Scytalopus magellanicus Rhinocryptidae 7 4:55:00Sericossypha albocristata Thraupidae 6 12:56:00Troglodytes solsticialis Troglodytidae 2 1:17:00Trogon personatus Trogonidae 8 16:32:00Turdus fuscater Turdidae 14 35:37:00Xiphocolaptes promero Dendrocolaptidae 12 11:13:00Zonotichia capensis Emberizidae 1 0:31:00

TOTAL 389 8h 37min 1s

Cuadro A.1: Listado de especies en los registros sonoros del IAvH.

Apendice B

Especificaciones del equipo de

grabacion

CARACTERISTICAS PMD201 PMD222 PMD430

Mono/Stereo Mono Mono MonoNumero de cabezas 2 3 3Atenuacion del microfono 0, -10dB, -20dB 0, -10dB, -20dB 0, -10dB, -20dB

Relacion Senal a RuidoNR off 57dB 57dB 55dBDolby B 60dBdbx 75dB

Cuadro B.1: Especificaciones de grabadoras Marantz.

Bibliografıa

Adi, K., Johnson, M. T., y Osiejuk, T. S. Acoustic censusing using automatic

vocalization classification and identity recognition. The Journal of the Acoustical

Society of America, 127(2):874–883, 2010.

Ali, A. M., Yao, K., Collier, T. C., Taylor, C. E., Blumstein, D. T., y Girod, L.

An empirical study of collaborative acoustic source localization. En Proceedings

of the 6th international conference on Information processing in sensor networks,

paginas 41–50. 2007.

Bardeli, R., Wolff, D., Kurth, F., Koch, M., Tauchert, K., y Frommolt, K. Detecting

bird sounds in a complex acoustic environment and application to bioacoustic

monitoring. Pattern Recognition Letters, 31:1524–1534, 2010.

Beckers, G., Suthers, R., y Cate, C. Mechanisms of frequency and amplitude modu-

lation in ring dove song. The Journal of Experimental Biology, 206(11):1833–1843,

Bibby, C. J., Burgess, N. D., y Hill, D. A. Bird census techniques. London: Academic

Press, 1992.

Brandes, T. S. Automated sound recording and analysis techniques for bird surveys

and conservation. Bird Conservation International, 18:163–173, 2008.

Caicedo, E. F. y Lopez, J. A. Una aproximacion practica a las Redes Neuronales

Artificiales. Programa Editorial Universidad del Valle, 2009.

Castillo, L. F. y Forrero, L. A. Las aves de mi ciudad: una guıa de las aves de

cali. Alcaldıa de Santiago de Cali, Departamento Administravtivo de Gestion del

Medio Ambiente - DAGMA, 2010.

Chen, Z. y Maher, R. C. Semi-automatic classification of bird vocalizations using

spectral peak tracks. Journal of the Acoustical Society of America, 5(120):2974–

2984, 2006.

Chesmore, D. Automated bioacoustic identification of species. Anais da Academia

Brasileira de Ciencias, 76(2):435–440, 2004.

Collins, S. Nature’s Music: The Science of Birdsong, capıtulo Vocal fighting and

flirting: the functions of birdsong. Elsevier Academic Press, 2004.

Erbe, C., King, A. R., Yedlin, M., y Farmer, D. M. Computer models for masked

hearing experiments with beluga whales (delphinapterus leucas). Journal of the

Acoustical Society of America, 105(5):2967–2976, 1999.

Fagerlund, S. Automatic Recognition of Bird Species by Their Sounds. Proyecto Fin

de Carrera, Helsinky University of Technology, 2004.

Giannakopoulos, T. D. Study and application of acoustic information for the de-

tection of harmful content, and fusion with visual information. Tesis Doctoral,

National and Kapodistrian University of Athens, 2009.

Marler, P. Nature’s Music: The Science of Birdsong, capıtulo Bird calls: a cornucopia

for communication. Elsevier Academic Press, 2004.

Mellinger, D. K. y Clark, C. W. Recognizing transient low-frequency whale

sounds by spectrogram correlation. Journal of the Acoustical Society of America,

107(6):3518–3528, 2000.

Mindlin, G. B. y Laje, R. The Physics of Birdsong. Springer-Verlag Berlin Heidel-

berg, 2004.

Morales, Otero, van der Hammen, Torres, Cadena, Pedraza, Rofriguez, Franco, Be-

tancourth, Olaya, Psada, y Cardenas. Atlas de paramos de Colombia. Instituto

de investigacion de recursos biologicos Alexander von Humboldt, 2007.

Munger, L. M., Wiggins, D. K. M. S. M., Moore, S. E., y Hildebrand, J. A. Perfor-

mance of spectrogram cross-correlation in detecting right whale calls in long-term

recordings from the bering sea. Canadian Acoustics - Acoustique canadienne,

33(2):22–27, 2005.

Neal, L., Briggs, F., Raich, R., y Fern, X. Z. Time-frequency segmentation of bird

song in noisy acoustic environments. En Acoustics, Speech and Signal Processing

(ICASSP), IEEE International Conference on, paginas 2012–2015. 2011.

Parker, T. On the use of tape recorders in avifaunal surveys. Auk, 108:443–444,

Rabiner, L. y Sambur, M. An algorithm for determining the endpoints of isolated

utterances. Bell Syst. Tech. J, 54:297–315, 1975.

Ralph, C. J., Guepel, G. R., Pyle, P., Martin, T. E., y DeSante, D. F. Handbook of

field methods for monitoring landbirds. Albany, CA: Pacific Southwest Research

Station, U. S. Forest Service, 1993.

Skowronski, M. D. y Harris, J. G. Acoustic detection and classification of microchi-

roptera using machine learning: Lessons learned from automatic speech recogni-

tion. Journal of the Acoustical Society of America, 119(3):1817–1833, 2006.

Slabbekoorn, H. Nature’s Music: The Science of Birdsong, capıtulo Singing in the

wild: the ecology of birdsong. Elsevier Academic Press, 2004.

Somervuo, P., Harma, A., y Fagerlund, S. Parametric representations of bird sounds

for automatic species recognition. IEEE Transactions on audio, speech, and lan-

guage processing, 14(6):2252–2263, 2006.

Stattersfield, A., Bennun, L., y Jenkin, M. El estado de conservacion de las aves

del mundo. Indicadores en tiempos de cambio. Birdlife International. Cambridge,

UK, 2008.

Trifa, V. M. A framework for bird songs detection, recognition and localization using

acoustic sensor networks. Proyecto Fin de Carrera, Ecole Polytechnique Federale

de Lausanne, 2006.

Vallejo, E., Cody, M., y Taylor, C. Unsupervised acoustic classification of bird species

using hierarchical self-organizing maps. Progress in Artificial Life, paginas 212–

221, 2010.

van der Heijden, F., Duin, R., de Ridder, D., y Tax, D. Classification, Parame-

ter Estimation and State Estimation. An Engineering Approach using MATLAB.

John Wiley and Sons Ltd, 2004.

Verner, J. Assessment of counting techniques. Current Ornithol, 2:247–302, 1985.

Villarreal, H., Alvarez, M., Cordoba, S., Escobar, F., Fagua, G., Gast, F., Mendoza,

H., Ospina, M., y Umana, A. Manual de medodos para el desarrollo de inventarios

de biodiversidad. programa de inventarios de biodiversidad. Instituto de Inves-

tigacion de Recursos Biologicos Alexander von Humboldt, Segunda edicion:236,

Zhang, X. y Ras, Z. W. Analysis of sound features for music timbre recognition.

En Multimedia and Ubiquitous Engineering, International Conference on, paginas

3–8. 2007.

dise˜no y evaluación de algoritmos para detectar vocalizaciones

Documents

dise ño instruccional

dise+æo azud

vocalizaciones y gestos en el origen del lenguaje

dise rita tie

dise ae o_zapata_conectada

relaciîn entre dise ador, persona y objetos de dise o …

vocalizaciones de aotus brumbackii (hershkovitz, 1983) y

vocalizaciones rev univ

yourprezi dise

nou dise 319

ornitologia neotropical · del bosque austral con los que...

dise o producto_serv

clase02 eelementos dise

trabajocol dise

dise nio interfaces

interd.2020.37.1.13 variaciones de las vocalizaciones del

dise 2012_ap

dise o digital 1unidad -...

dise. proyc. tesis

dise o conceptual