dise˜no y evaluación de algoritmos para detectar vocalizaciones
Post on 06-Jan-2017
214 Views
Preview:
TRANSCRIPT
Diseno y Evaluacion de Algoritmos paraDetectar Vocalizaciones de Aves en Registros
Sonoros
por Juan Sebastian Ulloa
Pontificia Universidad Javeriana
Facultad de Ingenierıa
Ingenierıa ElectronicaCali
Octubre 2012
Diseno y Evaluacion de Algoritmos paraDetectar Vocalizaciones de Aves en Registros
Sonoros
por Juan Sebastian Ulloa
Trabajo de grado presentado como requisito parcial para optar al tıtulo de
Ingeniero Electronico
Director
Dr. Hernan Darıo Benıtez
Pontificia Universidad Javeriana
Facultad de Ingenierıa
Ingenierıa ElectronicaCali
Octubre 2012
Indice general
Indice de figuras IV
Lista de Abreviaciones VI
1. Introduccion 1
1.1. Relevancia del estudio en relacion con la
biodiversidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Contribucion de este proyecto . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Esquema del manuscrito . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Base teorica: biologıa 6
2.1. La comunicacion acustica en las aves . . . . . . . . . . . . . . . . . . 6
2.1.1. Anatomıa del organo vocal . . . . . . . . . . . . . . . . . . . . 6
2.1.2. Las vocalizaciones de aves . . . . . . . . . . . . . . . . . . . . 7
2.2. Paramo y bosque alto-andino . . . . . . . . . . . . . . . . . . . . . . 9
3. Registros sonoros del IAvH 11
3.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Equipo de grabacion . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.2. Seleccion de audio . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.3. Homogenizacion de los datos . . . . . . . . . . . . . . . . . . . 13
3.2. Vocalizacion de aves en los registros . . . . . . . . . . . . . . . . . . . 14
3.2.1. Frecuencia cuasi-constante . . . . . . . . . . . . . . . . . . . . 14
3.2.2. Frecuencia modulada . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Pulso en banda ancha . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Ruido ambiental e interferencias . . . . . . . . . . . . . . . . . . . . . 16
3.3.1. Ruido ambiental . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.2. ‘Clicks’ y ‘pops’ . . . . . . . . . . . . . . . . . . . . . . . . . . 18
i
3.3.3. Voz humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4. Caracterısticas en senales de audio 21
4.1. Procesamiento de corto plazo en senales de audio . . . . . . . . . . . 21
4.2. Caracterısticas frecuenciales . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1. Centroide espectral . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.2. Spectral Rolloff . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.3. Spectral Flux . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.4. Entropıa Espectral . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.5. Ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.6. Frecuencia pico . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.7. Spectral Flatness . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3. Caracterısticas temporales . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.1. Energıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3.2. Tasa de cruce por cero . . . . . . . . . . . . . . . . . . . . . . 26
5. Algoritmos de deteccion 27
5.1. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.1. Umbral de energıa . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.2. Maquinas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 28
5.1.3. Template matching . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2. Constant False Alarm Rate (CFAR) . . . . . . . . . . . . . . . . . . . 29
5.3. Red Neuronal Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3.1. Modelo general de la red . . . . . . . . . . . . . . . . . . . . . 31
5.3.2. Metodo de entrenamiento . . . . . . . . . . . . . . . . . . . . 31
5.3.3. Ajuste de parametros . . . . . . . . . . . . . . . . . . . . . . . 32
5.4. Template Matching (TM) . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.1. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.2. La plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.4.3. Procesamiento de la senal de salida . . . . . . . . . . . . . . . 35
5.5. Filtro pasabanda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6. Pruebas y resultados 38
6.1. Modelo de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2.1. Pruebas sin filtro . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2.2. Adicion de filtro FIR . . . . . . . . . . . . . . . . . . . . . . . 45
ii
6.2.3. Tiempo de ejecucion . . . . . . . . . . . . . . . . . . . . . . . 50
6.3. Discusion de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7. Conclusiones y trabajos futuros 53
7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Apendices 56
A. Grabaciones del IAvH 57
B. Especificaciones del equipo de grabacion 59
Bibliografıa 60
iii
Indice de figuras
2.1. Mecanısmo de produccion de sonido en las aves (Fagerlund, 2004) . . 7
2.2. Las divisiones jerarquicas de las vocalizaciones de aves: silaba, frase
y canto (o llamado). Canto de Atlapetes pallidinucha. . . . . . . . . . 9
3.1. Ejemplo de (a) estructura caotica de vocalizaciones superpuestas y
(b) vocalizaciones separadas . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Ejemplo de vocalizacion con frecuencia constante. Especie: Acropter-
nis orthonyx. Frecuencia: 2-3kHz . . . . . . . . . . . . . . . . . . . . . 15
3.3. Ejemplo de vocalizacion compuesta por varias sılabas que modulan
en frecuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz . . 15
3.4. Ejemplo de vocalizacion en pulsos de banda ancha. Especie: Cinny-
certhia unirufa. Frecuencia: 1-12kHz . . . . . . . . . . . . . . . . . . . 16
3.5. Cuatro graficas especıficas de analisis exploratorio para una muestra
de ruido ambiente. 1. Esquina superior derecha, secuencia de amplitud
de las muestras en el tiempo. 2. Esquina superior izquierda, dispersion
de las muestras. 3. Esquina inferior derecha, histograma. 4. Esquina
inferior derecha, grafico de probabilidad normal. . . . . . . . . . . . . 17
3.6. Ejemplo de ruido ambiental. . . . . . . . . . . . . . . . . . . . . . . . 18
3.7. Ejemplo de click . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8. Ejemplo de una interferencia producida por el movimiento del microfono 19
3.9. Ejemplo de voz humana . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1. Ejemplo de valores obtenidos de Spectral Centroid en una senal que
contiene vocalizaciones de aves e interferencia de tipo I2 . . . . . . . 22
4.2. Ejemplo de valores obtenidos de Spectral Rolloff en una senal que
contiene una vocalizacion de un ave y ruido ambiente. . . . . . . . . . 23
4.3. Ejemplo de valores obtenidos del pico de frecuencia en una senal que
contiene una vocalizacion de un ave y voz humana yuxtapuestas. . . . 25
iv
5.1. Diagrama de flujo del algoritmo CFAR . . . . . . . . . . . . . . . . . 30
5.2. Modelo de la red perceptron multicapa implementada. . . . . . . . . 31
5.3. Validacion cruzada de cinco a cien neuronas con incrementos de cinco
unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Diagrama del algoritmo template matching . . . . . . . . . . . . . . . 34
5.5. Comparacion de resultados obtenidos en la correlacion con el template
artificial y con el template natural. . . . . . . . . . . . . . . . . . . . 35
5.6. Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR
disenado por muestreo en frecuencia. . . . . . . . . . . . . . . . . . . 37
6.1. Esquema de la elaboracion de senales para la Prueba I. A una senal
con vocalizaciones de aves se le agrega ruido ambiente a diferentes
niveles para obtener diferentes valores de SNR. . . . . . . . . . . . . . 39
6.2. Esquema de la elaboracion de las senales para la Prueba II. Se toma
una senal con vocalizaciones de aves y se le agregan interferencias. . . 40
6.3. Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras
(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b). . 43
6.5. Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras
(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.6. Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b). . 45
6.7. Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de
barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.8. Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras
(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.9. Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de
barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.10. Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras
(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
v
Lista de Abreviaciones
AUC Area Under the Curve
CFAR Constant False Alarm Rate
DFT Discrete Fourier Transform
FFT Fast Fourier Transform
FIR Finite Impulse Response
IAvH Instituto Alexander von Humboldt
RMS Root mean square
RNA Red Neuronal Artificial
ROC Receiver Operating Characteristic
SNR Signal-to-noise ratio
TM Template Matching
vi
Agradecimientos
Este proyecto no habrıa sido posible sin la ayuda de muchas personas. En primer
lugar, quiero darle las gracias a Hernan Benıtez por haberme acompanado incon-
dicionalmente de principio a fin durante este largo proceso de aprendizaje. Paula
Caycedo me abrio las ventanas al mundo de la bioacustica y los paisajes sonoros.
Jaime Parra y Mauricio Orozco ayudaron a construir las bases fundamentales del
proyecto. Patricia Chacon, mi madre, por la incalculable ayuda recibida en este pro-
yecto. Sara Keen, quien siempre contesto a mis interminables correos con informacion
precisa y detallada. Mi primo Juan Fernando Correa me apoyo en la idea de desdi-
bujar la solida lınea que se ha trazado entre la ingenierıa y otras areas de estudio.
Algunos biologos que contribuyeron sustancialmente con sus ideas y conocimiento
son Gustavo Kattan, Fernando Montealegre y Wilmar Bolivar.
Quiero ademas dar un especial agradecimiento a la Fundacion Alejandro Angel
Escobar por financiar parte de este proyecto y al Instituto Humboldt por proveer
las indispensables grabaciones de campo.
Finalmente, quiero agradecer a mi familia por el apoyo brindado en mis estudios.
Abstract
Bird monitoring based on avian sound analysis provide valuable information for scienceand conservation efforts. In Colombia, the Alexander von Humboldt Institute (IAvH) willperform an acoustic monitoring study on the moorland and high Andean forest, whichincludes over 500 hours of recordings. Due to the large amount of information, a greatchallenge of the project is to develop automated systems for data analysis. The purposeof this study is to compare the performance of different signal processing techniques todetect bird vocalizations on field recordings.
Three signal detection algorithms were selected and adapted: an energy threshold de-tector, a neural network (9 acoustic features) and a template matching approach (spectro-gram cross-correlation). Furthermore, a bandpass filter was implemented between 1 and 10kHz. From a database provided by the IAvH, 433 audio samples were extracted, 335 birdvocalizations and 98 interference sounds. 80 % of the samples were selected for trainingand algorithm development, and 20 % were used for testing purposes. Tow different testswere designed, the first was focused on estimating the sensitivity of the algorithms, andthe second to analyze their specificity.
Regarding the sensitivity test, the results showed that by varying signal-to-noise ratiofrom 30dB to 0dB, the best algorithm was the template matching with only 7.9 % ofdecrease on its performance, while the energy threshold algorithm showed 31.5 % and theneural network 49.5 %. On the specificity test, the performance was evaluated comparingthe results between a clean signal and a signal altered by interferences. The neural networkshowed to be the more robust against interferences with a decrease of only 2.3 % on theresults, followed by the template matching with 4.6 % and the last algorithm by far wasthe energy threshold with 58.2 %. By adding the bandpass filter, the results of the energythreshold and the neural network improved substantially. On average, the threshold energyperformance improved by 29.7 % and the neural network a 17.7 %. However, the templatematching had almost the same results by including the filter, it improved 1.9 %.
The energy threshold with the filter shown to be a good starting point for analyzing
the signals of the moor and the high-Andean forest, where interference is scarce. The
cross-correlation is an interesting alternative for being robust and is a method to be used
in stereotyped singing birds. Finally, the neural network technique, being more susceptible
to ambient noise, is not recommended for the IAvH studies. Thus, this comparative study
shows the advantages and disadvantages of each algorithm. Moreover, it clarifies how to
develop a robust module to both ambient noise and interferences.
Keywords: bird vocalization, acoustic field recordings, bioacoustics, digital filters, signal
detection.
Resumen
Los muestreos de avifauna basados en senales sonoras son procesos que proveen valiosainformacion para la ciencia y las acciones de conservacion ambiental. En Colombia, elInstituto Alexander von Humboldt (IAvH) realizara un proyecto sobre monitoreo acustico,que incluye mas de 500 horas de grabacion en los ecosistemas de paramo y bosque alto-andino. Debido a este gran volumen de informacion, uno de los grandes retos del proyectoes desarrollar sistemas automatizados para analizar los datos. El proposito de la presenteinvestigacion es comparar el desempeno de diferentes tecnicas de procesamiento de senales,para detectar vocalizaciones de aves en los registros sonoros del IAvH.
Se seleccionaron y adaptaron tres algoritmos de deteccion de senales: una tecnica ba-sada en umbral de energıa, una red neuronal (9 caracterısticas acusticas) y la tecnica detemplate matching (correlacion cruzada de espectrogramas). Ademas, se implemento unfiltro pasabanda entre 1 y 10 kHz. De una base de datos provista por el IAvH se sacaron433 cortes, 335 vocalizaciones y 98 interferencias. El 80 % de los cortes fueron seleccionadospara entrenamiento y desarrollo de los algoritmos, y el 20 % restante se dispuso para pro-bar el desempeno de los mismos. Se disenaron dos tipos de evaluacion, la primera enfocadaa estimar la sensibilidad de los algoritmos y la segunda para analizar su especificidad.
Respecto a la sensibilidad, los resultados mostraron que al variar la relacion senal/ruidode 30dB a 0dB, el mejor algoritmo fue el template matching al presentar una disminucionde solo 7.9 % en su desempeno, mientras que se observo un 31.5 % en el umbral de energıay un 49.5 % en las redes neuronales. En las pruebas de especificidad, al comparar losresultados obtenidos con una senal limpia y otra alterada con interferencias, se observa quetanto la red neuronal como el template matching variaron poco su desempeno, disminuciondel 2.3 % y 4.6 % respectivamente, por el contrario el rendimiento del umbral de energıacayo en un 58.5 %. Al adicionar el filtro pasabanda, los resultados del umbral de energıa yla red neuronal mejoraron sustancialmente en ambas pruebas. En promedio, el desempenodel umbral de energıa mejoro un 29.7 % y la red neuronal un 17.7 %. Sin embargo, eltemplate matching mantuvo casi el mismo desempeno al incluir el filtro, mejoro un 1.9 %.
El umbral de energıa junto con el filtro muestra ser un buen punto de partida para
analizar las senales del paramo y bosque alto-andino, donde las interferencias son esca-
sas. El template matching es un alternativa interesante por ser robusta y es un metodo a
emplear en aves con cantos estereotipados. Finalmente, la red neuronal, por ser la tecnica
mas susceptible al ruido ambiente, no es recomendable para los estudios del IAvH. Ası,
este estudio comparativo muestra las ventajas y desventajas de cada algoritmo. Ademas,
esclarece la manera de desarrollar un modulo que sea robusto tanto al ruido ambiente
como a las interferencias.
Palabras clave: vocalizacion de aves, registros sonoros de campo, bioacustica, deteccion
de senales, filtros digitales.
Capıtulo 1
Introduccion
Colombia es reconocida mundialmente por su biodiversidad. Hasta la fecha, se
han identificado mas de 1850 especies de aves y este numero sigue aumentado ca-
da ano. En ningun otro paıs en el mundo se ha registrado tal diversidad de aves
(Stattersfield et al., 2008). Las aves juegan un papel importante manteniendo el
equilibrio de un ecosistema; como insectıvoros, controlan las poblaciones de insec-
tos, como frugıvoros, ayudan a propagar semillas de plantas y como consumidores
de nectar son importantes polinizadores (Brandes, 2008). Ademas en casi todas las
culturas han sido fuente de inspiracion, devocion o companıa para el ser humano.
Las aves producen sonidos para diversas funciones biologicas tales como defender
su territorio, conseguir pareja y mantener contacto con miembros de su grupo social.
La gran mayorıa de aves tienen cantos o llamados que son caracterısticos de cada
especie. Por lo tanto, las vocalizaciones son una fuente de informacion que puede
ser usada para explorar la composicion y diversidad de aves en un area particular
de interes. En paıses tropicales como Colombia, donde el follaje limita la visibilidad,
estos sonidos son una forma eficiente para el monitoreo de las aves (Villarreal et al.
(2006), Parker (1991))
Avances en tecnologıa permiten tener sistemas automaticos que realicen graba-
ciones continuas de larga duracion (“long-term recording”). Estos son dispositivos
compuestos basicamente por un microfono, una grabadora de audio (sensor), una
fuente de energıa, un mecanismo para iniciar y terminar las grabaciones y algun tipo
de proteccion contra el agua y el medio ambiente. Los sensores proveen una forma
efectiva de acumular datos a gran escala y a alta resolucion. Pueden ser implemen-
tados para recolectar datos de forma no intrusiva, objetiva y continua a traves de
grandes areas por largos periodos de tiempo (Bardeli et al., 2010).
En Colombia, el Instituto de Investigacion de Recursos Biologicos Alexander
1
von Humboldt (IAvH) esta por desarrollar por primera vez un piloto de monitoreo
acustico automatizado. Este hace parte de un proyecto para evaluar las caracterısti-
cas de un habitat degradado y otro no degradado, en escalas temporales y espaciales
amplias. El total de horas de grabacion estimado del muestreo es de mas de 500
horas. Se iniciara en los municipios de Junin, La Calera y Choachı del departamento
de Cundinamarca, en el corredor de conservacion Chingaza, Corredor Guerrero, en
los ecosistemas de paramo y bosque alto-andino.
Dada la cantidad de datos, la implementacion de sistemas de grabacion automati-
cos crea la necesidad de desarrollar algoritmos que permitan facilitar el analisis de
la informacion capturada. Mediante el uso de tecnicas de procesamiento de senales
y reconocimiento de patrones, se puede identificar y discriminar los sonidos de in-
teres en registros acusticos de forma automatica. El proceso de reconocer senales se
divide en dos tareas sucesivas: deteccion y clasificacion de los datos. La deteccion
de senales consiste en identificar y separar sonidos estructurados de interes del fon-
do ruidoso. La clasificacion consiste en subdividir las senales detectadas en grupos
biologicamente relevantes.
Este trabajo se enfoca en la primera fase de un sistema de reconocimiento. Se
adaptaron algoritmos de deteccion de senales a grabaciones tomadas por el IAvH en
los ambientes de paramo y bosque alto andino. El objetivo es identificar y separar del
ruido de fondo los segmentos que contienen vocalizaciones de aves. Para establecer
la tecnica mas apropiada se diseno un modelo de pruebas para evaluar el desempeno
de las tecnicas mediante un estudio comparativo.
1.1. Relevancia del estudio en relacion con la
biodiversidad
La variedad de seres vivos, tipos de ecosistemas, procesos ecologicos e informa-
cion genetica presentes en una region se conoce tecnicamente como biodiversidad
(Castillo y Forrero, 2010). Esta proporciona una serie de servicios ambientales cru-
ciales, de los cuales depende la vida humana en el planeta. Colombia cuenta con una
riqueza envidiable de biodiversidad, sin embargo, ecosistemas de la region Andina
han permanecido relativamente inexplorados y algunos han desaparecido sin que se
conozcan siquiera sus caracterısticas basicas.
El estudio de la estructura de las comunidades de aves proporciona un medio
2
rapido, confiable y replicable de evaluacion del estado de conservacion de la mayorıa
de habitats terrestres y acuaticos (Villarreal et al., 2006). La presente investigacion
radica en explorar el desarrollo de nuevas herramientas que permitan optimizar el
proceso de monitoreo acustico de las aves.
Una variedad de metodos para el seguimiento y la evaluacion de las aves estan
disponibles Verner (1985), Bibby et al. (1992), Ralph et al. (1993) y tres tecnicas
ampliamente utilizadas son la captura por redes de niebla, los conteos de puntos
y los transectos. De estos, solo las redes de niebla no incluyen el uso de registros
acusticos. El analisis de las grabaciones es una tarea que demanda tiempo y esfuerzo
significativo y ademas requiere de personal calificado que pueda distinguir adecua-
damente la variedad de sonidos presentes en estas. Este problema se vuelve crıtico
cuando se tienen grabadoras autonomas como en el estudio del IAvH.
La implementacion de un algoritmo computacional que detecte las secciones de
interes en los registros sonoros permite analizar mayor cantidad de informacion de
forma mas rapida, liberando ası personal calificado y reduciendo los costos de las
investigaciones. Como el tiempo invertido en el analisis de los datos crudos se mini-
miza, los especialistas pueden enfocar su esfuerzo en el area de interes, obteniendo
un proceso mas eficiente. Ademas, se pueden tener estudios mas objetivos ya que el
algoritmo usa siempre los mismos parametros para general resultados, y por lo tanto
se tiene un proceso sistematico en el estudio de las grabaciones.
En el area de reconocimiento de patrones, la deteccion es una etapa previa para
construir un sistema autonomo de clasificacion. Muchos trabajos se han enfocado so-
lamente en la etapa de clasificacion de diferentes especies realizando la deteccion de
manera manual, algunos ejemplos son los trabajos de Chen y Maher (2006), Vallejo
et al. (2010), Adi et al. (2010). Sin embargo, para trabajar con grandes cantidades
de datos, estos sistemas necesitan incorporar un metodo adecuado de deteccion au-
tomatizado. Una deteccion imprecisa genera ruido en todo el sistema y por lo tanto
afecta los resultados de clasificacion (Fagerlund, 2004). El buen desempeno de esta
deteccion es un primer paso esencial para las subsiguientes partes del estudio, ya sea
manual o automatizado.
Herramientas para realizar investigaciones y muestreos mas rapidos y eficientes
de las aves, permitiran reconocer y evidenciar los efectos que el hombre genera en
el medio ambiente. Es por lo tanto necesario poner la ingenierıa al servicio de la
ciencia que estudia la biodiversidad, particularmente en un paıs megadiverso como
3
Colombia.
1.2. Contribucion de este proyecto
Como el procesamiento automatizado de registros sonoros es un campo relativa-
mente nuevo, gran parte de este trabajo es innovador. En este estudio se realizaron
los siguientes aportes:
Se investigaron revistas y publicaciones de diferentes laboratorios para presen-
tar un estado del arte en tecnicas para detectar senales bioacusticas.
Se examino una base de datos provista por el IAvH y se identificaron los
tipos de vocalizaciones encontrados. Por otro lado, se consultaron expertos
y bibliografıa para reconocer que interferencias se pueden encontrar en las
grabaciones de campo realizadas en el paramo y el bosque alto andino.
Se presentaron nueve caracterısticas acusticas, dos en el dominio del tiempo y
siete en el dominio de la frecuencia, que permiten discriminar las vocalizaciones
de aves del ruido ambiente y las interferencias.
Se implementaron tres algoritmos de deteccion de senales que fueron adap-
tados a encontrar vocalizaciones de aves. Primero, una tecnica que identifica
senales de interes trazando un umbral en la distribucion de energıa de la senal.
Segundo, una red neuronal artificial que fue entrenada con muestras de vocali-
zaciones de aves, ruido ambiente e interferencias. Tercero, un algoritmo que usa
la correlacion entre la senal grabada y una plantilla, entregando una funcion
de reconocimiento.
Se diseno un filtro digital pasabanda para reducir el ruido ambiente y la energıa
de las interferencias que no se encontraban en el rango de frecuencias de las
vocalizaciones de aves.
Se diseno un modelo de pruebas para evaluar el desempeno de los algoritmos
implementados. El modelo cuenta con cuatro senales que permiten medir la
sensibilidad y la especificidad de los detectores.
Las tecnicas implementadas son muy diferentes entre sı, lo cual hace que com-
pararlas sea difıcil. No obstante, se identificaron las fortalezas y debilidades de
los algoritmos analizando los resultados obtenidos en las pruebas disenadas.
4
1.3. Esquema del manuscrito
El presente trabajo de grado se organiza de la siguiente manera:
Capıtulo 2 : describe el contexto biologico en el cual se enmarca el problema de
ingenierıa, dando un breve repaso sobre las caracterısticas de la senal acustica y
sobre los ecosistemas de paramo y bosque alto-andino.
Capıtulo 3 : presenta la coleccion de sonidos con los cuales se baso este estudio
y muestra los tipos de vocalizaciones ası como el ruido ambiente y las interferencias
encontradas en esta base de datos.
Capıtulo 4 : expone una variedad de caracterısticas acusticas, tanto en el dominio
del tiempo como en el de la frecuencia, que permiten caracterizar y discriminar la
senal de interes en las grabaciones de campo.
Capıtulo 5 : primero presenta el estado del arte en algoritmos de deteccion de
senales. Despues explica detalladamente las tecnicas escogidas que fueron evaluadas
en los capıtulos posteriores.
Capıtulo 6 : explica cual fue el modelo de pruebas ideado para evaluar los algo-
ritmos, muestra y analiza los resultados obtenidos.
Capıtulo 7 : expone las conclusiones generales del trabajo de grado junto con
algunas posibles direcciones futuras que se derivan de la investigacion actual.
5
Capıtulo 2
Base teorica: biologıa
La ingenierıa provee las herramientas para facilitar el analisis de senales bio-
acusticas. Con el fin de adaptarlas adecuadamente, es importante comprender el
contexto en el cual se enmarca el problema a resolver. En este capıtulo, se pre-
sentaran algunas generalidades sobre la comunicacion acustica de las aves, luego se
exponen caracterısticas propias de los ecosistemas de paramo y bosque alto-andino,
lugares donde el IAvH proyecta hacer sus primeros estudios.
2.1. La comunicacion acustica en las aves
Las aves han desarrollado un sistema de comunicacion complejo que varıa con-
siderablemente entre las especies. Aunque este trabajo no se propone ahondar en
este tema, sı se mencionan algunos aspectos generales que son relevantes para esta
investigacion.
2.1.1. Anatomıa del organo vocal
Los organos responsables de la produccion del sonido en las aves son los pulmo-
nes, los bronquios, la siringe, la traquea, la laringe, la boca y el pico (Figura 2.1)
(Fagerlund, 2004). El flujo de aire de los pulmones se propaga a traves de los bron-
quios a la siringe. Este organo esta compuesto por varias membranas que vibran con
el paso del aire, generando sonidos. La variacion en el tono y frecuencia es contro-
lada por los musculos de la siringe que determinan la rigidez de estas membranas
(Mindlin y Laje, 2004). Entre mas musculos tenga la siringe, mas complejo puede
ser el canto del ave. Luego el aire llega a la traquea, un tubo entre la siringe y la
laringe, que actua como aparato resonador junto con la boca y el pico del ave. La
6
laringe en las aves no tiene cuerdas vocales como en seres humanos y parece jugar
un papel secundario en la produccion de sonido.
Chapter 2
Bird Sounds
2.1 Sound production mechanism
Main parts of sound production mechanism in birds are lungs, bronchi, syrinx, trachea,larynx, mouth and beak. Airflow from lungs propagates through the bronchi to the syrinx,which is the main source of sound. Sound from syrinx is then modulated by vocal tract,which consist of the trachea, larynx, mouth and beak. In figure 2.1 is presented schematicview of the mechanism. Dimensions of mechanism and parts of it varies considerablyamong different species, but organization is rather uniform.
Syrinx
Bronchi
Lungs
Larynx
Mouth Beak
Trachea
Figure 2.1: Parts and organization of the avian sound producing mechanism.
5
Figura 2.1: Mecanısmo de produccion de sonido en las aves (Fagerlund, 2004)
Esta es la estructura que da origen a una variedad de sonidos que se examinaran
en las siguientes secciones.
2.1.2. Las vocalizaciones de aves
Las aves vocalizan de diversas formas. Estos sonidos se deben estudiar para
entender las dificultades del analisis automatizado. Las vocalizaciones se dividen
usualmente en cantos y llamados. Los cantos estan mas desarrollados en las especies
pertenecientes al suborden Passeriformes, que cubre casi la mitad de todas las espe-
cies de la clase Aves. Sin embargo, las aves no-cantoras tambien usan sonidos para
comunicarse y estos sonidos son tan importantes como el canto en las Passeriformes
(Beckers et al., 2003).
El canto
En general, los cantos son vocalizaciones largas y complejas producidas de forma
espontanea por los machos. En unas pocas especies se escucha a las hembras cantar,
y a veces, las parejas forman duetos y combinan sus melodias.
7
Los cantos son producidos para atraer a una pareja o para marcar territorio. Las
hembras escogen a los machos con los cantos de mayor calidad. Es probable que
estos machos tengan las capacidades cerebrales mas desarrolladas, como la memoria
y la navegacion, por lo que vale la pena el apareamiento. Por otro lado, producir
canciones de alta calidad requiere la inversion de energıa que solo un macho en
buenas condiciones fısicas puede producir. Si la condicion corporal afecta la capa-
cidad de lucha, lo cual es bastante probable, entonces una cancion que refleja esta
caracterıstica indica que el individuo es fuerte y competitivo (Collins, 2004).
En los climas templados, las aves cantan principalmente durante la epoca de
reproduccion y algunas especies no vuelven a cantar durante el resto del ano. En
cambio, en paıses tropicales como Colombia, las aves cantan durante los 365 dıas
del ano. En ambas regiones, se puede observar que el pico actividad del canto es al
amanecer. Las aves que cantan al amanecer se benefician de un ambiente acustico
favorable: el sonido se refleja en las capas calidas superiores y viaja mas fuerte y
claro en el tunel de aire frıo que se crea en las primeras horas de la manana, donde
el viento y las turbulencias son reducidas (Slabbekoorn, 2004).
El llamado
Los llamados son generalmente cortos, monosilabicos y con un patron de frecuen-
cia simple (Marler, 2004). Los llamados son usados de manera practica y funcional:
para alertar la presencia de un predador, anunciar e intercambiar comida , o pa-
ra mantener la cohesion del grupo durante el desplazamiento. Los llamados estan
ligados a cuestiones inmediatas de vida o muerte, por lo tanto son emitidos por hem-
bras y machos durante todo el ano. Tanto las aves cantoras como las no-cantoras
tienen llamados, pero las primeras suelen tener un repertorio mas amplio a la hora
de comunicarse.
Division jerarquica
Tanto los cantos como los llamados pueden ser divididos en unidades basicas
llamadas sılabas. Las sılabas componen frases, y las frases canciones (Figura 2.2).
En esta investigacion se trabajara sobre la deteccion de estas unidades basicas.
8
Figura 2.2: Las divisiones jerarquicas de las vocalizaciones de aves: silaba, frase y canto(o llamado). Canto de Atlapetes pallidinucha.
2.2. Paramo y bosque alto-andino
En Colombia estos ecosistemas se ubican en la zona andina (cordilleras occiden-
tal, central y oriental) y en la Sierra Nevada de Santa Marta, a partir de los 2800
m.s.n.m. Poseen condiciones fisico-bioticas que los convierten en una fuente perma-
nente de agua, por lo tanto son literalmente de vital importancia. Ademas cuentan
con una gran capacidad de almacenamiento y captacion del carbono, convirtiendolos
en ecosistemas estrategicos. Sin embargo, a manos del hombre, estos sistemas son
de los mas afectados y alterados (del bosque alto-andino tan solo queda un 4 % de
lo que habıa). La ganaderıa, el efecto de quemas y la agricultura del monocultivo
tienen una fuerte influencia negativa sobre la captacion del agua y la biodiversidad
(Morales et al., 2007).
El paramo se encuentra a partir de los 3000 m.s.n.m. en el sistema montanoso
de Colombia. Tiene una temperatura media inferior a los 6 oC, pero la variacion de
temperatura durante el dıa y la noche es marcada; las fluctuaciones van desde el
punto de congelamiento, hasta los 30o C. Los paramos se conocen como el ‘tropico
frıo”, donde cada noche es un invierno y cada dıa un verano. A esta variacion de
temperatura, se le suma una humedad relativa entre el 80 y 98 %, y por lo tanto es
nublado y lluvioso, aunque hay horas de sol intenso. Cuando se presenta el sol intenso
9
a estas alturas, donde la capa de ozono es delgada y el oxıgeno escaso, llega una alta
radiacion ultravioleta. Por estas condiciones climaticas, el paramo se caracteriza por
su vegetacion enana y su limitada pero particular fauna. Los paramos se asemejan
a islas entre el bosque y por lo tanto son sistemas aislados que hacen que los seres
vivientes sean endemicos en estos ambientes (Morales et al., 2007).
El bosque alto-andino empieza alrededor de los 2800 m.s.n.m. y puede llegar
hasta los 3300 metros. Su vegetacion alcanza una altura de 8 a 20 metros con un
estrato de pequenos arboles y arbustos que tienen entre 3 y 10 metros. Es un am-
biente con humedad elevada y tiene como funcion la regulacion del flujo hıdrico que
desciende desde los paramos (Morales et al., 2007).
Las caracterısticas climaticas extremas dificultan la adaptacion de los seres vivos
y por lo tanto la diversidad biologica de estos ecosistemas es reducida en comparacion
con otros ambientes. Los paramos estan separados entre sı a manera de pequenas
islas, y segun la teorıa de la biografıa de islas, a menor tamano de la isla, menor
numero de especies (Morales et al., 2007).
La limitada diversidad animal de estos sistemas, se ve reflejada en los ambientes
acusticos que aquı se encuentran. Las aves, que en tierras bajas deben compartir
algunas frecuencias con otros animales, en el paramo encuentran poca competencia.
La gran mayorıa insectos y ranas que aprovechan el medio acustico para su comuni-
cacion, son nocturnos. Esto pareciera estar relacionado con niveles de depredacion
por aves y otros animales diurnos. Los insectos mas comunes que cantan de dıa
son las cigarras, langostas y saltamontes, y estos son escasos en los paramos (Co-
rreos Fernando Montealegre, 2012). De igual forma, las especies de ranas con habitos
diurnos viviendo a gran altura son pocas (Correos con Wilmar Bolivar, 2012).
10
Capıtulo 3
Registros sonoros del IAvH
Para adaptar los algoritmos y realizar las pruebas fue necesario contar con una
base de registros sonoros. Durante los ultimos anos el IAvH ha trabajado para conso-
lidar una coleccion de sonidos ambientales, herramienta clave para generar y mante-
ner activo el programa de monitoreo de avifauna en el paıs. Para el presente trabajo
se tomo una seleccion de esta base de datos, limitando el audio a ciertas especies
propias del paramo y bosque alto-andino. En este capıtulo se detallan las carac-
terısticas de dichas grabaciones. Por un lado se examina de forma general la primera
recopilacion, se presentan nuevos criterios de seleccion y se define una segunda y
definitiva base de datos. Luego se describen y se caracteriza tanto las vocalizaciones
como el ruido y las interferencias de esta ultima seleccion que servira para ajustar
los algoritmos y realizar las pruebas finales.
3.1. Base de datos
La base de registros sonoros provista por el IAvH es una coleccion de cantos
de aves de 39 especies propias del paramo y del bosque alto-andino, 350 cortes que
suman mas de ocho horas de audio. Cada archivo de audio esta etiquetado con
el nombre de la especie, subespecie y numero de grabacion. Un archivo contiene
varias vocalizaciones de uno o mas individuos de la especie y frecuentemente se
escuchan vocalizaciones de varias especies en una misma grabacion ya que estas
fueron tomadas en el campo y no en un ambiente controlado como un laboratorio.
11
3.1.1. Equipo de grabacion
El equipo necesario para realizar los registros se compone de una grabadora,
microfono, pantallas contraviento, casetes y soporte para microfono. A continuacion
se listan los equipos usados en las grabaciones del IAvH:
Grabadora: Marantz R© modelos PMD-201, PMD-222 y PMD-430.
Microfono: Sennheisser R© modelos ME-66 y ME-67, MKH-70.
Soporte para microfono: Sennheisser R© MZS-17.
Casetes analogos: TDK R© Profesional de 60 minutos.
Pantalla contra el viento: Sennheisser R© MZW-70, MZW-67, dependiendo del
microfono utilizado.
Especificaciones y detalles de estos equipos se encuentran en la tabla B.1 del
Apendice B.
3.1.2. Seleccion de audio
De las 39 especies y los 350 cortes, para esta investigacion se hizo una seleccion
del material de la siguiente manera:
Relacion senal a ruido : En las pruebas se deben controlar ciertas variables para
poder evaluar los algoritmos. Una de estas variables es el ruido ambiental, el cual
sera agregado artificialmente (Ver capitulo Modelo de pruebas). Es complejo manipu-
lar la senal para reducir el ruido ambiente, sin embargo este sı puede ser adicionado
facilmente. Por lo tanto se tomaron unicamente las grabaciones con relacion senal a
ruido superior a 20dB.
Coros de aves : Las grabaciones capturadas al amanecer y al atardecer, donde se
presenta el pico de actividad vocal en las aves, suelen contener muchos individuos
cantando al mismo tiempo y sus vocalizaciones se superponen. Tambien existen
especies de aves que suelen cantar en coro. Esta estructura caotica de los datos no
sera estudiada en este trabajo de grado. Solamente se trabajara con vocalizaciones
de aves que estan separadas la una de la otra por un silencio (ver Figura 3.1).
12
(a) (b)
Figura 3.1: Ejemplo de (a) estructura caotica de vocalizaciones superpuestas y (b) voca-lizaciones separadas
Distorsion del audio : Si la ganancia de entrada en el equipo de grabacion no es
ajustada correctamente, el amplificador se satura y los sonidos que sobrepasen cierto
umbral de amplitud seran recortados. Esta forma de distorsion modifica la forma de
la senal original significativamente y por lo tanto tampoco se trabajara con graba-
ciones que presenten este defecto.
Los registros fueron escuchados y analizados uno a uno para ser seleccionados.
Luego de este proceso, se obtuvo una base reducida con la cual se trabajo. La Tabla
3.1 muestra un resumen de su contenido, vocalizaciones de siete especies de aves
y dos tipos de interferencias. Las caracterısticas de estas senales se detallan en las
proximas secciones de este capıtulo.
3.1.3. Homogenizacion de los datos
Todas las grabaciones estan en formato sin compresion de datos extension WAV.
La mayor parte de los archivos tiene un solo canal (monoaural) que se obtienen
de digitalizar el audio de las cintas de casete analogas muestreando la senal de
audio a 44.1kHz y aplicando una cuantizacion lineal de 16 bits. Sin embargo se
encuentran algunas excepciones de archivos con informacion en dos canales (estereo)
y otros donde se ha realizado el muestreo a 48kHz. Con el fin de homogeneizar las
muestras, se uso el programa de edicion de audio digital Protools R© para convertir
los archivos excepcionales al mismo formato que la mayor parte de la base de datos:
13
Tipo de muestra No. de muestras
VOCALIZACIONESAcropternis orthonyx 58Atlapetes pallidinucha 57Atlapetes schistaceus 46Atlapetes torquatus 44Cinnycerthia unirufa 41Henicorhina leucophrys 52Penelope montagnii 37Total 335
INTERFERENCIASClicks y pops 54Voz humana 44Total 98
TOTAL MUESTRAS 433
Cuadro 3.1: Resumen de los segmentos seleccionados para este trabajo
senal monoaural con muestreo de 44.1kHz y cuantificacion de 16 bits.
3.2. Vocalizacion de aves en los registros
Las grabaciones del IAvH cuentan con audios etiquetados de 39 especies diferen-
tes de aves que se listan en el cuadro A.1 del Apendice. Sin embargo, si analizamos
elementos basicos como las sılabas, podemos simplificar tal diversidad. Analizan-
do uno a uno los diferentes cantos, se encontro que existen tres tipos diferentes de
sılabas: de frecuencia cuasi-constante, frecuencia modulada y pulsos en banda ancha.
3.2.1. Frecuencia cuasi-constante
Las sılabas o vocalizaciones de frecuencia cuasi-constante se caracterizan por
tener una variacion mınima en frecuencia y porque su energıa esta contenida en
una banda angosta, aproximadamente 500Hz. En la Figura 3.2 se puede observar un
ejemplo de este tipo de vocalizacion.
14
(a) Espectrograma (b) Espectro
Figura 3.2: Ejemplo de vocalizacion con frecuencia constante. Especie: Acropternis ort-honyx. Frecuencia: 2-3kHz
3.2.2. Frecuencia modulada
Tambien es frecuente encontrar cantos de banda angosta donde la frecuencia es
modulada en un rango amplio de frecuencias, mas de 3kHz (Figura 3.3).
(a) Espectrograma (b) Espectro
Figura 3.3: Ejemplo de vocalizacion compuesta por varias sılabas que modulan en fre-cuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz
3.2.3. Pulso en banda ancha
Aunque no tan frecuente como los anteriores, existen vocalizaciones que constan
de pulsos en banda ancha. (Figura 3.4).
15
(a) Espectrograma (b) Espectro
Figura 3.4: Ejemplo de vocalizacion en pulsos de banda ancha. Especie: Cinnycerthiaunirufa. Frecuencia: 1-12kHz
3.3. Ruido ambiental e interferencias
Analizando la seleccion de audios se encontraron diferentes tipos de interferencias
y un constante ruido de fondo. A continuacion se detallan sus caracterısticas.
3.3.1. Ruido ambiental
El ruido ambiental se encuentra en todas las grabaciones a diferentes intensi-
dades. Por un lado, el equipo de grabacion inevitablemente introduce ruido en la
grabacion, ya sea por su circuito electronico o por la cuantizacion al convertir la
senal de analoga a digital. Los valores de la relacion senal a ruido de los diferentes
equipos usados para las grabaciones del IAvH se encuentran en el Apendice B. Por
otro lado, el ruido ambiental puede ser producido por elementos naturales tales como
el paso de un rıo o una quebrada, el viento, la lluvia y el balanceo de la vegetacion.
En la Figura 3.5 se muestran cuatro representaciones de una muestra de rui-
do ambiente tomada de las grabaciones del IAvH. Se puede observar en la grafica
de dispersion que no existe una estructura definida, es decir que no existe una au-
tocorrelacion y que los datos son aproximadamente aleatorios. De las dos graficas
inferiores se nota una frecuencia de los datos en forma de campana y un patron
lineal en la grafica de probabilidad normal. Por lo tanto se puede constatar que la
distribucion normal es un buen modelo para estos datos.
En el dominio de la frecuencia (Figura 3.6), la amplitud es cuasi uniforme. Sin
16
Figura 3.5: Cuatro graficas especıficas de analisis exploratorio para una muestra de ruidoambiente. 1. Esquina superior derecha, secuencia de amplitud de las muestras en el tiempo.2. Esquina superior izquierda, dispersion de las muestras. 3. Esquina inferior derecha,histograma. 4. Esquina inferior derecha, grafico de probabilidad normal.
17
embargo, se observa que a bajas frecuencias el nivel aumenta exponencialmente. Este
fenomeno esta presente en todas las secciones de ruido ambiente en las grabaciones.
Tambien se detallan algunos picos a altas frecuencias que pueden ser producidos por
el error de cuantificacion.
(a) Espectrograma (b) Espectro
Figura 3.6: Ejemplo de ruido ambiental.
3.3.2. ‘Clicks’ y ‘pops’
Es frecuente encontrar en los registros sonoros interferencias que se caracterizan
por descargar gran cantidad de energıa en un lapso breve de tiempo (10-50ms) y en
banda ancha (1-15kHz). A estas interferencias se le denomina en la literatura como
‘clics’ y ‘pops’ y son la suma de varios factores. Los microfonos de condensador
son fragiles y la humedad puede provocar pequenas descargas electricas entre las
placas del condensador generando estas interferencias. En ocasiones, estos sonidos
son simplemente producto del choque del microfono con la vegetacion o el entorno.
En otros casos, resultan por tener un mal contacto entre los cables de la grabadora y
el microfono. En el resto de este documento se hara referencia a estos sonidos como
interferencias de tipo I2. Ver Figuras 3.7 y 3.8.
3.3.3. Voz humana
En las grabaciones de campo se suele agregar un comentario durante el registro
indicando la hora, la fecha, localidad, coordenadas, y detalles del ave que se esta re-
gistrando (determinacion taxonomica, ubicacion del individuo respecto al bosque,
18
(a) Espectrograma (b) Espectro
Figura 3.7: Ejemplo de click
(a) Espectrograma (b) Espectro
Figura 3.8: Ejemplo de una interferencia producida por el movimiento del microfono
actividad observada, entre otros). Esta informacion no es de interes para ser detec-
tada y por lo tanto se considera como interferencia.
El sonido emitido por las cuerdas vocales es rico en armonicos. Aunque la fre-
cuencia suele variar con el interlocutor, en las grabaciones se observa que el rango
de energıa que ocupa en la senal se concentra a bajas frecuencias, entre los 20Hz a
1kHz. Sin embargo, algunos fonemas, como el /s/, muestran energıa a altas frecuen-
cias (Figura 3.9).
19
(a) Espectrograma (b) Espectro
Figura 3.9: Ejemplo de voz humana
20
Capıtulo 4
Caracterısticas en senales de audio
La seleccion y extraccion de caracterısticas, como en muchos problemas de reco-
nocimiento de patrones, es un paso muy importante en el analisis de senales sonoras.
En este capıtulo, se presentan algunas caracterısticas de audio que permiten diferen-
ciar las vocalizaciones de las aves del ruido ambiente e interferencias. Las siguientes
caracterısticas han sido usadas comunmente en problemas de clasificacion de audio
(Giannakopoulos, 2009), reconocimiento tımbrico musical (Zhang y Ras, 2007) y en
bioacustica (Fagerlund, 2004).
4.1. Procesamiento de corto plazo en senales de
audio
Las grabaciones de campo son senales estadısticamente no-estacionarias ya que
sus componentes frecuenciales varıan con el tiempo. Es necesario realizar un proce-
samiento a corto plazo, dividiendo la senal en ventanas y calculando la caracterıstica
en cada una. Definiendo ventanas que representan una fraccion de la senal estudiada,
se logra tener un proceso quasi-estacionario. El tamano de la ventana debe ser lo
suficientemente largo para poder extraer informacion de la senal, pero lo suficiente-
mente corto para que se pueda considerar como estacionario. En reconocimiento de
voz y procesamiento de audio, se usa comunmente una ventana de entre 10 y 50ms.
Observando que las vocalizaciones mas cortas son de unos 60ms, se decidio calcular
las caracterısticas con ventanas de un tercio de este mınimo, 20ms. Es importante
tener en cuenta que al aplicar la transformada de Fourier a un ventana cuadrada, su
resultado es afectado por el fenomeno de Gibbs. En el presente trabajo se uso una
ventana de Hamming para suavizar las discontinuidades y ası minimizar la distorsion
21
Figura 4.1: Ejemplo de valores obtenidos de Spectral Centroid en una senal que contienevocalizaciones de aves e interferencia de tipo I2
en la senal.
4.2. Caracterısticas frecuenciales
Para las siguientes ecuaciones, se tomara Xi(k), k = 1..., N, como los coeficientes
obtenidos por la Transformada Discreta de Fourier (DFT por sus siglas en ingles)
de la i-esima trama, donde N representa la longitud de la ventana.
4.2.1. Centroide espectral
El centroide del espectro es el “centro de gravedad”del espectro. Esta carac-
terıstica esta asociada, en terminos de percepcion humana, al brillo del sonido. Se
calcula de la siguiente forma:
Ci =
∑Nk=1(k + 1)Xi(k)∑N
k=1Xi(k)(4.1)
Esta caracterıstica puede ayudar a diferenciar la interferencia de tipo I2 de una
vocalizacion de un ave ya que estas interferencias suelen introducir energıa en altas
frecuencias (Figura 4.1).
22
Figura 4.2: Ejemplo de valores obtenidos de Spectral Rolloff en una senal que contieneuna vocalizacion de un ave y ruido ambiente.
4.2.2. Spectral Rolloff
El Spectral Rolloff representa la frecuencia en la cual cierto porcentaje (usual-
mente c = 80-90 %) de la magnitud del espectro esta concentrada. Es decir, que para
el coeficiente m-esimo de la DFT, correspondiente al punto de spectral rolloff del
i-esimo cuadro, la siguiente ecuacion es valida:
m∑k=1
Xi(k) =c
100
N∑k=1
Xi(k) (4.2)
Es una medida de la forma del espectro y puede ser usada para diferenciar vo-
calizaciones de aves y el ruido ambiente. En la Figura 4.2, se presenta un ejemplo
de las diferencias entre los valores obtenidos. El valor medio es menor donde existen
vocalizaciones, mientras que es mas elevado cuando se presenta ruido ambiente.
4.2.3. Spectral Flux
Esta caracterıstica mide cambios locales del espectro entre dos ventanas sucesi-
vas, se define como la diferencia de cuadrados de las magnitudes normalizadas de
dos espectros entre estas ventanas.
23
F (i) =N∑k=1
(Ni(m)−Ni−1(m))2 (4.3)
Donde, Ni(m) es la magnitud normalizada (con relacion a su valor maximo) del
respectivo coeficiente de la DFT en la i-esima trama.
4.2.4. Entropıa Espectral
La entropıa espectral se calcula dividiendo el espectro en L sub-bandas. La
energıa Ef de la banda f, es normalizada respecto al total de la energıa en todas las
bandas: nf =Ef∑L−1
f=0 Ef. La Entropıa de la energıa espectral normalizada n se obtiene
a partir de:
SE = −L−1∑f=0
nf .log2(nf ) (4.4)
4.2.5. Ancho de banda
El ancho de banda esta definido como el ancho de la banda de frecuencia alrededor
del centro del espectro. Se calcula con la siguiente ecuacion:
BW =
√∑Nk=0(n− SC)2|X(k)|∑N
k=0 |X(k)|2(4.5)
Donde SC es el espectro centroidal dado en la ecuacion 4.1.
4.2.6. Frecuencia pico
Esta sencilla caracterıstica simplemente toma del espectro el coeficiente de la
DFT en el cual se presente la mayor cantidad de energıa. Como la voz humana
esta principalmente en rangos de frecuencia mas bajos que las vocalizaciones de
aves, esto nos permite discriminar algunos de estos sonidos. En la Figura 4.3 se
observa como cambia esta caracterıstica con los diferentes tipos de muestras.
4.2.7. Spectral Flatness
Esta caracterıstica mide que tan tonal es el sonido. Da un valor bajo para sonidos
ruidosos y valores mas elevados para sonidos vocalizados. Spectral Flatness es la
24
Figura 4.3: Ejemplo de valores obtenidos del pico de frecuencia en una senal que contieneuna vocalizacion de un ave y voz humana yuxtapuestas.
razon entre la media geometrica y la media aritmetica de la senal, se obtiene en dB
con la siguiente ecuacion:
SF = 10log10Gm
Am
(4.6)
Donde Gm = (∏M
i=0 |Xi|)1M es la media geometrica y Am = 1
M
∑Mi=0 |Xi| es la
media aritmetica. M es la mitad del valor de la DFT.
4.3. Caracterısticas temporales
Estas caracterısticas se extraen directamente del dominio del tiempo y represen-
tan cambios en la energıa de la senal. Por lo tanto pueden ser usadas para discriminar
senales de audio en base a diferencias de energıa. Estas caracterısticas ofrecen una
forma facil y de baja complejidad computacional de analizar senales de audio. No
es necesario aplicar una transformada de Fourier y por lo tanto se evita el fenomeno
de Gibbs.
25
4.3.1. Energıa
Sea xi(n), n = 1, ..., N las muestras de audio de la i-esima trama, de tamano N .
Entonces para cada trama i la energıa es calculada de acuerdo a siguiente ecuacion:
E(i) =1
N
N∑n=1
|xi(n)|2 (4.7)
Esta caracterıstica puede ser usada para identificar silencios en la grabacion y
ademas para discriminar entre diferentes clases de audio.
4.3.2. Tasa de cruce por cero
La tasa de cruce por cero (ZCR, por sus siglas en ingles) representa la cantidad
de veces que la senal cambia de signo, de positivo a negativo y vice versa, por unidad
de tiempo. Se define en la siguiente ecuacion:
ZCR(i) =1
2N
N∑n=1
|sgn[xi(n)]− sgn[xi(n− 1)| (4.8)
donde sgn() es la funcion:
sgn[xi(n)] =
{1, xi(n) ≥ 0
−1, xi(n) < 0
Esta caracterıstica mide el nivel de fluctuaciones aleatorias en la senal. Por lo
tanto puede ser implementada para discriminar los sonidos de las aves de ambientes
ruidosos, como la lluvia y el correr de un rıo. El ruido ambiente tendra valores mas
altos de ZCR que una vocalizacion de un ave.
26
Capıtulo 5
Algoritmos de deteccion
Los algoritmos de deteccion de senales tienen como objetivo encontrar en una
senal secciones de interes. En la primera parte de este capıtulo se presentan diversas
alternativas para detectar senales en registros sonoros que han sido implementadas
anteriormente. Luego, se explica detalladamente los algoritmos seleccionados para
la deteccion de vocalizaciones de aves en los registros sonoros del IAvH, estos seran
evaluados en los capıtulos siguientes.
5.1. Estado del Arte
La deteccion de audio se basa en la evaluacion de cambios en las caracterısticas
de la senal. Las diferentes alternativas se presentan, como en todo problema de
clasificacion, en las caracterısticas y el clasificador seleccionados. Se describen a
continuacion, diversos estudios que tienen como objetivo detectar una senal de audio
de interes en registros sonoros.
5.1.1. Umbral de energıa
Ya que las vocalizaciones de aves son eventos sonoros que se destacan del ruido
ambiente por tener mayor amplitud, se desarrollo una tecnica de bajo costo compu-
tacional a partir del calculo de cambios en la energıa en la senal. El principio es
simple, las secciones de la senal en las cuales el nivel de energıa sobrepasa un um-
bral preestablecido son definidas como senal de interes. Esta tecnica ha sido usada
en el procesamiento del habla para eliminar silencios y ruido ambiente, ubicando el
principio y final de secciones de voz (Rabiner y Sambur, 1975) y (Giannakopoulos,
2009). Aplicado al estudio de las aves, Fagerlund (2004) y Somervuo et al. (2006)
27
usaron este algoritmo para identificar y segmentar las sılabas en cantos de aves. Por
su velocidad de ejecucion, fue implementado en aplicaciones de tiempo real para mo-
nitorear aves (Trifa, 2006) y marmotas (Ali et al., 2007). Por ultimo, cabe agregar
que actualmente esta tecnica ha sido incorporada a un software comercial que es
usado por la comunidad cientıfica: Avisoft Bioacustics (http://www.avisoft.com/).
El software permite al usuario escoger el umbral de energıa y ası una senal con varias
vocalizaciones es segmentada.
5.1.2. Maquinas de aprendizaje
Aunque existen varios tipos de maquinas de aprendizaje, el principio sobre el cual
se basan es el mismo. Se divide la senale de audio en pequenas ventanas de tiempo
(10-50ms) y se calcula una serie de caracterısticas. Luego, estas caracterısticas son
usadas para entrenar y crear modelos de la senal a clasificar. Las maquinas de
aprendizaje se basan en la valides de estos modelos, derivados de los ejemplos de
entrenamiento.
Esta tecnica ha sido usada para detectar vocalizaciones de variedad de fauna.
Skowronski y Harris (2006) emplearon modelos de mezclas gaussianas para detectar
y clasificar vocalizaciones de murcielagos. Neal et al. (2011) uso Random Forest, que
consiste en varios arboles de decision, para el analisis visual de espectogramas con
el fin de identificar vocalizaciones de aves. Erbe et al. (1999) adapto un modelo con
redes neuronales artificiales (RNA) para identificar el canto de ballenas en el oceano
artico. El doctor Chesmore, tambien empleo las RNA para reconocer cuatro especies
de insectos en un ambiente con altos niveles de interferencia (Chesmore (2004)).
5.1.3. Template matching
Esta es un tecnica de procesamiento digital de senales que tiene por objetivo
encontrar lugares en la senal que sean iguales o similares a un patron de referencia,
un template, una plantilla. Template matching es comun en reconocimiento de voz,
alineamiento de secuencias moleculares y sobre todo en procesamiento de imagenes.
Existen muchas formas de aplicar esta tecnica y libros enteros dedicados a este tema
se han publicado. Una alternativa usada ampliamente es la correlacion de senales,
una operacion matematica que entrega una medida de similitud entre senales. La
correlacion usa dos senales para producir una tercera llamada correlacion cruzada.
Teniendo una senal de referencia que sı se conoce (una plantilla) y una senal desco-
nocida, la amplitud de la correlacion cruzada presenta picos cada vez que la plantilla
28
encuentre una correspondencia en la senal desconocida. Trabajando con espectro-
gramas y aplicando esta tecnica Munger et al. (2005) y Mellinger y Clark (2000)
estudiaron registros sonoros del Pacıfico Norte buscando la presencia de cantos de
ballena en grabaciones de larga duracion.
5.2. Constant False Alarm Rate (CFAR)
A partir de un estudio en el estado del arte, se encontro que varias investigaciones
habıan usado, por su sencillez y bajo costo computacional, un algoritmo basado en
la evaluacion de cambios en el nivel de energıa de la senal.
El algoritmo CFAR ha sido usado previamente en diversas aplicaciones y fue
adaptado por Trifa (2006) para detectar vocalizaciones de aves. Basicamente, es-
te algoritmo identifica segmentos con energıa pronunciada en una senal de audio.
El algoritmo primero calcula la distribucion estadıstica de la cantidad de energıa
durante N muestras consecutivas (Se asume que el ruido ambiental sigue una distri-
bucion normal N(µ, σ2)). Con este estimativo, se define un umbral µ+ βσ, es decir
β desviaciones estandar por encima de la energıa media.
El registro sonoro se divide en ventanas de 20ms y se calcula en cada una su
nivel de energıa (Ecuacion 4.8). Las secciones de la senal donde la energıa sobrepasa
el umbral anteriormente definido, se considera como una vocalizacion de un ave.
Ademas, se integra una caracterıstica temporal, la longitud mınima del segmento
lvoc = 40ms, que permite discriminar algunos sonidos que tambien presentan niveles
altos de energıa como ‘clicks’ y ‘pops’. Ası, un evento debe ser de alta energıa y tener
una duracion mınima de 40 milisegundos para ser identificado como una vocalizacion
de ave.
El diagrama de flujo del algoritmo se presenta en la Figura 5.1. Primero, el
calculo de la energıa en ventanas se guarda en el vector E y se inicializa la variable
curpos (“current position”) donde se tiene el registro de la posicion de E que se
esta evaluando. Esta variable va incrementando en cada ciclo y ası se recorre todo
el vector. Tambien se inicializa en cero la variable lseg donde se anota la longitud
de los segmentos de energıa pronunciada. Luego, se compara el valor de E en un
instante de tiempo (Ei) con el valor del umbral, si la energıa no sobrepasa dicho
umbral, simplemente se evalua la siguiente posicion del vector. En el momento que
la energıa supera el umbral, se levanta la bandera onset y se empieza a registrar la
longitud del segmento. El ciclo se repite hasta tener de nuevo la energıa por debajo
29
del umbral. Cuando esto sucede, se evalua la longitud del segmento y si es mayor a
lvoc, se guarda el principio y final de la seccion (variables init y end) en la matriz
limits. Al finalizar el recorrido por el vector, se imprimen los resultados y termina
el programa.
Figura 5.1: Diagrama de flujo del algoritmo CFAR
5.3. Red Neuronal Artificial
Las redes neuronales artificiales (RNA), como su nombre lo indica, son modelos
computacionales inspirados en las redes neuronales biologicas. Por su habilidad de
‘aprender’ a partir de ejemplos y su versatilidad, han sido usadas en diversas areas.
En este trabajo de grado, se implemento una RNA como un clasificador binario de
senales de audio. Detalles del funcionamiento de una RNA se pueden encontrar en
Caicedo y Lopez (2009). Para implementar la red, entrenar y ajustar sus parametros
se uso el paquete de MATLAB PRTools desarrollado por el grupo de investigacion
DelftPR (van der Heijden et al., 2004).
30
5.3.1. Modelo general de la red
Para enfrentar el problema de detectar vocalizaciones de aves, se tomo como
modelo general la red mas comunmente usada. Se trata de una red perceptron multi-
capa feed-forward. En esta red, la informacion se mueve en una sola direccion, hacia
adelante, es decir que no tiene ciclos ni retroalimentacion. La red posee tres niveles
de neuronas, el primero es el de entrada, luego viene un nivel de capa oculta y fi-
nalmente una capa de salida. La funcion que activa las neuronas de la capa oculta
es sigmoidal, mientras que en la salida se tiene una funcion lineal (Figura 5.2). La
seleccion del numero de neuronas y las caracterısticas de entrada se explican en la
seccion 5.3.3.
Figura 5.2: Modelo de la red perceptron multicapa implementada.
5.3.2. Metodo de entrenamiento
La RNA, como otras maquinas de aprendizaje, opera en dos fases, la fase de
entrenamiento y la fase operacional. En la primera, muestras de las vocalizaciones
que deben ser identificadas (ejemplares) son usadas para entrenar la RNA. Mediante
una serie de muestras y asignacion de salida deseada, los pesos sinapticos de la red
neuronal se van modificando con el fin de crear una red que minimize el error en la
salida. Como algoritmo de entrenamiento se utilizo un metodo de amplia difusion
llamado Backpropagation.
31
Para entrenar la red, se le presentaron 257 vocalizaciones de aves que corres-
ponden a 54 segundos de audio. Como ejemplares de ruido se le presento a la red
diversas fuentes de interferencias y ruido ambiente que sumadas completan 57 se-
gundos de audio. Las muestras de ruido se dividen en 40 segundos de ruido rosado,
41 interferencias de ‘clicks’ y ‘pops’, y 35 segmentos con voz humana. El total de
las muestras se sumo para formar un unico archivo de audio de donde se calcularon
las caracterısticas acusticas en ventanas de 20 milisegundos. De esta forma, cada
objeto de la red neuronal es una porcion de audio de 20 milisegundos definida con
las caracterısticas calculadas.
5.3.3. Ajuste de parametros
Una vez entrenada la red, es necesario ajustar algunos parametros para opti-
mizar su funcionamiento. En esta investigacion, se trabajo en la seleccion de las
caracterısticas y en el numero de neuronas en la capa oculta.
Para determinar el numero de neuronas en la capa oculta se realizo una validacion
cruzada en diferentes valores de este parametro. Se divide el total de los datos de
entrenamiento en cinco secciones complementarias, se entrena con cuatro secciones y
se valida con la restante. El procedimiento se repite para que cada seccion pase a ser
la de validacion. El resultado se muestra en la Figura 5.3. Aunque la grafica muestra
una figura con muchas irregularidades, se observa que existe un mınimo al usar 40
neuronas. Este fue el numero seleccionado para las pruebas de esta investigacion.
Las caracterısticas de audio se analizaron en primer lugar mediante un analisis
exploratorio. Se represento en una matriz cuadrada de nueve filas por nueve columnas
la combinacion de todas las parejas de caracterısticas posibles, y en cada elemento
de esta matriz se dibujo un grafico de dispersion. Observando visualmente uno por
uno los elementos de esta matriz, se determino que todas las caracterısticas eran
relevantes. Para corroborar este resultado, se examinaron las caracterısticas con el
algoritmo Branch and bound (van der Heijden et al., 2004). Este algoritmo tiene como
objetivo encontrar el subset de caracterısticas que presentan el mejor desempeno (el
tamano del subset es definido por el usuario). Como entrada se le presento el conjunto
con las nueve caracterısticas y se fue variando el tamano del subconjunto de salida,
de dos a nueve caracterısticas. Usando uno de los clasificadores mas sencillos, un K-
vecinos con K = 1, se comparo el desempeno de cada uno de estos subconjuntos y se
encontro que el mejor resultado se obtenıa con el conjunto total de caracterısticas.
32
Figura 5.3: Validacion cruzada de cinco a cien neuronas con incrementos de cinco uni-dades.
Por lo tanto ninguna de las nueve caracterısticas fue descartada.
5.4. Template Matching (TM)
Esta tecnica de deteccion de senales ha sido desarrollada ampliamente para pro-
cesamiento de imagenes. En los artıculos mencionados sobre la busqueda de cantos
de ballenas, se trabaja sobre los sonogramas y la correlacion se hace sobre imagenes.
El mismo principio se implemento para las vocalizaciones de aves en los registros
de campo. La Figura 5.4 muestra un diagrama explicativo de como se adapto esta
tecnica.
5.4.1. El espectrograma
Para aplicar las tecnicas del procesamiento de imagenes, es necesario transformar
la senal de audio en una imagen. Esto se hace calculando la transformada discreta
de Fourier (DFT) en pequenas ventanas de tiempo, y yuxtaponiendo los resultados
de la magnitud de cada coeficiente, i.e. los espectros de potencia de cada trama, se
crea una matriz. Este procedimiento se conoce como short-time Fourier transform
(STFT). El valor de cada elemento de la matriz define la intensidad del pixel de la
33
Figura 5.4: Diagrama del algoritmo template matching
imagen, teniendo en el eje horizontal el tiempo y en el eje vertical la frecuencia. Al
generar un espectrograma, los parametros que definen la imagen son: tamano de la
FFT, tamano de la trama, tipo de ventana y porcentaje de solapamiento. Con el
fin de obtener un balance entre resolucion temporal, resolucion espectral y ancho de
banda del espectrograma, se tomaron 512 puntos para la FFT, una trama de 512
puntos, una ventana tipo Hamming y un solapamiento de 75 % entre tramas.
5.4.2. La plantilla
Para la plantilla se probaron dos opciones. La primera fue la de crear una plan-
tilla artificial a partir del metodo implementado por Mellinger y Clark (2000), y
la segunda fue la de tomar una vocalizacion de la base de datos que presentara
una buena relacion senal a ruido. Se realizaron pruebas con ambas plantillas y se
observo que la plantilla artificial producıa mas ruido en la salida que la plantilla
natural (ver Figura 5.5). Por lo tanto se selecciono la plantilla natural.
34
Figura 5.5: Comparacion de resultados obtenidos en la correlacion con el template arti-ficial y con el template natural.
5.4.3. Procesamiento de la senal de salida
La correlacion entrega un curva que indica que tan similar son las senales. La
salida es una curva con picos, donde esta la senal buscada, y valles donde no hay senal
de interes. Como estamos buscando segmentar esta senal, la salida de la correlacion
debe ser procesada. En primer lugar se trazo un umbral en la salida normalizada de
0.5 y se buscaron picos que sobrepasaran dicho umbral. Luego se busco el principio y
final del segmento. El tiempo en la funcion de reconocimiento donde se tiene un pico
coincide con el comienzo de una vocalizacion; la longitud de la plantilla nos indica
la longitud del segmento. De esta forma la funcion de reconocimiento se convirtio en
una secuencia de deteccion de eventos discretos.
5.5. Filtro pasabanda
Un filtro digital permite atenuar la energıa de la senal en frecuencias que no son
de interes. Las aves vocalizan en un rango de frecuencias limitado y por lo tanto
se estima que la adicion de un filtro para pre-procesar la senal puede mejorar el
desempeno de los algoritmos de deteccion.
De la base de datos seleccionada se analizo el rango de frecuencias de las voca-
lizaciones y se observo que la frecuencia mas baja es 1.2 kHz y la mas alta 9.3kHz.
Con el fin de eliminar informacion de la senal que no es de interes, se implemento un
35
filtro pasabanda con las siguientes especificaciones:
Frecuencia de rechazo baja Ws1 = 0.8kHzFrecuencia de paso baja Wp1= 1kHzFrecuencia de paso alta Wp2 = 10 kHzFrecuencia de rechazo alta Ws2 =11kHzAtenuacion en la banda de paso Rp = 1dBAtenuacion en la banda de rechazo Rs =30dB
Por su estabilidad y porque no se tienen limitaciones de memoria se decidio im-
plementar un filtro de respuesta finita al impulso (FIR, por sus siglas en ingles).
Se probaron tres metodos diferentes: diseno por ventanas, muestreo en frecuencia y
aproximacion de Chebyshev. Los resultados con la aproximacion de Chebyshev pre-
sentaron un sobrepico anormal (de mas de 60dB) en la banda de transicion (entre
10 y 11kHz) y por lo tanto este filtro se descarto en primer lugar. Luego se tabu-
laron los resultados (Tabla 5.1) del filtro disenado por ventanas y el de muestreo
en frecuencia. La respuesta del filtro de muestreo en frecuencia se acerca mas a las
especificaciones de diseno y por consiguiente se implemento en la fase de pruebas de
los algoritmos de deteccion. La respuesta impulsional y la respuesta en frecuencia
de este filtro se muestra en la Figura 5.6.
ATENUACION (en dB)
FRECUENCIA Esp. de diseno Muestreo en frecuencia Diseno por ventanas
Ws1 -30 -18.1317 -11.2941Wp1 1 -0.7311 -1.2215Wp2 1 -0.3598 -0.0122Ws2 -30 -38.8774 -57.2667
Cuadro 5.1: Resultado de los filtros obtenidos mediante dos tecnicas diferentes: el mues-treo en frecuencia y diseno por ventanas.
36
(a)
(b)
Figura 5.6: Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR disenadopor muestreo en frecuencia.
37
Capıtulo 6
Pruebas y resultados
Con el fin de evaluar el desempeno de los algoritmos se realizaron pruebas sis-
tematicas de sensibilidad y especificidad. En la primera parte de este capıtulo se
detalla el modelo de pruebas disenado para la evaluacion. En segundo lugar, se
muestran y analizan los resultados obtenidos.
6.1. Modelo de pruebas
Para controlar variables y tener certeza sobre los resultados ideales de la de-
teccion, se usaron senales de prueba artificiales y no grabaciones de campo reales.
Primero, se obtuvieron las vocalizaciones y las interferencias tomando secciones de
los registros del IAvH. De esta forma se pudo determinar con certeza el comienzo
y final de las vocalizaciones. Por otro lado, como se necesitaba manejar la relacion
senal a ruido, el ruido ambiente (ruido rosado) se sintetizo por computador. Se ge-
neraron numeros aleatorios con distribucion normal (µ = 0, σ = 1) y se le aplico un
filtro pasa bajos para simular la respuesta en frecuencia del ruido ambiente observa-
do en las grabaciones (Seccion 3.3.1). Los registros sonoros artificiales se componen
de mezclar las vocalizaciones, interferencias y ruido rosado de diferentes formas.
El desempeno de un detector se evalua con dos variables estadısticas: la sensi-
bilidad y la especificidad. La sensibilidad indica la capacidad del algoritmo de dar
como positivo los segmentos de audio donde realmente existe una vocalizacion de un
ave. En casos donde no se identifica, se tiene un “falso negativo”. Por su parte, la
especificidad indica la capacidad del algoritmo de dar como negativo los segmentos
de audio donde se tiene ruido ambiente o una interferencia. Se tiene un “falso po-
sitivo” si estas secciones se clasifican como sonidos de aves. La relacion entre estos
38
terminos se observa en las ecuaciones 6.1 y 6.2.
Sensibilidad =V P
V P + FN(6.1)
Donde V P es verdaderos positivos y FN falsos negativos.
Especificidad =V N
V N + FP(6.2)
Donde V N es verdaderos negativos y FP falsos positivos.
Con estas variables en mente se idearon dos tipos de pruebas. La Prueba I esta en-
focada a estimar la sensibilidad de los algoritmos. Se compone de segmentos con
vocalizaciones de diversas aves inmersas en ruido ambiente variable (no se incluye
ninguna interferencia). Para esto, se crearon tres registros sonoros con diferentes
relaciones senal a ruido: 30dB, 15dB y 0dB. La Prueba II examina la especificidad
de los algoritmos. Se construye combinando en una senal vocalizaciones de aves e
interferencias (‘clicks’, pops’ y voz humana). Se adiciona ruido rosado leve (SNR
= 30dB) para simular el inevitable ruido ambiente en los registros sonoros, pero
la relacion senal a ruido se mantiene constante. Las Figuras 6.1 y 6.2 ilustran este
proceso.
Figura 6.1: Esquema de la elaboracion de senales para la Prueba I. A una senal con vo-calizaciones de aves se le agrega ruido ambiente a diferentes niveles para obtener diferentesvalores de SNR.
39
Figura 6.2: Esquema de la elaboracion de las senales para la Prueba II. Se toma unasenal con vocalizaciones de aves y se le agregan interferencias.
6.2. Resultados
El detector basado en Template Matching, es un detector que busca un tipo de
canto especıfico en las grabaciones. Para comparar adecuadamente su desempeno
con los otros detectores se decidio realizar una senal de prueba compuesta por vo-
calizaciones de Acropternis orthonyx. Esta especie produce sus cantos de manera
innata, es decir que sus vocalizaciones son estereotipadas. Para cada tipo de prueba
(Prueba I y Prueba II) se tiene: una senal base con las 7 especies y otra senal solo
con sonidos de Acropternis orthonyx. Por otra parte, para evidenciar el efecto que
puede tener el filtro pasabanda en los algoritmos de deteccion, se realizaron todas las
pruebas sin filtro para luego repetirlas adicionando el filtro. Para evitar confusiones,
las pruebas se numeraron de la siguiente manera:
PRUEBA I PRUEBA II
SIN FILTROTodas las especies Prueba Ia Prueba IIaSolo Acropternis orthonyx Prueba Ib Prueba IIb
CON FILTROTodas las especies Prueba Ia-FIR Prueba IIa-FIRSolo Acropternis orthonyx Prueba Ib-FIR Prueba IIb-FIR
Cuadro 6.1: Numeracion de las pruebas
La curva ROC (acronimo de Receiver Operating Characteristic, o Caracterıstica
Operativa del Receptor) de cada algoritmo se trazo tomando los umbrales mınimo
y maximo, donde se producen cero falsos negativos y cero falsos positivos respecti-
vamente, y luego calculando la salida en 100 umbrales linealmente espaciados entre
estos extremos. Para cuantificar el desempeno de los detectores, el tiempo se dis-
cretizo en tramos de 20 milisegundos. Los detectores determinan si al menos una
40
fraccion de una vocalizacion ocurre en cada tramo. Este resultado se compara con
la salida ideal dada por los segmentos de vocalizacion en la senal de prueba.
6.2.1. Pruebas sin filtro
41
Prueba Ia. La Figura 6.3 muestra las curvas ROC para los detectores CFAR y
RNA y un resumen de los resultados del area bajo la curva (AUC, por sus siglas en
ingles) en un diagrama de barras. Se observa que el algoritmo CFAR tiene mejores
resultados con las tres senales de prueba y aunque el desempeno es similar cuando
existe alta relacion senal a ruido, la diferencia se va incrementando a medida que la
relacion disminuye. El AUC, entre SNR=30dB y SNR=0dB, para la RNA disminuye
un 49.5 %, mientras que para CFAR la reduccion es de 31.5 %. Por lo tanto, se deduce
que el ruido ambiente afecta en mayor medida a las redes neuronales que al algoritmo
basado en umbral de energıa.
(a) (b)
(c) (d)
Figura 6.3: Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras (d).
42
Prueba IIa. A una senal con varios tipos de vocalizacion, se le agregaron in-
terferencias. De la curva ROC se observa que la RNA alcanza mas de un 95 % de
sensibilidad con una tasa de falsos positivos de tan solo 0,1. Por su lado, el algoritmo
CFAR debe incidir en una tasa de falsos positivos seis veces mayor para alcanzar
el mismo valor. El desempeno de la tecnica basada en umbral de energıa, entre una
senal limpia y otra alterada con interferencias, disminuye en un 58.5 %, mientras que
la red varıa su desempeno en tan solo un 2.3 % (Figura 6.4). Es evidente entonces
que la red es mucho mas robusta frente a las interferencias que el algoritmo CFAR.
(a) (b)
Figura 6.4: Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b).
43
Prueba Ib. Las senales de base se acomodaron para tener solamente vocalizacio-
nes de Acropternis orthonyx. Con esta prueba se quiere incluir al detector basado
en Template Matching para poder comparar los resultados con los otros algoritmos.
En la Figura 6.5 se observa que el TM tiene un desempeno inferior a los otros al-
goritmos cuando se tiene una relacion senal a ruido de 30dB y 15dB. Sin embargo,
con una relacion de 0dB, este algoritmo llega a superar el desempeno de las otras
tecnicas. Se puede observar que el desempeno de este algoritmo, entre SNR=30dB y
SNR=0dB, varıa tan solo en un 7.9 %, y es por lo tanto el que menos se ve afectado
por el incremento del ruido ambiente en la senal.
(a) (b)
(c) (d)
Figura 6.5: Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras (d).
44
Prueba IIb. De nuevo se seleccionaron vocalizaciones de Acropternis orthonyx,
esta vez se combinan en una senal con las interferencias. Los resultados muestran
que el desempeno del TM disminuye solamente un 4.7 %, un resultado parecido al
obtenido con las redes neuronales (2.3 %). El template matching es robusto frente a
las interferencias, sin embargo la red neuronal es el algoritmo que mejor discrimina
las vocalizaciones en un ambiente con interferencias (Figura 6.10).
(a) (b)
Figura 6.6: Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b).
6.2.2. Adicion de filtro FIR
Una vez evaluados los algoritmos, se procede a adicionar un filtro pasabanda y
se realizan de nuevo las mismas pruebas. Los detalles del filtro se encuentran en la
Seccion 5.5.
45
Prueba Ia-FIR. Comparando los resultados de esta prueba (Figura 6.7) con los
de la Figura 6.3, se observa un incremento en el rendimiento de ambos algoritmos,
sobre todo cuando el nivel de ruido ambiente es elevado. Particularmente, con una
relacion senal a ruido de cero, el area bajo la curva incremento en un 70.2 % para la
red neuronal, y un 37.6 % para CFAR. Es importante notar, que el algoritmo CFAR
sigue teniendo un desempeno levemente mejor que la red neuronal.
(a) (b)
(c) (d)
Figura 6.7: Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras(d).
46
Prueba IIa-FIR. Esta prueba muestra un cambio drastico en el desempeno del
algoritmo CFAR, mejorando su respuesta a las interferencias en un 235.4 %. Por su
parte, las redes neuronales tambien mejoran su respuesta, en un 2 %. No obstante,
las redes siguen dando una mejor respuesta frente a las interferencias (Figura 6.8).
(a) (b)
Figura 6.8: Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras (b).
47
Prueba Ib-FIR. En esta ocasion se observa de nuevo la mejora en el desempeno
de los algoritmos CFAR y RNA. Por el contrario, el TM mantiene los resultados
casi identicos con o sin filtro, el desempeno incrementa tan solo un 1.1 %. Aunque
las diferencias en el desempeno de los algoritmos disminuyen, se sigue observando
la tendencia de la PruebaIb sin filtro. Al variar la relacion senal/ruido de 30dB a
0dB, el mejor algoritmo fue el template matching al presentar una disminucion de
1.4 % en su desempeno, luego sigue un 3.6 % en el umbral de energıa y finalmente
un 8.7 % en las redes neuronales. (Figura 6.9).
(a) (b)
(c) (d)
Figura 6.9: Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de barras(d).
48
Prueba IIb-FIR. Para esta prueba se observa que otra vez el TM mantiene re-
sultados casi iguales con o sin filtro, el rendimiento aumenta un 4.3 %. El algoritmo
CFAR es el que tiene una mejora mas significativa, sin embargo sigue siendo el de
menor rendimiento en esta prueba. Ver Figura 6.10.
(a) (b)
Figura 6.10: Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras (b).
49
6.2.3. Tiempo de ejecucion
Analizar detalladamente el orden de complejidad de los algoritmos esta mas
alla de los alcances de esta investigacion. A continuacion se adjuntan los tiempos
de ejecucion de las tecnicas implementadas con el fin dar una idea del orden de
magnitud de estos valores. La grabacion de campo Acropternis orthonyx 10880.wav
(95.0665 segundos de duracion) se analizo con los tres algoritmos en un procesador
de 2.4GHz y una memoria de 8GB. Los resultados se muestran en la tabla 6.2.
CFAR RNA TM
Tiempo de ejecucion 0.503 s 13.508 s 3.552s
Cuadro 6.2: Tiempos de ejecucion de cada algoritmo al analizar una grabacion de campode 95 segundos: Acropternis orthonyx 10880.wav
6.3. Discusion de resultados
Las tecnicas presentadas aquı, son una muestra de las posibilidades que ofrece el
procesamiento digital de senales aplicado a los registros sonoros. A continuacion, se
subrayan las ventajas y desventajas de los algoritmos de deteccion evaluados:
CFAR. A pesar de ser una tecnica sencilla, este algoritmo tiene desempeno sobre-
saliente cuando se trata de senales con buena relacion senal a ruido y sin interfe-
rencias. Aunque su rendimiento se ve afectado por el ruido ambiente, el caso es mas
crıtico al enfrentarse a una senal con interferencias. Esto es previsible ya que este
toma como positivo todas las partes de la senal que tengan un alto nivel de energıa,
en este caso las interferencias son clasificadas como vocalizaciones y por lo tanto se
incrementa la tasa de falsos positivos. La adicion de un filtro ayuda a enfrentar las
desventajas de este inconveniente. Volviendo a la descripcion de las interferencias en
los registros (Seccion 3.3), se observa que estas tienen la mayor parte de su energıa
en frecuencias bajas y por ende pueden ser atenuadas por el filtro disenado. Hay
que tener en cuenta que en casos donde las interferencias no pueden ser atenuadas
por un filtro su taza de falsos positivos incrementara ya que este no es un detector
especıfico.
50
Red neuronal artificial. Este metodo muestra un muy buen desempeno en las
pruebas que contienen interferencias sin la necesidad de un filtro adicional (sin filtro
AUC = 0.467, con filtro AUC = 0.476). La red consigue discriminar las interferencias
de las vocalizaciones de aves. Sin embargo, se puede observar que su desempeno se
ve afectado considerablemente por la presencia de ruido ambiente. Esto problema
puede ser originado por la deformacion que produce el ruido ambiente en el espectro
de frecuencias. Las energıas bajas se hacen dominantes y los pequenos cambios en
frecuencia por una vocalizacion no pueden ser discriminados por las caracterısticas
acusticas. Sin embargo, no se puede tener certeza sobre esta hipotesis sin un estudio
detallado. Un inconveniente de esta tecnica es que la estructura de una red entrena-
da es difıcil de comprender, haciendo que sea complejo determinar el origen de los
problemas. Otro inconveniente que cabe resaltar de la RNA, y en general las maqui-
nas de aprendizaje, es que requiere de una base de datos de entrenamiento amplia
y por lo tanto tiempo de un operador para entrenar y ajustar sus parametros.
Template matching. Esta tecnica, aunque tiene buenos resultados, no se muestra
sobresaliente en las pruebas individuales. Su maxima (AUC = 0.47) y todas las
curvas ROC muestran que para llegar o acercarse a un 100 % de sensibilidad, el costo
en falsos positivos es elevado. Esto se debe a que este es un detector especializado
en una vocalizacion particular y que no esta adaptado a las posibles variaciones de
tiempo. Sin embargo, el valor mınimo de este algoritmo en todas las pruebas fue
AUC = 0.44. Esto indica que este es un detector robusto ante el ruido ambiente y
las interferencias de las grabaciones de campo. Por lo tanto, esta tecnica se muestra
adecuada para ser implementada en aves con cantos estereotipados en registros con
alto ruido ambiente o interferencias.
Filtro digital. Al adicionar el filtro pasabanda, los resultados del umbral de
energıa y la red neuronal mejoraron sustancialmente en ambas pruebas. En pro-
medio, el desempeno del umbral de energıa mejoro un 29.7 % y la red neuronal un
17.7 %. Sin embargo, la correlacion cruzada mantuvo casi el mismo desempeno al
incluir el filtro, mejoro un 1.9 %.
La Tabla 6.3 a continuacion muestra un resumen de lo explicado anteriormente.
51
CFAR RNA TM
Robusto al ruido ambiente ? ? ? ?? ? ? ??Robusto a interferencias ? ? ? ? ? ? ? ? ??Facil de implementar ? ? ? ? ? ? ? ? ?Velocidad de ejecucion ? ? ? ? ? ?? ? ? ?Capacidad de generalizar ? ? ? ? ? ? ? ?? ?
Cuadro 6.3: Se valoran cinco caracterısticas en una escala de una estrella (?) a cincoestrellas ( ? ? ? ? ?), siendo las cinco estrellas la valoracion mas positiva.
52
Capıtulo 7
Conclusiones y trabajos futuros
7.1. Conclusiones
Este trabajo de grado evaluo la capacidad de diversas tecnicas de ingenierıa para
detectar vocalizaciones de aves en registros sonoros. En primer lugar, se expusieron
algunos fundamentos teoricos de biologıa para entender el contexto del problema.
Luego, se describio la base de datos con la cual se realizo la investigacion, caracte-
rizando las vocalizaciones de aves, interferencias y ruido ambiente encontrados. A
continuacion, una serie de modelos matematicos permitieron caracterizar la senal
de audio en el dominio del tiempo y la frecuencia. Despues se presentaron diversos
algoritmos encontrados en la literatura de procesamiento de senales. Se tomaron
tres de estos para desarrollarlos y adaptarlos al problema en cuestion. Finalmente,
se ideo un modelo de pruebas y se examino el desempeno de cada una de las tecnicas
implementadas.
Ningun algoritmo fue sobresaliente en todas las pruebas, a su vez estas mostra-
ron que cada tecnica tiene sus ventajas y desventajas. El algoritmo CFAR trabaja
adecuadamente hasta ciertos niveles de SNR, pero es incapaz de discriminar las in-
terferencias. La tecnica de template matching se mostro robusta ante el ruido y la
interferencia, pero su estructura basica no esta adaptada a los cambios temporales
de la senal de interes. Las redes neuronales pueden discriminar correctamente entre
una interferencia y el sonido de las aves, pero resulto muy susceptible al ruido am-
biente. Ası, este estudio comparativo da luz hacia la mejor forma de usar las tecnicas
para obtener los resultados buscados.
En el piloto de monitoreo del IAvH, los microfonos son omnidireccionales y cap-
53
tan paisajes sonoros. Por lo tanto la relacion senal a ruido de las senales de interes
cambiaran continuamente, segun el clima (lluvia, viento) y la distancia entre la fuente
de sonido (el ave) y el microfono. Por otro lado, los ecosistemas de paramo y bos-
que alto-andino son ambientes acusticos donde las vocalizaciones de aves no tienen
mayores fuentes de interferencia. El umbral de energıa junto con el filtro, muestran
ser un buen punto de partida para analizar las senales del paramo y bosque alto-
andino. El algoritmo de template matching se adapta para detectar una vocalizacion
particular. Aunque esto limita su alcance, se puede emplear en aves con cantos es-
tereotipados, y como es robusto frente al ruido ambiente y las interferencias es sin
duda una tecnica a emplear en las futuras grabaciones del IAvH. La red neuronal,
por ser la tecnica mas susceptible al ruido ambiente, es la menos recomendable para
analizar los paisajes sonoros del paramo y el bosque alto-andino.
Las maquinas de aprendizaje y el template matching presentan gran cantidad de
variables que deben ser adecuadas al problema en cuestion. En el caso de las redes
encontramos: la base de datos usada para entrenarlas, la cantidad de neuronas en la
capa oculta, las caracterısticas acusticas de entrada, el algoritmo de entrenamiento y
su topologıa, entre otros. Para el template matching se tienen: la seleccion y/o elabo-
racion de la plantilla y los parametros para generar el sonograma. Los pocos estudios
previos en senales bioacusticas ayudan a orientarse a la hora de encontrar el punto
optimo de funcionamiento. Sin embargo, no existe un metodo lo suficientemente ri-
guroso para dicha labor, y por lo tanto la presente comparacion de desempeno entre
algoritmos muestra tan solo resultados parciales. Siendo este trabajo un producto de
tan solo seis meses y el primer acercamiento a estas nuevas tecnicas, no cabe duda
que es posible mejorar el desempeno de estos algoritmos.
Por su parte, la teorıa de filtros digitales esta muy bien definida y la implemen-
tacion de estos modulos resulta sencilla y sumamente eficiente. La adicion de un
pasabanda en el pre-procesamiento de la senal intervino positivamente en el desem-
peno de las redes y el algoritmo CFAR.
Los tiempos de ejecucion de los algoritmos son una fraccion del tiempo de re-
produccion de la grabacion y de lo que un operador puede tardar en realizar la
tarea. Como consecuencia, adaptar este tipo de sistemas permitira ahorrar tiempo y
esfuerzo de personal calificado. Con presupuestos muy limitados y una desbordan-
te diversidad biologica, las investigaciones de los sistemas naturales se podrıa ver
beneficiada si la ingenierıa aporta sus herramientas en este campo.
54
7.2. Trabajos futuros
Los resultados presentados en este trabajo dan una idea de las ventajas y des-
ventajas de algunas tecnicas de procesamiento de senales adaptadas a la bioacustica.
Sin embargo se consideran resultados parciales que se pueden seguir desarrollando
en investigaciones futuras.
Como cada algoritmo tiene ventajas y desventajas, surge la idea de combinar las
fortalezas de cada tecnica en un solo modulo. Por ejemplo, tener un detector basado
en umbral de energıa y conectar su salida a una red neuronal. O instalar en primer
lugar el template matching y luego procesar la senal con una red neuronal para
adaptarse a las diferencias temporales. Aunque se espera que el desempeno de tal
combinacion mejore los resultados, tambien se debe tener en cuenta que se induce
un costo computacional adicional.
El estudio se enfoco en los sistemas de paramo y bosque alto-andino, ambientes
donde el espacio acustico diurno es dominado por las aves. Un nuevo reto se presenta
al orientarse en otros ecosistemas del tropico, particularmente de tierras mas bajas
donde las interferencias por la presencia de anfibios o insectos conspicuos, cigarras
por ejemplo, no se puede ignorar.
La FFT permite transformar el sonido en un imagen. El algoritmo de template
matching mostro que es posible trabajar en el analisis de estas imagenes en vez de
trabajar con el sonido directo, permitiendo caracterizar la senal en tiempo y frecuen-
cia. Trabajos futuros podrıan tambien enfocarse en buscar tecnicas de procesamiento
de imagenes que puedan servir en el contexto de la bioacustica.
Despues de haber identificado los segmentos de audio que contienen las vocaliza-
ciones, el analisis posterior es clasificar estos sonidos. Obtener a partir de grabaciones
de campo un maximo de informacion de forma automatizada es una busqueda que
apenas esta comenzando. La mayor parte de las investigaciones se estan desarrollan-
do en laboratorios de Europa y Estados Unidos, ¿no serıa una buena idea empezar
a fomentar este tipo de investigaciones en un paıs megadiverso como Colombia?
55
Apendices
56
Apendice A
Grabaciones del IAvH
57
ESPECIE FAMILIA REGISTROS DURACION
Acropternis orthonyx Rhinocryptidae 5 12:00:00Amblycercus holosericeus Icteridae 3 2:45:00Anairetes agilis Tyrannidae 6 2:40:00Atlapetes brunneinucha Emberizidae 3 6:09:00Atlapetes pallidinucha Emberizidae 15 22:12:00Atlapetes schistaceus Emberizidae 16 23:09:00Atlapetes torquatus Emberizidae 22 22:26:00Basileuterus nigrocristatus Parulidae 17 20:46:00Cacicus chrysonotus Icteridae 28 46:29:00Campephilus pollens Picidae 12 19:37:00Cinnycerthia unirufa Troglodytidae 36 54:47:00Cyanolyca armillata Corvidae 12 19:47:00Dubusia taeniata Thraupidae 2 1:06:00Grallaria quitensis Grallaridae 3 3:18:00Grallaria rufula Grallaridae 21 16:55:00Hellmayrea gularis Furnariidae 4 6:20:00Henicorhina leucophrys Troglodytidae 12 14:17:00Margarornis squamiger Furnariidae 5 5:39:00Mecocerculus leucophrys Tyrannidae 16 20:29:00Mecocerculus stictopterus Tyrannidae 7 7:31:00Metallura tyrianthina Trochilidae 6 2:54:00Myioborus ornatus Parulidae 11 6:24:00Myiotheretes fumigatus Tyrannidae 7 12:11:00Nothocercus julius Tinamidae 6 7:50:00Otus albogularis Strigidae 8 11:15:00Penelope montagnii Cracidae 12 27:05:00Phyllomyias nigrocapillus Tyrannidae 8 5:27:00Premnoplex brunnescens Furnariidae 5 6:37:00Pyrrhura calliptera Psittacidae 11 8:20:00Schizoeaca fuliginosa Furnariidae 6 5:14:00Scytalopus griseicollis Rhinocryptidae 4 2:03:00Scytalopus latebricola Rhinocryptidae 10 10:18:00Scytalopus magellanicus Rhinocryptidae 7 4:55:00Sericossypha albocristata Thraupidae 6 12:56:00Troglodytes solsticialis Troglodytidae 2 1:17:00Trogon personatus Trogonidae 8 16:32:00Turdus fuscater Turdidae 14 35:37:00Xiphocolaptes promero Dendrocolaptidae 12 11:13:00Zonotichia capensis Emberizidae 1 0:31:00
TOTAL 389 8h 37min 1s
Cuadro A.1: Listado de especies en los registros sonoros del IAvH.
58
Apendice B
Especificaciones del equipo de
grabacion
CARACTERISTICAS PMD201 PMD222 PMD430
Mono/Stereo Mono Mono MonoNumero de cabezas 2 3 3Atenuacion del microfono 0, -10dB, -20dB 0, -10dB, -20dB 0, -10dB, -20dB
Relacion Senal a RuidoNR off 57dB 57dB 55dBDolby B 60dBdbx 75dB
Cuadro B.1: Especificaciones de grabadoras Marantz.
59
Bibliografıa
Adi, K., Johnson, M. T., y Osiejuk, T. S. Acoustic censusing using automatic
vocalization classification and identity recognition. The Journal of the Acoustical
Society of America, 127(2):874–883, 2010.
Ali, A. M., Yao, K., Collier, T. C., Taylor, C. E., Blumstein, D. T., y Girod, L.
An empirical study of collaborative acoustic source localization. En Proceedings
of the 6th international conference on Information processing in sensor networks,
paginas 41–50. 2007.
Bardeli, R., Wolff, D., Kurth, F., Koch, M., Tauchert, K., y Frommolt, K. Detecting
bird sounds in a complex acoustic environment and application to bioacoustic
monitoring. Pattern Recognition Letters, 31:1524–1534, 2010.
Beckers, G., Suthers, R., y Cate, C. Mechanisms of frequency and amplitude modu-
lation in ring dove song. The Journal of Experimental Biology, 206(11):1833–1843,
2003.
Bibby, C. J., Burgess, N. D., y Hill, D. A. Bird census techniques. London: Academic
Press, 1992.
Brandes, T. S. Automated sound recording and analysis techniques for bird surveys
and conservation. Bird Conservation International, 18:163–173, 2008.
Caicedo, E. F. y Lopez, J. A. Una aproximacion practica a las Redes Neuronales
Artificiales. Programa Editorial Universidad del Valle, 2009.
Castillo, L. F. y Forrero, L. A. Las aves de mi ciudad: una guıa de las aves de
cali. Alcaldıa de Santiago de Cali, Departamento Administravtivo de Gestion del
Medio Ambiente - DAGMA, 2010.
60
Chen, Z. y Maher, R. C. Semi-automatic classification of bird vocalizations using
spectral peak tracks. Journal of the Acoustical Society of America, 5(120):2974–
2984, 2006.
Chesmore, D. Automated bioacoustic identification of species. Anais da Academia
Brasileira de Ciencias, 76(2):435–440, 2004.
Collins, S. Nature’s Music: The Science of Birdsong, capıtulo Vocal fighting and
flirting: the functions of birdsong. Elsevier Academic Press, 2004.
Erbe, C., King, A. R., Yedlin, M., y Farmer, D. M. Computer models for masked
hearing experiments with beluga whales (delphinapterus leucas). Journal of the
Acoustical Society of America, 105(5):2967–2976, 1999.
Fagerlund, S. Automatic Recognition of Bird Species by Their Sounds. Proyecto Fin
de Carrera, Helsinky University of Technology, 2004.
Giannakopoulos, T. D. Study and application of acoustic information for the de-
tection of harmful content, and fusion with visual information. Tesis Doctoral,
National and Kapodistrian University of Athens, 2009.
Marler, P. Nature’s Music: The Science of Birdsong, capıtulo Bird calls: a cornucopia
for communication. Elsevier Academic Press, 2004.
Mellinger, D. K. y Clark, C. W. Recognizing transient low-frequency whale
sounds by spectrogram correlation. Journal of the Acoustical Society of America,
107(6):3518–3528, 2000.
Mindlin, G. B. y Laje, R. The Physics of Birdsong. Springer-Verlag Berlin Heidel-
berg, 2004.
Morales, Otero, van der Hammen, Torres, Cadena, Pedraza, Rofriguez, Franco, Be-
tancourth, Olaya, Psada, y Cardenas. Atlas de paramos de Colombia. Instituto
de investigacion de recursos biologicos Alexander von Humboldt, 2007.
Munger, L. M., Wiggins, D. K. M. S. M., Moore, S. E., y Hildebrand, J. A. Perfor-
mance of spectrogram cross-correlation in detecting right whale calls in long-term
recordings from the bering sea. Canadian Acoustics - Acoustique canadienne,
33(2):22–27, 2005.
61
Neal, L., Briggs, F., Raich, R., y Fern, X. Z. Time-frequency segmentation of bird
song in noisy acoustic environments. En Acoustics, Speech and Signal Processing
(ICASSP), IEEE International Conference on, paginas 2012–2015. 2011.
Parker, T. On the use of tape recorders in avifaunal surveys. Auk, 108:443–444,
1991.
Rabiner, L. y Sambur, M. An algorithm for determining the endpoints of isolated
utterances. Bell Syst. Tech. J, 54:297–315, 1975.
Ralph, C. J., Guepel, G. R., Pyle, P., Martin, T. E., y DeSante, D. F. Handbook of
field methods for monitoring landbirds. Albany, CA: Pacific Southwest Research
Station, U. S. Forest Service, 1993.
Skowronski, M. D. y Harris, J. G. Acoustic detection and classification of microchi-
roptera using machine learning: Lessons learned from automatic speech recogni-
tion. Journal of the Acoustical Society of America, 119(3):1817–1833, 2006.
Slabbekoorn, H. Nature’s Music: The Science of Birdsong, capıtulo Singing in the
wild: the ecology of birdsong. Elsevier Academic Press, 2004.
Somervuo, P., Harma, A., y Fagerlund, S. Parametric representations of bird sounds
for automatic species recognition. IEEE Transactions on audio, speech, and lan-
guage processing, 14(6):2252–2263, 2006.
Stattersfield, A., Bennun, L., y Jenkin, M. El estado de conservacion de las aves
del mundo. Indicadores en tiempos de cambio. Birdlife International. Cambridge,
UK, 2008.
Trifa, V. M. A framework for bird songs detection, recognition and localization using
acoustic sensor networks. Proyecto Fin de Carrera, Ecole Polytechnique Federale
de Lausanne, 2006.
Vallejo, E., Cody, M., y Taylor, C. Unsupervised acoustic classification of bird species
using hierarchical self-organizing maps. Progress in Artificial Life, paginas 212–
221, 2010.
van der Heijden, F., Duin, R., de Ridder, D., y Tax, D. Classification, Parame-
ter Estimation and State Estimation. An Engineering Approach using MATLAB.
John Wiley and Sons Ltd, 2004.
62
Verner, J. Assessment of counting techniques. Current Ornithol, 2:247–302, 1985.
Villarreal, H., Alvarez, M., Cordoba, S., Escobar, F., Fagua, G., Gast, F., Mendoza,
H., Ospina, M., y Umana, A. Manual de medodos para el desarrollo de inventarios
de biodiversidad. programa de inventarios de biodiversidad. Instituto de Inves-
tigacion de Recursos Biologicos Alexander von Humboldt, Segunda edicion:236,
2006.
Zhang, X. y Ras, Z. W. Analysis of sound features for music timbre recognition.
En Multimedia and Ubiquitous Engineering, International Conference on, paginas
3–8. 2007.
63
top related