autor: jaime andrés arango villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... ·...

30
ALGORITMO PARA IDENTIFICACIÓN DE HABLANTES CON FINES DE AUDIO FORENSE Autor: Jaime Andrés Arango Villamil UNIVERSIDAD MILITAR NUEVA GRANADA FACULTAD DE INGENIERIA INGENIERIA EN TELECOMUNICACIONES BOGOTÁ 2016

Upload: dinhtu

Post on 28-Sep-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

ALGORITMO PARA IDENTIFICACIÓN DE HABLANTES CON FINES DE AUDIO FORENSE

Autor: Jaime Andrés Arango Villamil

UNIVERSIDAD MILITAR NUEVA GRANADA

FACULTAD DE INGENIERIA

INGENIERIA EN TELECOMUNICACIONES

BOGOTÁ

2016

Page 2: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 1

ALGORITMO PARA IDENTIFICACIÓN DE HABLANTES CON FINES DE AUDIO FORENSE

Autor: Jaime Andrés Arango Villamil

Trabajo de grado para optar por el título de ingeniero en telecomunicaciones

Tutor: Ing. Dora María Ballesteros, PhD

UNIIVERSIDAD MILITAR NUEVA GRANADA

FACULTAD DE INGENIERIA

INGENIERIA EN TELECOMUNICACIONES

BOGOTÁ

2016

Page 3: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 2

I. Tabla de contenido

I. Tabla de contenido .................................................................................................................. 2

II. Lista de figuras......................................................................................................................... 3

III. Lista de tablas ...................................................................................................................... 4

IV. GLOSARIO ............................................................................................................................ 5

1. INTRODUCCIÓN ........................................................................................................................... 6

1.1. PROBLEMA ............................................................................................................................... 7

1.2 OBJETIVOS ................................................................................................................................. 7

1.2.1. Objetivo General ............................................................................................................... 7

1.2.2. Objetivos específicos ......................................................................................................... 8

2. ESTADO DEL ARTE ....................................................................................................................... 9

3. MÉTODO PROPUESTO ............................................................................................................... 11

3.1. Estudio preliminar de las señales de voz ............................................................................... 13

3.1.1. Grabación y pre-procesamiento de los audios. ........................................................ 13

3.1.2. Generación de espectrogramas y espectros. ............................................................ 14

3.1.3. Cálculo de correlaciones. .......................................................................................... 15

3.1.4. Análisis de correlaciones. .......................................................................................... 15

3.2. SISTEMA DIFUSO ............................................................................................................... 18

3.2.1. Funciones de membresía .......................................................................................... 18

3.2.2. Reglas difusas ............................................................................................................ 22

3.2.3. Resultado del sistema ............................................................................................... 23

4. VALIDACIÓN DEL MÉTODO PROPUESTO ................................................................................... 25

4.1. Protocolo de pruebas ........................................................................................................ 25

4.2. Resultados del método ..................................................................................................... 27

5. CONCLUSIONES ......................................................................................................................... 28

REFERENCIAS ..................................................................................................................................... 29

Page 4: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 3

II. Lista de figuras

Figura 1 Método propuesto para la identificación de hablantes. _________________________________ 12

Figura 2 Gráfica en el dominio del tiempo del registro de voz hablante 1 ___________________________ 13

Figura 3 Extracción de vocales. _____________________________________________________________ 14

Figura 4 Espectrograma de las vocales hablante 1._____________________________________________ 14

Figura 5 Combinaciones posibles para el cálculo de las correlaciones vocal “a”.______________________ 15

Figura 6 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para hablantes

diferentes. _____________________________________________________________________________ 16

Figura 7 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para hablantes

diferentes. _____________________________________________________________________________ 16

Figura 8 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para el mismo

hablante. ______________________________________________________________________________ 17

Figura 9 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para el mismo hablante.

______________________________________________________________________________________ 17

Figura 10 Funciones de membresía trapezoidal. ______________________________________________ 19

Figura 11 Funciones de membresía de las vocales para espectrograma. ___________________________ 20

Figura 12 Funciones de membresía de las vocales para espectrograma y espectro. __________________ 21

Figura 13 Ejemplo de selección de conjunto según la correlación de entrada. _______________________ 23

Page 5: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 4

III. Lista de tablas

Tabla 1 Reglas sistema difuso. _____________________________________________________________ 22

Tabla 2 Clasificación de puntajes obtenidos. __________________________________________________ 24

Tabla 3 Resultados obtenidos. ______________________________________________________________ 27

Page 6: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 5

IV. GLOSARIO

Identificación de hablante Consiste en dada una muestra de audio donde participan

varios hablantes establecer cuál de los hablantes fue el que

dijo algo en específico [1].

Correlación Operación estadística la cual permite determinar la similitud

existente entre dos variables.

Espectrograma Es la representación tiempo vs frecuencia de una señal,

utilizando colores que representan la amplitud del dato.

Espectro Es la representación de una señal en el dominio de la

frecuencia y la amplitud

Lógica Difusa Es una alternativa a la lógica clásica, la cual acepta mayor

flexibilidad en las reglas que está evaluando. Permite el

mapeo de un conjunto de entradas difuso en un conjunto de

salidas, de acuerdo a reglas difusas que utilizan funciones de

membresía [2].

Page 7: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 6

1. INTRODUCCIÓN

En este documento se presenta el diseño, desarrollo y validación de un sistema que

permite la identificación de hablante con fines de audio forense, en un entorno de solución semi-

automática. Es decir, se necesita una etapa previa de procesamiento por parte de un experto en el

área de señales, y posteriormente los audios ingresan al sistema que identifica al hablante.

Para la elaboración de este proyecto se establecieron varias etapas.

I. La primera etapa consistió en buscar información acerca de los métodos de

identificación existentes.

II. La segunda etapa consistió en realizar un estudio preliminar de las señales de

voz que permitiera la identificación/caracterización de patrones.

III. En la tercera etapa se desarrolló el algoritmo para la identificación del hablante.

IV. En la cuarta etapa se realizaron las pruebas pertinentes para verificar el

funcionamiento del algoritmo implementado.

V. En la quinta etapa se elaboró el presente documento.

El Trabajo de Grado hizo parte del proyecto IMP-ING-2136 de la Universidad Militar Nueva

Granada-Vicerrectoría de Investigaciones.

Cualquier información adicional, pueden contactarse con [email protected] y

[email protected].

Page 8: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 7

1.1. PROBLEMA

Actualmente los delitos en los cuales se ve implicada la voz (extorsiones, suplantaciones,

amenazas, acosos entre otros), han tendido a aumentar y por lo general queda una evidencia la cual

puede ser usada en un proceso judicial para ratificar la culpabilidad o inocencia de un sospechoso.

Identificar a un hablante no es una tarea sencilla ya que la voz de las personas se puede

alterar bien sea de manera voluntaria para evitar ser identificado, o de manera involuntaria cuando

el hablante presenta algún problema físico que le afecta la voz.

Como consecuencia de esta problemática se decidió proponer un método de identificación

de hablantes que incluyera técnicas de procesamiento digital de señales y algún método de

inteligencia artificial.

1.2 OBJETIVOS

En esta sección se presentan los objetivos aprobados por el Comité de Opción de grado del

programa de ingeniería en telecomunicaciones de la universidad Militar Nueva Granada el día 21 de

septiembre de 2015.

1.2.1. Objetivo General

Proponer una solución de audio forense con fines de identificación de los hablantes en una

conversación.

Page 9: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 8

1.2.2. Objetivos específicos

1. Realizar levantamiento de información acerca de la identificación de hablantes en un

registro de voz.

2. Proponer un esquema (o modelo matemático) que permita establecer si un sospechoso

participa en una conversación.

3. Programar en Matlab el esquema propuesto para la identificación de hablantes en un

registro de voz.

4. Validar el esquema propuesto en términos de efectividad en la identificación de hablantes

(verdadero negativo, falso negativo, falso positivo, verdadero positivo).

Page 10: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 9

2. ESTADO DEL ARTE

En esta sección se presenta el estudio preliminar referente a algunas de las formas de

identificación de hablantes actuales.

Algunos de los métodos encontrados para identificar los hablantes fueron los siguientes:

“Forensic Speaker Verification Using Formant Features and Gaussian Mixture Models”: En este

artículo publicado en el año 2008. Los autores Becker, Jessen y Grigoras presentan un método para

la verificación de hablantes basado principalmente en las frecuencias de los formantes; el método

propuesto realizaba comparaciones de muestras de voz y las expresaba como un cociente de

probabilidad, el cual se relacionaba a las configuraciones del tracto vocal de un hablante. Para

verificar el sistema propuesto realizaron pruebas para registros del mismo hablante y entre registros

de hablantes diferentes. Los autores señalan que el método propuesto se adapta a la configuración

del tracto vocal y por tal razón también contempla las variaciones que un hablante específico intente

realizar [3].

“Reconocimiento de voz basado en MFCC, SBC y Espectrogramas”: En el año 2013 los autores

Martínez y Aguilar, proponen un método de reconocimiento de voz utilizando tres algoritmos los

cuales son: MFCC (Coeficientes Cepstrales en las Frecuencias de Mel), SBC (Los parámetros

Cepstrales Basados en Sub-banda) y el espectrograma.

Inicialmente establecen una base de datos de 19 personas, cada persona pronuncio 17 oraciones

en 4 tonos diferentes. El sistema propuesto evalúa cada oración en los tres algoritmos y asigna un

Page 11: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 10

puntaje por cada uno de los algoritmos, finalmente según el puntaje obtenido en la suma de las

evaluaciones se determinara si la persona fue la que dijo la frase de referencia con la cual está

comparando en el sistema. Este método de reconocimiento presento un 93% de acierto [4].

“Speaker identification using vowels features through a combined method of formants, wavelets,

and neural network classifiers”: En el año 2015 Daqrouq y Tutunji plantean un método de

identificación de hablantes basado en la extracción de características de las vocales de los hablantes.

El sistema estaba basado en la extracción de los formantes y la entropía de Shannon, luego de

extraer esos paramentos los utilizaría como entradas para una Red Neuronal FWENN la cual

clasificaría los datos. Con el método propuesto logran alcanzar una alta tasa de reconocimiento para

la verificación e identificación del hablantes, las pruebas realizas fueron para vocales en árabe [5].

Page 12: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 11

3. MÉTODO PROPUESTO

En esta sección se presenta el método propuesto de identificación de hablantes con fines de audio

forense.

Para el desarrollo del método se implementó el diagrama de la Figura 1. Inicialmente se tendrán

como entradas al sistema 5 registros de referencia, uno por cada vocal y 20 registros de las vocales

del presunto sospechoso (es decir 4 registros por cada vocal). En seguida se calcula el espectrograma

y espectro para cada una de las entradas, con cada resultado se realiza el cálculo de la correlación

entre el valor obtenido de los registros de referencia y el valor obtenido por los registros del

sospechoso. Posteriormente, los resultados de las correlaciones serán las entradas del sistema

difuso, el cual generara los resultados finales del sistema, que pueden ser: Si hay correspondencia

(fijo si es), no es posible determinar si existe o no correspondencia (no hay suficientes pruebas para

determinar si es o no) y no hay correspondencia (fijo no es).

Page 13: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 12

Figura 1 Método propuesto para la identificación de hablantes.

Page 14: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 13

3.1. Estudio preliminar de las señales de voz

El objetivo de esta fase consistió en identificar que tan parecidas o diferentes pueden ser dos

registros de voz, que puedan utilizarse para clasificar a un hablante como coincidente o no en

relación a un audio de referencia. La fase incluye los siguientes pasos: Grabación y pre-

procesamiento de los audios, generación de espectrogramas y espectros, cálculo de correlaciones y

análisis de correlaciones.

3.1.1. Grabación y pre-procesamiento de los audios.

Inicialmente se utilizaron diez hablantes, seis (6) hombres y cuatro (4) mujeres, cada uno de los

hablantes pronuncio las vocales [a…u] con una ventana de tiempo de 5 segundos. En la Figura 2 se

muestra la gráfica del registro de voz obtenido del primer hablante.

Figura 2 Gráfica en el dominio del tiempo del registro de voz hablante 1

Después de tener grabados todos los audios necesarios, con ayuda del software Matlab se

separaron cada una de las vocales de manera manual, de cada uno de los audios, y se guardó cada

vocal un registro. En la Figura 3 se muestra el proceso de generación de los 5 registros por hablante.

En total, en esta etapa se contaron con 50 registros.

Page 15: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 14

Figura 3 Extracción de vocales.

3.1.2. Generación de espectrogramas y espectros.

El siguiente paso consistió en calcular los espectrogramas y espectros de cada uno de los 50 registros

de voz, pertenecientes a los 10 hablantes (5 vocales por hablante). En la Figura 4 se presenta un

ejemplo de espectrograma del hablante 1, para sus 5 vocales. Como se puede observar en la parte

derecha de la figura, hay una paleta de colores que va entre azul y rojo, el grafico del espectrograma

está basado en esos colores. En la parte inferior de la barra de colores se encuentra el color azul el

cual hace referencia a los momentos en los cuales hay silencios en el registro de voz y los distintos

formantes se observan como zonas más oscuras es decir con colores naranjas y rojos .

Figura 4 Espectrograma de las vocales hablante 1.

Page 16: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 15

3.1.3. Cálculo de correlaciones.

Una vez se tienen los 50 espectrogramas y 50 espectros, el siguiente paso consistió en calcular

correlaciones cruzadas entre los diferentes hablantes. Para calcular las correlaciones se comparó el

valor obtenido de espectrograma de la vocal “a” de la primera persona con el valor obtenido de

espectrograma la vocal “a” de las otras nueve personas, luego se comparó el valor obtenido de

espectrograma de la vocal “a” de la segunda persona con las otras ocho personas restantes sin

contar la primera persona porque con ella ya se comparó y así sucesivamente hasta que se realizaran

todas las posibles combinaciones es decir un total 45 combinaciones por vocal, de igual forma se

debía efectuar el mismo procedimiento para las demás vocales. La Figura 5 presenta la organización

de las 45 comparaciones realizadas para la vocal “a”.

Figura 5 Combinaciones posibles para el cálculo de las correlaciones vocal “a”.

Para el espectro se realizó el mismo procedimiento descrito anteriormente.

3.1.4. Análisis de correlaciones.

Con los 45 resultados de las correlaciones entre hablantes, se procedió en representar

estadísticamente su comportamiento, utilizando gráficas de tendencia, como la presentada en la

Page 17: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 16

Figura 6 y Figura 7. Este tipo de gráficas consiste en identificar el mínimo valor de los datos, el

máximo valor, y la región en la cual se agrupan el 95% de los resultados.

Figura 6 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para hablantes diferentes.

De acuerdo a la Figura 6, para el sonido “a” el valor máximo de correlación entre hablantes es de

0,5, y el mínimo es de 0.03. La mayoría de los resultados se encuentran en el rango [0,10 0,17].

Figura 7 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para hablantes diferentes.

De acuerdo a la Figura 7, para el sonido “a” el valor máximo de correlación entre hablantes es de

0,13, y el mínimo es de 0.00004. La mayoría de los resultados se encuentran en el rango [0,03 0,05].

El ejercicio anterior se realizó con registros provenientes del mismo hablante, y se obtuvieron los

resultados de la Figura 8 y la Figura 9.

0

0.2

0.4

0.6

0.8

1

a e i o u

0

0.2

0.4

0.6

0.8

a e i o u

Page 18: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 17

Figura 8 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para el mismo hablante.

En la Figura 8 se observa que para el sonido “a” el valor máximo de correlación entre el mismo

hablante es de 0,66, y el mínimo es de 0.13. La mayoría de los resultados se encuentran en el rango

[0,28 0,5 5].

Figura 9 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para el mismo hablante.

Conforme a la Figura 9, para el sonido “a” el valor máximo de correlación entre hablantes es de

0,64, y el mínimo es de 0.24. La mayoría de los resultados se encuentran en el rango [0,30 0,57].

De acuerdo a los resultados de la Figura 6 y la Figura 7 (espectrograma con diferente e igual

hablante) ya la Figura 8 y Figura 9 (espectro con diferente e igual hablante), se deduce que algunos

valores de correlación, para una misma vocal, pueden pertenecer tanto al conjunto de datos de

0

0.2

0.4

0.6

0.8

1

a e i o u

0

0.2

0.4

0.6

0.8

1

a e i o u

Page 19: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 18

correlaciones entre hablantes, como al conjunto de datos de correlaciones del mismo hablante. Es

decir, que la pertenencia a cada conjunto es difusa. Por lo anterior, se decide utilizar un sistema

difuso para la clasificación de los hablantes.

3.2. SISTEMA DIFUSO

En esta sección se presenta el sistema difuso propuesto. El diseño se hizo a medida y no se utilizó

el toolbox de Lógica Difusa de Matlab, sino directamente se programó el sistema, con el fin de tener

una herramienta software fácilmente ajustable a las necesidades del proyecto.

Para el desarrollo del sistema difuso se siguieron los siguientes pasos.

3.2.1. Funciones de membresía

Para cada vocal se establece una función de membresía (μ) utilizando como referencia los valores

obtenidos en las gráficas de rango de confianza de espectrograma y espectro, desde la Figura 7

hasta la Figura 9. Los conjuntos se tomaron de acuerdo al análisis estadístico que se realizó

preliminarmente de las diez personas utilizadas como prueba. Se utilizó la función de membresía de

tipo trapezoidal trampf, debido a que este tipo de función es no simétrica como se muestra en la

Figura 10.

Page 20: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 19

Figura 1010 Funciones de membresía trapezoidal.

Para establecer las funciones de membresía de espectrograma y de espectro se siguió el

procedimiento que se explica a continuación.

1. Inicialmente se analiza la gráfica correspondiente al espectrograma de vocales para hablantes

diferentes. Se toma el valor máximo del rango de confianza de la vocal bajo análisis; que para el caso

de la Figura 11 vocal “a” corresponde al valor 0.17. Este valor es el límite del umbral denominado

baja similitud.

2. Posteriormente, en el grafico espectrograma de vocales del mismo hablante se toma el mínimo valor

del rango de confianza de la vocal bajo análisis, que para el caso de la Figura 11 vocal “a” corresponde

a 0.28. Este valor corresponde al límite del umbral denominado alta similitud.

3. Finalmente, la zona entre los dos umbrales anteriores se denomina mediana similitud.

4. El procedimiento anterior se repite por vocal y por parámetro de evaluación (es decir por

espectrograma y por espectro, para cada una de las cinco vocales, para un total de 10 conjuntos de

membresía).

Page 21: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 20

Figura 11 Funciones de membresía de las vocales para espectrograma.

Como resultado, se obtienen las 10 funciones que se presentan en la Figura 12. Para todos los casos,

el eje x de la gráfica corresponde a la correlación y el eje y corresponde a la pertenencia.

Page 22: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 21

Figura 122 Funciones de membresía de las vocales para espectrograma y espectro.

Cada vocal tiene tres membresías para las correlaciones de los espectrogramas y tres membresías

para las correlaciones de los espectros. Los conjuntos se denominan Baja similitud (conjunto azul),

mediana similitud (conjunto naranja) y alta similitud (conjunto amarillo).

Page 23: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 22

3.2.2. Reglas difusas

Se utilizaron 10 reglas difusas, de acuerdo a la pertenencia a los conjuntos de similitud (baja,

mediana, alta), tanto de los espectrogramas, como de los espectros. La Tabla 1 presenta las reglas

propuestas. Las reglas se aplican por vocal.

SIMILITUD ESPECTROGRAMA SIMILITUD ESPECTRO PUNTAJE

B M A B M A

0

0

0

0

0.5

1

0

1

1

Tabla 1 Reglas sistema difuso.

El valor de una correlación puede pertenecer a los tres conjuntos difusos, la pertenencia final

corresponderá al conjunto con mayor probabilidad de pertenencia. Por ejemplo, suponga que se

tiene los siguientes conjuntos, y el valor de correlación es 0.11 correspondiente a la línea punteada

Page 24: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 23

que se observa en Figura 13. Como condición del sistema se tiene que la pertenencia debe ser

mayor a [0.7], para este ejemplo se empleó la función de membresía de espectro para la vocal a. En

el conjunto de Alta similitud se tendrá un una pertenencia de 0, para el conjunto de mediana

similitud se tendrá una pertenencia de 0.2 y finalmente para el conjunto de Baja similitud se tendrá

un pertenecía de 0.8. Por consiguiente si el valor de correlación de entrada es 0.11, el sistema

asignara la pertenencia final al conjunto de baja similitud, porque tiene la mayor probabilidad de

pertenencia.

Figura 13 Ejemplo de selección de conjunto según la correlación de entrada.

3.2.3. Resultado del sistema

Después de realizar el cálculo de todas las reglas de la Tabla 1 a cada vocal y por criterio de

evaluación, se suman los puntajes obtenidos en cada regla, y según ese puntaje se determina si el

Page 25: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 24

registro de voz bajo prueba coincide con el registro de voz de referencia. De acuerdo al problema

bajo estudio (audio forense) en el cual la respuesta de identificación debe ser “si corresponde”, “no

corresponde” o “no es posible determinar la correspondencia”, se trabaja con los umbrales de la

Tabla 2, para cada uno de los tres casos de salida.

Debido a que el máximo puntaje posible que puede tener un sospechoso es de 20 (5 vocales de

referencia con 4 sistemas difusos en paralelo), los umbrales se definen entre 1 y 20.

Puntaje final/20 Resultados mostrados en la salida

del sistema

Mayor a 16 Si hay correspondencia

Entre 14 y 16 No es posible determinar si existe o no

correspondencia

Menor a 14 No hay correspondencia

Tabla 2 Salida del sistema de acuerdo al puntaje final obtenido por el sistema difuso.

Page 26: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 25

4. VALIDACIÓN DEL MÉTODO PROPUESTO

En esta sección se presentan los resultados obtenidos y la interpretación dada a cada resultado

según el sistema propuesto.

4.1. Protocolo de pruebas

Para verificar el funcionamiento del algoritmo propuesto se escogieron 14 hablantes diferentes

a los utilizados en la etapa anterior. Entre los hablantes seleccionados se encontraban 7 hombres y

7 mujeres. Cada uno de los hablantes debía grabar 4 audios diciendo las vocales es decir se tendrían

originalmente un total de 56 audios.

De cada uno de los audios se extrajeron las 5 vocales y cada vocal se guardó en un nuevo

registro diferente lo cual significa que por cada vocal se tendrían 56 registros para un total de 280

registros sumando los registros de las 5 vocales.

La primera prueba que se realizó consistió en ingresar como entradas al sistema las vocales

extraídas de los 2 de los registros del mismo hablante, esto con el fin de verificar que cuando se

realice la comparación entre registros de la misma persona se obtenga como resultado en la salida

del sistema alguno de los resultados que se muestran en la Tabla 2 . Al realizar esta prueba se

obtuvieron 84 resultados.

Page 27: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 26

La segunda prueba realizada consistió en tomar los 5 registros de vocales un hablante como

referencia con 20 registros (es decir 4 por vocal) del sospechoso como entradas al sistema. Para

que el sistema determine si los registros de referencia pertenecen o no al sospechoso. Al realizar

esta prueba se obtuvieron 364 resultados.

Page 28: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 27

4.2. Resultados del método

Los resultados obtenidos del método propuesto se pueden clasificar en:

Verdaderos positivos: Si el sospechoso coincide con el audio de referencia y el sistema lo

logró identificar.

Falsos positivo: El sistema identifico a un sospechoso que realmente no correspondía con

el audio de referencia.

Verdadero negativo: El sospechoso no corresponde con el audio de referencia y el sistema

no lo detectó.

Falso negativo: El sistema indica que el sospechoso no corresponde con el audio de

referencia, pero realmente si coincide.

A continuación en la Tabla 3 se muestran los resultados obtenidos de todas las pruebas realizadas.

Resultados Numero obtenido/Pruebas realizadas

Verdaderos positivos

77.38%

Falsos positivo

0%

Verdadero negativo

100%

Falso negativo

22.62%

Tabla 3 Resultados obtenidos.

Page 29: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 28

5. CONCLUSIONES

Se verificó que el espectro y el espectrograma permiten caracterizar a un hablante y

diferenciarlo de otro, incluso si se pronuncian los mismos fonemas.

El sistema diseñado premia la correcta identificación sobre la falsa identificación, de tal forma

que es preferible no identificar a un correcto sospechoso que identificar a un falso sospechoso.

Con el método propuesto no se identificó a ningún sospechoso que no correspondiera con el

audio de referencia. Se trabajó con una tasa de falsos positivos del 0%.

El sistema identificó correctamente al sospechoso en el 77% de las pruebas. En los otros casos,

ningún sospechoso (real e incorrecto) fue identificado.

Como trabajo futuro se pueden incluir otros métodos de caracterización de los hablantes y/o

modificar el umbral para identificar a un sospechoso.

Page 30: Autor: Jaime Andrés Arango Villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... · Programar en Matlab el esquema propuesto para la identificación de hablantes en un

Página 29

REFERENCIAS

[1] Drygajlo, A. (2012). Automatic speaker recognition for forensic case assessment and

interpretation. In Forensic Speaker Recognition (pp. 21-39). Springer New York.

[2] Jang, J. R., & Gulley, N. (1995). Fuzzy logic toolbox user’s guide. The Mathworks Inc, 1(995),

19.

[3] Becker, T., Jessen, M., & Grigoras, C. (2008). Forensic speaker verification using formant

features and Gaussian mixture models. In Interspeech (pp. 1505-1508).

[4] Mascorro, G. A. M., & Torres, G. A. (2013). Reconocimiento de voz basado en MFCC, SBC y

Espectrogramas. Ingenius, (10).

[5] Daqrouq, K., & Tutunji, T. A. (2015). Speaker identification using vowels features through a

combined method of formants, wavelets, and neural network classifiers. Applied Soft

Computing, 27, 231-239.