la idoneidad de la pericia en el ámbito judicial

51
TESIS MASTER CIENCIAS FORENSES FACULTAD BIOLOGIA LA IDONEIDAD DE LA PERICIA ACÚSTICA EN EL AMBITO JUDICIAL EL ALINEAMIENTO TEMPORAL DINÁMICO (DTW) COMO ALGORITMO DE DECISIÓN EN DICHA PRUEBA ASIGNATURA: ACÚSTICA FORENSE DEPARTAMENTO : FÍSICA MÉDICA PROFESOR: JOSÉ LUIS RAMÓN GARCÍA MARÍA TRINIDAD SÁNCHEZ PÉREZ DNI: 34810801W [email protected]

Upload: wwwcrimhistonet63net

Post on 15-Jun-2015

708 views

Category:

Education


9 download

TRANSCRIPT

Page 1: La idoneidad de la pericia en el ámbito judicial

TESIS MASTER CIENCIAS FORENSES

FACULTAD BIOLOGIA

LA IDONEIDAD DE LA PERICIA ACÚSTICA EN

EL AMBITO JUDICIAL

EL ALINEAMIENTO TEMPORAL DINÁMICO (DTW) COMO

ALGORITMO DE DECISIÓN EN DICHA PRUEBA

ASIGNATURA: ACÚSTICA FORENSE

DEPARTAMENTO : FÍSICA MÉDICA

PROFESOR: JOSÉ LUIS RAMÓN GARCÍA

MARÍA TRINIDAD SÁNCHEZ PÉREZ DNI: 34810801W

[email protected]

Page 2: La idoneidad de la pericia en el ámbito judicial

2

RESUMEN

INDICE.

1 .INTRODUCIÓN.

2 .OBJETIVOS.

3. MÉTODOS, CONCEPTOS Y PROGRAMAS.

3.1. Parámetros de Reconocimiento.

3.1. 1 Espectro de Frecuencia.

3. 1. 2 Análisis Espectral.

3. 1. 3 Tranformada de Fourier.

3. 1. 4 Linear Prediction Coding (LPC).

3. 1. 5 Jitter.

3. 1. 6 Shimmer.

3. 1. 7 Coeficientes Cepstrales Mel (MFFC).

3. 1. 8 Concepto de Distancia/ Distancia Euclídea.

3. 1. 9 Alineamiento Temporal Dinámico (DTW).

3. 1. 10 Comparación y toma de decisiones.

3. 2 Estudio comparativo de los distintos sistemas para el análisis

de la voz con fines forenses.

3. 2. 1 Superescope.

Page 3: La idoneidad de la pericia en el ámbito judicial

3

3. 2. 2 Soundscope.

3. 2. 3 Computerized Speech Lab (CSL).

3. 2. 4 Multi-Speech Lab de Kay Elemetrics.

3. 2. 5 Sistema Visha (procesado del habla).

3. 2. 6 Programa Praat.

4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS.

4. 1 Influencia de la simulación de los hablantes en los

sistemas de reconocimiento de locutores.

4. 2 El Alineamiento Temporal Dinámico (DTW).

como algoritmo de decisión en la práctica forense.

4. 3 La Pericia Acústica en el Proceso Judicial.

5. DISEÑO EXPERIMENTAL.

5. 1 La influencia microfónica en la identificación de locutores

con fines forense.

5.2 Estructura del árbol de ficheros de la base de datos

Ahumada.

5. 3 Distancia Euclídea normalizada.

5. 4 Resultados obtenidos con el método DTW.

5. 5 Criterios de comparación y toma de decisiones.

6. CONCLUSIONES.

7. BIBLIOGRAFIA.

Page 4: La idoneidad de la pericia en el ámbito judicial

4

RESUMEN

La Acústica Forense en la actualidad resulta necesaria para documentar y probar

determinados delitos. Los estudios que en las últimas décadas se están realizando

posibilitan la apreciación por los jueces de esta prueba. Experimentalmente, en laboratorio,

los resultados son concluyentes con un margen de error muy pequeño, similar, al que

arroja el análisis del ADN. En esta prueba lo que identifica al individuo podría definirse

como la resonancia del tracto vocal del aparato fonador del sujeto, información que es

extraída a su vez del análisis de una grabación dubitada del mismo, que se debe comparar

con otra indubitada; se trataría por tanto, de verificar la identidad de un sujeto dubitado a

través de su tracto vocal que se ha demostrado en numerosos estudios que es específico al

individuo y se mantiene estable una vez éste alcanza la vida adulta. Para realizar este

análisis se utilizan diversos parámetros, pero uno de los que ofrecen mayor valor

identificativo es el formante, que se corresponde con el pico de amplitud de la frecuencia

sonora del sonido analizado. El oído humano percibe mejor los sonidos como frecuencias

y los diversos programas y sistemas que se utilizan descomponen el sonido en éstas, para

extraer la información que resulte más significativa. Además, en la práctica forense se

necesita un parámetro que pueda medir y cuantificar el parecido de frecuencias de sonido

distintas y tras numerosos estudios y revisiones bibliográficas, se destaca de entre otros

algoritmos, la Alineación Temporal Dinámica (DTW) como un sistema que en base a la

utilización de la Distancia Euclídea realiza unas plantillas donde estima ( mediante una

distancias de corte halladas estadísticamente que se corresponden a un criterio acordado

de decisión previo) que si hay poca distancia son parecidas las frecuencias de las voces y

si hay mucha son distintas y nos encontraremos con que la grabación dubitada se

corresponde a otro sujeto y no al indubitado.

Se ha comprobado igualmente por diversos autores si los sistemas de reconocimiento son

sensibles a la manipulación voluntaria del hablante y en este sentido destacan los estudios

de. DODDINGTON, G., [3] que descartan esta hipótesis pero señala que sí existe una

diferencia apreciable en los resultados debida al micrófono que se utiliza.

Es por ello, que en esta tesis proponemos un diseño experimental utilizando la base de

datos Ahumada: registro de 103 locutores en español por distintos métodos: micrófonos,

Page 5: La idoneidad de la pericia en el ámbito judicial

5

móvil y teléfono; a partir de la cual, pretendemos comprobar utilizando dos micrófonos

distintos si descartamos o aceptamos dicha hipótesis. Para tal fin me sirvo de la ayuda y

trabajo previo del profesor D. José L. Ramón que ha elaborado macros y scripts con los

programas Praat y Excel sin los cuales no hubiera podido realizar ésta comprobación

debido a lo arduo y complicado del cotejo; con dichos programas el tratamiento de los datos

finales se ha hecho sencillo y fácil.

Por último, es necesario enmarcar esta prueba en su contexto dentro del proceso judicial y

señalar hasta qué punto es pertinente y legalmente aceptable su admisión en el mismo.

Diferenciándose dos situaciones distintas, lo que son la intervención de las

comunicaciones entre locutores distintos, de la grabación de las mismas por uno de los

sujetos participante en la conversación; en el primer caso es necesario autorización judicial

motivada si no fuera así, la prueba quedaría invalidada de facto, en el segundo caso al

grabar la conversación un integrante de la misma le ampara la ley y la grabación se

convierte en prueba documental que se adjunta a su testimonio dentro del proceso. Es por

todo lo anterior que la pericia acústica resulta necesaria en el proceso siempre que su

práctica está avalada por una obtención fiable y científica que la convierte en idónea y

pertinente.

Palabras claves: Palabra 1, Acústica forense. Palabra 2, Verificación de locutores. Palabra

3, Formantes. Palabra 4, DTW. Palabra 5, Intervención comunicaciones.

Page 6: La idoneidad de la pericia en el ámbito judicial

6

1. INTRODUCIÓN

Identificación Acústica

Los principales estudios al respecto se realizan a partir de los años 90 siendo figuras

relevantes en este campo, entre otros, los integrantes de la Policía alemana: R. Kϋnzel y A.

Braun, el primero adquirió gran protagonismo en España a raíz de ser consultado en el

caso de Anabel Segura, sobre la autoría de las llamadas que se simularon en su nombre.

En Portugal, Francia e Italia también se están haciendo grandes aportaciones al estudio de

la Acústica Forense. Y en España actualmente está en marcha un proyecto muy ambicioso:

el Hesperia(https://www.proyecto-hesperia.org/hesperia/mapa.jsp)en el que están

implicados Telefónica, varias Universidades y Empresas, que pretende implementar

sistemas de identificación individual a través de la voz como método de seguridad en

cajeros, edificios, materiales tecnológicos, etc. Siendo uno de los pioneros en la

investigación académica de la Acústica Forense el catedrático de Física Médica y

Presidente durante varios mandatos de la Sociedad Española de Acústica Forense D. José.

L. Ramón (que supervisa esta tesis).

Dentro de la Acústica Forense se diferencian dos procesos: los casos de identificación, en

donde se compara un locutor con varios dentro de un conjunto cerrado “Closed set” (como

ejemplo nos serviría el proyecto Hesperia) y los sistemas de verificación, comparación de

dos locutores en un sistema abierto “Open set”.

El ámbito forense frecuentemente se centra en los casos de verificación entre locutores:

(dubitado e indubitado). El reconocimiento de locutores es un sistema de identificación

biométrico que parte del fundamento científico de que la voz permanece estable una vez

llegada la vida adulta y de que de un individuo a otro, existen características específicas y

diferenciadoras de construcción del tracto faringo-laringo-vocal.

Junto a otras disciplinas, sin dejar de contemplar su carácter interdisciplinar y forense, se

puede englobar dentro de la Psicoacústica que estudia entre otras materias la percepción

aural del sonido.

Page 7: La idoneidad de la pericia en el ámbito judicial

7

El sonido suele ser definido como una vibración o movimiento recurrente de una masa en un

medio elástico, con un rango de recurrencias o ciclos de frecuencia de intensidad igual o

superior al umbral de percepción de la vibración (de 20 a 20.000 Hz), el cual sigue las leyes

generales del movimiento.

Los sonidos puros se desplazan en un movimiento armónico simple con trayectoria de su

onda en línea recta y las vibraciones complejas, que son las más frecuentes en la naturaleza,

se producen en frecuencias periódicas, aperiódicas y semiperiódicas en función del tiempo.

La señal del habla se considera una onda cuasi-estacionaria, ya que su variación lenta nos

permite dividir su análisis en tramas de duración finita relativamente corta y con solapamiento

entre ellas, el análisis del habla puede llevarse a cabo por tanto en el dominio del tiempo y en

el de la frecuencia, en el dominio temporal los parámetros que se utilizan son la energía local,

la tasa de cruces por cero y la función de autocorrelación; este análisis es sencillo y rápido con

una interpretación física directa.

En la actualidad en análisis frecuencial del habla es el método más utilizado; pues el oído

humano está mejor orientado a percibir la información espectral del sonido que en forma de

onda o señal temporal.

En el acto de la fonación el aire respirado pasa a través de la glotis produciéndose la vibración

de la laringe y los sonidos sonoros.

La tensión que se produce en las cuerdas vocales nos determina el tono de los mismos y las

aperturas y cierres de la glotis, la frecuencia fundamental, mientras que en el caso que no

hubiera vibración perfecta se producirían las turbulencias en la constricción de las cuerdas

vocales que se corresponden con los sonidos sordos.

Page 8: La idoneidad de la pericia en el ámbito judicial

8

La información que nos proporciona el sonido en sí, al pasar por la glotis, nos permite

distinguir: los sonidos agudos de los graves, siendo los primeros más habituales en mujeres y

niños; esta información nos permite clasificar los sonidos pero no individualizarlos.

En el análisis forense de la voz lo que se pretende es separar la parte audible del sonido

que pertenece al tracto vocal, información automatizada que es involuntaria del resto y que

diferencia e individualiza a un sujeto determinado, por ello, se trata de analizar la

estructura de la resonancia del aparato fonador y sobre todo de entre otros parámetros los

formantes.

Figura 1. Espectrograma correspondiente señal vocal a obtenida mediante el programa

Multi-Speech de Kay Elemetrics.

Page 9: La idoneidad de la pericia en el ámbito judicial

9

Las aperturas y cierres de la glotis con una secuencia de tiempo y amplitud determinados

se corresponden con la frecuencia fundamental, que se produce con la vibración de las

cuerdas vocales y que nos proporciona información sobre los sonidos armónicos, ambas

magnitudes pueden ser evaluadas y representadas estadísticamente, esto es

cuantificadas y cualificadas, JAKSON MENALDI, C.A [6].

La resonancia individual del tracto vocal así obtenida (a nivel identificativo) tiene validez

científica pues ha sido inferida a través de un método estadístico experimental con un error

del 98% aproximadamente, verificado en sucesivos estudios, RAMÓN ET ALT [10].

2. OBJETIVOS

Revisión de los programas y técnicas utilizadas, validez legal.

Realizar un diseño experimental sobre la influencia en los resultados de los micrófonos

empleados en la prueba.

Comprobar la idoneidad de la pericia acústica dentro del proceso penal

3. MÉTODOS, CONCEPTOS Y PROGRAMAS

3.1 Parámetros de Reconocimiento

3.1.1 Espectro de frecuencia

El espectro de frecuencia de un fenómeno ondulatorio (sonoro, luminoso o electromagnético),

es la superposición de ondas de varias frecuencias, es una medida de la distribución de

amplitudes de cada una de ellas, también se llama espectro de frecuencia al gráfico de

intensidad frente a frecuencia de una onda particular. El espectro de frecuencias o

descomposición espectral de frecuencias puede aplicarse a cualquier concepto asociado con

frecuencia o movimientos ondulatorios como son los colores, las notas musicales, las ondas

electromagnéticas de radio o TV e incluso la rotación regular de la tierra.

Los sonidos pueden ser una superposición de frecuencias diferentes, cada frecuencia

Page 10: La idoneidad de la pericia en el ámbito judicial

10

estimula una parte diferente de nuestra cóclea (caracol del oído). Cuando escuchamos una

onda sonora con una sola frecuencia predominante escuchamos una nota, pero en cambio un

silbido cualquiera o un golpe repentino que estimule todos los receptores contiene frecuencias

dentro de todo el rango audible. Muchas cosas en nuestro entorno que calificamos como ruido

frecuentemente contienen frecuencias, así cuando un espectro de frecuencia de un sonido o

espectro sonoro, viene dado por una línea plana, decimos que el sonido asociado es ruido

blanco. Una onda triangular representada en el dominio temporal (arriba) y en el dominio

frecuencia (abajo) la frecuencia fundamental está en torno a 220 Hz.

3. 1. 2 Análisis espectral

Se refiere a la acción de descomponer algo complejo en partes simples o identificar en ese

algo complejo las partes más simples que lo forman, un análisis espectral permite

descomponer una señal compleja en cada una de sus frecuencias parciales, pasando del

dominio temporal al dominio de la frecuencia, la resolución frecuencial del análisis se calcula

dividiendo la frecuencia de muestreo por el número de puntos de la transformada de Fourier,

por ejemplo a una frecuencia de muestreo de 10 Hz y una transformada de 512 puntos tiene

una resolución frecuencial de 0.0195 Hz.

Un proceso que cuantifique las diversas intensidades de cada frecuencia se llama análisis

espectral donde se analizan básicamente dos tipos de estructuras: la que se corresponde con

los armónicos (fuente sonora) y la estructura de la resonancia (filtros) donde se utilizan

bandas anchas de 300 Hz (5 ms) para obtener las frecuencias naturales del tracto: los

formantes que son los parámetros que resultan más útiles a nivel identificativo.

3. 1. 3 Transformada de Fourier

En procesamiento de señales el análisis de Fourier suele considerarse como la

descomposición de una señal en componentes de frecuencias diferentes. Es decir (g) se

corresponde al espectro de frecuencias de la señal (f).

La rama de las matemáticas que estudia el análisis de Fourier y sus generalizaciones es

denominada Análisis Armónico.

Page 11: La idoneidad de la pericia en el ámbito judicial

11

Matemáticamente el análisis espectral está relacionado con esta herramienta llamada

Transformada de Fourier o Análisis de Fourier.

Cuya fórmula es la siguiente:

(1)

Además la transformada de Fourier de una función, no sólo permite hacer una

descomposición espectral de las frecuencias de una onda o señal oscilatoria, sino que con el

espectro generado por el análisis de Fourier incluso se puede reconstruir (sintetizar) la función

original mediante la transformada inversa.

Para poder hacer esto, la transformada no solamente contiene información sobre la intensidad

de determinada frecuencia, sino también sobre su fase.

Esta información, se puede representar como un vector bidimensional o como un número

complejo en las representaciones gráficas, frecuentemente sólo se representa el módulo al

cuadrado de ese número, y el gráfico resultante se conoce como espectro de potencia o

densidad espectral de potencia.

Es importante recordar que la transformada de Fourier de una onda aleatoria, mejor dicho

estocástica, o sea probabilística (un ejemplo es el ruido ambiental) para representarse

requiere cierto tipo de promediado para mostrar adecuadamente la distribución frecuencial.

Para señales estocásticas digitalizadas de ese tipo se emplea con frecuencia la transformada

de Fourier discreta.

Page 12: La idoneidad de la pericia en el ámbito judicial

12

3. 1. 4 Linear Prediction Coding (LPC)

El LPC (Linear Prediction Coding) es el espectro de las resonancias del tracto vocal; mide la

frecuencia y energía con el ancho de banda, correspondiéndose los picos de convergencia

con las resonancias del tracto o formantes.

Se necesitan filtros de 300 Hz (5 ms) pudiéndose obtener con ellos la representación lineal

de cuatro formantes, siendo este sistema el más utilizado pues la audición natural humana

solo percibe de 6 a 7 frecuencias simultáneas

Figura 2. Espectrograma con formantes para vocales a, i, u tal como aparecen con la técnica de LPC

3. 1. 5 Jitter

Se corresponde con las alteraciones de la frecuencia que se pueden medir en vocales

sostenidas en tiempos pequeños con independencia de los cambios voluntarios de la

frecuencia fundamental de la voz; en una situación ideal su valor sería de 0 por lo cual es

frecuente que su valor sea pequeño pero característico de un individuo.

Page 13: La idoneidad de la pericia en el ámbito judicial

13

3. 1. 6 Shimer

Se trata de medidas de de la perturbación de la amplitud que sirven para cuantificar pequeños

lapsos en la intensidad vocal de cada ciclo fonatorio al igual que la medida anterior es una

medida especifica del tracto vocal independiente de la fuente, si bien para cuantificar

correctamente ésta se requiere mantener una distancia adecuada del micrófono, JACKSON

MENALDI, A ET ALT. [7].

3. 1. 7 Coeficientes Cepstrales en frecuencia Mel (MFFC)

Son coeficientes para la representación del habla, basados en la percepción auditiva humana

que se derivan de la Transformada de Fourier, o de la transformada del coseno discreta, la

diferencia básica con estas, es que en la MFCC las bandas de frecuencia están situadas

logarítmicamente según la escala Mel propuesta por Steven, Volkman y Newman en 1937

(Journal of the Acoustical Society of America; Amer.Jour.Psyco. 48) que es una escala

musical perceptual del tono a juicio de observadores equiespaciados.

Se define equiparando un tono de 1000 Hz a 40 dB por encima del umbral de audición del

oyente, con un tono de 1000 Mel por encima de 500 Hz; los intervalos de frecuencia

espaciados exponencialmente son percibidos como si estuvieran linealmente.

En consecuencia: 4 octavas en herzios por encima de 500 Hz se comprimen a 20 octavas en

la escala Mel, que modela mejor la respuesta auditiva humana que las bandas espaciadas

linealmente, haciendo el procesado de datos y la compresión en audio más eficiente.

WIIKIPEDIA [12]

Generación de los parámetros Mel a partir de las muestras de señal

- Preénfasis, filtrado de la señal de voz ya que esta se atenúa 6 dB por octava, conforme

aumenta la frecuencia es necesario introducir un filtrado para aumentar los

Page 14: La idoneidad de la pericia en el ámbito judicial

14

componentes de la alta frecuencia, este proceso se puede realizar a través de un filtro

digital de paso alto que se puede implementar con la siguiente ecuación de diferencias:

y(n)=x(n)-a x (n-1) donde a es una constante que varía entre (0 y 1) en el dominio de la

transformada Z.

- Enventanado Hamming para seleccionar la trama a trabajar utilizamos la ecuación:

W= 0,54-0,46 cos(2 π n/N) 0<n < N. (2)

- Transformada discreta de Fourier (DFT) sobre la trama de muestras enventanadas se

aplica la transformada discreta de Fourier que se implementa a través de la

transformada rápida de Fourier (FFT).

- Escala Mel se utiliza para dividir el espectro en un banco de filtros mucho más

estrechos y linealmente espaciados en las bajas frecuencias y muy amplios y

logarítmicamente espaciados en las altas, dándose más importancia a la

información contenida en las bajas frecuencias conforme el oído humano.

Figura 3. Esquema con los diferentes pasos de obtención de los coeficientes cepstrales

Page 15: La idoneidad de la pericia en el ámbito judicial

15

Se calcula la energía en cada una de las bandas de frecuencia en que la escala mel divide el

espectro, para ello se suman los módulos al cuadrado de la FFT en los puntos que se

encuentran contenidos en cada una de dichas bandas, calculándose el logaritmo de las

energías obtenidas anteriormente.

- Coeficientes

Cepstrales, se calculan como la transformada del coseno discreta (DCT).

Que hace las veces de transformada inversa de las energías logarítmicas obtenidas

con anterioridad, en concreto, los coeficientes cepstrales se obtienen del muestreo de

10 puntos de dicha transformada. El cálculo de los MFCC responde a la conversión de

frecuencias en escala Mel según la siguiente fórmula:

(3)

La equivalencia queda como expresa esta

gráfica

Figura 4. Gráfica de equivalencia entre herzios y escala mel.

Page 16: La idoneidad de la pericia en el ámbito judicial

16

Al finalizar la parametrización, cada trama se convierte en un vector compuesto por 11

parámetros, en los cuales está contenida la información más directa del tracto vocal.

Para hacer la parametrización del habla más robusta se pueden añadir otros parámetros

DMFCC (derivada) DDMFCC (aceleración) llamados parámetros transaccionales su

utilización se basa en el hecho de que en sistemas independientes del locutor las frecuencias

de resonancia (formantes) fluctúan considerablemente de unos locutores a otros, pero las

variaciones de dichas frecuencias son más parecidas a estos parámetros, se obtienen

derivando los DMFCC y los DDMFCC.

En frases independientes se remplaza la información temporal por “tramos” de información

cepstral caracterizados en vectores con los primeros 10 coeficientes cepstrales o MFCC,

estos vectores cepstrales que se corresponden con dos cuadros de sonido, en teoría

simultáneos y perceptivamente iguales ,para su comparación, utilizan la distancia entre ellos,

la distancia cepstral o euclidea.

3. 1. 8 Concepto de distancia/ Distancia euclíde a

Se necesita una forma de medir la diferencia o semejanza entre observaciones u objetos, la

forma en que generalmente se hace es en términos de la distancia entre cada par de casos;

cuando la distancia es menor se considera que los casos son más parecidos entre sí. Existen,

diversas maneras de calcular la distancia, las que se aplican con mayor frecuencia son: la

distancia euclidiana (que es la raíz cuadrada de la suma de las diferencias al cuadrado entre

los valores de dos casos para cada variable). Cuando las variables se miden en unidades muy

diferentes, antes de agrupar los casos, se recomienda estandarizar los datos para eliminar la

influencia de la unidad de medición, para su optimización en el cálculo, se sirve de un

programa informático que mediante algoritmos (como es el caso de DTW) realiza una

alineación temporal de los vectores en una distancia global mínima. Para la cuantificación de

los datos es necesario cuantificar la distancia entre dos vectores para que estos sean

comparados y combinados con los de referencia, para poder realizar estas operaciones es

necesario definir una medida de distancia entre vectores característicos.

Page 17: La idoneidad de la pericia en el ámbito judicial

17

La distancia entre dos vectores (x) e (y) de un espacio vectorial /x / es una función de valores

reales d (x, y) sobre el producto cartesiano x*x.

3. 1. 9 Alineamiento Temporal Dinámico (DTW)

Es un método empleado en el reconocimiento del locutor independiente del texto, trata de

compensar la variabilidad existente entre la duración de los fonemas en distintas

pronunciaciones de una misma frase, comparando la locución de entrada con una serie de

plantillas que representan las unidades a reconocer, siendo, cada plantilla almacenada como

un conjunto de características acústicas ordenadas en el tiempo.

En su cálculo se realiza un alineamiento temporal con posibles deformaciones elásticas y de

medida de la distancia.

Para realizar este alineamiento temporal se utilizan técnicas de programación dinámica

mediante un algoritmo que logra que la entrada de la señal del sonido se parezca lo máximo

posible a la plantilla que crea el programa, para lo cual se comprimen y estiran las zonas

según conveniencia de una señal con respecto de la otra.

Gráficamente se visualiza como una matriz cuya eje horizontal se corresponde con las tramas

de una señal y el eje vertical con las tramas de otra. Para encontrar que compresiones

maximizan este parecido (camino) se podrían probar todas las combinaciones posibles pero

este algoritmo impone unas restricciones en las combinaciones que va a probar para el

reconocimiento del habla; que son que el camino no puede volver atrás en el tiempo (camino

monótono) y que todas las distancias de entrada hay que utilizarlas en el camino,

combinándose las distancias para dar la distancia global. Con estas restricciones para la

trama de entrada (i) y para la plantilla (j), solo hay que considerar como posibles predecesores

los pares (1i- j), (i-1j), (1i-1j) para medir el parecido se va a emplear la distancia euclidiana (sin

raíz) o sea para medir la diferencia entre dos tramas. El DTW realiza el alineamiento de

manera que se minimiza la distancia global.

Page 18: La idoneidad de la pericia en el ámbito judicial

18

3. 1. 10 Comparación y toma de decisiones

En este apartado, se describe el proceso de decisión que tiene lugar en los sistemas de

verificación de locutor para determinar si el locutor es aceptado o rechazado por un sistema

de reconocimiento determinado.

A continuación se explica la manera en que se evalúan los errores que se cometen en la

decisión.

Marco genérico de la toma de decisión

Dado un segmento de voz X y un locutor S, el objetivo de la verificación del locutor es

determinar si S generó la locución X. Esto se puede formalizar como un test de hipótesis

básico entre las siguientes hipótesis, ESTEVE ELIZALDE, C [4]:

H0: X fue pronunciado por el locutor S.

H1: X no fue pronunciado por el locutor S.

La decisión, de acuerdo con el criterio de máxima verosimilitud (Maximum Likelihood, ML),

se obtiene mediante el cociente de verosimilitudes que viene dado donde:

00

0

aceptar H( )( rechazar H

P X HP X

θθ

1≥|

|Η ) < (4)

Donde P (X|Hi), i=0,1 es la probabilidad de la hipótesis Hi evaluada para el segmento de

vozY.0 es el umbral de decisión para aceptar o rechazar H0. En principio debería ser 0,

pero en aplicaciones prácticas interesa ajustar dicho umbral para controlar la relación entre

las probabilidades de cometer errores en los dos sentidos posibles de la decisión.

Page 19: La idoneidad de la pericia en el ámbito judicial

19

Habitualmente se suele emplear el logaritmo de este cociente:

log logP P 10 − (Χ|ΗΛ(Χ)= (Χ| )Η ) (5)

Por tanto, el objetivo de los sistemas de reconocimiento de locutor es encontrar métodos

para calcular ambas probabilidades,

(6)

Un paso crucial en la implementación del detector es el cálculo de las probabilidades P que

dependerá de la aplicación; que para reconocimiento de locutor independiente del texto no

existe información a priori que se pueda utilizar por tanto la elección más acertada es

utilizar algoritmos de alineación dinámica generados a través de coeficientes cepstrales.

Medidas de los errores en la decisión

En la verificación de locutores se pueden dar dos tipos distintos de errores:

1. Falso Rechazo (FR), que se produce cuando un usuario auténtico es rechazado por el

sistema.

2. Falsa Aceptación (FA), que aparece cuando un impostor es aceptado por el sistema

como si fuera un usuario auténtico.

Si se observa la distribución de las puntuaciones de usuarios e impostores se puede

observar, que de manera general, ambas distribuciones se solapan, lo que supone un

problema para seleccionar el umbral a partir del cual las puntuaciones serán interpretadas

como pertenecientes a usuarios registrados.

Por lo tanto, el área bajo la curva de impostores que queda por encima del umbral, es la

probabilidad de que un impostor sea aceptado. Esta probabilidad es la tasa de falsa

y PP 0 1(Χ|Η ) (Χ|Η )

Page 20: La idoneidad de la pericia en el ámbito judicial

20

aceptación (FAR o False Acceptance Rate). La probabilidad de que un usuario registrado

no sea aceptado, es el área bajo la curva de usuarios válidos que queda por debajo del

umbral, lo que se denomina la tasa de falso rechazo

Figura 5. Distribución de usuarios e impostores.

Si la distribución de puntuaciones de usuarios e impostores se solapan la FAR y la FRR

tendrán un punto de intersección, en el cual la FAR y la FRR son iguales. A este punto se

le denomina tasa de equierror (Equal Error Rate ERR). Este punto se utiliza para comparar

distintos sistemas y es donde el error del sistema dado como la suma de la FAR y la FRR

se suele minimizar. Sin embargo, para poder comparar dos sistemas según el EER es

necesario que éste sea calculado sobre los mismos datos de test utilizando el mismo

protocolo experimental. Como el EER no describe plenamente el rendimiento del sistema,

éste se suele representar mediante las curvas ROC (Reciever Operating Curve) y las

curvas DET (Detection Error Tradeoff).

En ambas curvas se muestra la tasa de falsa aceptación frente a la tasa de falso rechazo

para distintos niveles de umbral.

Figura 6. Curvas de falso error frente a falso rechazo en distintos niveles de umbral

Page 21: La idoneidad de la pericia en el ámbito judicial

21

Las curvas DET se obtienen a partir de las curvas ROC realizando una transformación no

lineal en los ejes, de manera que las curvas no lineales de las ROC se convierten casi en

rectas. Esto las hace más sencillas de analizar y comparar unas con otras.

Entrenamiento y cálculo de puntuación

La tarea de verificación de locutor se compone esencialmente de dos fases: la fase de

entrenamiento y la del cálculo de puntuaciones. Esta puntuación representa la medida de

similitud entre los vectores de características del segmento de audio a verificar y un modelo

de locutor.

A su vez, los modelos del locutor se construyen a partir las características extraídas de uno

o varios segmentos de voz de cada locutor. Cuando se desea autenticar a un usuario, se

compara la señal de entrada con el modelo del locutor que dice ser y que se ha creado en

la fase de entrenamiento. Existen dos tipos de modelos: los modelos estocásticos y los

modelos de plantillas (templates en inglés).

En los modelos estocásticos la comparación de patrones se realiza de manera

probabilística obteniendo una medida de la probabilidad condicional de la observación

dado el modelo. Un ejemplo de modelado estocástico son los Modelos Ocultos de Markov

(HMMs) o los modelos de mezclas de Gaussianas (GMMs).

El cómputo de verosimilitudes utilizando modelos de plantillas es un proceso de

comparación basado en cálculo de distancias. Se asume que la observación es una réplica

no idéntica de la plantilla y se realiza un alineamiento de las secuencias observadas con las

secuencias de referencia de manera que se minimice la distancia que existe entre ambas.

Un ejemplo de este método es el Alineamiento Temporal Dinámico, ESTEVE ELIZALDE, C

[4].

Page 22: La idoneidad de la pericia en el ámbito judicial

22

3. 2 Estudio comparativo de los distintos sistemas para el análisis

de la voz con fines forenses

3. 2. 1 Superescope

Es un programa para ordenadores Apple Macintosh que permite digitalizar cualquier señal

eléctrica sobre una placa conversora a/d de la línea macADios de Macintosh, una vez

digitalizada la señal puede ser visualizada, analizada, sometida a cálculos matemáticos y

exportada a una base de datos en el disco duro; en tiempo real, permitiendo que el

ordenador funcione como osciloscopio, analizador de espectros, grabadora e instrumental

de registro o plotter

Puede convertirse virtualmente en cualquier instrumento de laboratorio, siendo ésta su

principal ventaja, está considerado como uno de los mejores sistemas para el análisis de

señales en el dominio temporal permitiendo digitalizar, registrar, graficar, realizar cálculos,

analizar, realizar anotaciones on line, etc.

El programa permite la creación de múltiples objetos y el diseño de los mismos según las

necesidades del usuario sin necesidad de tener experiencia previa en programación; entre

los objetos que ofrece, se encuentran: ondas, menús desplegables, hojas de anotaciones,

cursores, vías de datos, series de caracteres, ventanas, indicadores, botones y controles,

etc.

Siendo las Instrucciones los objetos más importantes de este sistema, son bloques

operacionales con los que se construyen las tareas, pudiéndose elegir de la barra de

menús para ser editados, constituyéndose, como el instrumento más potente y versátil del

programa, que posibilita: el análisis individual de cada pulso de onda, los cálculos

matemáticos sobre las mismas, anotaciones automáticas, cálculos estadísticos, control de

dispositivos externos, y la posibilidad de conexión con otros programas en entornos

multimedia.

Page 23: La idoneidad de la pericia en el ámbito judicial

23

3. 2. 2 Soundscope

Son sistemas de programas de análisis de la voz de tercera generación, que se basan en

las características del sistema anterior, pero centradas especialmente en el dominio

frecuencial (mientras el Superescope lo hacía en el dominio temporal).

Este sistema es muy utilizado en la industria y enseñanza debido a sus múltiples

aplicaciones; permite en cuanto al sonido, la realización del análisis cepstrum, la FFT, la

F0, la LPC, el Jitterr y Shimer, el espectograma, etc , siendo destacable el tratamiento

estadístico que dá a cualquier segmento de onda analizado; pudiéndose hallar la

estadística de la señal ( número de puntos, frecuencia de muestreo, valor máximo y mínimo,

SD, área debajo de la onda, etc) y la estadística de la F0 (media, rango, SD, jitter %,

Kurtosis) además de calcular el porcentaje de zonas con voz y silentes.

El hardware necesario consta de una tarjeta conversora a/d de la línea macADios y un

ordenador de Macintosh con sistema operativo 6.07 o superior con un mínimo de Ram de

de 4 MB.

3. 2. 3 Computerized Speech Lab(CSL)

Creado por la empresa Kay Elemetrics está considerado como el mejor sistema para el

análisis de la voz y lenguaje utilizando ordenadores personales, utiliza software y hardware

en entorno parecido al Windows, posibilitando frecuencias de muestreo de hasta 51,2 Hz

en grabaciones de voz, permitiendo su archivado, edición, recuperación, etc.

Pudiendo realizar posteriormente el análisis y tratamiento estadístico de los datos para

obtener: la LPC, la F0, el Jitter y Shimer, el espectrograma en escala de grises y térmica

( escala de colores cálidos), etc .

Una de las características más relevantes de este programa, es la posibilidad de crear lista

de tareas encadenadas llamadas macros, para la realización conjunta de varios análisis.

Page 24: La idoneidad de la pericia en el ámbito judicial

24

En cuanto a posibilidades de software, proporciona modelos aún mas adaptados para el

análisis de la voz; se trata del programa MDVP que es capaz de calcular 22 parámetros

distintos sobre 3 segundos de vocalización sostenida, con una base de datos para la

compresión numérica y la representación gráfica de los valores.

El hardware básico del modelo CSL 4300 consta de un módulo externo que permite

digitalizar la señal mejorando su calidad en cuanto a ruido, actuando en dos canales a 16

bits y 50 kHz utilizando una tarjeta DSP (procesador digital de señal) que se introduce en

el ordenador, requiriéndose un ordenador con sistema operativo m s-dos 5.0 o superior, un

micrófono y unos altavoces.

En las últimas versiones se puede utilizar un módulo externo para cuatro canales muy útil

en la investigación, que permite el registro simultáneo de la señal acústica.

Figura 7. Ejemplo CLS; múltiples ventanas correspondientes con dos grabaciones de la misma vocal

de un mismo locutor.

Page 25: La idoneidad de la pericia en el ámbito judicial

25

3. 2. 4 MultiSpeech 3700 de Kay Elemetrics

Es un programa de la misma empresa que se puede emplear complementariamente al

modelo anterior, o de manera autónoma; pues posibilita la utilización de cualquier

ordenador y tarjeta de sonido de los que se ofertan en el mercado en un entorno Windows,

pudiendo realizar los mismos análisis y operaciones que con el sistema anterior; siendo su

relación coste-beneficio mucho más interesante.

Posibilita la representación simultánea en múltiples ventanas de varios análisis, siendo de

especial importancia la capacidad que tiene de fragmentar el sonido hasta conseguir la

muestra más limpia, para poder así comparar las grabaciones en secuencias de sonido lo

más parecidas posible. Obteniéndose posteriormente representaciones lineales de los

formantes que identifican el tracto vocal en otras ventanas y espectrogramas, con gran

calidad visual; de igual modo; realiza el análisis estadístico para poder validar

científicamente las hipótesis que se quieran constatar con este sistema.

3. 2. 5 Sistema Visha (para el proceso y visualización del habla)

Es un sistema múltiple de de procesamiento de la voz de bajos coste que sólo añade un

tarjeta DSP de procesamiento digital de la señal, a un PC personal, es un sistema español

desarrollado por la Escuela de Telecomunicaciones de Madrid, financiado por el INSERSO

y la Comisión Interministerial de Ciencia y Tecnología.

Entre las aplicaciones que desarrolla se incluyen los siguientes programas:

El programa Isotón: que es especifico para la rehabilitación de la voz en base a dos

métodos: la imitación de patrones establecidos previamente por un rehabilitador y el control

de diferentes videojuegos mediante la voz.

El programa de estudio de la señal de la voz (PC-Vox) realiza el estudio de la señal de la

voz almacenando unos 8 s a 16 kHz y 16 bits, mediante la extracción y representación de

los parámetros más representativos: obteniéndose espectrogramas y sonogramas con

ciertas limitaciones en las bandas de ancho.

Page 26: La idoneidad de la pericia en el ámbito judicial

26

Obtiene así mismo el análisis espectral mediante los métodos FFT y LPC permitiendo la

grabación, el registro, edición y creación de base de los datos obtenidos. Permite, la

creación de numerosos programas para conversión de textos –voz, realización de

audiometrías, visualización de los órganos articulatorios, etc.

Además de añadir otros programas asociados para la conversión de texto en voz, (Tel

_Eco), para la realización de audiometrías, (PCAUD), visualización de órganos

articulatorios, (SAS), etc.

En cuanto al hardware se utiliza la tarjeta Visha, un ordenador personal tipo at o superior,

micrófono, altavoz y auriculares, en el mercado también hay una versión adaptada a entorno

Windows.

3. 2. 6 Programa Praat

Es un programa informático con sucesivas versiones mejoradas, que permite el

reconocimiento de hablantes con independencia del texto, utilizando frases enteras de

conversación, ofrece todo el paquete de análisis de los anteriores: F0 , FFT, LPC siendo muy

útil y práctico para la obtención de los Coeficientes centrales y el Alineamiento Temporal

Dinámico para el estudio de las frases completas .

Con la distancia euclídea realiza las plantillas para representar las resonancias del tracto

vocal).

Este sistema viene avalado por los autores de: “La voz patológica” (que incluye una demo) y

“La voz normal”, ambos de la autora C. A. Jackson. Menaldi). Se puede así mismo descargar

en la página de la organización (www.praat.org) una versión actualizada y gratuita del mismo.

Además, el profesor de la Universidad de Barcelona D. Joaquín Llisterri tiene una página web

dónde ofrece tutoriales sobre el mismo, BATANER GIL, J., [2].

http://homepage.mac.com/joaquim_llisterri/phonetics/fon_anal_acus/Praat_analisis

Page 27: La idoneidad de la pericia en el ámbito judicial

27

4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS

4. 1. Influencia de la simulación de los hablantes en los sistemas de

reconocimiento de locutores

G.Doddington es uno de los investigadores más relevantes dentro del campo de la Acústica

Forense y en el año 98 publicó, un estudio sobre la influencia de la simulación en los sistemas

de reconocimiento de locutores, acuñando una terminología que sería después ampliamente

utilizada y difundida en estudios posteriores, por el mismo y otros investigadores.

Clasificó a los hablantes en:

“Sheeps” (ovejas) que se corresponden con los verdaderos hablantes.

“Goats” (cabras), hablantes con particularidades intrínsecas que dificultan su reconocimiento.

“Lambs” (corderos), hablantes fáciles de imitar y por último.

“Wolves” (lobos), que son los hablantes simuladores que imitan voces.

Analizó 500 hablantes: 250 mujeres y 250 hombres, para comprobar la dependencia

independencia de la simulación en los sistemas de reconocimiento y utilizó para ello 2 tipos

de test de contraste: uno paramétrico: (Durban teste) y otro no paramétrico el (Kruskal

–Wallis). Se realizaron sesiones de trabajo de 30 s con distintos micrófonos y se comprobaron

12 sistemas.

Obteniéndose en conclusión la verificación de la hipótesis nula: que no hay influencia

significativa de la simulación en los sistemas de reconocimiento de locutores; quedando

identificados los distintos tipos de hablantes con un coeficiente de error más que aceptable,

además de aportar que dicho error puede aumentar en relación con el micrófono utilizado

(este aserto inspira el diseño experimental de esta tesis) y que dentro de las tipologías de

hablantes los más difíciles de simular: cabras, “goats” se corresponde en su mayoría con

mujeres DODDINGTON, G., [3].

Page 28: La idoneidad de la pericia en el ámbito judicial

28

4. 2. El Alineamiento Temporal Dinámico (DTW) como algoritmo de

decisión en la práctica forense

En la práctica forense, resulta necesario utilizar parámetros que nos proporcionen la

identificación del sujeto de la muestra con un margen de error pequeño, con este sentido

se creó el proyecto VYLE. BATANER GIL, J. [2] que pretendía diferenciar acústicamente

las características individuales o sea intralocutor de las variaciones interlocutores con la

finalidad de obtener parámetros fiables para comparar con certeza locutores dubitados e

indubitados.

Se revisó la bibliografía existente a tal efecto y se utilizaron indistintamente las bases de

voces: Albaycin, Gaudí, Euroni, Speech Dat 4000 y la Ahumada; en sus conclusiones se

remiten primero a los estudios de Künzel que ya en 1995 descartaban la validez de la

interpretación visual de los espectrogramas como método forense, por ser éste un

parámetro que arroja un alto en índice de error y tratarse de un sistema muy subjetivo en su

apreciación.

De igual modo, tuvieron en cuenta la clasificación realizada por Doddington ya en1985 de

parámetros que proporcionaban alto nivel de información sobre la dimensión social

económica y cultural del hablante; en contraposición a los que aportaban información

sobre la dimensión fisiológica del mismo, (que son los parámetros de más alto valor

identificativo).

Resultan vigentes aún en nuestros días los estudios realizados por Ladefoget y Broadbent

en 1957 sobre el vector Formante vocálico: que es el parámetro que mejor representa el

tracto vocal individual, siendo la representación todos estos rasgos resistentes a la

distorsión e interferencias que proporcionan otros parámetros.

Añadieron a su estudio el trabajo de otros investigadores como Hollien que revisando

numerosa bibliografía destaca otros 2 parámetros: la frecuencias centrales de los tres 1º

formantes de al menos 3 vocales /a/, /e , /u/ y la sílaba /na/ concluyendo que la información

más “robusta” la arroja el análisis de la distancia de los tres primeros formantes

Page 29: La idoneidad de la pericia en el ámbito judicial

29

(F1/F2)(F2/F3) que no puede ser alterada a voluntad , además el valor medio del F3 no

cambia de vocal a vocal y da con precisión la longitud del tracto vocal del sujeto analizado;

expresando que a mayor longitud del tracto vocal, menor frecuencia del formante, el vector

Fo mide 30 parámetros diferentes y todos ellos en conjunto proporcionan información sobre

los aparatos resonadores, junto a otros parámetros como las frecuencias formánticas, la

anchura de los formantes, trayectorias y distancias de los mismos, consonantes nasales,

turbulencias, etc. Establecidos los parámetros que nos proporcionar la información

intralocutor con valor identificativo, se debe implementar un algoritmo de decisión que sea

práctico y fiable a nivel forense, que sea útil para ser utilizado en muestras pequeñas de

texto independientes; en este sentido se utiliza la medida de la distancia euclidiana que es

un parámetro que no requiere caracterización estadística y está avalado por numerosos

estudios conjuntos de expertos en fonética e ingenieros eléctricos y electrónicos.

Además de destacar por ser un algoritmo simple en el cálculo y en su implementación en la

práctica forense.

Esta finalidad de hallar un algoritmo útil para el reconocimiento de locutores, es la base de

los estudios realizados dentro de un proyecto global; para desarrollar sistemas de

identificación de locutores mediante la voz con aplicaciones forenses de la Unidad de

Investigación y Criminalística de la Policía Judicial española. ROMÁ ROMERO, M.,

RAMÓN GARCÍA, J. L [11].

Sus investigaciones han verificado con un margen de error aceptable (comparando la

muestra del sujeto dubitado con al menos 8 muestras de distracción del indubitado como

en las ruedas de reconocimiento y utilizando la base de datos Ahumada y el micrófono

Sony que recoge el habla en conversación espontánea) que frente a otros algoritmos

basados en criterios de máxima verosimilitud (o su versión simplificada y los modelos

ocultos de Markov que requieren la utilización de numerosas muestras y costosa

caracterizaciones estadísticas) uno de los algoritmos de decisión que en la práctica resulta

más útil para la de identificación automática de locutores con fines forenses, es el DTW que

parte de la alineación temporal de la información sonora utilizando plantillas y se sirve de

Page 30: La idoneidad de la pericia en el ámbito judicial

30

la distancia euclidiana para estimar si las grabaciones comparadas son parecidas o

distintas entre sí.

4. 3 La pericia acústica en el proceso

Dentro del ámbito procesal penal no existe una tasación legal de los medios de prueba

admisibles, lo cual resulta coherente con lo dispuesto en el artículo 24.2 de la CE que

reconoce el derecho fundamental a utilizar todos los medios de prueba que se consideren

pertinentes para la defensa y por extensión para la acusación; debido a lo anteriormente

expuesto, ningún órgano jurisdiccional puede negarse a admitir un medio de prueba

alegando que éste no se encuentra previsto por la Ley de Enjuiciamiento Criminal, siendo

habitual; que los tribunales consideren las pruebas reconduciéndolas a las ya previstas

considerando las cintas de video, cassetes y grabaciones telefónicas como prueba

documental mixta o documental pericial (art 726 y s. s LE Cr ).

La acústica forense se encarga del análisis científico del habla al servicio de los Tribunales de

Justicia y como en toda articulación de una prueba procesalmente válida, hay que diferenciar

dos aspectos: el formal y el material.

Requisitos formales: distinguiéndose en el caso de la prueba acústica: los de tiempo y

forma, en cuanto al tiempo su alegación en los pertinentes escritos de calificación conforme

a los arts.: 650, 656 y 728 de la LE Cr y obtenida conforme a los derechos fundamentales

como indica el art: 11.1 de la LOPJ: que implica que en el ámbito de la intimidad de las

personas la intervención de las comunicaciones y las grabaciones como señala el art,: 18

de la CE se deben acordar por resoluciones judiciales motivadas y proporcionadas a la

importancia y gravedad del caso que se investiga.

Siendo a su vez, depurada y probada la relación entre las personas que intervienen en la

prueba y el objeto del proceso.

Page 31: La idoneidad de la pericia en el ámbito judicial

31

Requisitos materiales: una vez validada la prueba en cuanto a la forma, ésta tiene un

contenido material: lo que se escucha y queda y su relación con el caso que se juzga;

siendo muy importante, que se haya respetado la cadena de custodia (que la prueba esté

desde su recogida hasta el Juicio Oral bajo la salvaguarda de la autoridad judicial).

En una pericia Acústica se informa sobre la autenticidad de los interlocutores en

intervenciones telefónicas y en grabación de conversaciones, el criterio de ajenidad y

proximidad nos sirve para distinguirlas: en las intervenciones, los sujetos son ajenos a la

grabación (que para que sea considerada como prueba válida debe ser ordenada por

resolución judicial motivada) sin embargo, las conversaciones telefónicas son grabadas por

uno de los intervinientes y éste la aporta al juicio como un “aide memoire” de su testimonio

sobre el asunto que se dirime.

Grabación de conversaciones

El criterio de los tribunales con respecto a la admisibilidad de la prueba obtenida de la

conversación entre particulares, realizada por uno de ellos está claro; pues el Tribunal

Constitucional dictaminó ya en la Sentencia nº 114 del 98 que para que pueda hablarse de

violación en el secreto en las comunicaciones es imprescindible que la intervención se

produzca por quienes son ajenos a la comunicación misma.

Estableciendo, que no hay secreto para aquél a quien la comunicación se dirige; diferenciado:

que quien graba la conversación de otros atenta al derecho reconocido por la CE del art 18. 3,

pero quien graba la comunicación con otros no incurre por este solo motivo en conducta

contraria a derecho.

En otra sentencia del TS de 1-3-1996 (Ponente Excmo. Sr. D. José Antonio Martín Pallín) se

estableció (en un caso de por tráfico de estupefacientes) que cuando un contertulio emite

voluntariamente sus opiniones o secretos sabe de antemano que se despoja de sus

intimidades y las transmite a quién las escucha, el cual, podrá usar su contenido sin incurrir

en ningún reproche jurídico.

Page 32: La idoneidad de la pericia en el ámbito judicial

32

Un testigo puede relatar lo escuchado en un proceso criminal y será considerado por ello

como testigo referencial (art 710 L Ej Crim) pudiendo constituirse dicho testimonio en prueba

válida legal y de cargo, estando acompañada de la grabación de la conversación que se

aporta al juzgado previamente para verificar su autenticidad y realizar su trascripción con la fé

del Secretario, etc

Intervención de las comunicaciones

Penalización: El CP en su artículo 198 establece como delito: ….la interceptación de las

telecomunicaciones o la utilización de artificios técnicos de escucha, transmisión, grabación o

reproducción del sonido o de la imagen…agravándose el hecho si este es cometido por

autoridad o funcionario público fuera de los casos permitidos por la Ley y sin mediar causa

legal por dicho delito.

Jurisprudencia:--versus----Legitimidad. El Auto de la Sala 2ª del Tribunal Supremo de

18-6-1992 se constituye como “corpus iuris” en cuanto a los aspectos procedimentales de

esta prueba, estableciendo la importancia de que el material de audio este controlado por el

órgano judicial mediante custodia de las cintas originales, trascripción bajo fe del Secretario

Judicial etc.

El Tribunal Constitucional en reiteradas sentencias como la nº 166/99 y171/99 y la sentencia

sobre el caso Kas del Tribunal Europeo de los Derechos Humanos de Estrasburgo establece:

1º Que la medida de restricción del derecho a las comunicaciones deberá estar prevista

legalmente con suficiente precisión (principio de legalidad formal y material).

2º Que tendrá que decidirse por autoridad judicial en el marco de un proceso.

Page 33: La idoneidad de la pericia en el ámbito judicial

33

3º Que se realizará con estricta observancia del principio de proporcionalidad, es decir la

medida será necesaria para alcanzar un fin constitucionalmente legítimo como es la

prevención de delitos calificados de infracciones graves y tendrá que ser la medida idónea e

imprescindible para la investigación de tales delitos.

Juriprudencia.--versus-----Ilegitimidad. Según exponen las STC nº 121 y151(ambas de 1998)

con la intervención de las comunicaciones se vulnera el derecho al secreto de las mismas del

art de la CE nº 18; cuando no se respetan las garantías constitucionales en algunas de las

fases del proceso; circunstancia que se produce si esta medida no es decidida por el

órgano jurisdiccional competente, o por desproporción en la aplicación de la misma debido a

la inexistencia de presupuestos materiales de delito., (arts579.2 y3 de la LE Crim) es decir,

existencia de una investigación por un hecho constitutivo de infracción punible grave, indicios

del hecho constitutivos de dicha infracción y conexión con estos hechos del sujeto intervenido.

La actuación policial (siguiendo lo establecido por el Convenio de Roma) se realizara bajo

tutela y garantía del Poder Judicial; debiendo ser un Órgano Jurisdiccional independiente

quien de forma razonada y previa ponderación de la proporcionalidad, razonabilidad, y

necesidad de la medida, acuerde la intervención de las comunicaciones.

Además, la infracción del derecho a la privacidad en las comunicaciones (art 18.3 CE) puede

vulnerar el Principio de Presunción de inocencia (art 24.2 CE); concluyendo con el (art 11. 1

de la Ley Orgánica del Poder Judicial) según el cual: no surtirán efecto las pruebas obtenidas

violando directa o indirectamente un derecho fundamental que serán declaradas nulas de

pleno derecho. FUINGAIRIÑO BRIGAS, E [5].

Page 34: La idoneidad de la pericia en el ámbito judicial

34

5. DISEÑO EXPERIMENTAL

5. 1 La influencia microfónica en la identificación de locutores con fines

forenses

Hipótesis: Influencia o no de los micrófonos en las tasas de identificación de locutores:

Base de datos Ahumada, formada por las grabaciones por distintos medios de 103

locutores en español.

Diseño experimental: cotejo entre los locutores 1 y restantes hasta un total de 30 en

grabaciones de los micrófonos 1 y 2: autos y cruzados (comparándolos consigo mismos y

entre ellos). Se calculan las distancias euclídeas y la alineación temporal dinámica (DTW)

con el programa Praat y después se tratan estadísticamente los datos con Excel

2007utilizando las macros creadas para optimizar losl cálculos por el profesor José. L. Ramón.

MICROFONOS 1 y 2 : (Características técnicas del fabricante).

- Micrófono 1, AKGD80S cardioide de sobremesa

Tipo de transductor……………………………..Dinámico de gradiente de presión.

Diagrama polar (direccionalidad)………………Cardióide.

Rango de frecuencias…………………………..60-18000 Hz.

Sensibilidad a 1 kHz……………………………10 Ohms.

Impedancia de carga recomendada…………..1000 Ohms

Máximo NPS para THD≤1%/≤3% …………… 50 Pa* (128 dB NPS) /138 dB.

Sensibilidad al zumbido de red…………………35 µV / 5 µT.

Page 35: La idoneidad de la pericia en el ámbito judicial

35

Condiciones climáticas ………………………….Rango de temperaturas -10º C a + 65 º C

Humedad Relativa a +20º C (68º F):95%

Tipo de conector……………………………… XLR estándar macho de 3 pin.

Conexiones………………………………………Pi n 1: Masa.

Pin 2: Audio en fase.

Pin 3: Audio (retorno).

Audio. Dimensiones……………………………. Longitud: 185 mm, ∅: 54 mm.

Peso Neto/bruto………………………………….210 / 500 gramos.

Sensibilidad………………………………………1.6 mV / pascal.

Respuesta frecuencia…………………………. ∆f= 64 Hz-6.4 kHz.

- Micrófono 2, SONY ECM-66B de solapa .

Tipo de transductor………………………...............De condensador Electret.

Diagrama polar (direccionalidad)………………… Unidireccional.

Rango de frecuencias…………………….............7-14000 Hz,

Sensibilidad 1 KHz (desv. De ± dB)…................Tensión en circuito abierto:

dB (3.16 mv, 0 dB=1 V/1 Pa )

nivel de salida eficaz:

dB( 0 dBm = 1mW/ 1Pa)

Impedancia de carga recomendada

superior a 3 kHz

Page 36: La idoneidad de la pericia en el ámbito judicial

36

Impedancia de salida……………….....................100 Ohm s±20% balanceada.

Relación Señal/Ruido…………………………… Mayor de 65 dB (a 1 kHz, 1 Pa).

Ruido de viento………………………………… Menor de 50 dB NPS (con protector antiviento)

Ruido inducido por campo electromagnético ext. Menor de 5 dB NPS/mG.

Máximo NPS para TDH ≤1% a 1 KHz………………130 d B NPS (63.2 Pa)

Rango dinámico………………………………………… Mayor de 101 dB

Condiciones climáticas………………………………….De-20ºC a +60ºC para almacenamiento

De 0º C a+60º C para funcionamiento.

Tipo de conector…………………………………… …XLR estándar macho de 3 –pin.

Dimensiones y peso del micrófono Longitud: 24.2 mm; diámetro de cabeza 0.6 mm, peso

aproximado en g.

Dimensiones y peso micrófono: Longitud 24.2 mm, ∅ cabeza 10.6 mm. Peso aprox 7 g.

Dimensiones y peso pre-amplificador……………………Longitud: 163 mm, diámetro: 20 mm

Peso aproximado: 160 g

Sensibilidad……………………………………………………3.2 mV / pascal.

De estas características técnicas se destaca que el micrófono SONY tiene una sensibilidad

Page 37: La idoneidad de la pericia en el ámbito judicial

37

mayor: de 3.2 mV/pascal; frente al AKG de 1.6 mV/pascal, además de contar el primero con

un protector antiviento del ruido inducido, del que se sirve para limpiar el sonido de entrada en

la grabación.

Además el tipo de transductor(sistema empleado para la captación del sonido) nos indica si el

sonido ha sido captado en una o varias direcciones, el AKG es un micrófono cardiode de

presión lo cual indica que tiene forma de corazón con una entrada del sonido bidireccional a

dos caras (como la forma de un 8), este tipo de micrófono se emplea en obras de teatro o

representaciones con varias fuentes sonoras, sin embargo el SONY al poseer un sistema de

condensador electret capta el sonido en una sola dirección, siendo más apto para la grabación

de locuciones sin interferencias ambientales.

Estas características cobran especial importancia una vez analizamos los datos obtenidos en

donde sí queda patente , que la mayor sensibilidad de uno de los micrófonos influye real

mente en los resultados obtenidos.

Por tanto resulta necesario señalar que hay variables técnicas controlables en el análisis de la

voz, que optimizan los resultados, siendo la utilización de un micrófono adaptado

imprescindible para la grabación controlada de la voz a analizar.

5. 2 Estructura del árbol de ficheros de la base de datos Ahumada

Adopta en máximo de caracteres que permite el sistema operativo MS-DOS que es de 8;

quedando clasificadas las grabaciones según el siguiente esquema del ejemplo: ORTEGA,

J. J. MARRERO. V., [9].

0 2 0 T 2 E 0 0.B D A

Page 38: La idoneidad de la pericia en el ámbito judicial

38

Figura 8. Esquema de la base de datos Ahumada

De este ejemplo a la vista del esquema se deduce:

Que se trata del locutor nº 20 (tres primeros caracteres “020”).

La tarea E se refiere a lectura texto propio, los dos ceros “00 “ se corresponden con que no ha

realizado una subtarea en la lectura.

Para los ficheros en grabación microfónica existen 26 ficheros por canal en cada sesión, al

ser tres sesiones en estéreo con 26 ficheros por 6 canales diferentes; resultan 156 ficheros

por locutor en las tres sesiones microfónicas.

5. 3 Distancia euclídea normalizada

El algoritmo para comparar muestras sonoras y decidir sobre la identidad del hablante

basado en la distancia euclídea normalizada, presenta la ventaja de funcionar sin

necesidad de realizar una caracterización estadística de los diferentes locutores, por lo que,

puede ser empleado con un número reducido de muestras de voz; parte del éxito en la

utilización preferente del DTW, radica en haber sido propuesto por un grupo de trabajo

compuesto tanto por expertos en fonética forense, como por ingenieros eléctricos y

electrónicos. El método, destaca por su simplicidad, tanto de cálculo como en la

implementación.

Número Locutor

Tarea

Extensión de Base de Datos Ahumada

Apartado de la tarea

Vía de grabación y sesión

Page 39: La idoneidad de la pericia en el ámbito judicial

39

La hipótesis de partida es, como se ha mencionado anteriormente: que si el vector de

parámetros es suficientemente dependiente del locutor, éste se parecerá más a sí mismo

que al resto, es decir, la variabilidad intralocutor del vector debe ser menor que la

variabilidad interlocutor.

La medida del parecido entre muestras se realiza por medio del cálculo de su distancia

euclídea, midiéndose tal distancia entre la muestra dubitada y la indubitada; así como con

cada una de las muestras de distracción. Puesto que las componentes del vector de

parámetros pueden ser de diferente orden de magnitud, cuanto mayor valor presente una

componente tanto más peso va a tener en la medida de la distancia.

Para evitar un efecto de baremo no deseado entre las diferentes componentes, la distancia

se mide normalizando los valores con un vector de normalización que iguale el orden de

magnitud de cada una de las componentes.

Si las componentes del vector de parámetros presentan un diferente grado de

discriminación, el vector de normalización puede emplearse también para otorgar un mayor

peso a las componentes más discriminantes.

Con el fin de que el mismo proceso pueda aplicarse independientemente a cualquier vector,

y para que los resultados puedan compararse directamente, el resultado de la medida de la

distancia entre las diferentes muestras se normaliza a su vez en un rango común, de modo,

que la distancia menor valga 1 y la mayor 10.

De este modo, si el resultado de una medida no es concluyente acerca de la identidad del

locutor dubitado, la prueba puede complementarse repitiendo la medida con un vector de

parámetros distinto.

5. 4 Resultados obtenidos con el método DTW.

Partiendo de la base de datos Ahumada utilizamos los 30 primeros locutores en grabaciones

de conversación espontánea con los micrófonos 1 y 2.

Page 40: La idoneidad de la pericia en el ámbito judicial

40

Con el programa Praat (ver Figuras 9 y 10) y RAMÓN, J. L., ROSIQUE, M., [10], hallamos

los coeficientes cepstrales que representa la información del tracto vocal de cada uno de los

locutores y poder así realizar la alineación temporal dinámica y calcular las distancias entre e

intralocutores y así a través de la utilización de un criterio adaptado de corte realizar la

identificación entre los distintos hablantes.

Figura 9. Cotejo semiautomático intralocutor para las señales microfónicas B01 y B02 del

mismo locutor L001. Obsérvese el valor de la distancia 138.203 entre el mismo locutor.

Page 41: La idoneidad de la pericia en el ámbito judicial

41

Figura 10. Cotejo semiautomático interlocutor para las señales microfónicas B01 y B02 de

distintos locutores L001 y L002. Obsérvese el valor de la distancia 150. 352, entre dichos

locutores.

5. 5 Criterios de comparación y toma de decisiones.

El criterio de comparación y decisión para asignar y comparar las distancias ha sido un

criterio que hemos llamado adaptado. Es decir se ha calculado el corte adaptado o

separación entre los locutores a través de las 45 medias de cada uno de los locutores que

constituyen el cotejo.

Page 42: La idoneidad de la pericia en el ámbito judicial

42

Así si estamos cotejando los locutores L001 y L002, tendremos en cuenta los resultados:

1. Distancia media intralocutor 1 d1=128.28

2. Distancia media intralocutor 2 d2=108.92

3. Distancia media interlocutores 1-2 d1-2=151.34 desviación típica = 5.16

4. Criterio adaptado o corte

Cadap =MediaCruzado – (1,64)* σ Cadap =151.34 - (1.64) x 5.16= 142.87

En resumen:

Si el valor de Cadap del cotejo interlocutores es mayor que las dos distancias intralocutor:

Los locutores son distintos.

Si el valor de Cadap del cotejo interlocutores se sitúa entre las dos distancias d1 y d2: (7)

No hay decisión.

Si el valor de Cadap del cotejo interlocutores es menor que las dos distancias d1 y d2:

Se trata del mismo locutor.

La Tabla 1 representa las medias y la desviación típica de las distancias entre los locutores

Page 43: La idoneidad de la pericia en el ámbito judicial

43

del 1 al 30, tanto para los cotejos intralocutores (autos) como los interlocutores (cruzados),

hallados con Excel/2007, calculándose un criterio de corte adaptado automático para

discriminar los distintos cotejos, de acuerdo con el criterio mencionado anteriormente (7). Así

en la Tabla 1, 2, 3 y 4 se muestran los resultados correspondientes a los 30 locutores

estudiados. En las 2 primeras columnas se indican los resultados intralocutores y en las

columnas 3, 4 y 5 los resultados interlocutores, media y desviación típica.. En la columna 6, se

muestran los resultados del criterio de clasificación o corte adaptado. En las columnas 7

(Cotejo A) se indica si el corte supera o no el valor intralocutor primero (1 ó 0) y en la columna

8 (Cotejo B) se indica si el corte supera o no el valor intralocutor segundo (1 ó 0). Así en

particular,en la primera línea de la Tabla 1, la columna Cotejo A aparece como 1, dado que el

corte:142.28 supera al valor “Mean” del locutor1: 128.28. En la columna B aparece también 1,

dado que el corte: 142.28 supera al valor “Mean” del locutor2: 108.92. En este ejemplo

concluiríamos que el locutor1 y el locutor2 son distintos.

Tabla 1. Datos correspondientes a la grabación con micrófono 1: locutores del 1-30 (autos y

cruzados).

Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor1 128.28 L001.2 151.34 5.16 142.87 1 1 locutor2 108.92 L001.3 158.49 7.60 146.03 1 1 locutor3 131.35 L001.4 148.49 7.24 136.61 1 1 locutor4 131.06 L001.5 149.18 5.87 139.56 1 1 locutor5 133.60 L001.6 147.79 4.98 139.62 1 1 locutor6 115.59 L001.7 171.25 4.66 163.61 1 1 locutor7 119.34 L001.8 171.50 6.83 160.31 1 1 locutor8 122.08 L001.9 145.85 5.03 137.60 1 1 locutor9 110.95 L001.10 149.26 5.85 139.67 1 1

locutor10 113.16 L001.11 143.47 4.75 135.68 1 1 locutor11 107.63 L001.12 152.36 6.87 141.08 1 1 locutor12 129.47 L001.13 156.46 7.11 144.81 1 1 locutor13 137.43 L001.14 168.99 9.83 152.87 1 1 locutor14 130.70 L001.15 170.62 5.68 161.31 1 1 locutor15 121.80 L001.16 153.38 5.88 143.73 1 1 locutor16 125.86 L001.17 174.81 7.07 163.22 1 1 locutor17 134.66 L001.18 143.69 6.56 132.93 1 1 locutor18 115.76 L001.19 155.44 5.59 146.27 1 1

Page 44: La idoneidad de la pericia en el ámbito judicial

44

locutor19 137.75 L001.20 156.33 6.83 145.13 1 1 locutor20 125.87 L001.21 158.26 6.62 147.40 1 1 locutor21 120.17 L001.22 189.52 5.33 180.77 1 1 locutor22 126.63 L001.23 155.26 6.16 145.15 1 1 locutor23 113.27 L001.24 159.94 5.37 151.13 1 1 locutor24 120.98 L001.25 157.29 5.88 147.66 1 1 locutor25 126.44 L001.26 171.62 4.65 163.98 1 1 locutor26 125.40 L001.27 175.68 5.53 166.62 1 1 locutor27 133.01 L001.28 154.36 4.71 146.64 1 1 locutor28 123.25 L001.29 153.95 5.83 144.40 1 1 locutor29 112.78 L001.30 156.59 6.22 146.39 1 1 locutor30 122.26

En la Tabla 2 se utiliza el micrófono 1 al igual que en la Tabla 1 pero se parte del locutor 3 al 30,

se realiza la media y la desviación típica de los autos y cruzados y como resultados los cotejos

no son coincidentes en 8 locutores quedando sus respectivas distancias medias entre el

criterio de corte por lo cual no hay decisión.

Tabla 2. Datos correspondientes a la grabación con micrófono 1: locutores del 3-30 (autos y

cruzados).

Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 3 131.35 L003.4 156.67 9.43 141.20 1 1 locutor 4 131.06 L003.5 159.04 8.07 145.81 1 1 locutor 5 133.60 L003.6 140.38 8.01 127.24 0 1 locutor 6 115.59 L003.7 144.37 6.55 133.63 1 1 locutor 7 119.34 L003.8 157.43 8.09 144.16 1 1 locutor 8 122.08 L003.9 143.44 7.96 130.39 0 1 locutor 9 110.95 L003.10 140.77 8.78 126.37 0 1 locutor10 113.16 L003.11 150.58 7.64 138.05 1 1 locutor11 107.63 L003.12 144.67 8.26 131.12 0 1 locutor12 129.47 L003.13 151.98 8.05 138.78 1 1 locutor13 137.43 L003.14 142.39 6.95 131.00 0 1 locutor14 130.70 L003.15 149.37 8.26 135.83 1 1 locutor15 121.80 L003.16 151.52 9.27 136.32 1 1 locutor16 125.86 L003.17 150.92 8.93 136.28 1 1

Page 45: La idoneidad de la pericia en el ámbito judicial

45

locutor17 134.66 L003.18 150.43 7.94 137.41 1 1 locutor18 115.76 L003.19 151.29 8.08 138.04 1 locutor19 137.75 L003.20 148.46 8.53 134.48 1 1 locutor20 125.87 L003.21 148.22 6.66 137.29 1 1 locutor21 120.17 L003.22 164.39 7.88 151.47 1 1 locutor22 126.63 L003.23 144.80 8.33 131.14 0 1 locutor23 113.27 L003.24 144.15 8.80 129.72 0 1 locutor24 120.98 L003.25 154.76 6.82 143.57 1 1 locutor25 126.44 L003.26 167.67 8.51 153.71 1 1 locutor26 125.40 L003.27 151.10 7.42 138.93 1 1 locutor27 133.01 L003.28 151.61 7.82 138.79 1 1 locutor28 123.25 L003.29 138.75 7.12 127.08 0 1 locutor29 112.78 L003.30 146.37 6.80 135.23 1 1 locutor30 122.26

En la Tabla 3 con el micrófono 2, se muestran los cotejos con la medias de las distancias y

criterio de corte adaptado de los locutores del 1 al 30 dan como resultado la identificación de

los locutores distintos, al ser los cotejos A y B coincidentes en resultar 1.

Tabla 3. Datos correspondientes a la grabación con micrófono 2: locutores del 1-30 (autos y

cruzados.

Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 1 124.54 L001.2 140.44 5.16 131.97 1 1 locutor 2 105.41 L001.3 149.02 5.99 139.21 1 1 locutor 3 120.51 L001.4 148.72 5.94 138.98 1 1 locutor 4 124.51 L001.5 144.64 5.29 135.96 1 1 locutor 5 128.12 L001.6 156.99 5.07 148.66 1 1 locutor 6 112.68 L001.7 178.62 5.35 169.85 1 1 locutor 7 124.34 L001.8 169.65 6.80 158.49 1 1 locutor 8 118.29 L001.9 143.04 4.42 135.79 1 1 locutor 9 112.50 L001.10 155.61 4.87 147.63 1 1 locutor 10 110.31 L001.11 157.44 6.22 147.24 1 1 locutor 11 117.45 L001.12 146.55 5.45 137.62 1 1 locutor 12 120.92 L001.13 159.69 6.27 149.40 1 1 locutor 13 135.34 L001.14 160.62 5.69 151.28 1 1

Page 46: La idoneidad de la pericia en el ámbito judicial

46

locutor 14 127.39 L001.15 175.83 5.07 167.52 1 1 locutor 15 118.42 L001.16 151.51 6.07 141.55 1 1 locutor 16 124.09 L001.17 161.55 6.87 150.27 1 1 locutor 17 127.90 L001.18 149.53 5.73 140.13 1 1 locutor 18 119.61 L001.19 164.92 6.27 154.63 1 1 locutor 19 134.94 L001.20 153.53 6.08 143.57 1 1 locutor 20 124.47 L001.21 162.70 5.45 153.75 1 1 locutor 21 122.67 L001.22 175.83 4.36 168.69 1 1 locutor 22 128.15 L001.23 155.20 6.10 145.19 1 1 locutor 23 117.98 L001.24 164.83 4.34 157.70 1 1 locutor 24 123.87 L001.25 153.96 5.54 144.87 1 1 locutor 25 125.07 L001.26 163.98 4.57 156.49 1 1 locutor 26 119.42 L001.27 166.10 3.99 159.56 1 1 locutor 27 131.15 L001.28 162.35 5.60 153.17 1 1 locutor 28 123.59 L001.29 149.31 5.70 139.96 1 1 locutor 29 108.79 L001.30 156.87 6.08 146.89 1 1 locutor 30 118.43 .

En la Tabla 4 con el micrófono 2, se muestran los cotejos con la medias de las distancias y

criterio de corte adaptado de los locutores del 3 al 30. Los resultados coinciden en 2

indecisiones del micrófono 1 para el mismo cotejo en los locutores 9 y 28, añadiendo una

nueva indecisión en el locutor 18, no confirmando el resto de indecisiones halladas con el

micrófono 1.

Tabla 4. Datos correspondientes a la grabación con micrófono 2: locutores del 3-30 (autos y

cruzados).

Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 3 120.51 L003.4 141.58 6.21 131.39 1 1 locutor 4 124.51 L003.5 148.13 4.42 140.88 1 1 locutor 5 128.12 L003.6 130.81 6.25 120.57 1 1 locutor 6 112.68 L003.7 146.76 5.53 137.70 1 1 locutor 7 124.34 L003.8 159.49 6.72 148.47 1 1 locutor 8 118.29 L003.9 132.01 5.84 122.44 1 1 locutor 9 112.50 L003.10 129.01 7.62 116.50 0 1 locutor 10 110.31 L003.11 151.46 8.02 138.31 1 1 locutor 11 117.45 L003.12 131.78 5.52 122.73 1 1

Page 47: La idoneidad de la pericia en el ámbito judicial

47

locutor 12 120.92 L003.13 149.02 7.53 136.67 1 1 locutor 13 135.34 L003.14 140.12 5.76 130.67 1 1 locutor 14 127.39 L003.15 154.25 7.16 142.51 1 1 locutor 15 118.42 L003.16 141.67 6.76 130.58 1 1 locutor 16 124.09 L003.17 148.47 7.79 135.69 1 1 locutor 17 127.90 L003.18 141.83 6.06 131.89 1 1 locutor 18 119.61 L003.19 143.41 7.83 130.57 1 0 locutor 19 134.94 L003.20 139.93 5.79 130.44 1 1 locutor 20 124.47 L003.21 146.86 6.53 136.14 1 1 locutor 21 122.67 L003.22 161.61 6.11 151.59 1 1 locutor 22 128.15 L003.23 137.64 6.44 127.07 1 1 locutor 23 117.98 L003.24 141.50 6.03 131.61 1 1 locutor 24 123.87 L003.25 139.35 5.66 130.07 1 1 locutor 25 125.07 L003.26 150.09 4.51 142.70 1 1 locutor 26 119.42 L003.27 142.52 6.77 131.42 1 1 locutor 27 131.15 L003.28 154.75 6.04 144.85 1 1 locutor 28 123.59 L003.29 129.08 5.83 119.52 0 1 locutor 29 108.79 L003.30 145.79 5.46 136.84 1 1 locutor 30 118.43

En resumen, comparando los resultados de las tablas obtenidas por el método ya explicado se

observa que las medias que están por encima de las distancias intralocutores se

corresponden con locutores distintos ( siguiendo el criterio de corte previo adoptado) mientras

que las medias por debajo, se refieren al mismo locutor y las situadas entre ambas; indican

que no hay decisión en ninguno de estos dos sentidos pudiéndose inferir en base a los

resultados que hemos obtenido: que la utilización de micrófonos distintos sí influye en el

número de indecisiones; de manera que en el micrófono 1 son de 8, mientras que el con el

micrófono 2 sólo se confirma las indecisiones en el locutor 9 y el 28 que también obtiene el

micrófono 1, añadiéndose otra indecisión nueva en el locutor 18. Cabe destacar que en las

características técnicas de ambos micrófonos se aprecia una sensibilidad mayor del

micrófono 2 de SONY (de 3.2 mV/pascal frente al micrófono AKG de 1.6 mV/pascal). Además

el Sony cuenta con un control antiviento del ruido inducido, siendo la diferencia más

destacada entre ambos micrófonos la referida al modo de captación del sonido: en el caso del

SONY unidireccional y bidireccional en el AKG.

Por otra parte, no se producen en nuestro cotejo ni falsos positivos ni negativos, es decir la

Page 48: La idoneidad de la pericia en el ámbito judicial

48

utilización de un micrófono distinto no varía la tasa de identificaciones positivas o negativas de

los locutores estudiados; pero sí influye sensiblemente en el número de identificaciones pues

aumenta el índice de indecisión.

Este resultado y todo lo anteriormente expuesto me permiten defender el aserto de que la

Acústica forense es una disciplina con un sustrato científico suficiente para responder a los

interrogantes que la justicia requiere en la sociedad actual.

Si bien se trata de un campo con pocos años desarrollo, es de señalar que los últimos

avances e investigaciones en análisis forense de la voz humana; se encaminan hacia el

estudio de Modelos bioinspirados en el comportamiento de la fonación y sobre todo de la

audición. En este último nivel existe un proyecto en marcha en el que trabajan de manera

conjunta, aunando aportaciones, las Universidades de Salamanca y Murcia junto a la

Politécnica de Cartagena y el Servicio de Criminalística de la Guardia Civil.

6. CONCLUSIONES 1ª. Hemos comprobado que con los sistemas de reconocimiento actuales tales como el

programa Praat, se posibilita, el análisis de muestras con grabaciones de conversaciones

espontáneas de frases completas ( que son las muestras más habituales en la práctica) a

diferencia de otras técnicas como las de LPC que midiendo la amplitud de los formantes,

realiza el análisis descomponiendo el sonido en vocales para hallar el formante más

identificativo, siendo un método muy preciso, éste es más efectivo para situaciones

prediseñadas de investigación en laboratorio y forenses.

2ª. Destaca de entre otros métodos utilizados la Alineación Temporal Dinámica (DTW) como

uno de los mejores algoritmos de decisión para la identificación forense, debido sobre todo, a

que el cálculo de la distancia euclidea nos permite analizar la voz en conversaciones

espontáneas que son las más usuales en la práctica forense y que el posterior tratamiento

estadístico de los datos no resulta muy complicado.

3ª. Se pude utilizar la pericia acústica como prueba documental en el proceso judicial

Page 49: La idoneidad de la pericia en el ámbito judicial

49

complementando el testimonio del testigo que la aporta, ya que sirve para identificar a los

hablantes con suficiente rigor científico. Para su obtención se utilizan parámetros

controlados, contrastados y reproducibles para su comprobación empírica, que son los

requisitos indispensables a cualquier método científico.

4ª. La certeza en la identificación de un sujeto con los métodos habitualmente empleados

(como son el CLS y el Praat) es de un 95% aproximadamente; ligeramente inferior a la que se

puede conseguir con las pruebas biológicas de ADN.

5ª. Los resultados que hemos obtenido con el diseño experimental sobre la influencia

microfónica en la identificación de locutores nos permite inferir que los micrófonos utilizados

influyen significativamente en el índice de indecisiones (8 indecisiones en Micrófono uno-AKG

y 2 indecisiones Micrófono dos-Sony), no dando lugar ni a falsos positivos ni negativos, lo cual

indica que el uso de distintos micrófonos afecta a las indeterminaciones del sistema de

identificación modificando el índice de indecisión del mismo, pero no afecta a la propia

capacidad identificativa del sistema.

7. BIBLIOGRAFÍA

1. ALTUZARRA NIETO, A., 1996. Estudio comparativo de los distintos sistemas de análisis

de la voz. (pp. 139 a la 149). En GARCÍA-TAPIA URRUTIA, R., CORBETA MARCO, I.,

Diagnostico y tratamiento de los trastornos de la voz. SEORL y Patología Cérvico-Facial.

Patrocinado por Omega Tecnobío. Editorial Garsi S.A.

2. BATANER GIL, J., 2004. Estudio fonético-acústico de la variación Inter-Intralocutor en

español para el reconocimiento automático de locutores con fines forenses. VILE: proyecto de

estudio acústico de la variación inter- intra locutor en español. 2002-2004. Departamento de

Filología Española Universidad Autónoma de Barcelona. [email protected].

3. DODDINGTON, G., 1998. Sheeps, Goats, Lambs and Wolves. A Statistical Análisis of

Speaker Performance in the NIST Speaker Recognition Evaluation.

Page 50: La idoneidad de la pericia en el ámbito judicial

50

4. ESTEVE ELIZALDE, C., 2007. Reconocimiento de locutores dependiente del texto

mediante adaptación de Modelos Ocultos de Markov. Proyecto Fin de Carrera Escuela

Politécnica Universidad Autónoma Madrid. ( Figuras: 2, 3, 4. pp.: 7-11).

5. FUINGAIRIÑO BRIGAS, E.; 2000. Notas sobre la prueba de audio en el Proceso Penal.

Memoria Actas Congreso 1º. Sociedad Española Acústica forense

6. JAKSON MENALDI, C. A., ARAUZ, J. C., y BENVENUTO, M., 2002. La voz Normal. (pp

15- 59). Editorial Médica Panamericana

7. JAKSON MENALDI, C A., 2002. La voz Patológica. 216-222. Editorial Médica

Panamericana.

8. RAMÓN, J. L., SANCHEZ-MOLERO, J.A. CANTERAS, M. y GARCERÁN, V., 2000.

Identificación semiautomática de hablantes mediante parámetros extraídos de espectros

suavizados en locuciones de larga duración (LTA) y el valor medio de la frecuencia

fundamental(F0). Memoria Actas 1º Congreso, Sociedad Española de Acústica Forense. pp.

163-168

9. ORTEGA, J. GONZÁLEZ, J., MARRERO, V., 2000, AHUMADA: a la large corpus in

Spanish for speaker characterization and identification. Speech Communication 31, 2-3. (pp

255-264).

10. RAMÓN, J. L., ROSIQUE, M., (becario) ,2005. Preparación del Algoritmo de

computo Paramétrico. Subproyecto 2: Sistemas bioinspirados de análisis de voz.

Código: cit-390000-4. Universidad de Murcia. (Figuras 9 y 10).

Page 51: La idoneidad de la pericia en el ámbito judicial

51

11. ROMÁ ROMERO, M., RAMÓN GARCÍA, J. L., 2004. Influencia de los parámetros de un

algoritmo de decisión basado en la distancia geométrica normalizada en las tasas de error en

la identificación de locutores con fines forenses. 2-3. Cátedra Física Médica. Facultad de

Medicina. Escuela Politécnica Superior Universidad de Alicante

12. Wiquipedia. La Enciclopedia Libre. (www.wiquipedia.com)