loquendo_vis v6.1_es(orig)

60
 loquendo.com Sistema de identificación de voz Loquendo Identificación libre de conversación Versión 6.1 Manual de Uso

Upload: jorge-ra

Post on 11-Jul-2015

137 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 1/60

loquendo.com

Sistema de identificación de vozLoquendo

Identificación libre de conversación

Versión 6.1

Manual de Uso

Page 2: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 2/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Sistema de identificación de voz Loquendo

Versión 6.1

Manual de Uso

6.1.0 

25 de septiembre de 2009

© 2001-2009 Loquendo – Todos los derechos reservados

Sólo para uso interno

La información que se proporciona en este documento está sujeta a cambios

Este documento no puede fotocopiarse ni reproducirse bajo ninguna forma, ni total ni parcialmente,sin el permiso por escrito de Loquendo

Las marcas que se indican en este documento son de propiedad de sus titulares

2/60 Sólo para uso interno 

Page 3: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 3/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

¿Qué hay de nuevo?

 Acerca de la versión del producto

El sistema de identificación de voz versión 6 de Loquendo es la evolución de Loquendo VIS – versión5. Tiene una interfaz más atractiva que emplea nuevos métodos gráficos para un uso más fácil. Elnuevo GUI optimiza el acceso a cada operación tecnológica y facilita el intercambio de informaciónentre las ventanas de diálogo.

Se han introducido muchos cambios en lo que se refiere a rendimiento y precisión gracias a latecnología de doble motor basada en un PGMM conjuntamente con un motor clásico GMM.

La precisión de identificación de la persona que habla es mejor que en la versión anterior. Hemosestimado un aumento de 15% en lo que se refiere a la tasa de error igual (EER). La mejora se haobtenido combinando un nuevo motor GMM de identificación de hablantes con el sistema fonético yadisponible en la versión anterior.

Se ha introducido una nueva técnica de modelación de hablantes, que permite un mejor 

rendimiento en entradas de sonido breves y con la presencia de no coincidencias entre lascondiciones de entrenamiento y prueba (por ejemplo, grabaciones de teléfono frente a grabacionesde micrófono). Además, LVIS 6.1 incluye modelos mejorados para la compensación de canales.

El nuevo motor es totalmente compatible con las huellas vocales entrenadas con LVIS v5.0 y5.1. Además, las huellas vocales de LVIS v6.1 y v5.x pueden mezclarse en el mismo comando dereconocimiento. Recomendamos volver a entrenar las viejas huellas vocales, si es posible, paraaprovechar al máximo de la técnica de modelación mejorada.

Se ha mejorado la precisión de segmentación de hablantes de un 20% gracias a un nuevo algoritmoinnovador basado en factores de hablantes.

Se ha mejorado la precisión de identificación del idioma, en nuestros datos de desarrollo, de un 25%

en lo que se refiere a la reducción de la EER.Están disponibles, como resultados adicionales, la relación de señal/ruido y la detección del tonoDTMF (multifrecuencia de doble tono) para todas las tareas (entrenamiento, identificación).

 Acerca de la revisión del documento

En la primera revisión de la versión 6. 1.0 se proporciona una perspectiva general del producto y sedetallan todas las operaciones. En el manual se explica cómo planear un proyecto y cuáles son lasrecomendaciones que hay que tomar en consideración para obtener el mejor rendimiento.

La versión 6.1.0 con respecto a la versión 6.0.0

LVIS  v6.1 ha ampliado el grupo de idiomas para el reconocimiento de idiomas e incluye losmodelos italiano y hebreo. Además el modelo árabe se ha mejorado añadiendo los dialectos egipcio,del golfo, iraquí y levantino. Los demás modelos de reconocimiento de idiomas han sido reentrenadospara tener en cuenta los nuevos idiomas participantes. El número total de idiomas admitidos por elmotor de reconocimiento del idioma LVIS ahora es 15 [2].

Se ha adoptado una nueva estrategia de asignación de memoria en LVIS v6.1 que permitereducciones de memoria para las funciones no autorizadas. Por ejemplo, si está habilitadaúnicamente la identificación de hablantes, la memoria global y la memoria relacionada con elreconocimiento del idioma y la segmentación de hablantes no se usa.

LVIS  v6.1 incluye además una versión mejorada del proveedor de sonido del archivo deconversación, extendiendo las codificaciones admitidas y frecuencias de muestreo. Actualmente, la

nueva versión puede procesar los archivos de sonido RIFF-WAVV con una codificación PCM lineal de

Sólo para uso interno 3/60

Page 4: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 4/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

8 bits, además de las codificaciones admitidas por la versión anterior, con una frecuencia de muestreoque se extiende de 8 a 48 KHz.

Características nuevas

• Modelos nuevos de italiano y hebreo para el reconocimiento del idioma.• Se ha adoptado una nueva estrategia de asignación de memoria que permite la reducción de

memoria para las funciones no autorizadas.

La versión 6.0.0 con respecto a la versión 5.1.1

Esta versión importante de LVIS  v6.0 incluye un sistema completamente renovado deidentificación de idiomas. Para identificar los idiomas actualmente se usa la combinación de un motor fonético basado en la arquitectura patentada NN-HMM de Loquendo y un nuevo sistema acústico. Losresultados de precisión se han mejorado muchísimo con respecto a la versión anterior. Además, esposible inhabilitar el motor fonético para mejorar la eficiencia a favor de la precisión.

Características nuevas

• Nuevo sistema de identificación de idiomas (acústico y fonético) con doble motor.

4/60 Sólo para uso interno 

Page 5: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 5/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Sólo para uso interno 5/60

Page 6: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 6/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Índice

La versión 6.1.0 con respecto a la versión 6.0.0................................................................................3Características nuevas...................................................................................................................4

La versión 6.0.0 con respecto a la versión 5.1.1................................................................................4Características nuevas...................................................................................................................4

1 Introducción del documento.................................................................................................................91.1 Organización del documento........................................................................................................91.2 Verificación de la apertura............................................................................................................9

2 Perspectiva general de Loquendo VIS..............................................................................................112.1 Escenario de referencia..............................................................................................................112.2 El proyecto como elemento básico de Loquendo VIS.................................................................12

3 Sistema Loquendo VIS......................................................................................................................133.1 Esquema del menú.....................................................................................................................133.2 Modo de uso de la identificación de hablantes............................................................................143.3 Modo de uso de la identificación de idiomas...............................................................................153.4 Modo de uso de la segmentación del sonido..............................................................................15

3.5 Progreso del proyecto.................................................................................................................154 Interfaz gráfica del usuario de Loquendo VIS....................................................................................194.1 Ejecución de la aplicación...........................................................................................................194.2 Ventana principal de Loquendo VIS............................................................................................194.3 Ventanas de diálogo comunes....................................................................................................20

4.3.1 Ventana de forma de onda...................................................................................................204.3.2 Adición de archivos de sonido al proceso.............................................................................214.3.3 Estado de ejecución.............................................................................................................22

4.4 Inicio de un proyecto ..................................................................................................................224.4.1 Proyecto nuevo.....................................................................................................................234.4.2 Actualización del proyecto....................................................................................................244.4.3 Apertura del proyecto...........................................................................................................25

4.5 Menú del proyecto.......................................................................................................................26

4.5.1 Cierre....................................................................................................................................274.5.2 Eliminación...........................................................................................................................274.5.3 Importación...........................................................................................................................274.5.4 Exportación...........................................................................................................................27

4.6 Menú de huellas vocales.............................................................................................................274.6.1 Entrenamiento de huellas vocales........................................................................................284.6.2 Resultados............................................................................................................................294.6.3 Eliminar.................................................................................................................................304.6.4 Importar................................................................................................................................304.6.5 Exportar................................................................................................................................30

4.7 Menú de identificación................................................................................................................314.7.1 Identificación de hablantes...................................................................................................314.7.2 Identificación del idioma.......................................................................................................32

4.7.3 Resultados de la identificación de hablantes........................................................................324.7.4 Comparación de sonidos......................................................................................................364.7.5 Ajuste de los umbrales de decisión......................................................................................374.7.6 Resultados de la identificación de idiomas...........................................................................39

4.8 Menú de segmentación...............................................................................................................414.8.1 Segmentación del sonido.....................................................................................................414.8.2 Resultado.............................................................................................................................424.8.3 Exportación del sonido segmentado.....................................................................................43

4.9 Menú de normalización...............................................................................................................434.9.1 Objetivo de la normalización de la puntuación.....................................................................444.9.2 Comportamiento esperado de la normalización de la puntuación........................................444.9.3 Técnicas de normalización...................................................................................................454.9.4 ¿Por qué crear una nueva serie de normalización? ............................................................45

4.9.5 Creación de una nueva serie de normalización....................................................................47

6/60 Sólo para uso interno 

Page 7: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 7/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.9.6 Modificación de una serie de normalización.........................................................................484.9.7 Eliminación de una serie de normalización...........................................................................494.9.8 Importación de una serie de normalización..........................................................................494.9.9 Exportación de una serie de normalización..........................................................................504.9.10 Cambio de la serie de normalización..................................................................................50

4.10 Menú Ayuda..............................................................................................................................504.11 Configuración del nivel de registro............................................................................................51

5 Carga automática de datos ...............................................................................................................525.1 Ejecución de Loquendo ARI........................................................................................................525.2 Especificación de formato CSV...................................................................................................535.3 El significado de los parámetros de grabación de sonidos.........................................................53

6 Referencias de soporte......................................................................................................................566.1 Soporte técnico...........................................................................................................................566.2 Soporte de autorización..............................................................................................................566.3 Soporte de ventas.......................................................................................................................56

7 Botones.............................................................................................................................................578 Definiciones y acrónimos...................................................................................................................589 Referencias.......................................................................................................................................60

Sólo para uso interno 7/60

Page 8: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 8/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

8/60 Sólo para uso interno 

Page 9: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 9/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

1 Introducción del documento

El manual de uso es la guía de referencia para toda persona que desee usar el sistema deidentificación de voz versión 6 de Loquendo. En el manual se explica como funciona la aplicación(denominada a continuación LVIS) y se detallan las operaciones necesarias para obtener losresultados de identificación.

El sistema sido diseñado considerando dos fases básicas: el entrenamiento de las huellas vocales yla fase de identificación que se explica en las siguientes secciones.

En el manual de uso se describe además el uso de las herramientas de software adicionales que seincluyen en el paquete de instalación así como el acceso de los usuarios al soporte técnico.

1.1 Organización del documento

Capítulo 2 Escenario de referencia

Capítulo 3 Arquitectura del producto y modos de usoCapítulo 4 Uso de la interfaz gráfica del usuario

Capítulo 5 Uso de la Información relacionada con el sonido Loquendo

Capítulo 6 Direcciones de correo electrónico para solicitar soporte técnico

Capítulo 7 Lista de botones

Capítulo 8 Definiciones y acrónimos

Capítulo 9 Lista de referencias

1.2 Verificación de la aperturaAntes de continuar, verifique lo siguiente:

• que el software ha sido instalado y configurado correctamente [1]

• que se tiene la licencia para el uso del software [1]

Sólo para uso interno 9/60

Page 10: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 10/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

10/60 Sólo para uso interno 

Page 11: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 11/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

2 Perspectiva general de Loquendo VIS

Loquendo VIS es un sistema autónomo y fácil de usar para el reconocimiento de hablantes enconversaciones telefónicas. Está basado en la tecnología de doble motor que emplea la biometría devoces para comprobar la identidad de los individuos. Permite una búsqueda eficiente y una rápidaidentificación de las personas anónimas que llaman por teléfono mediante la comparación de subiometría vocal con una base de datos de huellas vocales pertenecientes a los sujetos destinatarios.

Loquendo VIS ayuda a los Operadores de Seguridad  a llevar a cabo las actividades relativas alanálisis del tráfico telefónico. Su uso está destinado a las Agencias de Inteligencia y de Aplicacionesde Leyes.

La explotación de tecnologías de conversación innovadoras, combinadas con las característicasesenciales de la voz humana, permiten dedicar el tiempo de investigación sólo a aquellas llamadasque son realmente pertinentes para la investigación.

Loquendo VIS está disponible como sistema de sobremesa para un solo operador que trabaja en unPC. Mediante la capacidad de importación / exportación del proyecto, pueden fácilmente

intercambiarse los datos entre otros sistemas autónomos equipados con el mismo software.Además, LVIS puede actuar como generador Maestro de las huellas vocales señaladas. Éstaspueden usarse para alimentar sistemas que integran la tecnología Loquendo, para crear sistemascliente-servidor o de red, capaces de realizar análisis en tiempo real a gran escala.

El sistema de identificación de voces Loquendo crea las huellas vocales sobre la base deconversaciones telefónicas donde se han reconocido sujetos específicos.

Las huellas vocales pueden transferirse de un sistema a otro, con o sin el material de audio usadopara generarlas. Además, pueden asignarse apodos a las huellas vocales. Las mismas puedenactualizarse a medida que se obtiene nuevo material de audio durante la investigación.

La identificación de hablantes se realiza gracias a soluciones patentadas basadas en algoritmos

innovadores que distinguen automáticamente a los hablantes que participan en una conversacióntelefónica, extraen los parámetros vocales característicos, independientemente del idioma hablado, ycomparan los hablantes registrados con las huellas vocales disponibles.

La identificación del idioma permite la identificación del idioma usado en una conversacióntelefónica, con el beneficio del despacho rápido automático de las llamadas que entran a losintérpretes correspondientes.

La identificación del género permite reducir el número de llamadas que entran sobre la base delsexo, discriminando entre conversaciones hombre-hombre, hombre-mujer y mujer-mujer.

La interpretación del tono DTMF permite establecer el enrutamiento de una llamada telefónica asícomo cualquier otro número marcado durante la llamada.

La relación señal/ruido y la duración de la conversación grabada permite la evaluación de lafiabilidad de los resultados obtenidos en lo que se refiere a la calidad y a la duración de laconversación interceptada.

El tiempo de procesamiento del análisis de voz requiere una fracción de la duración total de laconversación, incluso cuando se comparan varias huellas vocales.

2.1 Escenario de referencia

El escenario típico relacionado con las investigaciones se muestra en la figura 2-1. Tal esquema pone

de relieve porqué LVIS es la solución ideal para los entornos de investigación y cómo puede usarse

Loquendo VIS en las actividades de investigación. En la figura, las grabaciones de sonido que vienen

de la red telefónica deben estar ya disponibles en un soporte de almacenamiento de datos (es decir,

Sólo para uso interno 11/60

Page 12: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 12/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

HD, CD, DVD, cintas). Las grabaciones pueden estar equipadas también con una serie de

parámetros telefónicos. 

Loquendo VIS procesa el sonido y proporciona algunos indicios sobre la identidad del individuo, elgénero del hablante y el idioma hablado. Todos estos indicios, si tienen alguna relación con otras

evidencias, pueden adoptarse para comprobar un crimen.

Figura 2-1 Escenario de referencia

La interoperatividad entre los grupos de investigación está garantizada gracias a la exportación deproyectos y huellas vocales. De hecho, es posible intercambiar datos y compartirlos en diferentesinstalaciones autónomas.

2.2 El proyecto como elemento básico de Loquendo VIS

Loquendo VIS ha sido diseñado para funcionar por medio de un proyecto. Todas las grabaciones quepertenecen a una investigación específica deben cargarse en el proyecto. A excepción de losaspectos de normalización, todas las características pueden explotarse en el ámbito del proyecto. Elproyecto es el elemento básico de una investigación.

Dentro de un proyecto, es necesario cargar todas las grabaciones recolectadas durante unainvestigación, como:

• Las grabaciones que serán usadas para la creación de huellas vocales

• Las grabaciones que serán usadas para el reconocimiento de hablantes o del idioma

En el proyecto se almacenan algunos parámetros relacionados con las llamadas interceptadas y deinformación acerca del hablante o de la llamada.

El proyecto contiene además las huellas vocales de los destinatarios. Los proyectos y las huellasvocales puede exportarse a otros PC equipados con el mismo software.

El proyecto contiene los resultados de las identificaciones más recientes, los mismos que puedenconvocarse en cualquier momento a través del menú de resultados.

Es posible modificar la forma de onda, borrando las partes de la señal que se consideran incorrectaspara la creación de las huellas vocales.

12/60 Sólo para uso interno 

Page 13: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 13/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

3 Sistema Loquendo VIS

3.1 Esquema del menú

En la figura 3-1 se ilustran las opciones clave disponibles con LVIS.

Figura 3-1 Opciones del menú de Loquendo VIS

En la lista siguiente se explican los nombres de los menús que pueden abrirse a través de la barra delmenú.

Proyecto

Mediante este menú se realizan todas las tareas relacionadas con la creación, actualización,cancelación, importación y exportación de un proyecto.

Huellas vocales

Mediante este menú se realizan todas las tareas relacionadas con el entrenamiento, cancelación,importación y exportación de las huellas vocales.

Identificación

Mediante este menú se realiza la identificación, como: la identificación de hablantes y la identificacióndel idioma.

Segmentación

Mediante este menú se realiza la segmentación del sonido y la exportación de los sonidossegmentados.

Normalización

Mediante este menú se realizan todas las tareas relacionadas con la creación, modificación,cancelación, importación y exportación de un proyecto. Estas tareas pueden realizarse sólo cuando elproyecto se cierra, a excepción del cambio de serie de normalización.

Sólo para uso interno 13/60

Page 14: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 14/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Tecnología Loquendo

El nombre de la biblioteca de seguridad de voz de Loquendo que proporciona acceso a los motoreses Loquendo Voice Security Library .

Bases de datos

Éstas son las bases de datos en las cuales se almacena información sobre sonidos, huellas vocales,resultados de identificación y series de normalización.

3.2 Modo de uso de la identificación de hablantes

La primera fase está relacionada con el entrenamiento de las huellas vocales. Las huellas vocalesson un modelo estadístico de la voz humana creado a partir de ciertas porciones de conversaciónpertenecientes al sujeto. En la figure 3-2 se muestra un ejemplo en el cual la huella vocal roja VP1 secrea con el sonido rojo y la huella vocal azul VP2 con el sonido azul.

Una vez que se han inscrito todas las huellas vocales, la segunda fase es la identificación de

hablantes mediante la cual el sistema compara las grabaciones desconocidas con la base de datosde huellas vocales para identificar la identidad de un individuo conocido.

Figura 3-2 Modo de uso de la identificación de hablantes

El modelo mundial y la serie de normalización forman parte de la serie de adaptación. El sistemaproporciona una serie de adaptación por defecto formada por un modelo mundial por defecto y unaserie de normalización por defecto puestos a punto para el entorno telefónico. El sistema da laposibilidad de personalizar una serie de normalización para compensar la variabilidad de puntuaciónque surge de diferentes fuentes, como: el tipo de material de inscripción puede variar entre los

hablantes; las diferencias pueden además venir del contenido fonético, la duración, el ruido ambientalasí como de la calidad del modelo de entrenamiento del hablante; en segundo lugar, la posible no

14/60 Sólo para uso interno 

Page 15: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 15/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

coincidencia entre los datos de inscripción (usados para la modelación de hablantes) y los datos deprueba son el principal problema restante en el reconocimiento de hablantes.

3.3 Modo de uso de la identificación de idiomas

En la fase de identificación de idiomas el sistema compara los sonidos con algunos modelos deidiomas. El usuario puede seleccionar uno o más idiomas entre los disponibles. Los idiomasdisponibles son: árabe, alemán, inglés, español, persa (farsi), francés, hindi, italiano, japonés,coreano, tamil, vietnamita, chino (mandarín).

figure 3-1 Modo de uso de la identificación del idioma

3.4 Modo de uso de la segmentación del sonido

En la fase de segmentación del sonido el sistema es capaz de dividir la voz del hablante A de la vozdel hablante B (dos individuos que están hablando en la grabación REC01), que generan una salidade dos segmentos distintos (dos archivos de sonido diferente), cada uno de ellos contiene la voz deun hablante.

Figura 3-4 Modo de uso de la segmentación del sonido

3.5 Progreso del proyecto

En esta sección se proporciona al usuario una idea del flujo de trabajo y su objetivo es el de mostrar los pasos básicos necesarios para obtener los resultados de identificación.

Sólo para uso interno 15/60

Page 16: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 16/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Carga de los datos

El primer paso está relacionado con la definición de un proyecto nuevo y la carga de datos en eseproyecto. El usuario tiene que clasificar con anticipación los archivos de sonido distinguiéndolos entresonidos de entrenamiento, los cuales son grabaciones que pertenecen a un objetivo y por tanto se

usan para construir las huellas vocales de ese objetivo, y sonidos de identificación, los cuales songrabaciones desconocidas para comprobar la identidad del hablante o el idioma hablado.

Los datos puede cargarse automáticamente en un proyecto a través de la lectura de un archivotextual (un archivo .CSV dispuesto correctamente que contiene el acceso directo a la grabación y asus parámetros, véase el apartado 5.2).

Una cosa más importante es la definición de un parámetro específico, denominado Número dehablantes, el cual establece el número de individuos que están hablando en una grabación. Esteparámetro es crucial para entender si el sistema tuvo que emplear la segmentación de sonidos. Lasegmentación de sonidos es una característica tecnológica, que consume mucho el CPU, que dividelas voces de las personas que están hablando en una grabación en segmentos diferentes (pistas desonido). El sistema considera la segmentación del sonido como un paso preliminar para laidentificación de hablantes.

Generalmente, el usuario debe conocer el origen de las grabaciones; de hecho, el usuario debe saber si el sonido viene de un sistema donde los dos lados de una llamada están mezclados o separados-conocido como sistema de dos cables y cuatro cables respectivamente.

El valor por defecto del Número de hablantes es "Dos hablantes”, porque los dos lados de unallamada están típicamente mezclados.

Huellas vocales de entrenamiento

Las huellas vocales deben entrenarse sobre la base de grabaciones telefónicas donde el sujetoespecífico ha sido reconocido (conocido como "grabaciones certificadas"). El usuario tiene que tener en cuenta que las huellas vocales son un modelo estadístico de la voz humana de modo que esrecomendable usar sólo aquellas porciones de conversación que pertenecen al sujeto destinatario.

En el caso de grabaciones, que han sido clasificadas con un contenido de más de un solo hablante, elsistema proporciona automáticamente la separación de las voces. Loquendo desaconseja el uso deaquellos segmentos (que son la salida de la segmentación de sonido) para entrenar las huellasvocales. Esto es porque, en este caso, el sistema reduce su rendimiento debido a la imprecisión de lasegmentación por la dificultad de división de las voces humanas, especialmente cuando laconversación está superpuesta.

En este caso, la manera correcta de continuar es evitar la forma de onda del segmento, después dehaberlo asignado al objetivo, para borrar las partes impuras.

!Nota: El entrenamiento de huellas vocales es una fase crucial que determina el sucesodel reconocimiento. Loquendo recomienda tratar de seleccionar sonidos con una buenarelación señal/ruido y una duración de conversación lo suficientemente larga (>60s).

Identificación

La identificación de hablantes, o reconocimiento de voz, es la tarea de reconocer personas a partir desus voces. Tales sistemas extraen las características de la conversación, las modelan y las usan parareconocer a la persona por su voz.

En este caso, los usuarios pueden resolver el siguiente dilema:

• “¿Quién habla?” o más bien “¿Están las huellas vocales de esos hablantes presentes en

esas grabaciones?”

16/60 Sólo para uso interno 

Page 17: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 17/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

La identificación del idioma es el proceso por el cual se establece cuál es el idioma natural de uncontenido determinado. Tradicionalmente, la identificación del idioma es importante para clasificar elmaterial. Puesto que los investigadores a menudo tienen que clasificar el material en idiomasdesconocidos, a veces usan tablas de palabras frecuentes y letras distintivas o caracteres que losayudan a identificar los idiomas.

En este caso, los usuarios pueden resolver el siguiente dilema:

• “¿En qué idioma están hablando?” o más bien "¿Los idiomas seleccionados están presentesen esas grabaciones?"

Resultado

El resultado de esta aplicación se conoce como puntuación de identificación. La puntuación deidentificación es el resultado de la comparación entre el modelo de voz (huella vocal) – o, en el casode detección del idioma, el modelo de idioma – y el sonido.

Mayormente, el rango de puntuación de identificación es de menos 5 a más 10, aunque es posibleencontrar puntuaciones más altas o más bajas. Las puntuaciones de identificación tanto del hablante

como del idioma están normalizadas para compensar las diferentes condiciones del hablante y de lagrabación.

La aplicación permite la definición de un umbral de decisión que permite la discriminación entre lasllamadas aceptadas y las rechazadas.

La tecnología devuelve además algunas medidas científicas tales como: la cantidad real deconversación y la relación señal/ruido que permite evaluar la fiabilidad de los resultados obtenidoscon respecto a la calidad y a la duración de la conversación interceptada.

Sólo para uso interno 17/60

Page 18: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 18/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

18/60 Sólo para uso interno 

Page 19: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 19/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4 Interfaz gráfica del usuario de Loquendo VIS

4.1 Ejecución de la aplicación

La aplicación puede ejecutarse seleccionando el acceso directo InicioProgramas

LoquendoLoquendo VIS LVIS. El grupo de programas de “Loquendo” consta de:

• Herramientas (subcarpeta que contiene el software para la licencia y la creación de CSV)

• Carpeta de documentos (acceso directo a la carpeta de documentos)

• LVIS (acceso directo a la aplicación)

4.2 Ventana principal de Loquendo VIS

Loquendo VIS es una aplicación de ventanas de 32 bits equipada con una interfaz gráfica de usuariofácil de usar. Es una solución autónoma, fácil de usar incluso para aquellos que no han usado nuncaantes la tecnología.

Todas las funciones técnicas que se ofrecen mediante este producto pueden obtenerse a través de laventana principal. Las funciones deben habilitarse a través de la clave de licencia. En los artículossiguientes se describe la configuración de licencia plena con todas las características habilitadas.

Figura 4-1 Ventana de diálogo principal

En el lado derecho de la ventana principal, los usuarios encontrarán cuatro botones que representanlas funciones principales Los usuarios pueden iniciar haciendo clic en el botón superior (Inicio) y a

continuación bajando hacia el botón inferior, pasando a través de la fase de entrenamiento y de las

Sólo para uso interno 19/60

Page 20: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 20/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

fases de identificación. En la parte superior de la ventana principal está situada la barra del menú quecontiene los nombres de los menús que pueden abrirse, como: Proyecto, Huellas de Voz,Identificación, Segmentación, Normalización y Ayuda. En la parte inferior de la ventana principal sevisualizan algunos datos acerca del proyecto actual, como: El nombre del proyecto actual, lacodificación de sonido de las grabaciones vocales y la serie de normalización actual.

4.3 Ventanas de diálogo comunes

En esta sección se explican las características comunes que pueden encontrarse durante los pasosde identificación. El objetivo es el de reunir todas las características generales en un solo párrafo.

4.3.1 Ventana de forma de onda

A través de la ventana de forma de onda el usuario puede ver, oír y modificar la grabación de vozdurante la investigación.

La ventana de forma de onda proporciona información acerca del formato de sonido, posición delcursor y los finales de las formas de onda visualizadas y seleccionadas.

La ventana de la forma de onda está provista de los mandos de transporte, mandos de zoom y unmando de selección de corte.

El mando de selección de corte está disponible para eliminar porciones de conversación impuras enel caso en que las grabaciones vocales tengan que enviarse para la generación de la huellas vocales.El usuario puede seleccionar la señal, a continuación borrarla mediante el " botón de selección decorte".

El usuario puede guardar el sonido, atribuyéndolo a la generación de huellas vocales.

Figura 4-2 Modificación de la forma de onda

20/60 Sólo para uso interno 

Page 21: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 21/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.3.2 Adición de archivos de sonido al proceso

Esta es una fase común en la cual los usuarios pueden añadir grabaciones vocales a una lista.Gracias a un filtro enlazado a los parámetros de grabación es posible separar las grabaciones vocalesque tienen parámetros específicos. Sobre la base de estos parámetros específicos el sistema puede

restringir la lista de sonidos pertinentes.

La ventana de filtración se denomina "Añadir Audio a…" . La segunda parte del título, denominadotambién sufijo, está relacionado con las reglas específicas, de la siguiente manera:

• Añadir Audio a SPL001 - es el título de la ventana cuando se requieren grabaciones vocalesaisladas para la construcción de las huellas vocales de John.

• Añadir Audio a Identificación de Hablantes  - es el título que se da a la ventana degrabaciones vocales aisladas para la identificación de hablantes

• Añadir Audio a identificación de Idiomas - es el título que se da a la ventana degrabaciones vocales aisladas para la identificación del idioma

El usuario puede insertar cualquier parámetro, pasan únicamente las grabaciones vocales convalores que coinciden. El criterio del filtro es la función lógica AND.

Figura 4-3 Añadir sonido a John

El número de archivos de sonido que aparece en la "Lista de sonidos" corresponde a la salida delfiltro. El usuario puede elegir los elementos resultantes o restringir aún más la serie de archivos de

sonido a cargar en el proceso seleccionando únicamente los archivos pertinentes.

Sólo para uso interno 21/60

Page 22: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 22/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.3.3 Estado de ejecución

La ventana Estado de ejecución muestra el progreso del proceso. La figura 4-4 muestran un ejemplode las barras de progreso durante una fase de entrenamiento.

Figura 4-5 Barras de progreso durante la producción de huellas vocales

4.4 Inicio de un proyecto

Para empezar la gestión de un proyecto, los usuarios pueden seleccionar el botón Inicio en las

ventanas principales. Se puede iniciar un proyecto nuevo, abrir uno existente o importar un proyectoviejo.

Figura 4-3 Ventana inicial

22/60 Sólo para uso interno 

Page 23: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 23/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.4.1 Proyecto nuevo

Para definir un proyecto nuevo hay que seleccionar el elemento “Nuevo...” en el menú de proyectos(“Ctrl+n” mediante el teclado) o a través de la ventana inicial (Figura 4-5).

Figura 4-4 Definición de un proyecto nuevo

Los usuarios deben escribir primero un nuevo nombre para el proyecto, a continuación seleccionar lacodificación del sonido identificando el sonido correcto en el menú desplegable. Todas lasgrabaciones vocales cargadas en el proyecto deben ser compatibles con el formato de sonido.

En la lista siguiente se proporcionan las codificaciones de sonido admitidas para los formatos RAW:

• Codificación vocal ITU-T G.711 a-Law PCM a-law 8kHz, 8 bits, mono

• Codificación vocal ITU-T G.711 μ-Law PCM μ-law 8kHz, 8 bits, mono

• Codificación vocal lineal ITU-T G.711 PCM lineal 8kHz, 16 bits, mono (orden de bits Intel)

En la lista siguiente se proporcionan los encabezados admitidos:

• Windows PCM (*.wav) – archivo de sonido con encabezado (formato RIFF/Wav) de 8 KHz a48 KHz

• Speech Header Resources (*.sph) - archivo de sonido con encabezado (formato Sphere)

• RAW - PCM (extensiones típicas: .pcm, .al, .ul, .raw) – archivo de sonido sin encabezado

Lógicamente, en el caso de archivos de encabezado (RIFF/Wav y Sphere), el sistema es capaz deidentificar la codificación de sonido, así como de verificar que es compatible con el contenido delsonido. Sin embargo, en los archivos RAW el sistema no puede identificar el formato ni interpretar correctamente el contenido del sonido. Por tal motivo, en ese caso, los usuarios tienen que definir lacodificación correcta.

Gracias a la casilla de verificación denominada “Usar .csv para cargar el Sonido y los Parámetros” elusuario puede cargar automáticamente las grabaciones vocales de un proyecto y sus parámetros.Cuando se marca esa casilla de verificación, el usuario puede optar por un archivo .csv específico(véase el capítulo 5). El archivo .csv es un texto preformateado con información en la ruta del archivoasí como en cualquier parámetro.

Sólo para uso interno 23/60

Page 24: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 24/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.4.2 Actualización del proyecto

Tras la definición de una nueva investigación es posible actualizar los datos del proyecto. Haciendoclic en el elemento Actualizar… (Ctrl+U en el teclado) aparece la ventana Actualización del proyecto(Figura 4-7).

A través de esta ventana los usuarios pueden cargar las grabaciones vocales configurando susparámetros. A continuación se proporcionan dos modos de uso típicos:

• Modo de ajuste (el usuario puede llenar los Parámetros principales y configurarlos a travésdel botón Guardar )\

• Modo de filtración (la lista de las grabaciones vocales puede filtrarse sobre la base de losparámetros del filtro: Tarea y Número de Hablantes)

Figura 4-5 Actualización del proyecto

El primer paso es añadir las grabaciones vocales y definir la tarea de cada una de ellas. La definiciónde la tarea debe comprender el primer paso, por medio del parámetro denominado Tarea en losParámetros Principales (para entrenamiento o para identificación). La tarea establece si la grabaciónvocal está destinada al entrenamiento de huellas vocales o a las fases de identificación.

24/60 Sólo para uso interno 

Page 25: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 25/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-8 Parámetros de sonido

A través del botón Visualizar Detalles el usuario puede visualizar y configurar algunos datos en elaudio (Figura 4-8).

Cuando la definición del parámetro Tarea es para entrenar huellas vocales y el Número de hablantesno es “Un solo hablante", el sistema segmenta automáticamente ese archivo. Esto es porque elentrenamiento de huellas vocales no puede realizarse con el sonido de varios hablantes. Lasegmentación ayuda a separar a los hablantes, pero al final los usuarios deben limpiar los archivossegmentados cortando las señales impuras.

Los usuarios pueden seleccionar las grabaciones vocales para garantizar que se cumple con ciertosparámetros y a continuación guardar las configuraciones. El sistema no permite la modificación deparámetros en grabaciones vocales que están ya segmentadas.

4.4.3 Apertura del proyecto

Para abrir un proyecto hay que seleccionar el elemento “ Abrir ...” en el menú de proyectos (“Ctrl+O” enel teclado) o también mediante la ventana inicial (Figura 4-5)

Los usuarios pueden seleccionar un proyecto de la lista, a continuación confirmar a través del botón√. La aplicación vuelve a la ventana principal, en cuya parte inferior está disponible la información delproyecto.

En esta fase no es posible seleccionar más de un elemento.

Sólo para uso interno 25/60

Page 26: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 26/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-6 Apertura de un proyecto

4.5 Menú del proyecto

Hasta ahora, el manual nos ha guiado a través de las acciones principales para iniciar un proyecto.Las acciones siguientes (Nuevo…, Actualizar…) están disponibles en el menú "Proyecto” (Alt+P en elteclado). Pueden explotarse más opciones a través de este menú:

• Nuevo… (para definir un proyecto nuevo)

• Abrir… (para abrir un proyecto existente)

• Cerrar… (para cerrar un proyecto actual)

• Eliminar… (para eliminar proyectos)

• Importar… (para importar proyectos)

• Exportar… (para exportar proyectos)

• Actualizar… (para actualizar un proyecto)

• Salir (para salir)

A continuación se explican las funciones relacionadas con la importación, exportación y eliminaciónde proyectos.

26/60 Sólo para uso interno 

Page 27: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 27/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.5.1 Cierre

Para cerrar el proyecto se selecciona el subelemento “Cerrar ...” en el menú de proyectos (Ctrl+X enel teclado).

4.5.2 Eliminación

Para eliminar proyectos se selecciona el subelemento “Eliminar ...” en el menú de proyectos (Ctrl+r enel teclado). En tal caso el sistema elimina los archivos de sonido, huellas vocales y resultados.

Seleccione los elementos correspondientes de la lista, a continuación confirmar a través del botón √.

4.5.3 Importación

Para importar un proyecto se selecciona el elemento Importar en Proyecto... en el menú de proyectoso también mediante la ventana inicial (Figura 4-5).

El usuario tiene que examinar la carpeta en la cual se ha guardado el proyecto, a continuaciónconfirmar haciendo clic en el botón importar.

Ruta del proyecto: <Ruta del proyecto>\<Nombre del proyecto>\ 

El sistema carga los datos en la base de gastos (la operación puede durar varios minutos).

!Nota: Si los proyectos han sido creados con versiones anteriores de LVIS, como lasversiones 3 ó 4, Loquendo VIS puede importar únicamente los sonidos con susparámetros, es decir, sin las huellas vocales. El usuario tiene que volver a entrenar lashuellas vocales porque el sistema las elimina automáticamente.

4.5.4 Exportación

Para exportar los proyectos seleccione el elemento “ Exportar ...” del menú de proyectos.

Seleccione los elementos correspondientes de la lista y confirme la operación a través del botón √ , acontinuación seleccione la ruta de destino a la cual los proyectos deben copiarse (la operación decopia de los archivos puede durar algunos minutos).

En la ruta de destino el sistema crea además un archivo .csv que contiene información relacionada,no lo elimine.

4.6 Menú de huellas vocales

Mediante el menú de huellas vocales se lleva a cabo la creación, cancelación, importación yexportación de huellas vocales:

• Entrenamiento… (para definir los hablantes y para inscribir huellas vocales)

• Resultado… (para llamar a los resultados del entrenamiento)

• Eliminar… (para eliminar huellas vocales)

• Importar… (para importar huellas vocales)

• Exportar… (para exportar huellas vocales)

Sólo para uso interno 27/60

Page 28: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 28/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.6.1 Entrenamiento de huellas vocales

La definición de los sujetos, es decir de las personas que se desea identificar, puede ocurrir en dosfases diferentes, como:

• A través de la definición del parámetro “Hablante” (en “ Actualización Proyecto ...”)• A través de la definición de un nuevo hablante en la ventana “Entrenamiento” 

Figura 4-10 Definición de hablantes

Cuando aparece la ventana "Entrenamiento", se puede encontrar que algunos hablantes, con suspropias grabaciones vocales, están ya disponibles. Esto es debido a que la definición de un hablante

puede haberse hecho, de antemano, en la ventana "  Actualizar proyecto" mediante el parámetro"Hablante".  El parámetro "Hablante" afirma la identidad del individuo que está hablando en lagrabación. En otras palabras, si el usuario configura el nombre de un hablante en la grabación de vozen la ventana "Actualizar", el sistema mantiene esa identificación, o atribución, en la ventana"Entrenamiento".

Aquí el usuario puede definir otros hablantes o modificar las atribuciones de los ya existentes. Cuandose ha terminado de realizar todas las atribuciones, la inscripción de las huellas vocales está lista paraser realizada haciendo clic en el mando "Realizar " (véase el capítulo 7).

!Nota: Se recomienda encarecidamente proporcionar por lo menos 60 segundos deconversación para cada huella vocal vocales y una relación señal/ruido > 15 dB.

28/60 Sólo para uso interno 

Page 29: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 29/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

En la siguiente pantalla Estado de ejecución aparece el progreso del proceso durante la fase deentrenamiento.

Figura 4-11 Fase de entrenamiento

Habiendo inscrito todas las huellas vocales en la base de datos, el sistema conserva el estado decada una. Si el usuario modifica las huellas vocales, añadiendo nuevos archivos de sonido ocambiando la forma de onda de cualquiera de ellas, el entrenamiento debe repetirse.

4.6.2 Resultados

El resultado de la fase de entrenamiento (que puede llamarse a través del subelemento Resultado delmenú Huellas vocales) es una tabla que proporciona información interesante acerca de la calidad delas huellas vocales, como: el número de archivos de sonido, la duración total del sonido, la duración

de la conversación y la relación señal/ruido promedio.

Figura 4-12 Resultados de las huellas vocales

Sólo para uso interno 29/60

Page 30: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 30/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Especialmente, la cantidad de conversación y la relación señal/ruido dan una idea acerca de lacalidad de las huellas vocales. Recomendamos usar huellas vocales con por lo menos 10 dB derelación señal/ruido y 60 segundos de conversación.

Figura 4-13 Resultados de sonido

4.6.3 Eliminar  

Para eliminar las huellas vocales se selecciona el elemento “Eliminar  ...” en el menú de huellasvocales. En tal caso el sistema elimina sólo los archivos de huellas vocales, conservando la atribuciónde los hablantes a sus grabaciones. Esto es porque el usuario puede volver a inscribir las huellasvocales, sin dificultades.

Seleccione algunos elementos de la lista, a continuación confirme a través del botón √.

4.6.4 Importar  

Para importar las huellas vocales en un proyecto, se selecciona el elemento “Importar ...” en el menú

Huellas vocales. El usuario debe examinar la carpeta a la cual se han exportado previamente lashuellas vocales, a continuación seleccionar Aceptar.

Si las huellas vocales han sido ya definidas en el proyecto, el sistema las renombra automáticamenteañadiendo el prefijo "-1". Este tipo de huella vocal no puede modificarse.

4.6.5 Exportar  

Para exportar las huellas vocales, seleccione el subelemento “Exportar ...” del menú Huellas vocales.

Seleccione algunos elementos de la lista, a continuación confirme la operación a través del botón √.Seleccione la ruta de destino a la cual las huellas de voz deben copiarse (la operación de copia dearchivos puede durar algunos minutos).

En la ruta de destino el sistema crea además un archivo .rep que contiene información relacionada,

no lo elimine.

30/60 Sólo para uso interno 

Page 31: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 31/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.7 Menú de identificación

Mediante el menú de identificación se gestionan las fases de identificación de hablantes y deidentificación del idioma. El usuario puede elegir entre las siguientes opciones:

• Identificación de hablantes… (para identificar las huellas vocales)• Resultado de la identificación de hablantes… (para volver a los resultados de identificación de

hablantes)

• Identificación del idioma… (para identificar el idioma)

• Resultado de la identificación de idioma… (para volver a los resultados de identificación deidiomas)

4.7.1 Identificación de hablantes

En la ventana de identificación de hablantes el sistema compara las huellas vocales que se desean

identificar con las grabaciones vocales desconocidas que se han puesto en la lista de sonidos. En lalista de hablantes se han puesto las huellas vocales de sujetos que hay que reconocer y en la lista desonidos las grabaciones desconocidas que hay que examinar.

Loquendo VIS separa automáticamente las grabaciones vocales en las cuales el Número dehablantes es dos, tres o más. En tal caso, se requiere una operación preliminar de segmentación desonidos. El sistema primero separa las voces en varias pistas, a continuación identifica cada una deellas por separado.La multiplicación del número de huellas vocales y el número de grabaciones desconocidas debe ser de menos de 200,000. Esto es porque el número máximo de líneas de la tabla de identificación es200,000.

Sólo para uso interno 31/60

Page 32: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 32/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-14 Comparaciones de las huellas vocales

4.7.2 Identificación del idioma

En la ventana de identificación del idioma el sistema compara los modelos de idioma que se deseaidentificar con las grabaciones vocales desconocidas que se han puesto en la lista de sonidos. En la

lista de idiomas se han puesto los modelos de idiomas que hay que reconocer y en la lista de sonidoslas grabaciones desconocidas que hay que examinar.

Figura 4-15 Comparaciones de idiomas

La multiplicación del número de idiomas y el número de grabaciones desconocidas debe ser demenos de 200,000. Esto es porque el número máximo de líneas de la tabla de identificación es200,000.

4.7.3 Resultados de la identificación de hablantes

El resultado de la fase de identificación de hablantes es una tabla en la cual se proporcionan laspuntuaciones de identificación frente a las huellas vocales inspeccionadas.

Además, la identificación de hablantes devuelve otras dos tablas relacionadas con los datos desonido y de huellas vocales, como: la duración de la conversación en segundos, la relaciónseñal/ruido. A continuación se proporciona un ejemplo de los resultados que se obtienen a través dela fase de identificación de hablantes. El sistema proporciona 3 lengüetas: puntuación deidentificación, información de sonido, información de huellas vocales.

En la tabla Puntuación se ha implementado el concepto del semáforo. El sistema clasifica losresultados en tres áreas distintas: verde, amarilla y roja. En el área verde están las atribuciones conuna puntuación superior al umbral más alto (estado de coincidencia elevado), en el área amarillaestán las atribuciones con una puntuación entre el umbral más alto y el más bajo (estado decoincidencia mediano), en el área roja están las atribuciones con una puntuación inferior a la delumbral más bajo (estado de coincidencia bajo).

La lengüeta Información de sonido devuelve más detalles acerca de la grabación de vozinspeccionada como el género, la relación señal/ruido, la duración de sonido, la duración de laconversación y la interpretación DTMF.

32/60 Sólo para uso interno 

Page 33: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 33/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

La tabla Hablante devuelve más detalles acerca de las huellas vocales como el número de archivosde sonido, la duración del sonido, la duración de la conversación y la relación señal/ruido promedio.

Figura 4-16 Identificación de las tablas de puntuación

Sólo para uso interno 33/60

Page 34: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 34/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-17 Datos de sonido

Figura 4-18 Tabla de hablantes

4.7.3.1 Criterios de clasificación de las columnas

El orden de clasificación por defecto de la lengüeta Puntuación de identificación por ordendescendiente de las puntuaciones.

Las columnas numéricas (Puntuación, Relación señal/ruido, Cantidad de sonido, Cantidad deconversación y DTMF) están clasificadas desde el número positivo más grande hasta el númeronegativo más pequeño. Para invertir el orden de clasificación, haga clic en el título de la columna.

Las columnas alfanuméricas (Sonido, Hablante y Género) están clasificadas de izquierda aderecha, carácter por carácter.

La columna N representa el código ID (identidad) de una atribución. Si se clasifica la columna Ndesde uno hasta el número positivo más grande, el sistema proporciona una ‘clasificación doble’:primero por sonido y después por puntuación. Este tipo de clasificación puede ser útil para ordenar los archivos de sonido desde la mejor atribución (es decir, con la puntuación de identificación mayor)hasta la peor.

4.7.3.2 Criterios de clasificación y filtración

En el lado derecho de la ventana, mediante la sección denominada “Clasificar y Filtrar”, el usuariopuede ajustar dos umbrales. Estos umbrales permiten la organización de las atribuciones, por puntuación, en las áreas verde, amarilla y roja. En cualquier evento, cada modificación debeconfirmarse a través del mando "refrescar ".

Como alternativa, el orden de los datos puede identificarse eligiendo "Mejor hablante para cada

sonido" o "Mejor sonido para cada hablante". 

34/60 Sólo para uso interno 

Page 35: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 35/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

A través de los botones de radio del cuadro de diálogo denominado " filtro de umbrales", el usuariopuede optar por restringir únicamente el área verde (sobre el umbral alto) o por cancelar el área roja(sobre el umbral bajo).

Una vez que el usuario ha puesto los datos como prefiere, puede exportar los resultados en el archivo

.csv a través del mando "guardar tabla" (.csv es un archivo textual en el cual cada elemento estáseparado mediante una coma.) Puede abrirse en MS Excel.

4.7.3.3 Algunas puntuaciones negativas específicas

El sistema adopta puntuaciones negativas específicas para identificar las grabaciones vocales que notienen una conversación suficiente. Tales puntuaciones negativas (-1000, -2000, -3000, -4000) hansido elegidas para colocar los archivos de sonido sin conversación en la parte inferior de la tabla depuntuación.

En la tabla siguiente aparece el mapa de errores:

PuntuaciónError (“ninguna muestra procesada o ninguna conversacióndetectada”)

-1000 Proceso de identificación de hablantes

-2000 Proceso de segmentación de hablantes

-3000 Proceso de identificación de idiomas

-4000 Proceso de identificación de varios hablantes

Tabla 4-1 Puntuaciones negativas

4.7.3.4 Detección del género

En la tabla siguiente aparece la detección del género y el significado de los diferentes símbolos.

Género Significado

M Uno o más hombres

F Una o más mujeres

MF Uno o más hombres y mujeres

U Indefinido

Tabla 4-2 Resultados de reconocimiento del género

4.7.3.5 Interpretación del tono DTMF 

En la tabla siguiente se especifican las frecuencias de cada tono DTM. La intensidad de la energía dela frecuencia del grupo alto debe ser de -8 dB a +4 dB relativa a la intensidad de la energía de lafrecuencia del grupo bajo, como se ha medido en el receptor. Este nivel de transmisión desigual seconoce como “torsión" y la tecnología Loquendo puede no detectar correctamente las señales si la“torsión” no se ha implementado correctamente.

Sólo para uso interno 35/60

Page 36: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 36/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Frecuencias del grupo alto

1209Hz 1336Hz 1477Hz 1633Hz

Frecuenciasdel grupo

bajo

697Hz 1 2 3 A

770Hz 4 5 6 B

852Hz 7 8 9 C

941Hz * 0 # D

Tabla 4-3 Referencia multifrecuencia de doble tono

El sistema es capaz de omitir los tonos de marcación y DTMF durante una sesión depreprocesamiento. La supresión de tonos en conversaciones de voz es una tarea difícil. Pueden caer algunos positivos falsos en la conversación. Hemos desarrollado varias heurísticas relacionadas con

la estabilidad de la señal y la monitorización dinámica de la energía para evitar este comportamientoindeseable.

4.7.4 Comparación de sonidos

Haga clic en el botón Comparar formas de onda para comparar las semejanzas y diferencias entre lagrabación de voz que se está probando y las grabaciones vocales relacionadas con un hablante(sonido para entrenamiento).

Figura 4-19 Comparación de sonidos

36/60 Sólo para uso interno 

Page 37: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 37/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.7.5 Ajuste de los umbrales de decisión

El usuario puede fijar los umbrales de decisión. Estos dos umbrales delimitan tres regiones diferentes:estado de coincidencia alto (verde o aceptación), estado de coincidencia mediano (amarillo oindecisión) y estado de coincidencia bajo (rojo o rechazo).

Color Condición de habilitación Estado decoincidencia

Puntuación> Umbral alto Alto

 ____  Umbral bajo < Puntuación ≤ Umbral alto Mediano

 ____  Puntuación> Umbral bajo Bajo

Tabla 4-4 Umbrales de sensibilidad

Los siguientes tasas de positivos y negativos falsos se han obtenido en una prueba de ejemplo en la

cual el archivo de sonido es de 70 segundos (como duración de conversación promedio) y de 30decibelios (como relación señal/ruido promedio) por cada huella de voz.

El valor por defecto para el umbral alto ha sido preajustado en 3,5, que corresponde a una suposiciónde una tasa de positivos falsa (FPR) = 0.16% y de una tasa de negativos falsa (FPR) = 38.42%.

El valor por defecto para el umbral bajo ha sido preajustado en 2.9, que corresponde a una suposiciónde tasa de positivos falsa = 0.52% y de una tasa de negativos falsa = 23.15%.

En lo relacionado al ajuste de los umbrales de sensibilidad y al intervalo de puntuación, la discusiónpuede más bien prolongarse y puede requerir un examen futuro más exhaustivo. En general, elintervalo de las puntuaciones de verificación puede ser de menos infinito a mas infinito.

Sin embargo, en la Figura 4-20 se proporciona una indicación aproximada del intervalo en el cual estácomprendido un gran número de puntuaciones de verificación. Como se puede ver en el diagrama, elintervalo de puntuación típico es [-4; +10].

La resolución de un umbral de decisión, o incluso del punto de trabajo elegido, es un requisitobásico crucial para el éxito de la identificación automática. Con el término umbral de decisión seentiende el valor que divide el usuario aceptado de aquellos rechazados. El ajuste de un umbralpuede realizarse a partir del análisis de dos curvas acumulativas: Positivo Falso (línea azul) yNegativo falso (línea roja).

En condiciones reales, estos dos curvas no están totalmente separadas sino que tienen algunoscódigos de superposición. Debido a esta superposición, el ajuste de un umbral determina tanto elValor Positivo Falso y un correspondiente Valor Negativo Falso, los cuales están por encima de cero.

Para reducir el número de positivos falsos, es posible calibrar el sistema con un valor de porcentajeequivalente a FP1. A este valor  FP1, después de la línea azul, corresponde el primer umbral desensibilidad S1. Se aceptan todas las puntuaciones de verificación mayores que S1. 

El umbral S1 proporciona además un Valor Negativo Falso equivalente a FN1 (línea roja). En estecaso el número de negativos falsos no está reducido porque el sistema ofrece un grado de libertadúnico relacionado al valor de umbral.

Si elegimos un umbral superior a S1 el sistema suministra un Valor Positivo Falso más pequeño, apesar del aumento del Valor Negativo Falso.

Sólo para uso interno 37/60

Page 38: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 38/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-20 Gráfico de la tasa de errores

Para reducir el Valor Negativo Falso, en algunos escenarios, se define otro umbral, inferior a S1, elcual determina un valor  negativo falso más bajo FN2. A este valor  FN2, después de la línea roja,corresponde el segundo umbral de sensibilidad S2. El sistema rechaza las puntuaciones deverificación menores que S2. Las puntuaciones de verificación entre S2 y S1, pertenecen a una áreade indecisión. En principio, puede requerir otra vuelta de identificación de modo que el resultado nosea ambiguo. Puede ser razonable además un resultado combinado con la identificación de idiomas ola individualización de palabras clave.

4.7.5.1 Ejemplo de Ajuste del Umbral de Decisión

En principio, no es posible sugerir un umbral recomendado porque depende muchísimo del nivel deseguridad que se pretende realizar. Considere la figura siguiente que divide el gráfico DET(Intercambio de la detección de errores – Figura 4-21) en tres áreas diferentes como: alta seguridad(círculo rojo), equilibrado (círculo azul) y alta utilización (círculo rosa). En una aplicación final elumbral se ajusta de modo que el sistema trabaja en el círculo rojo, en el cual el porcentaje depositivos falsos es bajo, a pesar de la alta tasa de negativos falsos.

38/60 Sólo para uso interno 

Page 39: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 39/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-21 Intercambio de errores de detección

Trabajando con los supuestos anteriores, daremos un ejemplo basado en las curvas NIST. Lascurvas NIST  toman como referencia los resultados del CoreTest - NIST 2006 que comprenden lassiguientes condiciones:

Condición de entrenamiento - 2 minutos (todas las huellas vocales han sido inscritas congrabaciones que duran 2 minutos, sin segmentación de hablantes)

Condición de prueba- 2 minutos (de identificación, todas los grabaciones desconocidasduran 2 minutos, sin segmentación de hablantes)

Suponiendo una tasa de positivos falsa = 0.6%, la tasa de negativos falsa que coincide es = 25% y elumbral de sensibilidad se vuelve = 3.5.

El umbral alto por defecto de LVIS es 3.5. Esto significa que en las mismas condiciones deentrenamiento y prueba el sistema ha sido calibrado para producir una tasa de positivos falsos de

0,6% y una tasa de negativos falsos de 25%.

4.7.6 Resultados de la identificación de idiomas

El resultado de la fase de identificación de idiomas es una tabla en la cual se proporcionan laspuntuaciones de identificación comparadas con los modelos de idiomas examinados.

Además, la identificación de hablantes devuelve una tabla adicional relacionada con los datos desonido, como: la duración de sonido, la duración de la conversación en segundos, la relaciónseñal/ruido y el tono DTMF. A continuación se proporciona un ejemplo de los resultados de la fase deidentificación de idiomas.

Sólo para uso interno 39/60

Page 40: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 40/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-22 Puntuación de la identificación de idiomas

Figura 4-23 Detalles de la identificación de idiomas

40/60 Sólo para uso interno 

Page 41: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 41/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.8 Menú de segmentación

El usuario puede explotar las siguientes opciones:

• Segmentación del sonido… (para segmentar automáticamente los archivos de sonido)

• Resultado… (para volver a los resultados de segmentación)

• Exportar sonidos segmentados… (para exportar los segmentos)

4.8.1 Segmentación del sonido

En la ventana de segmentación del sonido, el sistema lleva a cabo la división automática de las vocesque participan en una conversación telefónica típica (dos o más hablantes) en segmentos de sonidosdistintos (una pista / archivo para cada voz).

El sistema considera el parámetro número de hablantes como el número máximo de sujetos quepueden detectarse en esa llamada telefónica. Esto significa el número máximo de segmentos de

sonido que pueden detectarse.Ejemplo: El usuario define que el número de hablantes es tres, significa que el número de voces quese espera es tres, pero no significa que el sistema encontrará necesariamente tres segmentos.

El valor “Varios hablantes” , por otro lado, significa que el sistema primero identifica el número devoces y después intenta separarlas.

En otras palabras, la segmentación de sonido separa, sin la intervención humana, las porciones desonido que pertenecen a hablantes diferentes, produciendo tantos segmentos como personasdetectadas.

Figura 4-24 – Separación automática de hablantes

Esta ventana proporciona a los usuarios la posibilidad de archivar el sonido en la lista denominada"Lista de sonidos de varios hablantes".

Sólo para uso interno 41/60

Page 42: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 42/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.8.2 Resultado

Figura 4-25 Resultado de la segmentación

Figura 4-26 Detalles de sonido

42/60 Sólo para uso interno 

Page 43: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 43/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-27 Detalles de intervalo

4.8.3 Exportación del sonido segmentado

Para exportar los segmentos, seleccione el subelemento “Exportar sonido segmentado...” en el menúSegmentación.

Seleccione algunos elementos de la lista, a continuación confirme la operación a través del botón √.Seleccione la ruta de destino a la cual deben copiarse los segmentos (la operación de copia de losarchivos puede durar algunos minutos).

En la ruta de destino el sistema crea además un archivo .rep (SegmDescription.rep) que contieneinformación relacionada, no lo elimine.

4.9 Menú de normalización

Los elementos del menú de Normalización se vuelven disponibles cuando el proyectos se cierra. A

través de la barra del menú (Alt+N en el teclado) los usuarios pueden optar por cuatro opciones:

• Crear… ( para crear una serie de normalización nueva)

• Modificar … (para modificar una serie de normalización existente, a excepción de la serie por defecto)

• Eliminar… (para eliminar una serie de normalización existente)•

• Importar… (para importar una serie de normalización)

• Exportar… (para exportar una serie de normalización)

• Cambiar… (para seleccionar una serie de normalización existente)

Sólo para uso interno 43/60

Page 44: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 44/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.9.1 Objetivo de la normalización de la puntuación

El último paso para la verificación del hablante la toma de decisiones. Este proceso consiste encomparar la probabilidad, que resulta de la comparación entre el modelo de hablante correspondientey la señal de conversación que entra, con un umbral de decisión.

Si la probabilidad es mayor que el umbral, el hablante correspondiente se acepta, de lo contrario serechaza. La puesta a punto de los umbrales de decisión es muy molesta para la verificación delhablante. Si la elección de su valor numérico permanece abierta en el dominio (usualmente fijadoempíricamente), su fiabilidad no puede garantizarse durante la ejecución del sistema. Estaincertidumbre es principalmente debida a la variabilidad de puntuación entre las pruebas, un hechomuy bien conocido en el dominio.

Esta variabilidad de puntuación surge de diferentes fuentes. Primero, el tipo de material de inscripciónpuede variar entre los hablantes. Las diferencias pueden además venir de un contenido fonético, de laduración, del ruido ambiental, así como de la calidad del modelo de entrenamiento del hablante. Ensegundo lugar, la posible no coincidencia entre los datos de inscripción (usados para el modelo delhablante) y los datos de prueba es el principal problema restante en el reconocimiento del hablante.

Hay dos factores principales que contribuyen a esta no coincidencia: el hablante mismo a través de lavariabilidad de intra-hablante (variación de la voz del hablante debido a la emoción, salud y edad) yalgunos cambios de las condiciones ambientales, por ejemplo el canal de transmisión, el material degrabación o el ambiente acústico .

Por otro lado, la variabilidad del inter-hablante (variación de las voces entre hablantes), el cual es unacuestión especial en caso de un sistema basado en un umbral independiente del hablante, queademás tiene que considerarse como un factor potencial que afecta la fiabilidad de los límites dedecisión. Realmente, puesto que esta variabilidad del inter-hablante no puede medirse directamente,no es sencillo proteger el sistema de verificación del hablante (a través del proceso de toma dedecisiones) frente a los ataques de potenciales impostores. Por último, como en el material deentrenamiento, el tipo y la calidad de los segmentos de prueba influencia en el valor de laspuntuaciones de las pruebas del cliente y el impostor.

La normalización de la puntuación se ha introducido explícitamente para hacer frente a la variabilidadde la puntuación y para hacer que la puesta a punto del umbral de decisión independientemente delhablante sea más fácil.

4.9.2 Comportamiento esperado de la normalización de la puntuación

Las técnicas de normalización de la puntuación se derivan principalmente del estudio de Li y Porter [40]. En esta documentación, se han observado grandes variaciones de las distribuciones depuntuación de clientes (puntuaciones de intra-hablante) y puntuaciones de impostores (puntuacionesde inter-hablante) durante las pruebas de verificación del hablante. Sobre la base de estasobservaciones, los autores propusieron soluciones basadas en la normalización de la distribución de

la puntuación del impostor para reducir la variación de la distribución de la puntuación general (tantopara las distribuciones del cliente como del impostor) del sistema de verificación del hablante. La basede las técnicas de normalización es centrar la distribución de la puntuación del impostor aplicando lassiguientes normalizaciones a cada puntuación generada por el sistema de verificación del hablante.

La elección de normalizar la distribución de la puntuación del impostor (como el opuesto a ladistribución de la puntuación del cliente) fue inicialmente guiada por dos hechos. Primero, en lasaplicaciones reales y para los sistemas independientes del texto, es fácil computar las distribucionesde puntuación del impostor usando seudo impostores, pero las atribuciones de clientes son raramentedisponibles. En segundo lugar, la distribución del impostor representa la mayor parte de la variaciónde la distribución de la puntuación.

Sin embargo, sería interesante estudiar la distribución de la puntuación del cliente (y lanormalización), por ejemplo, para determinar teóricamente el umbral de decisión. No obstante, como

se ha visto previamente, es difícil obtener los datos necesarios para los sistemas reales y son pocas

44/60 Sólo para uso interno 

Page 45: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 45/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

las bases de datos actuales que contienen datos suficientes para poder hacer un cálculo preciso de ladistribución de la puntuación del cliente.

4.9.3 Técnicas de normalización

Normalización de las huellas vocales (Znorm) – Fase de inscripción

La técnica de normalización cero (Znorm) se usó masivamente para la verificación de hablantes amediados de los años 90. De hecho, un modelo de hablante se prueba frente a una serie de señalesde conversación producidas por algún impostor, cuyo resultado es una distribución de la puntuaciónde semejanza del impostor. El medio dependiente del hablante y los parámetros de normalización dela variación se estiman y se aplican a partir de esta distribución. Una de las ventajas de Znorm es queel cálculo de los parámetros de normalización puede realizarse fuera de línea durante elentrenamiento del modelo de hablante.

Normalización de prueba (Tnorm) – Fase de reconocimiento

Basada de todos modos en el cálculo de los parámetros medio y de variación para normalizar ladistribución de la puntuación del impostor, la normalización de prueba (Tnorm) se diferencia de laZnorm por el uso de modelos de impostor en vez de las señales de conversación de prueba. Durantela prueba, la señal de conversación que entra se compara tradicionalmente con los modelos dehablante correspondiente así como con una serie de modelos de impostores para estimar ladistribución de la puntuación del impostor y los parámetros de normalización consecutivamente. SiZnorm se considera una técnica de normalización dependiente del hablante, Tnorm es una técnicaque depende de la prueba. Puesto que el mismo enunciado de prueba se usa durante lasevaluaciones de los parámetros de prueba y normalización, Tnorm evita una posible emisión deZnorm sobre la base de una posible no coincidencia entre los enunciados de prueba y normalización.Viceversa, Tnorm tiene que realizarse en línea durante la prueba.

4.9.4 ¿Por qué crear una nueva serie de normalización?

LVIS incluye un algoritmo de normalización automático y transparente, que actúa tanto en lainscripción como en el reconocimiento, cuyo objetivo es la normalización de la distribución delimpostor.

Con este propósito, el sistema suministra una serie de normalización por defecto, que incluye unos200 archivos de sonido y huellas vocales de impostores preprocesados, de hablantes que participanen llamadas telefónicas, en varios idiomas y de sexos diferentes.

Sólo para uso interno 45/60

Page 46: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 46/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-28 Tasas de positivos falsos y negativos falsos de un sistema bien calibrado

La figura anterior muestra los comportamientos de un sistema bien calibrado. Como puede verse, lasdistribuciones positivas falsas pueden modelarse analíticamente por el complemento de 1 de lafunción acumulativa normal (0.5*erfc(x/sqrt(2)). En otras palabras, dado el valor del umbral deverificación, es posible prever la tasa positiva falsa del sistema. La curva negativa falsa mantiene, encambio, la dependencia en el tipo y en la calidad de los segmentos de conversación de prueba.Además, el rendimiento de precisión del negativo falso depende fuertemente de la cantidad dematerial de conversación usado para la inscripción de las huellas vocales.

Las huellas vocales que se entrenan en 5 minutos de conversación tienen un mejor rendimiento deprecisión de reconocimiento del hablante que las huellas vocales entrenadas con sólo 10 segundosde conversación.

El ejemplo en la figura está relacionado con la verificación del hablante en una conversación eninglés, recolectada a través de la red telefónica fija, en segmentos de sonido que duran unos 2minutos, tanto para la inscripción como para la prueba.

La calidad de la calibración puede deteriorarse cuando funciona en condiciones que son bastantediferentes de las condiciones por defecto de LVIS , que modelan un entorno telefónico. En estassituaciones la distribución positiva falsa puede estar afectada por una compensación adicional(usualmente un desplazamiento a la derecha) o incluso un “estiramiento”. La figura siguiente muestralos comportamientos de un sistema mal calibrado.

46/60 Sólo para uso interno 

Page 47: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 47/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-29 Tasas de positivos falsos y negativos falsos de un sistema mal calibrado

Para superar la falta de normalización, LVIS  permite la creación de una serie de normalizaciónpersonalizada. La creación de una serie de normalización personalizada es una operación quepermite al sistema LVIS aprender las características acústicas del entorno de la aplicación, a partir delas muestras de conversación recolectadas en el entorno objetivo. Esto permite obtener una mejor precisión de reconocimiento del hablante cuando se trabaja en condiciones que son muy diferentesde las condiciones por defecto de LVIS , o cuando se trabaja en datos de conversación telefónicadeterminados.

Esto pasa típicamente cuando la población que hay que investigar es muy homogénea en lo que serefiere a idioma, acento o proveniencia regional, o cuando hay un único dispositivo de grabación parala adquisición vocal.

El desplazamiento horizontal puede corregirse adaptando una serie específica de normalización paraponer a punto el sistema en el entorno objetivo.

4.9.5 Creación de una nueva serie de normalización

La creación de una nueva serie de normalización se realiza haciendo clic en el submenú Crear…Aparece la ventana Nueva Serie de Normalización que se muestra a continuación.

Escriba un nombre para la Serie de Normalización y a continuación seleccione la codificación desonido. A continuación, pulse el botón √ .

Sólo para uso interno 47/60

Page 48: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 48/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-30 Creación de un nueva Serie de Normalización

Los usuarios pueden insertar los archivos de sonido pertenecientes a los impostores, es decir grabaciones de sonido que no pertenecen a ninguno de los hablantes que se usan en las fases dereconocimiento o entrenamiento.

El motor es capaz de detectar el género de los impostores para distinguir automáticamente entre unaserie de impostores e impostoras. En la fase de reconocimiento el motor es capaz de discriminar entre las series de normalización correctas (aquellas para hombres o para mujeres).

4.9.6 Modificación de una serie de normalizaciónLa modificación de una serie de normalización existente se realiza haciendo clic en el submenúModificar… Aparece la ventana Serie de Normalización – Serie # que se muestra a continuación.

El usuario puede añadir o quitar archivos de sonido de la lista de sonidos a través de los botones Añadir elementos y Eliminar los elementos seleccionados. Cuando el usuario hace clic en el botónRealizar , el proceso inicia y se efectúa la generación de la serie de normalización.

48/60 Sólo para uso interno 

Page 49: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 49/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Figura 4-31 Modificación de una serie de normalización existente

4.9.7 Eliminación de una serie de normalización

La eliminación de una serie de normalización se realiza haciendo clic en el submenú Eliminar … Enla lista de series de normalización el usuario puede ver y eliminar las series de normalización que nohan sido aún asignadas a ningún proyecto.

4.9.8 Importación de una serie de normalización

La importación de la serie de normalización se realiza haciendo clic en el submenú Importar … Elusuario tiene que seleccionar la carpeta en la cual se ha guardado previamente la serie denormalización y a continuación confirmar pulsando el botón Importar .

La Ruta del Proyecto debe ser la siguiente:

Ruta del proyecto: <Ruta de destino>\<Nombre de la serie de normalización>

Sólo para uso interno 49/60

Page 50: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 50/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

El sistema carga los datos de la serie de normalización dentro de una base de datos LVIS (puedenser necesarios varios minutos).

4.9.9 Exportación de una serie de normalización

La exportación de una serie de normalización personalizada se realiza haciendo clic en el submenúExportar… El usuario tiene que seleccionar la serie de normalización a exportar de la Lista de series

de normalización, a continuación confirmar haciendo clic en el botón √. Aparece la ventana Exportar Serie de Normalización. A continuación, seleccione la ruta de destino y haga clic en el botón Exportar .

El proceso de exportación crea a una carpeta en la cual el sistema copia los datos de la serie denormalización (puede ser necesarios varios minutos).

4.9.10 Cambio de la serie de normalización

La selección de una serie de normalización existente se realiza haciendo clic en el submenúCambiar… Aparece la ventana Cambio de Serie de Normalización que se muestra a continuación.

El usuario puede seleccionar una serie de normalización existente de la Lista de Series de

Normalización y a continuación confirmar haciendo clic en el botón √. A continuación, en las ventanasprincipales, el sistema muestra la serie de normalización seleccionada como serie actual.

Figura 4-32 Selección de una Serie de Normalización existente

4.10 Menú Ayuda

Desde el elemento Ayuda de la barra del menú (Alt+H en el teclado) los usuarios pueden elegir lassiguientes opciones:

• Manual de Uso… (acceso directo a Loquendo VIS v6.1 User Manual.pdf )

• Tecnología de reconocimiento de voz (acceso directo a Loquendo VIS v6.1 VoiceRecognition Technology.pdf )

• Especificaciones técnicas… (acceso directo a Loquendo VIS v6.1 Technical Specifications.pdf )

Acerca de LVIS… (acceso directo a la ventana Acerca de en la cual aparece la versión delproducto, la información acerca del copyright de Loquendo así como la versión del motor)

50/60 Sólo para uso interno 

Page 51: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 51/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

4.11 Configuración del nivel de registro

Los usuarios pueden configurar el LogLevel a través del archivo LVIS.cfg mediante el cual es posibleajustar el nivel de verbosidad del registro, como: 0 (el sistema localiza sólo errores), 1 (el sistemalocaliza errores y flujos), 2 (más información detallada), 3 (para depuración). El valor por defecto es 1.

Sólo para uso interno 51/60

Page 52: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 52/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

5 Carga automática de datos

Loquendo ARI (acrónimo de Loquendo Audio Related Information) puede usarse para crear el archivotextual (.CSV). Este archivo textual puede ser usado por Loquendo VIS para cargar automáticamentedatos en el proyecto.

El  .CSV contiene alguna información relacionada con las grabaciones, como: la tarea de sonido, elidioma hablado, el dialecto, el género, el nombre del hablante, el número de hablantes, el entorno, eltipo de teléfono, el identificador de la línea de llamada, el número marcado, el número marcado por una tercera persona, el IMEI (Identidad Internacional de Equipo Móvil), la fecha, la hora y ladescripción.

5.1 Ejecución de Loquendo ARI

Loquendo ARI puede llamarse a través del acceso directo en Inicio /Programas/Loquendo/ LoquendoVIS/Tools/Audio Related Information para ejecutar el LARI .

Figura 5-1 Loquendo ARI

Para abrir un archivo existente, haga clic en el botón  Abrir . A través de la aplicación, el usuario puedemodificar el valor de los parámetros o añadir / eliminar grabaciones de sonidos a/de la lista.

La atribución de uno o más parámetros requiere:

• La selección de las grabaciones de sonido de la lista

• La atribución de algunos valores a los parámetros

• Hacer clic en el botón Ajustar Valor 

Durante el suceso Ajustar Valor, cuando los parámetros están vacíos (en el caso de calendarios queno están señalados), tales valores, en la línea correspondiente dentro de la tabla, no serán

modificados.

52/60 Sólo para uso interno 

Page 53: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 53/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

5.2 Especificación de formato CSV

CSV es el acrónimo de valores separados por comas, usado para la indexación de datos en elformato textual. En la siguiente especificación se muestra el modo en que LARI dispone los registros(parámetros) en el archivo. La primera línea consta de una lista de 17 parámetros, como:

Sonido,Tarea,Hablante,Número de

hablantes,Idioma,Dialecto,Género,Entorno,Tipo de teléfono,CLI,Número

Marcado,Número marcado por tercera parte,IMEI,Fecha,Hora,Duración de la

llamada,Descripción

El número de parámetros y su orden, no deben ser personalizados (debe mantenerse además lamisma progresión de la primera línea y cuando algunos valores están ausentes, el número deseparadores debe ser siempre 15).

En los siguientes ejemplos se indica como rellenar las líneas en el CSV:

./Training of SPK001 (Male).wav,Training,SPK001,Single Speaker,English,,Male,GSM,,,,,,27-Nov-

2007,16:01:22,320,audio for training of SPK001

./REC001 - Impostors.wav,Identification,,Two Speakers,,,,,,,,,,27-Nov-2007,16:01:22,,

./REC501 - Arabic.wav,Identification,,Single Speaker,Arabic,,,,,,,,,,,

El archivo .CSV no contiene líneas vacías.

El contenido de un solo récord no contiene caracteres como: coma o apóstrofo.

La cantidad de líneas es igual al número de grabaciones menos 1.

En la tabla siguiente se especifica el contenido de las listas desplegables:

Tarea Género Número deHablantes

Entorno Tipo de teléfono

Entrenamiento Hombre Un hablante GPRS Microteléfono – Teléfono normalIdentificación Mujer Dos hablantes GSM Microteléfono – Teléfono móvilGenérico Tres hablantes ISDN Microteléfono – Teléfono

inalámbricoVarios hablantes PSTN Teléfono “manos libres” –

Teléfono normalSAT Teléfono “manos libres” –

Teléfono móvilUMTS Teléfono “manos libres” –

Teléfono inalámbricoMicrófono Auricular – Teléfono normalOtros Auricular – Teléfono móvilDesconocido Auricular – Teléfono inalámbrico

Auricular de oreja – Teléfonoregular Auricular de oreja – Teléfonomóvil

Auricular de oreja – Teléfono“manos libres”

Figura 5-2 – Valores de la lista desplegable

Fecha (Inglés) Hora

[dd-mmm-aaaa] [HH-mm-ss]

Figura 5-3 Formatos de calendario

5.3 El significado de los parámetros de grabación de sonidos

Sonido (parámetro obligatorio que especifica el nombre del archivo incluso el nombre de la ruta)

Sólo para uso interno 53/60

Page 54: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 54/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Tarea (parámetro obligatorio que especifica el objetivo del sonido)

Hablante  (nombre del hablante que define unívocamente la identidad de los individuos que estánhablando)

Número de Hablantes (parámetro obligatorio que especifica el número de personas que hablan enuna llamada)

Idioma (idioma hablado)

Dialecto (acento de entonación)

Género (sexo del hablante)

Entorno (entorno de referencia en el cual la grabación ha sido recolectada)

Tipo de teléfono (tipo de teléfono usado durante la llamada)

CLI (identificador de la línea de llamada)

Número marcado (número de teléfono que ha marcado la persona que llama)

Número marcado de tercera persona (número de la tercera persona en caso de transferencia dellamada)

IMEI (Identidad Internacional de Equipo Móvil, sólo en el caso de entorno GSM)

Fecha (fecha inicial de la llamada. El formato es: [dd-mmm-aaaa])

Hora (hora inicial de la llamada. El formato es: [HH-mm-ss])

Duración de la llamada (duración de la llamada. El valor debe ser en segundos)

Descripción (descripción adicional)

54/60 Sólo para uso interno 

Page 55: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 55/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

Sólo para uso interno 55/60

Page 56: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 56/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

6 Referencias de soporte

6.1 Soporte técnico

Para cualquier solicitud técnica o problemas encontrados durante el uso del producto, póngase encontacto con el Equipo de Soporte Técnico de Loquendo, enviando un mensaje de correo electrónicoa la siguiente dirección:

[email protected]

En el asunto del mensaje es necesario especificar el código PIK de referencia y el nombre delproducto.

Se agradece de antemano una breve descripción del problema.

El archivo de registro se encuentra en <installation folder>\Logs\

Para obtener más información sobre depuración puede ser necesario aumentar el nivel de registro de1 a 3.

6.2 Soporte de autorización

En caso de problemas técnicos durante la autorización de uso del producto, póngase en contacto conel Equipo de Autorización de Uso de Loquendo, enviando un mensaje de correo electrónico a lasiguiente dirección:

[email protected]

El grupo encargado de la autorización de uso se encarga de los aspectos relacionados con elprocedimiento de licencia.

! Nota: No olvide especificar el P.I.K. y el nombre del producto

6.3 Soporte de ventas

Para cualquier asunto comercial relacionado con las nuevas instalaciones (es decir, Clave deInstalación de productos nueva), el suministro del software Loquendo y la extensión de los contratosde licencia (características adicionales o extensiones de la fecha de caducidad) póngase en contactocon el Encargado de su Cuenta de Loquendo o escriba un mensaje de correo electrónico a lasiguiente dirección:

[email protected]

56/60 Sólo para uso interno 

Page 57: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 57/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

7 Botones

Sólo para uso interno 57/60

Processing Controls

PERFORM

START

ABORT

Play Controls

PLAY

PAUSE

STOP

Zoom Controls

ZOOM IN

ZOOM OUTFULL BOTHAXES

Waveform Controls

VIEWWAVEFORM

CUTSELECTION

COMPAREWAVEFORMS

Speaker Controls

INSERT NEWSPEAKERNAME

REVOMESELECTEDSPEAKERS

List Controls

ADD ITEMS TOLIST

REMOVESELECTEDITEMS FROMLIST

Window Controls

CONFIRM

EXIT

Viewing Controls

VIEW DETAILS

VIEW FILTEREDAUDIOS

REFRESH

Save Controls

SAVE

SAVE TABLE

Abandon Controls

QUIT

Main Controls

GET START

UPDATEPROJECT

TRAINVOICEPRINTS

IDENTIFYSPEAKERS

IDENTIFYLANGUAGES

SEPARATESPEAKERSFROM AUDIO

IDENTIFICATIONRESULT

IMPORTVOICEPRINT

EXPORTVOICEPRINT

EXPORTPROJECT

EXPORTRESULTINGSEGMENTS

Page 58: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 58/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

8 Definiciones y acrónimos

EER  EER significa Tasa de Error Igual. El EER es el punto donde la distribución de lapuntuación de los impostores se interseca con la distribución de la puntuaciónde los verdaderos hablantes.

GMM  Método Generalizado de Momentos. GMM puede significar también Modelo demezcla de Gaussianas El método generalizado de momentos es un métodoestadístico muy general para obtener cálculos de parámetros de modelosestadísticos.

PGMM  GMM fonético

Huellasvocales

Una huella vocal es una serie de características de la voz humana queidentifican de modo único a un individuo. Estas características puedenexpresarse como una fórmula matemática de modo que la huella vocal sea un

modelo estadístico de la voz de un hablante. Debe crearse a partir de algunosejemplos certificados que pertenecen al sujeto destinatario.

Identificaciónde hablantes

El uso del análisis de conversaciones para establecer quién habla en unamuestra grabada

Identificacióndel idioma

El uso del análisis de conversaciones para determinar qué idioma está usandoel hablante en un ejemplo grabado

Normalización Hay dos técnicas de normalización de la puntuación que se aplican a lossistemas de verificación del hablante independiente del texto. Las dos técnicas

de normalización conocidas Z y T pueden interpretarse fácilmente como modosdiferentes de normalizar la distribución de la puntuación porque, durante laverificación del hablante, es necesario reducir la influencia de las diferentescondiciones ambientales. Estas dos técnicas de normalización se examinanpara disminuir la no coincidencia entre las condiciones acústicas deentrenamiento y prueba. La ZTnorm usa ambas técnicas de normalización parahacer que el umbral de decisión independiente del hablante sea más robusto encondiciones adversas

Los experimentos muestran que las normalizaciones reducen el EER conreducción relativa del DCF mínimo (función de corte de detección)

Tiempo real  Tiempo real significa el procesamiento de un archivo de sonido en una fracciónde la duración del sonido, incluso al comparar varias huellas vocales

P.I.K. P.I.K. significa Product Installation Key (Clave de Instalación del Producto).Loquendo proporciona al cliente el PIK inmediatamente después de laconclusión de la venta o evaluación del contrato de licencia. El P.I.K. es unrequisito para obtener la clave de licencia.

CSV  CSV significa valores separados por comas. Es el archivo textual en el cual losparámetros están separados por comas

CLI  CLI significa identificador de la línea de llamada

DN  DN significa número marcado

58/60 Sólo para uso interno 

Page 59: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 59/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

TPDN  TPDN significa número marcado de tercera persona

Sólo para uso interno 59/60

Page 60: Loquendo_VIS v6.1_es(orig)

5/11/2018 Loquendo_VIS v6.1_es(orig) - slidepdf.com

http://slidepdf.com/reader/full/loquendovis-v61esorig 60/60

Sistema de identificación de voz Loquendo Versión 6.1

Manual de Uso 6.1.0

9 Referencias

[1] Sistema de identificación de voz v6.1 Loquendo – Manual de Instalación

[2] Sistema de identificación de voz v6.1 Loquendo – Especificaciones técnicas

60/60 Sólo para uso interno