construccion , diseño y entrenamiento de redes neuronales artificiales

1

CogNovaTechnologies

Diseño y Diseño y Entrenamiento de Entrenamiento de Redes Neuronales Redes Neuronales

ArtificialesArtificiales (Parte 2)(Parte 2)

““Construcción de una Construcción de una Red”Red”

2

CogNovaTechnologies

IntroducciónIntroducción Construir una red neuronal tiene una Construir una red neuronal tiene una

inherente calidad de experimentación.inherente calidad de experimentación. Cada formula para el diseño de redes Cada formula para el diseño de redes

no es mas que una ayuda para su no es mas que una ayuda para su estimación.estimación.

En el diseño de redes neuronales no se En el diseño de redes neuronales no se puede evitar una cierta cantidad de puede evitar una cierta cantidad de Prueba y ErrorPrueba y Error..

3

CogNovaTechnologies

Tamaño de la capa Tamaño de la capa ocultaoculta

Existe un compromiso entre la Existe un compromiso entre la precisión y la capacidad de precisión y la capacidad de generalización de una red neuronal; el generalización de una red neuronal; el cual dependerá del numero de cual dependerá del numero de neuronas en la capa oculta.neuronas en la capa oculta.

El número de neuronas debe ser El número de neuronas debe ser suficiente para la realización correcta suficiente para la realización correcta de la tarea, pero lo suficientemente de la tarea, pero lo suficientemente bajo para permitir la generalización.bajo para permitir la generalización.

4

CogNovaTechnologies

Entre mas complejo sea el problema, Entre mas complejo sea el problema, se requiere un mayor número de se requiere un mayor número de neuronas en la capa oculta.neuronas en la capa oculta.

Cualquier problema que requiera una Cualquier problema que requiera una compresión de datos presenta una compresión de datos presenta una capa oculta con un menor número de capa oculta con un menor número de neuronas que en la capa de entrada.neuronas que en la capa de entrada.

Por ejemplo compresión de imagenesPor ejemplo compresión de imagenes

5

CogNovaTechnologies

En redes recurrentes la capa En redes recurrentes la capa oculta es copiada regresando oculta es copiada regresando a la de entrada a través de a la de entrada a través de otras unidades de entrada; otras unidades de entrada; por lo que fuerza a que la por lo que fuerza a que la capa de entrada sea igual al capa de entrada sea igual al numero de unidades de numero de unidades de entrada mas el numero de entrada mas el numero de neuronas en la capa ocultaneuronas en la capa oculta

6

CogNovaTechnologies

De acuerdo con Hecht-De acuerdo con Hecht-Neilson basado en el Neilson basado en el teorema de Kolmogorov, “El teorema de Kolmogorov, “El numero de neuronas en la numero de neuronas en la capa oculta no requieren ser capa oculta no requieren ser mas grande que dos veces mas grande que dos veces el numero de entradas”. el numero de entradas”.

7

CogNovaTechnologies

De manera que la red neuronal De manera que la red neuronal pueda generalizar se requiere pueda generalizar se requiere que las funciones de que las funciones de transferencia sean suaves. P/ej. transferencia sean suaves. P/ej. Funciones sigmoidales.Funciones sigmoidales.

El numero de parámetros El numero de parámetros requeridos para codificar P requeridos para codificar P patrones binarios espatrones binarios es PParametros 2log

8

CogNovaTechnologies

De acuerdo con Widrow & De acuerdo con Widrow & lehr, en una red el numero lehr, en una red el numero de patrones de de patrones de entrenamiento a aprender entrenamiento a aprender es reflejado en el numero es reflejado en el numero de salidas en la red.de salidas en la red.

9

CogNovaTechnologies

De acuerdo con Baum and De acuerdo con Baum and Haussler; el numero de Haussler; el numero de ejemplos de entrenamiento ejemplos de entrenamiento requeridos es aproximadamente requeridos es aproximadamente igual al numero de pesos en la igual al numero de pesos en la red multiplicado por el inverso red multiplicado por el inverso del error. del error.

1#WPi 8/10 iP

10

CogNovaTechnologies

Un pequeño error logrado por una Un pequeño error logrado por una red con overfitting no constituye una red con overfitting no constituye una sesión de entrenamiento exitosa.sesión de entrenamiento exitosa.

Si se desea usar una mayor cantidad Si se desea usar una mayor cantidad de pesos respecto a al conjunto de de pesos respecto a al conjunto de datos, se debe ajustar un mayor datos, se debe ajustar un mayor error de entrenamiento con objeto error de entrenamiento con objeto de conservar la capacidad de de conservar la capacidad de generalización.generalización.

11

CogNovaTechnologies

Es necesario sacrificar precisión Es necesario sacrificar precisión en aras de obtener una mayor en aras de obtener una mayor capacidad de generalización.capacidad de generalización.

Para una red con una capa Para una red con una capa oculta, el numero de neuronas oculta, el numero de neuronas en la capa oculta estará dado en la capa oculta estará dado por:por:

)*( mnWh

12

CogNovaTechnologies

Conclusiones: Numero Conclusiones: Numero de Neuronas Ocultas de Neuronas Ocultas (h)(h)

Nunca escoja Nunca escoja el numero de el numero de neuronas ocultasneuronas ocultas mayor a dos mayor a dos veces el numero de unidades veces el numero de unidades de entradade entrada

Puede cargar P patrones de i Puede cargar P patrones de i elementos en numero de elementos en numero de neuronas ocultas dado por:neuronas ocultas dado por: piph 2log

13

CogNovaTechnologies

Nunca use mas. Si quiere una Nunca use mas. Si quiere una buena característica de buena característica de generalización use generalización use considerablemente menos.considerablemente menos.

Asegurese de tener al menos 1/Asegurese de tener al menos 1/ veces ejemplos de entrenamiento veces ejemplos de entrenamiento como tenga pesos en su red.como tenga pesos en su red.

14

CogNovaTechnologies

Donde:Donde: PP es el numero de patrones de es el numero de patrones de

entrenamiento necesarios.entrenamiento necesarios. WW es el numero de pesos en la es el numero de pesos en la

capa oculta.capa oculta. es el error mínimo propuesto es el error mínimo propuesto

para la red.para la red.

1WPi

8/10 iP

15

CogNovaTechnologies

El numero de unidades ocultas El numero de unidades ocultas requeridas para tareas de clasificación requeridas para tareas de clasificación se incrementa conforme al número de se incrementa conforme al número de clases en la tarea.clases en la tarea.

Existe un compromiso entre la Existe un compromiso entre la generalización (menos neuronas generalización (menos neuronas ocultas) y la precisión (mas neuronas ocultas) y la precisión (mas neuronas ocultas) lo cual será de aplicación ocultas) lo cual será de aplicación especifica.especifica.

16

CogNovaTechnologies

Entre mas grande sea la Entre mas grande sea la red neuronal mayor será el red neuronal mayor será el tiempo de entrenamiento tiempo de entrenamiento que se requiera.que se requiera.

17

CogNovaTechnologies

Algoritmos Algoritmos ConstructivosConstructivos

Se recomienda iniciar el Se recomienda iniciar el entrenamiento con una unidad menos entrenamiento con una unidad menos de la calculada en el limite inferior y de la calculada en el limite inferior y entrenar hasta que el error se entrenar hasta que el error se mantenga constante.mantenga constante.

Después agregar otra neurona oculta, Después agregar otra neurona oculta, con valores de pesos pequeños y se con valores de pesos pequeños y se repite el proceso.repite el proceso.

18

CogNovaTechnologies

Si el error de entrenamiento es Si el error de entrenamiento es bajo y el error de la prueba es alto, bajo y el error de la prueba es alto, entonces se tienen muchos pesos.entonces se tienen muchos pesos.

Si tanto el error de entrenamiento Si tanto el error de entrenamiento y el de prueba es alto, se tienen y el de prueba es alto, se tienen muy pocos pesos.muy pocos pesos.

Si los pesos son todos muy Si los pesos son todos muy grandes entonces se tienen muy grandes entonces se tienen muy pocos pesos.pocos pesos.

19

CogNovaTechnologies

El agregar pesos no es una panacea, El agregar pesos no es una panacea, puede haber otras causas de error tales puede haber otras causas de error tales como un conjunto insuficiente de datos, como un conjunto insuficiente de datos, o datos que no sean aprendibles.o datos que no sean aprendibles.

Muy importante: los pesos iniciales de Muy importante: los pesos iniciales de una red deben ser valores aleatorios en una red deben ser valores aleatorios en un pequeño intervalo (por ejemplo, +-1)un pequeño intervalo (por ejemplo, +-1)

20

CogNovaTechnologies

Kurkova: Cualquier función puede Kurkova: Cualquier función puede ser aproximada cuando mucho por ser aproximada cuando mucho por una red de cuatro capas.una red de cuatro capas.

Hecht-Neilson: Solo se requieren Hecht-Neilson: Solo se requieren tres capas pero el uso de una capa tres capas pero el uso de una capa extra reducirá el numero total de extra reducirá el numero total de neuronas en las capas ocultas.neuronas en las capas ocultas.

De acuerdo a los resultados De acuerdo a los resultados publicados los problemas deben ser publicados los problemas deben ser resultos aplicando una capa oculta resultos aplicando una capa oculta o máximo dos.o máximo dos.

21

CogNovaTechnologies

Funciones de Funciones de ActivaciónActivación

Funciones Sigmoidales:Funciones Sigmoidales: Función logística: su salida esta Función logística: su salida esta

acotada entre 0 y 1.acotada entre 0 y 1.

nea

1

1

Fácil implementaron en Hardware

22

CogNovaTechnologies

Función Tangente hiperbólica: Función Tangente hiperbólica: Su salida esta acotada entre -1 y Su salida esta acotada entre -1 y 1.1.

nn

nn

eeee

a

)(ntanha

Nota: Aprendizaje más rápido, tiempos de entrenamiento menores

23

CogNovaTechnologies

Lineal: Su salida no esta acotada.Lineal: Su salida no esta acotada.

na

24

CogNovaTechnologies

Mediciones del Mediciones del ErrorError

25

CogNovaTechnologies

Mediciones de errorMediciones de error La meta del entrenamiento de una La meta del entrenamiento de una

red neuronal es minimizar el error red neuronal es minimizar el error en cada unidad de salida para el en cada unidad de salida para el conjunto completo de datos de conjunto completo de datos de entrenamiento.entrenamiento.

El error puede ser positivo o El error puede ser positivo o negativo, nuestro interés esta en la negativo, nuestro interés esta en la magnitud. magnitud.

26

CogNovaTechnologies

El error mas común es la El error mas común es la diferencia simple:diferencia simple:

El error total en la capa de El error total en la capa de salida: La salida: La Raíz del Error Raíz del Error Cuadrático (RSE)Cuadrático (RSE)

iii ate

222

21 nt eeee

27

CogNovaTechnologies

El error medio cuadrático El error medio cuadrático (MSE)(MSE) Para una sola presentación Para una sola presentación

(Patrón)(Patrón)

1

0

2)(1 n

jjjp at

nE

Donde:

n es el numero de neuronas en la capa de salida.

t es el valor objetivo.

a es la salida de la neurona

O bien

n

eeeE np

222

21

28

CogNovaTechnologies

El error medio cuadrático El error medio cuadrático (MSE)(MSE) Para una EpocaPara una Epoca

1

0

1 m

ppEm

E

Donde:

Ep es error medio cuadratico por cada presentación.

m es el numero de presentaciones (patrones)en la Epoca.

29

CogNovaTechnologies

Ajuste de la Razón Ajuste de la Razón de Aprendizaje y de Aprendizaje y

el Momentoel Momento Un valor alto de Un valor alto de (0.75) (0.75)

producirá un aprendizaje mas producirá un aprendizaje mas rápido, pero incrementa el riesgo rápido, pero incrementa el riesgo de que sobre impulso la solución de que sobre impulso la solución provocando la oscilación.provocando la oscilación.

Un valor bajo de Un valor bajo de (0.1) evita el (0.1) evita el problema anterior pero hace lento problema anterior pero hace lento el entrenamiento.el entrenamiento.

30

CogNovaTechnologies

Un valor alto deUn valor alto de reducirá el reducirá el riesgo de que la red sea riesgo de que la red sea atrapada en un mínimo local atrapada en un mínimo local pero también puede provocar pero también puede provocar sobre impulso de la solución, sobre impulso de la solución, tal como un valor alto de tal como un valor alto de ..

Valores característicos: Valores característicos: 25.0 9.0

31

CogNovaTechnologies

Directrices de Directrices de EntrenamientoEntrenamiento

Si la razón del error disminuye Si la razón del error disminuye lentamente pero estable: se puede lentamente pero estable: se puede incrementar incrementar y y ..

Si la razón de error esta oscilando Si la razón de error esta oscilando sobre un punto: Reduzca sobre un punto: Reduzca (ayudará (ayudará a que la red converja hacia un a que la red converja hacia un punto), incremente punto), incremente (evitará el (evitará el sobre impulso de la salida).sobre impulso de la salida).

32

CogNovaTechnologies

Si la razón del error no Si la razón del error no cambia: Probablemente cambia: Probablemente haya convergido a una haya convergido a una solución. solución.

Siempre guarde una copia Siempre guarde una copia de los pesosde los pesos

33

CogNovaTechnologies

Entrenamiento de Entrenamiento de Redes NeuronalesRedes Neuronales

Se requiere una dosis de prueba y Se requiere una dosis de prueba y error.error.

Construir una red neuronal para Construir una red neuronal para solucionar aun el mas trivial de los solucionar aun el mas trivial de los problemas, Requiere:problemas, Requiere:

Construir varias redes con diferente Construir varias redes con diferente complejidad.complejidad.

34

CogNovaTechnologies

Detener el entrenamiento en Detener el entrenamiento en diferentes puntos.diferentes puntos.

Iniciar con diferentes Iniciar con diferentes configuraciones aleatorias de configuraciones aleatorias de pesos.pesos.

Cada red debe ser guardada, Cada red debe ser guardada, probada, analizada y la más probada, analizada y la más apropiada finalmente apropiada finalmente seleccionada.seleccionada.

35

CogNovaTechnologies

Formas de Formas de EntrenamientoEntrenamiento

36

CogNovaTechnologies

Modos de Modos de entrenamiento:entrenamiento:Patrón o Lote (Batch)Patrón o Lote (Batch) Patrón:Patrón: los pesos son actualizados los pesos son actualizados

después de que cada patrón después de que cada patrón individual es presentado.individual es presentado.

Lote: Lote: Cada vez que se concluye una Cada vez que se concluye una época un solo error promedio se época un solo error promedio se calcula y los parámetros de la red se calcula y los parámetros de la red se actualizan en base a ese error.actualizan en base a ese error.

37

CogNovaTechnologies

Características del Características del entrenamiento por entrenamiento por

LotesLotes Requiere un menor numero Requiere un menor numero

de actualizaciones: Es mas de actualizaciones: Es mas rápido.rápido.

Proporciona una medida Proporciona una medida mas precisa del cambio de mas precisa del cambio de pesos necesario.pesos necesario.

38

CogNovaTechnologies

Este modo se refiere únicamente al Este modo se refiere únicamente al ajuste de los pesos. Los errores ajuste de los pesos. Los errores deben se retropropagados para deben se retropropagados para cada patrón.cada patrón.

Este modo tiene mayor Este modo tiene mayor probabilidad de ser atrapada su probabilidad de ser atrapada su solución en un mínimo local.solución en un mínimo local.

39

CogNovaTechnologies

Un proyecto con redes Un proyecto con redes neuronales requiere que se neuronales requiere que se entrenen varias redes con entrenen varias redes con el mismo conjunto de el mismo conjunto de entrenamiento hasta entrenamiento hasta encontrar la mejor soluciónencontrar la mejor solución

40

CogNovaTechnologies

Cuando detener el Cuando detener el entrenamientoentrenamiento

El error promedio de entrenamiento El error promedio de entrenamiento ha alcanzado un valor objetivo ha alcanzado un valor objetivo predeterminado.predeterminado.

El error promedio de entrenamiento El error promedio de entrenamiento no disminuye mas, o cae en una no disminuye mas, o cae en una cantidad insignificante.cantidad insignificante.

El error promedio del conjunto de El error promedio del conjunto de prueba independiente comienza prueba independiente comienza incrementarse (incrementarse (overfittingoverfitting))

41

CogNovaTechnologies

Algoritmos de Algoritmos de entrenamientoentrenamiento

Backpropagation simple.Backpropagation simple.

Backpropagation con Backpropagation con Momento (Momento () y razón de ) y razón de

aprendizaje (aprendizaje () variable.) variable.

42

CogNovaTechnologies

Algoritmo Algoritmo Backpropagation Backpropagation

EstándarEstándar 1) Construir la red con el numero 1) Construir la red con el numero

seleccionado de unidades de seleccionado de unidades de entrada, ocultas, y de salidas.entrada, ocultas, y de salidas.

2) Inicializar todos los pesos a 2) Inicializar todos los pesos a valores aleatorios pequeños.valores aleatorios pequeños.

Repetir:Repetir:– 3) Escoger un par de 3) Escoger un par de

entrenamiento aleatorioentrenamiento aleatorio

43

CogNovaTechnologies

– 4) copiar el patrón de entrada 4) copiar el patrón de entrada en la capa de entrada.en la capa de entrada.

– 5) Genere un ciclo en la red de 5) Genere un ciclo en la red de tal forma que la activación tal forma que la activación de las entradas genere la de las entradas genere la activación de la capa oculta y activación de la capa oculta y la de salida.la de salida.

– 6) Calcule el error derivado 6) Calcule el error derivado entre la activación de la salida entre la activación de la salida y la salida objetivoy la salida objetivo

44

CogNovaTechnologies

– 7) Retropropague el el producto 7) Retropropague el el producto sumado de de los pesos y los errores sumado de de los pesos y los errores en la capa de salida de tal forma que en la capa de salida de tal forma que calcule el error en la capa oculta.calcule el error en la capa oculta.

– 8) Actualice los pesos en cada unidad 8) Actualice los pesos en cada unidad de acuerdo al error en la unidad bajo de acuerdo al error en la unidad bajo los parámetros de entrenamiento. los parámetros de entrenamiento.

Hasta: El error sea suficientemente Hasta: El error sea suficientemente bajo de acuerdo al valor prefijado.bajo de acuerdo al valor prefijado.

45

CogNovaTechnologies

Bibliografía:Bibliografía:

Applying Neural Networks, Applying Neural Networks, A Practical Guide; Kevin A Practical Guide; Kevin Swingler ; Editorial Morgan Swingler ; Editorial Morgan Kaufmann.Kaufmann.

46

CogNovaTechnologies

Dudas ??Dudas ????

47

CogNovaTechnologies

Hasta la Hasta la próxima !!!próxima !!!

construccion , diseño y entrenamiento de redes neuronales artificiales

Education