1 aplicação de otimização irrestrita: treinamento de redes neurais artificiais das-6651 - mspo...

Aplicação de Otimização Irrestrita: Treinamento de Redes Neurais

Artificiais

DAS-6651 - MSPOEduardo Camponogara

0. Agenda

Introdução a Redes Neurais (RNs) Representação Treinamento de RNs Aplicações Dificuldades/Limitações Perceptron Referências

1. Introdução a Redes Neurais

Redes Neurais (RNs) constituem métodos “robustos” de aproximação de funções de valores vetoriais, reais ou discretos.

– No sentido de que tolera erros nos pares de treinamento

Uma rede neural é um aproximador universal (ou melhor, interpolador universal).

Entrada Saída

1. Introdução a Redes Neurais

Entrada Saída

O algoritmo de treinamento (de propagação reversa, back-propagation) nada mais é do que uma implementação especializada do algoritmo de descenso.

1. Motivação Biológica

Como o próprio nome sugere, redes neurais são inspiradas em sistemas biológicos de aprendizagem que tipicamente consistem de redes complexas de unidades elementares.

1. Motivação Biológica

Alguns números interessantes.

– O cérebro humano possui aproximadamente 1011 neurônios, cada um conectado a cerca de 104 neurônios. (100 bilhões de neurônios.)

– O tempo de resposta de um neurônio é aproximadamente 10-3 s, muito mais lento do que um computador (10-10 s, tempo de resposta de uma porta ló gica)

– O tempo de reconhecimento de uma figura é de cerca de 10-1s.

1. Especulações

Dado o tempo relativamente lento de resposta do neurônio, em comparação com a velocidade de processamento de informação, podemos concluir que:

– O sistema de aprendizagem biológico é extremamente paralelo e distribuído, todavia não possui um número muito grande de camadas.

1. Especulações

Existem incompatibilidades entre redes neurais artificiais e as unidades do sistema biológico de aprendizagem. (A saída de uma unidade artificial é um valor constante, enquanto que as unidades biológicas emitem uma série complexa de sinais.)

1. Rede Neural: Elementos Básicos

w1 nS=wixi i =1

Pesos das sinapses

Entrada Saída

2. Representação de Redes Neurais

Camada de Entrada

Camada de Saída

Camadas Intermediárias

3. O Problema de Treinamento

Dados:– Uma rede neural (a sua topologia), ou seja,

um grafo G = (V, E).– Exemplos de treinamento, ou seja, uma lista de pares de

entradas e saídas desejadasD = {(x1,y1), ..., (xK,yK)}

Problema:– Encontrar os pesos das sinapses tal que o erro de estimação

das saídas seja o menor possível (Least Squares Problem).

Representação:Seja f(w,x) a função representada pela rede neural com pesos dados pelo vetor w. Dado x, a rede responde com um valor

y = f(w,x).

Problema: K

Minimize ||f(w,xk) yk||2 w k = 1

4. Representação no ALVINN

Imagem de Entrada

Rede Neural

Esquerda DireitaReto Comandos

4. Detalhes do ALVINN

O ALVINN utilizou com sucesso o modelo de redes neurais para dirigir um veículo, a uma velocidade de até 100 Km/h, por cerca de 120 Km, em uma freeway.

Mais recentemente, este mesmo sistema dirigiu um veículo na maior parte do tempo, de Pittsburgh (Pennsylvania) até Berkeley (California).

5. Problemas Apropriados para RNs

RNs são recomendadas para problemas de aproximação complexos (tipicamente sistemas não-lineares)

– Dados com ruídos, tais como dados provenientes de câmeras e microfones.

As RNs em combinação com o algoritmo de propagação reversa (back-propagation) são adequadas para problemas com as seguintes características:

1) Instâncias que são representadas por pares contendo muitos atributos (múltiplas entradas e múltiplas saídas).

2) O atributo de saída tenha um valor discreto, real ou um vetor de valores. (No ALVINN a saída é um vetor com cerca de 30 saídas, cada uma representando a probabilidade de um comando).

As RNs em combinação com o algoritmo de propagação reversa (back-propagation) são adequadas para problemas com as seguintes características:

3) O treinamento pode ser feito off-line.

4) A avaliação da função deve ser muito rápida, para uso em aplicações de tempo-real.

5) A habilidade de se entender o significado da aproximação não é necessária.

6) Os exemplos de treinamento podem conter erros.

6. Perceptron

x0 = 1

y1 = o(x) = sign(wTx)

y2= sign(wTx)

ym = sign(wTx)

Threshold

o(x0,...,xn) =+1 if w0 + w1x1 + ... + wnxn > 0

1 caso contrário

6. Treinamento de um Perceptron

Dados um conjunto de exemplos,(x1,t1), ..., (xM,tM)

encontre w tal que o erro de predição seja minimizado. M

(P) Minimize ||sign(wTxm) - tm||2

w m = 1

Quais são os possíveis obstáculos na resolução de (P)?

6. Dificuldades de Treinamento

Conjunto linearmente separável

Conjunto que não podeser separado linearmente

(P) não é diferenciável

6. Capacidade Representacional

O perceptron define um subespaço multidimensional, classificando como positivo os exemplos que estão de um lado e como negativo os demais.

O perceptron pode ser usado para representar as funções lógicas “AND” , “OR”, “NOR” e “NAND”.

IMPORTANTE: Qualquer função booleana pode ser representada por uma rede de perceptrons, que executam as operações acima. (Representação de função booleana na forma normal disjuntiva, i.e., disjunção de cláusulas).

6. Treinamento de um Perceptron

O procedimento de treinamento de um perceptron é o elemento básico para desenvolver o procedimento de treinamento de uma rede.

x0 = 1

y = o(x)wn

Threshold

o(x) = sign(wTx)

6. Algoritmo de Treinamento

w = [w0, ..., wn] é inicializado randomicamente (tipicamente -0.5 < wi < 0.5).

um número correspondendo à taxa de aprendizagem (normalmente, = 0.01).

m 1 // Temos M exemplos de treinamentoRepita

Para i = 0, ..., nwi = [ tm o(xm)]xm

wi = wi + wi

FimParam mod(m, M) +1

FimRepita

6. Algoritmo de Treinamento

w = [w0, ..., wn] é inicializado randomicamente (tipicamente -0.5 < wi < 0.5).

um número correspondendo à taxa de aprendizagem (normalmente, = 0.01).

m 1 // Temos M exemplos de treinamentoRepita

Para i = 0, ..., nwi = [ tm o(xm)]xm

wi = wi + wi

FimParam mod(m, M) +1

FimRepitaO algoritmo converge se o problema é linearmente separável

6. Regra Delta e o Algortimo de Descenso

Lembre-se que o algoritmo de treinamento de perceptrons encontra um vetor de pesos, w, quando os exemplos são linearmente separáveis, mas pode falhar em caso contrário.

A regra delta supera esta dificuldade; o algoritmo converge para a melhor aproximação linear da relação entre entrada e saída.

o(x) = sign(wTx)

o(x) = wTx

6. Treinamento de uma Unidade

x0 = 1

y = o(x)

o(x) = wTx

Dado um conjunto fixo de exemplos (x1, t1), ..., (xM, tM)

Encontre w Rn tal que o erro de predição seja minimizado.

(P) Minimize E(w) = ½ [o(xm) - tm ]2

w m = 1

(P) Minimize E(w) = ½ [wTxm - tm ]2

w m = 1

E(w) é o erro de predição.

6. Derivando o Gradiente de E(w)

--- = --- { ½ [wTxm tm ]2 }

w1 w1 m=1

= [wTxm tm

] ---- [wTxm tm ]

m=1 w1

= [wTxm tm ][xm

6. O Algoritmo de Descenso

Na iteração k, tem-se a solução candidata wk e deseja-se encontrar outra solução, wk+1, com menor erro de predição.

(P) Minimize f() = E[wk E(wk)] Sujeito à:

6. Redes com Múltiplas Camadas

Redes com múltiplas camadas podem representar funções não-lineares de elevada complexidade.

heedhid

who’dhood

F1 (Hz)

F2 (Hz)

head hid who’d hood

A capacidade representacional de uma rede com múltiplas camadas de unidades lineares é superior ao de apenas uma unidade linear?

Uma rede com múltiplas camadas contendo unidades lineares é, também, uma função linear.

6. Uma Unidade Diferenciável

(y) = 1 /(1 + ey)

6. Unidade Sigmoide

x0 = 1

Sigmoide

y = o(x) =

= (net) =

= 1/(1+enet)

Propriedade daSigmoide

nnet =wixi i =0

d(z)--- = (z)[1 (z)] dz

6. Algoritmo de Propagação Reversa

Dados um grafo representando a rede de múltiplas camadas, e uma lista com exemplos de treinamento(x1, t1), ..., (xM, tM).

O algoritmo de propagação reversa utiliza o algoritmo de descenso com o objetivo de minimizar o erro entre as saídas da rede e os valores desejados. M

(P) Minimize E(w) = [ tmk o(xm)k ]2

w m = 1 k Saída

7. Referências

T. M. Mitchell, Machine Learning, McGraw-Hill, 1997.

1 aplicação de otimização irrestrita: treinamento de redes neurais artificiais das-6651 - mspo...

Documents

1 das-6651: otimização e suas subáreas das-6651 - mspo...

comune di camponogara dell’assunta...il nastro rosa...

資料2 mspo certification scheme

malaysian sustainable palm oil certificate...

são joão do polêsine - neida maria camponogara de freitas

smartzone™network-enabled mspo seriesrackpdu · 2015. 8....

camila camponogara dalla pozza - repositorio.ufsm.br

mspo raport mspo...

page1 das-5341: métodos de diferença temporal prof....

malaysian sustainable palm oil (mspo) summary report

movimento pela anistia ampla, geral e irrestrita sobre o...

mspo initial certification summary reportunder the standards...

przeglad obrony cywilnej mspo 2013 str3 - teldat · 2016....

global gateway certifications mspo...document no.:...

mspo ms 2530-3:2013 initial certification public …...mspo...

page1 das-5202: modelagem e controle de sistemas...

tactical vehicles on mspo 2012

page1 das-5341: aprendizagem por reforço prof. eduardo...

malaysia sustainable palm oil (mspo) summary report … ·...

global gateway certifications › panel › upload ›...