redes competitivas e de kohonen prof. júlio cesar nievola ppgia pucpr

Redes Competitivas e de Kohonen

Prof. Júlio Cesar Nievola

PPGIA

PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 2

CompetiçãoCompetição por recursos

maneira de diversificar e otimizar a função dos elementos de um sistema distribuídoconduz à otimização a nível local sem controle global para assinalar recursos do sistema

PEs de redes competitivas recebem informação idêntica das entradas mas competem pelos recursos:

através de conexões laterais na topologia; oupela formulação da regra de aprendizagemespecializam-se em áreas diferentes da entrada


Competição

É intrinsecamente uma operação não-linear e, portanto, o tratamento matemático não está tão desenvolvido como em outras áreas de sistemas adaptativos

Dois tipos básicos:Hard: somente um PE ganha os recursos

Soft: há um vencedor, mas seus vizinhos também recebem uma parte dos recursos


Redes Winner-take-all

A rede competitiva típica consiste de uma camada de PEs, todos com mesma entrada. O PE com melhor saída é o vencedor

Na rede winner-take-all não há controle global. Se houverem N entradas, a saída será dada por:

demaisospara

xmaioroparay k

k ,0

,1


Redes winner-take-all

Há realimentação entre os PEs

A saída leva algum tempo até estabilizar

Embora a amplitude da diferença na entrada possa ser pequena, a saída é muito bem definida Exemplo 01


Aprendizagem CompetitivaO objetivo da aprendizagem competitiva é criar

uma regra de aprendizagem que possa ser aplicada

a uma topologia de camada única e que atribua os

PEs a áreas diferentes do espaço de entrada

Aprendizagem competitiva é um paradigma de

aprendizagem não-supervisionada, a qual extrai

informação somente dos padrões de entrada sem a

necessidade de uma resposta desejada


Rede InstarGrossberg propôs uma rede como um único PE de McCulloch-Pitts treinado com a regra estrela:

onde y(n) é a saída limitada aos valores zero e um, ou seja, o peso é atualizado somente se o PE está ativo

nwnxnynwnw ijjiijij 1


Rede InstarQuando o PE está ativo, a rede move os pesos na direção da entrada em uma linha direta proporcional ao tamanho de Um PE treinado com a regra instar fornece saída 1 para exemplos próximos do padrão de treinamento (o bias controla a vizinhança), ou seja, é capaz de reconhecer se um vetor padrão é “similar” à uma classe armazenada nos pesos

Exemplo 02


Regra Competitiva e aRede winner-take-all

A regra instar é similar à regra de Hebb e à de Oja:

Como na regra de Oja, o segundo termo evita a instabilidade da regra de HebbUsando a regra instar com um PE não-linear, padrões não-freqüentes são preservados, enquanto o PE estiver inativo

ywyxw

wyyxw

yxw

:instarRegra

:OjadeRegra

:HebbdeRegra2


Regra Competitiva e aRede winner-take-all

A regra competitiva torna-se

onde i* é o PE que venceu a competição. Todos os outros PEs mantém seus pesos anteriores

O tamanho do passo (0 < < 1) controla o tamanho da atualização em cada passo

nnnn iii *** 1 wxww

Exemplo 03


Critério para Competição

O PE mais próximo à entrada atual deve vencer a competição, portanto precisa-se de uma medida de proximidadeO produto interno é sensível não somente às direções mas também ao comprimento dos vetores, isto é , a entrada e os pesos devem ser normalizados

Produto interno fazendo a escolha errada do vencedor


Critério para CompetiçãoUma alternativa ao produto interno é o uso da distância Euclidiana como métrica para definir o vencedor:

Como a raiz quadrada é uma função computacionalmente cara, a distância métrica é menos eficiente que o produto interno

As vezes a métrica de Manhattan (L1) é usada, pois só envolve subtrações e valores absolutos

2minmax ii

Tii wxvencedorouvencedor xW

k

kk wx 2wx

Exemplo 04


AgrupamentoUsando a regra competitiva uma rede linear de camada única agrupa e representa dados que residem em uma vizinhança do espaço de entrada. Cada vizinhança é representada por um único PEOs pesos de cada PE representam pontos no espaço de entrada chamados vetores protótiposSe os vetores forem unidos por uma linha e forem traçadas perpendiculares na metade de cada uma, as mesmas se encontrarão e formarão uma estrutura semelhante a uma colméia de abelhas


Tesselação de Voronoi

Amostras de dados que estão nas regiões são assinaladas aos correspondentes vetor-protótipo

Agrupamento é uma transformação contínuo-para-discreto

Do ponto de vista teórico, agrupamento é uma forma de estimação não-paramétrica de densidade


Agrupamento k-médio

O algoritmo não-neural típico de agrupamento é o k-médio, o qual encontra a melhor divisão de N amostras em K grupos, tal que a distância total entre as amostras agrupadas e seus respectivos centros, isto é, a variância total, seja minimizada

Redes competitivas implementam uma versão on-line do agrupamento k-médio em vez das operações de adaptação batch

Exemplo 05


Agrupamento x classificação

Agrupamento:é o processo de agrupar amostras de entradas que são vizinhos espaciais

é um processo não-supervisionado

Classificação:consiste na rotulação de amostras de entrada através de algum critério externo

é um processo supervisionado



Como agrupamento é não-supervisionado, ele não pode ser usado diretamente para classificação

Em várias aplicações práticas, os dados de cada classe tendem a ser densos e, portanto, há um vale natural entre as classes. Nestes casos o agrupamento pode ser um pré-processador para a classificação

Com isto obtém-se redes de classificação mais simples


Melhorando a Aprendizagem Competitiva

Se o vetor de pesos de um PE está muito distante dos grupos de dados ele nunca vencerá a competição (PE morto)Consciência: penaliza um PE se ele vence em demasia ou ajuda-o em caso contrárioFração de vezes que um PE vence:

onde o(n) é a saída da competição atual (1 se o PE ganha e 0 se perde) e é uma pequena constante positiva (em torno de 0.0001)

ncnoncnc iiii 1


Melhorando a Aprendizagem Competitiva

Cada PE atualiza seu bias através de:

onde é uma constante positiva (p.ex.10)

O bias é o termo de penalização por vencer freqüentemente e é subtraído da distância normal antes da seleção do vencedor:

onde D() é a distância euclidiana (se for usado o produto interno, muda-se o sinal de bi)

ii cNb 1

ii bxwD ,

Exemplo 06


Determinação doNúmero de Agrupamentos

O número de centros é controlado pelo número de PEs de saída:

Se o número de PEs é menor que o número de grupos reais, cada PE representa mais de um grupo e é colocado no centro de massa destesSe o número de PEs é maior que o número de grupos reais, alguns PEs podem “congelar” ou mais de um representar o mesmo grupo

O princípio da competição é diferencial por natureza, ou seja, quão bom é o PE que ganhou a competição? Exemplo 07


Competição SoftCria uma “bolha” de atividade no espaço de saída, onde o PE mais próximo é o mais ativo e seus vizinhos são menos ativosUma rede softmax pode ser criada usando realimentação lateral, onde os pesos laterais variam com a distância dos PEs conectadosCompetição soft cria uma relação de vizinhança entre PEs, isto é, eles ligam-se por uma métrica de similaridadeMapeamentos topológicos do espaço de entrada para o espaço dos PEs são possíveis Exemplo 08


Mapa Auto-Organizável de Kohonen

A rede SOM de Kohonen realiza um mapeamento de um espaço contínuo de entrada para um espaço discreto de saída, onde as propriedades topológicas da entrada são preservadasA rede SOM de Kohonen é uma rede linear de camada única totalmente conectada, cuja saída é organizada em uma ou duas dimensõesQuando a SOM se adapta a entradas de altas dimensões, ela deve se estender e enrolar para cobrir o espaço de entrada


Arquitetura de uma SOMcom saída 2D


Dados de entrada 2D e mapeamento em SOM 1D


Algoritmo SOM de Aprendizagem

Assume-se que a rede de inibição lateral produz uma distribuição gaussiana centrada no PE vencedorComo aplica-se a regra de aprendizagem do tipo instar, que escala a regra competitiva pela atividade de saída de cada PE, a regra competitiva SOM de Kohonen torna-se

onde a função i,i* é uma função de vizinhança centrada no PE vencedor

nnnnn iiiii wxww *,1



Normalmente, tanto o tamanho do passo quanto a vizinhança diminuem com o tempoA função de vizinhança é normalmente uma gaussiana:

com uma variância que decresce com a iteração. Inicialmente ela cobre todo o mapa, mas reduz-se progressivamente a uma vizinhança de zero, isto é, somente o PE vencedor é atualizado

n

dn ii

ii 2

2*,

*, 2exp



Conforme a vizinhança é reduzida, a rede move-se de uma competição “muito soft” (quase todo PE é atualizado) para uma competição “hard” (somente o PE vencedor é atualizado)

Há evidências que a SOM cria um espaço de saída discreto onde relações topológicas dentro das vizinhanças do espaço de entrada são preservadas

A rede SOM é criada de uma maneira não-supervisionada



A seleção de parâmetros é crucial para a preservação de topologia

A experiência mostrou que há duas fases na aprendizagem SOM:

Fase de ordenação topológica dos pesos, ou seja, definição das vizinhanças

Fase de convergência com o ajuste fino da distribuição de entrada


Fase de Ordenação Topológica dos Pesos

Nesta fase, suposta tendo No iterações, a função de vizinhança decresce, em geral, linearmente com um raio definido por:

Normalmente a taxa de aprendizagem é alta (acima de 0.1) para permitir à rede se auto-organizar. Ela também é linearmente ajustada:

onde 0 é a taxa de aprendizagem inicial e K é a taxa final de aprendizagem

00 1

N

nnn

KNnn 10


Fase de ConvergênciaÉ a fase mais demorada, onde se mantém uma taxa de aprendizagem pequena (0.01) e usa-se a menor vizinhança (somente o PE ou seus vizinhos mais próximos)

A escolha do número de PEs é feita experimentalmente. O número de saídas afeta a precisão do mapeamento e o tempo de treinamento

O aumento do número de PEs aumenta a resolução mas aumenta em muito o tempo de treinamento

Exemplo 09&10


Propriedade da SOMAproximação do Espaço de Entrada: A SOM é capaz de preservar a estrutura do espaço de entrada relativamente bemOrdenamento Topológico: Os PEs na saída da SOM estão topologicamente ordenados no sentido de que PEs vizinhos correspondem a regiões similares no espaço de entradaManutenção da densidade: Regiões no espaço de entrada com maior densidade de pontos são mapeadas para regiões maiores no espaço de saída

Exemplo 11


Classificador - Redes LVQ“Learning Vector Quantization”Faz uso de informações de classes para ajustar os limites das regiões de tesselação

Se a regra competitiva produz a saída certa, não há alteração; se a saída estiver errada, os pesos dos PEs devem ser “repelidos” do agrupamento atual, pela regra:

Apresenta problemas se os dados de entrada são multimodais

incorretaclasseparawx

corretaclasseparawxw

jij

jij

ji ,

,

*

*

*

Exemplo 12


Rede Counterpropagation


Rede Counterpropagation

Proposto por Hecht-Nielsen, é semelhante ao treinamento da RBFComo a camada escondida tem ativações digitais, a atualização LMS dos pesos é

ou seja, os pesos da camada de saída são o valor médio do rótulo da classe para aquela região de tesselação em particular

A rede counterpropagation implementa a quantização de vetores e é mais rápida que a MLP

jijijiiij xwdxydw

Exemplo 13


Rede Instar-Outstar de Grossberg


Rede Instar-Outstar de GrossbergA rede outstar pode associar uma entrada escalar a um vetor de saída para recuperação de padrões.

A regra de aprendizagem é obtida alterando os papéis das entradas com a saída, isto é,

Se a saída é substituída pela resposta desejada, o resultado é exatamente o mesmo

A função pode ser a mesma da rede counterpropagation

nwnynxnn ijijijij ww 1


Rede ARTAdaptive Resonance Theory

A rede instar-outstar mapeia dados de entrada em padrões de saída

Esta arquitetura pode ser usada para descoberta de grupos se a resposta desejada torna-se entrada, d(n)=x(n) e a saída do sistema torna-se a camada competitiva

Maior problema: instabilidade devido à aprendizagem instar e recursos limitados

Dilema estabilidade-plasticidade (D-E-P)



Para resolver o D-E-P pode-se usar a porção outstar da rede e exigir que a entrada atual esteja a uma distância pré-especificada do centro do grupo

Grossberg criou um método para adicionar novos PEs à camada competitiva quando não há “ressonância” entre o dado atual e os grupos existentes



A especificação da vizinhança é controlada por um

parâmetro de vigilância

Esta rede é chamada de ART:

É capaz de se dimensionar para agrupamento de dados

Pode ser usada para detectar padrões não vistos

anteriormente, quando cria novos grupos após o

período de aprendizagem

O ajuste do parâmetro de vigilância é delicado

redes competitivas e de kohonen prof. júlio cesar nievola ppgia pucpr

Documents