josé francisco moreira pessanha · arquitetura paralela distribuída de maneira que os paradigmas...

52
Sistema de Inferência Neuro-Fuzzy Adaptativo - ANFIS José Francisco Moreira Pessanha Rio de Janeiro - RJ, 14 de junho de 2002 Pontifícia Universidade Católica do Rio de Janeiro

Upload: others

Post on 25-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

Sistema de Inferência Neuro-Fuzzy Adaptativo - ANFIS

José Francisco Moreira Pessanha

Rio de Janeiro - RJ, 14 de junho de 2002

Pontifícia Universidade Católica do Rio de Janeiro

Page 2: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

1 - Introdução2 - Sistema de Inferência Fuzzy3 - Redes adaptativas4 - ANFIS5 - Algoritmo de aprendizado6 - Exemplos7 - Conclusões8 - Bibliografia

Sumário

Page 3: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

1. Introdução

Soft Computing

Redes Neurais Artificiais

Lógica Fuzzy

Algoritmos Genéticos

A essência da Soft Computing é integrar as diferentes técnicas, de maneira que a sinergia desta integração resulte em si stemas computacionais que incorporarem o conhecimento humano e que sejam capazes de aprender e se adaptarem em ambientes com i ncerteza e imprecisão.

Page 4: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

1. IntroduçãoREDES NEURAIS ARTIFICIAIS Qualidade : capacidade de aprendizagem permite a ex tração das informaçóescontidas em um conjunto de observações ( pares entr ada/saída ).

Inconveniente : é uma abordagem do tipo caixa preta , pois os resultados não são interpretáveis.

SISTEMAS DE INFERÊNCIA FUZZY Qualidade : através de regras fuzzy SE-ENTÂO é possí vel incorporar o conhecimento de um especialista em um sistema compu tacional.

Inconveniente : dificuldades na determinação da bas e de regras e das funções de pertinência.

Uma forma de aproveitar as qualidades de cada técni ca e eliminar os inconvenientes consiste em integrar os Sistemas de Inferência Fuzzy e Redes Neurais, forman do um Sistema Neuro-Fuzzy (SNF).

Page 5: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

1. Introdução

CARACTERÌSTICAS DOS SISTEMAS NEURO FUZZY

1) É um Sistema de Inferência Fuzzy implementado atra vés de uma arquitetura paralela distribuída de maneira que os paradi gmas deaprendizado, comuns às Redes Neurais, possam ser aprove itados.

2) Combina as características de aprendizado das Redes Neurais com ainterpretabilidade dos Sistemas de Inferência Fuzzy, s ão encarados como caixas cinzas (gray box).

3) Permite a integração do conhecimento implícito (co njunto de dados) e explícito (bom senso, conhecimento preliminar ou um e specialista).

4) É uma máquina para extração de conhecimento sob o formato de regras fuzzy SE-ENTÂO.

5) Natureza interdisciplinar

Page 6: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

1. Introdução

EXEMPLOS DE SISTEMAS NEURO-FUZZY

ANFIS - Adaptative Network Fuzzy Inference System (Jan g 1993)

NEFCLASS - Neuro- Fuzzy CLASSification (Nauck 1994)

FSOM - Fuzzy Self Organized Map ( Vuorimaa 1996)

NFH - Neuro-Fuzzy Hierárquico (Souza1997)

Page 7: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy Fuzzy Inference System (FIS)

Sistemas Inferência Fuzzy tratam de forma adequada a não linearidade e a incerteza na modelagem de sistemas complexos. No lu gar de modelos matemáticos precisos o FIS usa a teoria dos conjuntos fuzzy, regras fuzzy SE-ENTÂO e raciocínio fuzzy.

As funções de pertinência e as regras formam a base de conhecimento do FIS

Faz o mapeamento de um vetor de entrada em uma saída escalar

Page 8: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy

CARACTERÌSTICAS DO FIS

1) Habilidade de modelar problemas com propriedades não -lineares

2) Capaz de incorporar tanto o conhecimento objetivo ( modelos matemáticos) quanto o conhecimento subjetivo (inform açáo linguística de difícil tratamento formal)

3) Habilidade de modelar sistemas que envolvam múlti plos especialistas (Importante em análise de decisão)

4) Tratam de forma adequada as incertezas

Page 9: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy TIPOS DE FIS

A diferença entre os três tipos está nos consequente s das regras , e por isso cada tipo de FIS apresenta um método de agregaçã o e defuzzyficação próprio.

1) MANDANIRegras são do tipo : se x é A e y é B então z=C ( A, B e C são conjuntos fuzzy )

2) SUGENORegras são do tipo se x é A e y é B então z = f(x,y)O consequente da regra é uma função não fuzzy das vari áveis de entrada , em geral um polinômio.

3) TSUKAMOTORegras são do tipo : se x é A e y é B então z=CO consequente de cada regra é um conjunto fuzzy, cuj a função de pertinência é monótona

Page 10: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência FuzzyMODELO MANDANI

µA

X Y

1

µA2

µB1

µB2

Mínimo

Máximo

Z = centro de gravidade

se x é A1 e y é B1 então z= C1

se x é A2 e y é B2 então z= C2

Exemplo

Page 11: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência FuzzyMODELO SUGENO

Modelo Sugeno de primeira ordemse x é A1 e y é B1 então z1 = p1 x + q1 y + r1

se x é A2 e y é B2 então z2 = p2 x + q2 y + r2

Exemplo

µA

X Y

1

µA2

µB1

µB2

w

w

1

2

z = p X + q Y +r1 1 1 1

= p X + q Y + r2 2 2z 2 2211 zwzw +=

21

2211

ww

zwzwz

++

=

Produto

Page 12: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

MODELO TSUKAMOTO

2. Sistema de Inferência Fuzzy

se x é A1 e y é B1 então z= C1

se x é A2 e y é B2 então z= C2

Exemplo

2211 zwzw +=

µA

X Y

1

µA2

µB1

µB2

w

w

1

2

z1

z2

21

2211

ww

zwzwz

++=

Produto

Page 13: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy

MANDANI : A defuzzyficação pelo centro de gravidade demanda bastante tempo computacional.

SUGENO : Dificuldade de atribuir um conceito linguístico ao consequente das regras, pois este é uma função não-fuzzy das variáveis de entrada.

TSUKAMOTO : A função de pertinência do consequente é uma função monótona o que é incompatível com o termo linguístico médio.

INCONVENIENTES DOS MODELOS

Page 14: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy

PARTICIONAMENTO DO ESPAÇO DE ENTRADA

FIS com 2 variáveis de entrada, cada uma

representada por três conjuntos difusos

1) Um SNF mapeia regiões fuzzy de entrada em regiões fuzzy de saída através das regras.

2) As regiões são definidas no particionamento dos espaços de entrada/saída

3) O antecedente de uma regra fuzzy define uma região fuzzy no espaço das variáveis de entrada

4) O consequente descreve o comportamento da variável de saída dentro da região fuzzy definida no antecedente

Page 15: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy

PARTICIONAMENTO DO ESPAÇO DE ENTRADA

Métodos de particionamento :

Fuzzy GridAdaptative Fuzzy GridFuzzy BoxesFuzzy ClustersQuadtreeBSP

Fuzzy Grid

A efetividade do mapeamento não linear dos espaço de entrada no espaço de saída depende da partição fuzzy neste espaç os.

Page 16: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência FuzzyMODELAGEM FUZZY

A construção de um modelo fuzzy pode ser feita em dois estágios não totalmente independentes :

ESTÀGIO 1 - Identificação da Estrutura

1.1. Selecione as variáveis de entrada e saída rele vantes ( IDADE e PREÇO DO SEGURO SAÙDE )

1.2. Escolha um tipo de FIS (Mandani, Sugeno ou Tsuk amoto)

1.3. Determine o número de termos linguísticos (por exemplo : BAIXO, MÉDIO, ALTO) associados com cada variável de entrada e saí da. Para o modelo Sugenoespecifique ordem do polinômio na equação do conseq uente.

1.4 Elabore um conjunto de regras fuzzy SE-ENTÂO ( Se IDADE é IDOSO então PREÇO é ALTO )

As 4 etapas do primeiro estágio podem ser executadas a partir doconhecimento que um especialista tem sobre o sistem a que está sendo modelado.

Page 17: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

2. Sistema de Inferência Fuzzy

ESTÀGIO 2 - Ajuste dos parâmetros

2.1 Escolha uma família apropriada de funções de pert inência (TRAPEZOIDAL, GAUSSIANA, FUNÇÂO SINO GENERALIZADA)

2.2 Use o conhecimento do especialista para definir o s parâmetros das funções de pertinência. No caso do modelo Sugeno esp ecifique os coeficientes dos polinômios no consequente.

2.3 Faça um ajuste fino dos parâmetros das funções d e pertinência para melhorar o desempenho do modelo fuzzy. No caso do mod elo Sugenoajuste também os coeficientes dos polinômios nos co nsequentes.

As etapas 2.1 e 2.2 podem ser feitas por um especia lista. Entretanto, a execução da etapa 3 depende da disponibilidade de um conjunt o observações com pares das variáveis de entrada e saída e de uma ferrament a que use os dados numéricos para ajustar os parâmetros

( )ib

i

i

i

a

cxx 2

1

1

−+

Page 18: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

3. Redes adaptativas

Cada nó é uma unidade de processamento : através de u ma função, processa os sinais que recebe e gera uma saída.

Os nós podem ser de dois tipos:

Adaptativos : quando a função do nó é paramétrica ( y = p*x1 +q*x2 )

Fixos : quando a função do nó é fixa ( y = min (x1,x2) )

Vetor de entrada

Vetor de saída

Redes adaptativas são sistemas paralelos distribuidos , compostos por unidades de processamento (nós) dispostas em uma ou mais camadasque são interligadas por conexões geralmente unidirecio nais.

Page 19: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

3. Redes adaptativasA rede faz o mapeamento do vetor de entrada no vetor de saída.

A partir de um conjunto de dados ( pares de entrada e saída ) o que se deseja é ajustar os pesos dos nós adaptativos de form a a minimizar a diferença entre a saída da rede e a saída desejada ( minimizar o erro ).

O processo de ajuste dos pesos é conhecido como TREINAMENTO onde é usado um algoritmo de otimização ( REGRA DE APRENDIZADO ) para ajustar os pesos de forma a minimizar o erro na saída da rede.

Apresenta par entrada/saída

X*

Erro = E = Y-Y*

Y*Y

Retropropaga o erro paraajustar os parâmetros pelo gradiente descendente

( ) αααα

α

∂∂

∂∂−=∑

+E

E

kTT 21

Gradiente descendenteαααα parâmetrok é o tamanho do passo

Page 20: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. ANFIS

1) Desenvolvida por Jang em 1993 cujas motivações fo ram :

a) A necessidade de um método objetivo para inserir o conhecimento de um especialista dentro de uma base de regras de um si stema de inferência fuzzy.

b) A necessidade de ajustar as funções de pertinênci a com o objetivo de minimizar o erro na resposta do sistema de inferência fuz zy

2) É um Sistema de Inferência Fuzzy organizado na fo rma de uma redeadaptativa.

3) Tem a capacidade de fazer o mapeamento de entrada e saída com base no conhecimento de um especialista e em um conjunto de dados formado por pares entrada/saída.

4) É um aproximador universal, ou seja, pode aproximar q ualquer função.

Page 21: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. ANFIS

5) Na ANFIS o conhecimento do especialista é necess ário na definição das variáveis de entrada e saída e na defin ição do número de termos linguísticos.

6) O especialista também define os parâmetros iniciais das funções de pertinência.

7) O número de regras é definido pelo número de funções de pertinência em cada variável de entrada (Arquitetura Ríg ida).

8) A partir de um conjunto de treinamento ( pares de entrada e saída ) o algoritmo de aprendizagem ajusta os parâmetros das funções de pertinência para minimizar o diferença entre a saída des eja e a resposta da ANFIS-

Page 22: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. ANFIS

se x é A1 e y é B1 então z1 = p1 x + q1 y + r1

se x é A2 e y é B2 então z2 = p2 x + q2 y + r2

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

ANFIS

FIS

Arquitetura ANFIS para o modelo Sugeno

µA

X Y

1

µA2

µB1

µB2

w

w

1

2

z = p X + q Y +r1 1 1 1

= p X + q Y + r2 2 2z 2 2211 zwzw +=

21

2211

ww

zwzwz

++

=

Produto

Page 23: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Arquitetura ANFIS/Sugeno - Camada 1Finalidade : Fuzzyficação

1) Cada neurônio representa um conjunto nebuloso das variáveis de entrada.

2) Os neurônios são adaptativos. Em cada neurônio a função de pertinência é uma função parametrizada.

Função sino :

a,b,c são os parâmetros premissa

3) O neurônio produz uma resposta igual ao grau de pertinência da variável de entrada no conjunto nebuloso associado ao neurônio.

B1

B2

Y*

µ(Y*)B1

µ(Y*)B2

( )ib

i

i

i

a

cxx 2

1

1

−+

Y*

µB2

1µB

=

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

Page 24: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Arquitetura ANFIS/Sugeno - Camada 2Finalidade : Cálculo da pertinência do antecedente

1) Os neurônios são fixos.

2) Cada neurônio está associada a uma regra SE-ENTÂO

3) A saída do neurônio é o produto dos graus de pertinência dos antecedentes da regra. Em geral qualquer T-norma pode ser usada

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

Π

µ(x)A2

µ(x)B2

w2

= µ(x)A2

µ(x)B2

Page 25: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Arquitetura ANFIS/Sugeno - Camada 3Finalidade : Cálculo do valor normalizado do grau de ativação da regra

1) Os neurônios são fixos.

2) Cada neurônio está associada a uma regra SE-ENTÂO

3) A saída do neurônio é o valor normalizado do grau de ativação da regra, igual a razão do grau de ativação da regra associada ao neurônio pela soma dos graus de ativação de todas as regras ( wi /Σ w ).

w2Ν

w2

w2

w1=

w1 +

w2

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

Page 26: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Arquitetura ANFIS/Sugeno - Camada 4

Finalidade : Cálculo do consequente da regra

1) Cada neurônio está associada a uma regra SE-ENTÂO

2) Os neurônios são adaptativos. A reposta produzida por cada neurônio é o valor da função no consequente da regra multiplicada pelo grau de ativação normalizado.

3) No modelo Sugeno de primeira ordem a saída deste nó é :

zi

X* Y*

wi

wi

f(x,y)

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

w(px + qy + r)

p, q e r são os parâmetrosconsequentes

Page 27: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Arquitetura ANFIS/Sugeno - Camada 5Finalidade : Defuzzyficação

1) Só há um neurônio fixo

2) A resposta do modelo é a média ponderada dos consequentes das regras, dada por :

w2

Σ z

w1z1

z2

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2

Cam

ada

1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

2211 zwzw +=

21

2211

ww

zwzwz

++

=

Page 28: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. ANFIS

se x é A1 e y é B1 então z= C1

se x é A2 e y é B2 então z= C2

FIS

ANFIS

Cam

ada

1

Cam

ada

2

Cam

ada

3

Cam

ada

4

Cam

ada

5

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

z

w1

w2

w1

w2

z1

z2

z1

w1

z2

w2

µ(x)A1

µ(x)B1

µ(x)A2

µ(x)B2

Arquitetura ANFIS para o modelo Tsukamoto

2211 zwzw +=

µA

X Y

1

µA2

µB1

µB2

w

w

1

2

z1

z2

21

2211

ww

zwzwz

++=

Produto

Page 29: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

5. Algoritmo de aprendizadoa) Usualmente, a identificação dos parâmetros de uma rede adaptativaé feita pelo algoritmo de retropropagação do erro, um algoritmo de otimização, baseado no gradiente descendente (GD), que ajusta os parâmetros visando minimizar o erro na resposta gerada pela rede

b) Este algoritmo tem como desvantagem o fato de convergir lentamente.e um mínimo local

c) Uma meio de acelerar a identificação dos parâmetros, consiste em decompor o conjunto de parâmetros da rede (S) nos subconjuntos não-lineares (S1) e lineares (S2) e utilizar um algoritmo híbrido , uma combinação de mínimos quadrados (MQ) e GD, para identificar os parâmetros

MQ identifica os parâmetros lineares (S2)

GD identifica os parâmetros não lineares (S1)

Page 30: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

5. Algoritmo de aprendizadoANFIS tipo Sugeno de primeira ordem com duas variáv eis de entrada e com dois conjuntos nebulosos para cada variável.

Com os parâmetros premissa fixos (S 1), a saída da ANFIS é uma combinação linear dos parâmetros dos consequentes (S 2) :

2211221

11

21

1 zwzwzww

wz

ww

wz +=

++

+=

( ) ( ) ( ) ( ) 222222111111 rwqywpxwrwqywpxwz +++++=

Neste caso os consequentes são funções lineares dos parâmetros p, q , r

µA

X Y

1

µA2

µB1

µB2

w

w

1

2

z = p X + q Y +r1 1 1 1

= p X + q Y + r2 2 2z 2 2211 zwzw +=

21

2211

ww

zwzwz

++

=

Produto

Page 31: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

5. Algoritmo de aprendizadoO algoritmo de aprendizagem tem duas fases : FORWARD e BACKWARD , executadas de forma alternada até a convergência do algoritmo.

A1

A2

B1

B2

Π

Π

Ν

Ν

Σ

X

Y

w1

w2

X Y

X Y

z

w1

w2

w1

w2

z1

z2C

amad

a 1

Cam

ada

2

Cam

ada

3 Cam

ada

4

Cam

ada

5

f(x,y)

f(x,y)

µ(x)A2

µ(x)A1

µ(x)B1

µ(x)B2

Fase Forward

Na FORWARD os parâmetros não lineares são mantidos fixos; os d ados de entrada alimentam a rede e são propagados para fren te até a que as saídas dos nós da camada 3 sejam obtidas. Em seguida os parâme tros lineares (S2) são identificados por MQ, a saída da rede é obtida e o erro é calculado.

Na BACKWARD os parâmetros lineares são mantidos fixos ; o sinal de erro é propagado na direção da camada de entrada para e o gradiente descendente é usado para ajustar os parâmetros não lineares (S1)

Fase Backward

Page 32: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

4. Algoritmo de aprendizado

a) A aplicação do algoritmo híbrido requer a decomposi ção do conjunto de parâmetros em dois subconjuntos : lineares e não lineares.

b) Na rede ANFIS para o modelo Sugeno isso é conseguido se forem utilizadas funções lineares nos consequentes.

c) Na rede ANFIS do modelo Tsukamoto deve-se aproximar as funções de pertinência nos consequentes por funções lineares, c onforme mostra a figura :

Page 33: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplos

Exemplo 1 - ANFIS como aproximador de função

Exemplo 2 - ANFIS como modelo de previsão

Exemplo 3 - Programa em MATLAB

Page 34: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 1 - Modelo da função Sinc

Uma arquitetura ANFIS tipo Sugeno de primeira ordem é us ada como um aproximador da função Sinc, uma função linear de duas variáveis :

xy

yxz

)sen()sen(=

2 variáveis de entrada x∈∈∈∈[-10,10]e y∈∈∈∈[-10,10]4 conjuntos nebulosos para cada variável Particionamento do espaço de entrada tipo fuzzy gridFunção de pertinência dos antecedentes é a função si no :

Dimensões do modelo ANFIS / Sugeno

4 = 16 regras ( se x é A e y é B então z = px + qy + r )(2+1)*16 = 48 parâmetros lineares no consequente4*2*3 = 24 parâmetros não lineares no antecedente

72 parâmetros

2

( )ib

i

i

i

a

cxx 2

1

1

−+

Page 35: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 1 - Modelo da função Sinc

Conjunto de treinamento formado por 121 pares (x,y)x∈∈∈∈[-10,10]e y∈∈∈∈[-10,10]

Funções de pertinência

Page 36: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 1 - Modelo da função Sinc

Comparação da ANFIS com uma RNA(2,18,1)

A RNA com 73 parâmetros (pesos mais thresholds) foi treinada com o algoritmo quick propagation

No gráfico cada curva é a média de 10 rodadas da ANFIS e 10 rodas da RNA.

As 10 rodadas da ANFIS usaram 10 valores diferentes para o tamanho do passo 0.01,0.02,..., 0.10

As 10 rodadas da RNA foram incializadas com 10 conjuntos de diferentes de pesos aleatórios.

Page 37: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 1 - Modelo da função SincFunções de pertinência iniciais

Funções de pertinência finais após 500 épocasde trei namento

Page 38: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 1 - Modelo da função Sinc

Funções de pertinência finais

Page 39: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de PrevisãoNeste exemplo o modelo ANFIS tipo Sugeno é utilizado para prever valores futuros da série de Mackey-Glass, uma série ca ótica gerada pela solução da seguinte equação diferencial :

( )( ) ( )txtx

tx

dt

tdx1,0

1)(2,0

10 −−−

−=τ

τ

A série x(t) foi gerada a pertir da solução numérica da equação dife rencial para o intervalo 0< t < 2000.

A partir da série gerada foram extraídos 1000 pares de e ntrada-saída, sendo que os primeiros 500 pares foram usados para trein ar a ANFIS eos 500 pares restantes usados na validação da ANFIS i dentificada.

Fazendo t variar de 118 a 1117 o conjunto de pares entrada/saída s foi obtido da seguinte forma :

entrada x(t-18) , x(t-12) , x(t-6), x(t)saída x(t+6)

Page 40: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de Previsão4 variáveis de entrada2 conjuntos fuzzy para cada variável ( SMALL e LARGE )Funções de pertinência tipo sino ( 3 paràmetros)Particionamento Fuzzy Grid

Dimensões do modelo ANFIS / Sugeno

2 = 16 regras se x(t-18) é LARGE1 e x(t-12) é LARGE2 e x(t-6) é LARGE3 e x(t) é LARGE4então z=px(t-18)+qx(t-12) + rx(t-6) + sx(t) + t

4*2*3 = 24 parâmetros não lineares no consequente(4+1)*16 = 80 parâmetros lineares no antecedente

4

104 parâmetros

Page 41: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de PrevisãoApós 500 iterações :

RMSE do conjunto de treinamento = 0,0016RMSE do conjunto de validação = 0,0015

treinamento

validação

Page 42: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de Previsão

Valoresprevistos

e observados

Erro

Page 43: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de PrevisãoFunção de pertinência inicial

Funções de pertinência finais

X(t-18)

X(t-6)

X(t-12)

X(t)

Page 44: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 2 - Modelo de Previsão

Base de regras após treinamentoda ANFIS

Page 45: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLABEditor de arquitetura ANFIS tipo sugeno : comando anfisedit

1) Carrega o conjuntode treinamento 2)Gera o FIS

3)Treina a ANFIS

4) Desenha a arquiteturaANFIS

5) Opção para editarpropriedades do FISe ver superfiície de erro

Page 46: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLAB

3 conjuntos difusospara a variável deentrada com MF tipo sino

Saída com MF tipo linear

entrada

saída

Arquivo de dados *.dat

Page 47: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLAB

Edita MF da entrada Edita MF da saída

Edita regras

Edita propriedadesda ANFIS

Page 48: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLAB

( )5

2senx

e

xy =

Implementação de um modelo tipo ANFIS Sugeno usado comoaproximador da função :

Passo 1 : Cria conjunto de treinamento

X=(0:0.1:10);Y=sin(2*x)./exp(x/5);trnData = [x y];

Passo 2 : Define funções de pertinência e épocas de treinamento

numMFs = 5;mfType = ‘gbellmf´;epoch_n = 20;

5 conjuntos fuzzy para cada variávelfunção de pertinência tipo sino (gbellmf)20 épocas de treinamento

Page 49: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLAB

A rotina ANFIS usa um algoritmo de treinamento híbr ido : MQO + error backpropagation

Passo 3 : Gera um Sistema de Inferência Fuzzy (FIS) tipo Sugeno usando fuzzygrid

in_fismat = genfis1(trnData,numMFs,mfType)

Passo 4 : Treina a ANFIS tipo Sugeno

out_fismat =anfis(trnData,in_fismat,epoch_n)

Passo 5 : Avalia a saída da ANFIS paea o conjunto de treinamento

Z = evalfis(x,out_fismat)

plot(x,y,x,evalfis(x,out_fismat),'+');legend('DADOS DO TREINAMENTO','SAIDA DA ANFIS');xlabel ('X')ylabel ('Y')

Gráfico dos valores reais e a saída da rede

Page 50: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

6. Exemplo 3 - Programa em MATLABGráfico das funções de pertinência inciaisc

[w,mf] = plotmf (in_fismat,'input',1);plot(w,mf);xlabel (' variavel de entrada X')ylabel (' grau de pertinencia')

Gráfico das funções de pertinência finais

[w,mf] = plotmf (out_fismat,'input',1);plot(w,mf);xlabel (' variavel de entrada X')ylabel (' grau de pertinencia')

Page 51: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

7. Conclusões1) A definição dos conjuntos difusos das variáveis d e entrada é uma decisão do especialista e que reflete seu conhecimen to. O treinamento da ANFIS não define a função de pertinência, mas apena s faz um ajuste fino nos parâmetros de forma minimizar o erro na saída da rede .

2) Algumas limitações são o pequeno número de entrada s, a criação da estrutura de forma limitada ou inexistente.

3) Os exemplos mostram que a ANFIS consegue mapear fun ções altamente não lineares. Mesmo sem um conhecimento a priori, a definição inicial dos parâmetros da ANFIS são intuit ivamente razoáveis e orientam para o rápido treinamento.

4) Sob certas condições a ANFIS é equivalente a Red es RBF.

5) Na arquitetura ANFIS apresentada só existe um nó n a última camada, mas atualmente já existem extensões da ANFIS para mú ltiplas saídas, são as arquiteturas MANFIS (Multiple ANFIS) e CANFIS (Coa ctive Neuro-Fuzzy Inference System).

Page 52: José Francisco Moreira Pessanha · arquitetura paralela distribuída de maneira que os paradigmas de aprendizado, comuns às Redes Neurais, possam ser aproveitados. 2) Combina as

8. BibliografiaJang, J.-S. R.; “ANFIS: Adaptive-Network-based Fuzzy Inference Systems,” IEEE Transactions on Systems, Man, and Cybernetics, Vol. 23, No. 3, pp. 665-685, May 1993.

Jang, J.-S. R.; Sun, C.T.; Mizutani, E; Neuro-Fuzzy and Soft Computing : A Computational Approach to Learming and Machine Intelligence, Prentice HallInc, 1997.